CN110680686A

CN110680686A - 一种基于ai开放平台的智能语音导盲系统及使用方法

Info

Publication number: CN110680686A
Application number: CN201911073747.9A
Authority: CN
Inventors: 王丽霞; 洪文鸣; 孙长秋; 江波; 隋美娥
Original assignee: QINGDAO HARBOUR VOCATION AND TECHNICAL COLLEGE
Current assignee: QINGDAO HARBOUR VOCATION AND TECHNICAL COLLEGE
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-01-14

Abstract

本发明公开了一种基于AI开放平台的智能语音导盲系统，包括交互盒和控制及语音输出盒；交互盒的上端安装有摄像头、侧面设置有多个交互盒USB接口，其中一个交互盒USB接口上通过USB插头连接有麦克风组件；控制及语音输出盒的一端设置有超声波传感器，另一端设置有输出盒USB接口、耳机接孔和电池接口。使用方法包括：识别指令；分析处理不同种类指令；合成指令生成语音，通过喇叭或耳机播放。本发明提高了导盲系统的通用性和实用性，能识别多种环境和物体，可应用于更多场所，完善导盲机制，提高导盲效果。体积小，重量轻，集成性更高，交互盒、控制及语音输出盒佩戴灵活，可采用臂包等形式携带，以内部电池或外接充电宝供电。

Description

一种基于AI开放平台的智能语音导盲系统及使用方法

技术领域

本发明涉及一种导盲系统及使用方法，尤其涉及一种基于AI开放平台的智能语音导盲系统及使用方法。

背景技术

中国残联数据显示，中国目前至少有1731万盲人，是世界上盲人最多的国家。在日常生活中，人们95％的信息都是依靠视觉得到的，由于盲人先天的生理缺陷使得他们无法准确及时的发现障碍物，因此，如何安全行走，是盲人生活中最大的问题。他们出行可能会借助导盲犬，借助导盲杖，借助他人的帮助等。导盲犬可带领行人行走，但糟糕的却是，有一些场所禁止导盲犬进入。如果不借助导盲犬，还可以使用导盲杖，非常小心地摸索前进，但盲人出行的道路环境却存在很多问题。中国盲道数量位居世界第二，但日常出行却很少见到有盲人行走，目的是能让盲人的出行更方便的盲道，不仅没有让盲人的出行更容易，甚至还带来了更多的麻烦和困难。由于不详细的无障碍设施建设标准、不科学的盲道设计，使盲道实用性下降。除此之外，盲道占用率高达46％，人行道被大量车辆所占用，设置在人行道上的盲道也被殃及。一个合格的盲道，不仅是要有凹凸块，还要有特定的颜色或表面设计，能让盲人或者弱视者辨认出来盲道在哪里，哪里有转弯，哪里有楼梯或者危险，但据部分省事调查显示，只有32％的场所细分了行进盲道和提示盲道。还有更为危险复杂的情况比如十字路口、车辆人流密集的繁华地段等，由于提示不足，盲人无法准确知道如何行走。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种基于AI开放平台的智能语音导盲系统及使用方法。

为了解决以上技术问题，本发明采用的技术方案是：一种基于AI开放平台的智能语音导盲系统，包括交互盒和控制及语音输出盒；交互盒的上端安装有摄像头、侧面设置有多个交互盒USB接口，其中一个交互盒USB接口上通过USB插头连接有麦克风组件；

交互盒的内部设置有树莓派主控板；树莓派主控板上板载有板载蓝牙和WIFI，并且树莓派主控板与摄像头、交互盒USB接口电连接；

控制及语音输出盒的一端设置有超声波传感器、另一端设置有输出盒USB接口、耳机插孔和电池接口；控制及语音输出盒的内部设置有控制及语音主控板、蓝牙模块和GPS模块；控制及语音主控板与输出盒USB接口电连接；

控制及语音主控板的3号数字端口、4号数字端口分别为软串口RX、TX；蓝牙模块的TXD引脚连接控制及语音主控板的3号数字端口，蓝牙模块的RXD引脚连接控制及语音主控板的4号数字端口，蓝牙模块的VCC引脚和GND引脚分别接5V和接地；

控制及语音主控板的5号数字端口、6号数字端口分别为软串口RX、TX；GPS模块的TXD引脚连接控制及语音主控板的5号数字端口，GPS模块的RXD引脚连接控制及语音主控板的6号数字端口，GPS模块的VCC引脚接5V、GND引脚接地、PPS引脚悬空；

超声波传感器的内部设置有超声波模块；超声波模块的Trig引脚连接控制及语音主控板的11号数字端口；超声波模块的Echo引脚连接控制及语音主控板的12号数字端口；超声波模块的VCC引脚接5V、GND引脚接地；

控制及语音主控板上还直插有中英文语音合成拓展板；中英文语音合成拓展板上的耳机输出口和AMP输出口分别连接有耳机和喇叭；耳机输出口位于控制及语音输出盒的盒身上；控制及语音输出盒的盒身上还开设有位置与喇叭对应的喇叭孔。

进一步地，控制及语音输出盒的盒体上开设有接线孔；位于控制及语音输出盒内部的控制及语音主控板连接导线通过接线孔穿出至控制及语音输出盒外部与超声波传感器相连。

进一步地，麦克风组件包括麦克风、USB声卡和USB插头；USB声卡的一端插置有麦克风、另一端插置有USB转接器，并且通过USB转接器与USB插头相连接；麦克风上设置有录音控制开关。

进一步地，交互盒的盒身上设置有电量指示灯。

一种基于AI开放平台的智能语音导盲系统的使用方法，方法包括以下步骤：

a、识别指令；麦克风接收语音指令，通过树莓派主控板将语音指令预处理，语音内容经预处理后上传至百度AI开放平台语音识别API接口，经识别后返回结果，将指令转换成文字，并与指令模型匹配，匹配成功判定指令有效；

b、判断指令种类；判断指令为图像识别类指令、探测或定位指令或语音生活服务指令；

c、分析处理不同种类指令；图像类指令的处理方法为通过摄像头获取图片或视频；其中，图片经预处理后上传至百度AI开放平台图像识别API接口，经识别后返回结果，生成语音合成内容，经蓝牙发送至控制及语音主控板的中英文语音合成拓展板；视频直接经过OpenCV视觉库或开源计算机视觉处理库运算处理后，返回识别结果，生成语音合成内容，经蓝牙发送至控制及语音主控板的中英文语音合成拓展板；

探测模式指令直接经蓝牙发送至控制及语音主控板，控制及语音主控板控制超声波传感器进行测距，处理测距结果判断前方存在障碍物，将障碍物是否存在及障碍物距离发送到中英文语音合成拓展板；

定位指令先经蓝牙发送至控制及语音主控板，控制及语音主控板控制GPS模块定位后得到位置坐标，然后将位置坐标通过蓝牙返回至树莓派主控板，预处理后上传至百度地图开放平台坐标定位API接口，经识别后返回结果，获得位置信息，将位置信息发送至中英文语音合成拓展板；

d、结果输出；中英文语音合成拓展板接受语音合成指令生成语音，通过喇叭或耳机播放。

本发明所应用到的百度开放平台：

使用的百度开放平台包括百度AI开放平台、百度地图开放平台和百度EasyDL定制化训练和服务平台。

首先对API进行介绍，API(Application Programming Interface，应用程序编程接口)是一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问源码，或理解内部工作机制的细节。基于互联网的应用正变得越来越普及，在这个过程中，有更多的站点将自身的资源开放给开发者来调用。对外提供的API调用使得站点之间的内容关联性更强，同时这些开放的平台也为用户、开发者和中小网站带来了更大的价值。本发明主要应用其远程过程调用(RPC)功能，远程过程调用协议是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。

百度AI开放平台，是面向企业、机构、创业者、研发者，将百度在人工智能领域积累的技术以API或SDK等形式对外共享的在线平台。提供全球前沿的语音识别与合成、OCR、人脸识别、NLP等数十项服务，并可免费使用。

百度EasyDL是一款定制模型训练和服务平台，具有可即用、更轻快、高精度、强安全的特性，用户只需要根据文字提示进行页面操作，就可以完成业务定制深度学习模型的训练。

百度地图API是为开发者免费提供的一套基于百度地图服务的应用接口，包括JavaScript API、Web服务API、Android SDK、iOS SDK、定位SDK、车联网API、LBS云等多种开发工具与服务，提供基本地图展现、搜索、定位、逆/地理编码、路线规划、LBS云存储与检索等功能，适用于PC端、移动端、服务器等多种设备，多种操作系统下的地图应用开发。

百度开放平台的使用方法：

1.直接使用API接口：

系统中语音识别、通用图像识别、文字识别、GPS定位后坐标转换、公交查询功能直接使用API接口，步骤如下：

(1)申请百度账号。

(2)创建相应服务的应用。

(3)获取API钥(API Key)和秘钥(Secret Key)。

(4)获取访问令牌(Access Token)。

(5)向API服务地址使用POST发送请求，在统一资源定位系统(URL)中带上参数，POST中参数按照API接口说明调用。

(6)返回结果通常为json格式。

2.使用定制化图像平台：

系统中特殊物体识别和红绿灯识别功能使用百度EasyDL定制化图像平台，通过向平台上传学习数据来进行模型训练，训练成功后可进行模型校验，模型准确率达标后上传发布即可使用，使用步骤与直接使用API接口步骤相似。

本发明所应用到的超声波传感器：

超声波是一种频率高于20000赫兹的声波，因其频率下限大于人的听觉上限而得名。人们通过对海豚、蝙蝠等生物的研究，才发现自然界存在一种波叫超声波。它的方向性好，穿透能力强，易于获得较集中的声能，在水中传播距离远，可用于测距、测速、清洗、焊接、碎石、杀菌消毒等。

本发明采用HC-SR04超声波传感器，可提供2cm-400cm的非接触式距离感测功能，测距精度可达高到3mm。超声波传感器包括超声波发射器、接收器与控制电路。引脚有Vcc、Gnd、Trig(控制端)、Echo(接收端)。工作时传感器自动发送8个40khz的方波，自动检测是否有信号返回。如有信号返回，通过IO口ECHO输出一个高电平，高电平持续的时间就是超声波从发射到返回的时间。测试距离＝(高电平时间*声速(340M/S))/2。

本发明所应用到的GPS模块：

利用GPS定位卫星，在全球范围内实时进行定位、导航的系统，称为全球卫星定位系统，简称GPS。GPS是由美国国防部研制建立的一种具有全方位、全天候、全时段、高精度的卫星导航系统，能为全球用户提供低成本、高精度的三维位置、速度和精确定时等导航信息，是卫星通信技术在导航领域的应用典范，它极大地提高了地球社会的信息化水平，有力地推动了数字经济的发展。

GPS导航系统的基本原理是测量出已知位置的卫星到用户接收机之间的距离，然后综合多颗卫星的数据就可知道接收机的具体位置。要达到这一目的，卫星的位置可以根据星载时钟所记录的时间在卫星星历中查出。而用户到卫星的距离则通过纪录卫星信号传播到用户所经历的时间，再将其乘以光速得到。当GPS卫星正常工作时，会不断地用1和0二进制码元组成的伪随机码(简称伪码)发射导航电文，当用户接受到导航电文时，提取出卫星时间并将其与自己的时钟做对比便可得知卫星与用户的距离，再利用导航电文中的卫星星历数据推算出卫星发射电文时所处位置，用户在WGS-84大地坐标系中的位置速度等信息便可得知。

本发明GPS模块是集成了RF射频芯片、基带芯片和核心CPU，并加上相关外围电路而组成的一个集成电路。

NEO-6M GPS模块特点：

1、模块预留有TTL接口，可方便使用USB-TTL或者用单片机控制接收GPS数据，支持标准的NMEA-0183和SIRF二进制协议。

2、模块板载陶瓷天线，空旷地方无需GPS外置天线即可方便搜星。

3、预留ipx天线接口，能使用外置天线，搜星能力更强。

4、增加EEPROM存储芯片，设置参数等信息自动存储，掉电后配置自动保存无需重新设置，支持准确1pps输出信号接轨GPS校准。

5、板载MAX2659信号放大芯片，搜索能力更强。

6、平均冷启动时间在35秒，重新获得信息时间0.1秒，误差约为10m。

本发明所应用到的开源计算机视觉库(OpenCV)是一个用于图像处理、分析、机器视觉方面的开源函数库，可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。OpenCV库有超过2500个已优化的算法，既包含了经典的也包含了最先进的计算机视觉和机器学习算法，可以被用在物体识别、图像分割、人脸识别、动作识别、运动分析、机器视觉等诸多领域。

本发明主要运用OpenCV视觉库进行颜色识别、边缘检测、卷积滤波、图像运算、形状检测、直线检测等功能。

本发明控制及语音主控板为Arduino主控板。Arduino是源自意大利的一个开放源代码的硬件项目，该平台包括一片具备简单I/O功效的电路板以及一套整合开发环境软件。Arduino可用来开发独立运作、并具互动性的电子产品，也可以开发与PC相连的周边装置，同时能在运行时与PC上的软件进行交互。Arduino的电路板硬件可以自行焊接组装，也可以购买已组装好的成品，而整合开发环境软件则可通过网络免费下载与使用。Arduino能通过各种各样的传感器来感知环境，板子上的微控制器可以通过Arduino的编程语言来编写程序，编译成二进制文件，烧录进微控制器。对Arduino的编程是通过Arduino编程语言(基于Wiring)和Arduino开发环境(基于Processing)来实现的。

本发明使用Arduino UNO R3控制板。Arduino Uno是一款基于ATmega328P的微控制器板。它有14个数字输入/输出引脚(其中6个可用作PWM输出)，6个模拟输入，16MHz晶振时钟，USB连接，电源插孔，ICSP接头和复位按钮。只需要通过USB数据线连接电脑就能供电、程序下载和数据通讯。

选择原因：1、低价格：和其它平台相比，Arduino比较便宜，可以节约成本。2、开放性：Arduino的硬件原理图、电路图、IDE软件及核心库文件都是开源的，在开源协议范围内里可以任意修改原始设计及相应代码。3、社区与第三方支持：Arduino有着众多的开发者和用户，你可以找到他们提供的众多开源的示例代码、硬件设计。例如，可以在Github.com、Arduino.cc、Openjumper.com等网站找到Arduino第三方硬件、外设、类库等支持，更快更简单的扩展你的Arduino项目。4、硬件开发的趋势：Arduino不仅仅是全球最流行的开源硬件，也是一个优秀的硬件开发平台，更是硬件开发的趋势。Arduino简单的开发方式使得开发者更关注创意与实现，更快的完成自己的项目开发，大大节约了学习的成本，缩短了开发的周期。

本发明使用的树莓派主控板为最新版本Raspberry Pi 3Zero W开发板，配备1.4GHz 64位四核Cortex-A53处理器，1GB RAM，USB2上的千兆以太网、以太网供电功能、CSI摄像头连接器以及DSI显示连接器、一个40针GPIO接头。该平台的资源及其802.11ac无线局域网和蓝牙/BLE无线连接，可为所连接的设备提供紧凑的智能解决方案。

选择原因：1、本设计需要连接联互联网进行API调用和数据分析并与Arduino通信，而Raspberry板载WIFI和蓝牙芯片，无需外接模块，在网络开发和数据通信方面具有优势。2、本设计采用python作为编程语言之一，树莓派支持python语言开发。3、Raspberry开发板搭载CSI Camera接口，并有配套摄像头，方便进行图像开发。

蓝牙，是一种支持设备短距离通信(一般10m内)的无线电技术。本发明所选用HC-06蓝牙模块主要用于短距离的数据无线传输，可方便的实现两个模块之间的数据互通。避免繁琐的导线连接，能直接代替串口线。本发明中Raspberry作为主机，HC-06连接Arduino为从机，由Raspberry搜索连接。

本发明的语音输出采用Speech Synthesis Shield中英文语音合成扩展板，为直插式扩展盾板，体积小使用方便，避免复杂的接线，不占用引脚，可通过耳机和扩音器输出。扩展板采用科大讯飞语音合成芯片，支持中英文合成，支持音量调节，语速语调调节，可更改男女发音人。其中语音合成模块的Prog端为使语音合成模块与Arduino断开，Run端为下载完程序后使语音合成模块与Arduino连接，为他们之间的通信提供了方便。

本发明提高了导盲系统的通用性，能识别更多环境和物体，可应用于更多场所。集成性更高，应用人工智能开放平台，可结合多方面分析数据，完善导盲机制，提高导盲效果，使用户得到更加人性化、智能化的导盲体验，更大程度的帮助盲人出行。并且整个系统体积较小，可采用臂包形式携带，以充电宝供电。

附图说明

图1为本发明的交互盒结构示意图。

图2为本发明的控制及语音输出盒结构示意图。

图3为麦克风组件的结构示意图。

图4为控制及语音主控板的电气原理图。

图5为蓝牙模块的的电气原理图。

图6为超声波模块的的电气原理图。

图7为GPS模块的的电气原理图。

图8为实施例一的方法流程图。

图9为实施例二的方法流程图。

图10为实施例三的方法流程图。

图11为实施例四的方法流程图。

图12为实施例五的方法流程图。

图13为实施例六的方法流程图。

图14为实施例七的方法流程图。

1、交互盒；2、控制及语音输出盒；3、摄像头；4、交互盒USB接口；5、USB插头；6、超声波传感器；7、输出盒USB接口；8、喇叭孔；9、接线孔；10、麦克风；11、USB声卡；12、USB转接器；13、录音控制开关；14、电量指示灯、15、耳机插孔；16、电源接口。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一、通用物体识别：

图1～3所示的一种基于AI开放平台的智能语音导盲系统，包括交互盒1和控制及语音输出盒2；交互盒1的上端安装有摄像头3、侧面设置有多个交互盒USB接口4，其中一个交互盒USB接口上通过USB插头5连接有麦克风组件；

交互盒1的内部设置有树莓派主控板；树莓派主控板上板载有板载蓝牙和板载WIFI，并且树莓派主控板与摄像头、交互盒USB接口电连接；其中摄像头接Raspberry CSICamera接口。

交互盒的盒身上设置有电量指示灯14。根据实际应用在交互盒的内部安装电池，电量指示灯显示电池电量，当电池电量不足的时候可通过交互盒USB接口进行充电。

控制及语音输出盒2的一端设置有超声波传感器6、另一端设置有输出盒USB接口7、耳机插孔15和电池接口16；电池接口用于充电，耳机插口中插入耳机可通过耳机收听语音。控制及语音输出盒的内部设置有控制及语音主控板、蓝牙模块和GPS模块；控制及语音主控板与输出盒USB接口电连接；

结合图4和图5所示，控制及语音主控板的3号数字端口、4号数字端口分别为软串口RX、TX；蓝牙模块的TXD引脚连接控制及语音主控板的3号数字端口，蓝牙模块的RXD引脚连接控制及语音主控板的4号数字端口，蓝牙模块的VCC引脚和GND引脚分别接5V和接地；

结合图4和图7所示，控制及语音主控板的5号数字端口、6号数字端口分别为软串口RX、TX；GPS模块的TXD引脚连接控制及语音主控板的5号数字端口，GPS模块的RXD引脚连接控制及语音主控板的6号数字端口，GPS模块的VCC引脚接5V、GND引脚接地、PPS引脚悬空；

结合图4和图6所示，超声波传感器的内部设置有超声波模块；超声波模块的Trig引脚连接控制及语音主控板的11号数字端口；超声波模块的Echo引脚连接控制及语音主控板的12号数字端口；超声波模块的VCC引脚接5V、GND引脚接地；

控制及语音主控板上还直插有中英文语音合成拓展板；中英文语音合成拓展板上的耳机输出口和AMP输出口分别连接有耳机和喇叭；耳机输出口位于控制及语音输出盒的盒身上；控制及语音输出盒的盒身上还开设有位置与喇叭对应的喇叭孔8。

控制及语音输出盒2的盒体上开设有接线孔9；位于控制及语音输出盒内部的控制及语音主控板连接导线通过接线孔9穿出至控制及语音输出盒外部与超声波传感器相连。

麦克风组件包括麦克风10、USB声卡11和USB插头；USB声卡的一端插置有麦克风、另一端插置有USB转接器12，并且通过USB转接器与USB插头相连接；麦克风上设置有录音控制开关13。

如图8所示，在识别通用物体时，本发明的使用方法包括以下步骤：

b、判断指令种类为图像识别类或文字识别类；

c、分析处理指令；将摄像头预热并且进行拍照采集图像并格式化保存；获取通行令牌；以base64格式编码图像；设置URL参数；如果识别命令内容为文字识别，则向百度AI开放平台文字字识别接口发送请求；如果识别命令内容为物体识别，则向百度AI开放平台图像识别接口发送请求；识别失败则输出错误信息，识别成功解析返回json数据，以GB2312格式编码结果信息；生成语音合成内容，经蓝牙发送至控制及语音主控板的中英文语音合成拓展板；

通用物体识别可以识别功能能识别生活中的大部分物体，没有针对性，功能实现方式为调用百度AI开放平台提供的通用物体识别API接口，对于输入的一张图片，输出图片中的多个物体及场景标签。调用方式为请求URL(统一资源定位符,是互联网上标准资源的地址。)数据格式，向API服务地址使用POST发送请求，在URL中带上参数。

实施例二、定制化物体识别：

本实施例与实施例一的区别在于：本实施例的使用方法可以自定义定制识别目标，如公交站牌、标志牌等各种信息标牌，当图像中出现指定物体时返回结果。功能实现方式为使用百度EasyDL定制化训练和服务平台，用户根据自身需要定制化训练模型，识别对象由用户确定，模型训练完成后申请发布，发布成功即可调用，程序通过将待识别图像与模型进行匹配比对，得到识别结果。调用步骤与通用物体识别步骤相似，区别为调用接口地址不同。如识别出图像中有指定物体，则返回识别准确率和指定物体在图像中的位置。如图9所示，具体方法如下：

b、判断指令种类为特殊图像识别指令；

c、分析处理指令；将摄像头预热并且进行拍照采集图像并格式化保存；获取通行令牌；以base64格式编码图像；设置URL参数；向百度EasyDL定制化训练和服务平台发送请求，在模型库中进行比对，并返回识别结果；识别未成功时，说明未发现指定物体，则以GB2312格式编码识别结果信息；生成语音合成内容，经蓝牙发送至控制及语音主控板的中英文语音合成拓展板；如果识别成功，则确定识别物体在画面中的位置，解析返回json数据，再以GB2312格式编码结果信息；生成语音合成内容，经蓝牙发送至控制及语音主控板的中英文语音合成拓展板；

d、结果输出；中英文语音合成拓展板接受语音合成指令生成语音，通过喇叭或耳机中播放。

实施例三、红绿灯的识别：

本实施例首先通过定制化图像识别判断图像中是否有红绿灯，如识别判定结果为前方发现红绿灯，则通过数据返回结果中红绿灯在图像中的位置坐标将红绿灯裁剪出来，单独保存，再通过Opencv判断为红灯还是绿灯，指导盲人通行。如图10所示，与实施例一的区别具体如下：

b、判断指令种类为红绿灯识别指令；

c、分析处理指令；将摄像头预热并且进行拍照采集图像并格式化保存；获取通行令牌；以base64格式编码图像；设置URL参数；向百度EasyDL定制化训练和服务平台发送请求，在模型库中进行比对，并返回识别结果；

识别出红绿灯信息后，确定红绿灯在画面中的位置，裁剪红绿灯并保存为新图像；Opencv读入裁剪后的图像，设置卷积核；设定红色阈值并把BGR图像转换为HSV格式；把HSV图片中在颜色范围内的区域变成白色，其他区域变成黑色，用卷积进行滤波；对图像进行位运算；再将图像变成二值图像；发现轮廓，轮廓按照面从小到大排列；遍历所有轮廓后将轮廓分解为识别对象的左上角坐标和宽、高；给识别结果写上标号；

若识别到红色，则意为前方红灯请等待，并以GB2312格式编码识别结果信息；生成语音合成内容，经蓝牙发送至的中英文语音合成拓展板；

若识别到绿色，则意为绿灯通行，并以GB2312格式编码识别结果信息；生成语音合成内容，经蓝牙发送至控制及语音主控板的中英文语音合成拓展板；

实施例四、语音识别：

语音识别主要使用python第三方库pyaudio进行录音和数据处理，处理完成后调用百度AI开放平台的语音识别接口识别录音数据并转换为文字。之后将文字与指令库数据进行比较，判断是否为有效指令，若为有效指令，则继续执行后续程序，若为无效指令，则命令用户重新输入。如图11所示，与实施例一的区别具体如下：

a、接收指令；通过蓝牙将树莓派主控板与Arduino主控板相连接；设置录音参数和上传数据参数；录音准备，等待用户输入；按下录音控制开关，使麦克风接收录音指令开始录音，松开结束；格式化保存录音文件；

b、分析处理录音文件；将录音文件的采样率转换为16000；获取通行令牌；编码录音文件并设置请求参数；向百度AI语音识别接口发送请求；若返回有效结果则与程序设定的指令库比对，比对成功语音识别完成，否则通过语音提醒用户重新输入。

实施例五、语音生活服务：

语音生活服务是通过联网获取时间和天气信息，或通过调用百度地图API获取公交信息。如图12所示，具体方法如下：

b、判断指令种类为生活服务指令；

c、分析处理指令；查询实时公交时，提醒用户输入起点和终点，获取通行令牌；向百度地图API接口发送请求；通过接口坐标转换功能将起点和终点转换为百度坐标；转换完成后再向百度地图API接口发送请求后返回公交车、换乘、距离、运行时间等信息；解析返回json数据；以GB2312格式编码公交信息；生成语音合成内容，经蓝牙发送至控制及语音主控板的中英文语音合成拓展板；

查询天气时，提醒用户输出查询城市，转换为城市代码，连接网络查询天气；解析返回json数据；以GB2312格式编码天气信息；生成语音合成内容，经蓝牙发送至控制及语音主控板的中英文语音合成拓展板；

查询时间时，连接网络查询时间；以GB2312格式编码时间信息；生成语音合成内容，经蓝牙发送至控制及语音主控板的中英文语音合成拓展板；

实施例六、斑马线识别：

斑马线识别主要利用Opencv视觉库的颜色识别来实现，识别画面中白色的斑马线在图像中的位置来指导盲人行走。如图13所示，具体方法如下：

b、判断指令种类为斑马线识别指令；

c、分析处理指令；通过摄像头获取视频；读取帧和画面尺寸；利用Opencv视觉库设置卷积核；设定白色的阈值；将RBG图像转换为HSV图像；利用卷积进行滤波，对图像进行位运算，将图像变成二值图像；发现轮廓，轮廓按照面从小到大排列；遍历所有轮廓后将轮廓分解为识别对象的左上角坐标和宽、高；去除面积过大或过小干扰轮廓；在图像上画矩形并给识别结果写上标号；

轮廓位于画面左方时，识别结果为偏离斑马线，提醒用户靠左行走；轮廓位于画面中心时，识别结果为未偏离斑马线，提醒用户继续行走；轮廓位于画面右方时，识别结果为偏离斑马线，提醒用户靠右行走；

将上述识别结果以GB2312格式编码；生成语音合成内容，经蓝牙发送至控制及语音主控板的中英文语音合成拓展板；

实施例七、楼梯台阶识别：

楼梯台阶识别主要利用Opencv视觉库的直线识别来实现，识别画面中直线的数量、长短和平行直线的数量来判断前方是否有楼梯或者台阶，提醒盲人注意。如图14所示，具体方法如下：

b、判断指令种类为楼梯台阶识别指令；

c、分析处理指令；通过摄像头获取视频；读取帧；将RBG图像转换为灰度图像；进行边缘检测和霍夫变换直线检测；计算直线长短并排除干扰直线；在图像中画出直线并标号；计算直线斜率判断平行直线数量；平行直线的数量大于15则得到发现楼梯的识别结果；以GB2312格式编码识别结果；生成语音合成内容，经蓝牙发送至控制及语音主控板的中英文语音合成拓展板；

实施例八、文字识别：

文字识别可以识别手写、打印以及标志牌上的文字等，支持中英文识别具，调用方式为请求URL数据格式，向百度AI开放平台文字识别API接口使用POST发送请求，在URL中带上参数。具体步骤与实施例一通用物体识别相同。

本发明的使用原理为：

系统采用Raspberry控制板和Arduino控制板作为主控板，Raspberry连接麦克风和摄像头，实现用户指令接收、图像采集和数据处理的功能。Arduino连接GPS模块、超声波模块和蓝牙模块，并使用语音合成扩展板，实现障碍物探测、定位、语音合成并输出给用户的功能。Raspberry通过板载WIFI连接互联网进行网络开发，通过板载蓝牙连接Arduino蓝牙模块实现无线通信。Raspberry作为一级控制板接收用户命令，通过蓝牙向Arduino发送指令或数据，控制Arduino工作，Arduino作为二级控制板输出结果返回用户。

本发明与现有技术相比具有的优点为：

a、可以探测障碍物并向盲人发出警告；通过GPS定位帮助盲人掌握自身位置；通过过摄像头获取当前环境信息和识别前方有什么物体；识别特定物体，寻找前方是否有用户想要寻找的物体，如公交站牌、指示牌、生活物品等；识别红绿灯和斑马线，引导盲人通过马路；识别文字，通过语音播报；识别台阶楼梯，提醒盲人注意；通过语音查询向用户提供时间、天气等方便出行的必要信息；功能多样，提高了导盲系统的通用性，应用场所广泛；

b、通过语音交互和盲人交流，使用户得到更加人性化、智能化的导盲体验；

c、整个系统分为两个部分，减小了体积和重量，增强了灵活性。交互盒佩戴位置可根据需要佩戴在头部、肩部或者背包背带处，控制及语音输出盒可放置在臂包、腰包或者背包中，两部分通过蓝牙连接，使用灵活；以内部电池或外接充电宝供电。可同时配合导盲仗等导盲设备使用，实现更佳的导盲效果。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种基于AI开放平台的智能语音导盲系统，其特征在于：包括交互盒(1)和控制及语音输出盒(2)；所述交互盒(1)的上端安装有摄像头(3)、侧面设置有多个交互盒USB接口(4)，其中一个交互盒USB接口上通过USB插头(5)连接有麦克风组件；

所述交互盒(1)的内部设置有树莓派主控板；所述树莓派主控板上板载有板载蓝牙和板载WIFI，并且树莓派主控板与摄像头、交互盒USB接口电连接；

所述控制及语音输出盒(2)的一端设置有超声波传感器(6)、另一端设置有输出盒USB接口(7)、耳机插孔(15)和电池接口(16)；所述控制及语音输出盒的内部设置有控制及语音主控板、蓝牙模块和GPS模块；所述控制及语音主控板与输出盒USB接口电连接；

所述控制及语音主控板的3号数字端口、4号数字端口分别为软串口RX、TX；所述蓝牙模块的TXD引脚连接控制及语音主控板的3号数字端口，蓝牙模块的RXD引脚连接控制及语音主控板的4号数字端口，蓝牙模块的VCC引脚和GND引脚分别接5V和接地；

所述控制及语音主控板的5号数字端口、6号数字端口分别为软串口RX、TX；所述GPS模块的TXD引脚连接控制及语音主控板的5号数字端口，GPS模块的RXD引脚连接控制及语音主控板的6号数字端口，GPS模块的VCC引脚接5V、GND引脚接地、PPS引脚悬空；

所述超声波传感器的内部设置有超声波模块；所述超声波模块的Trig引脚连接控制及语音主控板的11号数字端口；超声波模块的Echo引脚连接控制及语音主控板的12号数字端口；超声波模块的VCC引脚接5V、GND引脚接地；

所述控制及语音主控板上还直插有中英文语音合成拓展板；中英文语音合成拓展板上的耳机输出口和AMP输出口分别连接耳机和喇叭；所述耳机输出口位于控制及语音输出盒的盒身上；控制及语音输出盒的盒身上还开设有位置与喇叭对应的喇叭孔(8)。

2.根据权利要求1所述的基于AI开放平台的智能语音导盲系统，其特征在于：所述控制及语音输出盒(2)的盒体上开设有接线孔(9)；位于控制及语音输出盒内部的控制及语音主控板连接导线通过接线孔(9)穿出至控制及语音输出盒外部与超声波传感器相连，用户可自行选择传感器数量和安装位置。

3.根据权利要求1所述的基于AI开放平台的智能语音导盲系统，其特征在于：所述麦克风组件包括麦克风(10)、USB声卡(11)和USB插头；所述USB声卡的一端插置有麦克风、另一端插置有USB转接器(12)，并且通过USB转接器与USB插头相连接；所述麦克风上设置有录音控制开关(13)。

4.根据权利要求1所述的基于AI开放平台的智能语音导盲系统，其特征在于：所述交互盒的盒身上设置有电量指示灯(14)。

5.一种如权利要求1所述基于AI开放平台的智能语音导盲系统的使用方法，其特征在于：所述方法包括以下步骤：