CN110728308A - 基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法 - Google Patents

基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法 Download PDF

Info

Publication number
CN110728308A
CN110728308A CN201910909431.2A CN201910909431A CN110728308A CN 110728308 A CN110728308 A CN 110728308A CN 201910909431 A CN201910909431 A CN 201910909431A CN 110728308 A CN110728308 A CN 110728308A
Authority
CN
China
Prior art keywords
keyword
voice
module
detection module
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910909431.2A
Other languages
English (en)
Other versions
CN110728308B (zh
Inventor
彭文杰
余菲
林坤阳
林泽锋
郑东润
范智博
罗家祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910909431.2A priority Critical patent/CN110728308B/zh
Publication of CN110728308A publication Critical patent/CN110728308A/zh
Application granted granted Critical
Publication of CN110728308B publication Critical patent/CN110728308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明属于计算机视觉与语音识别技术领域,涉及一种基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法。交互式导盲系统包括中央处理器及与其相连的深度相机、高端语音合成装置、麦克风和电源,其中:中央处理器:用于系统控制、数据处理和信号传递,其上部署有交互式导盲系统的控制软件,包括:目标检测单元、语音识别单元和道路规划单元;深度相机:用于对当前场景进行图像采集,生成RGB图像与深度图;高端语音合成装置:用于对所述中央处理器输出的语音信息进行合成,播放寻物结果或道路规划情况;麦克风:用于采集用户语音信息,并传送给中央处理器;电源:用于给所述中央处理器供电。本发明能辅助盲人更好地生活,提高盲人的生活质量。

Description

基于改进Yolov2目标检测和语音识别的交互式导盲系统及 方法
技术领域
本发明属于计算机视觉与语音识别技术领域,涉及基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法。
背景技术
近年来,随着计算机科学技术的发展,在新的智能技术方法深度学习的巨大推动下,人工智能的各项技术,譬如语音识别技术、图像识别技术、数据挖掘技术等都有了实质性的发展并且成功地应用在多项产品中。深度学习是目前计算机视觉领域研究的重点和热点,也是解决复杂环境问题中常用的方法之一。计算机视觉作为人类科学技术发展历史上的一个里程碑,对智能技术的发展起到举足轻重的作用,毋庸置疑地受到了学术界以及工业界的广泛关注。在现有的深度学习方法中,神经网络在目标检测方面取得了很好的成果。
目前,在市面上出现的智能化导盲系统,主要是基于红外线辅助以导盲杆帮助盲人出行,没有实现智能的交互性,而且安全性低下,基本还是依靠盲人自己的判断去决定,事故率较高。最近兴起的盲人智能眼镜需要配人工客服远程实现交互,难以达到普遍推广使用,而且成本高,耗费资源多,受网络限制较大。
目前,利用深度学习技术帮助盲人寻找物体的智能化系统尚未成熟,主要原因是寻找物体要保证精度和准确度,需要的计算资源过于庞大,携带式设备无法支撑如此庞大的算力。目前,已有部分低功耗目标检测网络取得跟常用目标检测网络相近的准确度与精确度,但是所需的计算资源已大幅减小,这使得在便携式携带设备中部署深度神经网络成为可能。
发明内容
针对目标检测方法存在着运算资源消耗大,移植到嵌入式系统上困难及目前的智能化导盲系统交互性和实时性不强的现状,本发明提供基于改进Yolov2目标检测和语音识别的交互式导盲系统,具有良好的交互性和实时性,极大地提高了盲人用户的生活体验。
本发明还提供一种基于改进Yolov2目标检测和语音识别的交互式导盲方法。
本发明的交互式导盲系统采用如下技术方案实现:
基于改进Yolov2的目标检测和语音识别的交互式导盲系统,包括中央处理器及与其相连的深度相机、高端语音合成装置、麦克风和电源,其中:
中央处理器:用于系统控制、数据处理和信号传递;所述中央处理器上部署有交互式导盲系统的控制软件,包括:目标检测单元、语音识别单元和道路规划单元;
深度相机:用于对当前场景进行图像采集,生成RGB图像与深度图;
高端语音合成装置:用于对所述中央处理器输出的语音信息进行合成,播放寻物结果或道路规划情况;
麦克风:用于采集用户语音信息,并将采集的用户语音信息传送给所述中央处理器;
电源:用于给所述中央处理器供电。
进一步地,所述目标检测单元基于改进的Yolov2卷积神经网络实现,对特定整理的数据集进行训练,以实现物体定位与分类功能帮助盲人寻找物体。
进一步地,所述改进的Yolov2卷积神经网络包括特征提取层和检测层,使用深度可分离卷积操作取代特征提取层的卷积操作,所述深度可分离卷积操作分为逐深度卷积和逐点卷积,逐深度卷积将输入的特征向量根据通道数的维度进行分离操作,形成个数与通道数量相同的分离的特征向量,将分离的特征向量分别与k×k大小的卷积核进行卷积操作,完成该操作以后按原顺序将分离的特征向量融合,再使用1×1的卷积核进行逐点卷积对输出的通道数量进行压缩。
进一步地,所述改进的Yolov2卷积神经网络特征提取层中的卷积模块block工作流程包括:
①当输入一个特征向量到block中之后,使用1×1的卷积核对其进行通道数量的延伸并使用ReLU6作为其激活函数F(x)=min(max(0,x),6),再使用k×k的卷积核,以所述深度可分离卷积方式进行操作,此时输出的特征向量V1的维度为:c×h×w,其中:c为通道数量,h为特征向量的高度,w为特征向量的宽度;
②将特征向量V1制作一份副本V2,将特征向量V2进行全局池化的操作以得到c×1×1大小的特征向量,再对其输入至两个连续的全连接层进行通道的压缩以及延伸,保持输出的特征向量维度大小不变,将其通过sigmoid函数激活使其所有值缩放至0到1之间构成维度大小为c×1×1的特征向量V3;
③将特征向量V3分别对特征向量V1的每个通道做加权乘法,并使用1×1的卷积核进行通道压缩以使得其通道与原始输入特征向量通道数量相同,再将其两者叠加以保留部分原始特征信息。
进一步地,所述语音识别单元用于对语音指令编码并输出语音信息,包括唤醒词检测模块、关键词检测模块和语音指导模块,在麦克风的采样点达到一定数目后对音频进行一次处理,在交互式导盲系统初始情况下,语音识别单元为节省功耗,只有唤醒词检测模块工作,其余模块处于待机状态。
优选地,所述唤醒词检测模块负责对唤醒词的检测与识别,系统运行经由唤醒词启动,其工作流程包括:
①当用户发出指令的时候,对麦克风采集到的时域信号进行基本处理,包括分帧、加窗、傅里叶变换和取对数等,获取其语谱图;
②对语谱图进行编码,得到信号编码;
③基于信号编码对音频中是否含有唤醒词进行预测,信号编码经过门控循环单元层、全连接层等,中间使用随机失活实现神经网络的正则化,输出音频中含有唤醒词的概率值;
④将唤醒词的概率值与唤醒词阈值作比较,若大于唤醒词阈值则成功唤醒,启动关键词检测模块,暂时关闭唤醒词检测模块,否则系统不作应答,重复唤醒词检测步骤。
优选地,所述关键词检测模块用于对关键词的检测与识别,其工作流程包括:
①启动关键词检测模块后,关键词检测模块处理麦克风采集到的信号,获取其语谱图;
②由于关键词检测部分实质可视为唤醒词检测的复数化,大致步骤同唤醒词检测模块,区别为最终输出为各个预设关键词存在于音频中的概率值向量;
③将各关键词的概率值与关键词阈值作比较,输出概率值大于关键词阈值的关键词即为被检测到,依据被检测到的关键词数量来执行后续操作,具体地:
若未检测到关键词,则重复关键词检测步骤,指定时间内一直未能检测到有效关键词则该检测模块进入待机状态,重启唤醒词检测模块;
若检测到多个关键词,则启动语音指导模块,语音提醒用户每次只能语音输入一个关键词并要求重新输入,同时重启关键词检测模块;
若检测到一个关键词,则根据所检测到的关键词启动相应的目标检测模块或道路规划模块,执行相应的行为。
优选地,所述语音指导模块负责通过语音实现对用户的提醒与指导功能,其工作流程包括:
①当关键词检测模块检测到多个关键词时,通过高端语音合成装置播放预设的语音对用户进行功能提醒;
②在目标检测单元或道路规划单元启动后,根据目标检测单元或道路规划单元的输出结果,高端语音合成模块播放预设的语音提醒盲人用户,包括:
③在目标检测模块启动后,若当前目标检测无结果,播放预设的语音提醒用户移动;若成功检测到目标,则依据目标检测模块输出的目标中心坐标指导用户移动;
④在道路规划模块启动后,根据当前障碍物的分布状况输出合适的路径给盲人用户,并播放预设的语音提醒用户移动。
优选地,所述道路规划单元使用基于双通道输入的神经网络对可行进的方向进行分类处理以实现对前方道路进行路径规划的功能,包括图像预处理模块和基于双通道输入的神经网络模块。
本发明的交互式导盲方法采用如下技术方案实现:
一种基于改进Yolov2目标检测和语音识别的交互式导盲方法,包括:
S101、当麦克风的采样点达到一定数目后对交互式导盲系统对音频进行一次处理,语音识别单元的唤醒词检测模块对音频中的唤醒词进行检测与识别,当识别到有唤醒词且唤醒词概率值大于唤醒词阈值时,则启动关键词检测模块,暂时关闭唤醒词检测模块,进入步骤S102;否则系统不作应答,重复唤醒词检测步骤S101;
S102、关键词检测模块对对音频中的关键词进行检测与识别,将识别出的各关键词的概率值与关键词阈值作比较,输出概率值大于关键词阈值的关键词即为被检测到的关键词,依据被检测到的关键词数量来执行后续操作,具体地:
若未检测到关键词,则重复关键词检测步骤,指定时间内一直未能检测到有效关键词则该检测模块进入待机状态,重启唤醒词检测模块;
若检测到多个关键词,则启动语音指导模块,语音提醒用户每次只能语音输入一个关键词并要求重新输入,同时重启关键词检测模块;
若检测到一个关键词,则根据所检测到的关键词启动相应的目标检测单元或道路规划单元,执行寻找物体或实时道路规划行为。
与现有技术相比,本发明包括如下优点及有益效果:
(1)本发明创新性地将寻物功能与导盲功能相结合,本发明的交互式导盲系统具有帮助盲人寻找物体功能,减少了盲人对家人的依赖;具有自主路径规划功能,提高了盲人的出行安全性;通过语音唤醒,为盲人使用导盲设备提供了便利;有很好的场景描述功能、便利盲人了解身边事物;进而辅助盲人更好地生活,提高盲人的生活质量。
(2)设计的轻量化Yolov2网络模型,解决了在NVIDIA Jetson TX2开发套件由于算力不足和嵌入式平台速度滞后等问题,在满足设备检测准确率的基础上,极大程度地提高了图像检测速度。
(3)针对开源数据集和实际场景存在数据不同分布的问题,通过自主制作部分数据集,并在此基础上对轻量化神经网络进行训练,并在实际场景中验证效果。对于提高盲人的生活质量具有积极的应用前景和理论意义。
附图说明
图1为本发明一个实施例中交互式导盲系统结构图;
图2为本发明一个实施例中交互式导盲系统示意图;
图3为本发明一个实施例中深度可分离卷积示意图;
图4为本发明一个实施例中Yolov2卷积神经网络特征提取层中的卷积模块block示意图;
图5为本发明一个实施例中改进Yolov2卷积神经网络结构图;
图6为本发明一个实施例中双通道输入的神经网络结构图;
图7为本发明一个实施例中交互式导盲方法流程图。
具体实施方式
下面通过具体实施方式对本发明作进一步详细地描述,但本发明的实施方式并不限于此。
为了更好地描述本发明,对交互式导盲系统的研究与实现过程中,所用到的都是在相关论文上引用到的深度学习与神经网络的训练方法和设计原理,出现的符号都是可以找到相应的理论依据和源码,在此不在赘述。
一种基于改进Yolov2的目标检测和语音识别的交互式导盲系统,如图1、2所示,包括中央处理器及与其相连的深度相机、高端语音合成装置、麦克风和电源,其中:
中央处理器:用于系统控制、数据处理和信号传递,确保整套系统稳定运行。
本实施例中,采用NVIDIA Jetson TX2开发套件作为中央处理器。
深度相机:用于对当前场景进行图像采集,生成RGB图像与深度图。本实施例中,采用Intel-D435深度相机。
高端语音合成装置,用于对中央处理器输出的语音信息进行合成,播放寻物结果或道路规划情况。本实施例中,高端语音合成装置为YS-XFSV2高端语音合成装置。
麦克风:用于采集用户语音信息,并将采集的用户语音信息传送给中央处理器。
电源:用于给中央处理器供电。本实施例中为19V移动电源,能给TX2提供持久电量供应,使该系统可以不受电线控制,大大提高可携带性。
本实施例中,在中央处理器上部署有交互式导盲系统的控制软件,包括目标检测单元、语音识别单元和道路规划单元。其中:
目标检测单元:基于本发明改进的Yolov2卷积神经网络实现,对特定整理的数据集进行训练,以实现物体定位与分类功能帮助盲人寻找物体。
本发明改进Yolov2卷积神经网络包括以下步骤:
S1.1、Yolov2卷积神经网络分为特征提取层和检测层,使用深度可分离卷积操作取代特征提取层的卷积操作,在每次卷积运算过程中将输入的特征向量每个通道分离开,之后对每个通道分别进行卷积操作,再利用1×1的卷积核对输出向量的通道进行缩放来减少计算量。
本实施例中,将图像输入到改进Yolov2的特征提取层之后,特征提取层包含5次的下采样操作,下采样操作后可得到图像高维的特征向量V0。具体地,5次下采样操作形成32的下采样率,在输入416×416的图像进入特征提取层之后可得到13×13的高维特征向量,因此等价于把图像分割为13×13个网格。
S1.2、Yolov2卷积神经网络的检测层基于锚框机制对物体进行定位与分类,针对于运行速度与准确率之间的权衡,对锚框的长宽比以及数量进行改进以提高对特定数据集的适应性。
本实施例中,检测层对图像高维的特征向量V0进行进一步处理,加以锚框机制。检测层中锚框机制在每个网络中给定3个锚框的大小,每个锚框输出5个值,分别为tx、ty、tw、th、t0,其中:tx、ty为通过sigmoid激活后构成锚框中心点相对于网格顶点的偏移量,tw、th为经过指数激活后分别形成锚框的宽度与高度的缩放比,t0为经过sigmoid函数激活之后形成的矩形框中检测到存在物体的置信度。
下面对深度可分离卷积进行说明。
如图3所示,该图表示的是Yolov2特征提取层中卷积操作的深度可分离卷积,本发明用Dwise表示该操作,其可分为逐深度卷积和逐点卷积。逐深度卷积即将输入的特征向量根据通道数的维度进行分离操作,形成个数与通道数量相同的分离的特征向量,将分离的特征向量分别与k×k大小的卷积核进行卷积操作,完成该操作以后按原顺序将分离的特征向量融合;再使用1×1的卷积核进行逐点卷积对输出的通道数量进行压缩。
深度可分离卷积在保证模型的精度的前提下,前者与后者均可用于减少神经网络的参数量,前者还可以显著减少参数的计算量。本发明中深度可分离卷积将是构成改进Yolov2卷积神经网络的卷积模块中重要组成部件。
如图4所示,该图是改进Yolov2特征提取层中的卷积模块,本发明将整个模块以“block”简称。卷积模块block工作流程包括:
①当输入一个特征向量到block中之后,使用1×1的卷积核对其进行通道数量的延伸并使用ReLU6作为其激活函数F(x)=min(max(0,x),6),再使用k×k的卷积核,以图3所示的Dwise的卷积方式进行操作。此时输出的特征向量V1的维度为:c×h×w,其中:c为通道数量,h为特征向量的高度,w为特征向量的宽度。
②将特征向量V1制作一份副本V2,将特征向量V2进行全局池化的操作以得到c×1×1大小的特征向量,再对其输入至两个连续的全连接层进行通道的压缩以及延伸,保持输出的特征向量维度大小不变。将其通过sigmoid函数激活使其所有值缩放至0到1之间构成维度大小为c×1×1的特征向量V3。
③将特征向量V3分别对特征向量V1的每个通道做加权乘法。并使用1×1的卷积核进行通道压缩以使得其通道与原始输入特征向量通道数量相同。再将其两者叠加以保留部分原始特征信息。
具体地,改进的Yolov2卷积神经网络,是一种低延迟、适合于嵌入式平台部署的改进神经网络,其结构如图5所示,包括:特征提取层(module1、module2、module3、module4、module5)和检测层(module6、module7),其中:
module1是由步长为2的3×3二维卷积核构成;module2由图4提及的步长为1,卷积核大小为3×3的block以及步长为2,卷积核大小为3×3的block构成;module3由步长为1,卷积核大小为3×3的block以及步长为2,卷积核大小为5×5的block构成;module4由两个步长为1,卷积核大小为5×5的block以及一个步长为2,卷积核大小为3×3的block构成;module5由五个步长为1,卷积核大小为3×3的block、一个步长为2,卷积核大小为5×5的block、两个步长为1,卷积核大小为5×5的block以及一个步长为1,卷积核大小为1×1的二维卷积构成;module6是由module4的输出特征向量通过维度变换,由26×26×80变换至13×13×320,与module5的输出特征向量13×13×160进行相连操作,形成13×13×480的特征向量;module7再通过步长为1,卷积核大小为3×3的block最终输出一个13×13×125的特征向量。
对于图5所示的改进的Yolov2卷积神经网络最终输出的特征向量,其可以理解为将图片分割成13×13个网格,每个网格包含着anchor×(classes+predictions)个通道,anchor为预先设定的锚框的数量:5,classes为20个类中每个类的概率,predictions即预测的5个值:tx、ty、tw、th、t0。其中:tx、ty为通过sigmoid激活后构成锚框中心点相对于网格顶点的偏移量,tw、th为经过指数激活后分别形成锚框的宽度与高度的缩放比,t0为经过sigmoid函数激活之后形成的矩形框中检测到存在物体的置信度。
改进Yolov2卷积神经网络通过其预设的损失函数进行网络训练以达到收敛。本实施例中,预设的损失函数如下:
Figure BDA0002214273510000071
其中:λcoord与λnoobj分别为坐标误差的系数以及标签中不存在物体而预测中存在物体的误差系数,i、j分别为第i个网格中的第j个锚框,S为下采样后的高维特征向量长度(本实施例中S=13),B为每个网格中的锚框数量(本实施例中B=3)。
Figure BDA0002214273510000072
表示第i个网格中的第j个锚框预测有物体,
Figure BDA0002214273510000073
表示第i个网格中的第j个锚框预测不存在物体。xi、yi表示标签中心点在高维特征向量中的位置,而
Figure BDA0002214273510000081
Figure BDA0002214273510000082
则是预测的中心点在高维特征向量中的位置;wi、hi分别表示标签的框在高维特征向量中的宽度与高度,
Figure BDA0002214273510000083
分别表示预测的框在高维特征向量中的宽度与高度;ci
Figure BDA0002214273510000084
则分别为100%的置信度和预测值的置信度;pi(c)、
Figure BDA0002214273510000085
分别为给定的第i个网格中存在第c个类和预测的第i个网格中的第c个类的概率预测值。
本实施例中,训练改进的Yolov2卷积神经网络,包括以下步骤:
S2.1、基于生活中的盲人常使用的物体罗列20个类,分别通过网上寻找,实际场景拍摄等收集每个类各300张图片作为数据集。
在数据集方面,由于VOC、COCO等开源数据集存在和与设备定位的室内环境所需的真实数据分布不同,而引起无法满足盲人寻物的基本需求的困扰。为了缓解这个现状,因此本发明收集了一些网上现有的室内物体数据集,以此基础上再对于每个类别制作大约100-200张左右的数据集并通过随机的旋转、平移、翻转、亮度调节、对比度调节、裁剪等方法进行数据增强,并从开源数据集中按比例选择一定量的符合当前应用场景的数据加入到新数据集对模型重新训练。
S2.2、将图片尺寸统一为416×416的标准尺寸;
S2.3、分别将图片中出现的20个类用标注工具框出位置并标明类别,将标注好的图片和标注文件进行数据增强处理,即对图片进行随机的旋转、平移、翻转、亮度调节、对比度调节、裁剪的操作;
S2.4、将数据集的次序打乱,作为改进Yolov2卷积神经网络的输入,以预设的损失函数作为模型训练的目标,选择合适的优化器,并设置好随训练轮次增加而降低的学习率,即可开始对该神经网络进行训练。在此训练阶段参数精度使用的是单精度浮点数。
本实施例中,学习率的初设值为0.001,在训练60轮和90轮的时候分别作将学习率下调至1/10的当前值。
改进的Yolov2卷积神经网络模型部署验证,包括以下步骤:
S3.1、将训练好的改进Yolov2卷积神经网络参数精度降低,使用半精度浮点数取代训练时运用的单精度浮点数运算,可以进一步提高改进的Yolov2卷积神经网络模型的推断速度。
S3.2、将改进的Yolov2卷积神经网络模型部署于NVIDIA Jetson TX2开发套件并对现实场景进行检测验证盲人现实生活场景的物体检测效果。
语音识别单元:用于对语音指令编码并输出语音信息。
语音识别单元包括唤醒词检测模块、关键词检测模块、语音指导模块,在麦克风的采样点达到一定数目后对音频进行一次处理。在交互式导盲系统初始情况下,语音识别单元为节省功耗,只有唤醒词检测模块工作,其余模块处于待机状态,其各子模块作用及工作流程如下:
唤醒词检测模块:该模块负责对唤醒词的检测与识别,系统运行经由唤醒词启动,其工作流程包括:
S4.1、当用户发出指令的时候,对麦克风采集到的时域信号进行基本处理,包括分帧、加窗、傅里叶变换和取对数等,获取其语谱图。
S4.2、对语谱图进行编码,得到信号编码。
本实施例中,直接对语谱图进行编码,以最大程度地利用信号的频域信息。
由于唤醒词检测在语音识别应用中较为简单,在保证精准率与召回率的前提下,为提高唤醒词检测模块的整体运行速度,避免过于复杂化,仅使用一个一维卷积核对语谱图进行处理,得到信号编码。
S4.3、基于信号编码对音频中是否含有唤醒词进行预测,信号编码经过门控循环单元层、全连接层等,中间使用随机失活实现神经网络的正则化,输出音频中含有唤醒词的概率值。
S4.4、将唤醒词的概率值与唤醒词阈值作比较,若大于唤醒词阈值则成功唤醒,启动关键词检测模块,暂时关闭唤醒词检测模块,否则系统不作应答,重复唤醒词检测步骤。
关键词检测模块:该模块负责对关键词的检测与识别。
本实施例中,交互式导盲系统预先设定了20个物体类别的关键词,包括:椅子、水杯、杯子、书本、遥控器、眼镜、电水壶、纸巾、垃圾桶、手机、袋子、碗、人、牙刷、梳子、鞋子、钱包、钥匙、笔和背包。关键词检测模块每次只接受一个关键词的输入,其工作流程包括:
S5.1、启动关键词检测模块后,关键词检测模块处理麦克风采集到的信号,获取其语谱图。
S5.2、由于关键词检测部分实质可视为唤醒词检测的复数化,大致步骤同唤醒词检测模块,区别为最终输出为各个预设关键词存在于音频中的概率值向量。
S5.3、将各关键词的概率值与关键词阈值作比较,输出概率值大于关键词阈值的关键词即为被检测到,依据被检测到的关键词数量来执行后续操作,具体地:
若未检测到关键词,则重复关键词检测步骤,指定时间内一直未能检测到有效关键词则该检测模块进入待机状态,重启唤醒词检测模块;
若检测到多个关键词,则启动语音指导模块,语音提醒用户每次只能语音输入一个关键词并要求重新输入,同时重启关键词检测模块;
若检测到一个关键词,则根据所检测到的关键词启动相应的目标检测模块或道路规划模块,执行相应的行为。
语音指导模块:该模块负责通过语音实现对用户的提醒与指导功能。其工作流程包括:
S6.1、当关键词检测模块检测到多个关键词时,通过YS-XFSV2高端语音合成装置播放预设的语音对用户进行功能提醒。
S6.2、在目标检测单元或道路规划单元启动后,根据目标检测单元或道路规划单元的输出结果,YS-XFSV2高端语音合成模块播放预设的语音提醒盲人用户。包括:
在目标检测模块启动后,若当前目标检测无结果,播放预设的语音提醒用户移动。若成功检测到目标,则依据目标检测模块输出的目标中心坐标指导用户移动。
在道路规划模块启动后,根据当前障碍物的分布状况输出合适的路径给盲人用户,并播放预设的语音提醒用户移动。
道路规划单元:使用基于双通道输入的神经网络对可行进的方向进行分类处理以实现对前方道路进行路径规划的功能,帮助盲人有效地避开障碍物。包括图像预处理模块和基于双通道输入的神经网络模块。
图像预处理模块对深度相机采集的RGB图像和深度图进行处理,其工作流程包括:
S7.1、对RGB图像变换生成灰度图,并对灰度图和深度图作canny边缘检测分别得到CE和DE
S7.2、对CE和DE分别做距离变换,得到
Figure BDA0002214273510000102
再对
Figure BDA0002214273510000104
做共同距离变换,得到
Figure BDA0002214273510000105
S7.3、对于混合像素区域,可以通过对图阈值化后得到,阈值化后的图像Mx中混合像素区域视为丢失像素,与原深度图的丢失像素区域混合成Hx,即转化为仅处理丢失像素的深度图H。
S7.4、对于H中的丢失像素区域,由于丢失的像素中可能存在边缘等重要信息,为了孔填充的有效恢复,将S7.1得到的CE在H中丢失像素部分视为丢失的深度图的边缘保留得到EH,但CE中可能存在孤立边缘,故需要对EH进行膨胀操作得到E′H
S7.5、孔填充:定义边缘收敛函数:
Figure BDA0002214273510000107
式中Ks和KH为高斯核,
Figure BDA0002214273510000108
为E′H作DT(distance transfer,距离变换)后得到的图像
Figure BDA0002214273510000109
在像素点x处的灰度值,cx为灰度图在像素点x处的灰度值,xn、cn
Figure BDA00022142735100001010
分别为窗口大小为w×w中像素点n处的位置、灰度值、DTH值。对
Figure BDA0002214273510000111
和灰度图进行上式操作后得到Z,再对S7.3中得到的H中丢失的像素向Z中最低收敛值补全,得到填充后的深度图D。
S7.6、去除边缘噪声:使用常见的联合双边滤波器(JBF)去除深度图D中的边缘噪声。
基于双通道输入的神经网络设计与实现包括以下步骤:
基于Yolov2的特征提取层来构建双通道输入的神经网络,基于双通道输入的神经网络结构如图6所示。
将灰度图与预处理后的深度图输入到双通道输入的神经网络的特征提取层之中,将双通道经过特征提取层输出的高维特征向量连接,再经过一个全连接层做5个分类的输出构成指引盲人前进的5个方向。并设定多分类的交叉熵损失函数作为模型训练的损失函数:
Figure BDA0002214273510000112
其中:y为标签值,
Figure BDA0002214273510000113
为神经网络的估计值。
在模型训练好之后,Intel-D435深度相机实时将RGB图像和深度图输出,RGB图像转为灰度图以及深度图进行预处理之后,输入到该模型当中,即可实时输出左转、左前方、前进、右前方、右转的5个方向指令。
如图6所示,其中module1、module2、module3、module4、module5为网络的特征提取部分,该部分也是道路规划网络的特征提取部分,灰度图和深度图在统一为224×224的图片大小后,输入至双通道的特征提取网络之后,由于下采样率为32,因此各自可得到7×7×160的输出特征向量。连接合并两个module5输出的特征向量再通过一个全连接层即可得到五分类的输出,可指导盲人前进的方向。
一种基于改进Yolov2目标检测和语音识别的交互式导盲方法,如图7所示,包括:
S101、当麦克风的采样点达到一定数目后对交互式导盲系统对音频进行一次处理,语音识别单元的唤醒词检测模块对音频中的唤醒词进行检测与识别,当识别到有唤醒词且唤醒词概率值大于唤醒词阈值时,则启动关键词检测模块,暂时关闭唤醒词检测模块,进入步骤S102;否则系统不作应答,重复唤醒词检测步骤S101。
S102、关键词检测模块对对音频中的关键词进行检测与识别,将识别出的各关键词的概率值与关键词阈值作比较,输出概率值大于关键词阈值的关键词即为被检测到的关键词,依据被检测到的关键词数量来执行后续操作,具体地:
若未检测到关键词,则重复关键词检测步骤,指定时间内一直未能检测到有效关键词则该检测模块进入待机状态,重启唤醒词检测模块;
若检测到多个关键词,则启动语音指导模块,语音提醒用户每次只能语音输入一个关键词并要求重新输入,同时重启关键词检测模块;
若检测到一个关键词,则根据所检测到的关键词启动相应的目标检测单元或道路规划单元,执行相应的寻找物体或实时道路规划行为,包括:
寻找物体时,目标检测单元通过Intel-D435深度相机获取图像信息输入,寻找物体时将RGB图像输入到轻量化处理的改进Yolov2卷积神经网络中提取特征得到深层图像特征,确定图像中的物体与用户需要的物体是否存在,将结果用语音模块转化为语音播报给用户。
实时道路规划时从深度相机中获取RGB图像以及深度图,对深度图进行预处理之后与RGB图像变换后形成的灰度图输入至训练好的双通道输入的神经网络进行五个方向的路径规划,并将规划结果转化为语音输出。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于改进Yolov2的目标检测和语音识别的交互式导盲系统,其特征在于,包括中央处理器及与其相连的深度相机、高端语音合成装置、麦克风和电源,其中:
中央处理器:用于系统控制、数据处理和信号传递;所述中央处理器上部署有交互式导盲系统的控制软件,包括:目标检测单元、语音识别单元和道路规划单元;
深度相机:用于对当前场景进行图像采集,生成RGB图像与深度图;
高端语音合成装置:用于对所述中央处理器输出的语音信息进行合成,播放寻物结果或道路规划情况;
麦克风:用于采集用户语音信息,并将采集的用户语音信息传送给所述中央处理器;
电源:用于给所述中央处理器供电。
2.根据权利要求1所述的交互式导盲系统,其特征在于,所述目标检测单元基于改进的Yolov2卷积神经网络实现,对特定整理的数据集进行训练,以实现物体定位与分类功能。
3.根据权利要求2所述的交互式导盲系统,其特征在于,所述改进的Yolov2卷积神经网络包括特征提取层和检测层,使用深度可分离卷积操作取代特征提取层的卷积操作,所述深度可分离卷积操作分为逐深度卷积和逐点卷积,逐深度卷积将输入的特征向量根据通道数的维度进行分离操作,形成个数与通道数量相同的分离的特征向量,将分离的特征向量分别与k×k大小的卷积核进行卷积操作,完成该操作以后按原顺序将分离的特征向量融合,再使用1×1的卷积核进行逐点卷积对输出的通道数量进行压缩。
4.根据权利要求3所述的交互式导盲系统,其特征在于,所述改进的Yolov2卷积神经网络特征提取层中的卷积模块block工作流程包括:
①当输入一个特征向量到block中之后,使用1×1的卷积核对其进行通道数量的延伸并使用ReLU6作为其激活函数F(x)=min(max(0,x),6),再使用k×k的卷积核,以所述深度可分离卷积方式进行操作,此时输出的特征向量V1的维度为:c×h×w,其中:c为通道数量,h为特征向量的高度,w为特征向量的宽度;
②将特征向量V1制作一份副本V2,将特征向量V2进行全局池化的操作以得到c×1×1大小的特征向量,再对其输入至两个连续的全连接层进行通道的压缩以及延伸,保持输出的特征向量维度大小不变,将其通过sigmoid函数激活使其所有值缩放至0到1之间构成维度大小为c×1×1的特征向量V3;
③将特征向量V3分别对特征向量V1的每个通道做加权乘法,并使用1×1的卷积核进行通道压缩以使得其通道与原始输入特征向量通道数量相同,再将其两者叠加以保留部分原始特征信息。
5.根据权利要求1所述的交互式导盲系统,其特征在于,所述语音识别单元用于对语音指令编码并输出语音信息,包括唤醒词检测模块、关键词检测模块和语音指导模块,在麦克风的采样点达到一定数目后对音频进行一次处理,在交互式导盲系统初始情况下,语音识别单元为节省功耗,只有唤醒词检测模块工作,其余模块处于待机状态。
6.根据权利要求5所述的交互式导盲系统,其特征在于,所述唤醒词检测模块负责对唤醒词的检测与识别,系统运行经由唤醒词启动,其工作流程包括:
①当用户发出指令的时候,对麦克风采集到的时域信号进行基本处理,包括分帧、加窗、傅里叶变换和取对数等,获取其语谱图;
②对语谱图进行编码,得到信号编码;
③基于信号编码对音频中是否含有唤醒词进行预测,信号编码经过门控循环单元层、全连接层等,中间使用随机失活实现神经网络的正则化,输出音频中含有唤醒词的概率值;
④将唤醒词的概率值与唤醒词阈值作比较,若大于唤醒词阈值则成功唤醒,启动关键词检测模块,暂时关闭唤醒词检测模块,否则系统不作应答,重复唤醒词检测步骤。
7.根据权利要求5所述的交互式导盲系统,其特征在于,所述关键词检测模块用于对关键词的检测与识别,其工作流程包括:
①启动关键词检测模块后,关键词检测模块处理麦克风采集到的信号,获取其语谱图;
②由于关键词检测部分实质可视为唤醒词检测的复数化,大致步骤同唤醒词检测模块,区别为最终输出为各个预设关键词存在于音频中的概率值向量;
③将各关键词的概率值与关键词阈值作比较,输出概率值大于关键词阈值的关键词即为被检测到,依据被检测到的关键词数量来执行后续操作,具体地:
若未检测到关键词,则重复关键词检测步骤,指定时间内一直未能检测到有效关键词则该检测模块进入待机状态,重启唤醒词检测模块;
若检测到多个关键词,则启动语音指导模块,语音提醒用户每次只能语音输入一个关键词并要求重新输入,同时重启关键词检测模块;
若检测到一个关键词,则根据所检测到的关键词启动相应的目标检测模块或道路规划模块,执行相应的行为。
8.根据权利要求5所述的交互式导盲系统,其特征在于,所述语音指导模块负责通过语音实现对用户的提醒与指导功能,其工作流程包括:
①当关键词检测模块检测到多个关键词时,通过高端语音合成装置播放预设的语音对用户进行功能提醒;
②在目标检测单元或道路规划单元启动后,根据目标检测单元或道路规划单元的输出结果,高端语音合成模块播放预设的语音提醒盲人用户,包括:
③在目标检测模块启动后,若当前目标检测无结果,播放预设的语音提醒用户移动;若成功检测到目标,则依据目标检测模块输出的目标中心坐标指导用户移动;
④在道路规划模块启动后,根据当前障碍物的分布状况输出合适的路径给盲人用户,并播放预设的语音提醒用户移动。
9.根据权利要求1所述的交互式导盲系统,其特征在于,所述道路规划单元使用基于双通道输入的神经网络对可行进的方向进行分类处理以实现对前方道路进行路径规划的功能,包括图像预处理模块和基于双通道输入的神经网络模块。
10.一种基于改进Yolov2目标检测和语音识别的交互式导盲方法,其特征在于,包括:
S101、当麦克风的采样点达到一定数目后对交互式导盲系统对音频进行一次处理,语音识别单元的唤醒词检测模块对音频中的唤醒词进行检测与识别,当识别到有唤醒词且唤醒词概率值大于唤醒词阈值时,则启动关键词检测模块,暂时关闭唤醒词检测模块,进入步骤S102;否则系统不作应答,重复唤醒词检测步骤S101;
S102、关键词检测模块对对音频中的关键词进行检测与识别,将识别出的各关键词的概率值与关键词阈值作比较,输出概率值大于关键词阈值的关键词即为被检测到的关键词,依据被检测到的关键词数量来执行后续操作,具体地:
若未检测到关键词,则重复关键词检测步骤,指定时间内一直未能检测到有效关键词则该检测模块进入待机状态,重启唤醒词检测模块;
若检测到多个关键词,则启动语音指导模块,语音提醒用户每次只能语音输入一个关键词并要求重新输入,同时重启关键词检测模块;
若检测到一个关键词,则根据所检测到的关键词启动相应的目标检测单元或道路规划单元,执行寻找物体或实时道路规划行为。
CN201910909431.2A 2019-09-25 2019-09-25 基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法 Active CN110728308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910909431.2A CN110728308B (zh) 2019-09-25 2019-09-25 基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910909431.2A CN110728308B (zh) 2019-09-25 2019-09-25 基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法

Publications (2)

Publication Number Publication Date
CN110728308A true CN110728308A (zh) 2020-01-24
CN110728308B CN110728308B (zh) 2024-04-05

Family

ID=69219326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910909431.2A Active CN110728308B (zh) 2019-09-25 2019-09-25 基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法

Country Status (1)

Country Link
CN (1) CN110728308B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111329735A (zh) * 2020-02-21 2020-06-26 北京理工大学 一种导盲方法、装置及系统
CN111783700A (zh) * 2020-07-06 2020-10-16 中国交通通信信息中心 一种路面异物自动识别预警方法和系统
CN112233675A (zh) * 2020-10-22 2021-01-15 中科院微电子研究所南京智能技术研究院 一种基于分离卷积神经网络的语音唤醒方法及系统
CN112365875A (zh) * 2020-11-18 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、声码器和电子设备
CN112381052A (zh) * 2020-12-01 2021-02-19 創啟社會科技有限公司 视障用户实时辨识系统及方法
CN112465005A (zh) * 2020-11-24 2021-03-09 平安科技(深圳)有限公司 基于图像识别的智能盲人音频手杖控制方法及其相关组件
CN113298029A (zh) * 2021-06-15 2021-08-24 广东工业大学 一种基于深度学习目标检测的盲人辅助行走方法和系统
CN113763954A (zh) * 2021-09-10 2021-12-07 河南华东工控技术有限公司 一种基于语音识别技术的scada组态界面操作方法
CN114469661A (zh) * 2022-02-24 2022-05-13 沈阳理工大学 一种基于编码解码技术的视觉内容导盲辅助系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011062463A (ja) * 2009-09-18 2011-03-31 Honda Motor Co Ltd 歩行アシストシステム
CN107397658A (zh) * 2017-07-26 2017-11-28 成都快眼科技有限公司 一种多尺度全卷积网络及视觉导盲方法和装置
CN109841221A (zh) * 2018-12-14 2019-06-04 深圳壹账通智能科技有限公司 基于语音识别的参数调节方法、装置及健身设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011062463A (ja) * 2009-09-18 2011-03-31 Honda Motor Co Ltd 歩行アシストシステム
CN107397658A (zh) * 2017-07-26 2017-11-28 成都快眼科技有限公司 一种多尺度全卷积网络及视觉导盲方法和装置
CN109841221A (zh) * 2018-12-14 2019-06-04 深圳壹账通智能科技有限公司 基于语音识别的参数调节方法、装置及健身设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEJING NI ET AL.: "A Walking Assistant Robotic System for the Visually Impaired Based on Computer Vision and Tactile Perception", 《INTERNATIONAL JOURNAL OF SOCIAL ROBOTICS》, pages 617 - 628 *
朱炎亮: "基于深度学习的人员异常操作视觉检测算法", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 29 - 39 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111329735A (zh) * 2020-02-21 2020-06-26 北京理工大学 一种导盲方法、装置及系统
CN111329735B (zh) * 2020-02-21 2021-09-28 北京理工大学 一种导盲方法、装置及系统
CN111783700A (zh) * 2020-07-06 2020-10-16 中国交通通信信息中心 一种路面异物自动识别预警方法和系统
CN111783700B (zh) * 2020-07-06 2023-11-24 中国交通通信信息中心 一种路面异物自动识别预警方法和系统
CN112233675B (zh) * 2020-10-22 2023-10-27 中科南京智能技术研究院 一种基于分离卷积神经网络的语音唤醒方法及系统
CN112233675A (zh) * 2020-10-22 2021-01-15 中科院微电子研究所南京智能技术研究院 一种基于分离卷积神经网络的语音唤醒方法及系统
CN112365875A (zh) * 2020-11-18 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、声码器和电子设备
CN112365875B (zh) * 2020-11-18 2021-09-10 北京百度网讯科技有限公司 语音合成方法、装置、声码器和电子设备
CN112465005A (zh) * 2020-11-24 2021-03-09 平安科技(深圳)有限公司 基于图像识别的智能盲人音频手杖控制方法及其相关组件
CN112465005B (zh) * 2020-11-24 2024-03-19 平安科技(深圳)有限公司 基于图像识别的智能盲人音频手杖控制方法及其相关组件
CN112381052A (zh) * 2020-12-01 2021-02-19 創啟社會科技有限公司 视障用户实时辨识系统及方法
CN113298029A (zh) * 2021-06-15 2021-08-24 广东工业大学 一种基于深度学习目标检测的盲人辅助行走方法和系统
CN113763954A (zh) * 2021-09-10 2021-12-07 河南华东工控技术有限公司 一种基于语音识别技术的scada组态界面操作方法
CN114469661B (zh) * 2022-02-24 2023-10-03 沈阳理工大学 一种基于编码解码技术的视觉内容导盲辅助系统及方法
CN114469661A (zh) * 2022-02-24 2022-05-13 沈阳理工大学 一种基于编码解码技术的视觉内容导盲辅助系统及方法

Also Published As

Publication number Publication date
CN110728308B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN110728308A (zh) 基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法
CN110781838B (zh) 一种复杂场景下行人的多模态轨迹预测方法
CN110458844B (zh) 一种低光照场景的语义分割方法
CN113762201B (zh) 基于yolov4的口罩检测方法
CN104463191A (zh) 一种基于注意机制的机器人视觉处理方法
CN111666843A (zh) 一种基于全局特征和局部特征拼接的行人重识别方法
CN110443784A (zh) 一种有效的显著性预测模型方法
CN111026873A (zh) 无人车及其导航方法、装置
CN112348764A (zh) 电子设备及其操作方法
CN112183198A (zh) 肢体骨架和头手部件轮廓融合的手势识别方法
WO2021203880A1 (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
CN111723779B (zh) 一种基于深度学习的中文手语识别系统
CN116760536A (zh) 一种多智能体协同感知方法、系统、电子设备及存储介质
CN110633689B (zh) 基于半监督注意力网络的人脸识别模型
CN114240004B (zh) 一种多源信息融合的服装流行趋势预测方法及系统
CN211512572U (zh) 一种交互式导盲系统
CN113239834B (zh) 一种可预训练手模型感知表征的手语识别系统
CN111126155A (zh) 一种基于语义约束生成对抗网络的行人再识别方法
Singh et al. Action recognition in dark videos using spatio-temporal features and bidirectional encoder representations from transformers
CN111901610B (zh) 一种基于多层编码器的并行图像描述方法
CN114469661B (zh) 一种基于编码解码技术的视觉内容导盲辅助系统及方法
CN111079661B (zh) 手语识别系统
CN109635709B (zh) 一种基于显著表情变化区域辅助学习的人脸表情识别方法
Mishra et al. Environment descriptor for the visually impaired
CN116301389B (zh) 一种基于深度学习的多模态智能家具控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant