CN108073875A - 一种基于单目摄像头的带噪音语音识别系统及方法 - Google Patents
一种基于单目摄像头的带噪音语音识别系统及方法 Download PDFInfo
- Publication number
- CN108073875A CN108073875A CN201611024686.3A CN201611024686A CN108073875A CN 108073875 A CN108073875 A CN 108073875A CN 201611024686 A CN201611024686 A CN 201611024686A CN 108073875 A CN108073875 A CN 108073875A
- Authority
- CN
- China
- Prior art keywords
- module
- audio
- image
- lip
- monocular cam
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于单目摄像头的带噪音语音识别系统及方法,所述系统包括图像采集模块、视觉处理模块、音频采集模块、音频处理模块、语音识别模块;所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块;所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块;音频采集模块使用麦克风采集用户音频并输出至音频处理模块;所述音频处理模块对用户音频进行处理并输出至语音识别模块;所述语音模块使用数据融合策略对视频数据和音频数据进行融合,实现语音识别。本发明通过使用视频信息与音频信息两种特征,使用特征融合策略,有效避免如机器人马达,零件摩擦等造成的噪音干扰,提高了语音识别系统的准确率。
Description
技术领域
本发明涉及语音识别技术,具体设计一种基于单目摄像头的带噪音语音识别系统及方法。
背景技术
随着人机交互技术发展,机器人被期望能拥有像人类一样的感知能力并能与人类合作共事。为实现这一目标,一些研究者使用语音技术来让机器人理解人类的语言。
但是,运动状态中的机器人不可避免的会产生噪音,比如电动风扇和马达产生的噪音,因麦克风更靠近机器人,因此这些噪音相比用户的语言信息更易获取,造成了机器人语音识别效果不佳。
申请公布号为CN201610615354.6的发明专利公开了基于自然语言的机器人控制系统及控制方法,方法包括接收用户输入的自然语言声波信号;将自然语言声波信号转换为语言文字信息;对语言文字信息进行分析分解,信息分解结果为根据不同词性将所述语言文字信息分类而组合成的词语集合;根据预置的词汇库对所述词语集合进行语义匹配,获取所述词语集合的行为匹配结果;将行为匹配结果转换成语音输出;通过人机对话模式对行为匹配结果进行确认;对确认的行为匹配结果进行行为分解,并依照行为分解结果控制机器人的执行。
申请公布号为CN201410771233.1的发明专利公开了一种机器人语音识别方法,包含步骤1:打开音频传感器,采集音频信号;步骤2:对采集到的音频信号,进行模数转换;步骤3:将转换后代数字信号送人模式识别缓冲区;步骤4:对模式识别缓冲区中的信号按照振幅做离散化处理;步骤5:将按照振幅做离散化处理的数据,在模式识别数据库中进行匹配算法;步骤6:对所有命令依据匹配算法的结果进行概率运算;步骤7:按照概率从大到小的方式排序;步骤8:将概率最大的命令作为结果输出。
上述发明专利中,都是通过对音频信息进行加工处理,来提高语音识别效果,但噪音仍参与上述的加工处理过程,因此造成语音识别的效果仍然有较大误差。
发明内容
本发明目的在于克服传统方法中的不足,提供一种基于单目摄像头的带噪音语音识别系统及方法。
本发明解决上述技术问题的技术方案为:
本发明的目的在于提高一种基于单目摄像头的带噪音语音识别系统,其中,所述系统包括图像采集模块、视觉处理模块、音频采集模块、音频处理模块、语音识别模块;所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块;所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块;音频采集模块使用麦克风采集用户音频并输出至音频处理模块;所述音频处理模块对用户音频进行处理并输出至语音识别模块;所述语音模块使用数据融合策略对视频数据和音频数据进行融合,实现语音识别。
本发明的另一个目的还在于提供一种基于单目摄像头的带噪音语音识别方法,其中,所述基于单目摄像头的带噪音语音识别方法包括以下步骤:S1,获取视频源;S2,使用图像处理采集唇区,及获取嘴唇变化特征;S3,获取音频信息,及提取音频特征;S4,进行多流特征融合;S5,使用HMM模型建模并得出结果。
进一步地,本发明步骤S2中,具体包括以下步骤:S21对图像进行色彩空间转换,S22肤色阈值处理,S23图像去噪处理,S24图像二值处理,S25开运算处理,S26嘴唇区域定位并计算特征。
进一步地,本发明步骤S4中,进行多流特征是使用线性插值发完成音频和视频信息的匹配。
进一步地,本发明步骤S5中,通过HMM(出自论文《隐马尔可夫模型及其应用》,作者王志堂,蔡淋波,湖南科技学院学报,2009年04期)完成建模和识别效果。
本发明的有益效果在于,通过使用视频信息与音频信息两种特征,使用特征融合策略,有效避免如机器人马达,零件摩擦等造成的噪音干扰,提高了机器人语音识别系统的准确率。
附图说明
图1是本发明的基于单目摄像头的带噪音语音识别系统的流程图。
图2是本发明的基于单目摄像头的带噪音语音识别方法的流程图。
图3是本发明的基于单目摄像头的带噪音语音识别系统的示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,图1为本发明的一种基于单目摄像头的带噪音语音识别系统流程图,其中,所述系统包括图像采集模块10、视觉处理模块20、音频采集模块30、音频处理模块40、语音识别模块50;所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块;所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块;音频采集模块使用麦克风采集用户音频并输出至音频处理模块;所述音频处理模块对用户音频进行处理并输出至语音识别模块;所述语音模块使用数据融合策略对视频数据和音频数据进行融合,实现语音识别。
如图2所示,图2为本发明的一种基于单目摄像头的带噪音语音识别方法的流程图,具体包括以下步骤:
S1,获取视频源。使用单目摄像头对人脸区域进行图像捕捉,获取人脸区域的图像。
S2,使用图像处理采集唇区,及获取嘴唇变化特征。对图像进行预处理,具体包括:S21对图像进行色彩空间转换,S22肤色阈值处理,S23图像去噪处理,S24图像二值处理,S25开运算处理,S26嘴唇区域定位并计算特征,具体描述如下:
S21,色彩空间转换:一般情况下,图片都是RGB色彩模型下的。但是RGB三分量间常有很高的相关性,直接利用这些分量往往不能达到预想的效果,所以需要将RGB图像转换到HSV色彩模型下。其中,H、S、V的值可分别由公式(2)、(3)、(4)得到。
V=MAX (4)
以上公式(1)中MAX、MIN分别是RGB图像的最大值、最小值,H、S、V分别是HSV图像的H值、S值和V值。
转换到HSV色彩空间后,通过取H值的0~180进行阈值分割,则可获取到所需的二值图像。
S22,肤色阈值处理:利用OpenCV的otsu自适应阈值分割。程序流程为:计算直方图并归一化histogram;计算图像灰度均值avgValue;计算直方图的零阶w[i]和一级矩u[i]计算并找到最大的类间方差(between-class variance)。
variance[i]=(avgValue*w[i]-u[i])*(avgValue*w[i]-u[i])/(w[i]*(1-w[i]))对应此最大方差的灰度值即为要找的阈值。
S23,图像去噪处理:现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,故需对图像进行去噪处理。本实施例使用团块面积阈值法进行图像滤波去噪声,去除图像中目标对象周围的噪声,过程为:
采用二值数学形态学中的连通组元提取算法来求取团块的面积,小于阈值的团块为噪声,将该团块的像素点灰度值都设成255即可去除噪声。
S24,图像二值处理:进行图像二值化,将图像的前景与背景进行分割。图像二值化指将图像上的像素点的灰度值设置为0或255,使得整个图像呈现出明显的黑白效果。图像二值化是图像分析与处理中最常见最重要的处理手段,其使得图像中数据量大为减少,从而能凸显出目标的轮廓。在OpenCV中,可用关键函数cvThreshold()实现图像的二值化。
S25,开运算处理:为了消除二值化后不连通的散点同时填充手部中的缺失点,从而达到较好的图像效果,使用形态学方法中的开运算,即先腐蚀后膨胀。设f(x,y)是输入图像,b(x,y)是结构元素,用结构元素b对输入图像f进行腐蚀和膨胀运算分别定义为:
(f⊙b)(s,t)=min{f(s-x,t-y)+b(x,y)|(s-x,t-y)∈Df,(x,y)∈Db} (5)
其中,s,t为输入图像f的参数,x,y为结构元素b的参数,Df为图像f的一个集合,Db为结构元素b的一个集合。
S26,嘴唇区域定位并计算特征:将人脸区域分为肤色区域和唇色区域,使用Otsu最大类间方差法进行分割,即将人脸图像区域根据颜色聚类,分成肤色和唇色两种类别,计算两种类别颜色的类内方差和类间方差,设定分割阈值为使得类间方差和类内方差最大时的阈值。此时得到的区域即是嘴唇区域。计算该区域的灰度直方图作为嘴唇区域的图像特征。
S3,获取音频信息,及提取音频特征:使用麦克风采集到音频信息后,采用MFCCs作为音频特征,使用了一个长度为30ms,步长为20ms的窗口来提取一阶系数和二阶系数,最终音频特征长度为78维。
S4,进行多流特征融合:特征融合方法是将时间同步的各个流进行直接连接,或者对连接后的特征进行某种适当的降维变换。假定t时刻同步的融合特征向量为O(t),其中融合特征O(t)由音频特征和图像特征混合而成,音频特征图像特征为其中A,V分别为音频特征和图像特征的维度。融合特征表示为一个单词发音的融合特征表示为:
O=[O(1),O(2),……O(T)] (7)
其中T为一个单词所占发音时间。
最后使用HMM模型进行建模与识别。
图3是本发明的一个实施例的基于单目摄像头的带噪音语音识别系统的示意图。
上述为本发明较好的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (3)
1.一种基于单目摄像头的带噪音语音识别系统,其特征在于,所述系统包括图像采集模块、视觉处理模块、音频采集模块、音频处理模块、语音识别模块;所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块;所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块;音频采集模块使用麦克风采集用户音频并输出至音频处理模块;所述音频处理模块对用户音频进行处理并输出至语音识别模块;所述语音模块使用数据融合策略对视频数据和音频数据进行融合,实现语音识别。
2.一种应用权利要求1所述的一种基于单目摄像头的带噪音语音识别系统实现的识别方法,其特征在于,所述方法包括:S1,获取视频源;S2,使用图像处理采集唇区,及获取嘴唇变化特征;S3,获取音频信息,及提取音频特征;S4,进行多流特征融合;S5,使用HMM模型建模并得出结果。
3.一种应用权利要求1所述的一种基于单目摄像头的带噪音语音识别系统实现的识别方法,其特征在于,所述步骤S2使用图像处理采集唇区,及获取嘴唇变化特征包括以下步骤:S21对图像进行色彩空间转换,S22肤色阈值处理,S23图像去噪处理,S24图像二值处理,S25开运算处理,S26嘴唇区域定位并计算特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611024686.3A CN108073875A (zh) | 2016-11-14 | 2016-11-14 | 一种基于单目摄像头的带噪音语音识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611024686.3A CN108073875A (zh) | 2016-11-14 | 2016-11-14 | 一种基于单目摄像头的带噪音语音识别系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108073875A true CN108073875A (zh) | 2018-05-25 |
Family
ID=62160771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611024686.3A Pending CN108073875A (zh) | 2016-11-14 | 2016-11-14 | 一种基于单目摄像头的带噪音语音识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108073875A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961789A (zh) * | 2019-04-30 | 2019-07-02 | 张玄武 | 一种基于视频及语音交互服务设备 |
CN110097610A (zh) * | 2019-04-08 | 2019-08-06 | 天津大学 | 基于超声与磁共振成像的语音合成系统和方法 |
CN110286765A (zh) * | 2019-06-21 | 2019-09-27 | 济南大学 | 一种智能实验容器及其使用方法 |
CN111091823A (zh) * | 2019-11-28 | 2020-05-01 | 广州赛特智能科技有限公司 | 基于语音及人脸动作的机器人控制系统、方法及电子设备 |
CN111161724A (zh) * | 2019-12-16 | 2020-05-15 | 爱驰汽车有限公司 | 中文视听结合语音识别方法、系统、设备及介质 |
WO2020118503A1 (zh) * | 2018-12-11 | 2020-06-18 | 华为技术有限公司 | 一种确定图像对焦区域的方法及装置 |
CN114613361A (zh) * | 2022-02-14 | 2022-06-10 | 广西大学 | 一种语音反馈和交互系统及方法 |
CN114613361B (zh) * | 2022-02-14 | 2024-05-28 | 广西大学 | 一种语音反馈和交互系统及方法 |
-
2016
- 2016-11-14 CN CN201611024686.3A patent/CN108073875A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020118503A1 (zh) * | 2018-12-11 | 2020-06-18 | 华为技术有限公司 | 一种确定图像对焦区域的方法及装置 |
CN110097610A (zh) * | 2019-04-08 | 2019-08-06 | 天津大学 | 基于超声与磁共振成像的语音合成系统和方法 |
CN110097610B (zh) * | 2019-04-08 | 2023-07-04 | 天津大学 | 基于超声与磁共振成像的语音合成系统和方法 |
CN109961789A (zh) * | 2019-04-30 | 2019-07-02 | 张玄武 | 一种基于视频及语音交互服务设备 |
CN109961789B (zh) * | 2019-04-30 | 2023-12-01 | 张玄武 | 一种基于视频及语音交互服务设备 |
CN110286765A (zh) * | 2019-06-21 | 2019-09-27 | 济南大学 | 一种智能实验容器及其使用方法 |
CN110286765B (zh) * | 2019-06-21 | 2022-11-04 | 济南大学 | 一种智能实验容器及其使用方法 |
CN111091823A (zh) * | 2019-11-28 | 2020-05-01 | 广州赛特智能科技有限公司 | 基于语音及人脸动作的机器人控制系统、方法及电子设备 |
CN111161724A (zh) * | 2019-12-16 | 2020-05-15 | 爱驰汽车有限公司 | 中文视听结合语音识别方法、系统、设备及介质 |
CN111161724B (zh) * | 2019-12-16 | 2022-12-13 | 爱驰汽车有限公司 | 中文视听结合语音识别方法、系统、设备及介质 |
CN114613361A (zh) * | 2022-02-14 | 2022-06-10 | 广西大学 | 一种语音反馈和交互系统及方法 |
CN114613361B (zh) * | 2022-02-14 | 2024-05-28 | 广西大学 | 一种语音反馈和交互系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073875A (zh) | 一种基于单目摄像头的带噪音语音识别系统及方法 | |
CN109522818B (zh) | 一种表情识别的方法、装置、终端设备及存储介质 | |
JP6810283B2 (ja) | 画像処理装置及び方法 | |
KR100958030B1 (ko) | 결정 융합 기반 감정인식 방법 및 시스템 | |
CN109147763B (zh) | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 | |
CN111339913A (zh) | 一种视频中的人物情绪识别方法及装置 | |
CN110472566B (zh) | 一种高精度的模糊人脸识别方法 | |
Ardiansyah et al. | Systematic literature review: American sign language translator | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
CN114155512A (zh) | 一种基于3d卷积网络多特征融合的疲劳检测方法及系统 | |
CN116934926B (zh) | 一种基于多模态数据融合的识别方法和系统 | |
CN113139525A (zh) | 一种基于多源信息融合的情感识别方法和人机交互系统 | |
Baranwal et al. | Indian sign language gesture recognition using discrete wavelet packet transform | |
Shanableh et al. | Video-based feature extraction techniques for isolated Arabic sign language recognition | |
Radha et al. | A survey on visual speech recognition approaches | |
CN112200008A (zh) | 一种社区监控场景下人脸属性识别方法 | |
CN116312512A (zh) | 面向多人场景的视听融合唤醒词识别方法及装置 | |
CN108109614A (zh) | 一种新型的机器人带噪音语音识别装置及方法 | |
CN111241960B (zh) | 一种基于维纳滤波与pca的人脸识别方法及系统 | |
Gaus et al. | Automatic affective dimension recognition from naturalistic facial expressions based on wavelet filtering and PLS regression | |
Tun et al. | Real-time Myanmar sign language recognition system using PCA and SVM | |
Nandini et al. | Deep Weighted Feature Descriptors for Lip Reading of Kannada Language | |
Perera et al. | Finger spelled Sign Language Translator for Deaf and Speech Impaired People in Srilanka using Convolutional Neural Network | |
Praneel et al. | Malayalam Sign Language Character Recognition System | |
Gaitonde et al. | SAHARA: Communication System for Deaf and Mute |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180525 |
|
WD01 | Invention patent application deemed withdrawn after publication |