CN108073875A

CN108073875A - 一种基于单目摄像头的带噪音语音识别系统及方法

Info

Publication number: CN108073875A
Application number: CN201611024686.3A
Authority: CN
Inventors: 梁鹏; 郝刚; 吴玉婷
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2018-05-25

Abstract

本发明公开一种基于单目摄像头的带噪音语音识别系统及方法，所述系统包括图像采集模块、视觉处理模块、音频采集模块、音频处理模块、语音识别模块；所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块；所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块；音频采集模块使用麦克风采集用户音频并输出至音频处理模块；所述音频处理模块对用户音频进行处理并输出至语音识别模块；所述语音模块使用数据融合策略对视频数据和音频数据进行融合，实现语音识别。本发明通过使用视频信息与音频信息两种特征，使用特征融合策略，有效避免如机器人马达，零件摩擦等造成的噪音干扰，提高了语音识别系统的准确率。

Description

一种基于单目摄像头的带噪音语音识别系统及方法

技术领域

本发明涉及语音识别技术，具体设计一种基于单目摄像头的带噪音语音识别系统及方法。

背景技术

随着人机交互技术发展，机器人被期望能拥有像人类一样的感知能力并能与人类合作共事。为实现这一目标，一些研究者使用语音技术来让机器人理解人类的语言。

但是，运动状态中的机器人不可避免的会产生噪音，比如电动风扇和马达产生的噪音，因麦克风更靠近机器人，因此这些噪音相比用户的语言信息更易获取，造成了机器人语音识别效果不佳。

申请公布号为CN201610615354.6的发明专利公开了基于自然语言的机器人控制系统及控制方法，方法包括接收用户输入的自然语言声波信号；将自然语言声波信号转换为语言文字信息；对语言文字信息进行分析分解，信息分解结果为根据不同词性将所述语言文字信息分类而组合成的词语集合；根据预置的词汇库对所述词语集合进行语义匹配，获取所述词语集合的行为匹配结果；将行为匹配结果转换成语音输出；通过人机对话模式对行为匹配结果进行确认；对确认的行为匹配结果进行行为分解，并依照行为分解结果控制机器人的执行。

申请公布号为CN201410771233.1的发明专利公开了一种机器人语音识别方法，包含步骤1：打开音频传感器，采集音频信号；步骤2：对采集到的音频信号，进行模数转换；步骤3：将转换后代数字信号送人模式识别缓冲区；步骤4：对模式识别缓冲区中的信号按照振幅做离散化处理；步骤5：将按照振幅做离散化处理的数据，在模式识别数据库中进行匹配算法；步骤6：对所有命令依据匹配算法的结果进行概率运算；步骤7：按照概率从大到小的方式排序；步骤8：将概率最大的命令作为结果输出。

上述发明专利中，都是通过对音频信息进行加工处理，来提高语音识别效果，但噪音仍参与上述的加工处理过程，因此造成语音识别的效果仍然有较大误差。

发明内容

本发明目的在于克服传统方法中的不足，提供一种基于单目摄像头的带噪音语音识别系统及方法。

本发明解决上述技术问题的技术方案为：

本发明的目的在于提高一种基于单目摄像头的带噪音语音识别系统，其中，所述系统包括图像采集模块、视觉处理模块、音频采集模块、音频处理模块、语音识别模块；所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块；所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块；音频采集模块使用麦克风采集用户音频并输出至音频处理模块；所述音频处理模块对用户音频进行处理并输出至语音识别模块；所述语音模块使用数据融合策略对视频数据和音频数据进行融合，实现语音识别。

本发明的另一个目的还在于提供一种基于单目摄像头的带噪音语音识别方法，其中，所述基于单目摄像头的带噪音语音识别方法包括以下步骤：S1，获取视频源；S2，使用图像处理采集唇区，及获取嘴唇变化特征；S3，获取音频信息，及提取音频特征；S4，进行多流特征融合；S5，使用HMM模型建模并得出结果。

进一步地，本发明步骤S2中，具体包括以下步骤：S21对图像进行色彩空间转换，S22肤色阈值处理，S23图像去噪处理，S24图像二值处理，S25开运算处理，S26嘴唇区域定位并计算特征。

进一步地，本发明步骤S4中，进行多流特征是使用线性插值发完成音频和视频信息的匹配。

进一步地，本发明步骤S5中，通过HMM(出自论文《隐马尔可夫模型及其应用》，作者王志堂，蔡淋波，湖南科技学院学报，2009年04期)完成建模和识别效果。

本发明的有益效果在于，通过使用视频信息与音频信息两种特征，使用特征融合策略，有效避免如机器人马达，零件摩擦等造成的噪音干扰，提高了机器人语音识别系统的准确率。

附图说明

图1是本发明的基于单目摄像头的带噪音语音识别系统的流程图。

图2是本发明的基于单目摄像头的带噪音语音识别方法的流程图。

图3是本发明的基于单目摄像头的带噪音语音识别系统的示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，图1为本发明的一种基于单目摄像头的带噪音语音识别系统流程图，其中，所述系统包括图像采集模块10、视觉处理模块20、音频采集模块30、音频处理模块40、语音识别模块50；所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块；所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块；音频采集模块使用麦克风采集用户音频并输出至音频处理模块；所述音频处理模块对用户音频进行处理并输出至语音识别模块；所述语音模块使用数据融合策略对视频数据和音频数据进行融合，实现语音识别。

如图2所示，图2为本发明的一种基于单目摄像头的带噪音语音识别方法的流程图，具体包括以下步骤：

S1，获取视频源。使用单目摄像头对人脸区域进行图像捕捉，获取人脸区域的图像。

S2，使用图像处理采集唇区，及获取嘴唇变化特征。对图像进行预处理，具体包括：S21对图像进行色彩空间转换，S22肤色阈值处理，S23图像去噪处理，S24图像二值处理，S25开运算处理，S26嘴唇区域定位并计算特征，具体描述如下：

S21，色彩空间转换：一般情况下，图片都是RGB色彩模型下的。但是RGB三分量间常有很高的相关性，直接利用这些分量往往不能达到预想的效果，所以需要将RGB图像转换到HSV色彩模型下。其中，H、S、V的值可分别由公式(2)、(3)、(4)得到。

V＝MAX (4)

以上公式(1)中MAX、MIN分别是RGB图像的最大值、最小值，H、S、V分别是HSV图像的H值、S值和V值。

转换到HSV色彩空间后，通过取H值的0～180进行阈值分割，则可获取到所需的二值图像。

S22，肤色阈值处理：利用OpenCV的otsu自适应阈值分割。程序流程为：计算直方图并归一化histogram；计算图像灰度均值avgValue；计算直方图的零阶w[i]和一级矩u[i]计算并找到最大的类间方差(between-class variance)。

variance[i]＝(avgValue*w[i]-u[i])*(avgValue*w[i]-u[i])/(w[i]*(1-w[i]))对应此最大方差的灰度值即为要找的阈值。

S23，图像去噪处理：现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响，故需对图像进行去噪处理。本实施例使用团块面积阈值法进行图像滤波去噪声，去除图像中目标对象周围的噪声，过程为：

采用二值数学形态学中的连通组元提取算法来求取团块的面积，小于阈值的团块为噪声，将该团块的像素点灰度值都设成255即可去除噪声。

S24，图像二值处理：进行图像二值化，将图像的前景与背景进行分割。图像二值化指将图像上的像素点的灰度值设置为0或255，使得整个图像呈现出明显的黑白效果。图像二值化是图像分析与处理中最常见最重要的处理手段，其使得图像中数据量大为减少，从而能凸显出目标的轮廓。在OpenCV中，可用关键函数cvThreshold()实现图像的二值化。

S25，开运算处理：为了消除二值化后不连通的散点同时填充手部中的缺失点，从而达到较好的图像效果，使用形态学方法中的开运算，即先腐蚀后膨胀。设f(x，y)是输入图像，b(x，y)是结构元素，用结构元素b对输入图像f进行腐蚀和膨胀运算分别定义为：

(f⊙b)(s，t)＝min{f(s-x，t-y)+b(x，y)|(s-x，t-y)∈D_f，(x，y)∈D_b} (5)

其中，s，t为输入图像f的参数，x，y为结构元素b的参数，D_f为图像f的一个集合，D_b为结构元素b的一个集合。

S26，嘴唇区域定位并计算特征：将人脸区域分为肤色区域和唇色区域，使用Otsu最大类间方差法进行分割，即将人脸图像区域根据颜色聚类，分成肤色和唇色两种类别，计算两种类别颜色的类内方差和类间方差，设定分割阈值为使得类间方差和类内方差最大时的阈值。此时得到的区域即是嘴唇区域。计算该区域的灰度直方图作为嘴唇区域的图像特征。

S3，获取音频信息，及提取音频特征：使用麦克风采集到音频信息后，采用MFCCs作为音频特征，使用了一个长度为30ms，步长为20ms的窗口来提取一阶系数和二阶系数，最终音频特征长度为78维。

S4，进行多流特征融合：特征融合方法是将时间同步的各个流进行直接连接，或者对连接后的特征进行某种适当的降维变换。假定t时刻同步的融合特征向量为O^(t)，其中融合特征O^(t)由音频特征和图像特征混合而成，音频特征图像特征为其中A，V分别为音频特征和图像特征的维度。融合特征表示为一个单词发音的融合特征表示为：

O＝[O⁽¹⁾，O⁽²⁾，……O^(T)] (7)

其中T为一个单词所占发音时间。

最后使用HMM模型进行建模与识别。

图3是本发明的一个实施例的基于单目摄像头的带噪音语音识别系统的示意图。

上述为本发明较好的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于单目摄像头的带噪音语音识别系统，其特征在于，所述系统包括图像采集模块、视觉处理模块、音频采集模块、音频处理模块、语音识别模块；所述图像采集模块使用单目摄像头采集嘴唇形状并输出至视觉处理模块；所述视觉处理模块对嘴唇图像进行处理并将结果输出至语音识别模块；音频采集模块使用麦克风采集用户音频并输出至音频处理模块；所述音频处理模块对用户音频进行处理并输出至语音识别模块；所述语音模块使用数据融合策略对视频数据和音频数据进行融合，实现语音识别。

2.一种应用权利要求1所述的一种基于单目摄像头的带噪音语音识别系统实现的识别方法，其特征在于，所述方法包括：S1，获取视频源；S2，使用图像处理采集唇区，及获取嘴唇变化特征；S3，获取音频信息，及提取音频特征；S4，进行多流特征融合；S5，使用HMM模型建模并得出结果。

3.一种应用权利要求1所述的一种基于单目摄像头的带噪音语音识别系统实现的识别方法，其特征在于，所述步骤S2使用图像处理采集唇区，及获取嘴唇变化特征包括以下步骤：S21对图像进行色彩空间转换，S22肤色阈值处理，S23图像去噪处理，S24图像二值处理，S25开运算处理，S26嘴唇区域定位并计算特征。