CN108109614A

CN108109614A - 一种新型的机器人带噪音语音识别装置及方法

Info

Publication number: CN108109614A
Application number: CN201611034737.0A
Authority: CN
Inventors: 何中平; 覃争鸣
Original assignee: Rich Intelligent Science And Technology Ltd Is Reflected In Guangzhou
Current assignee: Rich Intelligent Science And Technology Ltd Is Reflected In Guangzhou
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2018-06-01

Abstract

本发明公开一种新型的机器人带噪音语音识别装置及方法，所述装置包括Kinect设备与仿人机器人；所述Kinect设备用于捕获3D唇部信息与视觉信息并处理；所述仿人机器人用于获取、处理音频信息，并最终融合多种策略。所述方法包括：S1,获取视频源；S2，3D投影法采集唇区，及获取音频信息；S3，3D数据重构侧唇，及提取音频特征；S4，进行多流特征融合；S5，使用HMM模型建模并得出结果。

Description

一种新型的机器人带噪音语音识别装置及方法

技术领域

本发明涉及机器人语音识别技术，具体设计一种新型的机器人带噪音语音识别装置及方法。

背景技术

随着人机交互技术发展，机器人被期望能拥有像人类一样的感知能力并能与人类合作共事。为实现这一目标，一些研究者使用语音技术来让机器人理解人类的语言。

但是，运动状态中的机器人不可避免的会产生噪音，比如电动风扇和马达产生的噪音，因麦克风更靠近机器人，因此这些噪音相比用户的语言信息更易获取，造成了机器人语音识别效果不佳。

申请公布号为CN201610615354.6的发明专利公开了基于自然语言的机器人控制系统及控制方法，方法包括接收用户输入的自然语言声波信号；将自然语言声波信号转换为语言文字信息；对语言文字信息进行分析分解，信息分解结果为根据不同词性将所述语言文字信息分类而组合成的词语集合；根据预置的词汇库对所述词语集合进行语义匹配，获取所述词语集合的行为匹配结果；将行为匹配结果转换成语音输出；通过人机对话模式对行为匹配结果进行确认；对确认的行为匹配结果进行行为分解，并依照行为分解结果控制机器人的执行。

申请公布号为CN201410771233.1的发明专利公开了一种机器人语音识别方法，包含步骤1：打开音频传感器，采集音频信号；步骤2：对采集到的音频信号，进行模数转换；步骤3：将转换后代数字信号送人模式识别缓冲区；步骤4:对模式识别缓冲区中的信号按照振幅做离散化处理；步骤5：将按照振幅做离散化处理的数据，在模式识别数据库中进行匹配算法；步骤6：对所有命令依据匹配算法的结果进行概率运算；步骤7：按照概率从大到小的方式排序；步骤8：将概率最大的命令作为结果输出。

上述发明专利中，都是通过对音频信息进行加工处理，来提高语音识别效果，但噪音仍参与上述的加工处理过程，因此造成语音识别的效果仍然有较大误差。

发明内容

本发明目的在于克服传统方法中的不足，提供一种新型的机器人带噪音语音识别装置及方法。

本发明解决上述技术问题的技术方案为：

一种新型的机器人带噪音语音识别装置及方法，其中，所述装置包括Kinect设备与仿人机器人；其中，

所述Kinect设备用于捕获3D唇部信息与视觉信息并处理；所述仿人机器人用于获取、处理音频信息，并最终融合多种策略；

所述识别方法包括以下步骤：S1,获取视频源；S2，3D投影法采集唇区，及获取音频信息；S3，3D数据重构侧唇，及提取音频特征；S4，进行多流特征融合；S5，使用HMM模型建模并得出结果。

进一步地，本发明步骤S1中，获取视频源由Kinect设备获取。

进一步地，本发明步骤S2中，3D投影法采集唇区由Kinect的SDK提供的函数进行投影，并将唇区保存成32x 32像素；音频信息由机器人自带的麦克风矩阵获取，提取的特征为MFCCs特征。

进一步地，本发明步骤S3中，3D数据重构侧唇后，需将图片保存成bmp格式。

进一步地，本发明步骤S4中，进行多流特征是使用线性插值发完成音频和视频信息的匹配。

进一步地，本发明步骤S5中，通过HMM(出自论文《隐马尔可夫模型及其应用》，作者王志堂，蔡淋波，湖南科技学院学报，2009年04期)完成建模和识别效果。

本发明通过使用视频信息与音频信息两种特征，使用特征融合策略，有效避免如机器人马达，零件摩擦等造成的噪音干扰，提高了机器人语音识别系统的准确率。

附图说明

图1是本发明的新型的机器人带噪音语音识别装置及方法的流程图。

图2是本发明中所述方法的步骤3中的补全唇区的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明的一种新型的机器人带噪音语音识别装置及方法，其中，所述装置包括Kinect设备与仿人机器人；其中，所述Kinect设备用于捕获3D唇部信息与视觉信息并处理；所述仿人机器人用于获取、处理音频信息，并最终融合多种策略。

本发明的一种新型的机器人带噪音语音识别方法，具体包括以下步骤：

如图1所示，当用户发出语音命令后，机器人同时采集视频信息和音频信息。机器人采集到视频信息后，首先进行3D投影法定位唇区。定位方法如下：对于视频的每一帧，利用Kinect for windows SDK 121个3D点(其中18个点代表唇区)实时定位用户唇区。定位完成后，SDK自带的坐标转换函数，每个3D坐标(x,y,z)都可按照以下公式投影到彩色图像上，按照Z轴指向说话者，Y轴朝上，X轴指向左边，度量单位为米的原则投影在平面上。

其中，x,y,z分别为对应的3D图像x，y，z轴坐标，m表示Kinect与成像平面之间的距离。P_(iamge)(x),P_(image)(y)为投影后图像的x,y轴坐标，tan为正切函数。

唇区定位后，开始进行3D坐标重构侧唇。根据ZXY三轴的对应关系，将唇部轮廓插值为栅图代表空间位置和像素网络的点阵数据结构；填充栅格图颜色，距说话者越近，颜色越深，并将该侧唇保存为BMP格式图像。

机器人采集到音频信息后，采用MFCCs作为音频特征，使用了一个长度为30ms，步长为20ms的窗口来提取一阶系数和二阶系数，最终音频特征长度为78维。

采用离散余弦变换和主成分分析结合的方法将图像信息转换为特征向量。使用训练数据集获取平均值M_i和PCA转换矩阵M_pea，对于每个测试数据I，都可以使用

I＝M_pca×I_pca+M_i

表示。使用PCA提取的数据像素特征为：

由于音频帧率为100Hz，而视觉信息和3D特征的帧速率是30Hz，因此采用线性插值法处理视觉信息和3D特征，以此来匹配音频速率。

对特征进行归一化操作，与传统声学语音信号中倒谱均归一化类似，以单词为单位，逐帧减去特征均值。并使用一个长度为J，步长为H的观察窗口，将窗口内连续的J帧特征凭借起来，得到唇部动态特征。

在此使用PCA对特征进行降维。

进行多流特征融合。特征融合方法是将时间同步的各个流进行直接连接，或者对连接后的特征进行某种适当的降维变换。假定t时刻同步的音频(A)，视频(V)和3D特征向量为O^(t),维度为D_s，其中s分别为A，V，3D。特征融合后是这三个流各自特征的串联，记为

其中D＝D_A+D_V+D_3D。然后将这些融合后的特征，融合后为：

O＝[O⁽¹⁾,O⁽²⁾,……O^(T)]

其中T为一个单词所占发音时间。

最后使用HMM模型进行建模与识别。

上述为本发明较好的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种新型的机器人带噪音语音识别装置，其特征在于，所述装置包括Kinect设备与仿人机器人；其中，所述Kinect设备用于捕获3D唇部信息与视觉信息并处理；所述仿人机器人用于获取、处理音频信息，并最终融合多种策略。

2.一种应用权利要求1所述的一种新型的机器人带噪音语音识别装置实现的识别方法，其特征在于，所述方法包括：S1,获取视频源；S2，3D投影法采集唇区，及获取音频信息；S3，3D数据重构侧唇，及提取音频特征；S4，进行多流特征融合；S5，使用HMM模型建模并得出结果。