CN108847238B

CN108847238B - 一种服务机器人语音识别方法

Info

Publication number: CN108847238B
Application number: CN201810886913.6A
Authority: CN
Inventors: 王斐; 刘鑫; 丁鹏
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2022-09-16
Anticipated expiration: 2038-08-06
Also published as: CN108847238A

Abstract

本发明属于语音识别领域，公开了一种服务机器人语音识别方法。本发明的语音对话系统利用语音分离和文本处理，提高了语音对话系统的性能。主要包括以下方面：一、服务机器人语音识别系统在传统语音识别系统的基础上加入了声源分离环节解决了系统对混合声音流的识别问题，二、服务机器人语音识别系统在传统语音识别系统的基础上加入了文本筛选环节解决了系统对“无意义”文本的滤除问题，改善机器人的错误应答率。实验证明服务机器人语音识别系统较传统语音识别系统对混合声音的识别率有很大的提升，对文本的误应答有明显的改善。

Description

一种服务机器人语音识别方法

技术领域

本发明属于语音识别领域，涉及一种服务机器人语音识别方法。

背景技术

语音识别就是让机器能够听懂人说的话,其根本目的是研究一种具有听觉功能的机器,使机器能直接接受人的语音,理解人的意图并做出相应的反应。目前针对语音识别提出了很多算法，但是这些研究基本上都是基于较为纯净的语音环境，一旦环境中有噪声干扰或存在其他人的声音，语音识别就会受到严重影响。因为大多数语音识别的语音识别系统基本上都是在无干扰、无噪声和无混响的“纯净”环境中搭建而成。而实现环境中不可避免地存在干扰和噪声，包括其他人的声音和回声等，这些噪声使语音识别系统的性能大大降低甚至瘫痪。已有的信号去噪、参数去噪和抗噪识别等方法都有一定的局限。如果能实现干扰、噪声和语音的自动分离，即在识别前就获得较为纯净的语音，可以彻底解决噪声环境下的识别问题。

近年来的声源分离、声纹识别等技术的飞速发展为干扰、噪声和语音的分离提供了可能。另外现存的人机对话系统对请求文本没有丝毫的鉴别能力，它仅仅是通过请求文本去得到应答文本，希望搭建一个可以对请求文本进行过滤的人机对话系统。它可以滤除一些无意义的请求文本，改善机器人的错误应答率。

发明内容

针对现有人机对话系统的不足，本发明提出将声源分离和文本处理等方法应用于人机对话系统，以解决人机对话系统对混合声音流束手无策的问题和对垃圾文本误响应的问题。

提出一种服务机器人语音识别系统。服务机器人语音识别系统在传统的语音识别系统的基础上加入了声源分离环节，解决了系统对混合声音流的识别问题，加入了文本筛选环节，解决了系统对“无意义”文本的滤除问题，改善机器人的错误应答率。首先，对机器人听到的声音进行卡尔曼滤波，去除声音当中环境噪声的成分；然后，使用的RNN声源分离模型对经过卡尔曼滤波之后的混合声音流进行声源分离处理，得到纯净声音流；其次，将该纯净声音流送入语音识别系统，得到相应的文本；最后，用SVM模型实现的文本筛选判断经过语音识别得到的文本是否合格或值得机器人应答，使得机器人只对通过SVM模型判断合格的文本进行应答。

实验证明服务机器人语音识别系统较传统语音识别系统对混合声音的识别率有很大的提升，对文本的误应答率有明显的改善。

本发明具体方案实现如下：

一种服务机器人语音识别方法，包括如下步骤：

步骤1、收集数据，获取机器人多个服务对象的纯净声音流和混合声音流；

步骤2、对语音数据进行标签化，将不同对象的纯净声音流和混合声音流分别设置不同标签；

步骤3、搭建RNN神经网络、设定网络结构；该网络有四层，由输入层、两个隐含层、输出层构成。网络结构如图1所示，其中输入层节点个数为i，隐含层节点个数为h，输出层节点个数为o。该循环神经网络(RNN)的输入输出特征是短时傅里叶变换后的能量谱，有两个隐藏层且隐藏层的激活函数选择RELU函数，损失函数定义为：

表示RNN模型在时刻t的输出，y_1t、y_2t。。。则为t时刻的纯净人声，γ₁₂、γ_13。。。为给定的常数项；

损失函数中第一项的平方误差

的目的是让分离后的声音流

与纯净的声音流y_1t、y_2t。。。越来与接近，损失函数中第二项平方误差

的目的是分离后的声音流

包含更少的纯净声音流y_2t、y_3t。。。，损失函数中的第三个平方误差

的目的是分离后的声音流

包含更少的纯净声音流y_1t、y_3t。。。。

步骤4、对多个服务对象的纯净声音流和混合声音流进行短时傅里叶变换处理，并输入到RNN网络进行训练，具体步骤如下：

步骤4.1、初始化RNN神经网络参数，如果初始权值向量处在误差曲面的一个相对平缓的区域的时候，网络训练的收敛速度可能会异常缓慢。所以设定网络的连接权值和阈值初始化在[-0.30,+0.30]之间的随机值；并设定权值的学习速率为[0,1]范围之间的点值；

步骤4.2、根据k-1时刻对混合声音做短时傅里叶变换处理后得到的振幅谱作为输入数据，由输入层到隐含层节点的权值和隐藏层之间的权值，得到输出层的输出值，并将输出值

与期望值y比较，算出损失函数，进而更新k时刻输入层到隐含层节点的权值和隐藏层之间的权值，以及RNN基本单元之间的权值；

步骤4.3、设置停止训练的总误差阈值，判断获得的预测值的总误差是否大于设置的总误差阈值，若是，则根据总误差值，调整隐含层节点到输出层节点的区间权值，输入层节点到隐含层节点的区间权值，以及RNN基本单元之间的权值，否则，完成RNN神经网络的训练；

步骤5、利用训练好的RNN神经网络完成对多个对象的混合声音流的语音分离工作。

进一步地，上述的服务机器人语音识别方法，还包括利用SVM模型实现文本滤除，具体包括如下步骤：

步骤1、收集数据，获得人机对话的文本素材；

步骤2、对文本数据进行标签化，分为正、负两种样本，正样本为正常文本；负样本为插入语文本；

步骤3、对环境中的声音进行监听，如果没有声音则监听继续，否则对声音进行截取，声音截取的方法采用基于短时能量和短时过零率的声音端点检测方法；

步骤4、对截取到的声音进行语音识别，得到该段声音的对应文本；

步骤5、搭建SVM模型对文本数据进行二分类，具体步骤如下：

步骤5.1、对全部训练文档进行分词，分词方法采用jieba分词方法；

步骤5.2、分别统计正、负样本中出现的词语及其频率，然后过滤，剔除停用词和单字词；

步骤5.3、分别统计正、负样本中出现词语的词频，并取其中的若干个频率最高的词汇作为这一类别的高频词集；

步骤5.4、去除正、负样本中都出现的高频词，合并正负样本的高频词，得到总高频词集，即特征集合；

步骤5.5、将特征集合映射到词向量集合，利用该词向量集合训练SVM，得到训练模型；

步骤6、利用训练好的SVM完成对人机对话文本的输出值预测，如果SVM的预测值是正常文本，则对其进行响应，否则，放弃响应。

本发明的有益效果为，充分利用当下日臻成熟的深度学习声源分离和文本处理方法，将语音识别系统改造成具有声源分离和文本滤除功能服务机器人语音识别系统。服务机器人语音识别系统较传统语音识别系统对混合语音流的识别有很大改善，在小样本的测试下，服务机器人语音识别系统对混合语音流的识别率由36％提高至98％。采用SVM实现的文本筛选环节对文本的筛选能力也有根本性的提升。由原来的对文本完全没有筛选能力到实现98.8％的精确率。

附图说明

图1为RNN神经网络结构示意图。

图2为RNN神经网络基本单元展开图。

图3为RNN神经网络解决声源分离原理图。

图4为带噪声的原始声音。

图5为经过卡尔曼滤波之后的声音。

图6为人与人机对话系统之间的一次语音交互的流程图。

具体实施方式

为更好理解本发明的技术方案，以下通过具体实例并结合附图说明本发明的实施方法。

RNN实现对混合声音流的分离工作：

以两种声音的混合为例。首先机器人对环境进行声音监听，如果没有声音，则监听继续，否则对环境中的声音进行截取，本系统采取的截取的方法是基于短时能量和短时过零率的声音端点检测；如果此时甲乙两个人同时说话，并被机器人听到时，机器人听到的则是甲乙两个人的混合声音流，然后将这种抓取到的混合声音进行卡尔曼滤波(卡尔曼滤波效果如图4所示)，并送入RNN声源分离网络模型，得到经过声源分离之后的纯净声音流；其次，将得到的纯净声音流输入到语音识别网络，从而得到相应的文字内容；最后利用SVM模型对得到的识别文字进行插入语滤除，判断这段文字是否值得系统响应，如果合格，则对该段语音进行响应，否则将该段声音视为噪声，放弃响应。语音识别系统的识别过程如图5所示。

SVM实现对人机对话中无意义文本的滤除：

将人机日常对话文本记录下来共得到文本素材1000个(正常文本和“无意义”文本两种各占比50％)；将这1000条人机对话文本从1到1000编号，其中，编号1-800的为训练文本，编号801-1000的为测试文本。

用SVM模型搭建插入语文本筛选环节。运用由Python实现SVM进行训练测试，得到人机对话文本的真实值与SVM判别值对比表，其中，“1”表示正常文本，“0”表示垃圾文本，如下表所示：

如表所示，服务机器人语音识别系统只对经过SVM模型实现的文本筛选环节判定为1的人机对话文本进行回答、响应。经过实验验证，服务机器人语音识别系统由原来的对文本完全没有筛选能力到实现对人机对话文本的98.8％的精确率。总之，在人机对话过程中，服务机器人语音识别系统可以滤除一些无意义的请求文本，改善人机对话过程中的错误应答率。

Claims

1.一种服务机器人语音识别方法，其特征在于，包括如下步骤：

步骤3、搭建RNN神经网络、设定网络结构；该网络有四层，由输入层、两个隐含层、输出层构成，其中输入层节点个数为i，隐含层节点个数为h，输出层节点个数为o；该循环神经网络(RNN)的输入输出特征是短时傅里叶变换后的能量谱，有两个隐藏层且隐藏层的激活函数选择RELU函数，损失函数定义为：

…表示RNN模型在时刻t的输出，y_1t、y_2t…为t时刻的纯净人声，γ₁₂、γ₁₃…为给定的常数项；

步骤4.1、初始化RNN神经网络参数，设定网络的连接权值和阈值初始化为[-0.30,+0.30]之间的随机值；并设定权值的学习速率为[0,1]范围之间的点值；

步骤4.2、根据k-1时刻对混合声音做短时傅里叶变换处理后得到的能量谱作为输入数据，由输入层到隐含层节点的权值和隐藏层之间的权值，得到输出层的输出值，并将输出值

步骤5、利用训练好的RNN神经网络完成对多个对象的混合声音流的语音分离工作；

还包括利用SVM模型实现文本滤除，具体包括如下步骤：

步骤1、收集数据，获得人机对话的文本素材；

步骤5、搭建SVM模型对文本数据进行二分类，具体步骤如下：