CN109961777A

CN109961777A - 一种基于智能机器人的语音交互方法

Info

Publication number: CN109961777A
Application number: CN201910118358.7A
Authority: CN
Inventors: 于瑞国; 顾楠; 徐天一; 赵满坤; 刘志强; 王建荣; 喻梅
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-02-16
Filing date: 2019-02-16
Publication date: 2019-07-02

Abstract

本发明公开了一种基于智能机器人的语音交互方法，方法包括：获取语音语料库，构建训练数据集和测试数据集，并对数据进行预处理；计算训练数据集的梅尔频率倒谱系数；搭建python+Anaconda+Tensorflow环境，使用python的keras库训练基于卷积神经网络构建语音识别模型；调用语义理解接口，处理语音识别结果；同时使用jieba、pypinyin、pydub、pyAudio库构建语音合成模型；将软件程序打包安装在智能机器人上后，分模块进行测试，再进行整体测试，根据测试效果重复上述内容，以进行调试和修改。本发明使服务型智能机器人可以实现识别语音、“理解”人类语言和与人“说话”的基本功能，从而实现其在大型场所进行引导、介绍的功能。

Description

一种基于智能机器人的语音交互方法

技术领域

本发明涉及语音识别、语音合成和自然语言处理领域，尤其涉及一种基于智能机器人的语音交互方法。

背景技术

目前语音识别技术主要有两种实现方法：隐马尔科夫法和人工神经网络。隐马尔科夫法是对语音信号的时间序列结构建立统计模型，将之看作是一个数学上的双重随机过程，HMM(隐马尔科夫)方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。人工神经网络模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性，其强大的分类能力和输入输出映射能力都可以很好的提高语音识别性能，但由于训练模型需要耗费较长的时间，目前发展的还不够完善。

语音合成技术主要有线性预测编码技术(LPC)、基音同步叠加技术(PSOLA)以及基于幅度对数估计(LMA)声道模型的语音合成方法。LPC合成技术本质上是一种时间波形的编码技术，目的是为了降低时间域信号的传输速率。PSOLA技术在拼接语音波形片断之前，首先根据上下文的要求，用PSOLA算法对拼接单元的韵律特征进行调整，使合成波形既保持了原始发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而获得很高的清晰度和自然度。基于LMA声道模型的语音合成方法具有传统的参数合成并且可以灵活调节韵律参数的优点，同时又具有比PSOLA算法更高的合成音质。

发明内容

本发明提供了一种基于智能机器人的语音交互方法，本发明使服务型智能机器人可以实现识别语音、“理解”人类语言和与人“说话”的基本功能，从而实现其在大型场所进行引导、介绍的功能，详见下文描述：

一种基于智能机器人的语音交互方法，所述方法包括以下步骤：

获取语音语料库，构建训练数据集和测试数据集，并对数据进行预处理；

计算训练数据集的梅尔频率倒谱系数；

搭建python+Anaconda+Tensorflow环境，使用python的keras库训练基于卷积神经网络构建语音识别模型；

调用语义理解接口，处理语音识别结果；同时使用jieba、pypinyin、pydub、pyAudio库构建语音合成模型；

将软件程序打包安装在智能机器人上后，分模块进行测试，再进行整体测试，根据测试效果重复上述内容，以进行调试和修改。

本发明提供的技术方案的有益效果是：

1、本发明提供的基于智能机器人的语音交互可进行多轮对话，录音无时间限制，并且即使在嘈杂背景下识别效果仍较为良好；

2、本发明在语音合成后以卡通形象的可爱声音进行播放，让智能机器在人与人对话时为用户提供放松的声音环境和有效的“声音”响应；

3、本发明避免了目前大部分语音交互系统存在的缺点，如多轮对话需要多次按键进行录音、录音时间受限制、识别效果受环境影响大、无法语音播放结果等；

4、本发明融合了目前较为成熟的手机语音助手的快速简单等优点，并加以改进后效果更佳优异。

附图说明

图1为一种基于智能机器人的语音交互方法的流程图；

图2为语音交互可视化界面的示意图；

图3为智能机器人系统界面的示意图；

图4为CNN(卷积神经网络)基本结构的示意图；

图5为语音库文件命名示例图；

图6为文字转换为拼音的示意图；

图7为文字转换为拼音的另一示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于智能机器人的语音交互方法，该方法包括以下步骤：

101：获取语音语料库，构建训练数据集和测试数据集，并对数据进行预处理；

102：计算训练数据集的梅尔频率倒谱系数(本领域技术人员所公知的技术术语)；

103：搭建python+Anaconda+Tensorflow环境，使用python的keras库训练基于卷积神经网络构建语音识别模型；

104：调用灵云公司的语义理解接口，直接处理语音识别结果；

105：使用python语言进行编写代码实现功能，同时使用jieba、pypinyin、pydub、pyAudio库构建语音合成模型；

106：可视化语音交互界面，提示用户开始说话。

107：将软件程序打包安装在智能机器人系统上后，分模块对系统进行测试，再进行系统整体测试，根据测试效果重复上述内容，以进行调试和修改。

具体实现时，上述步骤101-步骤103是语音识别模块的实现过程。其中，数据预处理包括：分词和字典映射的过程。提取和选择声信号的最佳参数是语音识别系统设计中的一个重要任务，它十分显著的影响着语音识别系统的性能。

本发明实施例通过计算梅尔频率倒谱系数(MFCC)来解决特征提取的问题。MFCC主要分为梅尔频率和倒谱两个部分，它是在梅尔频率上表示的短期频谱的实数对数的余弦变换的结果。

具体实现时，步骤103使用卷积神经网络训练语音识别模型，卷积神经网络包括：输入层、卷积层、池化层、全连接层和输出层。在语音识别的实现过程中，输入层为MFCC特征值。卷积层的每一个节点的输入是前一层的节点乘以权值矩阵得到的，在本方法的实现过程中，由python keras库中的Conv1D函数实现，Conv1D函数是一维卷积，作用是过滤一维输入的相邻元素。

步骤104是语义理解模块的实现过程，本方法中直接调用了灵云接口。

步骤105-106是语音合成模块的实现过程。预处理包括文本处理来进行分词以及确定单词的重音，并根据语音合成模型的结果进行波形重建，得到最后的语音段。

步骤107是最后进行合成和改进的过程。

综上所述，本发明实施例使服务型智能机器人可以实现识别语音、“理解”人类语言和与人“说话”的基本功能，从而实现其在大型场所进行引导、介绍的功能。

实施例2

下面结合附图、表1-表4，以及具体的计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

1、语音识别模块使用python语言调用Keras库实现中文语音识别系统。Keras是一个基于CNN(卷积神经网络)和CTC(连接时序分类)的深度学习框架，用python

语言编写，是一个支持GPU和CPU的神经网络库。

下面将介绍一下语音识别模块的实现步骤和使用的算法。

1)建立数据集

2)训练语音识别模型：搭建python+Anaconda+Tensorflow环境，使用python的keras库训练模型。具体实现步骤如表1至表4所示。

表1数据预处理

表2生成字典映射

表1和表2说明了对训练数据中的文本数据进行分词预处理和生成字典映射的过程。

表3计算MFCC特征值

如表3所示，提取和选择声信号的最佳参数是语音识别设计中的一个重要任务，它十分显著的影响着语音识别的性能。本方法通过计算梅尔频率倒谱系数(Mel-freauencyCepstral Coefficients，MFCC)来解决特征提取的问题。MFCC主要分为梅尔频率和倒谱两个部分，它是在梅尔频率上表示的短期频谱的对数的余弦变换的结果。

表4使用CNN训练模型

如表4所示，在语音识别的自主实现过程中，使用卷积神经网络对语音识别模型进行训练。卷积神经网络的基本结构图如图4所示。

在图4中可以看到，卷积神经网络包括：输入层、卷积层、池化层、全连接层和输出层。在本模块的实现过程中，输入层为MFCC特征值。卷积层的每一个节点的输入是前一层的节点乘以权值矩阵得到的，在本方法的实现过程中，由python keras库中的Conv1D函数实现，Conv1D函数是一维卷积，作用是过滤一维输入的相邻元素。在卷积层中，主要使用了两个非线性激活函数，如公式(1)和公式(2)所示。

sigmoid函数：

tanh函数：

在本模块的实现过程中，两个函数均被使用。其中，x为对输入的MFCC特征值进行一维卷积过滤处理后的值，及x＝Conv1D()(input)。卷积层之后是池化层，池化层通过对前一个卷积层的局部区域进行下采样得到，本模块通过对卷积层分别计算得到的sigmoid函数值和tan h函数值进行合并来达到池化的目的。最后一层softmax层使用连接时间分类(Connectionist Temporal Classification，CTC)的方法计算损失函数，从而达到对文本数据和音频数据进行“对齐”的目的，这一步使用keras库中的ctc_batch_cost函数实现。

最后生成的模型保存在listen_model.chk文件中。

模型测试：输入测试数据，观察模型输出结果。测试模型的过程如表5至表6所示。

表5计算MFCC特征

如表5所示，在测试语音识别模型之前，首先需要计算音频的特征值。

表6生成文字

表6为模型识别文字的过程。模型根据音频特征值生成相应的文字，并通过计算CTC损失函数对生成的文字进行排序，最后输出结果。

将上一步保存下来的识别结果做为语义理解模块的输入，调用灵云语义理解的接口，获取结果，并保存在本地文件中。

将上一步的结果作为语音合成的输入。语音合成模块同样使用python语言进行编写代码实现功能，同时使用jieba、pypinyin、pydub、pyAudio库。

下面主要介绍一下TTS模块自主实现过程及相关算法。

1)准备数据：语音库由从拼音a到拼音z为首字母的408个拼音组成，其中每个拼音包括轻音、一声、二声、三声、四声这5种音调。将每个文字的拼音以“拼音+音调”的方式保存，具体效果如图5所示。

2)实现转换，具体实现步骤如表7至表8所示。

表7文字转换为拼音

输入文字后，首先将文字转换为拼音，如表7所示。本方法通过使用python的pypinyin库实现这一目的，转换效果为pypinyin.TONE3，将文字转换为拼音的示例如图6所示。

在图6中，以“你好”和“我是天津大学的学生”为例，将文字分别转换为“ni3，hao3”和“wo3，shi4，tian1，jin1，da4，xue2，de，xue2，sheng1”。

为了对输入文本中的标点符号做出处理，使用lazy_pinyin函数进行拼音转换，lazy_pinyin函数含有简单的分词功能，能够对字符串按照是否是中文字符进行分词，从而将标点符号和句子中的特殊内容进行提取，如图7所示。

在图7中可以看到，将输入文本中的中文文字转换为拼音，并将其中的标点符号和英文字符串提取了出来。

表8根据拼音获取文件

如表8所示，本方法根据拼音从语音库中获取相应拼音的“.wav”文件，用拼音合成文字语音，每次遇到标点符号不读，并停顿500ms，最后将语音文件(.wav)保存在本地文件夹中。

综上所述，本发明实施例提供的基于智能机器人的语音交互可进行多轮对话，录音无时间限制，并且即使在嘈杂背景下识别效果仍较为良好。

实施例3

下面结合具体的实例对实施例1和2中的方案进行可行性验证，验证过程在智能机器人系统上进行，详见下文描述；

从图1中可以看到，语音交互开启后，用户开始面向计算机说话，用户说话停止后，自动检测语音的开始和结束端点，并将录音数据发送至语音识别模块，语音识别模块立即进行语音识别工作并将识别结果以文字形式保存在本地文件中，并触发自然语言理解模块；语义理解模块读取上一模块保存下来的文字数据，进行文字特征提取工作，根据特征寻找相对应的结果，返回的结果数据同样以文字形式进行保存；最后，语音合成模块读取语义理解模块的文件数据，把文字结果转换为语音结果并自动播放，使用户获得反馈结果。

点击开始录音按钮后，在状态栏显示录音机状态，当出现录音开始时，提示说话人可以开始说话，说话结束后自动识别语音，为了方便观察识别结果，本实验中将识别结果显示在界面状态栏上。本模块测试数据包括不同音色、不同环境下的长短语句语音。语音识别模块结果以MFC可视化界面呈现，其界面如图2所示。

将上述三个模块整合后隐藏了语义理解模块和语音合成模块的可视化界面，只显示语音识别界面以提示说话人录音的开始时间，语义理解模块和语音合成模块后台运行，最后播放语音结果。智能机器人及机器人的展示界面如图3所示。

本发明实施例对语音识别模块共进行了697次测试，语义理解模块进行了433次测试，语音合成模块进行了651次测试。

语音识别模块的测试数据包括不同音色、不同环境下的长短语句语音。语音识别模块结果以MFC可视化界面呈现。测试在较安静的环境下进行时，本发明实施例对于说话人给出的常用短语句语音均能给出较为准确的识别结果，对于说话人沉默不语的情况，本发明实施例识别结果为空。但是当说话人语速太快或出现方言时，如“西红柿炒鸡蛋”文字连读时，被识别为“熊手机的”，这说明说话人必须保证使用普通话交流。

测试结果说明，本发明实施例在识别普通话常用短语句任务中表现很好。本发明实施例在识别长语音时，受说话人说话语速、吐字清晰程度影响较大，对于吐字不清晰或连读的词汇会有识别错误的情况出现，但总体识别结果没有较大误差，说明本发明实施例对于识别长语音任务表现良好。在嘈杂环境下，本方法会把背景音当做语音进行录取导致录音时间过长，但是在识别短语音过程中可以把噪音去除，识别长语音时，当背景噪音过大且大于说话人语音时，被盖住的语音会被当做噪音去除，但总体上，本方法在噪音环境下识别表现良好。

本发明实施例通过计算词错误率(Word Error Rate，WER)来进行识别准确率评估。其中WER是指为了让识别出的词序列和标准词序列一致，对识别出的词序列进行替换(replace)、删除(delete)或插入(insert)操作，这些被操作的词的个数，除以标准词序列中词的个数(N)形成的百分比，就是WER，如公式(3)所示。

其中，r为词的替换个数，d为词的删除个数，i为插入的词的个数。

由词错误率，可以计算得到准确率，如公式(4)所示。

Accuracy＝1-WER (4)

另，本语音识别方法共进行了697次测试，其中安静环境下进行了497次测试，噪音背景下进行了200次测试，并分别对测试结果进行了准确率计算。通过计算可以发现，在安静背景下，除识别非名人人名外，系统识别率较高，即便是识别长语音，准确率也在90％以上。

本方法通过计算语义理解模块测试结果的准确率，对发明进行评估，即

由计算结果可见，对于天气、笑话、翻译、百度百科这四个方面没有歧义的文本输入，系统都能够给出准确的理解结果。

语音合成模块共经过600余次测试。本模块采用主观评测的方法，从中英文合成、多音字、数字串、儿化音、特殊符号、分词断句几个方面进行了测试。测试发现，当输入文本为中英文混合、含有多音字、数字串和普通符号(如“，”、“。”等)时均表现很好，分词断句没有误差，播放效果流利、韵律生动，可信度及自然度较高。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于智能机器人的语音交互方法，其特征在于，所述方法包括以下步骤：

计算训练数据集的梅尔频率倒谱系数；

搭建python+Anaconda+Tensorflow环境，使用python的keras库训练基于卷积神经网络构建语音识别模型，在训练模型的过程中使用梅尔频率倒谱系数；