CN112287673B

CN112287673B - 一种基于深度学习来实现语音导航机器人的方法

Info

Publication number: CN112287673B
Application number: CN202011150454.9A
Authority: CN
Inventors: 黄诗雅; 罗睦军; 邓从健
Original assignee: Guangzhou Yunqu Information Technology Co ltd
Current assignee: Guangzhou Yunqu Information Technology Co ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-08-17
Anticipated expiration: 2040-10-23
Also published as: CN112287673A

Abstract

本发明提供一种基于深度学习来实现语音导航机器人的方法，方法包括步骤：获取用户通话文本数据；将用户通话文本输入到训练好的基于深度学习的导航队列分类模型进行预测识别，获取输出的导航队列预测结果；根据获取的导航队列预测结果将用户转接到相应的人工队列进行处理。本发明提供的方法能够对大量文本数据针对性进行训练，可以快速获取良好的效果。后期遇到新知识时，可以加强训练使其模型适应文本数据中存在的新知识，从而可以大幅度改善人力成本和提高时间成本。

Description

一种基于深度学习来实现语音导航机器人的方法

技术领域

本发明涉及电信通讯领域、深度学习领域、自然语言领域，特别是涉及一种基于深度学习对运营商文本实现导航机器人的方法。

背景技术

目前语音导航机器人使用语音交互方式来识别用户意图，然后机器人自动判断用户情况后对接相关人工队列进行处理。这个过程中需要机器人自动去识别用户话语信息然后转接相关队列的过程。利用传统规则方式可以得到较好的结果，但是背后需要大量人工去标注关键词，并且后期维护关键词词库。但是由于每天有2、3万用户使用语音导航机器人情况下，非结构化文本内容变得复杂化，这需要大量人工逐条标注并建立关键词词库的话，这将会需要耗费大量的人力资源，还需要大量的时间成本。

发明内容

针对语音导航机器人中产生的文本如果使用大量人力去标注来搭建关键词库，然后利用关键词库进行快速索引的方式可以匹配到正确导航队列中。但是会消耗大量人力和时间的技术问题，本发明旨在提供一种高效率、自动化，准确性高的基于深度学习来实现语音导航机器人的方法。

本发明的目的采用以下技术方案来实现：

本发明示出一种基于深度学习来实现语音导航机器人的方法，方法包括步骤：

S20获取用户通话文本数据；

S30将用户通话文本输入到训练好的基于深度学习的导航队列分类模型进行预测识别，获取输出的导航队列预测结果；

S40根据获取的导航队列预测结果将用户转接到相应的人工队列进行处理。

一种实施方式中，该方法还包括：

S10训练基于深度学习的导航队列分类模型，包括如下步骤：

S11获取训练通话录音文本数据组成训练语料，对训练通话录音文本数据进行预处理，获取规范化的训练语料，其中训练通话录音文本数据包括通话录音文本和对应的导航队列标签；

S12对规范化的训练语料进行特征工程，获取训练语料的特征向量；

S13将训练语料的特征向量输入到导航队列分类模型进行基于深度学习的模型训练，获取训练好的基于深度学习的导航队列分类模型。

一种实施方式中，步骤S11中，对训练通话录音文本数据进行预处理，包括如下步骤：

过滤短语：过滤训练通话录音文本中句子长度低于阈值的句子；

文本分词：加载专用的词库和分词提取工具对训练通话录音文本进行分词处理，输出分词文本；

停用词处理：加载停用词表，并根据停用词表过滤分词文本中存在的停用词；

数据均衡处理：统计训练语料中对应每个导航队列标签的各通话录音文本数据量，判断各导航队列是否均衡：如果每个导航队列对应的通话录音文本的数据量保持在平均值的5％内，即不进行处理；否则则对训练语料进行向下采样处理，使训练语料中的数据对应各导航队列保持均衡状态。

一种实施方式中，步骤S12中对训练语料进行特征工程，包括如下步骤：

构建语料字典：将分词后的训练语料读入内存，通过计算每个单词在文档中出现的词频，过滤掉词频小于最低阈值或高于最高阈值的单词，然后对剩余、不重复的单词映射成索引表示，构建词汇-索引映射表；

构建队列标签字典：对训练语料的导航队列标签进行去重处理，然后将去重后的导航队列标签映射成索引表，构建标签-索引映射表；

构建词向量：将word2vec词向量模型导入内存中，获取词汇-索引映射表相对应的词向量，作为模型的初始值；

文本序列化：通过词汇-索引映射表把每个文档单词数值化；

队列序列化：通过标签-索引映射表把每个文档标签数值化；

一种实施方式中，导航队列分类模型为基于TEXTRNN实现导航队列分类模型。

本发明的有益效果为：本发明提供的方法能够对大量文本数据针对性进行训练，可以快速获取良好的效果。后期遇到新知识时，可以加强训练使其模型适应文本数据中存在的新知识，从而可以大幅度改善人力成本和提高时间成本。

从传统的规则性模型到现在的深度学习模型，技术的迭代更新可以改善前期标注和后期维护的人力成本，且能进一步提升识别准确性。通过对已有标签数据情况下做数据预处理完成训练语料制作；通过特征提取以及深度学习对训练语料进行建模，最后对通话录音转写文本进行非结构化的文本识别，以此降低人工标注数据、整合知识库的压力，从而节省人力。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明方法的流程示意图；

图2为本发明在一种实施方式中方法的流程结构示意图。

具体实施方式

结合以下应用场景对本发明作进一步描述。

参见图1，其示出一种基于深度学习来实现语音导航机器人的方法，包括：

获取训练语料：获取训练通话录音文本数据组成训练语料，其中训练通话录音文本数据包括通话录音文本和对应的导航队列标签。

数据预处理：对训练通话录音文本数据进行预处理，获取规范化的训练语料。

可选的，获取通话录音文本后，对文本进行预处理，从而完成训练语料的规范化。

可选的，对训练通话录音文本数据进行预处理，包括如下步骤：

1)过滤短语：过滤训练通话录音文本中句子长度低于阈值的句子。

2)文本分词：加载专用的词库和分词提取工具对训练通话录音文本进行分词处理，输出分词文本；可选的，加载专用词字典后放入jieba工具，然后采用jieba工具对通话文本进行分词。例如：传入进去字符串形式的句子，分词后返回有词语组合成的列表。

3)停用词处理：加载停用词表，并根据停用词表过滤分词文本中存在的停用词。

4)数据均衡处理：统计训练语料中对应每个导航队列标签的各通话录音文本数据量，判断各导航队列是否均衡：如果每个导航队列对应的通话录音文本的数据量保持在平均值的5％内，即不进行处理；否则，对训练语料进行向下采样处理，使训练语料中的数据对应各导航队列保持均衡状态。

特征工程：对规范化的训练语料进行特征工程，获取训练语料的特征向量。

可选的，对训练语料进行特征工程，包括如下步骤：

1)构建语料字典：将分词后的训练语料读入内存，通过计算每个单词在文档中出现的词频，过滤掉词频小于最低阈值或高于最高阈值的单词，然后对剩余、不重复的单词映射成索引表示，构建词汇-索引映射表。

2)构建队列标签字典：对训练语料的导航队列标签进行去重处理，然后将去重后的导航队列标签映射成索引表，构建标签-索引映射表；

3)构建词向量：将word2vec词向量模型导入内存中，获取词汇-索引映射表相对应的词向量，作为模型的初始值；可选的，通过网络方式下载Tencent AI开源的word2vec词向量模型，然后将模型导入内存中，最后读取出词汇-索引映射表相对应的词向量，作为模型的初始值。

4)文本序列化：通过词汇-索引映射表把每个文档单词数值化。可选的，设置统一的文本长度，如果出现文档长度不一致情况，进行定长处理。长于阈值进行截取，短于阈值采用<PAD>扩充。

5)队列序列化：通过标签-索引映射表把每个文档标签数值化。

可选的，将上述映射表以及词向量保存到配置文件中。

模型训练：将上述预处理及特征工程处理后的训练语料作为训练样本输入到导航队列分类模型进行训练，得到训练后的导航队列分类模型。

可选的，导航队列分类模型采用基于TEXTRNN实现的导航队列分类模型。

可选的，导航队列分类模型包括依次连接的输入层、双向RNN层、全连接层和softmax层。

导航队列分类模型采用BiRNN模型，其中BiRNN是一种双向循环神经网络，是RNN神经网络的一个变种。BiRNN网络结构的核心是把一个普通的单向RNN拆成两个方向，一个是随时序正向的，一个是逆着时序的反向的。这样可以根据两个方向信息来提取正反两个文本的特征。通常可以使用BiRNN的最终输出作为文本特征，也可以使用BiRNN的最终状态作为文本特征。

可选的，将训练语料作为训练样本输入到导航队列分类模型进行训练，得到训练后的导航队列分类模型，包括如下步骤：

将训练语料转化为定长的文本序列；

输入层：在输入层输入定长n的文本序列c，每个词用向量xi表示，每个词嵌入的维度k；将句子表示为

(

表示连接操作)即输入层输入的是文本序列c中各个词汇对应的分布式表示xi，即词向量；其中词向量采用预训练word2vec做输入层的输入，并在模型训练过程中不再微调；

双向RNN层：分为前向RNN和反向RNN；文本任务中，在理解一句话意思时，孤立理解句中中每个词的意思是不够的，我们还需要处理词连起来的整个序列，而RNN能够处理好序列信息。但RNN结构都是单向的，但实际问题中还存在不仅依赖之前序列还依赖之后的序列进行预测问题。对于这类问题引用双向RNN(BiRNN),即前向RNN和反向RNN；

前向RNN更新状态如下：获取到输入层句子信息

(1)假设初始状态

将x₁输入至函数

中，获取状态

(2)然后计算

获取

(3)输入x₂后，通过函数

来获取

(4)依次输入向量x_i直到输入x_n至函数

获取状态

其中U^[1]、W^[1]分别表示权重，b^[1]表示偏差；n＝1,......,n；

表示单元输出，

表示单元状态；V^[1]表示单元参量；

反向RNN更新规则如下：获取到输入层句子信息

假设初始状态

将x_n输入到函数

中，获取状态

依次输入向量x_n:1，直到得到

即

其中U^[2]、W^[2]分别表示权重，b^[2]表示偏差，n＝1,......,n；

表示单元输出，

表示单元状态；V^[2]表示单元参量；

全连接层：使用一层全连接层将前向RNN与反向RNN进行拼接，

其中

表示连接操作，其中W是需要学习的权重，b是偏差；

Softmax层：将获取的h_n信息输入到softmax激活函数：

其中

是预测每个导航队列标签的概率情况：采用cost函数

评价模型的性能，其中λ_j是每个导航队列j的权重，

表示预测每个导航队列标签的概率与实际对应每个导航队列标签的概率的向量差，其中函数越小说明模型和参数越符合训练样本，训练过程中关注cost的变化；通过调节模型参数寻找全局最小的c值，完成模型训练。

基于上述提出的语音导航机器人方法，能够对大量文本数据针对性进行训练，可以快速获取良好的效果。后期遇到新知识时，可以加强训练使其模型适应文本数据中存在的新知识，从而可以大幅度改善人力成本和提高时间成本。

可选的，模型训练完毕后，对含标注文本数据进行预测，并返回预测结果。返回结果做准确率测试，判断是否达到实际要求。如果达标的话，将保存模型。否则，则从FTP上获取其他训练通话录音文本数据继续对模型进行训练，即重复上述获取训练语料、数据预处理、特征工程的以及模型训练的步骤。

获取用户通话文本：根据用户通话录音，将该录音转化文用户通话录音文本数据。

可选的，获取用户通话录音，获取用户通话数据并对其进行录音，获取用户通话录音。

可选的，该方法中，获取用户通话文本数据还包括：

接收用户发送至语音导航机器人的通话语音信号并对该通话语音信号进行录音，获取用户通话录音信号，对获取的用户通话录音信号进行预处理，输出预处理后的用户通话录音信号；

根据预处理后的用户通话录音信号进行语音信号转文字处理，获取用户通话文本数据。

可选的，上述获取的用户通话录音信号进行预处理，包括如下步骤：

对获取的用户通话录音信号进行分帧、加窗处理，获取各用户通话录音信号帧；

针对每一个获取的用户通话录音信号帧进行音频增强处理，包括：

采用设定的小波基和分解层数对用户通话录音信号帧进行小波分解处理，获取该用户通话录音信号帧的低频小波系数和高频小波系数；

分别对各层获取的高频小波系数进行阈值处理，获取阈值处理后的高频小波系数，其中采用的优化阈值处理函数为：

式中，z(i,c)表示小波分解后获取的第i层第c个高频小波系数，z′(i,c)表示增强预阈值函数处理后获取的第i层第c个高频小波系数，z^-1(i)表示前一帧用户通话录音信号帧中小波分解获取的第i层高频系数均值，Γ表示设定的阈值，sgn(·)表示符号函数，d₁表示设定的幅度调节因子，其中d₁∈(0,1)，d₂表示设定的上界调节因子，其中d₂∈(0,1)；

根据优化预阈值函数处理后获取的高频小波系数和获取的低频小波系数进行小波逆变换，获取预处理后的用户通话录音信号帧；

针对各预处理后的用户通话录音信号帧组成输出的预处理后的用户通话录音信号。

可选的，上述音频增强处理中，针对第一帧用户通话录音信号不对其进行高频小波系数阈值处理。

在进行语音导航的过程中，其中第一步便是根据用户的语音信息(用户通话录音信号)来获取相应的文本数据，在此过程中，需要对获取的用户通话录音信号进行声音转文字处理，针对用户通话录音信号中由于通话过程中通话质量容易受到影响，从而使得用户通话录音信号中存在噪声干扰的情况，从而影响用户通话录音信号的清晰度和声音转文字的准确度，从而影响语音导航机器人的根据用户通话录音文本转接相应的人工队列的准确度，影响用户体验的情况。上述实施方式中提供了一种专门针对用户通话录音信号进行音频增强处理的技术方案，该方案中，通过将用户通话录音信号从时域转换到小波域中进行处理，特别针对获取的高频小波系数进行阈值处理，去除高频小波系数中包含的噪声干扰，其中特别提出了一种改进的高频小波系数阈值处理函数，该函数中能够针对用户通话录音信号的特性，最大程度地保留信号中的有用音频信息，去除其中的噪声干扰，提高音频信号的质量。

同时为了进一步提高优化阈值处理函数的处理效果，可选的，针对优化阈值处理函数中采用的阈值Γ由以下优化阈值获取函数计算所得：

式中，Γ_i表示针对第i层高频小波系数进行优化阈值处理时采用的阈值，med(z(i))表示第i层高频小波系数的中值，C表示高频小波系数的长度。

上述实施方式中，提出了一种自适应的阈值获取函数，该函数中能够适应各层小波高频系数的特性进行自适应设置，提高阈值处理的效果。

识别预测：将用户通话文本输入到训练好的基于深度学习的导航队列分类模型进行预测识别，获取输出的导航队列预测结果；

可选的，将用户通话文本输入到训练好的导航队列分类模型之前，还包括对用户通话文本进行上述预处理和特征工程处理。获取与用户通话文本对应的特征文本作为分类模型的输入。

可选的，导航队列分类模型也可以基于现有的TEXTRNN模型进行训练和进行导航队列预测识别。

为了进一步对上述基于深度学习来实现语音导航机器人的方法进行阐述，参见图2，其示出一种针对本申请方法进行模块化实现的流程结构示意图，该系统中，

步骤1：文本处理系统通过FTP下载通话录音转写文本文件。

步骤2：文本处理系统读取通话文本文件，首先对文本进行规范化处理，剔除掉噪音数据(如：语气词、常用口语代词等)，然后对文本进行分词，把一句话切分为词语最小单位；最后将分词后的文本数据转化为数值形式。

步骤3：模型训练系统加载转化为数值形式的数据，然后搭建TEXTRNN模型，然后进行模型训练，并保存模型结果。

步骤4：判断是否达到要求读取模型后，对含标注文本数据进行预测，并返回预测结果。返回结果做准确率测试，判断是否达到实际要求。如果达标的话，将保存模型，进入导航机器人系统中；否则，从FTP上获取其他通话录音转写文本文件继续进行模型训练，即重新走步骤1、2、3。

步骤5：导航机器人系统通过FTP下载需要预测分析的通话录音转写文本，通过TEXTRNN模型来预测识别，最后得到概率最高的识别结果。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当分析，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于深度学习来实现语音导航机器人的方法，其特征在于，所述方法包括步骤：

S20获取用户通话文本数据；

S40根据获取的导航队列预测结果将用户转接到相应的人工队列进行处理；

所述方法还包括：

S10训练基于深度学习的导航队列分类模型，包括如下步骤：

S11获取训练通话录音文本数据组成训练语料，对训练通话录音文本数据进行预处理，获取规范化的训练语料，其中所述训练通话录音文本数据包括通话录音文本和对应的导航队列标签；

S13将训练语料的特征向量输入到导航队列分类模型进行基于深度学习的模型训练，获取所述训练好的基于深度学习的导航队列分类模型；

其中，所述步骤S11中，对训练通话录音文本数据进行预处理，包括如下步骤：

停用词处理：加载停用词表，并根据所述停用词表过滤分词文本中存在的停用词；

数据均衡处理：统计训练语料中对应每个导航队列标签的各通话录音文本数据量，判断各导航队列是否均衡：如果每个导航队列对应的通话录音文本的数据量保持在平均值的5％内，即不进行处理；否则对训练语料进行向下采样处理，使训练语料中的数据对应各导航队列保持均衡状态；

其中，所述步骤S12中对训练语料进行特征工程，包括如下步骤：

文本序列化：通过词汇-索引映射表把每个文档单词数值化；

队列序列化：通过标签-索引映射表把每个文档标签数值化；

该方法还包括：

将训练语料作为训练样本输入到导航队列分类模型进行训练，得到训练后的导航队列分类模型，包括如下步骤：

将训练语料转化为定长的文本序列；

表示连接操作，即输入层输入的是文本序列c中各个词汇对应的分布式表示xi，即词向量；其中词向量采用预训练word2vec做输入层的输入，并在模型训练过程中不再微调；

双向RNN层：分为前向RNN和反向RNN；

前向RNN更新状态如下：获取到输入层句子信息

假设初始状态

将x₁输入至函数

中，获取状态

(2)然后计算

获取

(3)输入x₂后，通过函数

来获取

(4)依次输入向量x_i直到输入x_n至函数

获取状态

其中U^[1]、W^[1]分别表示权重，b^[1]表示偏差；n＝1,......,n

反向RNN更新规则如下：获取到输入层句子信息

假设初始状态

将x_n输入到函数

中，获取状态

依次输入向量x_n:1，直到得到

即

其中U^[2]、W^[2]分别表示权重，b^[2]表示偏差，n＝1,......,n；

全连接层：使用一层全连接层将前向RNN与反向RNN进行拼接，

其中

表示连接操作，其中W是需要学习的权重，b是偏差；

Softmax层：将获取的h_n信息输入到softmax激活函数：

其中

是预测每个导航队列标签的概率情况：采用cost函数

评价模型的性能，其中λ_j是每个导航队列j的权重，

表示预测每个导航队列标签的概率与实际对应每个导航队列标签的概率的向量差，其中函数越小说明模型和参数越符合训练样本，通过调节模型参数寻找全局最小的c值，完成模型训练。

2.根据权利要求1所述的一种基于深度学习来实现语音导航机器人的方法，其特征在于，所述导航队列分类模型为基于TEXTRNN实现导航队列分类模型。