CN111477216A

CN111477216A - 一种用于对话机器人的音意理解模型的训练方法及系统

Info

Publication number: CN111477216A
Application number: CN202010276709.XA
Authority: CN
Inventors: 司马华鹏; 张亚萍; 汤毅平
Original assignee: Nanjing Guiji Intelligent Technology Co ltd
Current assignee: Nanjing Guiji Intelligent Technology Co ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-07-31
Anticipated expiration: 2040-04-09
Also published as: CN111477216B

Abstract

本发明涉及音意理解领域，公开了一种用于对话机器人的音意理解模型的训练方法及系统，解决了目前音意理解模型训练时语音标注数据不足、模型泛化性能不好的问题，其技术方案要点是根据指定意图编写出训练词句；对所述训练词句的文本进行数据增强，生成若干种与所述训练词句意图相同的同义词句文本数据；对所述同义词句文本数据进行语音合成，得到相应的训练语音数据；使用所述训练语音数据训练基于深度神经网络的音意理解模型，达到了减少人工标注语音数据的工作量，提高意图识别准确率和泛化性能的效果。

Description

一种用于对话机器人的音意理解模型的训练方法及系统

技术领域

本发明涉及音意理解领域，更具体地说，它涉及一种用于对话机器人的音意理解模型的训练方法及系统。

背景技术

随着人工智能技术在学术界的快速发展以及在生活中的广泛使用，语音交互成为人与机器之间沟通交流的重要桥梁。机器人系统要与用户对话并完成特定任务，其中一个核心技术是语音意图识别技术，即让机器人系统在接收到用户语音后，能够通过语音判定用户的意图。

语音意图识别技术，是指对输入的语音识别出相应的意图或特征(这里的意图包括单意图、多意图、槽值、情感等多类问题)，为后端特定的服务目标提供有效的支撑。高性能的语音意图识别技术，能够最大限度地保证人机对话系统正确理解用户的意图，采取相应的应答策略，使得机器人系统与用户之间的对话过程正确且流畅地进行。

目前传统的意图识别方法通常分成语音识别、意图识别两个独立的阶段，在第一阶段通过语音识别技术(Automatic Speech Recognition，ASR)将语音转化成文字，第二阶段通过自然语言处理技术(Natural Language Processing，NLP)从文字中抽取文本内的语义信息，识别出用户的意图。基于文本的意图识别的准确率严重依赖于语音识别技术的准确率。

现在大多数语音意图识别的应用，都是在通过语音识别获取文本之后，使用文本信息进行后续的语义加工和处理。当语音转文本信息正确率较高时，意图识别的准确率就高；当文本信息识别率较低时，大量的有用信息在识别过程中被语音识别丢弃，导致文本信息传递的用户意图也随之丢失。

所以为了避免这种严重依赖于语音识别技术的准确率的弊端，现有的技术中又提出了使用训练好的深度神经网络从输入的语音识别出相应的意图的音意理解技术；高性能的音意理解技术，能够最大限度地保证人机对话系统正确理解用户的意图，采取相应的交互策略，使得机器人系统与用户之间的对话过程正确且流畅地进行。

但是训练深度神经网络需要大量标注了意图的语音数据来训练模型，而人工对语音数据进行标注的人力成本和时间成本是十分昂贵的，这是音意理解模型落地的一个很大的门槛。在语音意图理解中，同一个类别中需要很多数据进行训练，而当积累的语音和文本数据还不够多时，通过人工编写，可能会缓解数据的压力，但耗费太多的人力，而且数据覆盖的范围可能并不全。在标注数据不足的情况下，模型对意图识别的准确率和泛化就受到很大限制。数据覆盖不全面，导致在实际对话过程中，同一个意思用户换一种不同的表达方式，模型就无法识别了；模型只能识别训练数据集覆盖的句子类型，这就是模型的泛化问题。除了数据不足问题，训练音意理解模型常遇到的另一个问题是数据不均衡，即有的意图类别数据特别多，有的意图类别数据特别少，这种数据不均衡问题也会很大程度上影响模型训练的效果。

发明内容

本发明的目的是提供一种用于对话机器人的音意理解模型的训练方法及系统，达到减少人工标注语音数据的工作量，提高意图识别准确率和泛化性能的效果。

本发明的上述技术目的是通过以下技术方案得以实现的：一种用于对话机器人的音意理解模型的训练方法，包括以下步骤：

S1、根据指定意图编写出训练词句；

S2、对所述训练词句的文本进行数据增强，生成若干种与所述训练词句意图相同的同义词句文本数据；

S3、对所述同义词句文本数据进行语音合成，得到相应的训练语音数据；

S4、使用所述训练语音数据训练基于深度神经网络的音意理解模型。

作为本发明的一个优选技术方案，S2中对所述训练词句的文本进行数据增强的方法包括：

W1、对所述训练词句中的字词进行同义词替换；

W2、对所述训练词句中的字词进行随机插入和/或随机删除；

W3、对所述训练词句中的字词顺序进行随机打乱；

W4、将所述训练词句翻译成另一种语言，再翻译回所述训练词句的原语言；

W5、使用预训练模型根据所述训练词句批量生成若干相似词句。

作为本发明的一个优选技术方案，W1中进行同义词替换的步骤如下：

W1.1、加载预先训练好的BERT语言模型；

W1.2、对每个所述训练词句中的字词用BERT模型获取相应词向量；

W1.3、根据词向量计算所述训练词句中的字词与词汇表中所有字词的词向量的余弦相似度；

W1.4、余弦相似度大于设定阈值的字词当作同义词返回；

W1.5、用所述同义词替换所述训练词句中对应位置的字词，生成若干个同义词句文本。

作为本发明的一个优选技术方案，W5中使用预训练模型根据所述训练词句批量生成若干相似词句的步骤如下：

W5.1、使用预先准备的大规模相似词句文本语料进行预训练，形成预训练模型；

W5.2、针对初始数据集的句子，调用上述预训练模型，批量生成相似词句。

作为本发明的一个优选技术方案，S3中对所述同义词句文本数据进行语音合成，得到相应的训练语音数据的步骤中包括以下子步骤：

S3.1、把所述同义词句文本数据转为带音调的拼音音节；

S3.2、把所述同义词句文本数据包含的每个词转换表示为一个整数；

S3.3、由词向量模型将表示为整数的词构成词嵌入矩阵；

S3.4、将所述词嵌入矩阵输入训练好的双向LSTM Seq2seq模型生成中间表示；

S3.5、通过训练好的声码器把所述中间表示转换成所述训练语音数据。

作为本发明的一个优选技术方案，S4中的音意理解模型的训练包括以下子步骤：

S4.1、接收包含意图标签的训练语音数据；

S4.2、使用卷积神经网络提取所述训练语音数据的语音特征；

S4.3、使用循环神经网络提取所述训练语音数据的音素、字素特征；

S4.4、将提取到的语音特征和音素、字素特征导入循环神经网络中进行音意理解模型训练；

S4.5、针对输入的所述训练语音数据进行模型参数的调整，完成对音意理解模型的训练。

一种用于对话机器人的音意理解模型的训练系统，包括：

意图确认和词句编写模块：根据实际应用确定好待识别的意图；针对所有指定意图编写训练词句，将所有所述训练词句形成初始数据集；

文本数据增强模块：对初始数据集中的所有训练词句的文本进行数据增强，生成若干同义词句文本数据；

组合筛选模块：对文本数据增强模块生成的所有同义词句文本数据进行组合筛选；

语音合成模块：对经过组合筛选模块处理的所有同义词句文本数据进行语音合成，得到训练语音数据；

模型训练模块：使用所述训练语音数据训练所述音意理解模型。

综上所述，本发明具有以下有益效果：通过文本数据增加和语音合成技术，大大减少了人工标注语音数据的工作量，降低了人力和时间成本；

通过对大量训练语音数据的训练，提高了音译理解模型理解用户意图的准确率和泛化性能。

附图说明

图1是本发明的方法流程图；

图2是本发明的系统框图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

如图1所示，本发明提供一种用于对话机器人的音意理解模型的训练方法，包括以下步骤：

S1、根据指定意图编写出训练词句，具体在实际中要根据对话机器人的实际使用需要来指定要识别的意图；

比如“想看电影”这个意图，对应的句子可能包括：“我想看最新的国产片”，“去电影院吧”，“最新有什么好看的大片，一起去看可以么”等等；

S2、对训练词句的文本进行数据增强，生成若干种与训练词句意图相同的同义词句文本数据，使得和训练词句意图相同的数据进行扩增，强化文本数据；

比如“我想看最新的电影”这句话，文本增强的结果可能是：“我想看最新的美国大片”，“一起去看奥斯卡最新影片”之类；

S3、对同义词句文本数据进行语音合成，得到相应的训练语音数据，在同义词句文本数据经过增强的基础上，对其进行语音合成，得到数据足够多的训练语音数据；

S4、使用训练语音数据训练基于深度神经网络的音意理解模型，在训练语音数据中数据足够大的情况下，也能够更好的训练基于深度神经网络的音意理解模型，从而使得音意理解模型理解语音意图的能力足够强。

如图2所示，本发明还提供了一种适用于上述方法的用于对话机器人的音意理解模型的训练系统，包括：

意图确认和词句编写模块：对应上述方法的S1；根据实际应用确定好待识别的意图；针对所有指定意图编写训练词句，将所有训练词句形成初始数据集；

文本数据增强模块：对应上述方法的S2；对初始数据集中的所有训练词句的文本进行数据增强，生成若干同义词句文本数据；

组合筛选模块：对应上述方法的S2；对文本数据增强模块生成的所有同义词句文本数据进行组合筛选；

语音合成模块：对应上述方法的S3；对经过组合筛选模块处理的所有同义词句文本数据进行语音合成，得到训练语音数据；

模型训练模块：对应上述方法的S4，使用训练语音数据训练音意理解模型。

上述系统中的各个模块分别能够对应到上述方法的步骤中去，从而支持上述方法的进行。

具体的，S2中对训练词句的文本进行数据增强的方法包括：

W1、对训练词句中的字词进行同义词替换；例如，我们将句子“我非常喜欢这部电影”改为“我非常喜欢这个影片”，这样句子仍具有相同的含义，具有相同的意图标签；

W2、对训练词句中的字词进行随机插入和/或随机删除；比如“我想看最新的美国大片”，可能扩展为“我好想看2019年8月最新的美国大片”,“我真的想看视频最新的美国大片西瓜甜不甜”，“我最新美国大骗烫烫烫”等等。随机扩展生成的句子有可能出现不符合语法和常识、或不可理解的乱码文字。但是，只要它们不影响句子整体的意思，对模型训练就是有用的，因为它们可以模拟嘈杂环境下对语音识别不准确有噪声的情况，提高模型的健壮性；

W3、对训练词句中的字词顺序进行随机打乱；比如“今天天气不错。我们去爬山吧。”改成“我们去爬山吧。今天天气不错。”；

W4、将训练词句翻译成另一种语言，再翻译回训练词句的原语言；例如，如果我们把“I like this movie very much”翻译成俄语，就会得到“Мнеоченьнравитсяэтотфильм”，当我们再译回英语就会得到“I really like this movie”。回译的方法不仅有类似同义词替换的能力，它还具有在保持原意的前提下增加或移除单词并重新组织句子的能力；

W5、使用预训练模型根据训练词句批量生成若干相似词句；例如：初始句子为“你是骗子吧？”这句话，由预训练模型生成的句可能是包括：“你是骗子吧？”，“你是个骗子吧？”，“你们是骗子吧？”，“你是一个骗子吧？”，“你是黑名单上的骗子吧？”等等，显然，生成的句意和原始句意基本是相同的，只是有个别字词或标点符号的差别，这可以大大增强训练出的音意理解模型的健壮性和泛化性能。

通过上述的这几种方法，都是能对原始的训练词句进行数据上的扩充的，从而能够得到数据足够多的同义词句文本数据，可以得到一个较大规模的、带有明确意图标签的语音数据集，该语音数据集覆盖了所需意图的各种说法。用该语音数据集作训练集训练可以得到一个识别准确率较高、泛化性能较好的音意识别模型。在和用户进行对话时，用户说的话直接送入音意理解系统，就可以理解要表达的意思，而不需要先调用ASR系统转成文字再理解，可以更好的服务于语音对话机器人系统。

具体的，上述系统中的文本数据增强模块包含了对应上述W1、W2、W3、 W4以及W5的同义词替换子模块、随机插入和删除子模块、字词顺序随机打乱子模块、回译子模块、预训练模型生成相似句子模块；

同义词替换子模块：执行W1，在训练词句中随机选择一些词并用它们的同义词来替换这些词，每次替换生成一个新的同义词句文本；

随机插入和删除子模块：执行W2，随机地往句子中插入若干新词，或者删除某几个词，每次插入或删除生成一个新的同义词句文本；

字词顺序随机打乱子模块：执行W3，把训练词句中字词顺序随机调换顺序，生成一个新的同义词句文本；

回译子模块：执行W4，用翻译模型把训练词句翻译成另外一种语言，再翻译回来，得到一个新的同义词句文本；

预训练模型生成相似句子模块：执行W5，用预先训练好的语言模型，对初始数据集中的每个训练词句进行变换，得到一个新的同义词句文本；

以上5个子模块分别调用后得到若干子数据集，再经由组合筛选模块处理后，得到最终生成的数据集。

进一步的，W1中进行同义词替换的步骤如下：

W1.1、加载预先训练好的BERT语言模型；

W1.2、对每个训练词句中的字词用BERT模型获取相应词向量；

W1.3、根据词向量计算训练词句中的字词与词汇表中所有字词的词向量的余弦相似度；

W1.4、余弦相似度大于设定阈值的字词当作同义词返回；

W1.5、用同义词替换训练词句中对应位置的字词，生成若干个同义词句文本。

更进一步的，W5中使用预训练模型根据训练词句批量生成若干相似词句的步骤如下：

具体的，S3中对同义词句文本数据进行语音合成，得到相应的训练语音数据的步骤中包括以下子步骤：

S3.1、把同义词句文本数据转为带音调的拼音音节；

S3.2、把同义词句文本数据包含的每个词转换表示为一个整数；

S3.3、由词向量模型将表示为整数的词构成词嵌入矩阵；

S3.4、将词嵌入矩阵输入训练好的双向LSTM Seq2seq模型生成中间表示；

S3.5、通过训练好的声码器把中间表示转换成训练语音数据。

上述词向量模型可以使用word2vec模型或者BERT模型；双向LSTM Seq2seq模型可以使用基于tacotron的模型结构；声码器(vocoder)可以使用基于LPCNet的声码器。

具体的，S4中的音意理解模型的训练包括以下子步骤：

S4.1、接收包含意图标签的训练语音数据；

S4.2、使用卷积神经网络提取训练语音数据的语音特征；

S4.3、使用循环神经网络提取训练语音数据的音素、字素特征；

S4.5、针对输入的训练语音数据进行模型参数的调整，完成对音意理解模型的训练。

一般的，进行音意理解的对话机器人，包括通讯模块(比如电话系统)、音频预处理模块、音意理解模块以及对话策略调度模块，当训练好的音意理解模型加载在对话机器人上后，就能够对用户说的话进行意图理解，指导对话机器人和用户进行语音交互；

具体的，通讯模块负责接收用户说话的音频，传送给音频预处理模块；后者把音频进行预处理(如降噪、提取特征等)后，送到音意理解模块，该模块调用所述训练好的音意理解模型，对输入的音频特征进行识别，输出用户的意图；对话策略调度模块根据用户意图和预先定义好的调度策略，决定机器人回答的内容，包括文本和音频；最后再通过通讯模块把文字或声音反馈给用户。

一个具体实施例的，经训练好的音意理解模型用于对话机器人对用户说话理解的步骤包括：启动HTTP服务；加载训练好的音意理解模型；输入用户说话的音频；运行模型，输出各意图的概率分布；选择概率最大的若干个意图输出。

当音意理解模型在使用中，能够直接用训练好的深度神经网络，从输入的语音识别出相应的意图(包括单意图、多意图)或槽值、情感等特征，为后端特定的服务目标提供有效的支撑。高性能的音意理解技术，能够最大限度地保证人机对话系统正确理解用户的意图，采取相应的交互策略，使得机器人系统与用户之间的对话过程正确且流畅地进行。

需要注意的是：本文中所提到的模型泛化性能是指模型在预测训练数据集未出现或差异较大的句子时准确率。

本文中所提到的双向LSTM Seq2seq模型是指LSTM即长短期记忆模型 (long-short term memory)，是一种特殊的RNN模型，常用于自然语言理解和音频识别及合成等序列化的任务。Seq2seq即序列到序列模型，是一种神经网络架构，一般由编码器模块、注意力模块和解码器模块组成，它通过编码器把输入的序列数据转换为中间表示，再通过解码器生成输出序列。

本文中所提到的声码器，即vocoder，是用于把音频参数和特征数据转换为语音信号的模块。实际合成时一般使用基于卷积神经网络和递归神经网络的LPCNet来实现。

本文中所提到的BERT语言模型：BERT是Bidirectional EncoderRepresentations from Transformers的缩写，意为来自Transformers的双向编码器表示，是谷歌公司基于Transformer模型提出的一种神经网络语言模型，可用于预测和生成自然语言句子，以及各种自然语言处理和理解任务。

本文中所提到的Transformer模型：是谷歌公司提出的一种神经网络模型架构。

本文中所提到的随机分布包括：均匀分布、正态分布(高斯分布)、二项分布、泊松分布等。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于对话机器人的音意理解模型的训练方法，其特征是：包括以下步骤：

S1、根据指定意图编写出训练词句；

2.根据权利要求1所述的一种用于对话机器人的音意理解模型的训练方法，其特征是：S2中对所述训练词句的文本进行数据增强的方法包括：

W1、对所述训练词句中的字词进行同义词替换；

W2、对所述训练词句中的字词进行随机插入和/或随机删除；

W3、对所述训练词句中的字词顺序进行随机打乱；

3.根据权利要求2所述的一种用于对话机器人的音意理解模型的训练方法，其特征是：W1中进行同义词替换的步骤如下：

W1.1、加载预先训练好的BERT语言模型；

W1.4、余弦相似度大于设定阈值的字词当作同义词返回；

W1.5、用同义词替换所述训练词句中对应位置的字词，生成若干个同义词句文本。

4.根据权利要求2所述的一种用于对话机器人的音意理解模型的训练方法，其特征是：W5中使用预训练模型根据所述训练词句批量生成若干相似词句的步骤如下：

5.根据权利要求1所述的一种用于对话机器人的音意理解模型的训练方法，其特征是：S3中对所述同义词句文本数据进行语音合成，得到相应的训练语音数据的步骤中包括以下子步骤：

S3.1、把所述同义词句文本数据转为带音调的拼音音节；

S3.3、由词向量模型将表示为整数的词构成词嵌入矩阵；

6.根据权利要求1所述的一种用于对话机器人的音意理解模型的训练方法，其特征是：S4中的音意理解模型的训练包括以下子步骤：

S4.1、接收包含意图标签的训练语音数据；

S4.2、使用卷积神经网络提取所述训练语音数据的语音特征；

7.一种适用于权利要求1所述方法的用于对话机器人的音意理解模型的训练系统，其特征在于，包括：

组合筛选模块：对所述文本数据增强模块生成的所有同义词句文本数据进行组合筛选；

语音合成模块：对经过所述组合筛选模块处理的所有同义词句文本数据进行语音合成，得到训练语音数据；