CN114242045A

CN114242045A - 一种自然语言对话系统意图深度学习方法

Info

Publication number: CN114242045A
Application number: CN202111564185.5A
Authority: CN
Inventors: 宫晨羽; 王雪婷; 王一凡
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-25

Abstract

本发明涉及人工智能、自然语言理解与服务机器人领域，特别涉及一种自然语言对话系统意图深度学习方法，包括：获取待解析的对话文本信息和用户在描述该对话文本信息时的语音信号；确定所述对话文本信息中每个分词的词向量；对语音信号根据对话文本信息中的每个分词进行切分获得语音切分信号，然后根据情绪识别模型与语音切分信号对应的词向量进行情绪标定；根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型；获取与所述意图类型对应的意图要素抽取模型。本发明能够利用用户在对话时传递的情感信息辅助进行意图理解，提高解析的准确度。

Description

一种自然语言对话系统意图深度学习方法

技术领域

本发明涉及人工智能、自然语言理解与服务机器人领域，特别涉及一种自然语言对话系统意图深度学习方法。

背景技术

对话系统(Dialogue System)是一种基于自然语言的人机交互系统。通过对话系统，人可以使用自然语言和计算机进行多轮交互来完成特定的任务，如信息查询、服务获取等。对话系统提供了一种更自然、便捷的人机交互方式，广泛应用于车载、家居、客服等场景。

其中，自然语言理解(Natural Language Understanding)是对话系统中的核心模块。自然语言理解的目标是将自然语言的文本信息转换为可被计算机处理的语义表示(Semantic Representation)，即用一种结构化的数据来表示一句话所表达的含义。也就是说，自然语言理解的目标是根据待解析的文本信息确定用户想表达的意图以及满足用户意图的条件。

目前市面上最常见的一种技术方案是基于规则的自然语言理解。基于规则的自然语言理解方式通过定义若干规则来进行意图识别和意图要素从文本信息中获取表达对应意图所需要的意图元素的关键词。例如，当输入文本符合「…订…X到Y…航班」这样的规则时，系统就输出意图是订机票，X和Y分别为出发和达到城市。然而，上述基于规则的自然语言理解方式至少存在如下技术问题：1)规则的设定通常依赖领域知识，需要专业人员来设定，耗费人力。2)因为自然语言表达方式的多样性，覆盖不同的表达方式就需要设定大量的规则，但即便这样，也无法穷尽出所有规则。3)基于规则的方法无法根据实际数据进行自学习而不断进化，遇到问题时只能靠不断地设定新的规则来解决。4)如果规则越来越多，规则之间甚至会发生冲突。

技术上述问题，市面上也出现了基于Vector向量的方法进行自然语言理解，但是依然存在准确度不高的问题。另外，还出现了基于机器学习的方法进行自然语言理解，通过该方法进行自然语言理解需要人工设计模型的输入特征(例如，n-gram、tf-idf)，这带来了特征的好坏会影响模型的效果，而特征设计依赖于领域知识，因此需要专业人员投入大量精力在特征设计上；其次，因为大部分特征是与领域知识相关的，同样的特征在解决一个领域的问题时有效并不代表该特征在解决另一个领域的问题时依然有效，这使得该方法跨领域迁移的能力较弱。针对这一问题，中国专利公开号为CN107193865A的专利文件中公开了一种人机交互中自然语言意图理解方法及装置的文献，其中，该方法包括：获取待解析的对话文本信息；确定对话文本信息中每个分词的词向量；根据意图识别模型和词向量，生成与对话文本信息的意图类型；获取与意图类型对应的意图要素抽取模型；根据意图要素抽取模型和词向量，从对话文本信息中确定出表达意图类型所需要的意图要素的关键词信息。该发明提供的人机交互中自然语言意图理解方法，无需提取对话文本信息在其对应领域上的特征信息，通过分析对话文本信息中每个分词的词向量即可从对话文本信息中准确确定出表达意图类型所需要的意图要素的关键词信息。

在上述方案中，其主要构建的对话场景还是仅仅停留在对文本信息的处理，对于意图深度理解而言，用户通过对话实际传递的不仅仅是文本信息，还包括了情感信息。但是在上述方案中未将其作为一个评价维度，会导致对用户的意图理解存在失真的情况，影响用户的使用体验。

发明内容

本发明提供了一种自然语言对话系统意图深度学习方法，能够利用用户在对话时传递的情感信息辅助进行意图理解，提高解析的准确度。

为了解决上述技术问题，本申请提供如下技术方案：

一种自然语言对话系统意图深度学习方法，包括：

获取待解析的对话文本信息和用户在描述该对话文本信息时的语音信号；

确定所述对话文本信息中每个分词的词向量；

对语音信号根据对话文本信息中的每个分词进行切分获得语音切分信号，然后根据情绪识别模型与语音切分信号对应的词向量进行情绪标定；

根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型；

获取与所述意图类型对应的意图要素抽取模型；

根据所述意图要素抽取模型和所述词向量，从所述对话文本信息中确定出表达所述意图类型所需要的意图要素的关键词信息；

根据深度学习模型和词向量的情绪标定对对应的关键词信息进行程度或者反转调整，并输出结果；

获取用户在接收到输出结果时的反馈信息，并判断反馈信息的认同度，当反馈信息出现低认同度时，深度学习模型再次进行调整，直至出现高认同度。

进一步，所述确定所述对话文本信息中每个分词的词向量，包括：

对所述对话文本信息进行分词，以生成所述对话文本信息的分词结果；

根据所述分词结果生成所述对话文本信息中每个分词的词向量。

进一步，所述意图识别模型是基于长短时记忆的循环神经网络预先建立的，所述意图识别模型包括多个LSTM单元，所述根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型，包括：

在当前分词为第一个分词时，获取第一初始隐向量，并将所述第一初始隐向量和第一个分词的词向量输入第一个LSTM单元，以通过所述LSTM单元生成所述当前分词的第一隐向量；

在当前分词为第i个分词时，获取第i-1个分词的第一隐向量，并将所述第i-1个分词的第一隐向量和所述第i个分词的词向量输入第i个LSTM单元，以通过所述第i个LSTM单元生成所述第i个分词的第一隐向量，其中，i为大于或者等于2，且小于N的正整数，其中，N为所述文本信息中分词的总数；

获取第N个分词的第一隐向量，并根据所述第N个分词的第一隐向量确定出所述文本信息所表达的候选意图类型及其对应的概率信息；

根据所述候选意图类型所对应的概率信息，确定出所述对话文本信息的意图类型。

进一步，所述根据情绪识别模型与语音切分信号对应的词向量进行情绪标定包括：

根据语音切分信号中声音大小，确定语音切分信号的声音权重；

预先采集用户在朗读预设文字时升调和降调习惯，获得用户音调标本；

根据语音切分信号与用户音调标本的偏差值，确定语音切分信号的音调权重；

对语音切分信号加权后排序，并确定与语音切分信号对应的词向量的排序；

判断对应词向量的词性，若词性为体词或代词性，则情绪标定为中性；若词性为谓词性，则情绪标定为加深；若词性为副词性，则情绪标定为加深或者反转。

进一步，所述获取用户在接收到输出结果时的反馈信息，并判断反馈信息的认同度，包括：

获取用户在输出前的面部表情作为表情基准；

获取用户在接收到输出结果时的表情作为第一表情；

若表情基准和第一表情通过表情识别模型均识别为负面情绪，且程度无变化，或者表情基准为负面情绪，第一表情为正面情绪，则表征高认同度；

若表情基准和第一表情通过表情识别模型均识别为负面情绪，且程度更加负面，或者表情基准为正面情绪，第一表情为负面情绪，则表征低认同度。

进一步，所述获取用户在接收到输出结果时的反馈信息，并判断反馈信息的认同度，还包括：

在获取到表情基准为负面情绪时，所述根据情绪识别模型与语音切分信号对应的词向量进行情绪标定时，若词性为谓词或副词性，则优先为加深；

在获取到表情基准为正面情绪时，所述根据情绪识别模型与语音切分信号对应的词向量进行情绪标定时，若词性为谓词或副词性，则优先为反转。

进一步，所述情绪识别模型还用于根据语音信号中的噪声确定用户所处场景，判断是否将所有词向量均情绪标定为中性。

进一步，所述根据语音信号中的噪声确定用户所处场景，包括：

获取语音切分信号之间的背景信号；

将背景信号与预设的噪声库进行匹配，若匹配度超过阈值，则完成对用户所处场景的确定。

基础方案原理及有益效果如下：本发明在现有的文本信息的识别基础上，增加了语音切分信号的识别，然后根据情绪识别模型对语音切分信号进行情绪标定。在通过意图识别模型确定意图类型后，确定意图要素抽取模型，然后确定相应的关键词信息。

在完成确定相应的关键词信息的基础上，通过深度学习模型，将关键词信息与情绪标定进行强相关，对关键词信息进行程度或者反转的调整，使得最终的意图识别能够更加准确。并且在此基础上，获取用户在接收到输出结果时的反馈信息，以判断意图识别是否准确，是否需要针对该用户进行重新调整后进行识别。在意图识别成功的基础上，完成一次对深度学习模型的训练，使之更加贴近于用户使用习惯。

本发明与现有的仅进行文本识别的方法相比，增加了对语音切分信号以及与对应语音切分信号的词向量的情绪标定，相当于是增加了与对应词向量相应的关键词信息的情绪标定，并且通过深度学习模型根据情绪标定(和对应的关键词信息)对最终输出结果的进行调整，提升了意图识别的准确度。即，充分利用用户在对话时传递的情感信息辅助进行意图理解，保证了解析的准确度。

附图说明

图1为一种自然语言对话系统意图深度学习方法实施例一的流程图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

本实施例的一种自然语言对话系统意图深度学习方法(如图1所示)，包括：

S1获取待解析的对话文本信息和用户在描述该对话文本信息时的语音信号。

通常，在进行人机交互的过程中，获取人机交互过程中待解析的对话文本信息。用户主要是通过语音的方式进行人机交互。在用户通过语音方式进行人机交互时，在接收到用户输入的语音信号后，可对接收的语音信号进行语音识别，以获取语音信息对应的文本信息。此时，完成对语音信号和对话文本信息。

S2确定所述对话文本信息中每个分词的词向量。

具体而言，在获取待解析的对话文本信息后，对对话文本信息进行分词，以生成对话文本信息的分词结果，然后，根据分词结果生成对话文本信息中每个分词的词向量。

本实施例中，通过如下方式实现：将待解析的对话文本信息输入至分词器，以通过分词器将对话文本信息分为若干个分词。举例而言，假设对话文本信息为“你又懂了”，分词结果为：你/又/懂了。

S3对语音信号根据对话文本信息中的每个分词进行切分获得语音切分信号，然后根据情绪识别模型与语音切分信号对应的词向量进行情绪标定。

具体来说，此步骤主要是根据分词的逻辑，对语音信号进行反向的分词，获得与词向量对应的语音切分信号。然后根据语音切分信号中声音大小，确定语音切分信号的声音权重；预先采集用户在朗读预设文字时升调和降调习惯，获得用户音调标本；根据语音切分信号与用户音调标本的偏差值，确定语音切分信号的音调权重；对语音切分信号加权后排序，并确定与语音切分信号对应的词向量的排序；判断对应词向量的词性，若词性为体词或代词性，则情绪标定为中性；若词性为谓词性，则情绪标定为加深；若词性为副词性，则情绪标定为加深或者反转。

举例而言，用户在表达“你/又/懂了”时，如果“又”的声音比较突出，且音调也比较突出，此时用户实际要表达的含义为“你不懂”。在本实施例中，声音和音调能够直接获取，且判断“又”为副词性，本实施例，能够合理的判断，“又”的情绪标定为加深或者反转。加深为“你很懂”，反转为“你不懂”(后续能够通过深度学习模型进行进一步的优化，保证对用户意图识别的准确性)。在这个阶段，实际上已经有50％的概率接近用户的真是意图了。

同理，用户在表达“你/又/懂了”时，如果无声音或者音调突出的情况，或者声音和音调变化是在“懂”时，用户实际要表达的含义为“你再一次懂了”。本实施例中，根据“懂”的词性为谓词性，情绪标定为加深。加深为“你很懂”或者“你真的懂”。在这种情况下，能够完全准确的理解用户的真实意图。综上，与现有技术简单的进行文本信息识别的方式相比，本实施例能够结合用户的情绪表达，合理的对部分关键词进行反转，保证了用户意图识别的准确性。

S4根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型。

具体而言，意图识别模型是基于长短时记忆的循环神经网络预先建立的，所述意图识别模型包括多个LSTM单元，所述根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型，包括：在当前分词为第一个分词时，获取第一初始隐向量，并将所述第一初始隐向量和所述第一个分词的词向量输入第一个LSTM单元，以通过所述LSTM单元生成所述当前分词的第一隐向量；在当前分词为第i个分词时，获取第i-1个分词的第一隐向量，并将所述第i-1个分词的第一隐向量和所述第i个分词的词向量输入第i个LSTM单元，以通过所述第i个LSTM单元生成所述第i个分词的第一隐向量，其中，i为大于或者等于2，且小于N的正整数，其中，N为所述文本信息中分词的总数；获取第N个分词的第一隐向量，并根据所述第N个分词的第一隐向量确定出所述文本信息所表达的候选意图类型及其对应的概率信息；根据所述候选意图类型所对应的概率信息，确定出所述对话文本信息的意图类型。

S5获取与所述意图类型对应的意图要素抽取模型。

S6根据所述意图要素抽取模型和所述词向量，从所述对话文本信息中确定出表达所述意图类型所需要的意图要素的关键词信息。

S7根据深度学习模型和词向量的情绪标定对对应的关键词信息进行程度或者反转调整，并输出结果。

S8获取用户在接收到输出结果时的反馈信息，并判断反馈信息的认同度，当反馈信息出现低认同度时，深度学习模型再次进行调整，直至出现高认同度。

具体而言，包括：获取用户在输出前的面部表情作为表情基准；获取用户在接收到输出结果时的表情作为第一表情；若表情基准和第一表情通过表情识别模型均识别为负面情绪，且程度无变化，或者表情基准为负面情绪，第一表情为正面情绪，则表征高认同度；若表情基准和第一表情通过表情识别模型均识别为负面情绪，且程度更加负面，或者表情基准为正面情绪，第一表情为负面情绪，则表征低认同度。

举例而言，即通过类似智能手机的前置摄像头，或者其他智能终端的图像采集设备，获取用户的表情图像。通过用户的表情变化是否积极，以表征是否完成准确识别。

实施例二

本实施例和实施例一的区别在于，本实施例中，情绪识别模型还用于根据语音信号中的噪声确定用户所处场景，判断是否将所有词向量均情绪标定为中性。

根据语音信号中的噪声确定用户所处场景，包括：

获取语音切分信号之间的背景信号；

举例而言，用户在类似地铁或者其他嘈杂的环境下时，用户的表达更加倾向于真实化/效率最大化的表达，而较少携带相关的情绪。在这种场景下，需要的是排除情绪识别的干扰，快速的识别以提升用户体验。而且与现有技术相比，由于本实施例是通过词向量反向对语音信号进行切分，在语音信号中部分无价值或者说无法识别的背景信号能够快速的被筛选和确定出来，方便进行用户所处场景的确认。

举例而言，用户在情绪比较负面时，实际上很难有欲望进行反转式的表达，通过采集用户的当前情绪，对后续识别模型进行相关的优化，以保证识别的准确率。用户在情绪比较正面时，实际是有一定的表达欲望的，易于在这种情况下进行较为复杂的表达。通过本实施例，能够结合用户当前情绪对后续的对话系统的识别模型进行优化，保证对用户自然语言表达识别的准确率。

以上的仅是本发明的实施例，该发明不限于此实施案例涉及的领域，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种自然语言对话系统意图深度学习方法，其特征在于，包括：

确定所述对话文本信息中每个分词的词向量；

获取与所述意图类型对应的意图要素抽取模型；

2.根据权利要求1所述的自然语言对话系统意图深度学习方法，所述确定所述对话文本信息中每个分词的词向量，包括：

3.根据权利要求2所述的自然语言对话系统意图深度学习方法，所述意图识别模型是基于长短时记忆的循环神经网络预先建立的，所述意图识别模型包括多个LSTM单元，所述根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型，包括：

4.根据权利要求3所述的一种自然语言对话系统意图深度学习方法，其特征在于：所述根据情绪识别模型与语音切分信号对应的词向量进行情绪标定包括：

5.根据权利要求4所述的一种自然语言对话系统意图深度学习方法，其特征在于：

所述获取用户在接收到输出结果时的反馈信息，并判断反馈信息的认同度，包括：

获取用户在输出前的面部表情作为表情基准；

获取用户在接收到输出结果时的表情作为第一表情；

6.根据权利要求5所述的一种自然语言对话系统意图深度学习方法，其特征在于：

所述获取用户在接收到输出结果时的反馈信息，并判断反馈信息的认同度，还包括：

7.根据权利要求6所述的一种自然语言对话系统意图深度学习方法，其特征在于：所述情绪识别模型还用于根据语音信号中的噪声确定用户所处场景，判断是否将所有词向量均情绪标定为中性。

8.根据权利要求7所述的一种自然语言对话系统意图深度学习方法，其特征在于：包括：

获取语音切分信号之间的背景信号；