CN115169367A

CN115169367A - 对话生成方法及装置、存储介质

Info

Publication number: CN115169367A
Application number: CN202211082174.8A
Authority: CN
Inventors: 嵇望; 安毫亿; 陈默; 梁青
Original assignee: Hangzhou Yuanchuan Xinye Technology Co ltd
Current assignee: Hangzhou Yuanchuan Xinye Technology Co ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-10-11
Anticipated expiration: 2042-09-06
Also published as: CN115169367B

Abstract

本发明具体涉及对话生成方法及装置、存储介质。方法包括：获取用户输入的当前对话语句并输入情感对话生成模型；利用情感对话生成模型对当前对话语句分词处理，对分词结果编码得到第一编码数据；对当前对话语句主题词识别，对主题词识别结果编码得到第二编码数据；获取当前对话语句的上一轮对话语句并分词处理，对分词结果编码得到第三编码结果；对上一轮对话语句实体识别，对实体识别结果编码得到第四编码数据；对第一编码数据、第二编码数据进行融合获取第一特征数据；对第一编码数据、第四编码数据融合处理获取第二特征数据；对第一特征数据、第二特征数据和第三编码数据特征融合获取融合特征；根据第一编码数据、融合特征生成预测对话数据。

Description

对话生成方法及装置、存储介质

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种对话生成方法、一种对话生成装置、一种存储介质。

背景技术

人机对话系统不断发展进步，应用范围不断扩大，人们对它也有了更高的要求，希望系统在关注回复内容的基础上，可以与人进行更深入的交流。在已有的人机对话系统中，系统能够根据用户的语音进行答复，但还无法准确的理解用户语音中的情感内容。另外，在一些人们交流谈话的内容中，还包含对话主题、上下文的一致性，还会出现带有一些领域中的专有名词；但是现有的人机对话系统中还无法准确的实现联系上下文、保持主题一致，无法处理专有名词背后隐含的复杂信息，无法实现更复杂、更有价值的领域人机对话。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种对话生成方法、一种对话生成装置、一种存储介质，能够实现基于外部知识引入和主题一致性的情感对话生成方法。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种对话生成方法，所述方法包括：

获取用户输入的当前对话语句，将当前对话数据输入情感对话生成模型；

利用所述情感对话生成模型对所述当前对话语句进行分词处理，并对分词结果进行编码得到第一编码数据；以及，对所述当前对话语句进行主题词识别，并对主题词识别结果进行编码得到第二编码数据；

获取所述当前对话语句对应的上一轮对话语句，对该上一轮对话语句进行分词处理，并对分词结果进行编码得到第三编码结果；以及，对该上一轮对话语句进行实体识别，对实体识别结果进行编码，得到第四编码数据；

对所述第一编码数据、第二编码数据进行融合处理获取第一特征数据；以及，对所述第一编码数据、第四编码数据进行融合处理获取第二特征数据；

对所述第一特征数据、第二特征数据和第三编码数据进行特征融合以获取融合特征；

根据所述第一编码数据、融合特征生成所述当前对话语句对应的预测对话数据。

根据本公开的第二方面，提供一种对话生成装置，包括：

当前对话语句获取模块，终于获取用户输入的当前对话语句，将当前对话数据输入情感对话生成模型；

当前对话语句编码模块，用于利用所述情感对话生成模型对所述当前对话语句进行分词处理，并对分词结果进行编码得到第一编码数据；以及，对所述当前对话语句进行主题词识别，并对主题词识别结果进行编码得到第二编码数据；

上一轮对话语句编码模块，用于获取所述当前对话语句对应的上一轮对话语句，对该上一轮对话语句进行分词处理，并对分词结果进行编码得到第三编码结果；以及，对该上一轮对话语句进行实体识别，对实体识别结果进行编码，得到第四编码数据；

特征编码模块，用于对所述第一编码数据、第二编码数据进行融合处理获取第一特征数据；以及，对所述第一编码数据、第四编码数据进行融合处理获取第二特征数据；

特征融合模块，用于对所述第一特征数据、第二特征数据和第三编码数据进行特征融合以获取融合特征；

预测语句生成模块，用于根据所述第一编码数据、融合特征生成所述当前对话语句对应的预测对话数据。

根据本公开的第三方面，存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例所述的对话生成方法。

本公开的一种实施例所提供的对话生成方法，通过采集当前对话语句对应的上一轮对话语句，并用于构建融合特征，使得在生成预测对话语句时可以包括上下文、保持主题一致；并且，通过对上一轮对话语句进行实体识别，能够将对话过程中的专有名词的背景信息引入，补充背景信息特征，同时在对话中考虑情感和主题信息，确保聊天的主题多样性和情感的敏感性，提高了回复的精准度，进一步提升了用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种对话生成方法的示意图；

图2中示意性示出本公开示例性实施例中一种对话生成装置的组成示意图；

图3示意性示出本公开示例性实施例中一种对话生成方法的架构示意图；

图4示出了本公开示例性实施例中的存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在相关技术中，人机对话系统不断发展进步，应用范围不断扩大，人们对它也有了更高的要求，希望机器在关注回复内容的基础上，可以与人进行更深入的交流。在人机对话系统中，除了回复内容之外，机器与人的情感交流也是一个重要问题。人类可以通过语言进行情感上的交流，获得情感上的慰藉，对话系统想要和人类进行有效的情感沟通，就必须具备一定的情感能力。在对话中加入语音情感能够提高用户的体验感和满意度，此外，我们通过日常生活中的聊天发现，人们之间的对话不仅涉及谈话的内容还包含对话主题、上下文的一致性，且在对话过程中会出现带有一定背景信息的专有名词，因此无法联系上下文、保持主题一致，无法处理专有名词后面复杂信息的对话系统就无法进行更复杂更有价值的领域对话聊天。

针对现有技术的缺点和不足，本示例实施方式中提供了一种对话生成方法，能够应用于人机对话系统。

具体而言，参考图1所示，上述的方法可以包括：

步骤S11，获取用户输入的当前对话语句，将当前对话数据输入情感对话生成模型；

步骤S12，利用所述情感对话生成模型对所述当前对话语句进行分词处理，并对分词结果进行编码得到第一编码数据；以及对所述当前对话语句进行主题词识别，并对主题词识别结果进行编码得到第二编码数据；

步骤S13，获取所述当前对话语句对应的上一轮对话语句，对该上一轮对话语句进行分词处理，并对分词结果进行编码得到第三编码结果；以及，对该上一轮对话语句进行实体识别，对实体识别结果进行编码，得到第四编码数据；

步骤S14，对所述第一编码数据、第二编码数据进行融合处理获取第一特征数据；以及，对所述第一编码数据、第四编码数据进行融合处理获取第二特征数据；

步骤S15，对所述第一特征数据、第二特征数据和第三编码数据进行特征融合以获取融合特征；

步骤S16，根据所述第一编码数据、融合特征生成所述当前对话语句对应的预测对话数据。

本示例实施方式中，上述的方法可以应用于手机、平板电脑等电子设备的人机对话系统。

在上述的步骤S11中，用户在使用终端设备时，触发人机对话系统后，用户通过语音、文本输入的内容，可以作为上述的用户输入的当前对话语句。终端设备在采集到用户输入的当前对话语句后，可以作为输入数据，输入已训练的情感对话生成模型中，利用该情感对话生成模型输入当前对话语句对应的预测对话语句，向用户反馈。

本示例实施方式中，所述利用所述情感对话生成模型对所述当前对话语句进行分词处理，并对分词结果进行编码得到第一编码数据，包括：

对所述当前对话语句进行分词处理，获取分词结果；

通过BiGRU模型对所述分词结果进行编码，以获取词语级向量表示的第一编码数据。

本示例实施方式中，所述对所述当前对话语句进行主题词识别，并对主题词识别结果进行编码得到第二编码数据，包括：

利用主题模型对所述当前对话语句进行主题词识别，获取主题词识别结果；

通过BiGRU模型对所述主题词识别结果进行编码，以获取词语级向量表示的第二编码数据。

本示例实施方式中，所述上一轮对话语句包括至少一条对话语句；

所述对该上一轮对话语句进行分词处理，并对分词结果进行编码得到第三编码结果，包括：

对所述上一轮对话语句进行分词处理，获取分词结果；

通过BiGRU模型对所述分词结果进行编码，以获取词语级向量表示的第三编码数据。

所述对该上一轮对话语句进行实体识别，对实体识别结果进行编码，得到第四编码数据，包括：

确定所述上一轮对话语句对应领域的知识图谱；

对所述上一轮对话语句进行分词处理，获取分词结果；

将所述分词结果与所述知识图谱进行匹配，确定所述上一轮对话语句中包含的实体；

通过BiGRU模型对实体对应的TransE向量进行编码，获取用于表示对话中特定领域外部知识信息的第四编码数据。

本示例实施方式中，所述对所述第一特征数据、第二特征数据和第三编码数据进行特征融合以获取融合特征，包括：

获取所述第一特征数据的注意力机制表示、第二特征数据的注意力机制表示、第三编码数据的门控机制表示；

根据预配置的权重系数对注意力表示结果进行特征融合处理，获取融合特征。

本示例实施方式中，在所述当前对话语句不存在所述上一轮对话语句时，所述第三编码结果、第四编码结果为空。

本示例实施方式中，所述方法还包括：训练所述情感对话生成模型，包括：

步骤S21，采集若干数量的历史对话文本构建对话数据集，并作为训练样本；其中，各所述历史对话文本包括多轮对话数据，多轮对话数据中各轮对话数据配置有对应的情感标签；

步骤S22，对所述历史对话文本进行分词处理，并对分词结果进行编码得到第一历史编码数据；以及，对所述历史对话文本进行主题词识别，并对主题词识别结果进行编码得到第二历史编码数据；

步骤S23，获取所述历史对话文本对应的上一轮历史对话语句，对该上一轮历史对话语句进行分词处理，并对分词结果进行编码得到第三历史编码结果；以及，对该上一轮历史对话文本进行实体识别，对实体识别结果进行编码，得到第四历史编码数据；

步骤S24，对所述第一历史编码数据、第二历史编码数据进行融合处理获取第一历史特征数据；以及，对所述第一历史编码数据、第四历史编码数据进行融合处理获取第二历史特征数据；

步骤S25，根据所述第一历史编码数据、历史融合特征生成所述历史对话文本对应的预测文本；

步骤S26，利用负对数似然函数作为损失函数进行迭代训练，并选择在开发集上F1指标最好的模型作为所述情感对话生成模型。

本示例实施方式中，可以预先构建特定邻域的知识图谱，根据构建的特定领域知识图谱，训练特定领域知识图谱TransE向量作为后续建模特征之一。TransE将知识图谱中的实体和关系映射到向量空间，实体和关系的表示变成了向量之间的表示。

本示例实施方式中，对数据集中的对话文本利用主题模型BTM进行训练，获得每个主题最重要的单词的列表。BTM主题模型的训练过程如下：

（1）对于每一个主题

，产生特定主题下的词分布

；

（2）对对话文本语料库

,将其生成为一个语料库级别的主题分布

；

（3）假设一个词对用b表示，则

，且

，对于词对集合biterms中的每一个词对均由以下步骤产生：

1）从语料库级别的主题分布

中随机抽取一个主题z，即

；

2）从上一步骤所选的主题z中同时随机抽取2个词

，两词中的每一个词都独立的从该主题中产生，即

，

。

根据BTM的生成过程可以计算出词对

的联合分布概率，概率计算公式如下所示：

对全局词集则有如下公式：

本示例实施方式中，在上述的步骤S22中，对对话数据集中的历史对话文本

进行分词、编码、得到历史对话文本词语级向量表示，通过BiGRU来对H 进行编码，如公式所示：

本示例实施方式中，对多轮对话数据集中包含的主题词

进行编码，得到主题词的词语级向量表示，通过BiGRU来对其进行编码，如公式所示：

本示例实施方式中，在上述的步骤S23中，对多轮对话数据集中的上一轮对话文本

进行分词，编码、得到上一句对话文本的词语级向量表示，通过BiGRU对其进行编码，如公式所示：

本示例实施方式中，对多轮对话上一轮对话文本中包含的知识图谱实体

用TransE向量进行编码，得到对话中特定领域外部知识信息的向量表示，通过BiGRU来对其进行编码，如公式所示：

本示例实施方式中，将情感对话生成模型分解为两个任务，其中，上一轮对话文本的情感特征表示

既作为情感预测任务的特征，也作为情感信息特征通过门机制的形式和其他比如主题、外部知识特征进行融合作为最后的整体编码特征。情感特征预测的概率公式为：

本示例实施方式中，在上述的步骤S24中，对所述第一历史编码数据、第二历史编码数据进行融合处理获取第一历史特征数据，具体可以是：使用多轮对话数据集的主题信息对历史对话文本信息进行注意力机制表示：

本示例实施方式中，在上述的步骤S24中，对所述第一历史编码数据、第四历史编码数据进行融合处理获取第二历史特征数据，具体可以是：使用多轮对话数据集的外部知识信息对历史对话文本信息进行注意力机制表示：

本示例实施方式中，对于第三历史编码数据，使用门控机制对历史对话情感特征

进行重要性决策控制：

在上述的步骤S25中，将三种特征信息进行融合，融合所有特征的信息表示

为：

本示例实施方式中，在上述的步骤S26中，在解码时将原文信息和融合特征作为GRU的输入，具体如下：

本示例实施方式中，在上述的步骤S26中，最后我们使用

来完成对话的生成预测，最终的loss函数由情感预测loss和对话生成的loss两部分组成，在训练过程中我们使用负对数似然函数来作为损失函数。

使用情感对话训练集对一种基于外部知识引入和主题一致性的情感对话生成方法进行模型训练，选择在开发集上F1指标最好的模型进行保存，该模型能够完成高质量的共情对话。

本公开提供的方法，参考图3所示，获取一定规模情感问答数据集，包括多轮对话文本、情感标签等；对多轮对话上一轮对话文本进行分词，命名实体识别，查询知识图谱获取实体图谱关系，获得外部知识向量表示，对对话文本进行分词，获得句子的词语级向量表示，对情感对话文本构建主题模型，获得句子主题向量表示；将文本特征表示和情感特征表示、主题特征表示等的向量表示输入基于外部知识引入和主题一致性的情感对话生成模型进行多任务训练，寻找最优参数，保存最优模型；最优模型能够根据用户输入的历史对话输出带有丰富情感的答案。本方法不仅确保聊天主题的多样性，保持对话主题的一致性，还通过引入外部知识，确保高质量的聊天内容的对话生成。

在本公开的示例性实施例中，参考图2所示。还提供了一种对话生成装置20，包括：

当前对话语句获取模块201，终于获取用户输入的当前对话语句，将当前对话数据输入情感对话生成模型；

当前对话语句编码模块202，用于利用所述情感对话生成模型对所述当前对话语句进行分词处理，并对分词结果进行编码得到第一编码数据；以及，对所述当前对话语句进行主题词识别，并对主题词识别结果进行编码得到第二编码数据；

上一轮对话语句编码模块203，用于获取所述当前对话语句对应的上一轮对话语句，对该上一轮对话语句进行分词处理，并对分词结果进行编码得到第三编码结果；以及，对该上一轮对话语句进行实体识别，对实体识别结果进行编码，得到第四编码数据；

特征编码模块204，用于对所述第一编码数据、第二编码数据进行融合处理获取第一特征数据；以及，对所述第一编码数据、第四编码数据进行融合处理获取第二特征数据；

特征融合模块205，用于对所述第一特征数据、第二特征数据和第三编码数据进行特征融合以获取融合特征；

预测语句生成模块206，用于根据所述第一编码数据、融合特征生成所述当前对话语句对应的预测对话数据。

由于本发明实施方式的对话生成装置的各个功能模块与上述对话生成方法发明实施方式中相同，因此在此不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中，参考图4，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种对话生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述情感对话生成模型对所述当前对话语句进行分词处理，并对分词结果进行编码得到第一编码数据，包括：

对所述当前对话语句进行分词处理，获取分词结果；

3.根据权利要求1所述的方法，其特征在于，所述对所述当前对话语句进行主题词识别，并对主题词识别结果进行编码得到第二编码数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述上一轮对话语句包括至少一条对话语句；

对所述上一轮对话语句进行分词处理，获取分词结果；

5.根据权利要求1所述的方法，其特征在于，所述上一轮对话语句包括至少一条对话语句；

确定所述上一轮对话语句对应领域的知识图谱；

对所述上一轮对话语句进行分词处理，获取分词结果；

6.根据权利要求1所述的方法，其特征在于，所述对所述第一特征数据、第二特征数据和第三编码数据进行特征融合以获取融合特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述当前对话语句不存在所述上一轮对话语句时，所述第三编码结果、第四编码结果为空。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：训练所述情感对话生成模型，包括：

采集若干数量的历史对话文本构建对话数据集，并作为训练样本；其中，各所述历史对话文本包括多轮对话数据，多轮对话数据中各轮对话数据配置有对应的情感标签；

对所述历史对话文本进行分词处理，并对分词结果进行编码得到第一历史编码数据；以及，对所述历史对话文本进行主题词识别，并对主题词识别结果进行编码得到第二历史编码数据；

获取所述历史对话文本对应的上一轮历史对话语句，对该上一轮历史对话语句进行分词处理，并对分词结果进行编码得到第三历史编码结果；以及，对该上一轮历史对话文本进行实体识别，对实体识别结果进行编码，得到第四历史编码数据；

对所述第一历史编码数据、第二历史编码数据进行融合处理获取第一历史特征数据；以及，对所述第一历史编码数据、第四历史编码数据进行融合处理获取第二历史特征数据；

对所述第一历史特征数据、第二历史特征数据和第三历史编码数据进行特征融合以获取历史融合特征；

根据所述第一历史编码数据、历史融合特征生成所述历史对话文本对应的预测文本；

利用负对数似然函数作为损失函数进行迭代训练，并选择在开发集上F1指标最好的模型作为所述情感对话生成模型。

9.一种对话生成装置，其特征在于，包括：

10.一种存储介质，其特征在于，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至8中任一项所述的对话生成方法。