CN113239170B

CN113239170B - 基于相互角色感知的对话生成方法、装置、设备及介质

Info

Publication number: CN113239170B
Application number: CN202110610397.6A
Authority: CN
Inventors: 于凤英; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2023-11-28
Anticipated expiration: 2041-06-01
Also published as: CN113239170A

Abstract

本发明公开了基于相互角色感知的对话生成方法、装置、设备及介质，涉及人工智能领域，该方法包括：对对话发生器和对话接收器之间的每一轮对话进行序列标注；对对话发生器和/或对话接收器的下一轮对话进行预测，得到候选话术；存储候选话术，并根据长度归一化方法在候选话术中选取得分最大的候选话术作为下一轮对话的预测话术；基于对话接收器接收的对话塑造对话发生器的角色形象，然后对塑造的角色形象与对话发生器实际的角色形象进行相关性评分；结合对话发生器和对话接收器的每一轮对话以及相关性评分，对GPT‑3网络进行参数优化。本发明基于对话发生器和对话接收器之间的角色感知对GPT‑3网络参数进行优化，使最终预测的话术更加精准。

Description

基于相互角色感知的对话生成方法、装置、设备及介质

技术领域

本发明涉及人工智能领域，特别涉及基于相互角色感知的对话生成方法、装置、设备及介质。

背景技术

智能对话系统主要的工作在于模仿人类的语言，从而进行高质量的对话，而这需要对话者之间的相互理解，但是现有技术中，在理解建模上的技术方法还很少。例如，构建个性化聊天系统，但是常常因为预训练过程的不足导致对话无法进行，因为对话缺乏连贯的人格特征获取不了用户的信任。而有效的交流可以在对话过程中提取出重要的信息，形成记忆，这也是高质量对话生成的重要特征。对话者通过提出与角色相关的话题加深理解，或者通过问答来间接获取自己的角色来让对话可以顺利的进行下去。通过为聊天系统匹配设定的角色，并伴随着角色而成的数据集可以促进聊天机器人的可配置性和话语匹配度来提高对话的生成，但是不足的地方时，这种方法也是在模仿人类的反应，对于对话者之间的相互理解缺乏更深层次的研究。

发明内容

本发明实施例提供了基于相互角色感知的对话生成方法、装置、设备及介质，旨在提高对话者之间的角色感知，从而提高对话生成精准度。

第一方面，本发明实施例提供了一种基于相互角色感知的对话生成方法，包括：

对对话发生器和对话接收器之间的每一轮对话进行序列标注；

基于所述序列标注，利用GPT-3网络对对话发生器和/或对话接收器的下一轮对话进行预测，得到至少一句候选话术；

通过搜索算法存储所述至少一句候选话术，并根据长度归一化方法在至少一句候选话术中选取得分最大的候选话术作为所述对话发生器和/或对话接收器下一轮对话的预测话术；

基于对话接收器接收的对话塑造对话发生器的角色形象，然后对塑造的角色形象与对话发生器实际的角色形象进行相关性评分；

结合对话发生器和对话接收器之间的每一轮对话以及所述相关性评分，利用似然比方法对所述GPT-3网络进行参数优化。

第二方面，本发明实施例提供了一种基于相互角色感知的对话生成装置，其特征在于，包括：

序列标注单元，用于对对话发生器和对话接收器之间的每一轮对话进行序列标注；

对话预测单元，用于基于所述序列标注，利用GPT-3网络对对话发生器和/或对话接收器的下一轮对话进行预测，得到至少一句候选话术；

预测话术选择单元，用于通过搜索算法存储所述至少一句候选话术，并根据长度归一化方法在至少一句候选话术中选取得分最大的候选话术作为所述对话发生器和/或对话接收器下一轮对话的预测话术；

角色塑造单元，用于基于对话接收器接收的对话塑造对话发生器的角色形象，然后对塑造的角色形象与对话发生器实际的角色形象进行相关性评分；

第一参数优化单元，用于结合对话发生器和对话接收器之间的每一轮对话以及所述相关性评分，利用似然比方法对所述GPT-3网络进行参数优化。

第三方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的基于相互角色感知的对话生成方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的基于相互角色感知的对话生成方法。

本发明实施例提供了一种基于相互角色感知的对话生成方法、装置、设备及介质，该方法包括：对对话发生器和对话接收器之间的每一轮对话进行序列标注；基于所述序列标注，利用GPT-3网络对对话发生器和/或对话接收器的下一轮对话进行预测，得到至少一句候选话术；通过搜索算法存储所述至少一句候选话术，并根据长度归一化方法在至少一句候选话术中选取得分最大的候选话术作为所述对话发生器和/或对话接收器下一轮对话的预测话术；基于对话接收器接收的对话塑造对话发生器的角色形象，然后对塑造的角色形象与对话发生器实际的角色形象进行相关性评分；结合对话发生器和对话接收器之间的每一轮对话以及所述相关性评分，利用似然比方法对所述GPT-3网络进行参数优化。本发明实施例通过GPT-3网络预测候选话术，并基于对话发生器和对话接收器之间的角色感知对GPT-3网络参数进行优化更新，使最终预测的话术更加精准。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供了一种基于相互角色感知的对话生成方法的流程示意图；

图2为本发明实施例提供了一种基于相互角色感知的对话生成方法的子流程示意图；

图3为本发明实施例提供了一种基于相互角色感知的对话生成装置的示意性框图；

图4为本发明实施例提供了一种基于相互角色感知的对话生成装置的子示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面请参见图1，图1为本发明实施例提供的一种基于相互角色感知的对话生成方法的流程示意图，具体包括：步骤S101～S105。

S101、对对话发生器和对话接收器之间的每一轮对话进行序列标注；

S102、基于所述序列标注，利用GPT-3网络对对话发生器和/或对话接收器的下一轮对话进行预测，得到至少一句候选话术；

S103、通过搜索算法存储所述至少一句候选话术，并根据长度归一化方法在至少一句候选话术中选取得分最大的候选话术作为所述对话发生器和/或对话接收器下一轮对话的预测话术；

S104、基于对话接收器接收的对话塑造对话发生器的角色形象，然后对塑造的角色形象与对话发生器实际的角色形象进行相关性评分；

S105、结合对话发生器和对话接收器之间的每一轮对话以及所述相关性评分，利用似然比方法对所述GPT-3网络进行参数优化。

本实施例中，首先将对话发生器和对话接收器之间的对话进行序列标注，通过序列标注的方式监督对话发生器和对话接收器之间的对话生成。然后利用GPT-3网络预测对话发生器或者对话接收器将要发起或者回复的候选话术，并对预测的候选话术进行长度归一化，以选择出得分最大的候选话术作为最终的预测话术。同时，对话接收器会根据对话发生器发起的对话，对对话发生器的角色进行塑造，并且基于对话发生器的真实角色计算相关性评分，从而通过结合相关性评分以及对话发生器和对话接收器之间的完整对话，对GPT-3网络的参数进行优化。

本实施例通过构建对话者之间的理解模型，即所述的基于相互角色感知的对话生成方法，可以帮助一方对话者对另一方对话者的角色具有更加清晰的认知，继而使对话者在发起对话或者回复对话时产生的话术更加精准，更加贴合另一方对话者的角色形象。同时，本实施例结合对话者的角色以及相应的相关性评分对用于生成候选话术的GPT-3网络进行参数优化，从而可以有效解决现有技术中因预训练过程准备的不充分导致的个性聊天系统的回答错误等问题，以及对于当前的一些对话语料库的检索可以更加省事省力，即减少语料库搜索阶段的时间冗长问题。另外，对于当前的智能对话系统来说，本实施例不再以模仿人类的语言反应作为主要目标，而是更加深层次的挖掘对话者的角色形象，由此产生更加精准的对话。

还需说明的是，本实施例提供的基于相互角色感知的对话生成方法特别适用于对话双方相互理解阶段的信息交换过程，即通过构建对话者之间的理解模型，包括对话产生和相互角色感知，来增强对话者之间的对话生成。

在一实施例中，所述步骤S101包括：

根据条件随机场模型，按照下式对所述每一轮对话分别进行序列标注：

P(x，y)∝exp(w·φ(x，y))

式中，x表示待进行序列标注的对话语句，y表示x对应的标记序列，P(x,y)表示x和y同时出现的概率，w表示权重向量，φ(x，y)表示x和y的特征向量集合。

本实施例中，采用条件随机场模型对对话进行序列标注，例如将对话发生器和对话接收器之间进行了N轮对话，由此标注为又例如将第n轮之前的对话标注为/>以监督对话发生器和对话接收器之间的对话生成。条件随机场模型(Conditional random field，CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场，且条件随机场常用于序列标注问题。

进一步的，通过求解条件概率P(y|x)来得到待进行序列标注的对话语句x对应的一个理想标注序列y：

式中，P(y|x)表示条件概率。

在一实施例中，所述步骤S102包括：

对所述序列标注进行编码操作，得到所述序列标注的矢量矩阵；

利用embedding函数对所述矢量矩阵进行向量化，得到向量化矩阵，以及对所述矢量矩阵进行位置信息编码，得到位置矩阵，然后将所述向量化矩阵和位置矩阵合并为目标矩阵；

将所述目标矩阵输入至多头的稀疏注意力层中，并将所述多头的稀疏注意力层输出结果输入至前馈神经网络层，然后对所述前馈神经网络层的输出结果进行归一化处理，得到最终的候选话术。

本实施例中，将经过序列标注的对话输入至GPT-3网络中，可以由GPT-3网络输出对应的结果，即预测的候选话术。GPT-3(generative pre-trained transformer，生成型预训练变换器)是人工智能领域的自然语言生成工具，采用96层、每一层中每个词语的表示维度为12,288，一共1750亿的参数。

具体的，首先将输入中的所有单词收集在一起构成词汇表，从而为每个单词赋予一个值(id)。为了减少资源占用，通过embedding函数进行向量化，embedding函数实质是一个神经网络，该神经网络采用50257长度的1和0的向量，并输出n长度的数字的向量，从而可以将每个单词转换为大小为50257的单点编码矢量，其中仅索引i处的维(单词的值)为1，所有其他维度均为0。还要注意，由于矩阵乘法计算法则限制，所以将embedding函数分别应用于每个单词编码(即序列编码矩阵中的行)，换句话说，结果与将每个单词编码向量分别传递给embedding函数并在最后将所有结果串联在一起是相同的。而这则意味在该过程中没有信息流过整个序列，同样没有关于Token的绝对或相对位置的信息。为了对当前Token在序列中的位置进行编码，采用Token的位置(标量i，在[0-2047]中)，并将其传递给12288个正弦函数，每个函数的频率都不同。对于每个Token，结果是12288个数字向量。与embedding一样，将这些向量组合成具有2048行的单个矩阵，其中每一行是序列中Token的12288列位置编码。

然后使用多头的稀疏注意力机制，使每一次注意力网络均有不同的可学习的query、key和value投影权重。且每一头自注意力机制的结果(单个2048x128矩阵)被串联在一起，产生2048x12288矩阵，然后将其乘以线性投影(不会改变矩阵形状)，以达到良好的效果。将多头的稀疏注意力机制的输出结果输入至前馈神经网络层，该前馈神经网络层是一个具有1个隐藏层的传统的多层感知器，前馈神经网络层的输入和输出形状都相同(2048x12288)，但是隐藏层的大小为4*12288。再对前馈神经网络层的输出结果进行归一化处理，随后对归一化处理的结果进行解码操作，得到最终的候选话术。

在一实施例中，所述步骤S103包括：

利用二分查找算法对所述至少一句候选话术进行存储；

按照下式对每一候选话术计算得分：

式中，为各候选话术的得分，/>为当前轮话术的序列标注，W^A为对话发生器和/或对话接收器对应的角色权重，/>为对话发生器和/或对话接收器的历史对话的序列标注，θ为所述GPT-3网络的参数，p为强化学习中的策略。

本实施例中，利用二分查找算法对候选话术进行存储的同时，还可以快速地根据要求查找到对应的候选话术。例如在对各候选话术进行长度归一化(LengthNormalization)后，确定得分最大的候选话术，此时，即可通过二分查找算法快速查找到得分最大的候选话术，并作为对话发生器或者对话接收器下一轮的预测话术。当然，在其他实施例中，也可以采用其他的搜索算法或者查找算法，例如顺序查找算法、插值查找算法或者斐波那契查找算法等等。

在一实施例中，如图2所示，所述步骤S104包括：步骤S201～S204。

S201、对所述对话接收器接收的对话标注至少一个角色；

S202、获取标注的角色在对话接收器接收的对话中出现的次数，并根据出现的次数确定不同角色的权重；

S203、选择权重最大的角色作为对话接收器塑造的角色形象；

S204、按照下式，利用分数函数对塑造的角色形象与对话发生器实际的角色形象进行相关性评分：

式中，为相关性评分，/>为对话接收器的回复话术，W^B为对话接收器对应的角色权重。

本实施例中，通过对对话发生器发起的对话中的角色进行标注，进而为对话发生器塑造对应的角色形象。而如果对话发生器发起的对话中包含多个角色，则可以统计各角色出现的次数频率，并选择出现的次数频率最多的角色作为对话发生器的角色形象。例如对话发生器A发起的对话包括：我买了第一个房子；我喜欢跑步；我是个作家。对话接收器B在接收到对话后，便可以对其中的“作家”进行标注，并且由于对话中不存在其他角色，因此可以将对话发生器A的角色形象塑造为“作家”。

进一步，对塑造的角色形象与对话发生器实际的角色形象计算相关性评分，然后将该相关性评分用于后续的参数优化步骤中。

当然，还可能存在一种情况，即对话发生器发起的对话中不包含角色相关的信息，此时，可以通过对话接收器的回复话术引导对话发生器发起包含角色相关的对话，由此对对话发生器的对话中的角色进行标注，继而为对话发生器塑造角色形象。

在一实施例中，所述步骤S104还包括：

针对标注的角色，将除权重最大的角色以外的其他角色作为干扰角色；

获取对话发生器的真实角色，结合所述干扰角色，利用损失函数对塑造的角色形象进行优化。

本实施例中，考虑到对话发生器发起的对话中可能包含多个角色，而除了将权重最大(即出现次数最多)的角色塑造为对话发生器的角色以外，还可以将其他角色中的任一个或者任多个角色作为干扰角色。然后将干扰角色与塑造的角色形象相结合，以及将塑造的角色形象与对话发生器的真实角色相结合，通过损失函数对塑造的角色形象进行训练优化，使最终塑造的角色形象更加接近对话发生器的真实角色，即使对话发生器和对话接收器之间的相互角色感知更加精准。

在一具体实施例中，按照下式对塑造的角色形象进行优化：

式中，L_BPR是指使用BPR优化的损失函数，x_ui表示对话生成器的真实角色，x_uj表示干扰角色，σ表示sigmoid激活函数，β表示正则化超参数，θ表示损失函数的参数。

在一实施例中，所述步骤S105包括：

按照下式对所述GPT-3网络进行参数优化：

式中，θ为所述GPT-3网络的参数，L为损失函数，rl表示强化学习，E表示似然估计，p为强化学习对应采取的策略，为对话接收器的回复话术，/>为对话接收器的状态信息，为对话接收器的历史对话的序列标注，/>为相关性评分。

本实施例中，结合相关性评分以及对话发生器和对话接收器之间的对话，并应用似然比技巧对GPT-3网络的参数进行优化，使生成型预训练变换器在预训练过程中可以充分准备，从而使最终预测的候选话术更加符合对话者的角色。

图3为本发明实施例提供的一种基于相互角色感知的对话生成装置300的示意性框图，该装置300包括：

序列标注单元301，用于对对话发生器和对话接收器之间的每一轮对话进行序列标注；

对话预测单元302，用于基于所述序列标注，利用GPT-3网络对对话发生器和/或对话接收器的下一轮对话进行预测，得到至少一句候选话术；

预测话术选择单元303，用于通过搜索算法存储所述至少一句候选话术，并根据长度归一化方法在至少一句候选话术中选取得分最大的候选话术作为所述对话发生器和/或对话接收器下一轮对话的预测话术；

角色塑造单元304，用于基于对话接收器接收的对话塑造对话发生器的角色形象，然后对塑造的角色形象与对话发生器实际的角色形象进行相关性评分；

第一参数优化单元305，用于结合对话发生器和对话接收器之间的每一轮对话以及所述相关性评分，利用似然比方法对所述GPT-3网络进行参数优化。

本实施例中，首先通过序列标注单元301将对话发生器和对话接收器之间的对话进行序列标注，通过序列标注的方式监督对话发生器和对话接收器之间的对话生成。然后在对话预测单元302中，利用GPT-3网络预测对话发生器或者对话接收器将要发起或者回复的候选话术，并对预测的候选话术进行长度归一化，以通过预测话术选择单元303选择出得分最大的候选话术作为最终的预测话术。同时，对话接收器会根据对话发生器发起的对话，利用角色塑造单元304对对话发生器的角色进行塑造，并且基于对话发生器的真实角色计算相关性评分，从而通过结合相关性评分以及对话发生器和对话接收器之间的完整对话，在第一参数优化单元305中对GPT-3网络的参数进行优化。

本实施例通过构建对话者之间的理解模型，即所述的基于相互角色感知的对话生成装置，可以帮助一方对话者对另一方对话者的角色具有更加清晰的认知，继而使对话者在发起对话或者回复对话时产生的话术更加精准，更加贴合另一方对话者的角色形象。同时，本实施例结合对话者的角色以及相应的相关性评分对用于生成候选话术的GPT-3网络进行参数优化，从而可以有效解决现有技术中因预训练过程准备的不充分导致的个性聊天系统的回答错误等问题，以及对于当前的一些对话语料库的检索可以更加省事省力，即减少语料库搜索阶段的时间冗长问题。另外，对于当前的智能对话系统来说，本实施例不再以模仿人类的语言反应作为主要目标，而是更加深层次的挖掘对话者的角色形象，由此产生更加精准的对话。

还需说明的是，本实施例提供的基于相互角色感知的对话生成装置特别适用于对话双方相互理解阶段的信息交换过程，即通过构建对话者之间的理解模型，包括对话产生和相互角色感知，来增强对话者之间的对话生成。

在一实施例中，所述序列标注单元301包括：

条件随机场模型单元，用于根据条件随机场模型，按照下式对所述每一轮对话分别进行序列标注：

P(x，y)∝exp(w·φ(x，y))

式中，P(y|x)表示条件概率。

在一实施例中，所述对话预测单元302包括：

编码单元，用于对所述序列标注进行编码操作，得到所述序列标注的矢量矩阵；

向量化单元，用于利用embedding函数对所述矢量矩阵进行向量化，得到向量化矩阵，以及对所述矢量矩阵进行位置信息编码，得到位置矩阵，然后将所述向量化矩阵和位置矩阵合并为目标矩阵；

结果输出单元，用于将所述目标矩阵输入至多头的稀疏注意力层中，并将所述多头的稀疏注意力层输出结果输入至前馈神经网络层，然后对所述前馈神经网络层的输出结果进行归一化处理，得到最终的候选话术。

具体的，首先通过编码单元将输入中的所有单词收集在一起构成词汇表，从而为每个单词赋予一个值(id)。为了减少资源占用，通过向量化单元中的embedding函数进行向量化，embedding函数实质是一个神经网络，该神经网络采用50257长度的1和0的向量，并输出n长度的数字的向量，从而可以将每个单词转换为大小为50257的单点编码矢量，其中仅索引i处的维(单词的值)为1，所有其他维度均为0。还要注意，由于矩阵乘法计算法则限制，所以将embedding函数分别应用于每个单词编码(即序列编码矩阵中的行)，换句话说，结果与将每个单词编码向量分别传递给embedding函数并在最后将所有结果串联在一起是相同的。而这则意味在该过程中没有信息流过整个序列，同样没有关于Token的绝对或相对位置的信息。为了对当前Token在序列中的位置进行编码，采用Token的位置(标量i，在[0-2047]中)，并将其传递给12288个正弦函数，每个函数的频率都不同。对于每个Token，结果是12288个数字向量。与embedding一样，将这些向量组合成具有2048行的单个矩阵，其中每一行是序列中Token的12288列位置编码。

在结果输出单元中，使用多头的稀疏注意力机制，使每一次注意力网络均有不同的可学习的query、key和value投影权重。且每一头自注意力机制的结果(单个2048x128矩阵)被串联在一起，产生2048x12288矩阵，然后将其乘以线性投影(不会改变矩阵形状)，以达到良好的效果。将多头的稀疏注意力机制的输出结果输入至前馈神经网络层，该前馈神经网络层是一个具有1个隐藏层的传统的多层感知器，前馈神经网络层的输入和输出形状都相同(2048x12288)，但是隐藏层的大小为4*12288。再对前馈神经网络层的输出结果进行归一化处理，随后对归一化处理的结果进行解码操作，得到最终的候选话术。

在一实施例中，所述预测话术选择单元303，包括：

存储单元，用于利用二分查找算法对所述至少一句候选话术进行存储；

得分计算单元，用于按照下式对每一候选话术计算得分：

在一实施例中，如图4所示，所述角色塑造单元304包括：

角色标注单元401，用于对所述对话接收器接收的对话标注至少一个角色；

权重确定单元402，用于获取标注的角色在对话接收器接收的对话中出现的次数，并根据出现的次数确定不同角色的权重；

权重选择单元403，用于选择权重最大的角色作为对话接收器塑造的角色形象；

相关性评分单元404，用于按照下式，利用分数函数对塑造的角色形象与对话发生器实际的角色形象进行相关性评分：

本实施例中，通过角色标注单元401对对话发生器发起的对话中的角色进行标注，进而为对话发生器塑造对应的角色形象。而如果对话发生器发起的对话中包含多个角色，则可以通过权重确定单元402统计各角色出现的次数频率，并在权重选择单元403中选择出现的次数频率最多的角色作为对话发生器的角色形象。例如对话发生器A发起的对话包括：我买了第一个房子；我喜欢跑步；我是个作家。对话接收器B在接收到对话后，便可以对其中的“作家”进行标注，并且由于对话中不存在其他角色，因此可以将对话发生器A的角色形象塑造为“作家”。

进一步，通过相关性评分单元404对塑造的角色形象与对话发生器实际的角色形象计算相关性评分，然后将该相关性评分用于后续的参数优化步骤中。

在一实施例中，所述角色塑造单元304还包括：

干扰角色单元，用于针对标注的角色，将除权重最大的角色以外的其他角色作为干扰角色；

角色优化单元，用于获取对话发生器的真实角色，结合所述干扰角色，利用损失函数对塑造的角色形象进行优化。

在一具体实施例中，按照下式对塑造的角色形象进行优化：

在一实施例中，所述第一参数优化单元305包括：

第二参数优化单元，用于按照下式对所述GPT-3网络进行参数优化：

本发明实施例还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在一实施例中，所述对对话发生器和对话接收器之间的每一轮对话进行序列标注，包括：

P(x，y)∝exp(w·φ(x，y))

在一实施例中，所述基于所述序列标注，利用GPT-3网络对对话发生器和/或对话接收器的下一轮对话进行预测，得到至少一句候选话术，包括：

在一实施例中，所述通过搜索算法存储所述至少一句候选话术，并根据长度归一化方法在至少一句候选话术中选取得分最大的候选话术作为所述对话发生器和/或对话接收器下一轮对话的预测话术，包括：

利用二分查找算法对所述至少一句候选话术进行存储；

按照下式对每一候选话术计算得分：

在一实施例中，所述基于对话接收器接收的对话塑造对话发生器的角色形象，然后对塑造的角色形象与对话发生器实际的角色形象进行相关性评分，包括：

对所述对话接收器接收的对话标注至少一个角色；

获取标注的角色在对话接收器接收的对话中出现的次数，并根据出现的次数确定不同角色的权重；

选择权重最大的角色作为对话接收器塑造的角色形象；

按照下式，利用分数函数对塑造的角色形象与对话发生器实际的角色形象进行相关性评分：

在一实施例中，所述基于对话接收器接收的对话塑造对话发生器的角色形象，然后对塑造的角色形象与对话发生器实际的角色形象进行相关性评分，还包括：

在一实施例中，所述结合对话发生器和对话接收器之间的完整对话以及所述相关性评分，利用似然比方法对所述GPT-3网络进行参数优化，包括：

按照下式对所述GPT-3网络进行参数优化：

式中，θ为所述GPT-3网络的参数，L为损失函数，rl表示强化学习，E表示似然估计，p为强化学习对应采取的策略，为对话接收器的回复话术，/>为对话接收器的状态信息，为对话接收器的历史对话的序列标注，/>为相关性评分。/>

本发明实施例还提供了一种计算机设备，可以包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口，电源等组件。

P(x，y)∝exp(w·φ(x，y))

利用二分查找算法对所述至少一句候选话术进行存储；

按照下式对每一候选话术计算得分：

对所述对话接收器接收的对话标注至少一个角色；

选择权重最大的角色作为对话接收器塑造的角色形象；

按照下式对所述GPT-3网络进行参数优化：

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于相互角色感知的对话生成方法，其特征在于，包括：

结合对话发生器和对话接收器之间的每一轮对话以及所述相关性评分，利用似然比方法对所述GPT-3网络进行参数优化；

所述基于对话接收器接收的对话塑造对话发生器的角色形象，然后对塑造的角色形象与对话发生器实际的角色形象进行相关性评分，包括：

对所述对话接收器接收的对话标注至少一个角色；

选择权重最大的角色作为对话接收器塑造的角色形象；

2.根据权利要求1所述的基于相互角色感知的对话生成方法，其特征在于，所述对对话发生器和对话接收器之间的每一轮对话进行序列标注，包括：

P(x,y)∝exp(w·φ(x,y))

3.根据权利要求1所述的基于相互角色感知的对话生成方法，其特征在于，所述基于所述序列标注，利用GPT-3网络对对话发生器和/或对话接收器的下一轮对话进行预测，得到至少一句候选话术，包括：

4.根据权利要求1所述的基于相互角色感知的对话生成方法，其特征在于，所述通过搜索算法存储所述至少一句候选话术，并根据长度归一化方法在至少一句候选话术中选取得分最大的候选话术作为所述对话发生器和/或对话接收器下一轮对话的预测话术，包括：

利用二分查找算法对所述至少一句候选话术进行存储；

按照下式对每一候选话术计算得分：

5.根据权利要求1所述的基于相互角色感知的对话生成方法，其特征在于，所述基于对话接收器接收的对话塑造对话发生器的角色形象，然后对塑造的角色形象与对话发生器实际的角色形象进行相关性评分，还包括：

6.根据权利要求1所述的基于相互角色感知的对话生成方法，其特征在于，所述结合对话发生器和对话接收器之间的完整对话以及所述相关性评分，利用似然比方法对所述GPT-3网络进行参数优化，包括：

按照下式对所述GPT-3网络进行参数优化：

7.一种基于相互角色感知的对话生成装置，其特征在于，包括：

第一参数优化单元，用于结合对话发生器和对话接收器之间的每一轮对话以及所述相关性评分，利用似然比方法对所述GPT-3网络进行参数优化；

所述角色塑造单元包括：

角色标注单元，用于对所述对话接收器接收的对话标注至少一个角色；

权重确定单元，用于获取标注的角色在对话接收器接收的对话中出现的次数，并根据出现的次数确定不同角色的权重；

权重选择单元，用于选择权重最大的角色作为对话接收器塑造的角色形象；

相关性评分单元，用于按照下式，利用分数函数对塑造的角色形象与对话发生器实际的角色形象进行相关性评分：

8.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于相互角色感知的对话生成方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于相互角色感知的对话生成方法。