CN112560447A

CN112560447A - 回复信息获取方法、装置及计算机设备

Info

Publication number: CN112560447A
Application number: CN202011530447.1A
Authority: CN
Inventors: 赵建宇; 李让
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-26
Anticipated expiration: 2040-12-22
Also published as: CN112560447B

Abstract

本申请提出了一种回复信息获取方法、装置及计算机设备，在对话系统场景下，计算机设备获得待回复信息后，将利用语言模型，得到针对待回复信息的第一回复单词，并在调整该语言模型的隐层参数后，重新得到与该第一回复单词的回复时序相同的第二回复单词，之后，将依据这两个回复单词之间的情感极性差值，从中确定一回复单词为相应回复时序的目标回复单词，不需要每一回复单词都进行情感控制，解决了语言模型的隐层及情感分类器不稳定，而导致所生成的回复单词构成的回复信息的流利度和准确性较低的技术问题，即保证了由确定的多个目标回复单词，构成并输出的针对待回复信息的目标回复信息，保持积极情感准确的同时，具有良好的流利度。

Description

回复信息获取方法、装置及计算机设备

技术领域

本申请主要涉及通信技术领域，更具体地说是涉及一种回复信息获取方法、装置及计算机设备。

背景技术

随着人工智能技术发展，越来越多的企业使用了智能客服系统，来提高回复效率，降低人工成本，而且，为了使得系统反馈的回复信息更加人性化，提高用户满意度，可以结合积极的情感词语构成该回复信息。对此，目前提出利用PPLM(Plug and Play LanguageModel，即插即用语言模型)，来获取具有感情色彩的回复信息。

其中，由于PPLM不需要利用大量包含积极感性词语的对话样本数据，来不断训练语言模型参数，降低了对系统计算资源的要求；但是，其在获取回复信息的每个词语过程中，都需要依据情感分类器输出的损失值，改变语言模型的隐层，以干预语言模型生成相应的积极情感词语，而语言模型隐层的不稳定，会导致所生成的具有积极情感词语的回复信息流利度和准确性下降。

发明内容

有鉴于此，为了保证语言模型所生成的目标回复信息的情感控制准确的同时，具有较高的流利度，本申请提出了以下技术方案：

一方面，本申请提供了一种回复信息获取方法，所述方法包括：

获得待回复信息；

利用语言模型，得到针对所述待回复信息的第一回复单词和第二回复单词，其中，所述第二回复单词是在调整所述语言模型的隐层参数后，重新得到的与所述第一回复单词的回复时序相同的单词；

依据所述第一回复单词与所述第二回复单词之间的情感极性差值，确定所述第一回复单词或所述第二回复单词为相应回复时序的目标回复单词；

由确定的多个所述目标回复单词，构成针对所述待回复信息的目标回复信息；

输出所述目标回复信息。

在一些实施例中，所述利用语言模型，得到针对所述待回复信息的第一回复单词和第二回复单词，包括：

利用第一语言模型，得到针对所述待回复信息的第一回复单词；

利用第二语言模型，得到针对所述待回复信息的第二回复单词，其中，所述第二语言模型是通过调整所述第一语言模型的隐层参数得到的，所述第二回复单词与所述第一回复单词的回复时序相同。

在一些实施例中，所述依据所述第一回复单词与所述第二回复单词之间的情感极性差值，确定所述第一回复单词或所述第二回复单词为相应回复时序的目标回复单词，包括：

获取所述第一回复单词的第一情感极性值，以及所述第二回复单词的第二情感极性值；

对所述第二情感极性值与所述第一情感极性值进行差值运算，得到第一情感极性差值；

检测所述第一情感极性差值是否大于情感转变阈值；

如果所述第一情感极性差值大于情感转变阈值，确定所述第二回复单词为相应回复时序的目标回复单词；

如果所述第一情感极性差值小于或等于情感转变阈值，确定所述第一回复单词为相应回复时序的目标回复单词。

在一些实施例中，所述方法还包括：

构建情感词典，所述情感词典包含有不同单词各自对应的情感极性值，且所述情感极性值越大，对应单词的正面情感程度越高；

所述获取所述第一回复单词的第一情感极性值，以及所述第二回复单词的第二情感极性值，包括：

查询所述情感词典，得到所述第一回复单词的第一情感极性值，以及所述第二回复单词的第二情感极性值。

在一些实施例中，所述利用第一语言模型，得到针对所述待回复信息的第一回复单词，包括：

由所述待回复信息以及已确定的目标回复单词，确定本次回复时序对应的模型输入信息；

将所述模型输入信息输入所述第一语言模型进行处理，得到针对所述待回复信息且与本次回复时序对应的第一回复单词。

在一些实施例中，所述利用第二语言模型，得到针对所述待回复信息的第二回复单词，包括：

利用预训练的情感分类器，得到所述第一回复单词的第一损失值；

依据所述第一损失值，调整所述第一语言模型的隐层参数，得到第二语言模型；

依据所述第二语言模型所具有的调整后的隐层参数，对所述模型输入信息进行处理，得到针对所述待回复信息的第二回复单词。

在一些实施例中，所述由确定的多个所述目标回复单词，构成针对所述待回复信息的目标回复信息，包括：

检测到回复终止信息，或所确定的所述目标回复单词的个数达到预设数量，按照确定的多个所述目标回复单词各自的回复时序顺序，构成针对所述待回复信息的目标回复信息。

又一方面，本申请还提出了一种回复信息获取装置，所述装置包括：

待回复信息获得模块，用于获得待回复信息；

回复单词得到模块，用于利用语言模型，得到针对所述待回复信息的第一回复单词和第二回复单词，其中，所述第二回复单词是在调整所述语言模型的隐层参数后，重新得到的与所述第一回复单词的回复时序相同的单词；

目标回复单词确定模块，用于依据所述第一回复单词与所述第二回复单词之间的情感极性差值，确定所述第一回复单词或所述第二回复单词为相应回复时序的目标回复单词；

目标回复信息构成模块，用于由确定的多个所述目标回复单词，构成针对所述待回复信息的目标回复信息；

目标回复信息输出模块，用于输出所述目标回复信息。

在一些实施例中，所述目标回复单词确定模块，包括：

情感极性值获取单元，用于获取所述第一回复单词的第一情感极性值，以及所述第二回复单词的第二情感极性值；

情感极性值比较单元，用于对所述第一情感极性值与所述第二情感极性值进行差值运算，得到第一情感极性差值；

情感转变检测单元，用于检测所述第一情感极性差值是否大于情感转变阈值；

第一确定单元，用于在情感转变检测单元的检测结果为所述第一情感极性差值大于情感转变阈值的情况下，确定所述第二回复单词为相应回复时序的目标回复单词；

第二确定单元，用于在情感转变检测单元的检测结果为所述第一情感极性差值小于或等于情感转变阈值的情况下，确定所述第一回复单词为相应回复时序的目标回复单词。

又一方面，本申请还提出了一种计算机设备，所述计算机设备包括：

通信接口；

存储器，用于存储实现如上述的回复信息获取方法的程序；

处理器，用于加载并执行所述存储器存储的程序，实现如上述的回复信息获取方法的各个步骤。

又一方面，本申请还提出了一种可读存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述回复信息获取方法的各步骤。

由此可见，本申请提供了一种回复信息获取方法、装置及计算机设备，在对话系统场景下，计算机设备获得待回复信息后，将利用语言模型，得到针对待回复信息的第一回复单词，并在调整该语言模型的隐层参数后，重新得到与该第一回复单词的回复时序相同的第二回复单词，之后，将依据这两个回复单词之间的情感极性差值，从中确定一回复单词为相应回复时序的目标回复单词，不需要每一回复单词都进行情感控制，解决了语言模型隐层及情感分类器不稳定，而导致所生成的回复单词构成的回复信息的流利度和准确性较低的技术问题，即保证了由确定的多个目标回复单词，构成并输出的针对待回复信息的目标回复信息，保持积极情感准确的同时，具有良好的流利度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请提出的回复信息获取方法的一可选示例的流程示意图；

图2示出了本申请提出的回复信息获取方法的又一可选示例的流程示意图；

图3示出了本申请提出的回复信息获取方法中，生成并确定任一目标回复单词示例的流程示意图；

图4示出了本申请提出的回复信息获取方法的又一可选示例的流程示意图；

图5示出了本申请提出的回复信息获取装置的一可选示例的结构示意图；

图6示出了本申请提出的回复信息获取装置的又一可选示例的结构示意图；

图7示出了本申请提出的回复信息获取装置的又一可选示例的结构示意图；

图8示出了适用于本申请提出的回复信息获取方法和装置的计算机设备的一可选示例的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

应当理解，本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换该词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

针对背景技术部分提出的技术问题，本申请经过研究得知，在如智能客服等对话系统场景中，利用PPLM(Plug and Play Language Model，即插即用语言模型)，对待回复信息(如用户提出的问题内容)进行分析，能够得到积极情感的回复信息，但因其每时每刻都在改变隐层，干预语言模型结构，使得该语言模型中的隐层不稳定，导致回复信息中的每一个单词生成过程中，都受到相应时刻得到的改变后的隐层影响而发生变化，进而会导致整个回复信息的流利度下降，降低用户对话体验，甚至会导致用户中断对话。而且，因PPLM中情感分类器不稳定，将会降低情感控制准确性，从而导致所得回复信息不够准确。

示例性的，若用户提出的待回复信息为“My file has been restored in theway you tellme.Thanks a lot.”，利用PPLM模型所得到的回复信息为“We have receivedyour responseto your response.We want youto know that,while we are happy foryou.”，显然，该回复信息的语句并不流畅，准确性也比较低。

为了提升积极情感回复的流利度和准确性，对于利用预训练语言模型对待回复信息进行处理，所生成的回复信息流利但情感不受控制，而利用PPLM得到回复信息的方式，因在每一时刻都进行情感控制，牺牲了流利度。经过研究，本申请希望能够对这两种回复信息获取方法进行权衡，在生成回复信息的每个单词时，只在需要情感控制的时刻进行干预，而不是每一时刻都进行情感控制。

仍以上文举例进行说明，本申请希望得到的回复信息为“Wehave received yourresponseandwe are so happy to hear that.It’s our pleasure.”在得到该回复信息过程中，具有下划线部分的单词是需要情感控制改变的时刻，不具有下划线的各单词是不需要情感控制改变的时刻，可以保留预训练模型所输出的回复单词，只需要将控制下划线部分单词改变的时刻，即需要或适合发生积极情感变化的时刻，选择由PPLM改变隐层而生成的回复单词，替换预训练语言模型生成的相应回复单词，从而使得最终得到的目标回复信息，在保持积极情感准确的同时，依然具有很好的流利度。具体的实现过程可以参照下文实施例相应部分的描述。

结合上文对本申请提出的回复信息获取方法的技术构思的描述，参照图1，示出了本申请提出的回复信息获取方法的一可选示例的流程示意图，该方法可以适用于计算机设备，该计算机设备可以是服务器或具有一定数据处理能力的电子设备等，本申请对该计算机设备的产品类型不做限制，可视情况而定。如图1所示，该方法可以包括：

步骤S11，获得待回复信息；

在如智能客服等对话系统场景下，用户可以采用任意方式提问问题，以使计算机设备得到相应的待回复信息，即问题内容，如在问答界面的输入框输入待回复信息，点击“发送”按钮，将该待回复信息发送至对话系统的计算机设备，以执行本申请提出的回复信息获取方法，来自动得到流利且准确的目标回复信息，解答用户的问题。

可见，计算机设备可以直接获取用户输入的待回复信息，或者接收电子设备检测并发送的用户输入的待回复信息，当然，也可以从其他应用平台接收该其他应用平台的服务器发送的待回复信息等，本申请对待回复信息的具体获得方式及内容不做限制，可视情况而定。

步骤S12，利用语言模型，得到针对待回复信息的第一回复单词和第二回复单词；

其中，语言模型(Language Model)可以说是一串词序的概率分布，在本申请实施例的对话系统场景应用中，为了能够针对用户提出的待回复信息，将利用预先训练得到的语言模型，来自动生成合适的回复信息。因此，该语言模型可以利用人工智能技术包含的机器学习算法/深度学习算法，对样本数据进行训练得到的，也就是说，本申请的语言模型可以包括预训练语言模型，但对该语言模型的具体训练过程本申请不做详述。

而且，结合上文对本申请技术构思的相关描述，为了实现情感控制，本申请的语言模型还可以包括上述PPLM，关于该PPLM的获取方法及其工作原理本申请不做详述，且本申请对上述语言模型的具体模型结构不做限制。

基于上述分析，将获得的待回复信息输入语言模型后，该语言模型通常会一个回复单词一个回复单词的生成，而在生成每一个回复单词时，结合上文对本申请技术构思的描述，可以在调整语言模型的隐层参数之前，得到一个回复单词记为第一回复单词，并在调整语言模型的隐层参数之后，也会得到一个具有积极情感的回复单词记为第二回复单词，也就是说，第二回复单词可以是在调整语言模型的隐层参数后，重新得到的与第一回复单词的回复时序相同的单词，本申请对该第一回复单词和第二回复单词的具体生成过程不做详述。

可见，上述第一回复单词和第二回复单词，在针对待回复信息所要生成的目标回复信息中对应同一单词位置，计算机设备最终需要从第一回复单词和第二回复单词中，选择一个回复单词作为该单词位置的目标回复单词，也就是说，上述得到的第一回复单词和第二回复单词不会同时保留。

需要说明，在利用同一结构的语言模型生成各回复单词过程中，由于各回复单词是顺次生成的，不同回复单词的生成时刻或序号等标识信息不同，本申请可以将该标识信息记为回复时序，用来表明相应回复单词在整个目标回复信息中的单词生成或排列顺序。

步骤S13，依据第一回复单词与第二回复单词之间的情感极性差值，确定第一回复单词或第二回复单词为相应回复时序的目标回复单词；

继上文描述，按照上述方式得到同一回复时序对应的第一回复单词和第二回复单词后，若这两个回复单词内容相同，可以直接将第一回复单词或第二回复单词确定为相应回复时序对应的目标回复单词。但通常情况下，该第一回复单词和第二回复单词的内容不相同，本申请需要从中选择更合适的一个回复单词作为该回复时序对应的目标回复单词。

具体的，由于本申请希望最终得到的目标回复信息具有良好的流利度的同时，也能够准确控制积极情感，提高用户体验。所以，本申请在从第一回复单词和第二回复单词中选择时，可以依据各自的情感极性实现，但由于本申请不需要每一个时刻都进行情感控制，因此提出在确定单词情感变化明显的情况下，再选择调整隐层参数所得到的第二回复单词为目标回复单词；反之，在单词情感变化不太明显的情况下，仍可以将调整隐层参数前的语言模型得到的第一回复单词为目标回复单词，以改善每一时刻进行情感控制对流利度的牺牲程度，关于目标回复单词的具体确定过程本申请不做详述。

步骤S14，由确定的多个目标回复单词，构成针对待回复信息的目标回复信息；

步骤S15，输出该目标回复信息。

在本申请实际应用中，利用语言模型对输入的待回复信息进行分析处理，生成针对该待回复信息的目标回复信息过程中，除了会生成各回复单词外，还可以顺序生成标点符号，以使所得目标回复信息这一语句的断句清楚，表达语义清楚且流畅。

因此，按照上述方式获得目标回复信息过程中，计算机设备可以通过检测语言模型输出的信息中，是否存在回复终止信息，如句号、叹号等表达语句终止的标点符号，或特定的终止符等，本申请对该回复终止信息的内容不做限制。如果检测到回复终止信息，说明当前已得到的多个目标回复单词已完整，必须要继续进行分析处理，计算机设备可以按照当前已确定的多个目标回复单词各自的回复时序顺序，构成针对待回复信息的目标回复信息，即按照生成各目标回复单词时的回复时序(如上述生成时刻或序号等信息)大小，对确定的多个目标回复单词排序，按照排序后的多个目标回复单词，构成目标回复信息。

在本申请提出的又一些实施例中，本申请也可以预先确定一条回复信息所包含的单词个数，记为预设数量，这样，按照上述方式生成各目标回复单词过程中，可以统计所确定的目标回复单词的个数，检测到确定的目标回复单词的个数达到该预设数量，将不再继续生成回复单词，语言模型将停止对待回复信息的分析处理，此时，可以按照当前所确定的多个目标回复单词的回复时序顺序，构成针对待回复信息的目标回复信息，但并不局限于本申请上文描述的对步骤S14的两种细化实现方式，可视情况而定。

其中，对于上述目标回复信息可以包括上述所确定的多个目标回复单词，以及利用语言模型所得到的各标点符号，本申请对如何利用语言模型生成标点符号的实现过程不做详述。

本申请实施例中，按照上述方式得到针对待回复信息的目标回复信息后，计算机设备可以按照预设的回复信息输出方式，输出该目标回复信息。例如，在计算机设备为电子设备的场景下，可以直接显示所得目标回复信息这一文本内容，或采用语音播报方式输出该目标回复信息等；在计算机设备为服务器的场景下，计算机设备可以将该目标回复信息反馈至发送待回复信息的用户终端，由该用户终端在问答界面，以文本或语音等方式，展示该目标回复信息等，本申请对计算机设备输出目标回复信息的具体实现方法不做限制，可以依据计算机设备的产品类型以及场景需求等确定，本申请不做一一详述。

综上，在本申请实施例中，在对话系统场景下，计算机设备获得待回复信息后，将利用语言模型，得到针对待回复信息的第一回复单词，并在调整该语言模型的隐层参数后，重新得到与该第一回复单词的回复时序相同的第二回复单词，之后，将依据这两个回复单词之间的情感极性差值，从中确定一回复单词为相应回复时序的目标回复单词，不需要每一回复单词都进行情感控制，解决了语言模型隐层及情感分类器不稳定，而导致所生成的回复单词构成的回复信息的流利度和准确性较低的技术问题，即保证了由确定的多个目标回复单词，构成并输出的针对待回复信息的目标回复信息，保持积极情感准确的同时，具有良好的流利度。

参照图2，示出了本申请提出的回复信息获取方法的又一可选示例的流程示意图，本实施例可以是对上述实施例提出的回复信息获取方法的一可选细化实现方式，但并不局限于本实施例描述的这种细化实现方式，如图2所示，该方法可以包括：

步骤S21，获得待回复信息；

步骤S22，利用第一语言模型，得到针对待回复信息的第一回复单词；

步骤S23，利用第二语言模型，得到针对待回复信息的第二回复单词；

需要说明，该第二语言模型可以是通过调整第一语言模型的隐层参数得到的语言模型，结合上述实施例对步骤S12相应部分的描述，本实施例得到的第二回复单词与第一回复单词的回复时序相同。

在本申请提出的一些实施例中，上述第一语言模型可以是预训练语言模型(Pre-trained Language Model)，具体可以包括GPT(Generative Pre-Training)模型、BERT(Bidirectional Encoder Representation from Transformers，双向Transformer的编码器)模型等，其通常需要预先利用积极情感的样本对话信息进行预训练得到，本申请对预训练语言模型的具体模型结构，及其进行模型训练所依据的人工智能包含的机器学习算法、自然语言处理技术等不做限制，这可以依据具体应用场景的需求确定，包括但并不局限于本申请列举的这几种第一语言模型，且本申请对各预训练语言模型的具体训练实现过程不作详述，可以理解，依据实际应用需求，可以采用一种或多种算法组合实现模型训练，本申请在此不做一一详述。

可见，本申请实施例将待回复信息输入第一语言模型，经过该第一语言模型对待回复信息包含的各单词的分析处理，可以直接输出一个回复单词，记为第一回复单词，在生成该第一回复单词过程中，不需要调整该第一语言模型的网络参数，保证是在第一语言模型的网络结构稳定的情况下生成的回复单词，从而保证了由该第一语言模型顺次输出的各第一回复单词之间的流利度。本申请对如何利用第一语言模型得到第一回复单词的实现过程不做详述，可以依据该第一语言模型的具体网络结构确定。

示例性的，若第一语言模型为GPT模型，其通常是先采用无监督训练方式，对样本语料进行训练，得到一个语言模型，再对该语言模型进行微改，如新增线性层的参数、起始符、结束符、分割符三种特殊符号的向量参数等，将其迁移到各种有监督的自然语言处理NLP任务，并对模型参数进行fine-tuning。如对于问答和常识推理任务，可以将背景信息和问题进行拼接，再将拼接后的文本依次与每个答案进行拼接，最后依次传入Transformer模型，最后接一层线性层得到每个输入的预测值。本申请对构建适用于对话系统场景，自动生成回复信息的GPT模型的具体实现过程不做详述。

可选的，本申请为了保证第一语言模型所生成的各回复单词之间的流利度，即输出文本的上下文连贯性，以及情感表达准确性，具体可以构建GPT-2模型作为第一语言模型，即使用transformer解码器模块实现语言模型的构建，具体构建过程本申请不做详述。

结合上文相应部分的描述，第二语言模型可以是指PPLM，即对上述第一语言模型的隐层参数进行调整所得到的语言模型，更具体地说，以第一语言模型为GPT模型为例，来说明第二语言模型的获得过程，按照上述无监督方式预训练的语言模型，不再需要fine-tuning处理，而是利用一个额外的情感辨别器提供损失，据此在该语言模型生成回复单词过程中，实时通过反向传播改变该语言模型的隐层参数，从而干预该语言模型所生成的回复单词，得到一个具有积极情感的回复单词，记为第二回复单词。关于PPLM这种语言模型的具体构建过程及其工作原理，本申请在此不做详述。

可见，将待回复信息包含的各单词作为模型输入，输入至第一语言模型后，能够直接输出一个回复单词即第一回复单词，通过对该第一语言模型中的隐层参数进行调整后，重新对待回复信息包含的各单词进行计算采样处理，仍会得到一个回复单词即第二回复单词，其通常是具有积极情感的回复单词。

需要说明，对于上述第一回复单词和第二回复单词的得到过程，可以参照本实施例描述的步骤顺次得到，也可以将待回复信息包含的各单词，分别输入第一语言模型和第二语言模型进行同时处理，分别得到相应的第一回复单词和第二回复单词，即这两个回复单词的得到过程可以同时执行，不局限于本实施例描述的步骤执行顺序，可视情况而定。

步骤S24，获取第一回复单词的第一情感极性值，以及第二回复单词的第二情感极性值；

结合上文对本申请技术构思的相关描述，本申请希望在需要/适合发生积极情感变化的时刻，选择情感控制改变第一语言模型生成的第一回复单词，而在大多时刻是不需要或不适合发生积极情感变化的，直接保留该第一语言模型原本生成的第一回复单词，从而达到控制积极情感的同时，极大提高回复信息的流利度的目的。

基于此，在一种可能的实现方式中，本申请可以预先定义不同单词的情感极性值，如0～1之间的数值，该情感极性越大，对应单词的正面情感程度越高，因此，若某单词的情感极性值为1，表示该单词是非常积极正面情感的单词，如happy(高兴)、love(爱)等；若某单词的情感极性值为0，表示该单词是非常消极负面情感的单词，如shit(倒霉)、painfully(痛苦的)等；若某单词的情感极性值为0.5，表示该单词是中性情感的单词，如nightmare(噩梦)等，本申请对不同单词预先定义的情感极性值的具体获取过程不做详述。

具体的，本申请可以预先构建情感词典(即情感分析语料库)，该情感词典可以包含有不同单词各自对应的情感极性值，由于情感极性值越大，对应单词的正面情感程度越高，为了方便后续查询，情感词典可以按照情感极性值的大小顺序，对其包含的各单词进行排序展示，但并不局限于这种展示方式，可视情况而定。

对于上述各单词的情感极性值，可以由人工定义，如社交媒体定义等；为了提高定义的各单词的情感极性值得精准度，本申请也可以统计多个用户对同一个单词所定义的情感极性值得平均值，将该平均值作为该单词的情感极性值写入情感词典。

然而，在中文中，同一单词在不同语境下可能代表完全相反的情感意义，所以，为了进一步提高情感词典中各单词的情感极性值得可靠性及准确性，本申请也可以结合机器学习等算法，实现单词的情感极性分析，优化所配置的情感词典，如利用正负样本语料，构建情感分类模型，以利用该情感分类模型，为待分析的单词进行情感打分，由得到的该单词的情感分数，确定该单词的情感极性值，具体实现过程本申请不做详述，且并不局限于本申请列举的情感分析实现方法。

由此可见，按照上述方法但并不局限于上文描述的方法，构建情感词典之后，可以直接查询该情感词典，得到第一回复单词的第一情感极性值，以及第二回复单词的第二情感极性值。在又一些实施例中，也可以采集基于机器学习的情感极性分析的方式，分别对第一回复单词和第二回复单词进行情感分析，如将第一回复单词和第二回复单词依次输入预训练得到的情感分类器，得到相应的第一情感极性值和第二情感极性值等，本申请对上述步骤S24的具体实现方法不做限制。

步骤S25，对第二情感极性值与第一情感极性值进行差值运算，得到第一情感极性差值；

步骤S26，检测第一情感极性差值是否大于情感转变阈值，如果是，进入步骤S27；如果否，执行步骤S28；

步骤S27，确定第二回复单词为相应回复时序的目标回复单词；

步骤S28，确定第一回复单词为相应回复时序的目标回复单词；

本申请实施例中，情感转换阈值可以是确定是否需要/适合发生积极情感变化时刻的临界值，若所得情感极性差值大于该情感转换阈值，说明需要/适合发生积极情感变化，此时选择具有积极情感的第二回复单词替换第一回复单词，确定为该时刻对应的目标回复单词；反之，若所得情感极性差值小于或等于该情感转换阈值，说明此时刻不需要/适合发生积极情感变化，按照PPLM的情感控制方式，可能会导致所生成的回复单词与相邻回复单词之间语义不连贯，所以，这种情况可以直接保留第一语言模型生成的第一回复单词为目标回复单词。

具体的，由V(w)表示回复单词w的情感极性值，上述第一回复单词记为P，第二恢复单词记为Q，按照上述分析方式，P和Q之间的情感极性差值△V＝V(Q)-V(P)，由于单词的情感极性值越大，说明该单词的积极情感程度越高，由调整隐层参数，得到的具有积极情感的第二回复单词的第二情感极性值，减去不调整隐层参数原本能够得到第一回复单词的第一情感极性值，所得到的第一情感极性差值越大，说明第二回复单词的积极情感程度越高，第一回复单词积极情感程度越低，确定本时刻所生成的回复单词需要情感转向，所以，本申请选择了具有积极情感的第二回复单词为目标回复单词。

示例性的，参照图3所示的流程示意图，以第一语言模型为GPT-2模型，第二语言模型为PPLM为例进行说明，依据这两种语言模型各自的工作原理，对输入的待回复信息包含的各单词进行处理(图3并未示出该处理详细过程)后，第一语言模型采样得到第一回复单词“sorry”，如本时刻得到的无扰动分布中最大概率对应的单词；通过情感分类器提供的损失值，修改隐层参数△H后，利用修改后的△H反向传播后重新计算后，采样得到第二回复单词“happy”，如本时刻得到的扰动分布中最大概率对应的单词；之后，可以按照上述方式得到“sorry”的第一情感极性值为V(sorry)＝0.406；“happy”的第二情感极性值为V(happy)＝1，两者之间的第一情感极性差值△V＝V(happy)-V(sorry)＝1-0.406＝0.594，若此时△V的数值大于预先设定的情感转变阈值，可以选择“happy”为该时刻的目标回复单词。

步骤S29，检测到回复终止信息或所确定的多个目标回复单词的个数达到预设数量，由顺次确定的多个目标回复单词，构成针对待回复信息的目标回复信息；

步骤S210，输出该目标回复信息。

关于步骤S29和步骤S210的实现过程，可以参照上述实施例相应部分的描述，本实施例不做赘述。可以理解，由于确定每个目标回复单词的实现过程类似，本申请并未一一详述，每次确定一个目标回复单词后，若未检测到回复终止信息且所确定的多个目标回复单词的个数未达到预设数量，可以返回上述步骤S22，按照上述方式继续确定下一个目标回复单词，以此推类，直至检测到回复终止信息或所确定的多个目标回复单词的个数达到预设数量。

示例性的，在上文列举的“We have received your response and we are sohappy to hear that.It’s our pleasure.”这一目标回复信息示例中，对于不具有下划线的各目标回复单词确定过程中，均是选择相应回复时序对应的第一回复单词为目标回复单词；而对于“pleasure”这一目标回复单词的确定过程与上述“happy”这一目标回复单词的确定过程类似，本申请不再一一详述。可见，本申请这种回复信息获取方式，相对于直接利用PPLM生成的回复信息，即“We have received your response to your response.Wewant you to know that,while we are happy for you.”，在保证情感控制准确性的同时，极大提高了目标回复信息的流利度。

综上，在本申请实施例中，计算机设备获得待回复信息后，将利用不需要再调整隐层参数的第一语言模型，对该待回复信息包含的各单词进行分析处理，输出相应时刻的一个第一回复单词，利用具有调整后的隐层参数的第二语言模型，重新对对该待回复信息包含的各单词进行分析处理，输出相应时刻的具有积极情感的一个第二回复单词，获取这两个回复单词各自的情感极性值，之后检测第二回复单词的第二情感极性值，与第一回复单词的第一情感极性值之间的情感极性差值，是否大于情感转变阈值，若大于，确定具有积极情感的第二回复单词为该时刻对应的目标回复单词；反之，确定预训练的语言模型不调整隐层参数原本生成的第一回复单词，为该时刻对应的目标回复单词，依次类推，直至检测到回复终止信息(如终止符等)，或所确定的目标回复单词的个数达到预设数量，由顺次确定的多个目标回复单词，构成目标回复信息后输出，实在与提出待回复信息的用户之间的自动对话交互，保证所反馈的目标回复信息具有较高的流利度和情感准确性。

在本申请提出的一些实施例中，若上文实施例描述的第一语言模型采用GPT-2模型，在该对话系统场景下，在获得多个目标回复单词的过程中，可以使用自回归机制，即在每个新的目标回复单词生成并确定后，在生成下一个回复单词之前，会将本次确定的目标回复单词添加到之前生成的单词序列后面，使其作为模型输入的一部分进行分析处理，来生成该下一个回复单词，即在确定本次的目标回复单词后，如图3所示，可以将已生成并确定的所有目标回复单词作为模型输入，继续按照上述方式生成下一时刻的第一回复单词和第二回复单词。

仍以上文列举的“My file has been restored in the way you tellme.Thanks a lot”这一待回复信息为例进行分析处理，按照本申请提出的回复信息获取方法，可以得到的目标回复信息为“We have received your response and we are sohappy to hear that.It’s our pleasure”，结合图3所示的，生成并确定“happy”这一目标回复单词的过程中，会将在此之前生成的“We have received your response and we areso”这9个目标回复单词作为模型输入，输入至上述第一语言模型和第二语言模型，以使第一语言模型据此分析得到“sorry”这个第一回复单词，第二语言模型据此分析得到“happy”这个第二回复单词，关于语言模型对各输入单词的具体分析处理过程不做详述。

基于此，参照图4，为本申请提出的回复信息获取方法的又一可选示例的流程示意图，本实施例可以是对上述实施例提出的回复信息获取方法的又一可选细化实现方式，如图4所示，该方法可以包括：

步骤S31，获得待回复信息；

步骤S32，由待回复信息以及已确定的目标回复单词，确定本次回复时序对应的模型输入信息；

步骤S33，将该模型输入信息输入第一语言模型进行处理，得到针对待回复信息且与本次回复时序对应的第一回复单词；

由于本申请中的语言模型每一次输出一个回复单词，为了提高语言模型输出的准确性及处理效率，在每确定一个目标回复单词后，如上述分析，利用自回归机制，可以将当前所确定的各目标回复单词反馈至模型输入端，结合待回复信息包含的各单词，构成下一时刻模型分析处理的模型输入信息。因此，在每次使用语言模型生成回复单词过程中，所确定的模型输入信息，不仅包含待回复信息中的各单词，还会包括在此之前已经确定的针对该待回复信息的各目标回复单词。

需要说明，本申请对上述模型输入信息的表示方式不做限制，可以是由如上文待回复信息包含的各单词和已确定的目标回复单词构成的模型输入序列，或是由对这些单词进行处理后所得到的相应词向量(Word embedding)，构成该模型输入序列等，本申请对该模型输入序列的内容不做限制，且模型输入信息并不局限于这种序列输入方式，可视情况而定。可以理解，按照上述方式生成目标回复信息中的第一个回复单词时，由于之前并未确定的目标回复单词，此时可以直接由待回复信息包含的各单词，构成模型输入信息，再输入各语言模型进行处理，后续处理过程可以依据模型结构类型(即获得相应语言模型时所使用的机器学习算法类别)确定，本申请不做一一详述。

步骤S34，利用预训练的情感分类器，得到第一回复单词的第一损失值；

情感分类是指根据文本所表达的含义和情感信息，将文本划分成褒扬或贬义、积极或消极的两种或更多种类型，是对文本作者倾向性和观点、态度的划分，也可以称为倾向性分析。在本申请中，可以根据机器学习方法，对样本单词进行训练得到情感分类器，具体可以采用无监督学习、半监督学习和/或有监督学习等方式，实现该情感分类器的学习训练，具体训练实现过程不做详述。

当然，对于本申请涉及到的情感分类器的获取方式，并不局限于上文描述的机器学习分类方式，也可以按照研究问题分类，如具体应用场景所在领域相关性的研究，来确定适用于该领域的情感分类器等，本申请对情感分类器的具体获取过程不做一一详述。

步骤S35，依据第一损失值，调整第一语言模型的隐层参数，得到第二语言模型；

结合上文对PPLM的相关描述，其不需要Fine-Tuning，利用额外增加的情感分类器提供的损失值，调整预训练的语言模型的隐层参数，具体实现过程本申请不做详述。基于此，本申请实施例的第二语言模型可以是PPLM，第一语言模型可以是预训练语言模型，但并不局限于此。

步骤S36，依据第二语言模型所具有的调整后的隐层参数，对模型输入信息进行处理，得到针对待回复信息的第二回复单词；

关于调整预训练语言模型的隐层参数后，通过反向传播后重新计算采样得到第二回复单词的实现过程，与上述预训练模型在反向传播前计算得到第一回复单词的实现过程类似，具体可以依据该预训练模型的网络结构确定，本申请实施例在此不做详述。

步骤S37，查询情感词典，得到第一回复单词的第一情感极性值，以及第二回复单词的第二情感极性值；

步骤S38，依据该第二情感极性值与第一情感极性值的情感极性差值，确定第一回复单词或第二回复单词为相应回复时序的目标回复单词；

步骤S39，由确定的多个目标回复单词，构成针对待回复信息的目标回复信息；

步骤S310，输出目标回复信息。

关于如何利用情感词典，确定本回复时序的目标回复单词的实现过程，以及步骤S39和步骤S310的具体实现过程，可以参照上述实施例相应部分的描述，本实施例不做赘述。

综上，在本申请实施例中，计算机设备获得待回复信息后，利用语言模型生成相应的回复单词过程中，可以将先生成并确定的各目标回复单词写入模型输入信息，用以生成下一个回复单词，提高了所生成并确定的目标回复单词的准确性，而且，如上述分析，本申请是在需要积极情感变化的时刻，才选择情感控制，即选择依据调整后的隐层参数重新计算得到的第二回复单词，替换调整前生成的第一回复单词作为目标回复单词，构成针对待回复信息的目标回复信息，保证所输出的目标回复信息在保持情感准确性的同时，具有较高的流利度。

参照图5，为本申请提出的回复信息获取装置的一可选示例的结构示意图，该装置可以适用于上述计算机设备，如图5所示，该装置可以包括：

待回复信息获得模块11，用于获得待回复信息；

回复单词得到模块12，用于利用语言模型，得到针对所述待回复信息的第一回复单词和第二回复单词；

其中，所述第二回复单词是在调整所述语言模型的隐层参数后，重新得到的与所述第一回复单词的回复时序相同的单词；

在一些实施例中，上述回复单词得到模块12可以包括：

第一语言模型处理单元，用于利用第一语言模型，得到针对所述待回复信息的第一回复单词；

第二语言模型处理单元，用于利用第二语言模型，得到针对所述待回复信息的第二回复单词，其中，所述第二语言模型是通过调整所述第一语言模型的隐层参数得到的，所述第二回复单词与所述第一回复单词的回复时序相同。

进一步地，在一种可能的实现方式中，如图6所示，上述第一语言模型处理单元可以包括：

模型输入信息确定单元121，用于由所述待回复信息以及已确定的目标回复单词，确定本次回复时序对应的模型输入信息；

第一回复单词得到单元122，用于将所述模型输入信息输入所述第一语言模型进行处理，得到针对所述待回复信息且与本次回复时序对应的第一回复单词；

相应地，如图6所示，上述第二语言模型处理单元可以包括：

第一损失值得到单元123，用于利用预训练的情感分类器，得到所述第一回复单词的第一损失值；

隐层参数调整单元124，用于依据所述第一损失值，调整所述第一语言模型的隐层参数，得到第二语言模型；

第二回复单词得到单元125，用于依据所述第二语言模型所具有的调整后的隐层参数，对所述模型输入信息进行处理，得到针对所述待回复信息的第二回复单词。

目标回复单词确定模块13，用于依据所述第一回复单词与所述第二回复单词之间的情感极性差值，确定所述第一回复单词或所述第二回复单词为相应回复时序的目标回复单词；

目标回复信息构成模块14，用于由确定的多个所述目标回复单词，构成针对所述待回复信息的目标回复信息；

可选的，目标回复信息构成模块14可以包括：

检测单元，用于检测是否存在回复终止信息，以及所确定的所述目标回复单词的个数是否达到预设数量；若未检测到回复终止信息，且所确定的所述目标回复单词的个数未达到预设数量，触发回复单词得到模块12继续生成下一回复时序对应的回复单词；

目标回复信息构成单元，用于在检测单元的检测结果为检测到回复终止信息，或所确定的所述目标回复单词的个数达到预设数量的情况下，按照确定的多个所述目标回复单词各自的回复时序顺序，构成针对所述待回复信息的目标回复信息。

目标回复信息输出模块15，用于输出所述目标回复信息。

在本申请提出的一些实施例中，如图7所示，上述目标回复单词确定模块13可以包括：

情感极性值获取单元131，用于获取所述第一回复单词的第一情感极性值，以及所述第二回复单词的第二情感极性值；

情感极性值比较单元132，用于对所述第一情感极性值与所述第二情感极性值进行差值运算，得到第一情感极性差值；

情感转变检测单元133，用于检测所述第一情感极性差值是否大于情感转变阈值；

第一确定单元134，用于在情感转变检测单元的检测结果为所述第一情感极性差值大于情感转变阈值的情况下，确定所述第二回复单词为相应回复时序的目标回复单词；

第二确定单元135，用于在情感转变检测单元的检测结果为所述第一情感极性差值小于或等于情感转变阈值的情况下，确定所述第一回复单词为相应回复时序的目标回复单词。

基于上述实施例的描述，本申请提出的回复信息获取装置还可以包括：

情感词典构建模块，用于构建情感词典，所述情感词典包含有不同单词各自对应的情感极性值，且所述情感极性值越大，对应单词的正面情感程度越高；

相应地，上述情感极性值获取单元131具体可以包括：

情感词典查询单元，用于查询所述情感词典，得到所述第一回复单词的第一情感极性值，以及所述第二回复单词的第二情感极性值。

在本申请提出的又一些实施例中，上述情感极性值获取单元131也可以包括：

情感极性分析单元，用于基于机器学习分别对第一回复单词和第二回复单词进行情感极性分析，得到第一回复单词的第一情感极性值，以及第二回复单词的第二情感极性值，具体实现过程本申请不做详述。

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请实施例还提供了一种可读存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述实施例描述的回复信息获取方法的各步骤，具体实现过程可以参照上文相应实施例的描述，本实施例在此不做赘述。

参照图8，为适用于本申请实施例提出的回复信息获取方法和装置的计算机设备的一可选示例的硬件结构示意图，在实际应用中，该计算机设备可以是服务器或具有一定数据处理能力的电子设备。其中，该服务器可以是独立的物理服务器，也可以是多台物理服务器构成的服务集群，也可以是支持云计算的云服务器等，其可以通过有线或无线网络实现与电子设备的数据交互，具体数据通信过程可视情况而定。

对于上述电子设备，其可以包括但并不局限于智能手机、平板电脑、可穿戴设备、个人计算机(personal computer，PC)、上网本、个人数字助理(personal digitalassistant，PDA)、智能手表、增强现实技术(Augmented Reality，AR)设备、虚拟现实(Virtual Reality，VR)设备、车载设备、智能音箱、机器人、台式计算机等。在本申请实际应用中，用户可以通过使用的电子设备，登录并进入对话系统的对话界面，输入待回复信息，以按照本申请提出的回复信息获取方法，得到相应的目标回复信息并输出；或者将待回复信息发送至上述服务器，由该服务器执行本申请提出的回复信息获取方法，得到相应的目标回复信息，反馈至该电子设备输出等，可视情况而定，本申请对回复信息获取方法的具体应用场景不做限制。

如图8所示，无论是什么类型的计算机设备，其均可以包括：通信接口21、存储器22和处理器23，且通信接口21、存储器22和处理器23各自的数量可以为至少一个，根据实际通信需求，通信接口21、存储器22和处理器23均可以连接通信总线，实现相互之间的数据交互，具体可视情况而定，本申请在此不做详述。

通信接口21可以包括能够利用无线通信网络实现数据交互的各通信模块的接口，如WIFI模块、5G/6G(第五代移动通信网络/第六代移动通信网络)模块、GPRS模块等通信模块的数据传输接口等；还可以包括实现计算机设备内部组成部件之间的数据交互的通信接口，如USB接口、串/并口等，本申请对该通信模块21包含的具体内容不做限定。

存储器22可以用于存储实现上述任一方法实施例描述的回复信息获取方法的程序；处理器23可以加载并执行存储器22中存储的程序，以实现本申请上述任一方法实施例提出的回复信息获取方法的各个步骤，具体实现过程可以参照上文相应实施例相应部分的描述，不再赘述。

在本申请实施例中，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器23，可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路(application-specificintegrated circuit，ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等，本申请对存储器22和处理器23的具体器件类型及结构不做限制。

应该理解，图8所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定，在实际应用中，计算机设备可以包括比图8所示的更多或更少的部件，或者组合某些部件，可以依据该计算机设备的产品类型确定，如该计算机设备为上述电子设备，该计算机设备还可以包括如感应触摸显示面板上的触摸事件的触摸感应单元、键盘、鼠标、图像采集器(如摄像头)、拾音器等至少一个设备；如显示器、扬声器、振动机构、灯等至少一个输出设备等，本申请在此不做一一列举。

最后，需要说明，本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备而言，由于其与实施例公开的方法对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种回复信息获取方法，所述方法包括：

获得待回复信息；

输出所述目标回复信息。

2.根据权利要求1所述的方法，所述利用语言模型，得到针对所述待回复信息的第一回复单词和第二回复单词，包括：

3.根据权利要求1或2所述的方法，所述依据所述第一回复单词与所述第二回复单词之间的情感极性差值，确定所述第一回复单词或所述第二回复单词为相应回复时序的目标回复单词，包括：

检测所述第一情感极性差值是否大于情感转变阈值；

4.根据权利要求3所述的方法，所述方法还包括：

5.根据权利要求2所述的方法，所述利用第一语言模型，得到针对所述待回复信息的第一回复单词，包括：

6.根据权利要求5所述的方法，所述利用第二语言模型，得到针对所述待回复信息的第二回复单词，包括：

7.根据权利要求1所述的方法，所述由确定的多个所述目标回复单词，构成针对所述待回复信息的目标回复信息，包括：

8.一种回复信息获取装置，所述装置包括：

待回复信息获得模块，用于获得待回复信息；

目标回复信息输出模块，用于输出所述目标回复信息。

9.根据权利要求8所述的装置，所述目标回复单词确定模块，包括：

10.一种计算机设备，所述计算机设备包括：

通信接口；

存储器，用于存储实现如权利要求1～7任一项所述的回复信息获取方法的程序；

处理器，用于加载并执行所述存储器存储的程序，实现如权利要求1～7任一项所述的回复信息获取方法的各个步骤。