CN113111665B

CN113111665B - 一种个性化对话改写方法及装置

Info

Publication number: CN113111665B
Application number: CN202110414022.2A
Authority: CN
Inventors: 黄民烈
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-10-04
Anticipated expiration: 2041-04-16
Also published as: CN113111665A

Abstract

本发明提供一种个性化对话改写方法及装置，该方法包括：基于用户对话信息生成初始对话回复信息；通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词；将所述初始对话回复信息中的个性相关词进行遮盖处理，得到遮盖后的对话回复信息；将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型，得到改写后的对话回复信息。通过将对话遮盖处理后，在通过预设对话改写模型，得到改写后的对话回复信息，使对话模型既能展现特定背景、喜好与经历，又能用尽可能少的人工成本生成高质量的回复。

Description

一种个性化对话改写方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种个性化对话改写方法及装置。

背景技术

开放域对话系统在学术界和工业界收到广泛关注。随着互联网社交平台数据与日俱增，基于大规模人类对话数据的神经网络对话模型取得了目前最佳的效果。然而，仅基于对话数据的对话模型存在缺乏个性、个性不自洽的问题，即用户在闲聊过程中很难感受到机器是一个有特定背景、喜好与经历的个体。

为了解决这一问题，人们建立了基于个性的开放域对话数据集。这类数据集与基于社交平台的数据不同，数据不由网络用户自然对话生成，而是由数据标注者基于给定的个性信息构造与之匹配的对话。例如，基于个性信息“我最喜欢的宠物是狗”，数据标注者会构造回复“相较于猫而言，我更喜欢狗。你呢？”。

此类数据的构造存在一个问题：数据标注场景不自然，数据标注者过度依赖于个性信息，使得收集到的对话数据多样性较差，很少包含真实对话中的知识、情感、共情体验等特征。在此类数据集上训练得到的对话模型很难生成多样性高、综合运用多种对话技能、高质量的回复。

因此，如何更好的实现带有个性化的对话回复已经成为业界亟待解决的问题。

发明内容

本发明提供一种个性化对话改写方法及装置，用以解决现有技术中无法很好实现带有个性化的对话回复的问题。

本发明提供一种个性化对话改写方法，包括：

基于用户对话信息生成初始对话回复信息；

通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词；

将所述初始对话回复信息中的个性相关词进行遮盖处理，得到遮盖后的对话回复信息；

将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型，得到改写后的对话回复信息。

根据本发明提供的一种个性化对话改写方法，在通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词的步骤之前，所述方法还包括：

获取初始对话回复样本句和个性化样本信息；

根据所述个性化样本信息确定所述初始对话回复样本句中的个性化相关词；

将所述对话回复样本句中的个性化相关词进行随机遮盖，得到遮盖后的对话回复信息。

根据本发明提供的一种个性化对话改写方法，在得到遮盖后的对话回复信息的步骤之后，所述方法还包括：

将携带有个性相关词的对话回复样本句作为个性相关句；

对所述个性相关句进行随机删除，得到对话回复样本信息。

根据本发明提供的一种个性化对话改写方法，在将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型的步骤之前，所述方法还包括：

基于所述对话回复样本信息，采用自回归的方式，计算每个单词的损失，以进行无监督模型训练，得到预设对话改写模型。

根据本发明提供的一种个性化对话改写方法，在所述通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词的步骤之前，所述方法还包括：

将所述初始对话回复样本句中的个性化相关词作为正样本，将所述初始对话回复样本句中的非个性化相关词作为负样本；

根据所述正样本和所述负样本对个性相关词分类器进行训练，训练完成后，得到预设个性相关词分类器。

根据本发明提供的一种个性化对话改写方法，所述无监督模型的训练目标为：

其中c,r,p为对话历史、回复、个性信息，U是个性相关词随机遮掩和个性相关句随机删除步骤的抽象表示，u为A1、A2步骤执行后的不完整回复。

根据本发明提供的一种个性化对话改写方法，所述个性相关词分类器的训练目标为：

其中c,r,p为对话历史、回复、个性信息，m_i为个性相关词/个性无关词标签，f_i为标签在语料库中的频率。

本发明还提供一种个性化对话改写装置，包括：

生成模块，用于基于用户对话信息生成初始对话回复信息；

识别模块，用于通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词；

遮盖模块，用于将所述初始对话回复信息中的个性相关词进行遮盖处理，得到遮盖后的对话回复信息；

改写模块，用于将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型，得到改写后的对话回复信息。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述个性化对话改写方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述个性化对话改写方法的步骤。

本发明提供的一种个性化对话改写方法及装置。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的个性化对话改写方法的流程示意图；

图2为本申请中的对话改写方案示例图；

图3为本申请中的个性化对话改写示例图；

图4为本发明提供的个性化对话改写装置示意图；

图5为本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的个性化对话改写方法的流程示意图，如图1所示，包括：

步骤S1，基于用户对话信息生成初始对话回复信息；

具体的，本申请中所描述的用户对话信息具体用户与机器对话的信息，具体也可以是一段用户对话。

本申请中的初始对话回复信息可以是指任意其它对话模型根据用户对话信息生成的回复，而此时初始对话回复信息。

且本申请中的初始对话回复信息由多个单词构成。

步骤S2，通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词；

本申请中所描述的个性相关词是指出现在个性相关句中，且不属于停用词或标点符号的单词。

本申请中的个性相关句是用于设定特定背景、喜好与经历的语句，其可以有效生成更具个性化的回复。

本申请中的预设个性相关词分类器用于识别初始对话回复信息哪些单词是属于个性相关词。

步骤S3，将所述初始对话回复信息中的个性相关词进行遮盖处理，得到遮盖后的对话回复信息；

具体地，本申请中对于回复中的每一个单词，如果它在个性信息中出现过，也就是个性相关词，那就将其替换成一个特殊的遮盖字符 [MASK]。在遮盖的过程中，如果一个词是停用词或标点符号，则不遮盖之。

步骤S4，将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型，得到改写后的对话回复信息。

具体地，本申请中的预设对话改写模型可以对将对话回复信息改写为更具有个性化的对话回复信息。

本申请通过将对话遮盖处理后，在通过预设对话改写模型，得到改写后的对话回复信息，使对话模型既能展现特定背景、喜好与经历，又能用尽可能少的人工成本生成高质量的回复。

基于上述任一实施例，在通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词的步骤之前，所述方法还包括：

获取初始对话回复样本句和个性化样本信息；

具体的，本申请中所描述的个性化样本信息具体是指预先设定机器个性化背景信息的语句。

本申请中在每个个性相关句中，进一步随机遮盖15％或者25％的词，将其替换为特殊的遮盖字符[MASK]。相邻的多个[MASK]将合并成一个[MASK]，得到遮盖后的对话回复信息，在遮盖后，将有词被遮盖的句子作为“个性相关句”。

本申请通过对个性相关句进行随机部分遮盖，可以得到多个遮盖后的对话回复信息，有利于后续对于预设对话改写模型的训练。

基于上述任一实施例，在得到遮盖后的对话回复信息的步骤之后，所述方法还包括：

将所述遮盖后的对话回复信息中，携带有个性相关词的对话回复样本句作为个性相关句；

对所述个性相关句进行随机删除，得到对话回复样本信息。

具体的，对于每个个性相关句，本申请随机删除它。假设l个，个性相关句，随机保留其中0≤n≤l-1个，满足P(n)∝exp(-n)。

本申请中随机对个性相关句进行随机删除可以得到更加丰富的对话回复样本信息，有效保证训练的可靠性。

基于上述任一实施例，在将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型的步骤之前，所述方法还包括：

具体地，本申请总的对话回复样本信息此时已经是一个不完整的回复，本方法训练一个参数化的模型将其重构。此模型是本方法的核心模型，将在改写步骤中使用。具体而言，此模型的训练目标为：

其中c,r,p为对话历史、回复、个性信息，U是个性相关词随机遮掩和个性相关句随机删除步骤的抽象表示，u为个性相关词随机遮掩和个性相关句随机删除步骤执行后的不完整回复。

重构时，模型的输入为对话历史c、不完整的回复u和个性信息 p。本方法适用GPT-2作为此模型的底层结构，计算损失函数时，采用自回归的方式依次计算每个单词的损失。

本申请通过预设对话改写模型的训练，可以有效对于不完整的句子进行个性化改写。

基于上述任一实施例，在所述通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词的步骤之前，所述方法还包括：

具体的，本申请训练一个单词遮盖的分类器，对于回复中的每个词，如果它出现在了个性信息中，且不是停用词或者标点符号，则将其标记为个性相关词；否则，标记为个性无关词。分类器的训练目标为：

其中c,r,p为对话历史、回复、个性信息，m_i为个性相关词/个性无关词标签，f_i为标签在语料库中的频率。训练好的个性相关词分类器训练将在识别个性相关词的步骤中使用。

本申请中的个性相关词分类器可以有效识别对话中的个性相关词，从而有效保证对于个性相关词的有效遮掩。

图2为本申请中的对话改写方案示例图，如图2所示，在将所述初始对话回复信息中的个性相关词进行遮盖处理，得到遮盖后的对话回复信息的步骤之后，回复中jimi、hendrix、music、especially均被遮盖，在将遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型，得到改写后的对话回复信息，图2的下半部分为预设对话改写模型的示意图和训练目标。

图3为本申请中的个性化对话改写示例图，如图3所示，对话历史(dialoguehistory)为用户和机器的对话历史；原始回复(original response)为任意其它对话模型生成的回复；目标个性(intervening persona)为机器的个性背景信息；改写后的回复(counterfactual response)为改写后的机器回复，它符合给定的目标个性，且与原始回复保持了最大的相似性/最少的编辑。

图4为本发明提供的个性化对话改写装置示意图，如图4所示，包括：

其中，生成模块410用于基于用户对话信息生成初始对话回复信息；

其中，识别模块420用于通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词；

其中，遮盖模块430用于将所述初始对话回复信息中的个性相关词进行遮盖处理，得到遮盖后的对话回复信息；

其中，改写模块440用于将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型，得到改写后的对话回复信息。

图5为本发明提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口 (Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行个性化对话改写方法，该方法包括：基于用户对话信息生成初始对话回复信息；通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词；将所述初始对话回复信息中的个性相关词进行遮盖处理，得到遮盖后的对话回复信息；将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型，得到改写后的对话回复信息。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的个性化对话改写方法，该方法包括：基于用户对话信息生成初始对话回复信息；通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词；将所述初始对话回复信息中的个性相关词进行遮盖处理，得到遮盖后的对话回复信息；将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型，得到改写后的对话回复信息。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的个性化对话改写方法，该方法包括：基于用户对话信息生成初始对话回复信息；通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词；将所述初始对话回复信息中的个性相关词进行遮盖处理，得到遮盖后的对话回复信息；将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型，得到改写后的对话回复信息。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种个性化对话改写方法，其特征在于，包括:

基于用户对话信息生成初始对话回复信息；

将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型，得到改写后的对话回复信息；

其中，所述预设对话改写模型是基于无监督模型训练得到的，所述无监督模型的训练目标为：

其中c,r,p为对话历史、回复、个性信息，U是个性相关词随机遮掩和个性相关句随机删除步骤的抽象表示，u为个性相关词随机遮掩和个性相关句随机删除步骤执行后的不完整回复；

其中，所述个性相关词分类器的训练目标为：

其中c,r,p为对话历史、回复、个性信息，m_i为个性相关词/个性无关词标签，f_i为标签在语料库中的频率；

其中，所述将所述初始对话回复信息中的个性相关词进行遮盖处理，得到遮盖后的对话回复信息，具体为：

将初始对话回复信息中的每个个性相关词替换为一个遮盖字符，且在遮盖处理过程中，不替换为停用词或标点符号的个性相关词。

2.根据权利要求1所述的个性化对话改写方法，其特征在于，在通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词的步骤之前，所述方法还包括：

获取初始对话回复样本句和个性化样本信息；

3.根据权利要求2所述的个性化对话改写方法，其特征在于，在得到遮盖后的对话回复信息的步骤之后，所述方法还包括：

对所述个性相关句进行随机删除，得到对话回复样本信息。

4.根据权利要求3所述的个性化对话改写方法，其特征在于，在将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型的步骤之前，所述方法还包括：

5.根据权利要求2所述的个性化对话改写方法，其特征在于，在所述通过预设个性相关词分类器识别所述初始对话回复信息中的个性相关词的步骤之前，所述方法还包括：

6.一种个性化对话改写装置，其特征在于，包括：

生成模块，用于基于用户对话信息生成初始对话回复信息；

改写模块，用于将所述遮盖后的对话回复信息、目标个性信息和所述用户对话信息输入预设对话改写模型，得到改写后的对话回复信息；

其中，所述个性相关词分类器的训练目标为：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述个性化对话改写方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述个性化对话改写方法的步骤。