CN114021581A

CN114021581A - 一种基于回复增强的隐式个性化对话生成方法

Info

Publication number: CN114021581A
Application number: CN202111337315.1A
Authority: CN
Inventors: 窦志成; 刘嘉庆
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-02-08
Anticipated expiration: 2041-11-12
Also published as: CN114021581B

Abstract

本发明通过人工智能领域的方法，实现了一种基于回复增强的隐式个性化对话生成方法。给定用户的历史回复，从训练数据中检索相关回复作为候选集；然后根据回复层次人设一致性判别器，和上下文层次人设一致性判别器，计算人设相似性得分，选取得分较高的回复，作为该用户的个性化相似回复；之后基于多任务学习的框架，通过两个编码器‑解码器模型，分别利用真实数据和增强的个性化相似数据，使得模型可以更充分地学到该用户的人设信息和个性化表达方式。此外，本发明还提出了一种评价方法，可以在句子层面自动评价生成结果和用户的人设一致性情况。

Description

一种基于回复增强的隐式个性化对话生成方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于回复增强的隐式个性化对话生成方法。

背景技术

目前，对话系统取得了越来越多的关注和应用。基于所采用的方法，对话系统可以分为检索式、生成式和混合式对话系统。其中，生成式对话系统可以生成适当的新回复，具有更高的灵活性，受到了广泛研究。但是，生成式对话系统存在人设不一致性的问题。这也就是说，当谈论到和人设相关的话题时，对话系统的回复往往是不一致甚至矛盾的。比如对于“你多大啦？”，聊天机器人的回复可能是“我今年18岁。”；而对于“你今年18岁吗？”，聊天机器人的回复则可能是“不，我今年20岁。”，在年龄的人设上出现了不一致的问题。人设不一致的问题，对于对话系统的模型表现和用户体验，都造成了负面影响。

为了维持对话生成模型的人设一致性，很多方法引入显式或隐式的人设信息。其中，显式的人设信息，包括人设描述和人设属性信息。所谓人设描述，是指通过若干句话，对用户的个性进行描述，比如“我喜欢足球”、“我的职业是守门员”等等。在显式个性化对话生成中，很多现有方法首先将这些描述人设的句子进行编码，然后选择相关的人设信息，基于该信息来辅助回复生成。还有一些方法基于预训练模型，然后在个性化对话数据集上做精炼。此外，所谓人设属性信息，是指用户的年龄、所在地、爱好、职业等个性化属性信息。很多现有方法是将属性信息进行编码，加入到回复生成的解码过程中。还有一些方法通过规则，或者深度学习的方法，致力于在对话数据中抽取和用户人设相关的属性信息。

与之相对，隐式人设信息，则是将用户的历史回复数据看作用户的人设信息来源。用户的历史回复反映了用户的人设信息。通过用户历史回复，我们可以推断出用户多方面的个性化信息。在隐式个性化对话生成中，现有主要方法是引入用户向量来表示用户的个性化信息，将用户向量加入到回复生成的计算过程中，使得生成的回复能够体现用户的个性化信息。此外，还有一些方法将隐式个性化对话生成看作是域适应问题。首先在通用对话语料上来训练对话生成模型，然后在用户个性化的对话语料上来精炼模型，得到用户专属的对话生成模型。为了增强个性化对话生成模型的表现，有些方法引入了元学习框架，增强模型参数的域适应能力；还有些方法引入用户的非对话数据，来增大用户的个性化数据的训练数据量。

对于显式的人设信息来说，无论是人设描述还是人设属性信息，相关数据集的收集和构建都昂贵而困难。尤其是在日常对话中，真实的人设信息很难获取，这给数据集的构建带来了挑战。此外，显式的人设信息只能反映有限的个性化信息。比如，说话方式就很难通过显式的人设进行定义。而且，显式的人设信息通常是固定的，忽略了人设信息的更新。

相比于显式的人设信息，用户的历史回复数据更加容易获取。而且用户的历史回复数据具有更多的信息量。然而，个性化的信息是隐藏在用户历史回复中的，不像显式人设那样可以直接表示。此外，用户的历史信息还具有稀疏性，好多用户可能并没有足够的历史回复数量来支持模型训练。无论是用户向量还是域适应的学习，都需要大量的数据支撑，否则模型的个性化提升较为有限。

此外，对于个性化对话生成来说，人设一致性的评价仍待解决。现有的评价方式大多采用人工评价。客观评价指标，大多从词级别出发，评价生成结果和用户真实数据，在用词偏好方面的相似度。如何在句子级别上评价个性化对话生成结果的人设一致性情况，仍然是值得探究的问题。

发明内容

为此，本发明首先提出一种基于回复增强的隐式个性化对话生成方法，方法利用给定的用户输入，生成个性化的对话回复，具体地，首先利用输入给定用户的历史回复数据作为查询，利用海量的开源训练数据作为文档，从训练数据中中检索相关回复作为该用户的候选集；然后根据人设一致性判别器，判断候选集中的回复是否符合用户的个性化设定，计算候选集回复和用户真实回复的人设相似性得分，选择得分较高的回复作为该用户的个性化相似回复，所述人设一致性判别器包括基于BERT模型的回复层次人设一致性判别器，和基于HRED模型的上下文层次人设一致性判别器，其中所述回复层次人设一致性判别器仅考虑两个回复之间的人设一致性，所述上下文层次人设一致性判别器还考虑了上下文和用户的信息；之后基于多任务学习的框架，通过两个编码器-解码器模型，来分别利用该用户的真实历史回复数据和增强的个性化相似数据进行训练，所述两个解码器共享参数，使得模型可以更充分地学到该用户的人设信息和个性化表达方式，得到符合用户个性化设定的回复生成结果。此外，还提出了在句子层面自动度量个性化对话系统生成质量的方法。在模型生成回复之后，将真实回复和生成回复，作为人设一致性判别器的输入，进而得到生成数据的人设一致性评分，用于在句子层面评价模型生成结果和用户个性化设定信息的一致性情况。

所述回复层次的一致性判别器基于回复数据对，计算两条回复文本的人设相似性，采用预测两条回复是否来自于同一个用户的方式，给定两个回复response₁和response₂作为输入，计算这两个回复来自于同一用户的概率P(user₁＝user₂)作为人设相似性的度量。其中，user₁是response₁的说话人，user₂是response₂的说话人，所述回复层次的人设一致性判别器基于BERT模型设计，两个回复以[SEP]分隔进行输入，然后使用[CLS]所对应的最终隐藏向量R作为最终的文本表示，并据此计算来自于同一用户的概率：

P(user₁＝user₂)＝softmax(W_p·R+b_p)

对回复层次的人设一致性判别器而言，其训练数据的构建引入了对比学习的思想。在训练阶段，基于对话数据构建了训练数据。随机选取来自于同一用户的回复对作为正例，然后随机选取来自于不同用户的回复对作为负例，使用标签1表示两条回复来自于同一用户，标签0表示两条回复来自于不同用户。在推断阶段，基于已训练好的模型，输入的两条回复中一条回复来自于用户的真实历史回复，另一条回复来自于候选集的回复数据，然后计算P(user₁＝user₂)作为相似性得分，度量两者之间的人设相似性，如果相似性得分大于预定义的阈值，则认为该候选集回复反映了相似的个性化设定信息，进而根据相似性得分选择人设信息较为相似的回复，看作该用户的个性化相似回复，来做数据增强。

所述上下文层次人设一致性判别器不仅考虑了回复本身的信息，而且考虑了更丰富用户和上下文信息，对于给定用户u的在T时刻的相关历史回复数据C＝{(X₁，Y₁)，…，(X_T，Y_T)}，以及给定候选集中来自于用户u*的数据(X^*，Y^*)，其中X₁-X_T表示对话的给定文本，Y₁-Y_T表示对于对话给定文本的回复，模型的目标是计算Y_T和Y^*之间的人设相似性，在训练阶段，基于层次化编码器-解码器模型，引入用户个性化信息，设计上下文层次人设一致性判别器，给定T时刻的历史回复数据C和文本X_T+1，以及用户u信息，使得人设一致性判别模型学习生成对应的回复Y_T+1，在推断阶段，基于已训练好的模型，并非简单利用模型生成回复，而且计算目标回复的生成概率，计算用户u在给定文本C和X^*的情况下，生成回复Y^*的概率值，即该用户在该上下文环境下说出目标回复的概率值，作为上下文层次的人设相似性得分；

所述层次化编码器-解码器模型具体实现方式为：对于给定的上下文C，通过层次化编码器来计算上下文的表示，首先，使用句子级别的编码器，对上下文中每个句子中的词计算隐藏向量，并使用最终的隐藏向量作为句子的表示，在上下文C中，句子i在t时刻的隐藏向量计算，如下所示：

其中，e(w_i，t)表示词w_i，t的编码，

表示句子级别编码器中句子i在t时刻的隐藏向量；

然后，使用上下文级别的编码器，对上下文中每个句子计算隐藏向量，并使用最终的隐藏向量作为上下文的表示；在上下文C中，句子i的隐藏向量计算，如下所示：

其中，

表示句子i的句子级别编码表示，

表示i句子的上下文级别编码表示；

对于给定文本X^*，通过普通的编码器进行编码，得到给定文本的表示h^p，给定文本表示将输入到解码器中，作为隐藏向量的初始状态，并进行后续的解码计算；

在解码阶段，不仅考虑了上下文、给定文本以及此前回复生成结果的信息，而且引入了用户向量来表示用户的个性化信息，计算每一步的隐藏向量，

然后据此预测在词表上的概率分布；

其中，

表示词

的编码，e(u)表示用户u的用户向量编码，

表示对于给定文本X^*中词的关注度计算结果，

表示对于上下文C中句子的关注度计算结果；

最终，通过计算词表上的概率分布，得到每个词的生成概率，在训练阶段，最大化真实回复的生成概率，进行生成模型的训练，在推断阶段，选取目标回复Y^*中每个对应的词的生成概率，得到目标回复整体的生成概率，作为上下文层次模型的人设一致性得分。

在所述候选集中检索的方式为：从训练数据中检索相关的回复，来构建候选集，然后仅计算候选集中的回复和真实的历史回复之间的相似性，来减少不同回复之间的人设相似性的计算量；使用两种检索方法，一种是基于BM25的，另一种是基于句子表示的；在BM25方法中，使用给定文本和回复作为查询，计算和训练数据中给定文本和回复的BM25值进行检索，选取相关的回复数据作为候选集；在基于句子表示的方法中，基于BERT模型计算每个回复的[CLS]表示作为回复文本的表示，然后通过向量相似度进行检索。

所述多任务框架中的编码器-解码器框架实现方式为：对于真实回复的给定文本X和个性化相似回复的给定文本X^*，通过编码器分别计算其隐藏向量表示：

其中，

表示真实给定文本X在t时刻的编码，

表示个性化相似给定文本X^*在t时刻的编码，而e(x_t)和

则表示其各自的词嵌入向量；

在解码阶段，本发明计算每个步骤的隐藏状态向量，并据此预测在词表上的概率分布。

s_t＝GRU(s_t-1，e(y_t-1)，e(u)，c_t)

其中，e(u)表示用户u的用户向量，e(y_t-1)和

分别表示真实和个性化相似回复对应的词向量，c_t和

表示对于真实和个性化相似的给定文本的关注度机制的计算结果；

两个任务分别学习真实数据中给定文本到回复的映射，和个性化相似数据中给定文本到回复的映射，而非简单地把真实数据和个性化相似数据混合在一起加以训练，是因为两者存在一定的区别，即真实数据既符合用户的个性化设定，又是用户真实回复的数据，而个性化相似数据在一定程度上符合用户的个性化设定，但用户不一定真的这样回复，因此通过不同的学习任务分别加以利用，而且，在两个任务中，以真实数据中给定文本到回复的映射学习任务为主，当该任务在开发集上的指标没有提升时，再引入个性化相似的映射任务进行辅助，然后，同时训练这两个任务，直到真实数据的任务在开发集上的表现有提升，最终，选择开发集上最优的真实数据映射任务的模型，作为个性化对话生成模型。

本发明所要实现的技术效果在于：

(1)本申请把历史对话看作用户的人设信息来源，这样的做法可以更加容易获取到海量的训练数据，也可以利用到更丰富的个性化信息，不仅包括属性信息、个人爱好信息等，而且包括难以通过描述来体现的语言风格、人际关系等个性化信息。

(2)本申请引入用户的个性化相似数据进行数据增强，改进个性化对话系统的生成质量。设计了不同层次的人设一致性判别器，选择和用户人设相似的回复来扩充该用户的真实历史回复数据，以缓解用户个性化数据稀疏的问题。并通过多任务的方法，分别来利用真实的历史回复数据和增强的人设相似回复数据，来改进生成结果的人设一致性。

(3)本申请还提出了对话生成个性化一致性的评价指标。本发明使用人设一致性判别器来度量人设一致性情况，作为个性化的评价指标。在模型生成之后，可以将真实回复和生成回复，作为人设一致性判别器的输入，进而得到生成结果的人设一致性评分。

附图说明

图1基于回复增强的个性化对话生成模型框架图；

图2回复层次的人设一致性判别器；

图3上下文层次的人设一致性判别器

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种基于回复增强的隐式个性化对话生成方法，以改善对话生成的人设一致性。给定用户的历史回复数据，首先从训练数据中检索相关回复作为候选集。然后根据人设一致性判别器所计算的人设相似性得分，在候选集中选择人设相似的回复。本发明设计了两种层次的人设一致性判别器，分别是回复层次和上下文层次。其中，回复层次的仅考虑两个回复之间的人设一致性，而上下文层次的还要考虑上下文的一致性。然后，本发明基于多任务学习的框架，通过两个编码器-解码器模型，来分别利用真实历史回复数据和增强的个性化相似数据进行训练。其中，两个解码器共享参数，使得模型可以学到更一致的人设信息。

人设一致性判别器

本发明设计了两种类型的人设一致性判别器，分别是回复层次的一致性判别器，和上下文层次的一致性判别器。其中，回复层次的一致性判别器基于回复数据对，来计算这两条回复文本的人设相似性。该问题可以定义为预测两条回复在人设方面是否相似，但需要额外的人工标签来支持模型训练。为了方便训练，本发明将该问题转换为预测两条回复是否来自于同一个用户。如果两条回复有很大概率来自于同一个用户，那么这两条回复所反映的人设自然也比较近似。相同用户预测问题，可以看作是更严格的人设一致性预测问题。而且，基于回复数据自带的用户信息，本发明可以很方便地获得海量有标注训练数据。

给定两个回复response₁和response₂作为输入，本发明需要预测这两个回复是否来自于同一个用户。本发明计算这两个回复来自于同一用户的概率P(user₁＝user₂)作为人设相似性的度量。其中，user₁是response₁的说话人，user₂是response₂的说话人。基于BERT模型，本发明设计了回复层次的人设一致性判别器。两个回复以[SEP]分隔进行输入，然后使用[CLS]所对应的最终隐藏向量R作为最终的文本表示，并据此计算两条回复来自于同一用户的概率。

P(user₁＝user₂)＝softmax(W_p·R+b_p)

对回复层次的人设一致性判别器而言，其训练数据的构建引入了对比学习的思想，即在训练阶段，本发明基于对话数据构建了训练数据。本发明随机选取来自于同一用户的回复对作为正例，然后随机选取来自于不同用户的回复对作为负例。本发明使用标签1表示两条回复来自于同一用户，标签0表示两条回复来自于不同用户。在推断阶段，基于已训练好的模型，输入的两条回复中一条回复来自于用户的真实历史回复，另一条回复来自于候选集的回复数据，然后计算P(user₁＝user₂)作为相似性得分，度量两者之间的人设相似性。如果相似性得分大于预定义的阈值，则认为该候选集回复反映了相似的个性化设定信息，进而根据相似性得分选择人设信息较为相似的回复，看作该用户的个性化相似回复，来做数据增强。

此外，同一用户分类问题还可以看作是小样本学习任务。每个用户的回复数据量都是有限的，不足以支持把每个用户看作一个类别来进行训练。而同一用户分类仅需要判断不同的回复是否来自于同一个用户，降低了分类难度。类似于小样本学习中的人脸识别，模型只需要判断给定图片和数据库中的用户图片是否相似。同样的道理，同一用户分类则是储存若干条真实历史回复作为用户画像，判断给定回复是否和该用户的真实历史回复相似。

回复层次的一致性判别器中存在一些问题。首先，单条回复的信息量是有限的，有时候可能不足以推断人设信息。而且，是否来自于同一用户，和所反映的人设是否一致，之间存在一定区别。此外，训练数据正负样本的采样方式也会影响模型的表现。

于是，本发明提出了上下文层次的人设一致性判别器。上下文层次的人设一致性判别器不仅考虑回复信息，而且考虑更为丰富的上下文信息和用户信息。给定用户u的在T时刻的相关历史回复数据C＝{(X₁，Y₁)，…，(X_T，Y_T)}，其中X表示对话的给定文本，Y表示对于对话给定文本的回复。同时给定候选集中来自于用户u*的数据(X^*，Y^*)。模型的目标是计算Y_T和Y^*之间的人设相似性。回复层次的人设一致性判别器仅考虑了Y_T和Y^*的信息，而上下文层次的人设一致性判别器则考虑了上下文及用户等更为全面的信息。

本发明基于层次化编码器-解码器(HRED)模型设计了上下文层次的人设一致性判别器。其中，HRED模型是一个多轮对话生成模型。在训练阶段，给定T时刻的历史回复数据C和文本X_T+1，并引入用户个性化信息，使得上下文层次人设一致性判别模型学习生成对应的回复Y_T+1。在推断阶段，基于已训练好的模型，本发明并非简单利用模型生成回复，而且计算目标回复的生成概率，计算用户u(而非u*)在给定文本C和X^*的情况下，生成回复Y^*的概率值，作为上下文层次的人设相似性得分。也就是说，在考虑上下文所反应的人设信息之后，对于给定的文本，模型有多大可能性说出Y^*作为回复。如果概率值较大，说明该用户更有可能说出这句话作为回复，也就是说，该回复更符合该用户的人设信息。

对于给定的上下文C，本发明通过层次化编码器来计算上下文的表示。首先，本发明使用句子级别的编码器，来对上下文中每个句子中的词计算隐藏向量，并使用最终的隐藏向量作为句子的表示。在上下文C中，句子i在t时刻的隐藏向量计算，如下所示：

其中，e(w_i，t)表示词w_i，t的编码，

表示句子级别编码器中句子i在t时刻的隐藏向量。

然后，本发明使用上下文级别的编码器，对上下文中每个句子计算隐藏向量，并使用最终的隐藏向量作为上下文的表示。在上下文C中，句子i的隐藏向量计算，如下所示：

其中，

表示句子i的句子级别编码表示，

表示i句子的上下文级别编码表示。

对于给定文本X^*，本发明通过普通的编码器进行编码，得到给定文本的表示h^p。给定文本表示将输入到解码器中，作为隐藏向量的初始状态，并进行后续的解码计算。

在解码阶段，本发明不仅考虑了上下文、给定文本以及此前回复生成结果的信息，而且引入了用户向量来表示用户的个性化信息，计算每一步的隐藏向量，然后据此预测在词表上的概率分布。

其中，

表示词

的编码，e(u)表示用户u的用户向量编码，

表示对于给定文本X^*中词的关注度计算结果，

表示对于上下文C中句子的关注度计算结果。

最终，通过计算词表上的概率分布，得到每个词的生成概率。在训练阶段，最大化真实回复的生成概率，进行生成模型的训练。在推断阶段，选取Y^*中每个对应的词的生成概率，得到目标回复整体的生成概率，作为上下文层次模型的人设一致性得分。

候选集检索

本发明从训练数据中检索相关的回复，来构建候选集。然后，本发明仅计算候选集中的回复和真实的历史回复之间的相似性，来减少不同回复之间的人设相似性的计算量。

本发明使用了两种检索方法，一种是基于BM25的，另一种是基于句子表示的。在BM25方法中，本发明使用给定文本和回复作为查询，计算和训练数据中给定文本和回复的BM25值进行检索，选取相关的回复数据作为候选集。加入给定文本，是因为这部分内容也可以反映部分的个性化信息，如兴趣话题等。在基于句子表示的方法中，本发明基于BERT模型计算每个回复的[CLS]表示作为回复文本的表示，然后通过向量相似度进行检索。

多任务学习框架

本发明引入多任务学习框架，来分别利用真实回复数据和增强的人设相似回复数据。本发明设计了两个编码器-解码器模型，根据用户真实回复和用户个性化相似回复的特点分别加以利用，一个用来学习真实的给定文本到回复的映射，一个用来学习相似回复增强的给定文本到回复的映射。其中，两个模型的解码器共享参数，使得模型可以受益于数据增强的个性化相似回复数据，更充分地学习用户的人设信息和个性化表达方式，提高模型生成回复的人设一致性。

之所以设计两个模型进行多任务学习，是因为真实回复和数据增强的个性化相似回复之间存在区别。对于真实回复来说，其所反映的人设信息符合用户的个性化人设，而且是用户真正的对于给定文本的回复。而对于个性化相似回复来说，其所反映的人设信息大概率符合用户的个性化人设，但用户不一定会这样对给定文本进行回复。因此，本发明区别对待这两部分的数据，引入多任务框架来分别利用这两类数据，而非简单地混合在一起进行训练。

两个任务都使用编码器-解码器框架，对于真实回复的给定文本X和个性化相似回复的给定文本X^*，本发明通过编码器分别计算其隐藏向量表示：

其中，

表示真实给定文本X在t时刻的编码，

表示个性化相似给定文本X^*在t时刻的编码，而e(x_t)和

则表示其各自的词嵌入向量。

s_t＝GRU(s_t-1，e(y_t-1)，e(u)，c_t)

其中，e(u)表示用户u的用户向量，e(y_t-1)和

分别表示真实和个性化相似回复对应的词向量，c_t和

表示对于真实和个性化相似的给定文本的关注度机制的计算结果。

需要说明的是，本发明并不是同时训练这两个任务。而是以真实数据中给定文本到回复的映射学习任务为主，当该任务在开发集上的指标没有提升时，本发明再引入个性化相似数据上的映射任务记性呢辅助。然后，同时训练这两个任务，直到真实数据的任务在开发集上的表现有提升。最终，选择开发集上最优的真实数据映射任务的模型，作为个性化对话生成模型。

人设一致性评价

此外，本发明可以使用人设一致性判别器，在句子层面自动地度量对话生成模型的人设一致性情况。本发明计算人设相似性得分作为个性化的评价指标。在模型生成回复之后，可以将真实回复和生成回复，作为人设一致性判别器的输入，进而得到生成数据的人设一致性评分，用于评价模型生成结果和用户个性化设定信息的一致性情况。

Claims

1.一种基于回复增强的隐式个性化对话生成方法，其特征在于：方法利用给定的用户输入，生成个性化的对话回复，具体地，首先利用输入给定用户的历史回复数据作为查询，利用海量的开源训练数据作为文档，从训练数据中检索相关回复作为该用户的候选集；然后根据人设一致性判别器，判断候选集中的回复是否符合用户的个性化设定，计算候选集回复和用户真实回复的人设相似性得分，选择得分较高的回复作为该用户的个性化相似回复，所述人设一致性判别器包括基于BERT模型的回复层次人设一致性判别器，和基于HRED模型的上下文层次人设一致性判别器，其中所述回复层次人设一致性判别器仅考虑两个回复之间的人设一致性，所述上下文层次人设一致性判别器的还考虑了上下文的一致性；之后基于多任务学习的框架，通过两个编码器-解码器模型，来分别利用该用户的真实历史回复数据和增强的个性化相似数据进行训练，所述两个解码器共享参数，使得模型可以更充分地学到该用户的人设信息和个性化表达方式，得到符合用户个性化设定的回复生成结果；

在得到回复生成结果的基础上，提出度量个性化对话系统生成质量的方法，即在模型生成回复之后，将真实回复和生成回复，作为人设一致性判别器的输入，进而得到生成数据的人设一致性评分，用于在句子层面评价模型生成结果和用户个性化设定信息的一致性情况，最终输出评价结果和回复结果。

2.如权利要求1所述的一种基于回复增强的隐式个性化对话生成方法，其特征在于：所述回复层次的一致性判别器基于回复数据对，计算两条回复文本的人设相似性，采用预测两条回复是否来自于同一个用户的方式，给定两个回复response₁和response₂作为输入，计算这两个回复来自于同一用户的概率P(user₁＝user₂)作为人设相似性的度量，其中，user₁是response₁的说话人，user₂是response₂的说话人，所述回复层次的人设一致性判别器基于BERT模型设计，两个回复以[SEP]分隔进行输入，然后使用[CLS]所对应的最终隐藏向量R作为最终的文本表示，并据此计算两条回复来自于同一用户的概率：

P(user₁＝user₂)＝softmax(W_p·R+b_p)

对回复层次的人设一致性判别器而言，其训练数据的构建引入了对比学习的思想，即在训练阶段，随机选取来自于同一用户的回复对作为正例，然后随机选取来自于不同用户的回复对作为负例，使用标签1表示两条回复来自于同一用户，标签0表示两条回复来自于不同用户；在推断阶段，基于已训练好的模型，输入的两条回复中一条回复来自于用户的真实历史回复，另一条回复来自于候选集的回复数据，然后计算P(user₁＝user₂)作为相似性得分，度量两者之间的人设相似性，如果相似性得分大于预定义的阈值，则认为该候选集回复反映了相似的个性化设定信息，进而根据相似性得分选择人设信息较为相似的回复，看作该用户的个性化相似回复，来做数据增强。

3.如权利要求1所述的一种基于回复增强的隐式个性化对话生成方法，其特征在于：所述上下文层次人设一致性判别器不仅考虑了回复本身的信息，而且考虑了更丰富的用户和上下文信息，对于给定用户u的在T时刻的相关历史回复数据C＝{(X₁，Y₁)，…，(X_T，Y_T)}，以及给定候选集中来自于用户u*的数据(X^*，Y^*)，其中X₁-X_T表示对话的给定文本，Y₁-Y_T表示对于对话给定文本的回复，模型的目标是计算Y_T和Y^*之间的人设相似性，在训练阶段，基于层次化编码器-解码器模型，引入用户个性化信息，设计上下文层次人设一致性判别器，给定T时刻的历史回复数据C和文本X_T+1，以及用户u信息，使得人设一致性判别模型学习生成对应的回复Y_T+1，在推断阶段，基于已训练的模型，并非简单利用模型生成回复，而且计算目标回复的生成概率，计算用户u在给定文本C和X^*的情况下，生成回复Y^*的概率值，即该用户在该上下文环境下说出目标回复的概率值，作为上下文层次的人设相似性得分；

其中，e(w_i，t)表示词w_i，t的编码，

表示句子级别编码器中句子i在t时刻的隐藏向量；

其中，

表示句子i的句子级别编码表示，

表示i句子的上下文级别编码表示；

然后据此预测在词表上的概率分布；

其中，

表示词

的编码，e(u)表示用户u的用户向量编码，

表示对于给定文本X^*中词的关注度计算结果，

表示对于上下文C中句子的关注度计算结果；

4.如权利要求3所述的一种基于回复增强的隐式个性化对话生成方法，其特征在于：在所述候选集中检索的方式为：从训练数据中检索相关的回复，来构建候选集，然后仅计算候选集中的回复和真实的历史回复之间的相似性，来减少不同回复之间的人设相似性的计算量；使用两种检索方法，一种是基于BM25的，另一种是基于句子表示的；在BM25方法中，使用给定文本和回复作为查询，计算和训练数据中给定文本和回复的BM25值进行检索，选取相关的回复数据作为候选集；在基于句子表示的方法中，基于BERT模型计算每个回复的[CLS]表示作为回复文本的表示，然后通过向量相似度进行检索。

5.如权利要求4所述的一种基于回复增强的隐式个性化对话生成方法，其特征在于：所述多任务框架中的编码器-解码器框架，根据用户真实回复和用户个性化相似回复的特点分别加以利用，其实现方式为：对于真实回复的给定文本X和个性化相似回复的给定文本X^*，通过编码器分别计算其隐藏向量表示：

其中，

表示真实给定文本X在t时刻的编码，

表示个性化相似给定文本X^*在t时刻的编码，而e(x_t)和

则表示其各自的词嵌入向量；

在解码阶段，计算每个步骤的隐藏状态向量，并据此预测在词表上的概率分布。

s_t＝GRU(s_t-1，e(y_t-1)，e(u)，ct)

其中，e(u)表示用户u的用户向量，e(y_t-1)和

分别表示真实和个性化相似回复对应的词向量，c_t和

两个任务分别学习真实数据中给定文本到回复的映射，和个性化相似数据中给定文本到回复的映射，以真实数据中给定文本到回复的映射学习任务为主，当该任务在开发集上的指标没有提升时，再引入个性化相似数据上的映射任务，然后，同时训练这两个任务，直到真实数据的任务在开发集上的表现有提升，选择开发集上最优的真实数据映射任务的模型作为最终的生成模型。