CN114048301A

CN114048301A - 一种基于满意度的用户模拟方法及系统

Info

Publication number: CN114048301A
Application number: CN202111422403.1A
Authority: CN
Inventors: 任昭春; 孙维纬; 陈竹敏; 任鹏杰; 马军
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-02-15
Anticipated expiration: 2041-11-26
Also published as: CN114048301B

Abstract

本公开提供了一种基于满意度的用户模拟方法及系统，包括：预先设定用户需求采样空间，从所述采样空间中随机采样出用户需求信息；获取对话历史数据，并与所述用户需求信息进行拼接；基于seq2seq模型中的编码器对拼接后的数据进行编码，获得对话文本的向量表示；基于获得的对话文本的向量表示以及预先训练的seq2seq模型中的解码器，分别生成系统行为、用户满意度以及用户行为的文本表示；其中，所述解码器自回归生成字符序列，并基于预先设定的行为树，将每个字符映射为对应的标签；基于所述对话文本向量表示、用户行为的问题本表示以及预先训练的seq2seq模型中的解码器，获得用户回复文本。

Description

一种基于满意度的用户模拟方法及系统

技术领域

本公开属于用户对话模拟技术领域，尤其涉及一种基于满意度的用户模拟方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

任务导向性对话系统有着广泛的应用，如智能语音助手，智能客服等等。在对话系统在真实场景下，需要应对各种各样的用户需求，这使得现有对话系统大都存在以下问题：

1)使用静态的训练数据很难训练出鲁棒性高的对话系统；

2)使用静态的测试数据很难评估系统在真实场景下的表现。

为了解决上述问题，研究人员通过采用一些用户模拟软件向对话系统进行模拟交互，实现对话系统的辅助训练，但是，发明人发现，现有的用户模拟软件仅仅是去模拟用户向对话系统提出一系列需求，其并未考虑实际用户与对话系统交流过程中，对话系统的回复对用户接下来行为所产生的影响，导致基于用户模拟软件进行辅助训练后的对话系统仍然十分机械，无法满足现实场景下的需求。

发明内容

本公开为了解决上述问题，提供了一种基于满意度的用户模拟方法及系统，所述方案根据任务导向性对话系统回复情况计算用户满意度，并将其引入用户行为预测中，使用户模拟回复更加贴近实际情况，模拟实际用户的真实度更强；同时，通过获得的用户满意度能够对任务导向性对话系统进行有效评估。

根据本公开实施例的第一个方面，提供了一种基于满意度的用户模拟方法，包括：

预先设定用户需求采样空间，从所述采样空间中随机采样出用户需求信息；

获取对话历史数据，并与所述用户需求信息进行拼接；基于seq2seq模型中的编码器对拼接后的数据进行编码，获得对话文本的向量表示；

基于获得的对话文本的向量表示以及预先训练的seq2seq模型中的解码器，分别生成系统行为、用户满意度以及用户行为的文本表示；其中，所述解码器自回归生成字符序列，并基于预先设定的行为树，将每个字符映射为对应的标签；

基于所述对话文本向量表示、用户行为的问题本表示以及预先训练的seq2seq模型中的解码器，获得用户回复文本。

进一步的，所述seq2seq模型采用Transformer模型，所述Transformer模型包括编码器和解码器。

进一步的，所述分别生成表示系统行为、用户满意度以及用户行为的文本表示，具体为：通过预先标注有系统回复满意度的数据集对所述解码器进行训练，利用训练好的解码器依次对系统行为、用户满意度以及用户行为进行预测，获得其字符串表示，并将字符串中的字符根据预先设定的行为树映射为对应的标签。

进一步的，所述解码器中的自回归解码过程采用受限解码方式，具体为：

对于每个要预测的标签构建一个行为树，并限制解码器的输出为所述行为树的路径，若不满足行为树的路径，则剪枝掉；其中，所述行为树的每条路径对应一种用户行为，所述用户行为对应于要预测的标签。

进一步的，在对所述标签数据进行排序时，采用Beam Search方法，并且在搜索过程中基于当前节点预测分数剪枝掉低于预设阈值分数的节点。

进一步的，所述基于满意度的用户模拟方法，还包括以下优化过程：采用变分自编码器进行优化，在所述变分自编码器中采用三个隐变量，包括用户满意度、用户行为及用户需求，并对三个隐变量之间的相互关系进行建模。

根据本公开实施例的第二个方面，提供了一种基于满意度的用户模拟系统，包括：

用户需求生成模块，其用于预先设定用户需求采样空间，从所述采样空间中随机采样出用户需求信息；

对话历史编码模块，其用于获取对话历史数据，并与所述用户需求信息进行拼接；基于seq2seq模型中的编码器对拼接后的数据进行编码，获得对话文本的向量表示；

对话策略推理模块，其用于基于获得的对话文本的向量表示以及预先训练的seq2seq模型中的解码器，分别生成表示系统行为、用户满意度以及用户行为的文本表示；其中，所述解码器自回归生成字符序列，并基于预先设定的行为树，将每个字符映射为对应的标签；

用户回复生成模块，其用于基于所述对话文本向量表示、用户行为的问题本表示以及预先训练的seq2seq模型中的解码器，获得用户回复文本。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种基于满意度的用户模拟方法。

根据本公开实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种基于满意度的用户模拟方法。

与现有技术相比，本公开的有益效果是：

(1)本公开所述方案提供了一种基于满意度的用户模拟方法及系统，通过所述方案充分考虑到用户与系统对话过程中，用户即时的满意度变化对用户行为的影响，将用户满意度应用于用户对话模拟中，通过任务导向性对话系统回复情况计算用户满意度，并将其引入用户行为预测中，使用户模拟回复更加贴近实际情况，模拟实际用户的真实度更强；同时，通过获得的用户满意度能够对任务导向性对话系统进行有效评估。

(2)通过本公开所述方案可以生成大量动态数据，使得开发人员可以更好的训练以及评估一个任务导向性对话系统。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例一中所述的基于满意度的用户模拟方法流程图；

图2为本公开实施例一中所述的用户需求采样示意图；

图3为本公开实施例一中所述的自回归解码过程示意图；

图4为本公开实施例一中所述的基于变分自动编码器的优化过程示意图；

图5为本公开实施例一中所述的数据集人工标注界面示意图；

图6为本公开实施例二中所述的基于满意度的用户模拟系统结构示意图。

图7为本公开实施例二中所述的多级交互界面示意图。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种基于满意度的用户模拟方法。

如图1所示，一种基于满意度的用户模拟方法，包括：

步骤1：预先设定用户需求采样空间，从所述采样空间中随机采样出用户需求信息；

其中，所述步骤1具体为：如图2所示，采用采用均匀分布定义用户需求的采样空间，每次生成都会在该空间采样出一个数组，该数组的每个值为一个整数，表示该属性的值。

具体的，在对话过程中，系统会询问用于一些问题，如“喜欢什么口味”。这属于用户的个性化信息，为了模拟多样性的用户个性，我们使用VAE将用户个性编码在一个高维空间。在该空间采样出一个向量，代表了一种个性化；每个向量会对应一种特定的个性化信息，例如：本公开所述方案会根据某个向量，回答“喜欢辣的”，如果换一个向量，本公开所述方案就会回答“喜欢甜的”。这一设计是为了保证模拟器的多样性和对话过程中的一致性。

步骤2：获取对话历史数据，并与所述用户需求信息进行拼接；基于seq2seq模型中的编码器对拼接后的数据进行编码，获得对话文本的向量表示；

其中，所述步骤2中采用Transformer模型中的编码器，对输入的对话历史数据和用户需求信息的拼接文本进行编码，所述拼接过程中，将所述用户需求信息设置于所述对话历史数据的头部，且所述编码器中对于输入的每个词都编码为一个长度512的向量。

步骤3：基于获得的对话文本的向量表示以及预先训练的seq2seq模型中的解码器，分别生成系统行为、用户满意度以及用户行为的文本表示；其中，所述解码器自回归生成字符序列，并基于预先设定的行为树，将每个字符映射为对应的标签；

其中，所述步骤3中采用Transformer模型中的解码器，所述解码器自回归的生成一串字符，并将每个字符映射为其对应的标签(即用户行为)；同时，所述解码器中的自回归解码过程采用受限解码方式，具体为：

如图3所示，对于每个要预测的标签构建一个行为树，并限制解码器的输出为所述行为树的路径，若不满足行为树的路径，则剪枝掉；其中，所述行为树的每条路径对应一种用户行为，所述用户行为对应于要预测的标签。

步骤4：基于所述对话文本向量表示、用户行为的问题本表示以及预先训练的seq2seq模型中的解码器，获得用户回复文本。

其中，所述步骤4中，采用Transformer模型中的解码器，在所述获得用户回复文本的过程中，其采用的解码器采用不受限解码，所述不受限解码即采用原始解码器中的自回归解码过程，且其与步骤3中的解码器共享参数。

进一步的，本公开上述基于满意度的用户模拟方法是一种数据驱动的模型，为了优化该模型，本公开采用变分自动编码器VAE的方法，具体的，如图4所示：

首先，定义q和u代表系统和用户的句子，h代表对话历史，s，a，g代表三个隐变量(分别表示用户满意度，用户行为，用户需求)，之间关系如图4中所示，下标i代表对话轮次。

给定一组N轮的对话：

{(q₁，u₁)，(q₂，u₂)，...(q_N，u_N)}

其中，(q_i，u_i)代表第i轮对话数据。

定义g为该组对话中用户的需求信息，并假设g在对话过程中是恒定的。如上文所述，定义g采样自均匀分布，即P(g)～U(K)，同时Q(g)＝Q(g|q₁u₁，...，q_N，u_N)。

对于第i轮数据(h_i，u_i)，其中h_i＝{q₁，u₁，...，q_i-1，u_i-1，q_i}代表对话历史，(为了简化公式，接下来的公式中会省略下标i)，定义：

P(q)＝P(q|h，g)＝∑_a，sP(q|s，a，h，g)P(a|s，h，g)P(s|h，g)，

其中，Q(s)＝Q(s|h，g，q)和Q(a)＝Q(a|s，h，g，q)。

对于本公开所述基于满意度的用户模拟方法，需要最大化以下概率

其中，通过将上式简化为

根据上述的后验分布假设，在整个过程中最终的优化目标为：

于是

其中，

ELBO(Evidence Lower Bound：证据下界)为

基于以上推导，实现利用VAE方法对基于满意度的用户模拟方法的优化。

进一步的，相对于现有的VAE方法，本公开所述方案进行了改进，通过在所述变分自编码器中采用三个隐变量，包括用户满意度、用户行为及用户需求，并建模了三个隐变量之间的相互关系，有效的将用户满意度、用户行为以及用户需求关联在一起，使用户模拟回复更加贴近实际情况，模拟实际用户的真实度更强。

进一步的，由于现有的数据集在规模上较小，且所涉及的领域较少，故本公开所述方案预先进行了数据集的构建，具体的：在5个基准数据上采样使用的训练数据，分别是MultiWOZ，SGD，RecDial，CCPE和JDDC等公共数据集。前两个为多领域的任务行对话数据(如餐馆预订)，接下来两个是电影推荐数据，最后一个为电商问答数据；同时，基于flask开发了一个数据标注系统，如图5所示，为具体的标注界面示意图；通过聘用约40位标注工人，花费一天完成数据标注，所述数据集中的每条样本包括系统与用户之间的对话以及对系统回复的用户满意度评分，获得最终的数据集，所述数据集相比于已有的同类数据集，在规模上最大，包括多个领域，且在标注方法上存在差异。

实施例二：

本实施例的目的是提供一种基于满意度的用户模拟系统。

一种基于满意度的用户模拟系统，包括：

用户需求生成模块，其用于基于变分自编码器生成用户需求信息；

进一步的，如图6所示，在使用上述系统时，首先使用用户需求生成器生成一组用户信息，接下来和系统进行多轮的交互，每一轮的对话都会接收任务导向性对话系统的一句话，并生成一句话回复系统；在完成多轮交互后，便获得了一组模拟的数据，该数据包括了每一轮用户满意度的预测结果，该数据可以用于评估一个任务导向性对话系统，或训练一个任务导向性对话系统。

进一步的，如图7所示，本公开所述系统设计了多层级的交互界面，包括行为交互级、文本交互级以及语音交互级。该三级的交互界面相比于以往单级产品有更广泛的应用场景，对于行为交互级，速度快精确度高，但要求任务导向性对话系统与本公开所述系统使用一套行为定义标签；对于文本交互级，适用范围更广，需要使用用户回复生成；对于语音交互级，将另外使用语音识别与生成模块完成音频与文本的转换，存在更大的误差，但更能模拟某些真实对话场景。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述实施例提供的一种基于满意度的用户模拟方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于满意度的用户模拟方法，其特征在于，包括：

2.如权利要求1所述的一种基于满意度的用户模拟方法，其特征在于，所述seq2seq模型采用Transformer模型，所述Transformer模型包括编码器和解码器。

3.如权利要求1所述的一种基于满意度的用户模拟方法，其特征在于，所述分别生成表示系统行为、用户满意度以及用户行为的文本表示，具体为：通过预先标注有系统回复满意度的数据集对所述解码器进行训练，利用训练好的解码器依次对系统行为、用户满意度以及用户行为进行预测，获得其字符串表示，并将字符串中的字符根据预先设定的行为树映射为对应的标签。

4.如权利要求1所述的一种基于满意度的用户模拟方法，其特征在于，所述解码器中的自回归解码过程采用受限解码方式，具体为：

5.如权利要求1所述的一种基于满意度的用户模拟方法，其特征在于，在对所述标签数据进行排序时，采用Beam Search方法，并且在搜索过程中基于当前节点预测分数剪枝掉低于预设阈值分数的节点。

6.如权利要求1所述的一种基于满意度的用户模拟方法，其特征在于，所述基于满意度的用户模拟方法，还包括以下优化过程：采用变分自编码器进行优化，在所述变分自编码器中采用三个隐变量，包括用户满意度、用户行为及用户需求，并对三个隐变量之间的关系进行建模。

7.如权利要求1所述的一种基于满意度的用户模拟方法，其特征在于，所述获得用户回复文本的过程中，其采用的解码器采用不受限解码。

8.一种基于满意度的用户模拟系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于满意度的用户模拟方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于满意度的用户模拟方法。