CN112560507A

CN112560507A - 用户模拟器构建方法、装置、电子设备及存储介质

Info

Publication number: CN112560507A
Application number: CN202011499310.4A
Authority: CN
Inventors: 陈海滨
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-03-26
Anticipated expiration: 2040-12-17

Abstract

本申请实施例提供一种用户模拟器构建方法、装置、电子设备及存储介质，其中，该方法包括：获取用户模拟器的第一对话状态表示及对话机器人的第二对话状态表示；根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话状态表示；基于所述本轮对话状态表示预测出本轮对话的对话目标；基于所述对话目标生成本轮对话的回复语句。本申请实施例构建的用户模拟器有利于提高用户模拟器的泛化性，以更好的模拟真实用户对话情况，从而提升用户模拟器的对话效果。

Description

用户模拟器构建方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种用户模拟器构建方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的发展，对话机器人或对话系统已经成了研究的热门领域，各大厂家相继推出具有代表性的对话系统，例如：常见的聊天型、问答型以及任务导向型。任务导向型对话系统是指由任务驱动的多轮对话，机器需要通过理解、主动询问、澄清等方式来确定用户的目标，调用相应的应用程序接口查询后，返回正确结果，完成用户需求，是对话系统中非常重要的一个方向。对于构建好的任务导向型对话系统，目前可以采用人工和机器人对话的方式评估对话效果，但是人工成本较高；另外还可以采用用户模拟器来评估，传统的用户模拟器主要通过规则或统计方法实现，但由于泛化性不强等问题，其在对话模拟中的表现不佳。

发明内容

针对上述问题，本申请提供了一种用户模拟器构建方法、装置、电子设备及存储介质，有利于提高用户模拟器的泛化性，以更好的模拟真实用户对话情况，从而提升用户模拟器的对话效果。

为实现上述目的，本申请实施例第一方面提供了一种用户模拟器构建方法，该方法包括：

获取用户模拟器的第一对话状态表示及对话机器人的第二对话状态表示；

根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话状态表示；

基于所述本轮对话状态表示预测出本轮对话的对话目标；

基于所述对话目标生成本轮对话的回复语句；

计算所述本轮对话的回复语句与预设的N个语料集中每个语料集中的每条语料的第一语义相似度；N为大于1的整数；

计算预设对话目标与所述N个语料集中每个语料集中的每条语料的第二语义相似度；

根据所述第一语义相似度和所述第二语义相似度计算所述本轮对话的回复语句与所述预设对话目标之间的匹配程度；所述匹配程度用于表示当前是否结束对话；在所述匹配程度大于或等于阈值的情况下，向用户模拟器返回所述本轮对话的回复语句，并结束对话；在所述匹配程度小于阈值的情况下，不结束对话。

结合第一方面，在一种可能的实施方式中，所述根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话的状态表示，包括：

对所述第一对话状态表示和所述第二对话状态表示进行拼接，得到本轮对话的输入；

获取历史对话的状态表示；所述历史对话的状态表示是指本轮对话之前的所有对话的状态表示；

对本轮对话的输入及历史对话的状态表示进行编码，得到所述本轮对话的状态表示。

结合第一方面，在一种可能的实施方式中，所述获取用户模拟器的第一对话状态表示，包括：

获取用户模拟器本轮对话的输入；

采用双向长短期记忆网络对用户模拟器本轮对话的输入进行编码，得到双向长短期记忆网络正向和反向最后一层的输出结果；

将正向最后一层的输出结果与反向最后一层的输出结果拼接，得到第一拼接特征；

对所述第一拼接特征进行热独编码得到所述第一对话状态表示。

结合第一方面，在一种可能的实施方式中，所述获取对话机器人的第二状态表示，包括：

获取对话机器人上一轮对话对用户模拟器的回复；

采用双向长短期记忆网络对对话机器人上一轮对话对用户模拟器的回复进行编码，得到双向长短期记忆网络正向和反向最后一层的输出结果；

将正向最后一层的输出结果与反向最后一层的输出结果拼接，得到第二拼接特征；

对所述第二拼接特征进行热独编码得到所述第二对话状态表示。

结合第一方面，在一种可能的实施方式中，所述方法还包括：

计算所述本轮对话的回复语句中的槽位-槽值信息与所述预设对话目标之间的第一匹配得分；

根据所述第一匹配得分和第二匹配得分计算出回报函数的值；所述第二匹配得分为上一轮对话的回复语句中槽位-槽值信息与所述预设对话目标之间的匹配得分。

结合第一方面，在一种可能的实施方式中，采用以下公式计算所述第一匹配得分：

其中，score_k表示所述第一匹配得分，

表示所述预设对话目标，

表示所述本轮对话的回复语句中的槽位-槽值信息；

采用以下公式计算回报函数的值：r_k＝score_k-score_k-1，其中，r_k表示回报函数的值，score_k-1表示所述第二匹配得分。

本申请实施例第二方面提供了一种用户模拟器构建装置，该装置包括：

语句编码模块，用于获取用户模拟器的第一对话状态表示及对话机器人的第二对话状态表示；

状态跟踪模块，用于根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话状态表示；

对话目标预测模块，用于基于所述本轮对话状态表示预测出本轮对话的对话目标；

回复语句生成模块，用于基于所述对话目标生成本轮对话的回复语句；

所述回复语句生成模块，还用于计算所述本轮对话的回复语句与预设的N个语料集中每个语料集中的每条语料的第一语义相似度；N为大于1的整数；计算预设对话目标与所述N个语料集中每个语料集中的每条语料的第二语义相似度；根据所述第一语义相似度和所述第二语义相似度计算所述本轮对话的回复语句与所述预设对话目标之间的匹配程度；所述匹配程度用于表示当前是否结束对话；在所述匹配程度大于或等于阈值的情况下，向用户模拟器返回所述本轮对话的回复语句，并结束对话；在所述匹配程度小于阈值的情况下，不结束对话。

本申请实施例第三方面提供了一种电子设备，该电子设备包括输入设备和输出设备，还包括处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

基于所述本轮对话状态表示预测出本轮对话的对话目标；

基于所述对话目标生成本轮对话的回复语句；

本申请实施例第四方面提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

基于所述本轮对话状态表示预测出本轮对话的对话目标；

基于所述对话目标生成本轮对话的回复语句；

本申请的上述方案至少包括以下有益效果：与现有技术相比，本申请实施例通过获取用户模拟器的第一对话状态表示及对话机器人的第二对话状态表示；根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话状态表示；基于所述本轮对话状态表示预测出本轮对话的对话目标；基于所述对话目标生成本轮对话的回复语句。这样使用强化学习将用户模拟器与对话系统一起进行训练，以构建端到端的用户对话模拟器，有利于提高用户模拟器的泛化性，以更好的模拟真实用户对话情况，从而提升用户模拟器的对话效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用环境的示意图；

图2为本申请实施例提供的一种用户模拟器构建方法的流程示意图；

图3为本申请实施例提供的一种用户模拟器模型的结构示意图；

图4为本申请实施例提供的一种对话状态追踪模型的结构示意图；

图5为本申请实施例提供的一种计算回报函数的值的示意图；

图6为本申请实施例提供的另一种用户模拟器构建方法的流程示意图；

图7为本申请实施例提供的一种用户模拟器构建装置的结构示意图；

图8为本申请实施例提供的另一种用户模拟器构建装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。

本申请实施例提供一种用户模拟器构建方法，可基于图1所示的应用环境实施，请参见图1，该应用环境中包括客户端11、服务器12以及存储设备13，存储设备13上存储有用户模拟器，该用户模拟器被配置为与对话系统进行联合建模，存储设备13上还存储有大规模保险金融领域语料，客户端11被配置为接收用户输入的指令，通过网络访问服务器12使得其对存储设备13上的保险金融领域语料进行槽位-槽值(slot-value)信息标注，而仅标注槽位-槽值信息可以减少对语料的人为干预，标注成本低，客户端还被配置为接收用户输入的指令，通过网络访问服务器12使得其调用存储设备13上的用户模拟器进行对话模拟。服务器12被配置为在接收到客户端11发送的对话模拟指令的情况下，通过网络或串口调用用户模拟器进行对话模拟，在对话模拟的多轮对话过程中执行本申请实施例所提出的用户模拟器构建方法，并且每完成一轮对话通过强化学习的回报函数来测评对话效果，以训练出更好的对话系统，使得用户模拟器和对话系统之间的对话模拟更接近真实对话场景，提高用户模拟器的泛化性。

在一个示例中，存储设备13上还存储有双向长短期记忆网络，服务器12还被配置为在接收到客户端11发送的对该双向长短期记忆网络进行训练的指令的情况下，采用存储设备13上存储的语料训练该双向长短期记忆网络，以及采用BERT(Bidirectional EncoderRepresentations from Transformers，基于Transformer的双向编码器)对该双向长短期记忆网络输入的词向量进行训练。存储设备13可以是服务器12中的硬件或软件组成，也可以是独立于服务器12的物理存储器或云存储器。

基于图1所示的应用环境，以下结合其他附图对本申请实施例提供的用户模拟器构建方法进行详细阐述。

请参见图2，图2为本申请实施例提供的一种用户模拟器构建方法的流程示意图，该方法应用于服务器，如图2所示，包括步骤S21-S24：

S21，获取用户模拟器的第一对话状态表示及对话机器人的第二对话状态表示。

本申请具体实施例中，第一对话状态表示是指用户模拟器本轮对话的输入的状态表示，用户模拟器本轮对话的输入包括用户模拟器上一轮对话的意图、本轮对话的意图、本轮对话输入的槽位、历史对话输入的槽位；第二对话状态表示是指对话机器人上一轮对话的回复的状态表示，对话机器人上一轮对话的回复包括对话机器人上一轮对话采取的动作action以及回复的槽位信息，例如：{出发地＝北京}。其中，用户模拟器的输入和对话机器人的回复可以取自保险金融领域用户和人工客服的对话语料。

在一种可能的实施方式中，所述获取用户模拟器的第一对话状态表示，包括：

获取用户模拟器本轮对话的输入；

具体的，对于用户模拟器第k轮对话的输入“我要投诉”，将其输入训练好的双向长短期记忆网络进行编码，得到正向最后一层的输出结果L_正和反向最后一层的输出结果L_反，那么拼接后即有h_k＝L_正+L_反，上述第一拼接特征即为该h_k，为了解决第一拼接特征离散的问题，对第一拼接特征进行热独编码即得到第一对话状态表示，记为

在一种可能的实施方式中，所述获取对话机器人的第二状态表示，包括：

获取对话机器人上一轮对话对用户模拟器的回复；

具体的，针对对话机器人上一轮对话的回复，同样采用双向长短期记忆网络进行编码，对其正向最后一层的输出结果L_正和反向最后一层的输出结果L_反进行拼接得到h_k-1，上述第二拼接特征即该h_k-1，对该第二拼接特征进行热独编码即得到第二对话状态表示，记为

上述双向长短期记忆网络基于大规模保险金融领域语料、通过无监督训练得到，其词向量信息使用BERT进行训练或提取，并引入寿险垂直领域知识图谱信息，语义表达能力更强、对话追踪准确度更高。应当理解的，使用双向长短期记忆网络进行编码，更有利于解决前后单词顺序颠倒造成的歧义问题，例如：“我很喜欢e生保”和“我喜欢e生保的很”表达的实际上是相同语义，采用长短期记忆网络会将其识别为两种语义，而双向长短期记忆网络则能正确识别。

S22，根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话状态表示。

在一种可能的实施方式中，所述根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话的状态表示，包括：

本申请具体实施例中，用户模拟器模型结构如图3所示，将第一对话状态表示

和所述第二对话状态表示

拼接得到本轮对话的输入特征

然后采用LSTM(Long Short-Term Memory，长短期记忆网络)将本轮对话的输入特征

和历史对话的状态表示

一起进行编码，得到本轮对话状态表示，记为

由于第一对话状态表示是以用户模拟器上一轮对话的意图、本轮对话的意图、本轮对话输入的槽位、历史对话输入的槽位的热独编码为特征，第二对话状态表示是以对话机器人上一轮的动作、上一轮的回复的热独编码为特征，在有效特征越多的情况下，对话机器人的准确率更高、鲁棒性更强，对话机器人和用户模拟器对固定句式、句法的回答效果更好。

S23，基于所述本轮对话状态表示预测出本轮对话的对话目标。

本申请具体实施例中，将本轮对话状态表示

输入全连接层进行处理得到隐藏层表示，采用sigmod函数对隐藏层表示进行多标签分类，得到预测出的用户行为P(act_k)以及每个预设槽位被提及的概率

由用户行为P(act_k)和预设槽位被提及的概率

得到对话目标。其中，如图4所示，对话状态追踪模型为全连接层加多个sigmod函数，如果对话状态追踪模型识别为多个动作且得分差距不大，则随机选取一个作为最终的动作，softmax函数可以得到多个动作的独立分布概率，但是softmax函数只选择得分最高的动作，对话模式比较单一，使用多标签分类可以有效提升对话泛化性，更接近真人对话。其中，预设槽位可以是出发地、目的地、发货时间等，例如：帮我买张广州到北京的机票，被提及概率较大的槽位便是{出发地}和{目的地}，则对话目标就是买广州到北京的机票。

S24，基于所述对话目标生成本轮对话的回复语句。

本申请具体实施例中，请继续参见图3，根据所述用户行为从预设用户行为模板中选取对应的行为模板，例如：对话机器人的回复“是否帮您买张广州到北京的机票”，基于得到的本轮对话状态表示，对话机器人是在询问购买机票的出发点和目的地，选择地址请求类模板request_address Action作为候选模板，用户行为模板用于存储预设的用户行为，例如：地址请求类、时间请求类、商品数量类等等。然后从预设槽位模板中选取相应槽值对候选模板进行填充，预设槽位模板中的每个槽位模板用于存储一个槽位的槽值，例如：候选模板可以是“从{出发地}出发到{目的地}的机票”，则从{出发地}：深圳、重庆、成都这一模板中选取相应的槽值对{出发地}进行填充，从{目的地}：北京、上海、天津以模板中选取相应的槽值对{目的地}进行填充，最终生成需要返回的回复语句“我需要预定广州到北京的机票吗”、“从广州出发到北京吗”，等等。

在一种可能的实施方式中，如图5所示，所述方法还包括：

S51，计算所述本轮对话的回复语句中的槽位-槽值信息与所述预设对话目标之间的第一匹配得分；

S52，根据所述第一匹配得分和第二匹配得分计算出回报函数的值。

本申请具体实施例中，第二匹配得分为上一轮对话的回复语句中槽位-槽值信息与所述预设对话目标之间的匹配得分，在上一轮对话结束时计算得到。预设对话目标可以人为设置，例如:“预定{广州}到{北京}的机票”，并标注出其中的槽值{出发地＝广州}、{目的地＝北京}，回报函数即强化学习中的回报函数reward。采用以下公式计算第一匹配得分：

其中，score_k表示第一匹配得分，

表示预设对话目标，

表示本轮对话的回复语句中的槽位-槽值信息；采用以下公式计算回报函数的值：r_k＝score_k-score_k-1，其中，r_k表示回报函数的值，score_k-1表示第二匹配得分。score得分越低表示对话机器人的答案越接近用户模拟器期望的答案，回报函数的值用于表示相邻两轮对话的得分差值，分差越大表示两轮对话填充的槽位越多，越接近最终的对话目标。利用该回报函数的值可以对对话系统的。

在一种可能的实施方式中，所述方法还包括：

本申请具体实施例中，第一语义相似度和第二语义相似度可采用相似度算法计算得到，N个语料集通过对保险金融领域语料进行分类得到，例如：购买保险类、理赔类、贷款类、咨询类等等，采用以下公式：

计算本轮对话的回复语句与预设对话目标之间的匹配程度，其中，S(X,Y)表示所述匹配程度，X表示本轮对话的回复语句，Y表示预设对话目标，θ_X(θ_i)表示本轮对话的回复语句与N个语料集中第i个语料集中的每条语料的第一语义相似度，θ_Y(θ_i)表示预设对话目标与N个语料集中第i个语料集中的每条语料的第二语义相似度，α和β为预设系数。该实施方式通过回复语句与预设对话目标之间的匹配程度来判断是否结束对话，可使对话系统更加灵活。

可以看出，本申请实施例通过获取用户模拟器的第一对话状态表示及对话机器人的第二对话状态表示；根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话状态表示；基于所述本轮对话状态表示预测出本轮对话的对话目标；基于所述对话目标生成本轮对话的回复语句。这样使用强化学习将用户模拟器与对话系统一起进行训练，以构建端到端的用户对话模拟器，有利于提高用户模拟器的泛化性，以更好的模拟真实用户对话情况，从而提升用户模拟器的对话效果。

请参见图6，图6本申请实施例提供的另一种用户模拟器构建方法的流程示意图，同样可基于图1所示的应用环境实施，如图6所示，包括步骤S61-S69：

S61，获取用户模拟器的第一对话状态表示及对话机器人的第二对话状态表示；

S62，对所述第一对话状态表示和所述第二对话状态表示进行拼接，得到本轮对话的输入；

S63，获取历史对话的状态表示；所述历史对话的状态表示是指本轮对话之前的所有对话的状态表示；

S64，对本轮对话的输入及历史对话的状态表示进行编码，得到本轮对话的状态表示；

S65，基于所述本轮对话状态表示预测出本轮对话的对话目标；

S66，基于所述对话目标生成本轮对话的回复语句；

S67，计算所述本轮对话的回复语句与预设的N个语料集中每个语料集中的每条语料的第一语义相似度；N为大于1的整数；

S68，计算预设对话目标与所述N个语料集中每个语料集中的每条语料的第二语义相似度；

S69，根据所述第一语义相似度和所述第二语义相似度计算所述本轮对话的回复语句与所述预设对话目标之间的匹配程度；所述匹配程度用于表示当前是否结束对话；在所述匹配程度大于或等于阈值的情况下，向用户模拟器返回所述本轮对话的回复语句，并结束对话；在所述匹配程度小于阈值的情况下，不结束对话。

其中，步骤S61-S69的具体实施方式在图2所示的实施例中已有相关说明，且能达到相同或相似的有益效果，为避免重复，此处不再赘述。

基于上述用户模拟器构建方法实施例的描述，请参见图7，图7为本申请实施例提供的一种用户模拟器构建装置的结构示意图，如图7所示，该装置包括：

语句编码模块71，用于获取用户模拟器的第一对话状态表示及对话机器人的第二对话状态表示；

状态跟踪模块72，用于根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话状态表示；

对话目标预测模块73，用于基于所述本轮对话状态表示预测出本轮对话的对话目标；

回复语句生成模块74，用于基于所述对话目标生成本轮对话的回复语句；

所述回复语句生成模块74，还用于计算所述本轮对话的回复语句与预设的N个语料集中每个语料集中的每条语料的第一语义相似度；N为大于1的整数；计算预设对话目标与所述N个语料集中每个语料集中的每条语料的第二语义相似度；根据所述第一语义相似度和所述第二语义相似度计算所述本轮对话的回复语句与所述预设对话目标之间的匹配程度；所述匹配程度用于表示当前是否结束对话；在所述匹配程度大于或等于阈值的情况下，向用户模拟器返回所述本轮对话的回复语句，并结束对话；在所述匹配程度小于阈值的情况下，不结束对话。

在一种可能的实施方式中，在根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话的状态表示方面，所述状态跟踪模块72具体用于：

在一种可能的实施方式中，在获取用户模拟器的第一对话状态表示方面，语句编码模块71具体用于：

获取用户模拟器本轮对话的输入；

在一种可能的实施方式中，在获取对话机器人的第二状态表示方面，语句编码模块71具体用于：

获取对话机器人上一轮对话对用户模拟器的回复；

在一种可能的实施方式中，如图8所示，所述装置还包括匹配计算模块75；匹配计算模块75用于：

在一种可能的实施方式中，匹配计算模块75采用以下公式计算所述第一匹配得分：

其中，score_k表示所述第一匹配得分，

表示所述预设对话目标，

表示所述本轮对话的回复语句中的槽位-槽值信息；

在一种可能的实施方式中，匹配计算模块75采用以下公式计算回报函数的值：r_k＝score_k-score_k-1，其中，r_k表示回报函数的值，score_k-1表示所述第二匹配得分。

根据本申请的一个实施例，图7或图8所示的用户模拟器构建装置的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于用户模拟器构建装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7或图8中所示的用户模拟器构建装置设备，以及来实现本申请实施例的用户模拟器构建方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例和装置实施例的描述，本申请实施例还提供一种电子设备。请参见图9，该电子设备至少包括处理器91、输入设备92、输出设备93以及计算机存储介质94。其中，电子设备内的处理器91、输入设备92、输出设备93以及计算机存储介质94可通过总线或其他方式连接。

计算机存储介质94可以存储在电子设备的存储器中，所述计算机存储介质94用于存储计算机程序，所述计算机程序包括程序指令，所述处理器91用于执行所述计算机存储介质94存储的程序指令。处理器91(或称CPU(Central Processing Unit，中央处理器))是电子设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，本申请实施例提供的电子设备的处理器91可以用于进行一系列用户模拟器的构建处理：

基于所述本轮对话状态表示预测出本轮对话的对话目标；

基于所述对话目标生成本轮对话的回复语句；

再一个实施例中，处理器91执行所述根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话的状态表示，包括：

再一个实施例中，处理器91执行所述获取用户模拟器的第一对话状态表示，包括：

获取用户模拟器本轮对话的输入；

再一个实施例中，处理器91执行所述获取对话机器人的第二状态表示，包括：

获取对话机器人上一轮对话对用户模拟器的回复；

再一个实施例中，处理器91还用于执行：

再一个实施例中，处理器91采用以下公式计算所述第一匹配得分：

其中，score_k表示所述第一匹配得分，

表示所述预设对话目标，

表示所述本轮对话的回复语句中的槽位-槽值信息；

再一个实施例中，处理器91采用以下公式计算回报函数的值：r_k＝score_k-score_k-1，其中，r_k表示回报函数的值，score_k-1表示所述第二匹配得分。

示例性的，上述电子设备可以是服务器、云服务器、计算机主机、服务器集群等，电子设备包括但不仅限于处理器91、输入设备92、输出设备93以及计算机存储介质94。本领域技术人员可以理解，所述示意图仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

需要说明的是，由于电子设备的处理器91执行计算机程序时实现上述的用户模拟器构建方法中的步骤，因此上述用户模拟器构建方法的实施例均适用于该电子设备，且均能达到相同或相似的有益效果。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是电子设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器91加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器91的计算机存储介质。在一个实施例中，可由处理器91加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关用户模拟器构建方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器91加载并执行如下步骤：

基于所述本轮对话状态表示预测出本轮对话的对话目标；

基于所述对话目标生成本轮对话的回复语句；

再一种示例中，计算机存储介质中的一条或多条指令由处理器91加载时还执行如下步骤：

获取用户模拟器本轮对话的输入；

获取对话机器人上一轮对话对用户模拟器的回复；

再一种示例中，计算机存储介质中的一条或多条指令由处理器91加载时采用以下公式计算所述第一匹配得分：

其中，score_k表示所述第一匹配得分，

表示所述预设对话目标，

表示所述本轮对话的回复语句中的槽位-槽值信息；采用以下公式计算回报函数的值：r_k＝score_k-score_k-1，其中，r_k表示回报函数的值，score_k-1表示所述第二匹配得分。

示例性的，计算机存储介质的计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，由于计算机存储介质的计算机程序被处理器执行时实现上述的用户模拟器构建方法中的步骤，因此上述用户模拟器构建方法的所有实施例均适用于该计算机存储介质，且均能达到相同或相似的有益效果。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种用户模拟器构建方法，其特征在于，所述方法包括：

基于所述本轮对话状态表示预测出本轮对话的对话目标；

基于所述对话目标生成本轮对话的回复语句；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话的状态表示，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取用户模拟器的第一对话状态表示，包括：

获取用户模拟器本轮对话的输入；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述获取对话机器人的第二状态表示，包括：

获取对话机器人上一轮对话对用户模拟器的回复；

5.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，采用以下公式计算所述第一匹配得分：

其中，score_k表示所述第一匹配得分，

表示所述预设对话目标，

表示所述本轮对话的回复语句中的槽位-槽值信息；

7.一种用户模拟器构建装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，在根据所述第一对话状态表示和所述第二对话状态表示得到本轮对话的状态表示方面，所述状态跟踪模块具体用于：

9.一种电子设备，包括输入设备和输出设备，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-6任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-6任一项所述的方法。