CN110245221B

CN110245221B - 训练对话状态跟踪分类器的方法和计算机设备

Info

Publication number: CN110245221B
Application number: CN201910395608.1A
Authority: CN
Inventors: 尹伊淳; 尚利峰; 蒋欣; 陈晓
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2023-05-23
Anticipated expiration: 2039-05-13
Also published as: CN110245221A; WO2020228732A1

Abstract

本申请提供了训练对话状态跟踪分类器的方法和计算机设备。涉及人工智能领域。该方法包括对训练文本数据库中的文本进行扩展，得到增强数据库；使用增强数据库中的文本训练对话状态跟踪分类器。上述技术方案可以增加用于训练对话状态跟踪分类器的训练文本数量，从而可以提高对话状态跟踪分类器的性能。

Description

训练对话状态跟踪分类器的方法和计算机设备

技术领域

本申请涉及人工智能领域，更具体地，涉及训练对话状态跟踪分类器的方法和计算机设备。

背景技术

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

自然语言处理是人工智能领域的一个重要分支。对话系统是自然语言处理的一个应用方向。常见的对话系统包括自动对话机器人、语音助手等。与传统的检索不同，用户输入对话系统的文本通常是完整的句子，并且用户输入的文本通常是口语化的句子。因此，对话系统需要根据用户输入的文本理解并跟踪用户的需求，并根据用户的需求确定答复内容。

对话状态跟踪分类器(dialog state tracker，DST)负责在对话过程中理解并跟踪用户的需求，确定并输出会话状态。DST输出的会话状态表示了用户的需求。对话系统可以根据DST输出的会话状态，确定答复内容。

机器学习是现在常用的确定DST的方式。但是，机器学习过程需要高质量的训练文本。然而高质量的训练文本很难收集。换句话说，目前能够收集到的高质量的训练文本数量较少。除了高质量的训练文本数量较少外，目前能够收集到的高质量的训练文本的涉及的场景也较少。因此，训练样本的多样性也较差。由于用于机器学习的训练文本数量较少和多样性较差，通过机器学习得到的DST的性能也不会特别高。

发明内容

本申请提供一种训练对话状态跟踪分类器的方法和计算机设备，提供对话状态跟踪分类器的性能。

第一方面，本申请实施例提供一种训练对话跟踪分类器的方法，该方法包括：获取第一文本，该第一文本为训练文本数据库中的一个文本，该第一文本包括至少两个词组；从该第一文本中确定至少一个目标词组；根据该至少一个目标词组，确定P个第二文本，该P个第二文本中的每个第二文本包括一个扩展词组，该扩展词组是基于该至少一个目标词组中的一个确定的，P为大于或等于1的正整数；根据该第一文本和该P个第二文本，通过机器学习，训练对话状态跟踪分类器，该对话状态跟踪分类器用于根据获取到的用户的对话，跟踪该对话的状态。上述技术方案可以增加用于训练对话状态跟踪分类器的训练文本的样本数量可以提高训练出的对话状态跟踪分类器的性能，使得该对话状态跟踪分类器可以更加准确地确定用户表述内容中的槽位-槽位值，以及提高该对话状态跟踪分类器确定的意图的准确性和提高确定未填充槽位值的槽位的准确性

结合第一方面，在第一方面的一种可能的实现方式中，该根据该至少一个目标词组，确定P个第二文本，包括：确定与K₁个槽位对应的K₁个第一词组集合，其中该K₁个槽位分别为该至少一个目标词组中的K₁个目标词组的槽位，K₁为大于或等于1的正整数；确定P₁个第二文本，其中P₁个第二文本包括的扩展词组属于该K₁个第一词组集合，该P个第二文本包括该P₁个第二文本，P₁为大于或等于1的正整数。上述技术方案通过更改相同槽位的槽位值来实现增加用于训练对话状态跟踪分类器的训练文本数量。

结合第一方面，在第一方面的一种可能的实现方式中，该根据该至少一个目标词组，确定P个第二文本，包括：确定与K₂个词义对应的K₂个第二词组集合，其中该K₂个词义分别为K₂个目标词组的词义，K₂为大于或等于1的正整数；确定P₂个第二文本，其中P₂个第二文本包括的扩展词组属于该K₂个第二词组集合，该P个第二文本包括该P₂个第二文本，P₂为大于或等于1的正整数。上述技术方案基于词组的词义来实现增加用于训练对话状态跟踪分类器的训练文本数量。

结合第一方面，在第一方面的一种可能的实现方式中，该根据该第一文本和该P个第二文本，通过机器学习，训练对话状态跟踪分类器，包括：根据策略网络模型，从该P个第二文本中确定至少一个第二文本；使用该第一文本和该至少一个第二文本作为该机器学习的训练文本，训练该对话状态跟踪分类器。上述技术方案可以对第二文本进行筛选，过滤掉不适合用于训练对话状态跟踪分类器的第二文本。这样，可以提高用于训练对话状态跟踪分类器的文本的质量，从而提高训练出的对话状态跟踪分类器的性能。

结合第一方面，在第一方面的一种可能的实现方式中，该方法还包括：根据参考策略网络模型，从P个第二文本中确定T个第二文本，T为大于或等于1的正整数；根据初始对话状态跟踪分类器和该T个第二文本，确定评测结果；根据该评测结果，训练该参考策略网络模型得到该策略网络模型。

结合第一方面，在第一方面的一种可能的实现方式中，该根据初始对话状态跟踪分类器和该T个第二文本，确定评测结果：使用初始对话状态跟踪分类器，预测该T个第二文本中的每个第二文本的状态，得到T个预测结果，根据该T个预测结果，确定T个第一奖励值；或者使用该T个第二文本对该初始对话状态跟踪分类器进行训练；根据训练后的该初始对话状态跟踪分类器，确定T个第二奖励值。

结合第一方面，在第一方面的一种可能的实现方式中，该根据初始对话状态跟踪分类器和该T个第二文本，确定评测结果：使用初始对话状态跟踪分类器，预测该T个第二文本中的每个第二文本的状态，得到T个预测结果，根据该T个预测结果，确定T个第一奖励值；使用该T个第二文本对该初始对话状态跟踪分类器进行训练；根据训练后的该初始对话状态跟踪分类器，确定T个第二奖励值。

第二方面，本申请实施例提供了一种确定对话状态的方法，该方法包括：获取用户的对话；使用对话状态跟踪分类器跟踪所述对话的状态，其中该对话状态跟踪分类器是根据第一方面或第一方面的任一种可能的实现方式确定的。

第三方面，本申请实施例提供一种计算机设备，该计算机设备包括用于执行第一方面或第一方面的任一种可能的实现方式所述方法的单元。

可以选的，第三方面的计算机设备可以为计算机设备，或者可以为可用于计算机设备的部件(例如芯片或者电路等)。

第四方面，本申请实施例提供一种计算机设备，该计算机设备包括用于执行第二方面所述方法的单元。

可选的，第四方面的计算机设备可以为计算机设备、或者可以为用于计算机设备的部件(例如芯片或者电路等)。

第五方面，本申请实施例提供一种计算机设备，该计算机设备包括存储器和处理器，该存储器存储指令，该处理器调用该存储器中的指令执行第一方面或第一方面的任一种可能的实现方式所述的方法。

第六方面，本申请实施例提供一种计算机设备，该计算机设备包括存储器和处理器，该存储器存储指令，该处理器调用该存储器中的指令执行第二方面所述的方法。

第七方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储用于实现第一方面或第一方面的任一种可能的实现方式所述的方法的指令。

第八方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储用于实现第二方面所述的方法的指令。

第九方面，本申请提供了一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面或第一方面的任一种可能的实现方式所述的方法。

第十方面，本申请提供了一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第二方面所述的方法。

附图说明

图1是常见的对话系统的示意图。

图2是DST的工作示意图。

图3是根据本申请实施例提供的训练DST的示意性流程图。

图4是根据本申请实施例提供的训练策略网络模型的示意性流程图。

图5是利用该P个第二文本训练该策略网络模型的方法的示意性流程图。

图6是根据本申请实施例提供的计算机设备的结构框图。

图7是根据本申请实施例提供的计算机设备的结构框图。

具体实施方式

以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请以下各实施例中，“至少一个”、“一个或多个”是指一个、两个或两个以上。术语“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1是常见的对话系统的示意图。如图1所示，对话系统100包括可以包括语音识别(automatic speech recognition，ASR)模块101、对话状态跟踪分类器(dialog statetracker，DST)102、对话策略学习(dialogue policy learning，DPL)模块103、对话生成(natural language generation，NLG)模块104和语音播报(text to speech，TTS)模块105等实现。

(1)ASR模块101

ASR模块的主要作用是将用户的语音识别为文字内容。ASR模块可以获知用户在说什么，但其无法理解用户的意思，对语义的理解会交由NLU模块来处理。

(2)DST 102

DST可以用于理解用户的意图(intent)，进行槽位(slot)解析。

示例性的，用户表达：我母亲喜欢吃中餐，请问有什么可以推荐的么？

从这句话中，DST可以解析得出表1所示的内容。

表1

意图(intent)	“寻找餐馆”
		槽位(slot)	食物类型＝“中餐”

上述示例中提到了2个概念，分别是意图和槽位，下面对这两个概念进行详细解释。

意图

意图可以理解成是一个分类器，确定用户表达的这句话是哪个类型，进而由这个类型对应的程序做专门的解析。在一种实现方式中，“这个类型对应的程序”可以是机器人(Bot)，比如用户说：“给我放一首快乐的歌吧”，DST判断用户的意图分类是音乐，因此召唤出音乐机器人(Bot)给用户推荐一首歌播放，用户听着觉得不对的时候，说：“换一首”，还是这个音乐机器人继续为用户服务，直到用户表达别的问题，意图已经不是音乐的时候，再切换成别的机器人为用户服务。

槽位

当用户意图被确定之后，DST就需要进一步理解对话中的内容，为简便起见，可以选择最核心的部分进行理解，其他可以忽略，那些最重要的部分可以称之为槽位(Slot)，槽位的内容可以称为槽位值(value)。

在“寻找餐馆”这句话中包括了一个槽位，该槽位为“食物类型”，对应的槽位值为“中餐”。

如果要全面考虑用户寻找餐馆需要输入的内容，我们肯定能想到更多，比如餐馆的地点、价格等。对于对话系统的设计者来说，设计的起点就是定义槽位。换句话说，设计者需要设计完成用户查询的内容需要有哪些槽位。

还以“寻找餐馆”为例，设计者可以设计以下槽位：地点，价格，请求，食物类型。对话系统需要知道上述槽位的槽位值，才能够为用户提供合适的查询结果。

除了可以用于确定意图和槽位-槽位值外，DST还可以用于跟踪对话状态。对话状态可以理解为当前任务的槽位填充情况。槽位的填充情况可以包括槽位是否已被填充(即是否有对应的槽位值)，以及已填充的槽位值。换句话说，DST可以在确定了意图和槽位值后，继续确定与该意图对应的槽位中有哪些还没有对应的槽位值，并且对已经有的槽位值的进行概率。

示例性的，用户表达的是“我母亲喜欢吃中餐，请问有什么可以推荐的么？”。此时NLU模块可以确定用户的意图为“寻找餐馆”。与该意图对应的槽位为“地点”，“价格”，“请求”，“食物类型”。DST可以根据与“寻找餐馆”这一意图对应的槽位，确定出用户的表达的语句中只有“食物类型”一个槽位的槽位值。在此情况下DST可以确定缺失以下槽位的槽位值：“地点”，“价格”，“请求”。DST还可以确定“中餐”的概率。

本申请实施例提供了如何训练DST的方法，训练DST的具体实现方式可以参见图3至图5所示的方法。

(3)DPL模块103

DPL模块主要作用是根据DST输出的对话状态，确定后续处理策略。还以“我母亲喜欢吃中餐，请问有什么可以推荐的么？”。根据DST输出的对话状态，DPL模块可以发现“地点”，“价格”，“请求”这三个槽位的槽位值缺失。因此，DPL模块可以触发“反问餐馆信息”动作，并将这个动作传递给NLG模块。

(4)NLG模块104

NLG模块的主要作用是生成对话。例如，DPL模块在将“反问餐馆信息”动作传递给NLG模块后，NLG模块可以生成如下内容“找到是10家中餐店，请问您想在哪个地方就餐？”。

(5)TTS模块105

TTS模块的主要作用是向用户播报对话。TTS模块可以将NLG模块输出的内容进行文字-语音转换，通过输出装置向用户播报对话系统生成的对话。

可以理解的是，图1所示的对话系统100只是一种常见的可以应用本申请提供技术方案的对话系统。除了如图1所示的对话系统100外，其他对话系统也可以应用本申请提供的技术方案。例如，在一些实施例中，用户可以通过文字与对话系统进行对话。在此情况下，该对话系统可以不包括ASR模块和TTS模块。又如，在另一些实施例中，对话系统可以不包括ASR模块但是包括TTS模块。在此情况下，用户可以通过文字输入对话，对话系统可以通过语音进行回复。

另外，可以理解的是，图1所示的对话系统100中的各个模块划分，仅仅为一种可能的划分方式。除了如图1所示的划分方式外，对话系统中的各个模块还可以有其他的划分方式。例如，可以将图1所示系统100的一个模块按照功能划分为多个模块，不同模块具有不同的功能。又如，可以将图1所示的系统100中的两个或更多的模块合成一个模块。

图2是DST的工作示意图。如图2所示的DST200包括语义编码模块201、语义编码模块202、语义融合模块203、预测模块204和状态更新模块205。

假设用户和对话系统的对话流程如下：

用户：我母亲喜欢吃中餐，请问有什么可以推荐的么？

对话系统：找到是10家中餐店，请问您想在哪个地方就餐？

用户：只要价格便宜，地点无所谓。可以告诉我餐厅的名字和位置吗？

对话系统：张妈妈川味馆位于安德路100号。

语义编码模块201可以用于根据上一轮对话系统的回复内容，确定语义向量。语义编码模块202可以用于根据当前轮用户表述的内容，确定语义向量。为了便于描述，以下将语义编码模块201确定的语义向量称为语义向量1，将语义编码模块202确定的语义向量称为语义向量2。

语义融合模块203可以用于获取语义编码模块201确定的语义向量1和语义编码模块202确定的语义向量2；对语义向量1和语义向量2进行融合，确定一个新的融合语义向量。

预测模块204可以根据语义融合模块203确定的融合语义向量，对可能的槽位-槽位值二元组进行概率预测。预测的概率最大的槽位值可以作为预测的槽位值。

状态更新模块205可以根据上一轮根据用户的表述内容确定的槽位-槽位值和当前轮用户的表述内容确定的槽位-槽位值，确定当前轮累计的槽位-槽位值。

如图2所示，输入到语义编码模块201的上一轮对话系统的回复内容为“找到10家中餐店，请问您想在哪个地方就餐？”，输入到语义编码模块202的当前轮用户表述的内容为“只要价格便宜，地点无所谓。可以告诉我餐厅的名字和位置吗？”。预测模块204确定的预测结果如图2所示。为了简洁，图2中并未示出所有槽位-槽位值的预测结果。

还如图2所示，状态更新模块205根据上一轮根据用户的表述内容确定的槽位-槽位值为<食物类型，中餐>，根据当前轮用户表述的内容确定的槽位-槽位值为<价格，便宜>、<地点，无需求>、<请求，名字>、<请求，位置>。状态更新模块205确定的当前轮累计的槽位-槽位值为：<食物类型，中餐>、<价格，便宜>、<地点，无需求>、<请求，名字>、<请求，位置>。

本申请实施例提供一种训练DST的方法。计算机设备可以对训练文本数据库中的文本进行扩充，增加可以用于训练DST的训练文本，并利用扩充后的训练文本训练DST。为了便于描述，以下以一个文本为例，介绍计算机设备如何扩充文本，以及如何利用扩充后的文本训练DST。

图3是根据本申请实施例提供的训练DST的示意性流程图。图3所示的方法可以由计算机设备执行。本申请实施例对该计算机设备的具体形式并不进行限定，例如该计算机设备可以是个人计算机、膝上型计算机(laptop)、平板电脑、工作站、或者服务器等。图3所示方法训练得到的DST可以实现图1中的DST 102或者如图2所示的DST的功能。

301，计算机设备获取第一文本，该第一文本为训练文本数据库中的一个文本，该第一文本包括至少两个词组。

本申请实施例中所称的词组可以是n元词组(n-gram)，n为大于或等于1的正整数。N元词组表示由n个连续的词组成的文本片段。例如，一元词组是由一个词组成的文本片段；二元词组是由两个词组成的文本片段；三元词组是由三个词组成的文本片段。

可选的，在一些实施例中，训练文本数据库中的文本的粒度可以为句子。换句话说，训练文本数据库中的每个文本是一个句子。

可选的，另一些实施例中，训练文本数据库中的文本的粒度可以是由多个n元词组组成的文本片段，该文本片段可能并不是一个完整的句子。

可选的，在另一些实施例中，训练文本数据库中的文本的粒度可以是由多个句子组成的文本。

为了便于描述，以下假设训练文本数据库中的文本的粒度为句子。换句话说，该第一文本是一个由至少两个词组组成的句子。

本申请实施例对该训练文本数据库的保存位置并不限定。例如，该训练文本数据库可以保存在该计算机设备内的存储装置中。又如，该训练文本数据库保存在一个外部接的直连式存储装置中，例如移动硬盘、U盘等。又如，该训练文本数据库可以保存在其他计算机设备中，例如服务器、网络附加存储设备(Network Attached Storage，NAS)中。

302，该计算机设备从该第一文本中确定至一个目标词组。

303，该计算机设备根据该至少一个目标词组，确定P个第二文本，该P个第二文本中的每个第二文本包括一个扩展词组，该扩展词组是基于该至少一个目标词组中的一个确定的，P为大于或等于1的正整数。

换句话说，步骤303的目的是通过确定对应于目标词组的扩展词组，将第一文本扩展为多个文本(即P个第二文本)。

如上假设，第一文本中是由至少两个词组组成的句子，但是并不需要为所有词组都确定一个或多个对应的扩展词组。因此，需要从该第一文本中确定目标词组，并确定对应于目标词组的一个或多个扩展词组。在确定出来了一个或多个扩展词组后，使用一个扩展词组替换第一文本中与该扩展词组对应的目标词组，得到一个第二文本。第二文本中的非目标词组以及与该扩展词组不对应的目标词组与第一文本相同。

例如，假设第一文本为“我想找一个便宜的中餐餐馆”。该计算机设备通过对该第一文本进行分词，可以确定该第一文本中包括以下词组：“我”，“想找”，“一个”，“便宜”，“的”，“中餐”，“餐馆”。根据预设的扩展规则，可以确定“便宜”和“中餐”这两个词组为目标词组。对应于“便宜”的扩展词组可以包括“实惠”和“消费低”。对应于“中餐”的扩展词组可以包括“日餐”和“法餐”。因此，根据“我想找一个便宜的中餐馆”确定出的第二文本可以包括：

第二文本1：我想找一个便宜的日餐餐馆。

第二文本2：我想找一个便宜的法餐餐馆。

第二文本3：我想找一个实惠的中餐餐馆。

第二文本4：我想找一个消费低的中餐餐馆。

预设的扩展规则可以包括两种：一种预设的扩展规则可以是基于槽位-槽位值的扩展规则；另一种预设的扩展规则可以是基于词义的扩展规则。为了便于描述，以下将基于槽位-槽位值的扩展规则简称为第一扩展规则，将基于词义的扩展规则简称为第二扩展规则。

该计算机设备可以确定第一文本中的词组是否包括可以使用第一扩展规则进行扩展的词组。更具体地，该计算机设备可以确定第一文本的词组中是否有可以作为槽位的槽位值的词组；若该第一文本中的词组中有一个或多个可以作为槽位的槽位值的词组，则该计算机设备可以确定这些词组为目标词组。为了便于区分，以下将可以作为槽位值的词组称为第一类目标词组。

例如，该计算机设备可以通过搜索槽位值数据库来确定该第一文本中的词组是否是可以作为槽位的槽位值的词组。槽位值数据库由可以作为槽位值的词组组成。该计算机设备在对该第一文本进行分词，得到组成该第一文本的多个词组后，可以对该槽位值数据库进行搜索，确定该第一文本中的每个词组是否在该槽位值数据库中。若该第一文本中的一个或多个词组在该槽位值数据库中，则可以确定该一个或多个词组为第一类目标词组。

该计算机设备在确定了第一类目标词组的情况下，可以确定每个第一类目标词组所对应的槽位。

例如，假设该计算机设备是通过搜索槽位值数据库来确定第一类目标词组的。该槽位值数据库中还可以包括每个槽位值对应的槽位。因此，该计算机设备在确定了一个词组为该第一类目标词组的情况下，还可以确定该词组对应的槽位。

还以第一文本“我想找一个便宜的中餐餐馆”为例，该计算机设备可以确定“中餐”为一个可以作为槽位值的词组。该计算机设备还可以确定对应于“中餐”的槽位为“食物类型”。

该计算机设备还可以确定第一文本中的词组是否包括可以使用第二扩展规则进行扩展的词组。更具体地，该计算机设备可以确定该第一文本的词组中是否有一些符合特定规则的词组；若该第一文本的词组中有一个或多个符合该特定规则的词组，则该计算机设备可以确定这些词组为目标词组。为了便于区分，以下将符合该特定规则的词组称为第二类目标词组。

例如，通常情况下，替换一个文本中词性为人称代词、冠词、介词、助词等的词组并不会对训练DST有很大的帮助。而替换词性为形容词、副词等的词组对训练DST的帮助较大。因此，该特定规则可以是词性为预设的词性的词组为该第二类目标词组。在此情况下，该计算机设备可以确定该第一文本中的每个词组的词性。如果词组的词性属于预设的词性，则可以确定该词组是第二类目标词组。该预设的词性可以是形容词和副词中的至少一个。

又如，该计算机设备可以确定词组重要性来确定该词组是否是第二类目标词组。如果该词组是一个重要词组，则该词组可以是第二类目标词组。如果该词组不是一个重要词组，那么该词组可以不是该第二类目标词组。可选的，在一些实施例中，词组的重要性可以通过词组在训练文本数据库中出现的频率。词组出现的频率可以通过包括该词组的文本数目与训练文本数据库中包括的总文本数目的比值来确定。如果一个词组在训练文本数据库中出现的频率超过一个预设频率阈值，则可以确定该词组是一个第二类目标词组。可选的，在另一些实施例中，词组的重要性可以通过词组在训练文本数据库中出现的次数来确定。如果一个词组在训练文本数据库中出现的次数超过一个预设次数阈值，则可以确定该词组是一个第二类目标词组。

还以第一文本“我想找一个便宜的中餐馆”为例。假设该计算机设备是通过词性来确定该第二类目标词组的。那么，该计算机设备可以确定该第一文中有一个词性为形容词的词组，即“便宜”。在此情况下，该计算机设备可以确定“便宜”是一个第二类目标词组。

在确定了至少一个目标词组后，该计算机设备可以根据每个目标词组确定至少一个扩展词组。

假设该至少一个目标词组中包括K₁个第一类目标词组，该计算机设备可以确定与K₁个槽位对应的K₁个第一词组集合，该K₁个第一词组集合中的每个第一次词组集合包括至少一个词组，K₁为大于或等于1的正整数。假设该计算机设备共确定了K个目标词组。可以理解的是，K为大于或等于1且大于或等于K₁的正整数。该K₁个槽位分别为该K₁个目标词组的槽位。换句话说，K₁个槽位中的第K₁_n个槽位为第K₁个第一类目标词组中的第K₁_n个第一类目标词组的槽位。该K₁个第一词组集合中的第K₁_n个第一词组集合中的任一个词组的槽位为第K₁_n个槽位。K₁_n等于1，……，K₁。

例如，假设K₁为10，该10个第一类目标词组中的第5个第一类目标词组的槽位为“食物类型”，则10个第一次词组集合中与该第一类目标词组对应的第一次词组集合(假设为第5个第一词组集合)中的任一个词组对应的槽位为“食物类型”。假设第5个第一词组集合中包括两个词组，分别为“日餐”和“法餐”。在此情况下，该计算机设备可以确定分别使用“日餐”和“法餐”替换第一文本中的“中餐”，从而得到上述第二文本1(即，我想找一个便宜的日餐餐馆)和第二文本2(即，我想找一个便宜的法餐餐馆)。

可选的，在一些实施例中，该计算机设备可以根据第一对应关系确定出与该K₁个槽位对应的K₁个第一词组集合。该第一对应关系包括多个槽位与多个第一词组集合的对应关系。每个第一词组集合中的任一个词组的槽位与该第一词组集合对应的槽位相同。

假设该至少一个目标词组中包括K₂个第二类目标词组，该计算机设备可以确定与K₂个词义对应的K₂个第二词组集合，K₂为大于或等于1的正整数。类似的，假设该计算机设备共确定了K个目标词组。可以理解的是，K为大于或等于1且大于或等于K₂的正整数。此外，若K₁与K₂的值均不等于K，则K₁与K₂的和为K。换句话说，该计算机设备共确定了K个目标词组，其中K₁个为第一类目标词组，K₂个为第二类目标词组。该K₂个词义分别为K₂个第二类目标词组的词义。换句话说，K₂个词义中的第K₂_n个词义为第K₂个第二类目标词组中的第K₂_n个第二类目标词组的词义。该K₂个第二词组集合中的第K₂_n个第二词组集合中的任一个词组的词义与第K₂_n个词义相对应。K₂_n等于1，……，K₂。

可选的，在一些实施例中，两个词组的词义相对应可以是指两个词组的词义相同。可以称这两个词中的任一个词是另一个词的释义(paraphrase)，即一个词是另一个词的另一种表达方式。例如，“便宜”的释义可以为“实惠”和“消费低”。

可选的，在另一些实施例中，两个词组的词义相对应除了可以指两个词组的词义相同外，还可以是指这两个词组互为反义词。例如，与“便宜”对应的词组可以为“贵”和“消费高”。

可选的，在一些实施例中，该计算机设备可以根据第二对应关系确定出与K₂个词义对应的K₂个第二词组集合。该第二对应关系包括多个词义与多个第二词组集合的对应关系。每个第二词组集合中的任一个词组的词义与该第二词组集合对应的词义相同。

可选的，在一些实施例中，该计算机设备可以根据同义词数据库来确定与每个第二类目标词组对应的第二词组集合。

可选的，在另一些实施例中，该计算机设备可以根据同义词数据库或反义词数据库来确定与每个第二类目标词组对应的第二次组集合。

可选的，在另一些实施例中，该计算机设备可以利用现有的释义语料库来确定与每个第二类目标词组对应的第二词组集合。例如，释义数据库(http://paraphrase.org)是一个目前被广泛使用的释义语料库。利用该释义数据库，可以确定与每个第二类目标词组对应的一组词组集合。利用释义数据库确定的一组词组集合中的部分词组的词义和对应于该词组集合的词组的词义可能并不完全相同或者相反。以expensive(昂贵的)为例，利用该释义数据库得到的词组集合中除了包括如costly、pricey等同义词和cheap(便宜的)、inexpensive(不昂贵的)等反义词外，还包括诸如onerous(繁重的)、burdensome(累赘的)等与昂贵的词义既不是反义词也不是同义词的词组。出现上述问题的原因是该释义数据库的建立方式决定的，在此就不必详细描述。因此，如果该K₂个第二词组集合是利用释义数据库确定的，那么即使第二词组集合中的一个词组和对应于该第二词组集合的第二类目标词组的词义不完全相同或相反，也可以称这两个词组是对应的。

假设基于“便宜”确定的第二词组集合包括“实惠”和“消费低”这两个词组，则该计算机设备可以确定分别使用“实惠”和“消费低”替换第一文本中的“便宜”，从而得到上述第二文本3(即，我想找一个实惠的中餐餐馆)和第二文本4(即，我想找一个消费低的中餐餐馆)。

可以理解的是，在上述第一文本“我想找一个便宜的中餐馆”中包括第一类目标词组和第二类目标词组。训练文本数据库中的一些文本可能包括第一类目标词组和第二类目标词组，训练文本数据库中的一些文本可能只包括第一类目标词组和第二类目标词组中的一个。在一些实施例中，训练文本数据库中的一些文本可能不包括第一类目标词组和第二类目标词组中的任一个。对于这种文本(即不包括第一类目标词组和第二类目标词组中的任一个)，该计算机设备可以不进行扩展，直接使用该文本。

304，该计算机设备根据该第一文本和P个第二文本，通过机器学习，训练DST。

可选的，在一些实施例中，该计算机设备可以直接使用该第一文本和P个第二文本作为机器学习的训练文本，训练该DST。该计算机设备训练DST的具体实现方式与现有的实现方式相同，为了简洁，在此就不必赘述。

可以理解的是，在一些实施例中，该计算机设备还可以使用该第一文本和该P个第二文本中的部分文本作为机器学习的训练文本，训练该DST。例如，该计算机设备可以使用该第一文本和该P个第二文本中的部分文本，训练该DST。又如，该计算机设备可以使用该P个第二文本或者该P个第二文本中的部分第二文本训练该DST。

可选的，在一些实施例中，该计算机设备选择该P个第二文本中的部分文本作为机器学习的训练文本的方式可以是随机选择。

可选的，在另一些实施例中，该计算机设备可以使用该P个第二文本，训练策略网络模型，利用该策略网络模型从该P个第二文本中选择至少一个第二文本作为机器学习的训练文本。

可选的，在一些实施例中，该计算机设备可以利用强化学习算法或进化算法训练该策略网络模型。更具体地，该计算机设备可以利用上下文赌博机(contextual bandit)算法、遗传算法等训练该策略网络模型。

下面以上下文赌博机算法为例，对如何训练该策略网络模型进行简单介绍。

401，计算机设备从训练文本数据库中确定M个文本。M为大于或等于1的正整数，且M的值小于训练文本数据库包括的总文本数量。

可选的，在一些实施例中，该计算机设备可以随机从训练文本数据库中挑选出该M个文本。

可选的，在另一些实施例中，该计算机设备可以按照一定的规则从训练文本数据库中挑选出该M个文本。

例如，该计算机设备可以根据训练文本数据库中每个训练文本扩展得到的文本数量，确定该M个文本。如果该训练文本书库中的部分文本(以下简称第一部分文本)扩展得到的文本数量多于另一部分文本(以下简称第二部分文本)，则该计算机设备可以确定出的M个文本中属于该第一部分文本的文本多于属于该第二部分文本的文本。该计算机设备可以从该第一部分文本和该第二部分文本中挑选属于该M个文本的文本的方式可以是随机的，也可以是按照一定顺序的。

又如，如果训练数据库中的部分文本(以下简称第三部分文本)基于上述第一扩展规则扩展出的文本数目大于基于第二扩展规则扩展出的文本数目，该训练文本中的另一部分文本(以下简称第四部分文本)基于上述第二扩展规则扩展出的文本数目大于基于第一扩展规则扩展出的文本数目，则该计算机设备可以确定出的M个文本中属于该第三部分文本的文本多于属于该第四部分文本的文本。该计算机设备可以从该第三部分文本和该第四部分文本中挑选属于该M个文本的文本的方式可以是随机的，也可以是按照一定顺序的。

402，该计算机设备从第一增强数据库中确定M个扩展文本片段集合，其中该M个扩展文本片段集合与该M个文本一一对应。

为了便于描述，以下将图3中基于第一文本确定P个第二文本的方式称为粗粒度数据增强策略。该第一增强数据库是对该训练文本数据库中的文本按照粗粒度数据增强策略扩展后得到的文本组成的数据库。换句话说，该第一增强数据库中的每个文本是根据训练文本数据库中的一个文本生成的。该第一增强数据库中并不包括训练文本数据库中的文本。

例如，假设训练文本数据库中共包括1000个句子。计算机设备可以利用粗粒度增强策略，将这1000个句子扩展为20000个句子，这20000个句子中不包括训练文本数据库中的1000个句子。可以理解的是，这1000个句子中可能存在三类句子：第一类句子中包括上述第一类目标词组和上述第二类目标词组；第二类句子仅包括上述第一类目标词组和第二类目标词组中第一个；第三类句子可能即不包括第一类目标词组也不包括第二类目标词组。对于该1000个句子中的每个第一类句子和第二类句子，该计算机设备可以利用图3所示的方法，进行扩展，得到20000个句子。这20000个句子组成的数据库就是该第一增强数据库。该第一增强数据库中不包括训练文本数据库中的1000个句子。

上述实施例中，第一增强数据库中包括文本的粒度与根据训练文本数据库中的文本粒度相同。例如，如果训练文本数据库中的粒度是句子，则第一增强数据库中的文本的粒度也是句子。在另一些实施例中，第一增强数据库中包括文本的粒度可以与根据训练文本数据库中的文本粒度不同。例如，如果训练文本数据库中的粒度是句子，则第一增强数据库中的文本的粒度也是扩展词组或者包括扩展词组的部分句子。

还以上述第一文本“我想找一个便宜的中餐馆”为例。在一些实施例中，第一增强数据库中的文本包括的对应于该文本的文本可以包括上述第二文本1至第二文本4。在另一些实施例中，第一增强数据库中的文本包括的对应于该文本的文本可以包括“日餐”、“法餐”、“实惠”和“消费低”。在另一些实施例中，第一增强数据库中的文本包括的对应于该文本的文本可以包括“日餐餐馆”、“法餐餐馆”、“实惠的中餐餐馆”和“消费低的中餐餐馆”。

可选的，在一些实施例中，第一增强数据库中的每个文本可以包括一个源指示信息，该源指示信息可以用于指示训练文本数据库中的一个文本。该源指示信息所指示的文本是用于生成包括该源指示信息的文本的文本。

可选的，在另一些实施例中，第一增强数据库可以以集合的形式保存文本。每个集合包括至少一个文本，该至少一个文本是由训练文本数据库中的同一个文本进行粗粒度增强策略扩展得到的。类似的，每个集合可以包括一个源指示信息，该源指示信息可以用于指示可以用于指示训练文本数据库中的一个文本。该指示信息所指示的文本就是用于生成该集合中的文本的文本。

该计算机设备在从训练文本数据库中确定了M个文本后，可以根据第一增强数据库中的源指示信息，确定出与该M个文本对应的M个扩展文本片段集合。

扩展文本片段集合与文本对应是指扩展文本片段集合中包括的扩展文本片段是根据对应的文本中的目标词组确定的。

可选的，在一些实施例中，扩展文本片段可以是扩展词组。在另一些实施例中，扩展文本片段可以是包括扩展词组的完整文本。在另一些实施例中，扩展文本片段还可以是包括扩展词组的部分文本。

还以上述第一文本“我想找一个便宜的中餐馆”为例。在一些实施例中，对应于该文本的扩展文本片段集合包括上述第二文本1至第二文本4。在另一些实施例中，对应于该文本的扩展文本片段集合包括“日餐”、“法餐”、“实惠”和“消费低”。在另一些实施例中，对应于该文本的扩展文本片段集合包括“日餐餐馆”、“法餐餐馆”、“实惠的中餐餐馆”和“消费低的中餐餐馆”。

相应的，与该M个扩展文本片段对应的M个文本中包括目标词组的文本片段可以称为目标文本片段。类似的，在一些实施例中，该目标文本片段可以是目标词组。在另一些实施例中，该目标文本片段可以是包括目标词组的完整文本。在另一些实施例中，目标文本片段还可以是包括目标词组的部分文本。

还以上述第一文本“我想找一个便宜的中餐馆”为例。在一些实施例中，对应于该文本的目标文本片段可以是该第一文本。在另一些实施例中，目标文本片段可以包括“便宜”和“中餐”。在另一些实施例中，目标文本片段可以包括“便宜”和“中餐餐馆”。

403，该计算机设备根据参考策略网络模型，从与该M个训练文本对应的M个扩展文本片段集合中的每个扩展文本片段集合中挑选1个扩展文本片段。为了便于描述，可以将根据参考策略网络模型从扩展文本片段集合中挑选出的扩展文本片段称为候选文本片段。

换句话说，通过步骤403，该计算机设备可以根据参考策略网络模型，确定1个候选文本片段集合，该候选文本片段集合包括M个候选文本片段，该M个候选文本片段分别来自于M个扩展文本片段集合。

该计算机设备可以重复执行T次步骤403，共确定T个候选文本片段集合。T为大于或等于1的正整数。

M和T的取值是预先设定的。可以理解的是，如果M和T的取值越大，那么该计算机设备确定的候选文本片段集合就越多，训练出来的策略网络模型挑选文本的效果就越好，但是训练所耗费的时间也越长；相反，如果M和T的取值越小，那么计算机设备确定的候选文本片段集合就越少，训练处的策略网络模型挑选文本的效果就较差，但是训练所耗费的时间会相应减少。因此，可以根据该计算机设备的性能和/或实际需求，选择M和T的取值。例如，若希望能够得到更好的策略网络模型，则可以选择较大的M和T的取值。又如，若希望能够更快的确定一个策略网络模型，则可以选择较小的M和T的取值。此外，不同性能的计算机设备在相同时间内训练策略网络模型的效果可能不同。例如，如果训练算法相同，那么在相同的时间内，性能越好的计算机设备训练得到的策略网络模型的效果就越好。因此，若计算机设备的性能越好，则可以选择较大的M和T的取值。若计算机设备的性能较差，则可以选择较小的M的取值。

404，该计算机设备根据初始DST，对挑选出的M个候选文本片段集合进行评测，得到评测结果。

可选的，在一些实施例中，该计算机设备可以根据该初始DST对该M个候选文本片段集合进行单样本评测，得到评测结果。

可选的，在另一些实施例中，该计算机设备可以根据该初始DST对该M个候选文本片段集合进行样本集合评测，得到评测结果。

可选的，在另一些实施例中，该计算机设备可以根据该初始DST对该M个候选文本进行单样本评测以及样本集合评测，得到评测结果。

可选的，在一些实施例中，该初始DST可以是按照现有训练DST的方式，使用该训练文本数据库中的文本作为机器学习的训练文本进行训练得到的DST。

可选的，在另一些实施例中，该参考DST可以是按照一个预先设定好的较低(例如低于80％或者更低)的准确率，使用一些文本训练得到的。

该计算机设备进行单样本评测可以包括：该计算机设备使用初始DST预测该M个候选文本片段集合中的每个候选文本片段的状态，根据预测结果，确定对应于个每个候选文本片段的第一奖励值。该M个候选文本片段集合共包括M×T个候选文本片段，相应的，该评测结果中共包括M×T个第一奖励值。

如果对一个候选文本片段的预测结果符合预设要求，则该计算机设备可以确定该候选文本片段的第一奖励值是一个正向激励；如果对一个候选文本片段的预测结果不符合预设要求，则该计算机设备可以确定该候选文本片段的第一奖励值是一个反向激励。

正向激励的第一奖励值是大于反向激励的第一奖励值。

例如，在一些实施例中，正向激励的第一奖励值可以是大于0的数，例如1；反向激励的第一奖励值可以是小于0的数，例如-1。

又如，在另一些实施例中，正向激励的第一奖励值和反向激励的第一奖励值都可以大于0，但是正向激励的第一奖励值大于反向激励的第一奖励值。例如，正向激励的第一奖励值为10，反向激励的第一奖励值为1。

根据候选文本片段中的扩展词组的确定方式的不同，预测结果的预设要求也不相同。

对于一个基于第一扩展规则确定的候选文本片段中的扩展词组(即该候选文本片段中的扩展词组是根据第一类目标词组确定的，为便于描述，以下称这种候选文本片段为第一类候选文本片段)。第一类候选文本片段的标签是该候选文本片段中的扩展词组的槽位。预测的标签与实际标签相同为不符合预设要求，预测的标签与实际的标签不同，为符合预设要求。换句话说，如果该初始DST对第一类候选文本片段进行预测得到的标签与该第一类候选文本片段中的扩展词组的实际的标签相同，则表示对该第一类候选文本片段的预测结果不符合要求。在此情况下，该计算机设备可以确定对应于该第一类候选文本片段的第一奖励值是一个反向激励。如果该初始DST对于一个第一类候选文本片段进行预测得到的标签与该第一类候选文本片段中的扩展词组的实际的标签不相同，则表示对该第一类候选文本片段的预测结果符合要求。在此情况下，该计算机设备可以确定对应于该第一类候选文本片段的第一奖励值是一个正向激励。

对于一个基于第二扩展规则确定的候选文本片段中的扩展词组(即该候选文本片段中的扩展词组是根据第二类目标词组确定的，为便于描述，以下称这种候选文本片段为第二类候选文本片段)。第二类候选文本片段的标签是该候选文本片段中的扩展词组的词义。预测的标签与实际标签相同为符合预设要求，预测的标签与实际的标签不同，为不符合预设要求。换句话说，如果该初始DST对第二类候选文本片段进行预测得到的标签与该第二类候选文本片段中的扩展词组的实际的标签相同，则表示对该第二类候选文本片段的预测结果符合要求。在此情况下，该计算机设备可以确定对应于该第二类候选文本片段的第一奖励值是一个反向激励。如果该初始DST对于一个第二类候选文本片段进行预测得到的标签与该第二类候选文本片段中的扩展词组的实际的标签不相同，则表示对该第二类候选文本片段的预测结果不符合要求。在此情况下，该计算机设备可以确定对应于该第二类候选文本片段的第一奖励值是一个正向激励。

该计算机设备进行样本集合评测是指该计算机设备使用一个候选文本片段集合训练该初始DST，得到训练后的初始DST。为了便于描述，以下将训练后的DST称为参考DST。该计算机设备在得到该参考DST后，可以根据该参考DST，确定对应于该候选文本片段集合的第二奖励值。该第二奖励值就是该对应的候选文本片段的样本集合评测结果。

该计算机设备使用一个候选文本片段集合包括的T个候选文本片段训练初始DST的过程与现有训练DST的过程相同，为了简洁，在此就不必详细描述。

若初始DST预测的准确率太高，例如高于90％或者更好，那么再通过训练该初始DST来提高预测准确率比较困难。因此，所选择的该初始DST可以是预测准确率较低的DST。例如，该初始DST预测的准确率可以低于90％，甚至低于80％。

可以理解的是，该计算机设备根据该初始DST进行样本集合评测可以包括：计算机设备根据该M个候选文本片段集合对初始DST进行训练；根据训练后得到的DST，确定T个第二奖励值。

该计算机设备根据该M个候选文本片段集合对初始DST进行训练，可以包括：该计算机设备分别使用T个DST训练文本集合对该初始DST进行训练。在此情况下，该计算机设备可以得到T个训练后的初始DST。为了便于描述，以下将训练后的初始DST称为参考DST。该T个DST训练文本集合是根据该M个候选文本片段集合确定的。该T个DST训练文本集合中的每个训练文本集合包括M个候选文本片段，该M个候选文本片段分别来自于该M个候选文本片段集合。具体地，该T个DST训练文本集合中的第i个DST训练文本集合中包括M个候选文本片段，该M个候选文本片段中的第j个候选文本片段是该M个候选文本片段集合中的第j个候选文本片段集合中的第i个候选文本片段。

该计算机设备可以分别根据该T个参考DST，确定T个第二奖励值。该计算机设备根据该参考DST，确定第二奖励值可以包括：该计算机设备确定参考DST预测标签的准确率是否高于初始DST预测标签的准确率；根据预测标签的准确率是否有提升，确定第二奖励值。如果预测标签的准确率有提升，则可以第二奖励值是一个正向激励；如果预测标签的准确率没有提升或者降低，则该第二奖励值是一个反向激励。

正向激励的第二奖励值是大于反向激励的第二奖励值。

例如，在一些实施例中，正向激励的第二奖励值可以是大于0的数，例如1；反向激励的第二奖励值可以是小于0的数，例如-1。

又如，在另一些实施例中，正向激励的第二奖励值和反向激励的第二奖励值都可以大于0，但是正向激励的第二奖励值大于反向激励的第二奖励值。例如，正向激励的第二奖励值为10，反向激励的第二奖励值为1。

该计算机设备可以使用初始DST和参考DST对同一组文本进行标签预测来判断预测标签的准确率是否有提升。这一组用于衡量初始DST和参考DST的性能(即预测标签的准确率)的文本可以称为验证集。可选的，在一些实施例中，该验证集可以是用于训练初始DST的一个候选文本片段集合。可选的，在另一些实施例中，验证集可以是M个候选文本片段集合中的任一个候选文本片段集合。

若该计算机设备同时进行单样本评测和样本集合评测，则该计算机设备确定的评测结果包括M×T个第一奖励值和T个第二奖励值。

405，该计算机设备利用该评测结果训练参考策略网络模型。

策略网络模型可以表示为：

其中π_θ(s,p′)表示基于上下文状态s，对候选文本片段p′进行概率预测。s从三元组<x,y,p>和候选文本p′抽取出来的向量表征。P表示目标文本片段。f(s,p′)是使用全连接网络计算得到的，表示p被p′替换的概率。由于每个目标文本片段可以对应多个扩展文本片段。因此，公式1.1中使用了归一化的方式表示策略网络模型。公式1.1中的C_p表示对应于一个目标文本片段的全部候选文本片段的集合。

表示C_p中的任一个候选文本片段。

表示对C_p中的所有p′的全连接网络计算得到的值的和，即p被C_p的每个p′替换的概率的和。

可以看出，奖励值(包括第一奖励值和第二奖励值)越大，则意味着预测的结果更符合要求，参考策略网络模型挑选的候选文本片段越适合用于作为训练DST的训练文本。因此可以期望最大化奖励信号来训练参考策略网络模型，得到更优的策略网络模型。

可选的，在一些实施例中，该计算机设备可以通过梯度学习，训练该参考策略网络模型中的参数。期望奖励信号可以等于该参考策略网络的梯度。

该参考策略网络的梯度可以近似为：

其中

表示梯度参数，π_θ表示参考策略网络的参数，s'_i,j表示原始样本集合的第i个样本的第j次采样得到的状态，p′_i,j表示原始样本集合的第i个样本的第j次采样得到的替换文本，/>

表示样本集合i评测的奖励值(即第二奖励值)，/>

表示样本集合i中的第j次采样的评测的奖励值(即第一奖励值)。该原始样本集合是指步骤402确定的M个扩展文本片段集合。第i个样本是指T个DST训练文本集合中的中的第i个DST训练文本集合。第i个样本的第j次采样是第i个DST训练文本集合中的第j个候选文本片段。

除了利用梯度学习训练参考策略网络模型外，该计算机设备还可以利用其它方式训练该参考策略网络模型。例如，该计算机设备可以利用随机梯度下降(stochasticgradient descent，SGD)、自适应矩估计(Adaptive Moment Estimation，Adam)等方法来训练该参考策略网络模型。

该计算机设备在依次执行完步骤401至步骤405后，可以重新执行步骤401至405。换句话说，该计算机设备可以按照步骤401至步骤405的顺序，循环执行图4所示的方法。如果计算机设备确定循环次数大于一个预设次数N，则可以停止循环。确定第N次执行步骤405时训练的参考策略网络模型为用于从该P个第二文本中选择至少一个第二文本作为机器学习的训练文本的策略网络模型。该计算机设备可以设置一个初始策略网络模型。该计算机设备在第一次循环时可以使用该初始策略网络模型挑选候选文本片段。换句话说，该计算机设备在N次循环中的第一次执行图4所示的方法时，执行步骤403时使用的参考策略网络模型为初始策略网络模型。如上所述，该计算机设备可以循环T次执行步骤403。在循环T次执行步骤403时，该计算机设备使用的参考策略网络模型是相同的。计算机设备在第2次至第N次执行图4所示的方法时，在循环T次执行步骤403时使用的参考策略网络模型是上一次执行步骤405时训练得到的参考策略网络模型。换句话说，在第t次执行图4所示方法时，步骤403中的参考策略网络模型为第t-1次执行图4所示的方法的步骤405时确定的该参考策略网络模型，t为大于或等于2且小于或等于N的正整数。

如上所述，在确定第二文本的过程中，该计算机设备确定的一些扩展文本可能并不合适。例如，在利用释义数据库确定的一组词组集合中的部分词组的词义和对应于该词组集合的词组的词义可能并不完全相同或者相反。根据这些词组生成的第二文本并不适合用来训练DST。利用图4所示的方法确定的策略网络模型，可以对第二文本进行筛选，过滤掉不适合用于训练DST的第二文本。这样，可以提高用于训练DST的文本的质量，从而提高训练出的DST的性能。

下面以一个扩展文本片段集合为例，对图4所示的训练策略网络模型的方法进行进一步的描述。

假设图3所示方法中的第一文本是图4所示方法的步骤401中确定的M个文本中的一个。假设扩展文本片段为包括扩展词组的完整文本。那么，对该第一文本进行扩展得到的P个第二文本可以做为一个扩展文本片段集合。

501，该计算机设备使用参考策略网络模型，从该P个第二文本中选择一个第二文本。

该计算机设备可以执行T次步骤501。换句话说，该计算机设备总共从该P个第二文本中确定了T个第二文本。P的取值可以大于T，也可以小于T。该T个第二文本中可能会出现重复的文本。该T个第二文本即为T个候选文本片段。该T个第二文本分别属于M个候选文本片段集合。

502，该计算机设备根据初始DST，对该T个第二文本进行评测，得到评测结果。

可选的，在一些实施例中，该计算机设备根据初始DST，对该T个第二文本进行评测，包括：该计算机设备可以对该T个第二文本进行单样本评测。

可选的，在另一些实施例中，该计算机设备根据初始DST，对该T个第二文本进行评测，包括：计算机设备根据该T个第二文本进行样本集合评测。

可选的，在另一些实施例中，该计算机设备根据初始DST，对该T个第二文本进行评测，包括：该计算机设备对该T个第二文本进行单样本评测以及根据该T个第二文本片段进行样本集合评测。

该计算机设备可以对该T个第二文本进行单样本评测，包括：该计算机设备可以使用初始DST，预测该T个第二文本中的每个第二文本的状态，得到T个预测结果，根据该M个预测结果，确定T个第一奖励值，该T个第一奖励值与T个第二文本一一对应。换句话说，该T个第一奖励值中的第j个第一奖励值是根据该初始DST对T个第二文本中的第i个第二文本的预测结果确定的。单样本评测的具体实现方式可以参见图4所示的方法，在此就不必赘述。

计算机设备根据该T个第二文本片段进行样本集合评测可以包括：该计算机设备使用该T个第二文本对该初始DST进行训练；根据训练后的该初始DST，确定T个第二奖励值。

具体地，该计算机设备使用该T个第二文本对该初始DST进行训练可以包括：该计算机设备T个DST训练文本集合对该初始DST进行训练。该T个第二文本分别属于该T个DST训练文本集合。换句话说，该T个第二文本中的第i个第二文本为该T个DST训练文本集合中的第i个DST训练文本集合中的一个文本。

该计算机设备根据T个DST训练文本集合确定第二奖励值的具体实现方式可以参见图4所示的方法，在此就不必赘述。

若该计算机设备仅进行单样本评测，则该评测结果包括T个第一奖励值。

若该计算机设备仅进行样本集合评测，则该评测结果包括T个第二奖励值。

若该计算机设备进行单样本评测以及样本集合评测，则该评测结果中T个第一奖励值和T个第二奖励值。

503，该计算机设备可以根据该评测结果，训练该参考策略网络模型。

可以理解，步骤503确定的评测结果是图4中步骤404确定的评测结果的子集或者与该评测结果相同。

具体地，若步骤404中仅进行样本集合评测，那么步骤502中也仅进行样本集合评测。此时步骤503确定的评测结果与步骤404确定的评测结果相同。

若步骤404中进行单样本评测，那么步骤502中也进行单样本评测。此时步骤404确定的评测结果包括与步骤503确定的评测结果。如上所述，在进行单样本评测时，步骤404确定的评测结果中共包括该M×T个第一预测值。步骤503中确定的评测结果中包括T个第一预测值，步骤503确定的评测结果中的T个第一预测值属于对应的步骤404确定的评测结果中的M×T个第一预测值。

在根据图4所示的方法确定了策略网络模型的情况下，该计算机设备可以利用该策略网络模型，挑选该第一增强数据库中的部分文本组成第二增强数据库，并使用该第二增强数据库训练DST。为了便于描述，以下将图3中基于第一文本确定P个第二文本的方式称为粗粒度数据增强策略，将利用图4确定的策略网络模型从P个第二文本中挑选至少一个第二文本的方式称为细粒度数据增强策略。

还以包括1000个句子的训练文本数据库和20000个句子的第一增强数据库为例。计算机设备基于粗粒度数据增强策略，将训练文本数据库中的1000个句子扩展到第一增数据库中的20000个句子。在此之后，该计算机设备还可以基于细粒度数据增强策略，挑选该第一增强数据库中的部分文本组成第二增强数据库。换句话说，该计算机设备可以使用该策略网络模型，挑选该第一增强数据库中的部分文本组成第二增强数据库。假设该计算机设备利用细粒度数据增强策略，从第一增数据库中的20000个句子中挑选出了12000个句子。这12000个句子就是该第二增强数据库所包括的句子。在确定了第二增强数据库后，该计算机设备可以使用第二增强数据库中的全部句子以及训练文本数据库中的全部句子作为机器学习的训练文本，训练得到DST。该DST可以实现图1所示的对话系统100中的DST 102的功能以及图2所示的DST的功能。

可以看出，与现有的训练DST的方案相比，采用本申请的方法可以将用于训练DST的训练文本从1000个扩展到12100个。增加用于训练DST的训练文本的样本数量可以提高训练出的DST的性能，使得该DST可以更加准确地确定用户表述内容中的槽位-槽位值，以及提高该DST确定的意图的准确性和提高确定未填充槽位值的槽位的准确性。

图6是根据本申请实施例提供的计算机设备的结构框图。如图6所示的计算机设备600包括：获取单元601和处理单元602。

获取单元601，用于获取第一文本，该第一文本为训练文本数据库中的一个文本，该第一文本包括至少两个词组。

处理单元602，用于从该第一文本中确定至少一个目标词组。

处理单元602，还用于根据该至少一个目标词组，确定P个第二文本，该P个第二文本中的每个第二文本包括一个扩展词组，该扩展词组是基于该至少一个目标词组中的一个确定的，P为大于或等于1的正整数；

处理单元602，还用于根据该第一文本和该P个第二文本，通过机器学习，训练对话状态跟踪分类器，该对话状态跟踪分类器用于根据获取到的用户的对话，预测该对话的当前状态。

获取单元601可以由收发器实现，处理单元602可以由处理器实现。获取单元601和处理单元602的具体功能和有益效果，可以参见图3至图5所示的方法，在此就不必赘述。

图7是根据本申请实施例提供的计算机设备的结构框图。图7所示的计算机设备700包括：处理器701、存储器702和收发器703。

处理器701、存储器702和收发器703之间通过内部连接通路互相通信，传递控制和/或数据信号。

上述本申请实施例揭示的方法可以应用于处理器701中，或者由处理器701实现。处理器701可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702，处理器701读取存储器702中的指令，结合其硬件完成上述方法的步骤。

可选的，在一些实施例中，存储器702可以存储用于执行如图3至图5所示方法中计算机设备执行的方法的指令。处理器701可以执行存储器702中存储的指令结合其他硬件(例如收发器703)完成如图3至图5所示方法中计算机设备的步骤，具体工作过程和有益效果可以参见图3至图5所示实施例中的描述。

本申请实施例还提供一种芯片，该芯片包括收发单元和处理单元。其中，收发单元可以是输入输出电路、通信接口；处理单元为该芯片上集成的处理器或者微处理器或者集成电路。该芯片可以执行上述方法实施例中计算机设备的方法。

本申请实施例还提供一种计算机可读存储介质，其上存储有指令，该指令被执行时执行上述方法实施例中计算机设备的方法。

本申请实施例还提供一种包含指令的计算机程序产品，该指令被执行时执行上述方法实施例中计算机设备的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种训练对话状态跟踪分类器的方法，其特征在于，所述方法包括：

获取第一文本，所述第一文本为训练文本数据库中的一个文本，所述第一文本包括至少两个词组；

从所述第一文本中确定至少一个目标词组；

根据所述至少一个目标词组，确定P个第二文本，所述P个第二文本中的每个第二文本包括一个扩展词组，所述扩展词组是基于所述至少一个目标词组中的一个确定的，P为大于或等于1的正整数；

根据策略网络模型，从所述P个第二文本中确定至少一个第二文本，所述策略网络模型根据测评结果和参考策略网络模型确定，所述测评结果根据初始对话状态跟踪分类器和T个第二文本确定，所述T个第二文本根据所述参考策略网络模型从所述P个第二文本中确定；

使用所述第一文本和所述至少一个第二文本作为机器学习的训练文本，训练对话状态跟踪分类器，所述对话状态跟踪分类器用于根据获取到的用户的对话，跟踪所述对话的状态；

其中，所述方法还包括：

使用所述初始对话状态跟踪分类器，预测所述T个第二文本中的每个第二文本的状态，得到T个预测结果，根据所述T个预测结果，确定T个第一奖励值；或者，

使用所述T个第二文本对所述初始对话状态跟踪分类器进行训练；根据训练后的所述初始对话状态跟踪分类器，确定T个第二奖励值。

2.如权利要求1所述的方法，其特征在于，所述根据所述至少一个目标词组，确定P个第二文本，包括：

确定与K₁个槽位对应的K₁个第一词组集合，其中所述K₁个槽位分别为所述至少一个目标词组中的K₁个目标词组的槽位，K₁为大于或等于1的正整数；

确定P₁个第二文本，其中P₁个第二文本包括的扩展词组属于所述K₁个第一词组集合，所述P个第二文本包括所述P₁个第二文本，P₁为大于或等于1的正整数。

3.如权利要求1或2所述的方法，其特征在于，所述根据所述至少一个目标词组，确定P个第二文本，包括：

确定与K₂个词义对应的K₂个第二词组集合，其中所述K₂个词义分别为K₂个目标词组的词义，K₂为大于或等于1的正整数；

确定P₂个第二文本，其中P₂个第二文本包括的扩展词组属于所述K₂个第二词组集合，所述P个第二文本包括所述P₂个第二文本，P₂为大于或等于1的正整数。

4.一种计算机设备，其特征在于，所述计算机设备包括：

获取单元，用于获取第一文本，所述第一文本为训练文本数据库中的一个文本，所述第一文本包括至少两个词组；

处理单元，用于从所述第一文本中确定至少一个目标词组；

所述处理单元，还用于根据所述至少一个目标词组，确定P个第二文本，所述P个第二文本中的每个第二文本包括一个扩展词组，所述扩展词组是基于所述至少一个目标词组中的一个确定的，P为大于或等于1的正整数；

所述处理单元，还用于根据策略网络模型，从所述P个第二文本中确定至少一个第二文本，所述策略网络模型根据测评结果和参考策略网络模型确定，所述测评结果根据初始对话状态跟踪分类器和T个第二文本确定，所述T个第二文本根据所述参考策略网络模型从所述P个第二文本中确定；

所述处理单元，还用于使用所述第一文本和所述至少一个第二文本作为机器学习的训练文本，训练对话状态跟踪分类器，所述对话状态跟踪分类器用于根据获取到的用户的对话，跟踪所述对话的状态；

其中，所述处理单元，还用于：

5.如权利要求4所述的计算机设备，其特征在于，所述处理单元，具体用于确定与K₁个槽位对应的K₁个第一词组集合，其中所述K₁个槽位分别为所述至少一个目标词组中的K₁个目标词组的槽位，K₁为大于或等于1的正整数；

所述处理单元，还用于确定P₁个第二文本，其中P₁个第二文本包括的扩展词组属于所述K₁个第一词组集合，所述P个第二文本包括所述P₁个第二文本，P₁为大于或等于1的正整数。

6.如权利要求4或5所述的计算机设备，其特征在于，所述处理单元，具体用于确定与K₂个词义对应的K₂个第二词组集合，其中所述K₂个词义分别为K₂个目标词组的词义，K₂为大于或等于1的正整数；

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，存储器存储指令，所述处理器用于调用所述存储器中的指令执行如权利要求1至3中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储用于实现如权利要求1至3中任一项所述方法的指令。