CN115422335B

CN115422335B - 与对话系统的交互方法和对话系统的训练方法

Info

Publication number: CN115422335B
Application number: CN202211065233.0A
Authority: CN
Inventors: 高峰; 陈戈; 邱锡鹏; 程沁源; 李林阳; 权国风
Original assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Current assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2024-05-03
Anticipated expiration: 2042-09-01
Also published as: CN115422335A

Abstract

本申请提出了一种与对话系统的交互方法和一种对话系统的训练方法。该交互方法包括：获取用户输入的第一用户目标；根据第一用户目标确定多个第一子目标；将多个第一子目标作为输入，与对话系统进行交互；其中，对话系统表示通过用户模拟器训练后的对话系统。

Description

与对话系统的交互方法和对话系统的训练方法

技术领域

本申请涉及任务型对话系统技术领域，具体而言，涉及一种与对话系统的交互方法和一种对话系统的训练方法。

背景技术

相关技术中，通常采用标注好的人人对话数据对对话系统进行有监督训练，采用这种方案训练出的对话系统，由于只能学习标注数据中存在的策略，会导致得出的对话系统的对话的反馈不佳，无法为用户提供合理的反馈。

发明内容

本申请旨在至少解决相关技术中存在的技术问题之一。

为此，本申请的第一个方面在于提出一种与对话系统的交互方法。

本申请的第二个方面在于提出一种与对话系统的交互装置。

本申请的第三个方面在于提出一种对话系统的训练方法。

本申请的第四个方面在于提出一种对话系统的训练装置。

本申请的第五个方面在于提出一种电子设备。

本申请的第六个方面在于提出一种可读存储介质。

本申请的第七个方面在于提出一种计算机程序产品。

有鉴于此，根据本申请的一个方面，提出了一种与对话系统的交互方法，该交互方法包括：获取用户输入的第一用户目标；根据第一用户目标确定多个第一子目标；将多个第一子目标作为输入，与对话系统进行交互；其中，对话系统表示通过用户模拟器训练后的对话系统。

需要说明的是，本申请所提出的与对话系统的交互方法的执行主体可以是与对话系统的交互装置，为了更加清楚的对本申请提出的与对话系统的交互方法进行说明，下面技术方案中以与对话系统的交互方法的执行主体为与对话系统的交互装置进行示例性说明。

在该技术方案中，上述对话系统是通过用户模拟器训练后的对话系统，该对话系统具体表示任务型对话系统，可以通过与用户的交互完成相应的任务；上述第一用户目标表示用户意图，例如，预定餐厅、预定车票等；上述用户模拟器表示能够根据给定的用户目标与上述对话系统进行交互的模型。

在该技术方案中，由于上述对话系统是通过用户模拟器训练后的对话系统，使得对话系统学习到的策略不局限与对话数据中标好的策略，这样保证了对话系统反馈给用户的对话合理性和准确性。同时，在接收到第一用户目标后，交互装置会将第一用目标拆分成多个第一子目标作为对话系统的输入，这样，保证了对话系统回复的对话可以满足第一用户目标中的全部需求。

根据本申请的第二个方面，提出了一种与对话系统的交互装置，与对话系统的交互装置包括：获取模块，用于获取用户输入的第一用户目标；第一处理模块，用于根据第一用户目标确定多个第一子目标；第二处理模块，用于将多个第一子目标作为输入，与对话系统进行交互；其中，对话系统表示通过用户模拟器训练后的对话系统。

在该技术方案中，由于上述对话系统是通过用户模拟器训练后的对话系统，使得对话系统学习到的策略不局限与对话数据中标好的策略，这样保证了对话系统反馈给用户的对话合理性和准确性。同时，在接收到第一用户目标后，第一处理模块会将第一用目标拆分成多个第一子目标，第二处理模块会将多个上述第一子目标作为对话系统的输入，这样，保证了对话系统回复的对话可以满足第一用户目标中的全部需求。

根据本发明的第三个方面，提出了一种对话系统的训练方法，该训练方法包括：获取第二对话数据和与第二对话数据对应的第四用户目标，第二对话数据中包括用于标注第二对话数据的标注语料；根据标注语料将第四用户目标划分为多个第四子目标；根据多个第四子目标和第二对话数据对预设模型进行训练，确定用户模拟器；通过用户模拟器对对话系统进行训练；其中，预设模型为文本到文本转换器。

需要说明的是，本申请所提出的对话系统的训练方法的执行主体可以是对话系统的训练装置，为了更加清楚的对本申请提出的对话系统的训练方法进行说明，下面技术方案中以对话系统的训练方法的执行主体为对话系统的训练装置进行示例性说明。

在该技术方案中，上述对话系统表示任务型对话系统，可以通过与用户的交互完成相应的任务；上述第四用户目标表示与第二对话数据相对应的用户意图，例如，预定餐厅、预定车票等；上述标注语料表示用于标注第二对话数据中反应用户需求的关键词的数据，上述用户模拟器表示能够根据给定的用户目标与上述对话系统进行交互的模型；上述预设模型表示文本到文本转换器。

在该技术方案中，训练装置能够根据上述第二对话数据以及通过标注语料拆分上述第四用户目标确定出的多个第四子目标训练上述预设模型，确定用户模拟器，并能够通过控制上述用户模拟器与上述对话系统进行交互的方式训练该对话系统。在本申请的技术方案中，由于训练预设模型的多个第四子目标是训练装置根据标注语料划分的，因此，在通过用户模拟器与对话系统进行交互过程中，用户模拟器输出的对话文本是可以根据用户目标进行简便控制的，这样，避免了采用传统训练方式时，对话系统只能学习标注数据中存在的策略，无法挖掘可能不存在于标注数据中的更优策略的情况，提高了训练出的对话系统的适用性。

根据本发明的第四个方面，提出了一种对话系统的训练装置，该对话系统的训练装置包括：获取单元，用于获取对话数据和与对话数据对应的第四用户目标，对话数据中包括用于标注对话数据的标注语料；第一处理单元，用于根据标注语料将第四用户目标划分为多个第四子目标；第二处理单元，用于根据多个第四子目标和对话数据对预设模型进行训练，确定用户模拟器；第三处理单元，用于通过用户模拟器对对话系统进行训练；其中，预设模型为文本到文本转换器。

在该技术方案中，第二处理单元能够根据上述第二对话数据以及通过标注语料拆分上述第四用户目标确定出的多个第四子目标训练上述预设模型，确定用户模拟器，第三处理单元能够通过控制上述用户模拟器与上述对话系统进行交互的方式训练该对话系统。在本申请的技术方案中，由于训练预设模型的多个第四子目标是训练装置根据标注语料划分的，因此，在通过用户模拟器与对话系统进行交互过程中，用户模拟器输出的对话文本是可以根据用户目标进行简便控制的，这样，避免了采用传统训练方式时，对话系统只能学习标注数据中存在的策略，无法挖掘可能不存在于标注数据中的更优策略的情况，提高了训练出的对话系统的适用性。

根据本申请第五个方面，提出了一种电子设备，包括：存储器，存储器中存储有程序或指令；处理器，处理器执行存储在存储器中的程序或指令以实现如本申请上述技术方案提出的与对话系统的交互方法的步骤，或如本申请上述技术方案提出的对话系统的训练方法的步骤，因而具有本申请上述技术方案提出的与对话系统的交互方法或者对话系统的训练方法的全部有益技术效果，在此不再做过多赘述。

根据本申请的第六个方面，提出了一种可读存储介质，其上存储有程序或指令，程序或指令被处理器执行时实现如本申请上述技术方案提出的与对话系统的交互方法的步骤，或如本申请上述技术方案提出的对话系统的训练方法的步骤，因而具有本申请上述技术方案提出的与对话系统的交互方法或者对话系统的训练方法的全部有益技术效果，在此不再做过多赘述。

根据本申请的第七个方面，提出了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如本申请上述技术方案提出的与对话系统的交互方法的步骤，或如本申请上述技术方案提出的对话系统的训练方法的步骤，因而具有本申请上述技术方案提出的与对话系统的交互方法或者对话系统的训练方法的全部有益技术效果，在此不再做过多赘述。

本申请的附加方面和优点将在下面的描述部分中变得明显，或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本申请实施例的与对话系统的交互方法的流程示意图之一；

图2示出了本申请实施例根据第一用户目标与对话系统进行交互的示意图；

图3示出了本申请实施例的与对话系统的交互方法的流程示意图之二；

图4示出了本申请实施例的与对话系统的交互方法的流程示意图之三；

图5示出了本申请实施例的与对话系统的交互方法的流程示意图之四；

图6示出了本申请实施例的与对话系统的交互装置的示意框图；

图7示出了本申请实施例的对话系统的训练方法的流程示意图之一；

图8示出了本申请实施例的对话系统的训练方法的流程示意图之二；

图9示出了本申请实施例的对话系统的训练方法的流程示意图之三；

图10示出了本申请实施例的对话系统的训练装置的示意框图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不限于下面公开的具体实施例的限制。

下面结合图1至图10，通过具体的实施例及其应用场景对本申请实施例提供的一种与对话系统的交互方法和对话系统的训练方法进行详细地说明。

实施例一：

图1示出了本申请实施例的与对话系统的交互方法的流程示意图，该交互方法包括：

S102，获取用户输入的第一用户目标；

S104，根据第一用户目标确定多个第一子目标；

S106，将多个第一子目标作为输入，与对话系统进行交互。

其中，对话系统表示通过用户模拟器训练后的对话系统。

需要说明的是，本申请所提出的与对话系统的交互方法的执行主体可以是与对话系统的交互装置，为了更加清楚的对本申请提出的与对话系统的交互方法进行说明，下面实施例中以与对话系统的交互方法的执行主体为与对话系统的交互装置进行示例性说明。

在该实施例中，上述对话系统是通过用户模拟器训练后的对话系统，该对话系统具体表示任务型对话系统，可以通过与用户的交互完成相应的任务；上述第一用户目标表示用户意图，例如，预定餐厅、预定车票等；上述用户模拟器表示能够根据给定的用户目标与上述对话系统进行交互的模型。

具体地，交互装置首先获取上述第一用户目标。具体而言，通过第一用户目标可以了解到用户的具体意图，便于后续对话系统根据用户意图确定回复用户需要的内容。

进一步地，交互装置对上述第一用户目标进行划分，以将该用户目标拆分成多个第一子目标。具体而言，上述第一用户目标中的目标即表示用户总意图，而用户总意图可能是由多个意图组成的，因此，交互装置需要从上述第一用户目标中拆分出多个子目标，即多个上述第一子目标，以便于可以满足用户的全部需求。

进一步地，交互装置将多个上述第一子目标作为输入，与上述对话系统进行交互。具体而言，对话系统可以根据不同子目标回复给用户对应的信息，直至将完成全部的第一子目标。

在该实施例中，由于上述对话系统是通过用户模拟器训练后的对话系统，使得对话系统学习到的策略不局限与对话数据中标好的策略，这样保证了对话系统反馈给用户的对话合理性和准确性。同时，在接收到第一用户目标后，交互装置会将第一用目标拆分成多个第一子目标作为对话系统的输入，这样，保证了对话系统回复的对话可以满足第一用户目标中的全部需求。

在上述实施例中，将多个第一子目标作为输入，与对话系统进行交互的步骤具体包括：将多个第一子目标输入至对话系统，并接收对话系统回复的对话内容；根据对话内容确定多个第一子目标中未完成的第一子目标；将未完成的第一子目标作为输入，继续与对话系统进行交互，直至确定多个第一子目标全部被完成。

在该实施例中，交互装置首先将代表不同意图的多个第一子目标输入上述对话系统，以与该对话系统进行交互。

具体地，在与上述对话系统完成一轮交互后，交互装置会根据对话系统回复的对话文本确定多个第一子目标中未完成的第一子目标，然后将未完成的第一子目标作为新一轮的输入，继续与对话系统进行交互，直至确定多个第一子目标全部被完成，才确定与对话系统的交互完成。

示例性地，如图2所示，为根据第一用户目标与对话系统进行交互的示意图。根据图2可以看出，第一用户目标为预订餐厅，多个第一子目标包括【餐厅】【食物】【价格】【时间】【日期】【人数】等。

具体地，用户首先会根据第一用户目标向对话系统发送要求，即将多个第一子目标输入到对话系统中，对话系统会根据这些第一子目标回复相应的对话文本，交互装置会根据回复的对话文本确定上述多个第一子目标未被完成，并会将根据未完成的第一子目标作为输入与对话系统继续进行交互，即根据未完成的第一子目标确定的话术作为输入与对话系统继续进行交互，直至对话系统回复的对话文本完成了全部的第一子目标。

图3示出了本申请实施例的与对话系统的交互方法的流程示意图，该交互方法包括：

S302，通过用户模拟器训练对话系统；

S304，获取用户输入的第一用户目标；

S306，根据第一用户目标确定多个第一子目标；

S308，将多个第一子目标作为输入，与对话系统进行交互。

在该实施例中，交互装置可以通过控制上述用户模拟器与上述对话系统进行交互的方式训练该对话系统。

具体地，上述用户模拟器可以根据给定的用户目标和交互时的对话内容输出相适应的对话文本，避免了采用传统训练方式训练对话系统时，对话系统只能学习标注数据中存在的策略的情况。

图4示出了本申请实施例的与对话系统的交互方法的流程示意图，该交互方法包括：

S402，将第二用户目标输入至用户模拟器，并通过用户模拟器与对话系统进行交互；

S404，在用户模拟器与对话系统的交互满足预设条件的情况下，确定对话系统的训练完成；

S406，获取用户输入的第一用户目标；

S408，根据第一用户目标确定多个第一子目标；

S410，将多个第一子目标作为输入，与对话系统进行交互。

在该实施例中，第二用户目标表示预设用户目标，即用户给定的目标。

具体地，交互装置通过上述用户模拟器训练对话系统的过程为：交互装置首先将上述第二用户目标输入给上述用户模拟器，然后使对话系统与该用户模拟器进行交互，以训练对话系统。

进一步地，交互装置实时检测上述用户模拟器与上述对话系统的交互过程是否满足预设条件，并在满足预设条件时，确定完成本次关于对话系统的训练。

具体而言，如果对话系统和用户模拟器的交互已经满足了预设条件，则表明关于第二用户目标的交互已经全部完成，即对话系统已经能够发出了关于第二用户目标中相关需求的全部信息，因此，在这种情况下，交互装置确定对话系统学习到了关于第二用户目标回复的相关策略，即可以确定对话系统本次训练完成。

在该实施例中，由于用户模拟器输出的对话文本不局限传统训练方式中标注数据中存在的策略，使得对话系统可以挖掘到不存在于标注数据中的更优策略，这样，提高了对话系统的性能和适用性。

在上述实施例中，预设条件表示关于第二用户目标的交互完成，或用户模拟器与对话系统交互的轮数大于预设轮数，或用户模拟器和/或对话系统发出交互停止指示的情况。

在该实施例中，上述预设条件具体表示用户模拟器和对话系统的交互完成了上述第二用户目标的情况，或者上述用户模拟器和上述对话系统之间交互的轮数高于预设轮数的情况，或者上述对话系统和/或用户模拟器发出的对话文本中包含了停止交互指示的情况。

具体而言，如果用户模拟器和对话系统的交互完成了上述第二用户目标，或者上述用户模拟器和上述对话系统之间交互的轮数高于预设轮数，或者上述对话系统和/或用户模拟器发出的对话文本中包含了停止交互指示，则表明对话系统已经发出了关于第二用户目标中相关需求的全部信息，因此，在这种情况下，交互装置可以确定用户模拟器和对话系统的交互已经完成，即确定完成了本次对对话系统的训练。

图5示出了本申请实施例的与对话系统的交互方法的流程示意图，该交互方法包括：

S502，将第二用户目标输入至用户模拟器，并通过用户模拟器与对话系统进行交互；

S504，在用户模拟器与对话系统的交互满足预设条件的情况下，确定对话系统的训练完成；

S506，获取用户模拟器与对话系统进行交互时产生的对话文本；

S508，根据对话文本对对话系统进行评测，确定评测结果；

S510，根据评测结果，采用策略梯度算法优化对话系统。

S512，获取用户输入的第一用户目标；

S514，根据第一用户目标确定多个第一子目标；

S516，将多个第一子目标作为输入，与对话系统进行交互。

在该实施例中，在完成对对话系统的训练后，交互装置还可以对对话系统的性能进行评测。具体地，交互装置首先获取对对话系统训练时，对话系统与用户模拟器交互过程的对话文本。

进一步地，交互装置根据上述对话文本对上述对话系统的性能进行评测，并确定出评测结果。具体而言，交互装置可以根据对话文本计算出本次对话的通知率和成功率，交互装置还可以计算出对话文本的流畅度和连贯度，根据这些参数可以确定对话系统的性能，即确定对话系统的评测结果。

进一步地，交互装置根据上述评测结果优化上述对话系统。具体而言，根据评测结果，可以明确对话系统的不足之处，例如，对话系统的通知率偏低、对话系统的成功率偏低、对话系统的回复的对话文本的句子不够流畅、对话系统的回复的对话文本的与相邻句子之间的连贯程度偏低等。因此，交互装置可以根据对于对话系统的评测结果对上述对话系统进行优化。

具体地，交互装置可以根据上述评测结果，采用策略梯度算法对上述对话系统进行优化，但不限于此。具体而言，采用策略梯度算法可以随着迭代自然地逼近最优策略，不需要手动的调节对话系统中的相关参数，这样，能够减少优化对话系统的流程，并能够保证优化后的对话系统的可靠性。

在该实施例中，交互装置还可以根据上述对话系统与上述用户模拟器交互的对话文本，对对话系统的性能进行评测，这样，可以明确对话系统存在的不足之处，便于对对话系统的性能进行优化，便于提高对话系统的可靠性。

在上述实施例中，通过用户模拟器训练对话系统之前，交互方法还包括：获取第一对话数据和与第一对话数据对应的第三用户目标，第一对话数据中包括用于标注第一对话数据的标注语料；根据标注语料将第三用户目标划分为多个第三子目标；根据多个第三子目标和第一对话数据对预设模型进行训练，确定构建用户模拟器；其中，预设模型为文本到文本转换器。

在该实施例中，上述第三用户目标表示与第一对话数据相对应的用户意图，例如，预定餐厅、预定车票等；上述标注语料表示用于标注第一对话数据中反应用户需求的关键词的数据；上述预设模型表示T5模型(Text-To-Text Transfer Transformer，文本到文本转换器)，但不限于此。

具体地，交互装置首先获取上述第一对话数据以及与该第一对话数据相对的用户目标，即上述第三用户目标。具体而言，第一对话数据表示通过人工模拟的任务型第一对话数据，第一对话数据中包含有对该第一对话数据中的关键词进行标注的标注语料。

进一步地，交互装置根据上述标注语料对上述第三用户目标进行划分，以将该用户目标拆分成多个第三子目标。具体而言，上述第三用户目标中的目标即表示用户总意图，而用户总意图可能是由多个意图组成的，而根据上述标注语料可以明确这些意图，这些意图可以表示为上述的子目标，因此，交互装置能够根据上述标注语料从上述第三用户目标中拆分出多个子目标，即多个上述第三子目标。

进一步地，交互装置根据多个上述第三子目标以及上述第一对话数据训练预设模型，构建出可以根据给定的用户目标，自动地、自然地与对话系统进行交互的用户模拟器。

在该实施例中，由于训练预设模型的多个第三子目标是交互装置根据标注语料划分的，因此，在通过用户模拟器与对话系统进行交互过程中，用户模拟器输出的对话文本是可以根据用户目标进行简便控制的，这样，避免了采用传统训练方式时，对话系统只能学习标注数据中存在的策略，无法挖掘可能不存在于标注数据中的更优策略的情况，提高了后续步骤中训练出的对话系统的适用性。

实施例二：

图6示出了本申请实施例的与对话系统的交互装置600的示意框图，与对话系统的交互装置600包括：获取模块602，用于获取用户输入的第一用户目标；第一处理模块604，用于根据第一用户目标确定多个第一子目标；第二处理模块606，用于将多个第一子目标作为输入，与对话系统进行交互；其中，对话系统表示通过用户模拟器训练后的对话系统。

具体地，首先通过获取模块602获取上述第一用户目标。具体而言，通过第一用户目标可以了解到用户的具体意图，便于后续对话系统根据用户意图回复用户需要的内容。

进一步地，第一处理模块604对上述第一用户目标进行划分，以将该用户目标拆分成多个第一子目标。具体而言，上述第一用户目标中的目标即表示用户总意图，而用户总意图可能是由多个意图组成的，因此，交互装置需要从上述第一用户目标中拆分出多个子目标，即多个上述第一子目标，以便于可以满足用户的全部需求。

进一步地，第二处理模块606将多个上述第一子目标作为输入，与上述对话系统进行交互。具体而言，对话系统可以根据不同子目标回复给用户对应的信息，直至将完成全部的第一子目标。

在该实施例中，由于上述对话系统是通过用户模拟器训练后的对话系统，使得对话系统学习到的策略不局限与对话数据中标好的策略，这样保证了对话系统反馈给用户的对话合理性和准确性。同时，在接收到第一用户目标后，第一处理模块604会将第一用目标拆分成多个第一子目标，第二处理模块606会将多个上述第一子目标作为对话系统的输入，这样，保证了对话系统回复的对话可以满足第一用户目标中的全部需求。

进一步地，在上述实施例中，第二处理模块606具体用于将多个第一子目标输入至对话系统，并接收对话系统回复的对话内容；根据对话内容确定多个第一子目标中未完成的第一子目标；将未完成的第一子目标作为输入，继续与对话系统进行交互，直至确定多个第一子目标全部被完成。

进一步地，在上述实施例中，第一处理模块604还用于通过用户模拟器训练对话系统。

进一步地，在上述实施例中，第一处理模块604还用于将第二用户目标输入至用户模拟器，并通过用户模拟器与对话系统进行交互；在用户模拟器与对话系统的交互满足预设条件的情况下，确定对话系统的训练完成。

进一步地，在上述实施例中，预设条件表示关于第二用户目标的交互完成，或用户模拟器与对话系统交互的轮数大于预设轮数，或用户模拟器和/或对话系统发出交互停止指示的情况。

进一步地，在上述实施例中，获取模块602还用于获取用户模拟器与对话系统进行交互时产生的对话文本；第一处理模块604还用于根据对话文本对对话系统进行评测，确定评测结果；根据评测结果，采用策略梯度算法优化对话系统。

进一步地，在上述实施例中，获取模块602还用于获取第一对话数据和与第一对话数据对应的第三用户目标，第一对话数据中包括用于标注第一对话数据的标注语料；第一处理模块604还用于根据标注语料将第三用户目标划分为多个第三子目标；第一处理模块604还用于根据多个第三子目标和第一对话数据对预设模型进行训练，确定构建用户模拟器；其中，预设模型为文本到文本转换器。

实施例三：

图7示出了本申请实施例的对话系统的训练方法的流程示意图，该训练方法包括：

S702，获取第二对话数据和与第二对话数据对应的第四用户目标，第二对话数据中包括用于标注第二对话数据的标注语料；

S704，根据标注语料将第四用户目标划分为多个第四子目标；

S706，根据多个第四子目标和第二对话数据对预设模型进行训练，确定用户模拟器；

S708，通过用户模拟器对对话系统进行训练。

其中，预设模型为文本到文本转换器。

需要说明的是，本申请所提出的对话系统的训练方法的执行主体可以是对话系统的训练装置，为了更加清楚的对本申请提出的对话系统的训练方法进行说明，下面实施例中以对话系统的训练方法的执行主体为对话系统的训练装置进行示例性说明。

在该实施例中，上述对话系统表示任务型对话系统，可以通过与用户的交互完成相应的任务；上述第四用户目标表示与第二对话数据相对应的用户意图，例如，预定餐厅、预定车票等；上述标注语料表示用于标注第二对话数据中反应用户需求的关键词的数据，上述用户模拟器表示能够根据给定的用户目标与上述对话系统进行交互的模型；上述预设模型表示文本到文本转换器。

具体地，训练装置首先获取上述第二对话数据以及与该第二对话数据相对的用户目标，即上述第四用户目标。具体而言，第二对话数据表示通过人工模拟的任务型第二对话数据，第二对话数据中包含有对该第二对话数据中的关键词进行标注的标注语料。

进一步地，训练装置根据上述标注语料对上述第四用户目标进行划分，以将该用户目标拆分成多个第四子目标。具体而言，上述第四用户目标中的目标即表示用户总意图，而用户总意图可能是由多个意图组成的，而根据上述标注语料可以明确这些意图，这些意图可以表示为上述的子目标，因此，训练装置能够根据上述标注语料从上述第四用户目标中拆分出多个子目标，即多个上述第四子目标。

进一步地，训练装置根据多个上述第四子目标以及上述第二对话数据训练预设模型，构建出可以根据给定的用户目标，自动地、自然地与对话系统进行交互的用户模拟器。

进一步地，训练装置通过控制上述用户模拟器与上述对话系统进行交互的方式训练该对话系统。具体而言，通过训练预设模型确定出上述用户模拟器可以根据给定的用户目标和交互时的对话内容输出相适应的对话文本，避免了采用传统训练方式时，对话系统只能学习标注数据中存在的策略的情况。

在该实施例中，训练装置能够根据上述第二对话数据以及通过标注语料拆分上述第四用户目标确定出的多个第四子目标训练上述预设模型，确定用户模拟器，并能够通过控制上述用户模拟器与上述对话系统进行交互的方式训练该对话系统。在本申请的实施例中，由于训练预设模型的多个第四子目标是训练装置根据标注语料划分的，因此，在通过用户模拟器与对话系统进行交互过程中，用户模拟器输出的对话文本是可以根据用户目标进行简便控制的，这样，避免了采用传统训练方式时，对话系统只能学习标注数据中存在的策略，无法挖掘可能不存在于标注数据中的更优策略的情况，提高了训练出的对话系统的适用性。

图8示出了本申请实施例的对话系统的训练方法的流程示意图，该训练方法包括：

S802，获取第二对话数据和与第二对话数据对应的第四用户目标，第二对话数据中包括用于标注第二对话数据的标注语料；

S804，根据标注语料确定第二对话数据中的多个关键词；

S806，根据多个关键词将第四用户目标划分为多个第四子目标。

S808，根据多个第四子目标和第二对话数据对预设模型进行训练，确定用户模拟器；

S810，通过用户模拟器对对话系统进行训练。

在该实施例中，训练装置根据上述标注语料从上述第四用户目标拆分出多个第四子目标的过程为：训练装置首先会根据上述标注语料明确上述第二对话数据中与标注语料相关联的多个关键词，其中，关键词为能够表示第四用户目标中相关要求的词语，以用户目标为预定餐厅的第二对话数据为例，上述关键词可以为东北菜、三人用餐之类的词语。

进一步地，训练装置根据确定出的多个关键词对第四用户目标进行拆分，以确定出多个第四子目标。具体而言，根据确定出的多个关键词可以明确用户的多个意图，根据这些意图即可明确多个子目标。以预定餐厅为例，如果关键词为东北菜，则表明用户的意图为预定东北菜的餐馆，这样，就可以确定一个子目标为确定菜品类型。

在该实施例中，由于标注语料是人为标定的，因此，根据语料确定出的多个关键词能够反应出第四用户目标中全部的要求，这样，保证了拆分出的多个上述第四子目标的准确性，进而保证了后续步骤根据多个上述第四子目标对预设模型训练的效果，即保证了构建出的用户模拟器的交互效果。

图9示出了本申请实施例的对话系统的训练方法的流程示意图，该训练方法包括：

S902，获取第二对话数据和与第二对话数据对应的第四用户目标，第二对话数据中包括用于标注第二对话数据的标注语料；

S904，根据标注语料将第四用户目标划分为多个第四子目标；

S906，根据多个第四子目标和第二对话数据对预设模型进行训练，确定用户模拟器；

S908，将多个第四子目标转换成词组序列的格式；

S910，根据多个第四子目标确定与多个第四子目标相对应的对话文本；

S912，以转换格式后的多个第四子目标和对话文本，对预设模型进行训练。

在该实施例中，上述词组序列表示适用于作为预设模型输入的一种格式。

具体地，对预设模型进行训练的过程为：训练装置首先对多个上述第四子目标的格式进行转换，即将多个上述第四子目标的格式转换为词组序列格式。具体而言，由于预设模型的结构为序列到序列的结构，如果其输入的数据为词组序列的格式，更加便于预设模型的运算。因此，训练装置需要先对多个上述第四子目标的格式进行转换。

进一步地，训练装置根据多个第四子目标确定与多个第四子目标相对应的对话文本。具体而言，在第二对话数据中，包含有描述不同第四子目标的对话内容，训练装置可以根据对应第四子目标对应的标注语料从上述第二对话数据中查找上述对话文本。

进一步地，训练装置根据转换完格式的多个上述第四子目标以及上述对话文本训练上述预设模型，以得出能够根据给定的用户目标，自动与对话系统进行交互的用户模拟器。

具体地，训练装置首先会将多个上述第四子目标输入到上述预设模型，得出输出结果，然后通过比较输出结果与上述对话文本的差异，对上述预设模型进行优化，进而确定出上述用户模拟器。

在该实施例中，训练装置可以通过多个上述第四子目标以及与子目标相对应的对话文本训练上述预设模型，确定出用户模拟器。这样，使得后续步骤中可以通过对话系统与该用户模拟器进行交互的方式训练对话系统，保证了训练出的对话系统的性能和适用性。

实施例四：

图10示出了本申请实施例的对话系统的训练装置1000的示意框图，该对话系统的训练装置1000包括：获取单元1002，用于获取对话数据和与对话数据对应的第四用户目标，对话数据中包括用于标注对话数据的标注语料；第一处理单元1004，用于根据标注语料将第四用户目标划分为多个第四子目标；第二处理单元1006，用于根据多个第四子目标和对话数据对预设模型进行训练，确定用户模拟器；第三处理单元1008，用于通过用户模拟器对对话系统进行训练；其中，预设模型为文本到文本转换器。

具体地，首先通过获取单元1002获取上述第二对话数据以及与该第二对话数据相对的用户目标，即上述第四用户目标。具体而言，第二对话数据表示通过人工模拟的任务型第二对话数据，第二对话数据中包含有对该第二对话数据中的关键词进行标注的标注语料。

进一步地，第一处理单元1004根据上述标注语料对上述第四用户目标进行划分，以将该用户目标拆分成多个第四子目标。具体而言，上述第四用户目标中的目标即表示用户总意图，而用户总意图可能是由多个意图组成的，而根据上述标注语料可以明确这些意图，这些意图可以表示为上述的子目标，因此，第一处理单元1004能够根据上述标注语料从上述第四用户目标中拆分出多个子目标，即多个上述第四子目标。

进一步地，第二处理单元1006根据多个上述第四子目标以及上述第二对话数据训练预设模型，构建出可以根据给定的用户目标，自动地、自然地与对话系统进行交互的用户模拟器。

进一步地，第三处理单元1008通过控制上述用户模拟器与上述对话系统进行交互的方式训练该对话系统。具体而言，通过训练预设模型确定出上述用户模拟器可以根据给定的用户目标和交互时的对话内容输出相适应的对话文本，避免了采用传统训练方式时，对话系统只能学习标注数据中存在的策略的情况。

在该实施例中，第二处理单元1006能够根据上述第二对话数据以及通过标注语料拆分上述第四用户目标确定出的多个第四子目标训练上述预设模型，确定用户模拟器，第三处理单元1008能够通过控制上述用户模拟器与上述对话系统进行交互的方式训练该对话系统。在本申请的实施例中，由于训练预设模型的多个第四子目标是训练装置根据标注语料划分的，因此，在通过用户模拟器与对话系统进行交互过程中，用户模拟器输出的对话文本是可以根据用户目标进行简便控制的，这样，避免了采用传统训练方式时，对话系统只能学习标注数据中存在的策略，无法挖掘可能不存在于标注数据中的更优策略的情况，提高了训练出的对话系统的适用性。

进一步地，在上述实施例中，第一处理单元1004具体用于根据标注语料确定第二对话数据中的多个关键词；根据多个关键词将第四用户目标划分为多个第四子目标。

进一步地，在上述实施例中，第二处理单元1006具体用于将多个第四子目标转换成词组序列的格式；根据多个第四子目标确定与多个第四子目标相对应的对话文本；以转换格式后的多个第四子目标和对话文本，对预设模型进行训练。

实施例五：

根据本申请第五个实施例，提出了一种电子设备，包括：存储器，存储器中存储有程序或指令；处理器，处理器执行存储在存储器中的程序或指令以实现如本申请上述实施例提出的与对话系统的交互方法的步骤，或如本申请上述实施例提出的对话系统的训练方法的步骤，因而具有本申请上述实施例提出的与对话系统的交互方法或者对话系统的训练方法的全部有益技术效果，在此不再做过多赘述。

实施例六：

根据本申请的第六个实施例，提出了一种可读存储介质，其上存储有程序或指令，程序或指令被处理器执行时实现如本申请上述实施例提出的与对话系统的交互方法的步骤，或如本申请上述实施例提出的对话系统的训练方法的步骤，因而具有本申请上述实施例提出的与对话系统的交互方法或者对话系统的训练方法的全部有益技术效果，在此不再做过多赘述。

实施例七：

根据本申请的第七个实施例，提出了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如本申请上述实施例提出的与对话系统的交互方法的步骤，或如本申请上述实施例提出的对话系统的训练方法的步骤，因而具有本申请上述实施例提出的与对话系统的交互方法或者对话系统的训练方法的全部有益技术效果，在此不再做过多赘述。

实施例八：

示例性地，如表1所示，为通过本申请提出的对话系统的训练方法训练出的对话系统的评测记录表。

表1

/>

具体地，在表1中，MTTOD、MTTOD(RL)、MTTOD(RL-Sees)和MTTOD(RL-Sent)表示不同版本的对话系统，其中，MTTOD(RL)表示经过优化后MTTOD；MTTOD(RL-Sees)表示经过连贯度优化后的MTTOD，MTTOD(RL-Sent)表示经过流畅度优化后的MTTOD。

具体地，根据表1中关于MTTOD的评测结果可以看出，使用用户模拟器可以在对话系统评测指标的通知率和成功率上得到较好的结果。此外，生成的结果在句子流畅度和连贯度上也取得了较高的结果。这说明本申请构建出的用户模拟器可以提供高质量的用户模拟来与对话系统交互，进而可以准确地评测对话系统的性能。

具体地，根据表1中关于MTTOD(RL)的评测结果可以看出，在进行多次实验后，使用申请训练出的对话系统取得了97.10％的成功率，这远高于使用有传统的监督方式训练出的对话系统。这说明了本申请提出的对话系统的训练方法对于辅助对话系统训练、提高对话系统的性能具有显著的帮助。

在本说明书的描述中，术语“第一”、“第二”仅用于描述的目的，而不能理解为指示或暗示相对重要性，除非另有明确的规定和限定；术语“连接”、“安装”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

另外，本申请各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种与对话系统的交互方法，其特征在于，包括：

获取用户输入的第一用户目标；

根据所述第一用户目标确定多个第一子目标；

将多个所述第一子目标作为输入，与所述对话系统进行交互；

其中，所述对话系统表示通过用户模拟器训练后的对话系统；

在获取第一用户目标之前，所述交互方法还包括：

通过所述用户模拟器训练所述对话系统；

所述通过所述用户模拟器训练所述对话系统，具体包括：

将第二用户目标输入至所述用户模拟器，并通过所述用户模拟器与所述对话系统进行交互；

在所述用户模拟器与所述对话系统的交互满足预设条件的情况下，确定所述对话系统的训练完成；

所述通过所述用户模拟器训练所述对话系统之前，所述交互方法还包括：

获取第一对话数据和与所述第一对话数据对应的第三用户目标，所述第一对话数据中包括用于标注所述第一对话数据的标注语料；

根据所述标注语料将所述第三用户目标划分为多个第三子目标；

根据多个所述第三子目标和所述第一对话数据对预设模型进行训练，确定构建所述用户模拟器。

2.根据权利要求1所述的与对话系统的交互方法，其特征在于，所述将多个所述第一子目标作为输入，与所述对话系统进行交互，具体包括：

将多个所述第一子目标输入至对话系统，并接收所述对话系统回复的对话内容；

根据所述对话内容确定多个所述第一子目标中未完成的第一子目标；

将未完成的第一子目标作为输入，继续与所述对话系统进行交互，直至确定多个所述第一子目标全部被完成。

3.根据权利要求1所述的与对话系统的交互方法，其特征在于，所述预设条件表示关于所述第二用户目标的交互完成，或所述用户模拟器与所述对话系统交互的轮数大于预设轮数，或所述用户模拟器和/或所述对话系统发出交互停止指示的情况。

4.根据权利要求1所述的与对话系统的交互方法，其特征在于，所述确定所述对话系统的训练完成后，所述交互方法还包括：

获取所述用户模拟器与所述对话系统进行交互时产生的对话文本；

根据所述对话文本对所述对话系统进行评测，确定评测结果；

根据所述评测结果，采用策略梯度算法优化所述对话系统。

5.根据权利要求1至4中任一项所述的与对话系统的交互方法，其特征在于，

其中，所述预设模型为文本到文本转换器。

6.一种与对话系统的交互装置，其特征在于，包括：

获取模块，用于获取用户输入的第一用户目标；

第一处理模块，用于根据所述第一用户目标确定多个第一子目标；

第二处理模块，用于将多个所述第一子目标作为输入，与所述对话系统进行交互；

所述第一处理模块还用于通过所述用户模拟器训练所述对话系统；

所述第一处理模块还用于将第二用户目标输入至所述用户模拟器，并通过所述用户模拟器与所述对话系统进行交互；在所述用户模拟器与所述对话系统的交互满足预设条件的情况下，确定所述对话系统的训练完成；

所述获取模块还用于获取第一对话数据和与所述第一对话数据对应的第三用户目标，所述第一对话数据中包括用于标注所述第一对话数据的标注语料；所述第一处理模块还用于根据所述标注语料将所述第三用户目标划分为多个第三子目标；所述第一处理模块还用于根据所述多个第三子目标和所述第一对话数据对预设模型进行训练，确定构建所述用户模拟器。

7.一种对话系统的训练方法，其特征在于，包括：

获取第二对话数据和与所述第二对话数据对应的第四用户目标，所述第二对话数据中包括用于标注所述第二对话数据的标注语料；

根据所述标注语料将所述第四用户目标划分为多个第四子目标；

根据多个所述第四子目标和所述第二对话数据对预设模型进行训练，确定用户模拟器；

通过所述用户模拟器对所述对话系统进行训练；

其中，所述预设模型为文本到文本转换器；

所述根据多个所述第四子目标和所述第二对话数据对预设模型进行训练，具体包括：

将多个所述第四子目标转换成词组序列的格式；

根据多个所述第四子目标确定与多个所述第四子目标相对应的对话文本；

以转换格式后的多个所述第四子目标和所述对话文本，对所述预设模型进行训练。

8.根据权利要求7所述的对话系统的训练方法，其特征在于，所述根据所述标注语料将所述第四用户目标划分为多个第四子目标，具体包括：

根据所述标注语料确定所述第二对话数据中的多个关键词；

根据多个所述关键词将所述第四用户目标划分为多个所述第四子目标。

9.一种对话系统的训练装置，其特征在于，包括：

获取单元，用于获取对话数据和与所述对话数据对应的第四用户目标，所述对话数据中包括用于标注所述对话数据的标注语料；

第一处理单元，用于根据所述标注语料将所述第四用户目标划分为多个第四子目标；

第二处理单元，用于根据多个所述第四子目标和所述对话数据对预设模型进行训练，确定用户模拟器；

第三处理单元，用于通过所述用户模拟器对所述对话系统进行训练；

其中，所述预设模型为文本到文本转换器；

所述第二处理单元具体用于将多个所述第四子目标转换成词组序列的格式；根据多个所述第四子目标确定与多个所述第四子目标相对应的对话文本；以转换格式后的多个所述第四子目标和所述对话文本，对所述预设模型进行训练。

10.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器存储有程序，所述处理器执行所述程序时实现如权利要求1至5中任一项所述的与对话系统的交互方法的步骤，或如权利要求7或8所述的对话系统的训练方法的步骤。

11.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的与对话系统的交互方法的步骤，或如权利要求7或8所述的对话系统的训练方法的步骤。

12.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器被执行时实现如权利要求1至5中任一项所述的与对话系统的交互方法的步骤，或如权利要求7或8所述的对话系统的训练方法的步骤。