CN110059170A

CN110059170A - 基于用户交互的多轮对话在线训练方法及系统

Info

Publication number: CN110059170A
Application number: CN201910218450.0A
Authority: CN
Inventors: 鄂海红; 宋美娜; 牛佩晴; 陈忠富; 肖思琪; 周筱松; 程瑞
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-07-26
Anticipated expiration: 2039-03-21
Also published as: CN110059170B

Abstract

本发明公开了一种基于用户交互的多轮对话在线训练方法及系统，其中，该方法包括：获取当前对话轮次，并判断对话轮次是否大于预设阈值；若对话轮次大于预设阈值，则获取当前动作；若当前动作为接收操作动作时，则通过自然语言理解模块对当前动作进行意图和实体识别；若意图和实体的识别结果任一存在错误，则接收用户定义正确的意图和实体；根据用户定义正确的意图和实体对自然语言理解模块进行实时在线训练。该方法通过与用户在线交互，实时对模块进行训练，解决任务型多轮对话系统中文对话数据集匮乏且质量不高的问题，可适用于不同的对话场景。

Description

基于用户交互的多轮对话在线训练方法及系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于用户交互的多轮对话在线训练方法及系统。

背景技术

近年来，随着人工智能技术日新月异的发展，人机对话技术在各个领域都得到广泛应用，尤其是目标驱动型的多轮对话系统，旨在帮助用户完成具体的任务，例如帮助用户预订机票，预订餐厅等，目标驱动型的对话系统可以使用户获取信息的方式更加简洁明确，不同于传统的搜索引擎的基于网页的解决方案，对话系统可以与用户进行多轮连续的对话，步步引导，逐渐确定用户的意图，基于背景知识返回给用户直接且精准的答案，避免用户从搜索引擎查找到的网页中再进行更细粒度的信息筛选，节省了用户的时间和精力。将传统的搜索引擎检索方式转换为目标驱动型的与用户进行多轮交互的方式，是未来必然的发展趋势。

目标驱动型的多轮对话系统的发展势头良好，但传统的基于自动机转换和模版的方式远远不能满足用户的需要，因而对话系统的主要发展趋势是与深度学习技术紧密结合起来，利用深度学习技术进一步提高目标驱动型多轮对话系统的性能。深度学习本身是数据驱动的科学，需要大量的数据来进行训练才能保证模型的性能，但是基于中文业务场景的对话系统数据集很难获得，且标注费时费力，构建高质量的基于业务场景的中文知识库的成本很高昂。其次，数据库的人工标注非常容易出错，会有一些未正确标注的数据出现，这些数据也会放进模型中进行训练，会进一步影响模型的性能。实际上，制约目标驱动型的多轮对话系统的发展的瓶颈之一就是高质量数据量的匮乏。

而构建可以实时产生高质量对话数据的在线训练模块可以快速高效的构建高质量的对话数据，缓解目标驱动型多轮对话系统数据匮乏的现状，这对于任务型多轮对话系统的发展具有非常重要的意义。

在相关技术中提出了一种具备多任务驱动能力的多轮对话的方法和系统，这个系统根据传统的流水线方式构建，包含了自然语言理解、对话管理、自然语言生成几个模块，但其中并未涉及到在线训练模块，因而也不能实时高效的产生训练数据，缓解数据稀疏的问题。还提出了一种基于多任务学习的对话策略在线实现方法，但该方法仅仅通过强化学习的方式来优化对话策略，并未发挥用户本身的主观能动性，没有给用户自主选择的权利，因此系统需要进行多轮迭代才能得到最终的结果，而且这样的结果并不一定能满足用户的预期。此外，仅仅对对话策略进行了更新，并未直接作用于下游的对话生成模块，因而也无法直接与用户进行交互，直接根据用户的期望进行模型的修正。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于用户交互的多轮对话在线训练方法，该方法通过与用户在线交互，实时对模块进行训练，解决任务型多轮对话系统中文对话数据集匮乏且质量不高的问题，可适用于不同的对话场景。

本发明的另一个目的在于提出一种基于用户交互的多轮对话在线训练系统。

为达到上述目的，本发明一方面实施例提出了一种基于用户交互的多轮对话在线训练方法，包括：获取当前对话轮次，并判断所述对话轮次是否大于预设阈值；若所述对话轮次大于预设阈值，则获取当前动作；若所述当前动作为接收操作动作时，则通过自然语言理解模块对所述当前动作进行意图和实体识别；若所述意图和实体的识别结果任一存在错误，则接收用户定义正确的意图和实体；根据所述用户定义正确的意图和实体对所述自然语言理解模块进行实时在线训练。

本发明实施例的基于用户交互的多轮对话在线训练方法，通过用户进行在线交互，可以实时对系统识别出的意图和实体进行判断，并对不符合期望的地方进行修改，用户也可以对系统进行回复的动作进行审阅并更改，有效地保证了构建的对话数据集的质量，可以实现在实际业务场景中的应用，比如酒店预订、医疗挂号、航班预订、车票预订等。

另外，根据本发明上述实施例的基于用户交互的多轮对话在线训练方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，还包括：

若所述意图和实体的识别结果都为正确，则通过对话管理模块根据所述意图和实体的识别结果对所述当前动作进行动作回应；若所述动作回应为错误，则接收用户定义正确的工作；根据所述用户定义正确的工作对所述对话管理模块进行实时在线训练。

进一步地，在本发明的一个实施例中，还包括：

在完成了所述自然语言理解模块和所述对话理解模块的实时在线训练之后，对对话状态更新模块进行更新得到新的对话状态，并将所述新的对话状态转换为向量形式，得到下一轮次对话，形成多轮对话的交互。

进一步地，在本发明的一个实施例中，还包括：

若所述对话轮次不大于预设阈值，则等待下一对话轮次。

进一步地，在本发明的一个实施例中，还包括：

若所述当前动作不为所述接收操作动作，则仅通过所述对话管理模块对所述当前动作进行动作回应供用户审阅。

为达到上述目的，本发明另一方面实施例提出了一种基于用户交互的多轮对话在线训练系统，包括：判断模块，用于获取当前对话轮次，并判断所述对话轮次是否大于预设阈值；获取模块，用于若所述对话轮次大于预设阈值，则获取当前动作；识别模块，用于若所述当前动作为接收操作动作时，则通过自然语言理解模块对所述当前动作进行意图和实体识别；修正模块，用于若所述意图和实体的识别结果任一存在错误，则接收用户定义正确的意图和实体；在线训练模块，用于根据所述用户定义正确的意图和实体对所述自然语言理解模块进行实时在线训练。

本发明实施例的基于用户交互的多轮对话在线训练系统，通过用户进行在线交互，可以实时对系统识别出的意图和实体进行判断，并对不符合期望的地方进行修改，用户也可以对系统进行回复的动作进行审阅并更改，有效地保证了构建的对话数据集的质量，可以实现在实际业务场景中的应用，比如酒店预订、医疗挂号、航班预订、车票预订等。

另外，根据本发明上述实施例的基于用户交互的多轮对话在线训练系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，还包括：动作回应模块，所述动作回应模块，用于若所述意图和实体的识别结果都为正确，则通过对话管理模块根据所述意图和实体的识别结果对所述当前动作进行动作回应；

若所述动作回应为错误，则接收用户定义正确的工作；

根据所述用户定义正确的工作对所述对话管理模块进行实时在线训练。

进一步地，在本发明的一个实施例中，还包括：等待模块。

所述等待模块，用于若所述对话轮次不大于预设阈值，则等待下一对话轮次。

进一步地，在本发明的一个实施例中，还包括：处理模块，

所述处理模块，用于若所述当前动作不为所述接收操作动作，则仅通过所述对话管理模块对所述当前动作进行动作回应供用户审阅。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于用户交互的多轮对话在线训练方法流程图；

图2为根据本发明一个具体实施例的基于用户交互的多轮对话在线训练方法流程图；

图3为根据本发明一个实施例的关于意图、实体和回应动作示意图；

图4为根据本发明一个实施例的自然语言理解模块重新训练图；

图5为根据本发明一个实施例的自然语言理解模块重新训练后的识别结果图；

图6为根据本发明一个实施例的对话管理模块的动作识别结果图；

图7为根据本发明一个实施例的多轮对话在线训练系统图；

图8为根据本发明一个实施例的基于用户交互的多轮对话在线训练系统结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于用户交互的多轮对话在线训练方法及系统。

首先将参照附图描述根据本发明实施例提出的基于用户交互的多轮对话在线训练方法。

图1为根据本发明一个实施例的基于用户交互的多轮对话在线训练方法流程图。

如图1所示，该基于用户交互的多轮对话在线训练方法包括以下步骤：

在步骤S101中，获取当前对话轮次，并判断对话轮次是否大于预设阈值。

在步骤S102中，若对话轮次大于预设阈值，则获取当前动作。

具体地，获取当前的对话轮次，判断当前的对话轮次是否大于一，如果当前对话轮次大于一的话，则可以继续进行下述的步骤，否则当前对话轮次为一的时候，并没有产生交互，也就没有进行在线训练的意义，等待下一轮次的对话。

在步骤S103中，若当前动作为接收操作动作时，则通过自然语言理解模块对当前动作进行意图和实体识别。

具体地，如图2所示，在获取到当前轮次的动作后，即用户进行输入后，判断当前动作类型，若当前动作为接收操作动作，在实际应用中，通过actionListen来判断接收操作动作，如果为actionListen,则表明现在用户刚刚进行输入，系统要对当前动作做出动作回应，要给出对用户输入中的意图和槽值(实体)的识别结果，需要对意图、槽值和系统的回应动作都进行判断。而如果当前的动作不为actionListen，则表明当前没有涉及到用户输入，只需对action，即动作回应进行判断就可以了。

下面举例对上述两种情况进行讨论，首先对当前动作为actionListen的情况进行分析。

如图3所示，通过在线训练返回的识别结果，可以看到，此时系统执行的是actionListen的动作，并且把识别出的用户语句中的意图和槽值展了出来，用户输入的语句是“我想预定一个双人的标准房”，识别出的意图是inform，识别出来的槽值是entity_people:双；entity_type:标准房，系统想要执行的动作的是utter_scheduled，表示的是预定房间的意思，接下来，系统返回了六个选项让用户选择，分别为:

1、是的

2、回应动作错误但意图实体正确

3、意图错误但实体正确

4、实体错误但意图正确

5、意图和实体都错误

6、到此会话记录并结束

由图3可知，在这里识别的结果是正确的，所以应该选择1，但为了更好的说明在线训练模块的功能，在这里选择5，如果选择5，则证明自然语言理解(Natural LanguageUnderstanding，NLU)模块的识别结果是错误的，而对话管理(Dialog Management，DM)模块是建立在对话理解模块的基础上，也需要重新训练。

具体地，用户输入语句后可以自主选择系统的回复，并检验系统识别出的意图和槽值是否正确，还可以实时修改系统识别出的意图和槽值信息，在线生成训练数据，根据用户期望快速构建高质量的数据，有效的改进样本数据分布不均匀的问题。

在步骤S104中，若意图和实体的识别结果任一存在错误，则接收用户定义正确的意图和实体。

在步骤S105中，根据用户定义正确的意图和实体对自然语言理解模块进行实时在线训练。

具体的，如图4所示，对自然语言理解模块进行实时在线训练，首先需要向用户询问正确的标准答案，即用户正确的意图和实体，系统会向用户确认正确的意图和实体识别结果，并展示了每个意图类型的概率分布，在这里把正确意图设置为scheduled，因此选择了1。之后系统让用户输入实体的类型和位置，给出了“不同实体用|分开，实体内部用空格分开，没有实体直接回车”的格式要求，在这里输入了“entity_people 68|entity_type 912”。在得到了标准答案之后系统就会自动进行模型的重新训练。

最终在模型训练完毕之后会重新给出自然语言理解模块给用户输入的识别结果，如图5所示，意图识别为scheduled，实体识别为entity_people：双人(6,8)|entity_type:标准房(9,12)，符合我们刚才的预期结果；如果不符合，则可以重新进行训练。

通过在线训练可以实时对模型进行更新，在与用户进行交互完毕之后并确认了对话数据的准确性之后，就可以用新产生的数据自动对模型进行更新，简便高效，用户和后台维护人员无需自己再重新进行训练。

进一步地，在本发明的一个实施例中，还包括：

若意图和实体的识别结果都为正确，则通过对话管理模块根据意图和实体的识别结果对当前动作进行动作回应；

若动作回应为错误，则接收用户定义正确的工作；

根据用户定义正确的工作对对话管理模块进行实时在线训练。

具体地，在意图和实体的识别结果都为正确的情况下，不需要对自然语言理解模块进行训练。

通过对话管理模块根据意图和实体的识别结果对当前动作进行动作回应，在动作回应出现错误时，和对自然语言理解模块的训练类似，接收用户定义正确的工作，对对话管理模块进行训练。

如图6所示，系统表示想要用action_searchHotel这个动作来进行回应，结果是正确的，所以选择了1。如果是不正确的，就要选择2，对话管理(DM)模块则会重新进行训练，和自然语言理解(NLU)模块类似。

当前动作的另一种情况，在当前动作不为actionListen时，系统仅仅将对话管理模块(DM)与用户进行交互，仅仅把系统识别出的动作呈现给用户进行审阅，如上述的对对话管理模块进行训练那样，而不会涉及到自然语言理解(NLU)模块。

进一步地，在本发明的一个实施例中，还包括：在完成了自然语言理解模块和对话理解模块的实时在线训练之后，对对话状态更新模块进行更新得到新的对话状态，并将新的对话状态转换为向量形式，得到下一轮次对话，形成多轮对话的交互。

具体地，在完成了自然语言理解(NLU)模块和对话理解(DM)模块的在线训练之后，系统所识别的意图、槽值、执行的动作可以符合用户的预期，也会进行对话状态的更新得到新的对话状态，并将其转换为向量形式，之后就可以得到下一轮对话，形成多轮对话的交互。

如图7所示，展示了在线训练系统与多轮对话的交互机制，一个基于流水线的多轮对话系统主要包含三个部分：自然语言理解(NLU)模块、对话管理(DM)模块、对话生成(Natural Language Generation，NLG)模块三个模块。在自然语言理解(NLU)模块，使用了意图和槽值(实体)联合建模的方式，可以扩展替换为其它模型；对话管理模块(DM)可以分为对话状态跟踪(Dialogue State Tracking，DST)和对话策略制定(Policy Learning)两个部分，对话状态跟踪部分采用了人工规则和槽填充结合的方式，对话策略制定部分采用了结合记忆存储与神经网络的方式，这些方式只是实现的一种方式之一，也可以通过其它的方式实现；对话生成模块(NLG)采用了模块与知识库相结合的方式，生成的给用户的回复可以是模版回答，也可以是数据库的检索结果。特别注意的是，实现这些模块的方式方法都是可以被扩展和替换的，比如在对话管理模块使用的是LSTM分类器，也可以被替换为支持向量机(SVM)。实际上，在线训练模块是直接与多轮对话系统中的自然语言理解(NLU)模块和对话管理(DM)模块进行交互的。

在线训练模块会首先与自然语言理解模块进行交互，自然语言理解模块会首先将提取出用户语句中的的意图和槽值传递给在线训练模块，通过在线训练模块，用户可以直接对自然语言理解模块识别出的意图和槽值进行判断并修改，这样就可以保证自然语言理解模块和对话管理模块识别出的结果都是符合用户预期的，有针对性的对自然语言理解部分进行训练。

在线训练模块也会与对话管理模块进行交互，与自然语言理解模块类似，对话管理模块会首先把得到的最优的动作反馈给在线训练模块(比如询问用户想要预定酒店的时间，用action_asktime表示)，通过在线训练模块，用户可以自己对机器给出的响应进行评估，评估这个动作是否符合当前语境与对话情景，如果不满意，就可以自己定义想要回复的动作(比如认为应该用户想要什么价位的房间，用action_askprice表示)。

这样，通过自然语言理解和对话管理模块，在线训练模块就可以与多轮对话系统产生多轮交互，有效的缓解对话系统中的数据稀疏问题和数据质量不高的问题，快速高效的产生高质量的数据，构建自己的基于中文业务场景的知识库。

进一步地，本发明实施例的创建了目标驱动型多伦对话系统的在线训练模块，可以与用户实时进行交互，用户可以实时对系统的输出结果进行审阅并更改，比如对系统识别出的槽值(实体)、意图，和系统将要执行的动作进行选择。通过在线训练实时的模型进行优化更新，用户审阅并改正之后的数据可以实时加入到训练语料中，并自动对模型重新进行训练，用户和后台维护人员无需自己再重新进行训练，适用于不同的对话场景，可以有效的缓解任务型多轮对话系统中文对话数据集匮乏且质量不高的问题。

下面通过一个例子来具体说明，表1为自然语言理解系统输出示例，如表1所示，展示了音乐场景下自然对用户输入文本进行语义解析的结果，也是自然语言理解系统期望的目标输出，用户输入的文本为“给我放一首周杰伦的夜曲”，通过本实施例的方法会输出每一个汉字的标签，根据这些标签信息，可以得到singer_name为周杰伦，song_name为夜曲的语义信息。系统还会识别出用户输入文本的意图，也就是这里的play_song，播放歌曲。

表1

根据本发明实施例提出的基于用户交互的多轮对话在线训练方法，通过与用户进行在线交互，可以实时对系统识别出的意图和实体进行判断，并对不符合期望的地方进行修改，用户也可以对系统进行回复的动作进行审阅并更改，有效地保证了构建的对话数据集的质量，可以实现在实际业务场景中的应用，比如酒店预订、医疗挂号、航班预订、车票预订等。

其次参照附图描述根据本发明实施例提出的基于用户交互的多轮对话在线训练系统。

如图8所示，该基于用户交互的多轮对话在线训练系统包括：判断模块100、获取模块200、识别模块300、修正模块400和在线训练模块500。

其中，判断模块100用于获取当前对话轮次，并判断对话轮次是否大于预设阈值。

获取模块200用于若对话轮次大于预设阈值，则获取当前动作。

识别模块300用于若当前动作为接收操作动作时，则通过自然语言理解模块对当前动作进行意图和实体识别。

修正模块400用于若意图和实体的识别结果任一存在错误，则接收用户定义正确的意图和实体。

在线训练模块500用于根据用户定义正确的意图和实体对自然语言理解模块进行实时在线训练。

该系统通过与用户在线交互，实时对模块进行训练，解决任务型多轮对话系统中文对话数据集匮乏且质量不高的问题，可适用于不同的对话场景。

进一步地，在本发明的一个实施例中，还包括：动作回应模块，动作回应模块，用于若意图和实体的识别结果都为正确，则通过对话管理模块根据意图和实体的识别结果对当前动作进行动作回应；

若动作回应为错误，则接收用户定义正确的工作；

进一步地，在本发明的一个实施例中，还包括：等待模块。

等待模块，用于若对话轮次不大于预设阈值，则等待下一对话轮次。

进一步地，在本发明的一个实施例中，还包括：处理模块，

处理模块，用于若当前动作不为接收操作动作，则仅通过对话管理模块对当前动作进行动作回应供用户审阅。

需要说明的是，前述对基于用户交互的多轮对话在线训练方法实施例的解释说明也适用于该实施例的系统，此处不再赘述。

根据本发明实施例提出的基于用户交互的多轮对话在线训练系统，通过与用户进行在线交互，可以实时对系统识别出的意图和实体进行判断，并对不符合期望的地方进行修改，用户也可以对系统进行回复的动作进行审阅并更改，有效地保证了构建的对话数据集的质量，可以实现在实际业务场景中的应用，比如酒店预订、医疗挂号、航班预订、车票预订等。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于用户交互的多轮对话在线训练方法，其特征在于，包括以下步骤：

获取当前对话轮次，并判断所述对话轮次是否大于预设阈值；

若所述对话轮次大于预设阈值，则获取当前动作；

若所述当前动作为接收操作动作时，则通过自然语言理解模块对所述当前动作进行意图和实体识别；

若所述意图和实体的识别结果任一存在错误，则接收用户定义正确的意图和实体；

根据所述用户定义正确的意图和实体对所述自然语言理解模块进行实时在线训练。

2.根据权利要求1所述的方法，其特征在于，还包括：

若所述意图和实体的识别结果都为正确，则通过对话管理模块根据所述意图和实体的识别结果对所述当前动作进行动作回应；

若所述动作回应为错误，则接收用户定义正确的工作；

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1还包括所述的方法，其特征在于，还包括：

若所述对话轮次不大于预设阈值，则等待下一对话轮次。

5.根据权利1所述的方法，其特征在于，还包括：

6.一种基于用户交互的多轮对话在线训练系统，其特征在于，包括：

判断模块，用于获取当前对话轮次，并判断所述对话轮次是否大于预设阈值；

获取模块，用于若所述对话轮次大于预设阈值，则获取当前动作；

识别模块，用于若所述当前动作为接收操作动作时，则通过自然语言理解模块对所述当前动作进行意图和实体识别；

修正模块，用于若所述意图和实体的识别结果任一存在错误，则接收用户定义正确的意图和实体；

在线训练模块，用于根据所述用户定义正确的意图和实体对所述自然语言理解模块进行实时在线训练。

7.根据权利要求6所述的系统，其特征在于，还包括：动作回应模块，

所述动作回应模块，用于若所述意图和实体的识别结果都为正确，则通过对话管理模块根据所述意图和实体的识别结果对所述当前动作进行动作回应；

若所述动作回应为错误，则接收用户定义正确的工作；

8.根据权利要求6所述的系统，其特征在于，还包括：对话交互模块，

所述对话交互模块用于在完成了所述自然语言理解模块和所述对话理解模块的实时在线训练之后，对对话状态更新模块进行更新得到新的对话状态，并将所述新的对话状态转换为向量形式，得到下一轮次对话，形成多轮对话的交互。

9.根据权利要求6所述的系统，其特征在于，还包括：等待模块，

10.根据权利要求6所述的系统，其特征在于，还包括：处理模块，