CN111611378A

CN111611378A - 行为训练对话控制方法、系统、存储介质、程序、终端

Info

Publication number: CN111611378A
Application number: CN202010410947.5A
Authority: CN
Inventors: 金日泽; 张立国; 赵曦; 白准永
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-09-01

Abstract

本发明属于自然语言处理技术领域，公开了一种行为训练对话控制方法、系统、存储介质、程序、终端，用户的自然语言输入并解析其意图，输出{intent:value,slot:value,…}结构化数据；根据结构化数据对知识库中的内容进行查找，将返回的结果输入对话策略管理子模块决定下一时刻对话系统的输出；根据用户目标数据结构中预定义内容生成下一个问句。系统包括：自然语言处理模块；对话管理模块；用户模拟器。本发明构建了基于强化学习的对话系统，该系统针对多动症儿童的行为问题给出父母相应的指导措施。在真实情景下的实验结果表明应用强化学习提高了对话的成功率同时也能够为儿童行为训练提供解决方法。

Description

行为训练对话控制方法、系统、存储介质、程序、终端

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种行为训练对话控制方法、系统、存储介质、程序、终端。

背景技术

目前，当前的对话系统按照应用场景可以分为三类，分别是任务型对话系统、问答型对话系统和闲聊型对话系统。任务型对话系统有明确的目标，侧重点在于完成用户指定的任务，如电影票预订系统。问答型对话系统是针对用户提出的问题给出答案，如专家咨询系统。闲聊型对话系统没有明确的目的和任务，与用户能够顺畅的进行交互即可，如微软的小冰。最近几年，在对话系统相关任务中引入深度强化学习的方法也越来越受到相关研究者的关注，深度强化学习是利用深度神经网络来表示强化学习基本算法Q函数，以便从原始对话输入中自动学习合理的对话策略。于此同时，注意力模型的提出在深度神经网络中引入了一种动态赋权的机制，模拟人脑处理外部输入信息时关注某些重要信息并进行有意识思索的高级认知机制。父母行为管理训练被认为是目前儿童多动症治疗的最佳方法。多动症儿童的父母渴望获得有效的指导以便来处理多动症儿童的行为问题，但通常父母和医师的交流方式为线下的面对面交流，这就需要父母投入更多的时间和精力，并且当父母面对孩子的不理智举动时得不到及时有效的指导。基于这种需求，我们构建的对话系统可以辅助父母做出正确且恰当的应对方法。

儿童多动症行为表现出频发性、多因性、时空随意性，以及干预治疗时效性等特点，对传统基于线下的多动症行为训练造成了极大的困难。传统对话系统一般由自然语言理解、对话管理、自然语言生成三个模块组成，自然语言理解在给定用户表述的情况下负责识别用户意图；对话管理负责追踪用户状态和采取系统行为；自然语言生成负责将系统行为转换为人类语言。为了能够对对话系统采取端到端的训练，引入了用户模拟器来模拟人和系统之间的对话。现有技术中，使对话系统性能不佳的两个主要问题是：将自然语言解析成结构化语义并理解其句子含义的能力不强，对话过程中的前后流畅度低导致用户体验不好，这阻碍了对话系统在各个实际场景下的推广和使用。

通过上述分析，现有技术存在的问题及缺陷为：

(1)传统对话系统将自然语言解析成结构化语义并理解其句子含义的能力不强，训练数据稀疏，导致模型不能学习到有效的词语向量表征，进而不能合理表征语句的语义。

(2)传统对话系统对话过程中的前后流畅度低导致用户体验不好，阻碍了对话系统在各个实际场景下的推广和使用。

解决以上问题及缺陷的难度为：

(1)训练数据获取难度大。数据稀疏导致模型不能获取自然词汇的有效向量表征，进而影响语义解析。

(2)传统对话系统依赖场景的设计来提高人机对话流畅度，但多数封闭域对话任务并非完全封闭，例如本发明关注的多动症行为训练对话任务中可出现的场景与对话模式难以枚举。

解决以上问题及缺陷的意义为：

(1)数据稀疏是阻碍机器学习模型性能进一步提升的最大瓶颈。高效、自动化的数据获取技术是模型迭代升级、可持续智能化的保障。

(2)摆脱静态的场景设计，通过强化学习、对抗学习等技术构建自适应的对话策略将提高人机对话成功率及用户体验，是多轮对话系统实现落地的重要因素。

发明内容

针对现有技术存在的问题，本发明提供了一种行为训练对话控制方法、系统、存储介质、程序、终端。

本发明是这样实现的，一种行为训练对话控制方法，所述行为训练对话控制方法包括：

第一步，用户的自然语言输入并解析其意图，输出{intent:value,slot:value,…}结构化数据；输入数据的格式是序列，如一句话‘带孩子去医院验血，孩子坚决不肯’，对这句话进行三个任务，分别是领域分类、意图识别、槽填充。领域分类的结果是医疗领域，意图识别的结果是验血，槽填充的结果是{‘地点’：医院，‘行为’：验血，‘状态’：拒绝}。形成结构化数据后输入到对话管理模块，在对话管理模块首先进行状态的更新，即根据传入的结构化数据更新当前状态，如传入了地点、行为、状态值，当前的对话状态新增这几个槽位。然后根据新的对话状态做出决策，如是询问新的信息，还是确认输入，或者给出答复。这一动作需要对知识库进行查询，在知识库中如果预定义的槽位已经获得相应的值，则返回匹配的答案，如果有槽位的值没有确定，则询问相应的值；

第二步，根据结构化数据对知识库中的内容进行查找，将返回的结果输入对话策略管理子模块决定下一时刻对话系统的输出；

第三步，根据用户目标数据结构中预定义内容生成下一个问句。

进一步，所述行为训练对话控制方法收集多轮对话获取父母自描述之外的信息。

进一步，所述行为训练对话控制方法还包括：基于强化学习技术对话管理、基于深度神经网络的自然语言理解、在一个专业对话数据集之上建立的规则库。

进一步，所述行为训练对话控制方法使用机器学习技术对多动症儿童的行为表现建模，并根据日常使用中的用户反馈动态地调整对话策略和问题响应机制。

进一步，所述行为训练对话控制方法还包括：

步骤一、使用文字、语音、影像方式收集多动症儿童、父母和医师之间关于多动症问题的询问和指导方法的记录数据，并将数据结构化为可支持问答系统查询的知识库形式；

步骤二、将深度神经网络技术、强化学习技术分别应用于对话系统的自然语言理解模块和对话管理模块；

步骤三、采用在线模式，验证知识库中对于多动症儿童行为问题的指导方案在父母实际使用中的有效性，并通过父母的反馈动态的优化方案。

进一步，所述行为训练对话控制方法收集后的数据基于经过领域专家验证过的自动化程序，包括：

行为标注：对于行为的识别，采用BIO模式，对话语料中的每个中文字符都分配一个B、I或O标签；

行为分类：在标注行为之后，将得到的行为模式进行手动的分类，类别的确定也由领域专家依据标注一致性原则执行。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

第一步，用户的自然语言输入并解析其意图，输出{intent:value,slot:value,…}结构化数据；

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种运行所述行为训练对话控制方法的行为训练对话控制系统，所述行为训练对话控制系统包括：

自然语言处理模块，用于接受用户的自然语言输入并解析其意图，输出{intent:value,slot:value,…}结构化数据；

对话管理模块，用于接受自然语言处理模块的输出，根据结构化数据对知识库中的内容进行查找，将返回的结果输入对话策略管理子模块决定下一时刻对话系统的输出；

用户模拟器，用于接受对话系统的输出，并根据用户目标数据结构中预定义内容生成下一个问句。

本发明的另一目的在于提供一种终端，所述终端搭载所述的行为训练对话控制系统。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明的对话系统的训练基于一个领域专家标注的多动症儿童治疗方案对话数据集，该数据集由两个部分组成：一个是多动症儿童父母关于孩子行为表现的自报告；另一个是父母与行为训练专家关于此类问题的治疗方案分享对话记录，所有数据的采集和使用经过了所有方的授权与数据脱敏工作。

本发明构建了一个基于强化学习的对话系统，该系统针对多动症儿童的行为问题给出父母相应的指导措施。在真实情景下的实验结果表明应用强化学习提高了对话的成功率同时也能够为儿童行为训练提供解决方法。

本发明方法与现有技术在儿童多动症对话测试集上的性能对比如表1所示。

表1

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的行为训练对话控制方法流程图。

图2是本发明实施例提供的行为训练对话控制系统的结构示意图；

图中：1、自然语言处理模块；2、对话管理模块；3、用户模拟器。

图3是本发明实施例提供的行为训练对话控制系统的原理图。

图4是本发明实施提供的自然语言理解模块结构图。

图5是本发明实施提供的对话管理模块结构图。

图6是本发明实施提供的自然语言生成结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种行为训练对话控制方法、系统、存储介质、程序、终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明提供的行为训练对话控制方法包括以下步骤：

S101：接受用户的自然语言输入并解析其意图，输出{intent:value,slot:value,…}结构化数据。

S102：接受自然语言处理模块的输出，根据结构化数据对知识库中的内容进行查找，将返回的结果输入对话策略管理子模块决定下一时刻对话系统的输出。

S103；接受对话系统的输出，并根据用户目标数据结构中预定义内容生成下一个问句。

步骤S101中，输入数据的格式是序列，如一句话‘带孩子去医院验血，孩子坚决不肯’，对这句话进行三个任务，分别是领域分类、意图识别、槽填充。领域分类的结果是医疗领域，意图识别的结果是验血，槽填充的结果是{‘地点’：医院，‘行为’：验血，‘状态’：拒绝}。形成结构化数据后输入到对话管理模块，在对话管理模块首先进行状态的更新，即根据传入的结构化数据更新当前状态，如传入了地点、行为、状态值，当前的对话状态新增这几个槽位。然后根据新的对话状态做出决策，如是询问新的信息，还是确认输入，或者给出答复。这一动作需要对知识库进行查询，在知识库中如果预定义的槽位已经获得相应的值，则返回匹配的答案，如果有槽位的值没有确定，则询问相应的值。

步骤S101中自然语言解析技术可采用任何自然语言理解技术，包括形式化语言解析、基于规则/统计的语言处理、基于深度神经网络的端到端方式理解技术，本发明偏向于使用深度神经网络将语言编码解码操作后得到结构化的输出。

步骤S102结合自然语言模块的输出(即结构化数据)与任务模板内容(语境信息)在下面两个动作之间进行选择作为对话系统的结构化输出：1)询问用户，询问语句包含必需的待澄清参数；2)答复用户，答复语句包含用户询问的信息，该信息根据结构化数据对知识库中的内容进行查询。

步骤S103将对话系统结构化输出转换为自然语言进行输出；可采用的技术包括：基于模板的语句生成技术和深度神经网络编码解码技术，本发明结合了上述两种技术。

如图2所示，本发明提供的行为训练对话控制系统包括：

自然语言处理模块1，用于接受用户的自然语言输入并解析其意图，输出{intent:value,slot:value,…}结构化数据。

对话管理模块2，用于接受自然语言处理模块的输出，根据结构化数据对知识库中的内容进行查找，将返回的结果输入对话策略管理子模块决定下一时刻对话系统的输出。

用户模拟器3，用于接受对话系统的输出，并根据用户目标数据结构中预定义内容生成下一个问句。

下面结合附图对本发明的技术方案作进一步的描述。

本发明提供的行为训练对话控制方法可以通过多轮对话获取父母自描述之外的信息，从而指导父母进行多动症儿童行为管理训练。本发明属于一个机器学习系统，它依赖于三个部分：一个基于强化学习技术对话管理模块、一个基于深度神经网络的自然语言理解模块、在一个专业对话数据集之上建立的规则库。在实际应用场景下的测试结果表明，相比于传统基于规则的对话系统，本发明能够更好的获取必要的额外信息从而提高诊断会话成功率并提供有效的多动症行为干预方案。

帮忙使用机器学习技术对多动症儿童的行为表现和父母、医师们的应对方法进行建模，并根据日常使用中的用户反馈动态地调整对话策略和问题响应机制。具体方法包括以下步骤：

步骤一、使用文字、语音、影像等多种方式收集多动症儿童、父母和医师之间关于多动症问题的询问和指导方法的记录数据，并将数据结构化为可支持问答系统查询的知识库形式。

步骤二、将深度神经网络技术(深度学习)、强化学习技术分别应用于对话系统的自然语言理解模块(NLU)和对话管理模块(DM)，提高系统对自然语言向结构化语义转化的能力和对话策略响应能力，最终提高整个对话系统的健壮性和对话流畅度。

步骤三、在实际应用中采用在线(On-line)模式，验证知识库中对于多动症儿童行为问题的指导方案在父母实际使用中的有效性，并通过父母的反馈来动态的优化方案。此外在实际应用场景中记录并统计多动症儿童某个年龄阶段的常见行为表现以及父母最常采取的应对措施，以便专业人员用此数据来开展多动症儿童行为训练研究和改进工作。

具体方案举例：从医师与多动症父母聊天记录中提取结构化数据形成训练样本并进行对话系统优化训练。

步骤1：对聊天记录进行脱敏处理后，形成问题描述与解决方法的多对多数据形式，多对多即一种问题可能有多种解决措施，一种解决措施可能会解决多种问题。整理完成后存储在关系型数据库中，如mysql数据库。

步骤2：存储在关系型数据库中的为序列形式，结合专业领域知识将对序列数据进行结构化转换，如一句话中将抽取出描述时间、地点，行为，状态等槽位的值。将转换后的结构化数据存储在数据库中，如mysql。

步骤3：将样本数据输入到对话系统中进行训练以提高系统性能，训练方法如前文所述。

步骤4：在系统正式投入使用后，对于用户的问题和系统给出的答案进行记录并存入到数据库中，每次完整的问答后获得用户反馈，

根据反馈来调整系统回复，如系统给出的解决方式获得的反馈评价低，则对于用户问题，给出这种答复的优先级将会降低。

本发明将自然语言处理中的相关技术用于解决人们日常生活中的实际问题，使用对话系统来提供多动症儿童父母行为管理训练的服务，提高父母应对多动症儿童行为问题的能力和素养。

本发明对于数据收集后的整理工作是基于经过领域专家验证过的自动化程序。具体方法如下：

行为标注：对于行为的识别，采用BIO模式，对话语料中的每个中文字符都分配一个B、I或O标签，为了保证一致性，标注工作遵循两个原则：一是任何对话记录都至少由两个领域专家来标注；二是同一句话如果存在不一致的标注，将由第三个专家来再一次标注。

孩

子

上

学

老

是

迟

到

，

天

催

啊

催

，

有

啥

好

办

法

吗

？

O

B

I

O

B

I

O

B

O

I

O

由训练数据集(对话语料)获得的类别条目

表2

对话示例

表3符号说明

符号	意义
		RLagent	采用ReinforcementLearning技术的对话系统
Rule-basedagent:	基于规则的对话系统
		Usergoal	用户模拟器根据此数据模拟用户问题
request_slot	要向对话系统咨询的问题
		inform_slot	通知对话系统的信息
solution	咨询问题的解决办法
		UNK	待填充的答案槽值

表4对话示例

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种行为训练对话控制方法，其特征在于，所述行为训练对话控制方法包括：

2.如权利要求1所述的行为训练对话控制方法，其特征在于，所述行为训练对话控制方法收集多轮对话获取父母自描述之外的信息。

3.如权利要求1所述的行为训练对话控制方法，其特征在于，所述行为训练对话控制方法还包括：基于强化学习技术对话管理、基于深度神经网络的自然语言理解、在一个专业对话数据集之上建立的规则库。

4.如权利要求1所述的行为训练对话控制方法，其特征在于，所述行为训练对话控制方法使用机器学习技术对多动症儿童的行为表现建模，并根据日常使用中的用户反馈动态地调整对话策略和问题响应机制。

5.如权利要求4所述的行为训练对话控制方法，其特征在于，所述行为训练对话控制方法还包括：

步骤一，对聊天记录进行脱敏处理后，形成问题描述与解决方法的多对多数据形式，多对多即一种问题可能有多种解决措施，整理完成后存储在关系型数据库中；

步骤二，存储在关系型数据库中的为序列形式，结合专业领域知识将对序列数据进行结构化转换；

步骤三，将样本数据输入到对话系统中进行训练以提高系统性能；

步骤四，在系统正式投入使用后，对于用户的问题和系统给出的答案进行记录并存入到数据库中，每次完整的问答后获得用户反馈，根据反馈调整系统回复。

6.如权利要求1所述的行为训练对话控制方法，其特征在于，所述行为训练对话控制方法收集后的数据基于经过领域专家验证过的自动化程序，包括：

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

8.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

9.一种运行权利要求1～6任意一项所述行为训练对话控制方法的行为训练对话控制系统，其特征在于，所述行为训练对话控制系统包括：

10.一种终端，其特征在于，所述终端搭载权利要求9所述的行为训练对话控制系统。