CN115017919A

CN115017919A - 用于支持训练数据快速构建和流程自定义的多场景对话系统及方法

Info

Publication number: CN115017919A
Application number: CN202210944385.1A
Authority: CN
Inventors: 倪进鑫
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-09-06
Anticipated expiration: 2042-08-08
Also published as: CN115017919B

Abstract

本发明属于机器人对话系统技术领域，具体涉及用于支持训练数据快速构建和流程自定义的多场景对话系统及方法。系统包括：数据转换模块，用于将输入的训练对话数据转换为YAML格式数据；对话机器人训练模块，用于利用YAML格式数据和给定的机器人ID和版本号，训练对话机器人模型；对话机器人部署模块，用于通过给定的机器人ID和版本号，将训练成功的对话机器人模型部署到服务器上；人机交互模块，用于在对话机器人模型部署上线后，与用户进行交互。本发明具有节约成本、配置简单和通用性强的特点。

Description

用于支持训练数据快速构建和流程自定义的多场景对话系统及方法

技术领域

本发明属于机器人对话系统技术领域，具体涉及用于支持训练数据快速构建和流程自定义的多场景对话系统及方法。

背景技术

随着自然语言处理技术和深度学习地不断发展，对话系统相关技术也成为自然语言处理领域的热门研究方向。

对话系统按照应用场景的不同可以划分为闲聊型、问答型和任务型。闲聊型属于开放域场景，不限场景和应用的与用户进行聊天，主要需要丰富回答的趣味性；问答型主要是根据用户的提问给出相应的回答，一般是检索式问答，根据用户意图从知识库中选出相应的答案；任务型是协助用户完成特定的任务，如查询天气等。一个完整的对话系统往往需要多个类型的机器人相互配合。

对话系统按照实现方式的不同可以划分为串联型和端到端型，串联型主要指将整个对话系统拆分为几个子任务，一般来说分为自然语言理解（Natural LanguageUnderstanding, NLU）模块、对话管理模块（Dialog Management, DM），对话管理模块主要包含对话状态跟踪（Dialog State Tracking，DST）和对话策略学习（Dialog PolicyLearning, DPL）。自然语言理解模块指识别用户输入的意图、及其中的实体等；对话状态跟踪模块主要是跟踪对话状态，比如意图和每个槽值的更新；对话策略学习模块主要根据对话状态、历史对话信息等选择下一步的行为。端到端型主要指通过神经网络等模型直接获得从问题到答案的映射。

目前市场上常见的对话系统主要是串联型的，其技术方案为，给定一个应用场景，如电商客服场景，根据相应的问答对和任务内容配置语义理解数据和话术流程数据，然后基于这些数据训练自然语言理解模型和对话管理模型，训练完机器人之后再部署应用。

现有的对话系统解决方案，主要是基于不同的使用场景，根据不同场景下的数据预先训练对应的对话机器人，然后再和用户进行交互。对于用户来说，当前的对话系统解决方案主要存在以下缺点：

1.前期准备成本高

目前常见的对话系统解决方案需要用户自己配置训练数据，无法提供相似问生成的服务，即用户输入部分样例数据，系统根据样例数据自动生成语义相似的数据来扩充数据集。当出现一个新的场景时，可能没有很多标注数据，在这种情况下，相似问生成服务可以迅速扩充该场景的标注数据。数据增强技术可以短时间快速地生成某一个意图场景下的训练数据，可以降低用户构建训练数据的门槛，方便快速的构建自己的对话机器人。

2.开发成本高

目前市场上常见的对话系统解决方案，系统内部主要包括自然语言理解模块和对话管理模块，两部分采用的模型比较单一，不能根据用户需求选择不同的模型。举例来说，当用户更看重对话精度时，需要提供更复杂的模型来提高精度；当用户更看重系统耗时时，需要提供相对简单一点的模型，提升系统的响应速度。如果对话系统没有集成多种模型，当用户需求变动时，模型的换用需要大量时间开发。

对于对话管理模块，在不同的场景下，对历史对话轮次的需求是不一样的。举例来说，在FAQ场景下，更多的是一问一答，此时更多关注的是当前轮；在查天气这类的对话场景下，需要机器人和用户进行多轮的交互，以填入时间和地点的槽值。进一步地，当一轮天气查询完成后，如果用户保持地点槽值不变，仅更换时间槽值，此时就需要设置更大的对话轮次用于包含之前的信息。轮次设置的越大，模型训练就越复杂，当前的对话系统解决方案不能根据不同的场景灵活地配置最大存储历史对话轮数。进一步，不支持同时配置多个对话管理策略模型，无法兼顾规则和模型获取更准确的回复。

3.管理成本高

现有的对话系统解决方案管理成本高，每多一个场景就要新部署一套服务，各个对话机器人之间相互独立，当服务个数达到一定数量，会导致机器人端口占用混乱，机器人部署和下线等无法统一管理。

因此，设计一种节约成本、配置简单和通用性强的用于支持训练数据快速构建和流程自定义的多场景对话系统及方法，就显得十分重要。

例如，申请号为CN201911166714.9的中国专利文献描述的基于业务场景的多轮对话体系构建方法，实现方法如下：根据不同的业务场景设计多轮对话流程，并对所述多轮对话流程中每一用户节点配置语料和关键词，每一机器节点中配置标题和话术；对所述多轮对话流程中每一用户节点的语料和关键词分别根据文本分类技术和规则匹配训练意图判定模型和规则匹配模型；在用户节点收到用户语句后，分别通过所述意图判定模型和所述规则匹配模型对用户语句进行分析和预测，输出意图分析结果。虽然根据意图分析结果就可以对多轮对话流程中的节点进行调整，对话流程建立方便灵活且速度快，同时还能够快速精准的对多轮对话流程进行优化，提升对话智能性，但是其缺点在于，仍然存在构建成本过高的问题。

发明内容

本发明是为了克服现有技术中，现有的对话系统解决方案存在前期准备成本高、开发成本高和管理成本高的问题，提供了一种节约成本、配置简单和通用性强的用于支持训练数据快速构建和流程自定义的多场景对话系统及方法。

为了达到上述发明目的，本发明采用以下技术方案：

用于支持训练数据快速构建和流程自定义的多场景对话系统，包括：

数据转换模块，用于将输入的训练对话数据转换为YAML格式数据；

对话机器人训练模块，用于利用YAML格式数据和给定的机器人ID和版本号，训练对话机器人模型；

对话机器人部署模块，用于通过给定的机器人ID和版本号，将训练成功的对话机器人模型部署到服务器上；

人机交互模块，用于在对话机器人模型部署上线后，与用户进行交互。

作为优选，还包括：

相似问生成模块，用于当用户需要配置某一意图场景的数据时，输入少量的样例数据，通过调用相似度双向编码表征转换算法SimBERT和自然语言生成的方式来获取语义上相似的数据。

作为优选，所述对话机器人训练模块包括自然语言理解模块和对话管理模块；

所述自然语言理解模块包括：

意图识别模型，集成关键词分类算法、支持向量机算法SVM和双重意图和实体转换算法DIET，用于支持用户根据需要自定义配置；

实体抽取模型，集成正则匹配算法、条件随机场算法CRF和双重意图和实体转换算法DIET，用于支持用户根据需要自定义配置；

槽值抽取模型，集成正则匹配算法、直接获取实体抽取结果作为槽值和直接将用户输入作为槽值的抽取方法，用于支持用户根据需要自定义配置。

作为优选，所述对话管理模块包括：

对话策略模型，集成映射策略和转换嵌入对话策略的对话策略算法，用于支持用户根据需要自定义配置；

最大对话轮次配置模块，用于提供最大对话轮次配置接口，用户根据实际使用场景配置不同的最大轮次。

作为优选，还包括：

查询模块，用于查询各类模型是否保存完整；

存活模块，用于查询对话机器人是否部署成功。

作为优选，还包括：

对话机器人删除模块，用于下线对话机器人。

本发明还提供了用于支持训练数据快速构建和流程自定义的多场景对话方法，包括如下步骤；

S1，用户构造某个具体场景下的对话数据，对话系统获取到所述对话数据后，通过数据转换模块将用户输入数据转换成对话系统可用的YAML格式训练数据；

S2，完成训练数据构造后，调用对话机器人训练模块，用于利用YAML格式数据和给定的机器人ID和版本号，训练对话机器人模型；

S3，对话机器人模型训练完成后，用户输入机器人ID和版本号，调用查询模块，查询对话机器人的模型文件是否保存成功；

S4，若对话机器人的模型文件保存成功，则用户输入机器人ID和版本号，调用对话机器人部署模块，将训练成功的对话机器人部署到服务器上；

S5，对话机器人部署完成后，用户输入机器人ID和版本号，调用存活模块，查询对话机器人是否部署成功；

S6，若对话机器人部署成功，则用户通过人机交互模块，与对话机器人进行对话。

作为优选，步骤S1还包括如下步骤：

S11，若用户构造的数据量少于训练需要的数据量，则调用相似问生成模块，生成大量语义相似的数据，对训练数据进行扩充。

作为优选，还包括如下步骤：

S7，当需要下线某一对话机器人时，通过输入机器人ID和版本号，调用对话机器人删除模块来下线对应的对话机器人。

本发明与现有技术相比，有益效果是：（1）本发明采用自然语言理解+对话管理的串联式的多场景对话系统方案来赋能、改造和优化现有的对话系统；本发明方案的好处是配置门槛低，对于数据量少的场景，可以根据用户提供的样例数据自动生成大量语义相似数据，最大程度的降低用户的使用成本；同时，本发明方案具有很好的通用性，其功能可以针对不同领域不同场景进行适配，具备较强的迁移扩展性；（2）本发明采用串联式对话系统解决方案，在自然语言理解模块，配置了双重意图和实体转换算法DIET等多种算法实现意图识别和实体抽取等任务；在对话管理模块，配置了转换嵌入对话策略等多种对话策略算法来预测机器人下一步动作，同时支持不同场景下配置最大存储历史对话轮数来提高回答精度；上述算法模型的应用，能充分发挥了人工智能技术在大数据、复杂决策方面的优势，提高对话系统的智能程度；同时，本发明对多场景下的多个对话机器人统一管理，提供了查询和下线等多个对话机器人管理接口，能显著地降低了管理成本；（3）本发明具有节约成本、配置简单、通用性强以及融合了合适的系统架构方式和最新靠人工智能技术的特点。

附图说明

图1为本发明中用于支持训练数据快速构建和流程自定义的多场景对话系统的一种原理框图；

图2为本发明中用于支持训练数据快速构建和流程自定义的多场景对话系统的一种模块示意图；

图3为本发明中相似问生成模块获取语义上相似数据的一种示意图；

图4为本发明中数据转换模块进行数据转换的一种示意图；

图5为本发明中自然语言理解模块和对话管理模块的一种功能示意图

图6为本发明实施例所提供的用于支持训练数据快速构建和流程自定义的多场景对话方法的一种流程图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例：

如图1和图2所示的用于支持训练数据快速构建和流程自定义的多场景对话系统，包括：

数据转换模块，用于将前端输入的JSON格式的对话数据转换为自然语言理解模块可以读取的YAML格式数据；

对话机器人训练模块，用于通过转化后可读的YAML格式训练数据和给定的机器人ID和版本号，调用自然语言理解模块（NLU模块）和对话管理模块（DM模块）来训练对话机器人模型；

人机交互模块，用于在对话机器人模型部署上线后，与用户进行交互。用户输入想要咨询的问题，对话机器人会给出相应的回复。

相似问生成模块用在某一意图的训练数据量少的场景下。具体来说，当用户需要配置某一意图场景的数据时，只需输入少量的样例数据，系统通过调用SimBERT（Similarity Bidirectional Encoder Representation from Transformers相似度双向编码表征转换算法）算法，通过自然语言生成的方式来获取语义上相似的数据。该模型采用大量相似问数据进行预训练，学习相似数据之间特征，具体如图3所示。假设句子A和句子B是一组相似句，那么在同一批（一个batch）中，把[CLS]句子A [SEP]句子B[SEP]和[CLS]句子B [SEP] 句子A[SEP]都加入组合进来进行训练。其中[CLS]是指每个句子的句向量，[SEP]是句子之间的分隔符。0表示不相似，1表示相似，例如第一行第二列是1，说明第一条数据和第二条数据是相似的（第一条是“杭州简称”，第二条“杭州别名”）和第三、第四条数据是不相似的（第三天“西湖位置”，第四条“西湖在上面地方”）。例如，输入的数据为“你们的产品好用吗”，SimBERT算法根据输入的数据获得相似的数据，如“你们的产品好用吗”、“你们的产品好用吗；有什么特色”、“你们的产品好吗”、“你们的产品怎样”。其他例如“杭州简称”与“杭州的别名”构成相似数据；“西湖位置”与“西湖在什么地方”构成相似数据。

进一步的，对话机器人训练模块包括自然语言理解模块和对话管理模块。

本发明的对话系统训练机器人时需要事先配置例如意图数据、实体数据等，为了方便用户配置训练数据，降低前期准备成本，本发明提供了数据转换模块，该模块将用户输入数据转化为自然语言理解模块可用的YAML格式文件，如图4所示。

具体来说，自然语言理解模块训练对话机器人需要配置nlu.yaml、stories.yaml、domain.yaml和config.yaml文件，其中nlu.yaml中配置了自然语言理解所需的训练数据，包括意图标注、实体标注和槽值标注；storie.yaml是对话管理系统所需的训练数据，即根据对话流程编写的故事数据；domain.yaml数据是定义了系统可操作的范围，包含了intent、entity、slot和form等数据的声明；config.yaml定义了自然语言理解模块和对话管理模块训练采用的模型及相应的参数。

nlu.yaml中配置了自然语言理解所需的训练数据。具体来说，用户输入的JSON格式数据包括intent_entity: value和slot: value两种键值对，其中intent_entity中定义了意图数据和实体数据，在intent_entity中，每一个意图定义一个字典，name值为意图名，text值为对应的数据，entity数据标注在text中用中括号定义。举例来说，定义一个查天气的意图，其格式为：intents: {name: request_weather, text: 帮我查一下[杭州](address)[明天](date)的天气。}，对应转化后的YAML格式为：- intent: request_weather\n examples: | \n帮我查一下[杭州](address)[明天](date)的天气。在slot中，有两种形式，一种是定义正则抽取slot，另一种是定义为entity形式，在定义slot时通过from_entity通过实体识别方式抽取slot。

stories.yaml中定义了对话管理系统所需的训练数据，即根据对话流程编写的故事数据。具体来说，根据对话形式不同分为两种，一种是一问一答型知识库问答，根据相应的意图和给出的意图答案，自动定义utter形式的action，在stories.yaml中写入对应的对话流程；另一种是多轮交互类问答，需要确认该对话流程中需要的slot，该对话流程通过form定义，对应的action需要事先定义。

domain.yaml中定义了系统可操作的范围，包含了intent、entity、slot、action和form等数据的声明，遍历输入JSON文件，读取其中的intent名、entity名和slot名，同时将生成的action和form定义一起写入domain.yaml文件中。

本发明在获取输入数据并转换为系统可处理的格式后，自然语言理解模块和对话管理模块利用输入数据训练该场景下的对话机器人，如图5所示，其中各功能应用到的技术如下：

用户问题意图识别：集成了如关键词分类算法、SVM（Support Vector Machine支持向量机）和DIET（Dual Intent and Entity Transformer双重意图和实体转换算法）等多种文本分类算法，支持用户根据实际需求自定义配置意图识别模型。

用户问题实体抽取：集成了如正则匹配算法、CRF（Conditional Random Filed 条件随机场）和DIET（Dual Intent and Entity Transformer双重意图和实体转换算法）等多种实体识别算法，支持用户根据实际需求自定义配置实体抽取模型。

DIET（Dual Intent and Entity Transformer双重意图和实体转换算法）是一种可以用于意图识别和实体抽取的联合多任务结构。该模型能够通过即插即用的方式利用预训练语言模型的单词嵌入，并将其和单词以及字符级别的n-gram稀疏特征结合起来，进行意图识别和实体抽取。由于DIET算法属于联合学习算法，针对意图和实体存在关系的场景下，该算法可以学习到特定意图和特定实体之间的相关性，从而获取精度更高的意图和实体结果。

用户问题槽值抽取：集成了正则匹配算法、直接获取实体抽取结果作为槽值和直接将用户输入作为槽值这3种抽取方法，支持用户根据实际需求自定义配置槽值抽取模型。

对话策略模型：对话策略模型根据自然语言理解模块输出的意图、实体和槽值等数据，根据用户设置的最大对话轮次从数据库中获取历史对话数据，根据这些数据学习当前时刻机器人需要回复的答案。其中集成了Mapping Policy（映射策略）、TransformerEmbedding Dialog Policy（转换嵌入对话策略）等多种对话策略算法，支持用户根据实际需求自定义配置对话策略模型。

TED（Transformer Embedding Dialog Policy 转换嵌入对话策略）使用了Transformer架构进行对话管理，把self-attention（自注意力）机制应用到每一轮对话序列上。通过联合训练每个对话状态和每个对话系统动作的最大相似性，在预测阶段，将对话的当前状态和所有可能的系统动作计算相似度，然后选出相似度最高的一个动作。由于现实对话中存在主题上的交叉，TED算法采用self-attention机制相对于传统的LSTM（Longshort term memory 长短期记忆网络）能更好的识别交叉的主题，从而提高对话精度。

本发明中，还提供了最大对话轮次配置接口（最大对话轮次配置模块），可以根据实际使用场景配置不同的最大轮次，如果是更专注于局部信息，当超过最大轮次后，模型会遗忘之前的对话信息，从而更专注于当前的信息；如果更专注于历史对话信息，可以设置更大的轮次，从而记住更多有用的信息。

本发明在训练完成后，可以部署训练好的对话机器人，其中封装的各接口所实现的功能如下：

模型查询接口（查询模块）：对话机器人训练完成后，机器人编号和版本号保存在数据库中，模型文件保存在本地，模型文件名即为机器人编号和版本号。用户通过查询模块，输入机器人编号和版本号可以查询该模型文件是否保存成功。

对话机器人部署接口（对话机器人训练模块）：对话机器人部署模块可以将机器人部署在CPU设备或GPU设备上。当部署GPU设备上时，通过修改环境变量可自定义该对话机器人的GPU显存占用。对话机器人部署模块可以同时部署多个不同场景的对话机器人，部署完成后，会将该对话机器人所占用的端口号存储到数据库中。

对话机器人存活接口（存活模块）：调用对话机器人部署接口将某一对话机器人部署完成后，可以通过对话机器人存活接口查询是否部署成功。该接口通过给定的机器人编号和版本号从数据库中获取改对话机器人部署的端口号，然后根据Linux命令lsof -i查询启动该端口号的命令中模型文件名中的对话机器人的编号和版本号来判断该机器人是否存活。

对话机器人交互接口（人机交互模块）：对话机器人部署完成后，调用对话机器人交互接口，通过给定的对话机器人的编号和版本号激活该对话机器人。用户输入问题后，通过自然语言理解模块识别用户意图，抽取其中的实体和槽值等特征数据，自然语言理解模块输出和历史会话信息一同作为对话管理模块的输入，对话管理模块根据这些信息预测回复信息，并返回给用户。

对话机器人删除接口（对话机器人删除模块）：根据给定的对话机器人的编号和版本号从数据库中该对话机器人部署的端口号，通过lsof -i获取占用端口号的进程号，最后通过kill -9命令杀死该进程来下线机器人，机器人下线完成后，根据用户输入的是否删除模型的标志位来判断是否删除该模型文件。

对话机器人和用户交互产生的对话数据存储在redis数据库中，redis数据库读取速度快，能提高系统的响应速度，同时机器人的配置信息存放于mysql数据库中，配置信息与机器人之间交互少，存放在mysql中不会影响系统的响应速度。

如图6所示，本发明还提供了用于支持训练数据快速构建和流程自定义的多场景对话方法，包括如下步骤；

若用户构造的数据量少于训练需要的数据量，则调用相似问生成模块，生成大量语义相似的数据，对训练数据进行扩充。

S6，若对话机器人部署成功，则用户通过人机交互模块，与对话机器人进行对话；

本发明独创性的采用一种自然语言理解+对话管理的串联式的多场景对话系统方案来赋能、改造和优化现有的对话系统，本发明方案配置简单，针对小样本场景，可以根据部分种子样例自动生成大量语义相似的数据，最大程度地降低使用成本。并且多场景对话系统可以针对不同领域不同场景进行适配，具备很好的迁移扩展性。

本发明的创新点如下：

1.本发明针对新场景下数据量少的问题，创新性地采用SimBert模型用于生成相似问题，用户只需要提供少量样例数据，该模型能根据样例数据自动生成大量相似数据，用于扩充训练数据，极大地降低了数据构造门槛；

2.本发明在自然语言理解模块和对话管理模块提供了多种模型，并且支持自定义配置。用户可以根据响应速度和精度的要求，自定义的配置不同的模型用于训练对话机器人，极大地降低了定制化改造对话系统的成本；

3.本发明支持自定义配置最大存储历史对话轮次，用户可根据不同的场景配置不同的最大存储历史对话轮次来提高回答精度。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.用于支持训练数据快速构建和流程自定义的多场景对话系统，其特征在于，包括：

2.根据权利要求1所述的用于支持训练数据快速构建和流程自定义的多场景对话系统，其特征在于，还包括：

3.根据权利要求2所述的用于支持训练数据快速构建和流程自定义的多场景对话系统，其特征在于，所述对话机器人训练模块包括自然语言理解模块和对话管理模块；

所述自然语言理解模块包括：

4.根据权利要求3所述的用于支持训练数据快速构建和流程自定义的多场景对话系统，其特征在于，所述对话管理模块包括：

5.根据权利要求4所述的用于支持训练数据快速构建和流程自定义的多场景对话系统，其特征在于，还包括：

查询模块，用于查询各类模型是否保存完整；

存活模块，用于查询对话机器人是否部署成功。

6.根据权利要求5所述的用于支持训练数据快速构建和流程自定义的多场景对话系统，其特征在于，还包括：

对话机器人删除模块，用于下线对话机器人。

7.用于支持训练数据快速构建和流程自定义的多场景对话方法，基于权利要求6所述的用于支持训练数据快速构建和流程自定义的多场景对话系统，其特征在于，包括如下步骤；

8.根据权利要求7所述的用于支持训练数据快速构建和流程自定义的多场景对话方法，其特征在于，步骤S1还包括如下步骤：

9.根据权利要求7所述的用于支持训练数据快速构建和流程自定义的多场景对话方法，其特征在于，还包括如下步骤：