CN112800204A

CN112800204A - 一种智能对话系统的构建方法

Info

Publication number: CN112800204A
Application number: CN202110204053.5A
Authority: CN
Inventors: 潘心冰; 李明明; 顾英健; 玄洪升; 郭保荣
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-05-14

Abstract

本发明涉及人工智能技术领域，具体提供了一种智能对话系统的构建方法，其特征在于，具有以下步骤：S1、对不同的数据源进行建模；S2、对建立的模型进行训练；S3、进行对话。与现有技术相比，本发明通过对任务类数据和问答集类数据建模，能够在意图的识别的过程中，区分任务类和非任务类的问题，在加快识别过程中，避免问题同时通过不同响应引擎处理造成的资源浪费。

Description

一种智能对话系统的构建方法

技术领域

本发明涉及人工智能技术领域，具体提供一种智能对话系统的构建方法。

背景技术

随着互联网技术的发展与社会进步，获取信息的方式层出不穷，智能对话系统由于可以通过已有的知识库、直接定位到用户的问题，不需要用户再对信息进行过滤，直接生成答案，给人们的生活带来了极大的便利，成为人们获取海量信息不可获取的工具，同时在互联网、医疗、金融和商城等领域进行大量的应用。

现在的问答系统通常借助于自然语言处理技术和全文搜索技术对用户的问题进行处理，然后经过不同的响应引擎处理，形成开放领域和特定领域的智能对话系统。这些响应引擎包括已经大量应用的闲聊、问答集以及任务类响应引擎，也有最近比较热门的基于知识图谱以及阅读理解响应引擎。不同的响应引擎所面对的任务、擅长的领域不同，不同的相应引擎组合所形成的智能对话系统包含的知识库或者知识数据不同，所具有的能力不同。

目前智能对话系统主要针对单一响应引擎或者几个响应引擎组合形成智能对话系统，为用户的问题进行响应。虽然这种对话系统能够对特定领域或者某一方面形成比较强大的会话支撑，准确率和效率比较高，但是却无法融合多种信息来源，结合不同数据源，从多方面对用户的问题进行回复。因此，迫切需要一种新的方式将不同的数据源进行关联起来。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的智能对话系统的构建方法。

本发明解决其技术问题所采用的技术方案是：

一种智能对话系统的构建方法，具有以下步骤：

S1、对不同的数据源进行建模；

S2、对建立的模型进行训练；

S3、进行对话。

进一步的，在步骤S1中，对用户所输入的问题进行分类，分为任务类问题数据和非任务类问题数据。

进一步的，在步骤S2中，结合步骤S1中的任务类数据和非任务类数据进行训练，用于意图识别的过程中识别出非意图部分。

进一步的，对于任务类的数据指完成任务或工作所需的数据，通常以语料集的方式呈现，通过对不同的语料集训练生成模型。

进一步的，当用户输入一个问题时，通过训练好的模型将问题关联到任务上，从而激活任务引擎对问题进行回复。

作为优选，在步骤S2对模型进行训练时，将问答集数据作为一个任务一起进行训练，通过模型训练后，会将所有不属于任务类的问题归于问答集任务中。

进一步的，在步骤S3中，对话部分用于融合多个数据源智能对话响应流程，通过并行以及管道的方式，进行会话流程。

进一步的，对用户输入的问题进行识别，确定问题是否属于任务类，若问题属于任务类问题，则交由任务类的响应引擎进行处理，生成答案。

进一步的，若问题属于非任务类问题，则流转入预置类、问答集类和知识图谱类任务对问题生成回复，如果所述预置类、问答集类和知识图谱类任务都无法产生回复，则将问题流转入管道中的阅读理解模块中。

进一步的，对于阅读理解模块没有匹配到的问题，则转入闲聊的数据源。

本发明的一种智能对话系统的构建方法和现有技术相比，具有以下突出的有益效果：

(1)本发明通过对任务类数据和问答集类数据建模，能够在意图的识别的过程中，区分任务类和非任务类的问题，在加快识别过程中，避免问题同时通过不同响应引擎处理造成的资源浪费。

(2)对于非任务类问题，并行经过预置类、问答集类、知识图谱类响应引擎处理，这几个响应引擎有个共同的特点，消耗资源少响应速度快，因此在经过这三个模块处理后，如果有答案生成，可以快速响应，同时，对于多并发的情况，也不会造成太大的压力。

(3)若预置类、问答集类和知识图谱类任务模块无法获取到用户问题所对应答案时，问题交由阅读理解模块处理，可减少由于阅读理解引起的资源消耗以及响应速度慢的影响。如果阅读理解模块仍然无法响应时，将问题交由闲聊模块处理，生成未知问题回复或者其他闲聊调侃式的语句。通过对多个数据源组合构建，不同响应引擎的串行及并发处理，在增加数据源的同时，可以加快响应速度，极大减少由于不同引擎对同一问题处理所带来的资源消耗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种智能对话系统的构建方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1所示，本实施例中的一种智能对话系统的构建方法，具有以下步骤：

S1、对不同的数据源进行建模：

对用户所输入的问题进行分类，分为任务类问题数据和非任务类问题数据。

S2、对建立的模型进行训练：

在模型训练部分，结合任务类的数据和非任务类数据进行训练，其目的在于意图识别的过程中，识别出非意图的部分。

在模型训练部分，对来自于任务类的数据和非任务类的数据进行区分。其中任务类的数据指的是完成某项任务或者工作所需要的数据，通常以语料集的方式呈现，我们可以通过对不同的语料集训练生成模型。当用户输入一个问题时，通过训练好的模型，将问题关联到任务上，从而激活任务引擎对问题进行回复。在本发明中，我们将QA(问答集)数据作为其中的一个任务一起进行训练。由于QA数据集的问题不属于同一个类别，因此，通过模型训练后，会将所有不属于任务类的问题归于QA任务中。在这里我们只关心意图识别结果中的任务类结果，对于非任务类的问题，我们统一交由其他模块处理。

S3、进行对话：

在对话部分，首先利用模型训练部分生成的模型，对用户输入的问题进行识别，这个步骤亦可成为意图识别或者意图分类，通过这个流程可以确定问题是否属于任务类。如果问题属于任务类的问题，则交由任务类的响应引擎进行处理，生成答案。

优势在于通过意图识别，明确任务，避免任务类的响应与非任务类响应同时进行所带来的的资源开销或者通过管道的方式带来的多种计算。

在明确用户输入为非任务的问题后，将问题同时流转入预置类、QA(问答集)类、知识图谱类任务，由于预置类、QA(问答集)类、知识图谱类任务消耗的资源比较小，响应速度较快，所以，本发明将流经预置类、QA(问答集)类和知识图谱类任务这三个模块的问题进同时处理，无论哪个模块识别到问题，都将对问题生成回复。

如果三个模块都无法产生回复，则将问题流转入管道中阅读理解模块中。由于目前阅读理解的实现方案都是基于深度学习，部分在进行阅读理解的过程中，为了增加识别的速度，增加前置过滤，比如主题提取等，虽然可以加快相应速度，但是其根本上仍然没有避免响应时间长、消耗资源大的问题。因此，我们将基于文本处理的阅读理解模块放置在整个流程的末端，大部分问题首先经过前置模块处理掉，如果前置的所有数据源或者响应引擎都没有匹配到，则将问题流转到阅读理解模块，尽量减少资源的消耗。

对于阅读理解模块没有匹配到的问题，则转入闲聊的数据源。在闲聊中，包括回复未知问题或者对于未知问题的其他处理方式，也包括一些闲聊性质的内容。

通过这种并行的组合方式，在保证不同响应引擎处理问题的同时，加快多响应引擎总体处理的速度。这里，预置类是指智能对话系统中预置的技能，比如定闹钟，讲笑话等。QA(问答集)类指的是问答集类，是系统管理者预置的问答对，具有问题和答案具有的关系。知识图谱类指的是通过图谱对问题中的实体与关系检索所产答案的过程。

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种智能对话系统的构建方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种智能对话系统的构建方法，其特征在于，具有以下步骤：

S1、对不同的数据源进行建模；

S2、对建立的模型进行训练；

S3、进行对话。

2.根据权利要求1所述的一种智能对话系统的构建方法，其特征在于，在步骤S1中，对用户所输入的问题进行分类，分为任务类问题数据和非任务类问题数据。

3.根据权利要求2所述的一种智能对话系统的构建方法，其特征在于，在步骤S2中，结合步骤S1中的任务类数据和非任务类数据进行训练，用于意图识别的过程中识别出非意图部分。

4.根据权利要求3所述的一种智能对话系统的构建方法，其特征在于，对于任务类的数据指完成任务或工作所需的数据，通常以语料集的方式呈现，通过对不同的语料集训练生成模型。

5.根据权利要求4所述的一种智能对话系统的构建方法，其特征在于，当用户输入一个问题时，通过训练好的模型将问题关联到任务上，从而激活任务引擎对问题进行回复。

6.根据权利要求1所述的一种智能对话系统的构建方法，其特征在于，在步骤S2对模型进行训练时，将问答集数据作为一个任务一起进行训练，通过模型训练后，会将所有不属于任务类的问题归于问答集任务中。

7.根据权利要求6所述的一种智能对话系统的构建方法，其特征在于，在步骤S3中，对话部分用于融合多个数据源智能对话响应流程，通过并行以及管道的方式，进行会话流程。

8.根据权利要求7所述的一种智能对话系统的构建方法，其特征在于，对用户输入的问题进行识别，确定问题是否属于任务类，若问题属于任务类问题，则交由任务类的响应引擎进行处理，生成答案。

9.根据权利要求8所述的一种智能对话系统的构建方法，其特征在于，若问题属于非任务类问题，则流转入预置类、问答集类和知识图谱类任务对问题生成回复，如果所述预置类、问答集类和知识图谱类任务都无法产生回复，则将问题流转入管道中的阅读理解模块中。

10.根据权利要求9所述的一种智能对话系统的构建方法，其特征在于，对于阅读理解模块没有匹配到的问题，则转入闲聊的数据源。