CN112800204A - 一种智能对话系统的构建方法 - Google Patents
一种智能对话系统的构建方法 Download PDFInfo
- Publication number
- CN112800204A CN112800204A CN202110204053.5A CN202110204053A CN112800204A CN 112800204 A CN112800204 A CN 112800204A CN 202110204053 A CN202110204053 A CN 202110204053A CN 112800204 A CN112800204 A CN 112800204A
- Authority
- CN
- China
- Prior art keywords
- task
- class
- question
- questions
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000004044 response Effects 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000002699 waste material Substances 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术领域,具体提供了一种智能对话系统的构建方法,其特征在于,具有以下步骤:S1、对不同的数据源进行建模;S2、对建立的模型进行训练;S3、进行对话。与现有技术相比,本发明通过对任务类数据和问答集类数据建模,能够在意图的识别的过程中,区分任务类和非任务类的问题,在加快识别过程中,避免问题同时通过不同响应引擎处理造成的资源浪费。
Description
技术领域
本发明涉及人工智能技术领域,具体提供一种智能对话系统的构建方法。
背景技术
随着互联网技术的发展与社会进步,获取信息的方式层出不穷,智能对话系统由于可以通过已有的知识库、直接定位到用户的问题,不需要用户再对信息进行过滤,直接生成答案,给人们的生活带来了极大的便利,成为人们获取海量信息不可获取的工具,同时在互联网、医疗、金融和商城等领域进行大量的应用。
现在的问答系统通常借助于自然语言处理技术和全文搜索技术对用户的问题进行处理,然后经过不同的响应引擎处理,形成开放领域和特定领域的智能对话系统。这些响应引擎包括已经大量应用的闲聊、问答集以及任务类响应引擎,也有最近比较热门的基于知识图谱以及阅读理解响应引擎。不同的响应引擎所面对的任务、擅长的领域不同,不同的相应引擎组合所形成的智能对话系统包含的知识库或者知识数据不同,所具有的能力不同。
目前智能对话系统主要针对单一响应引擎或者几个响应引擎组合形成智能对话系统,为用户的问题进行响应。虽然这种对话系统能够对特定领域或者某一方面形成比较强大的会话支撑,准确率和效率比较高,但是却无法融合多种信息来源,结合不同数据源,从多方面对用户的问题进行回复。因此,迫切需要一种新的方式将不同的数据源进行关联起来。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的智能对话系统的构建方法。
本发明解决其技术问题所采用的技术方案是:
一种智能对话系统的构建方法,具有以下步骤:
S1、对不同的数据源进行建模;
S2、对建立的模型进行训练;
S3、进行对话。
进一步的,在步骤S1中,对用户所输入的问题进行分类,分为任务类问题数据和非任务类问题数据。
进一步的,在步骤S2中,结合步骤S1中的任务类数据和非任务类数据进行训练,用于意图识别的过程中识别出非意图部分。
进一步的,对于任务类的数据指完成任务或工作所需的数据,通常以语料集的方式呈现,通过对不同的语料集训练生成模型。
进一步的,当用户输入一个问题时,通过训练好的模型将问题关联到任务上,从而激活任务引擎对问题进行回复。
作为优选,在步骤S2对模型进行训练时,将问答集数据作为一个任务一起进行训练,通过模型训练后,会将所有不属于任务类的问题归于问答集任务中。
进一步的,在步骤S3中,对话部分用于融合多个数据源智能对话响应流程,通过并行以及管道的方式,进行会话流程。
进一步的,对用户输入的问题进行识别,确定问题是否属于任务类,若问题属于任务类问题,则交由任务类的响应引擎进行处理,生成答案。
进一步的,若问题属于非任务类问题,则流转入预置类、问答集类和知识图谱类任务对问题生成回复,如果所述预置类、问答集类和知识图谱类任务都无法产生回复,则将问题流转入管道中的阅读理解模块中。
进一步的,对于阅读理解模块没有匹配到的问题,则转入闲聊的数据源。
本发明的一种智能对话系统的构建方法和现有技术相比,具有以下突出的有益效果:
(1)本发明通过对任务类数据和问答集类数据建模,能够在意图的识别的过程中,区分任务类和非任务类的问题,在加快识别过程中,避免问题同时通过不同响应引擎处理造成的资源浪费。
(2)对于非任务类问题,并行经过预置类、问答集类、知识图谱类响应引擎处理,这几个响应引擎有个共同的特点,消耗资源少响应速度快,因此在经过这三个模块处理后,如果有答案生成,可以快速响应,同时,对于多并发的情况,也不会造成太大的压力。
(3)若预置类、问答集类和知识图谱类任务模块无法获取到用户问题所对应答案时,问题交由阅读理解模块处理,可减少由于阅读理解引起的资源消耗以及响应速度慢的影响。如果阅读理解模块仍然无法响应时,将问题交由闲聊模块处理,生成未知问题回复或者其他闲聊调侃式的语句。通过对多个数据源组合构建,不同响应引擎的串行及并发处理,在增加数据源的同时,可以加快响应速度,极大减少由于不同引擎对同一问题处理所带来的资源消耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种智能对话系统的构建方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种智能对话系统的构建方法,具有以下步骤:
S1、对不同的数据源进行建模:
对用户所输入的问题进行分类,分为任务类问题数据和非任务类问题数据。
S2、对建立的模型进行训练:
在模型训练部分,结合任务类的数据和非任务类数据进行训练,其目的在于意图识别的过程中,识别出非意图的部分。
在模型训练部分,对来自于任务类的数据和非任务类的数据进行区分。其中任务类的数据指的是完成某项任务或者工作所需要的数据,通常以语料集的方式呈现,我们可以通过对不同的语料集训练生成模型。当用户输入一个问题时,通过训练好的模型,将问题关联到任务上,从而激活任务引擎对问题进行回复。在本发明中,我们将QA(问答集)数据作为其中的一个任务一起进行训练。由于QA数据集的问题不属于同一个类别,因此,通过模型训练后,会将所有不属于任务类的问题归于QA任务中。在这里我们只关心意图识别结果中的任务类结果,对于非任务类的问题,我们统一交由其他模块处理。
S3、进行对话:
在对话部分,首先利用模型训练部分生成的模型,对用户输入的问题进行识别,这个步骤亦可成为意图识别或者意图分类,通过这个流程可以确定问题是否属于任务类。如果问题属于任务类的问题,则交由任务类的响应引擎进行处理,生成答案。
优势在于通过意图识别,明确任务,避免任务类的响应与非任务类响应同时进行所带来的的资源开销或者通过管道的方式带来的多种计算。
在明确用户输入为非任务的问题后,将问题同时流转入预置类、QA(问答集)类、知识图谱类任务,由于预置类、QA(问答集)类、知识图谱类任务消耗的资源比较小,响应速度较快,所以,本发明将流经预置类、QA(问答集)类和知识图谱类任务这三个模块的问题进同时处理,无论哪个模块识别到问题,都将对问题生成回复。
如果三个模块都无法产生回复,则将问题流转入管道中阅读理解模块中。由于目前阅读理解的实现方案都是基于深度学习,部分在进行阅读理解的过程中,为了增加识别的速度,增加前置过滤,比如主题提取等,虽然可以加快相应速度,但是其根本上仍然没有避免响应时间长、消耗资源大的问题。因此,我们将基于文本处理的阅读理解模块放置在整个流程的末端,大部分问题首先经过前置模块处理掉,如果前置的所有数据源或者响应引擎都没有匹配到,则将问题流转到阅读理解模块,尽量减少资源的消耗。
对于阅读理解模块没有匹配到的问题,则转入闲聊的数据源。在闲聊中,包括回复未知问题或者对于未知问题的其他处理方式,也包括一些闲聊性质的内容。
通过这种并行的组合方式,在保证不同响应引擎处理问题的同时,加快多响应引擎总体处理的速度。这里,预置类是指智能对话系统中预置的技能,比如定闹钟,讲笑话等。QA(问答集)类指的是问答集类,是系统管理者预置的问答对,具有问题和答案具有的关系。知识图谱类指的是通过图谱对问题中的实体与关系检索所产答案的过程。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种智能对话系统的构建方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种智能对话系统的构建方法,其特征在于,具有以下步骤:
S1、对不同的数据源进行建模;
S2、对建立的模型进行训练;
S3、进行对话。
2.根据权利要求1所述的一种智能对话系统的构建方法,其特征在于,在步骤S1中,对用户所输入的问题进行分类,分为任务类问题数据和非任务类问题数据。
3.根据权利要求2所述的一种智能对话系统的构建方法,其特征在于,在步骤S2中,结合步骤S1中的任务类数据和非任务类数据进行训练,用于意图识别的过程中识别出非意图部分。
4.根据权利要求3所述的一种智能对话系统的构建方法,其特征在于,对于任务类的数据指完成任务或工作所需的数据,通常以语料集的方式呈现,通过对不同的语料集训练生成模型。
5.根据权利要求4所述的一种智能对话系统的构建方法,其特征在于,当用户输入一个问题时,通过训练好的模型将问题关联到任务上,从而激活任务引擎对问题进行回复。
6.根据权利要求1所述的一种智能对话系统的构建方法,其特征在于,在步骤S2对模型进行训练时,将问答集数据作为一个任务一起进行训练,通过模型训练后,会将所有不属于任务类的问题归于问答集任务中。
7.根据权利要求6所述的一种智能对话系统的构建方法,其特征在于,在步骤S3中,对话部分用于融合多个数据源智能对话响应流程,通过并行以及管道的方式,进行会话流程。
8.根据权利要求7所述的一种智能对话系统的构建方法,其特征在于,对用户输入的问题进行识别,确定问题是否属于任务类,若问题属于任务类问题,则交由任务类的响应引擎进行处理,生成答案。
9.根据权利要求8所述的一种智能对话系统的构建方法,其特征在于,若问题属于非任务类问题,则流转入预置类、问答集类和知识图谱类任务对问题生成回复,如果所述预置类、问答集类和知识图谱类任务都无法产生回复,则将问题流转入管道中的阅读理解模块中。
10.根据权利要求9所述的一种智能对话系统的构建方法,其特征在于,对于阅读理解模块没有匹配到的问题,则转入闲聊的数据源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110204053.5A CN112800204A (zh) | 2021-02-24 | 2021-02-24 | 一种智能对话系统的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110204053.5A CN112800204A (zh) | 2021-02-24 | 2021-02-24 | 一种智能对话系统的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112800204A true CN112800204A (zh) | 2021-05-14 |
Family
ID=75815443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110204053.5A Pending CN112800204A (zh) | 2021-02-24 | 2021-02-24 | 一种智能对话系统的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800204A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197167A (zh) * | 2017-12-18 | 2018-06-22 | 深圳前海微众银行股份有限公司 | 人机对话处理方法、设备及可读存储介质 |
CN110046221A (zh) * | 2019-03-01 | 2019-07-23 | 平安科技(深圳)有限公司 | 一种机器对话方法、装置、计算机设备及存储介质 |
CN110297894A (zh) * | 2019-05-22 | 2019-10-01 | 同济大学 | 一种基于辅助网络的智能对话生成方法 |
CN110516035A (zh) * | 2019-07-05 | 2019-11-29 | 同济大学 | 一种混合模块的人机交互方法和系统 |
CN112035640A (zh) * | 2020-08-31 | 2020-12-04 | 重庆长安汽车股份有限公司 | 一种基于智能问答机器人的精细化问答方法、存储介质和智能设备 |
-
2021
- 2021-02-24 CN CN202110204053.5A patent/CN112800204A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197167A (zh) * | 2017-12-18 | 2018-06-22 | 深圳前海微众银行股份有限公司 | 人机对话处理方法、设备及可读存储介质 |
CN110046221A (zh) * | 2019-03-01 | 2019-07-23 | 平安科技(深圳)有限公司 | 一种机器对话方法、装置、计算机设备及存储介质 |
CN110297894A (zh) * | 2019-05-22 | 2019-10-01 | 同济大学 | 一种基于辅助网络的智能对话生成方法 |
CN110516035A (zh) * | 2019-07-05 | 2019-11-29 | 同济大学 | 一种混合模块的人机交互方法和系统 |
CN112035640A (zh) * | 2020-08-31 | 2020-12-04 | 重庆长安汽车股份有限公司 | 一种基于智能问答机器人的精细化问答方法、存储介质和智能设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765257B (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
Thorat et al. | A review on implementation issues of rule-based chatbot systems | |
McLaren et al. | Supporting collaborative learning and e-discussions using artificial intelligence techniques | |
WO2019084810A1 (zh) | 一种信息处理方法及终端、计算机存储介质 | |
CN109325040B (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
CN110188147B (zh) | 基于知识图谱的文献实体关系发现方法及系统 | |
CN109885664A (zh) | 一种智能对话方法、机器人对话系统、服务器及存储介质 | |
CN112667796B (zh) | 一种对话回复方法、装置、电子设备及可读存储介质 | |
CN112685550B (zh) | 智能问答方法、装置、服务器及计算机可读存储介质 | |
Dhanasekar et al. | A chatbot to promote students mental health through emotion recognition | |
Saha et al. | Towards sentiment-aware multi-modal dialogue policy learning | |
CN110377706B (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
Attili et al. | Behaviour and emotions of working professionals towards online learning systems: sentiment analysis | |
CN117009478A (zh) | 一种基于软件知识图谱问答问句解析过程的算法融合方法 | |
CN114625851B (zh) | 文本阅读模型的预训练方法、装置、设备及存储介质 | |
CN112800204A (zh) | 一种智能对话系统的构建方法 | |
Zhou et al. | Emojis decoded: Leveraging chatgpt for enhanced understanding in social media communications | |
CN112328812A (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 | |
Walker | The need for annotated corpora from legal documents, and for (Human) protocols for creating them: the attribution problem | |
Anand | The review of natural language processing (technology to communicate and understand the contents through human languages) | |
O’Neill et al. | Quantitative discourse analysis at Scale—AI, NLP and the transformer revolution | |
Grubb | Multimodal emotion recognition | |
Thonggoom et al. | EIPW: a knowledge-based database modeling tool | |
Barker et al. | ChatGPT as a text simplification tool to remove bias |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210514 |
|
RJ01 | Rejection of invention patent application after publication |