CN116340497A

CN116340497A - 基于文本检索和阅读理解技术的智能对话机器人系统

Info

Publication number: CN116340497A
Application number: CN202310502410.5A
Authority: CN
Inventors: 汪东瑶
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-06-27

Abstract

本发明涉及聊天机器人技术领域，具体涉及基于文本检索和阅读理解技术的智能对话机器人系统。系统包括信息检索模块，用于通过双塔模型Colbert，从文档中定位出与问题相关的段落并排序；对话流程管理模块，用于根据信息检索模块定位出的信息，判定是否需要调用实体识别模型与对话流程管理系统，并得到与问题对应的答案；文本生成模块，用于从定位到的文档中生成答案。本发明具有通过结合深度学习语义检索技术以及精准排序方法，在大量文本内容中精准匹配出问题所在段落，然后将问题与段落信息输入至训练好的预训练模型中生成问题答案并进行回复的特点。

Description

基于文本检索和阅读理解技术的智能对话机器人系统

技术领域

本发明涉及聊天机器人技术领域，具体涉及基于文本检索和阅读理解技术的智能对话机器人系统。

背景技术

聊天机器人(以下简称Chatbot)本质上就是程式化的输入与输出系统。即根据对话者的输入匹配对应的输出。其最基本的形式是通过文本的方式与人类进行交互。比如对其发送“明天杭州天气如何？”，Chatbot就会根据关键信息进行相关数据检索并返回信息。尤其是近些年电子商务以及线上业务的普及，人们也越来越离不开Chatbot所带来的便利。比如在电子商务行业，买家在购买前会有大量的问题需要咨询，在购买之后可能也会存在一些售后相关的问题。又比如现在一些城市的政务服务中心，都提供线上的预先咨询服务来避免老百姓因为不熟悉业务流程而跑空的情况，进而提升服务质量。但是由于咨询量的庞大以及实效性的要求，使得人工客服是一笔极大的投入。

鉴于以上需求，越来越多的行业使用Chatbot来协助甚至取代人类来完成一些重复性的客服工作。商家可以根据自身店铺情况定制化的设置相关问题与回复来达到7天24小时服务来提高业务效率、客户互动、品牌和广告、交易处理以及自动营销等。

按照不同的标准，Chatbot有多种分类方式，例如，按照客户需求打造适用于不同场景的聊天机器人，大致分为咨询型、任务型和闲聊型3类。

另外，目前与聊天机器人有关的技术可以分为以下五类：

第一类为自然语言理解技术，简称NLU(Natural Language Understanding)。基于机器学习和深度学习的NLU技术，在对话过程中识别用户所咨询问题的语义或者进行关键词的抽取,又或者在对话过程中识别用户意图以及将用户所提及的实体填入预先设置的插槽。

第二类为基于NLU的信息检索技术，相比于传统信息检索技术，NLU模型不完全依赖于关键词匹配。利用深度学习模型对海量文本信息以及待检索的信息进行编码，然后通过计算两种编码之间的相似度来进行相似度评分并排序。也可以在传统信息检索技术(如：BM25算法)的基础上加上语义理解模型进行组合模式的信息检索。

第三类为命名实体识别技术，命名实体识别(Named Entity Recognition，NER)是自然语言处理中的一种技术，用于识别文本中的实体名称。实体名称是指特定类型的名称，如人名、地名、组织名等，此外也可根据需要自定义某类实体。

第四类为对话流程管理系统(Dialog management),对话流程管理控制着人机对话的过程，是多轮Chatbot的核心。在对话过程中，对话机器人系统会不断根据当前的对话状态和用户行为，并结合历史信息决定下一步应该采取的最优动作，从而完成整个对话任务。

第五类为基于预训练语言模型的文本生成技术，简称NLG(Natural LanguageGeneration)技术。基于预训练语言模型NLG技术基于深度学习网络的编码以及解码技术，结合对上下文的理解，按照不同的需求将结果呈现在用户面前。

现有Chatbot几乎都会用到以上所提五类技术中一种或多种。例如：基于知识库的Chatbot，会预先将问题与答案以问答对的方式进行存储。然后采用关键词、或者基于NLU的信息检索技术甚至是两者结合的技术对已存储的问题库进行检索并以相似度进行排序，最后返回数据库中相似度最高的问题对应的答案。又比如：任务型的多轮Chatbot，会根据对话场景预设一部分可能出现的用户意图以及需要提取的内容信息。首先对用户发送的信息采用NLU语义理解模型进行意图判断，根据意图激活相应的对话流程，通过对话流程管理系统记录或跟踪对话历史，采用NER技术提取对话信息中的内容。并在此过程中逐步提取到信息填入预先设置的插槽。在必要插槽都填满后，进行数据库的查询或者下一步的反馈。至于生成式的Chatbot，使用某个预训练的问答模型在指定领域的语料上进行训练，然后针对该领域问题进行相应回答。

以上所提到的Chatbot以及与其在技术实现上类似的Chatbot都存在一些缺陷及使用上的不便。具体如下：

1.基于知识库的Chatbot需要专业人员预先整理出质量较高的问答对，为了增加问题匹配的准确性，每一类问题都需要加入尽可能多的相似问法。该过程需要消耗大量的人工。在机器人使用初期或者对知识库较小的用户来说，该方法勉强能够满足需求，但是如果知识库极为庞大，该系统就会出现致命的缺点，比如知识库的梳理需要大量的人力成本，知识库的维护极为困难等等。

2.多轮Chatbot需要多次交互获取指定信息后才能进行下一步动作。训练机器人阶段需要根据具体场景设定可能出现的意图以及需要提取的插槽内容。并且需要尽可能多的罗列出对话过程有可能出现的对话流程，虽然使用机器学习使对话流程管理系统能够获得一定的泛化能力(根据数据库中已有的对话流程进行训练，使得模型具有一定的推理能力以便能识别数据库中并未出现过的流程)，但是该训练过程对语料质量要求极高且对超参数非常敏感，使得要想达到预期效果需要大量的训练与优化。此外，如果需要新增场景修改流程，以上提到的繁琐的训练与优化过程需要从头进行。

3.使用问答预训练模型在某个专业领域的知识库上进行参数优化或者迁移学习所获的Chatbot面临知识局限性的问题，迁移学习后的Chatbot只能很好的回答某个针对性优化过的领域或专业的问题。对未训练过的领域无法给出准确的答案。要想增加其能够覆盖的领域，需要加入指定领域的语料并重新训练模型，同样需要耗费大量的人力成本。

因此，设计一种通过结合深度学习语义检索技术以及精准排序方法，在大量文本内容中精准匹配出问题所在段落，然后将问题与段落信息输入至训练好的预训练模型中生成问题答案并进行回复的基于文本检索和阅读理解技术的智能对话机器人系统，就显得十分重要。

发明内容

本发明是为了克服现有技术中，现有的Chatbot技术，存在人力成本消耗大，模型训练过程繁琐，知识覆盖领域差的问题，提供了一种通过结合深度学习语义检索技术以及精准排序方法，在大量文本内容中精准匹配出问题所在段落，然后将问题与段落信息输入至训练好的预训练模型中生成问题答案并进行回复的基于文本检索和阅读理解技术的智能对话机器人系统。

为了达到上述发明目的，本发明采用以下技术方案：

基于文本检索和阅读理解技术的智能对话机器人系统，包括；

信息检索模块，用于通过双塔模型Colbert，从文档中定位出与问题相关的段落并排序；

对话流程管理模块，用于根据信息检索模块定位出的信息，判定是否需要调用实体识别模型与对话流程管理系统，并得到与问题对应的答案；

文本生成模块，用于从定位到的文档中生成答案。

作为优选，所述双塔模型Colbert在传统双塔模型的基础上，加入后期交互部分，即加入Maxsim得分函数进行后期交互；具体计算公式为

其中，q是query的缩写，指用户的问询；d为document的缩写，指用户上传至文档库中的某一段文本；s(q,d)为用户输入的q和其中一段文本d的相似度得分；Eq和Ed分别是检索文本库和问题在BERT模型生成的上下文编码；使用Eq和Ed，双塔模型Colbert通过后期交互计算q和d之间的相关性分数。

作为优选，所述使用Eq和Ed，双塔模型Colbert通过后期交互计算q和d之间的相关性分数的具体过程为：

找到Eq中的每个向量编码vector和Ed中向量的最大余弦相似度，并通过求和合并输出。

作为优选，双塔模型Colbert在训练阶段，被训练在包含以下三元组的数据集上：[query,positive_document,negative_document]；

其中，query指想要检索的文档的查询，即问题；positive_document指与查询相关且包含查询答案的文档；negative_document指与查询无关且不包含查询答案的文档。

作为优选，所述双塔模型Colbert在完成训练后，被检索的文档库被训练完成的模型预先编码成一个大型矩阵；在查询阶段，检索内容被模型编码成一个矩阵，并计算与预先编码好的文本库中每一条文本对应矩阵的相似度评分，同时返回得分最高的若干条检索内容。

作为优选，所述对话流程管理模块具体包括如下过程：

在每一条新的查询文本进来后，系统通过检索排序模型完成内容检索与排序，并判断根据当前已有信息是否可以给出答案；

若当前信息能够定位到的内容唯一，则进入文本生成模块生成答案并回复；若当前信息可以定位到多条内容，则启用对话流程管理系统，并调用预先定义好的实体识别模型，将所有文本内容中的实体和查询内容中的实体同时抽取出来；

将抽取出来的实体进行剔除，未出现的实体则通过预先设定的每类实体的问询话术，进行逐步筛查，直至得到唯一答案。

作为优选，所述文本生成模块采用T5文本生成模型；所述T5文本生成模型包括编码与解码两部分。

作为优选，所述T5文本生成模型的编码部分具体为：

在用户咨询的问题与通过信息检索模块和对话流程管理模块获得的文本段落之间，通过加入【cls】，【sep】特殊符号进行拼接，同时加入标记符(问题的每一个token都标记为A，检索获得的文档标记为B)，并一起输入T5文本生成模型进行编码。

作为优选，所述T5文本生成模型的解码部分具体为：

将编码器的输出传入到解码器中进行解码，最后输出输入问题在文档中的答案；所述解码器为一个标准的自注意力机制网络。

本发明与现有技术相比，有益效果是：(1)使用本发明系统的用户无需专业人士进行知识库的整理与维护，上传已有的文档即可针对文档内容进行提问；(2)本发明维护过程极为方便，删除、替换或者添加文档便可对系统知识进行更新，无需考虑是否有知识重叠；(3)本发明无需高频的再次训练模型，由于本发明系统所包含的两个模型均已在海量语料上进行不同任务的训练，因此模型几乎不需要进一步参数优化便可达到预期效果，达到了即插即用的效果；即使再次训练，该优化过程也可以较为迅速；因为通过海量且非领域特定的语料的训练，在迁移到未训练过的领域时，只需上传领域知识文档，即可利用本模型的语义泛化能力进行检索和阅读理解识别；(4)本发明系统使用范围无限制，在任何不同的行业，只需要上传已有的该领域的知识文档，该系统便可针对文档内容进行准确的回复。

附图说明

图1为本发明中双塔模型Colbert的一种构架示意图；

图2为本发明中对话流程管理模块的一种原理框图；

图3为本发明中T5文本生成模型编码器的一种示意图；

图4为本发明中编码-解码模型的一种整体流程图；

图5为本发明实施例提供的基于文本检索和阅读理解技术的智能对话机器人系统的一种具体实施流程图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本发明提出了基于文本检索和阅读理解技术的智能对话机器人系统，包括；

文本生成模块，用于从定位到的文档中生成答案。

对于信息检索模块，双塔模型Colbert在传统双塔模型的基础上，加入后期交互部分，即加入Maxsim得分函数进行后期交互，以提升检索准确性和模型的可训练性；具体计算公式为

其中，q是query的缩写，指用户的问询；d为document的缩写，指用户上传至文档库中的某一段文本；s(q,d)为用户输入的q和其中一段文本d的相似度得分；Eq和Ed分别是检索文本库和问题在BERT模型生成的上下文编码；BERT模型可根据需要进行调整，本发明具体采用“bert-base-chinese”模型。定义使用Eq和Ed，双塔模型Colbert通过后期交互计算q和d之间的相关性分数为最大相似度(MaxSim)运算符的求和，具体过程为：

找到Eq中的每个vector(每个词通过模型微调后获得的向量编码)和Ed中向量的最大余弦相似度(可以使用任何相似度度量)，并通过求和合并输出。

双塔模型Colbert在训练阶段，被训练在包含以下三元组的数据集上：[query,positive_document,negative_document]；

Colbert训练数据以上述的三元组呈现，并被训练来预测相关文档或不相关文档与查询的相关性分数。这使Colbert可以学习区分相关和不相关的文档，并将相关文档的排名比不相关文档更高。这对于搜索引擎等任务很有用，其目标是回答用户查询时返回一组相关文档。

完成训练后，被检索的文档库会被训练完成的模型预先编码成一个大型矩阵以便提升检索效率。在查询阶段检索内容也会被模型编码成一个矩阵，并计算与预先编码好的文本库中每一条文本对应的矩阵的相似度评分，并返回得分最高的几条内容。

同样在训练阶段也可以指定返回每条查询最相关的内容并进行排序，这样该模型便可同时完成检索和排序任务。当然也可将使用同样的模型进行检索和排序任务的分开训练以便进一步提升该组合模型的检索精度以及排序能力。

如图2所示，对话流程管理模块具体包括如下过程：

文本生成模块采用T5文本生成模型；所述T5文本生成模型包括编码与解码两部分。其中编码部分如图3所示，T5文本生成模型的编码部分具体为：

图3中，问题具体为“国家法定节假日共多少天？”；文档为“一年国家法定节假日为11天。根据公布的国家法定节假日调整方案，调整的主要内容包括：元旦放假1天不变；春节放假3天，放假时间为农历正月初一、初二、初三；“五一”劳动节放假1天不变；“十一”国庆节放假3天；清明节、端午节、中秋节增设为国家法定节假日，各放假1天(农历节日如遇闰月，以第一个月为休假日)。3、允许周末上移下错，与法定节假日形成连休”。

然后，如图4所示，将编码器的输出传入到解码器中进行解码，解码器为一个标准的自注意力机制网络(Transformer)，最后输出所输入问题在文档中的答案。训练时，将问题和文档同时输入模型，标签为问题答案的文本，整体实现文本到文本(Text to Text)的训练过程。此过程中编码器与解码器同时进行参数的优化。

基于上述技术方案，结合实际应用，本发明基于文本检索和阅读理解技术的智能对话机器人系统的具体实施流程，如图5所示，具体过程如下：

1.文件上传

首先将需要上传的文档上传至本发明系统，该系统会将文档按照指定方式进行切分(支持按句或者段落)。然后按照列表(Doc_list)的方式储存。

Doc_list＝[

"一年国家法定节假日为11天。根据公布的国家法定节假日调整方案，调整的主要内容包括：元旦放假1天不变；春节放假3天，放假时间为农历正月初一、初二、初三；“五一”劳动节放假1天不变；“十一”国庆节放假3天；清明节、端午节、中秋节增设为国家法定节假日，各放假1天(农历节日如遇闰月，以第一个月为休假日)。3、允许周末上移下错，与法定节假日形成连休。"，

"百度经验:jingyan.baidu.com微信已经成为现代人生活中必不可少的一部分，下面我就教大家如何在微信浏览器中打开本地APP吧！百度经验：j ingyan.baidu.com百度经验:jingyan.baidu.com1将手机微信打开。步骤阅读2打开微信中的链接。步骤阅读3如图我们打开百度经验的链接，用微信浏览器进入网页以后，点击右上方如图符号。步骤阅读4进入选择页面，点击“在浏览器”打开。步骤阅读5如图会出现手机已安装的本地APP浏览器，我们选择一个自己想用的本地浏览器点击下方“仅一次”或“总是”都可以打开打开本地APP浏览器。步骤阅读6此时，我们就已经在微信浏览器中将本地APP浏览器打开了步骤阅读END"。]

2.文档检索

当用户针对该文档提出问题，例如“国家法定节假日多少天”。检索模型会计算和所有存储在Doclist中的文档的相似度得分并进行排序。然后根据最先设定的阈值(本实例中设定为0.8)，返回最相关的文档，最多3条，本案例返回如下1条。

[

]

3.对话流程管理系统判定

本案例中已返回唯一的一条文档，所以对话流程管理系统判定无需启用实体识别模型进行实体抽取与相关问题澄清，直接进入下一个阶段。

4.答案生成

将问题与经过以上流程筛选过后的文档输入至阅读理解模型。数据如下所示。

[“问题”：“国家法定节假日多少天”，

“文档”："一年国家法定节假日为11天。根据公布的国家法定节假日调整方案，调整的主要内容包括：元旦放假1天不变；春节放假3天，放假时间为农历正月初一、初二、初三；“五一”劳动节放假1天不变；“十一”国庆节放假3天；清明节、端午节、中秋节增设为国家法定节假日，各放假1天(农历节日如遇闰月，以第一个月为休假日)。3、允许周末上移下错，与法定节假日形成连休。"

]

阅读理解模型根据以上问题在输入的文档中解析出答案并回复“11天”。

本发明提出了一种融合文本检索，对话流程管理、阅读理解文本生成技术的对话机器人系统。首先该系统分别完成检索模型，对话流程管理系统，阅读理解文本生成模型的训练后。用户直接上传所需回复的文档。然后便可对外开放该系统完成相关的客服任务。本发明提出将文档检索与阅读理解技术两套模型进行组合，并加以对话流程管理，创造性的完成了一套即插即用型的对话机器人系统。

本发明的创新点如下：

1.本发明将一套检索模型内置于对话机器人系统，通过检索模型的筛选可以使得该系统在任务发生变化需要更换语料时维护极其简单，并且理论上可以支持极其大型的语料系统，能够高效的检索出问题答案相关的文本。

2.本发明将对话流程管理系统加入到对话管理系统中，并且仅通过预先设置的提问便可视情况实现多轮问答，无需人工编写大量的对话流程。通过多轮对话系统逐步澄清以提高机器人的回复准确性。例如,假设某条问题在检索阶段返回了多条类似但包含不同实体(比如公司)，便通过实体抽取模型对检索结果的多条返回内容进行实体抽取，然后针对抽取的实体进行槽位设置。通过针对槽位内容进行提问并填充，直到能够确认唯一并给出答案为止。

3.本发明提出了一种将生成模型应用于对话机器人的回复生成中的方法，通过将问题和答案所在区域作为生成模型输入，输出问题对应的答案。通过在大量的数据集上训练生成模型，使得在任务改变时无需使用新的语料重新训练模型，即可生成对应的答案。

4.本发明将文本检索，对话流程管理、阅读理解文本生成这些已有的技术融合打造出一套即插即用的对话机器人系统，无需专业人士整理知识库和训练模型。直接上传文档，便可针对文档内容进行相关问题的回复，并且易于维护，支持大规模语料和语料扩充。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.基于文本检索和阅读理解技术的智能对话机器人系统，其特征在于，包括；

文本生成模块，用于从定位到的文档中生成答案。

2.根据权利要求1所述的基于文本检索和阅读理解技术的智能对话机器人系统，其特征在于，所述双塔模型Colbert在传统双塔模型的基础上，加入后期交互部分，即加入Maxsim得分函数进行后期交互；具体计算公式为

；

其中，q是query的缩写，指用户的问询；d为document的缩写，指用户上传至文档库中的某一段文本；

为用户输入的q和其中一段文本d的相似度得分；/>

和/>

分别是检索文本库和问题在BERT模型生成的上下文编码；使用/>

和/>

，双塔模型Colbert通过后期交互计算q和d之间的相关性分数。

3.根据权利要求2所述的基于文本检索和阅读理解技术的智能对话机器人系统，其特征在于，所述使用

和/>

，双塔模型Colbert通过后期交互计算q和d之间的相关性分数的具体过程为：

找到

中的每个向量编码vector和/>

中向量的最大余弦相似度，并通过求和合并输出。

4.根据权利要求3所述的基于文本检索和阅读理解技术的智能对话机器人系统，其特征在于，双塔模型Colbert在训练阶段，被训练在包含以下三元组的数据集上：[query,positive_document, negative_document]；

5.根据权利要求4所述的基于文本检索和阅读理解技术的智能对话机器人系统，其特征在于，所述双塔模型Colbert在完成训练后，被检索的文档库被训练完成的模型预先编码成一个大型矩阵；在查询阶段，检索内容被模型编码成一个矩阵，并计算与预先编码好的文本库中每一条文本对应矩阵的相似度评分，同时返回得分最高的若干条检索内容。

6.根据权利要求4所述的基于文本检索和阅读理解技术的智能对话机器人系统，其特征在于，所述对话流程管理模块具体包括如下过程：

7.根据权利要求1所述的基于文本检索和阅读理解技术的智能对话机器人系统，其特征在于，所述文本生成模块采用T5文本生成模型；所述T5文本生成模型包括编码与解码两部分。

8.根据权利要求7所述的基于文本检索和阅读理解技术的智能对话机器人系统，其特征在于，所述T5文本生成模型的编码部分具体为：

在用户咨询的问题与通过信息检索模块和对话流程管理模块获得的文本段落之间，通过加入【cls】，【sep】特殊符号进行拼接，同时加入标记符（问题的每一个token都标记为A，检索获得的文档标记为B），并一起输入T5文本生成模型进行编码。

9.根据权利要求8所述的基于文本检索和阅读理解技术的智能对话机器人系统，其特征在于，所述T5文本生成模型的解码部分具体为：