CN115292469B

CN115292469B - 一种结合段落搜索和机器阅读理解的问答方法

Info

Publication number: CN115292469B
Application number: CN202211186444.XA
Authority: CN
Inventors: 尹越; 谢冰; 袭向明; 宋伟; 朱世强
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-02-07
Anticipated expiration: 2042-09-28
Also published as: CN115292469A

Abstract

本发明属于自然语言处理领域，涉及一种结合段落搜索和机器阅读理解的问答方法，包括：步骤一，收集作为答案来源的文章，对文章进行文本段落切分，对切分后的文本段落做分词操作后再进行词扩展，得到新的文本段落，再对新的文本段落进行倒排索引的构建；步骤二，收集阅读理解模型的训练数据，训练阅读理解模型；步骤三，采用训练好的阅读理解模型接受用户输入的问句，将问句转换为倒排索引检索语句，并检索出候选段落，在每一个候选段落中找出若干小段文本作为候选答案，再通过判断所有候选答案和输入问句的相关性，选择最优答案。本发明可有效的提升在限定域中问句的回复率，同时提升回答所需数据集构建的效率，具有较好的实用性。

Description

一种结合段落搜索和机器阅读理解的问答方法

技术领域

本发明属于自然语言处理领域，涉及一种结合段落搜索和机器阅读理解的问答方法。

背景技术

当前问答方法的技术方案，主要有如下几种方式：基于问答对问题匹配的问答，基于sequence to sequence的生成式问答，基于知识库或数据库的sql查询式问答。

基于问答对问题匹配的问答，需要准备大量的问题答案对，构建问答对库，在用户提问的时候，使用搜索或向量检索的方式在问答对库中找到和用户问句最匹配的问句，并将该问句对应的答案返回给用户。这种方法的优势是问题和答案因为事先准备好，可以有比较好的质量；不足是需要花较大的成本构建问答对库，如果用户的问句事先不在问答对库中就无法回答出来，而且不能结合之前的问答内容回答不同的答案。

基于sequence to sequence的生成式问答，依赖最近几年快速发展的Transformer等深度生成模型，可以应对如闲聊等更为灵活，需要参考上下文去回答不同答案的场景。其不足是生成的答案可控性相对较弱，可能出现语句不通顺问题，并且需要对训练数据进行较多的清洗，以免出现歧视等带有负面表述的答案。

基于知识库或数据库的sql查询式问答，依赖事先构建好的结构化知识库或数据库，在用户提问的时候，将用户的问句通过分词，实体识别，实体链接，模板匹配，sql生成等预处理工作，将用户的问句转换为可以在知识库或数据库中查询的sql语句，将sql语句查询的结果作为答案返回给用户。其好处是对于用户的问句可以有更好的句式的兼容，并且不需要事先准备大量的问答对。其不足是需要将不同来源的结构化和非结构化的数据都转换为结构化数据存储，成本较高。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种结合段落搜索和机器阅读理解的问答方法，通过索引数据预处理、文本的索引、文本的检索、机器阅读理解、答案优化以及答案选择，实现对问题匹配的问答过程，其具体技术方案如下：

一种结合段落搜索和机器阅读理解的问答方法，包括以下步骤：

步骤一，收集作为答案来源的文章，对文章进行文本段落切分，对切分后的文本段落做分词操作后再进行词扩展，得到新的文本段落，再对新的文本段落进行倒排索引的构建；

步骤二，收集阅读理解模型的训练数据，训练阅读理解模型；

步骤三，采用训练好的阅读理解模型接受用户输入的问句，将问句转换为倒排索引检索语句，并检索出候选段落，生成候选段落列表，在每一个候选段落中找出若干小段文本作为候选答案，再通过判断所有候选答案和输入问句的相关性，选择最优答案。

进一步的，所述步骤一，具体包括以下子步骤：

步骤1.1，收集作为答案来源的长篇的文章，并且根据分隔符号包括段落标识符，将文章切分为小的文本段落；

步骤1.2，将文本段落做分词处理，对分词后结果进行同义词词表扩展和基于词向量的相关词扩展，生成新的文本段落；

步骤1.3，利用搜索引擎，对新的文本段落进行倒排索引的构建。

进一步的，所述步骤1.2具体为：

首先，使用现有结巴分词工具，对文本段落进行分词处理；

然后，顺序遍历分词后结果中的每一个词语，找到其在同义词词表中的同义词列表，对同义词列表进行去重处理，随后和原文本段落拼接，完成文本段落的同义词词表扩展；同时将分词结果的每一个词语在开源的词向量库中匹配向量相似度最高的若干词向量，组成扩展词列表，再对扩展词列表进行去重，完成基于词向量的相关词扩展；

最后将扩展词列表和拼接过同义词列表的文本段落拼接，生成新的文本段落。

进一步的，所述步骤1.3具体为：使用ElasticSearch搜索引擎，在该搜索引擎当中创建新的索引模板，索引模板由多个被索引的不同类型的字段组成；顺序遍历所有新的文本段落，以自增的方式为每一个文本段落生成id字段对应的值作为每个段落的唯一标志符，然后为每一个词生成其所出现过的段落id的拉链表。

进一步的，所述步骤二，具体为：采用开源阅读理解训练数据与领域训练数据标注两种方式，收集训练数据，输入至阅读理解模型，使用以推理答案起始结束位置的覆盖范围和目标答案起始结束位置的覆盖范围的重复度作为损失函数来进行模型训练。

进一步的，所述进行模型训练时，对原始的训练数据正文和问题分别进行token标记切分，再拼接为一个新的token序列；其中，采用整型的id来代表一个token，如果token的文本相同，则该文本具备相同的id。

进一步的，所述损失函数具体表达式为：

Loss*=-ln((Intersection(S^,S)/(Union(S^,S))+1)

其中Loss*表示改进后的损失函数，S^是目标答案的token序列，S是推理答案的token序列，Intersection(S^,S)是目标答案和推理答案token序列的交集长度，Union(S^,S)+1是目标答案和推理答案token序列的并集长度加一。

进一步的，所述步骤三，具体包括以下子步骤：

步骤3.1，训练好的阅读理解模型接受用户输入的问句，去除用户输入问句中的冗余词，将所述问句转换为搜索引擎所要求的查询结构，生成新的检索文本，并根据检索文本的倒排索引，检索出候选段落，生成包含答案的文本段落列表；

步骤3.2，从候选段落中抽取小段的答案文本，进行可能性打分；

步骤3.3，根据抽取的小段答案文本和可能性打分，以及小段答案文本在文章中出现的位置，找到最合适的文章中的完整句子作为候选答案；

步骤3.4，将作为候选答案的句子按照可能性打分从高到低排序，选择得分最高的句子作为最终的答案。

进一步的，所述步骤3.2具体为：对原文章的正文和用户输入问题分别进行token标记切分，按照汉字、英文单词、连接在一起的数字分别作为独立的token的方式切分为token序列；使用Bert模型对token序列进行特征抽取，为每一个token生成768维的向量表征；通过softmax函数，预测每一个token是答案起始位置、结束位置的概率；按照起始位置和结束位置概率从大到小排序，找到若干小段答案文本，将起始位置和结束位置概率的平均值作为小段答案文本的可能性打分。

进一步的，所述步骤3.3中对找到的完整句子做前后连接词去除处理，所述前后连接词包括：并且、而且、下一、然后、还有。

有益效果：

本发明可有效的提升在限定域中问句的回复率，同时提升回答所需数据集构建的效率，具有较好的实用性。

附图说明

图1为本发明的一种结合段落搜索和机器阅读理解的问答方法的主要流程示意图；

图2为本发明方法的流程框图；

图3为本发明阅读理解模型的模块结构示意图；

图4为本发明的倒排索引结构示意图；

图5为本发明实施例的一种结合段落搜索和机器阅读理解的问答装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1和图2所示，本发明提出了一种结合段落搜索和机器阅读理解的问答方法，包括如下步骤：

步骤一，收集作为答案来源的文章，对文章进行文本段落切分，对切分后的文本段落做分词操作后再进行词扩展，得到新的文本段落，再对新的文本段落进行倒排索引的构建。

具体的，包括以下子步骤内容：

步骤1.1，段落切分：收集作为答案来源的长篇的文章，并且根据段落标识符等可以表示段落分隔的符号，将长篇文章切分为小的文本段落。例如：

一篇介绍深海探测的文章，其共分为几个不同的段落，第一个段落介绍深海探测和地外探测的不同点以及必要性；第二段介绍深海探测的价值，第三段介绍深海探测的经典案例，第四段介绍深海探测的未来的挑战。每一个段落都会有如换行符等标志符，来表示段落与段落的分隔。在这一步骤中，通过这些分隔符，将一整篇文章切分为不同的小的文本段落。

步骤1.2，段落词扩展：将文本段落做分词处理，对分词后结果进行词扩展，生成用来构建倒排索引的新的文本段落，其中，所述的词扩展包括同义词词表扩展和基于词向量的相关词扩展。

所述同义词词表扩展和基于词向量的相关词扩展，具体包括：

使用哈工大（哈尔滨工业大学）扩展的同义词词林作为同义词词表，一组同义词的格式示例如下：Aa01A03= 人手人员人口人丁；

使用腾讯开源的词向量库，作为词向量扩展的向量库，在该词向量库中，每一个词对应200维的词向量。

具体的，首先，使用jieba（结巴）分词工具，对文本段落进行分词处理。分词前后结果示例如下：“我们的项目需要更多人手”分词后会成为“[我们，的，项目，需要，更多，人手]”。

然后，顺序遍历分词后结果中的每一个词语，找到其在同义词词表中的同义词列表，对同义词列表进行去重处理，随后和原文本段落拼接，完成文本段落的同义词词表扩展；

同时将分词结果的每一个词语在开源的词向量库中匹配向量相似度最高的若干词向量，本实施例中将匹配度得分在0.9分以上的词作为向量扩展词组成扩展词列表，再对扩展词列表进行去重，完成基于词向量的相关词扩展，比如：对于词“我们”可以扩展出“[咱们，大家，团队，集体]”；

最后将扩展词列表和拼接过同义词列表的文本段落拼接，一起组成新的文本段落。例如：[我们，的，项目，需要，更多，人手]，使用同义词表扩展和词向量相关词扩展后，新的文本为“我们[咱们/大家/团队/集体]的项目需要更多人手[人员/人口/人丁]”。

步骤1.3，段落构建倒排索引：对新的文本段落进行倒排索引的构建，其详细步骤如下：

使用ElasticSearch作为搜索引擎，所述ElasticSearch是位于 Elastic Stack核心的分布式搜索和分析引擎；

在ElasticSearch当中创建新的索引模板，模板由多个可以被索引的字段组成，每个字段有不同的类型，具体格式如下：

顺序遍历所有新的文本段落，以自增的方式为每一个文本段落生成Id字段对应的值，如0,1,2等；Context字段存放原始的文本段落，如：“我们的项目需要更多人手”；ExtContext字段存放经过同义词扩展后的文本段落，如：“我们[咱们/大家/团队/集体]的项目需要更多人手[人员/人口/人丁]”。

通过ElasticSearch提供的文档更新接口，将所有的文本段落更新到ElasticSearch当中，以便后续步骤搜索。

参考图4，以Context字段为例，在ElasticSearch内部，对需要构建倒排索引的文本段落进行分词，随后为每一个词生成其所出现过的段落id的拉链表，在搜索的时候，可以通过拉链表快速的找到包含某一个词的所有段落。

步骤二，训练阅读理解模型：收集阅读理解模型的训练数据，训练阅读理解模型。

具体的，采用开源阅读理解训练数据与领域训练数据标注两种方式，收集训练数据。训练数据的原始格式如下：

为了能够提供给阅读理解模型进行训练，对原始的训练数据正文和问题分别进行token（标记）切分，再拼接为一个新的token序列。如果有答案，则将每一个token标注两个标签，一个代表该token是否是答案起始，一个标注是否是答案结束，0代表否，1代表是；为了让阅读理解模型可以识别，采用整型的id来代表一个token，如果token的文本相同，则它们具备相同的id。上述原始训练数据中“我们的项目需要更多人手”这段文本，参考图3，转换为Bert特征抽取层的输入，以及是否是起始和结束预测层的目标标签的数据格式如下：

上述Bert特征抽取层的输入最后有几位为0，是为了能够将所有训练数据tokenid的输入长度统一为相同长度，便于模型计算。

上述答案起始结束位置预测层标签，其中第一行为答案起始位置预测标签，第二行为答案结束位置预测层标签。

如图3中的损失函数计算层所示，使用改进的损失函数，以推理答案起始结束位置的覆盖范围和目标答案起始结束位置的覆盖范围的重复度作为损失函数，在使用预测范围的时候，本实施例假设预测概率大于0.5时，预测结果为1，否则为0，损失函数具体计算公式如下：

Loss*=-ln((Intersection(S^,S)/(Union(S^,S))+1)

其中Loss*是改进后的损失函数，S^是目标答案的token序列，S是推理答案的token序列，Intersection(S^,S)是目标答案和推理答案token序列的交集长度，Union(S^,S)+1是目标答案和推理答案token序列的并集长度加一。

步骤三，采用训练好的阅读理解模型接受用户输入的问句，将问句转换为倒排索引检索语句，并检索出候选段落，生成候选段落列表，在每一个候选段落中找出若干小段文本作为候选答案，再通过所有候选答案和问句的相关性，选择最优答案。

详细的，包括以下子步骤：

步骤3.1，通过用户问句检索段落：训练好的阅读理解模型接受用户输入的问句，去除用户输入问句中的冗余词，将所述问句转换为所使用的搜索引擎所要求的查询结构，生成新的检索文本，并根据检索文本的倒排索引，检索出候选段落，即生成包含答案的文本段落列表，详细实施步骤如下：

去除用户问句中不影响语义信息的停用词，语气词，疑问词等冗余词如：的，且，什么，哪些，嘛，吧。

将用户问句转换为可以供ElasticSearch要求的查询结构，在步骤1.3中创建的ExtContext字段中进行检索，搜索出候选文本段落。

其中因为ExtContext字段中，在步骤1.2已经将“我们”扩展出了“咱们”，所以在搜索的时候，使用“咱们”也可以搜索到候选段落“我们的项目需要更多人手”。

步骤3.2，从段落中抽取小段答案文本：从候选段落中抽取小段的答案文本，进行可能性打分，其详细实施步骤如下：

将检索出的文本段落列表与用户输入的问句输入到机器阅读理解模型中，机器阅读理解模型在文本段落列表的每个段落中找到最可能是答案的几个小段文本，并进行可能性打分。

具体的，在机器阅读理解模型中分为如下步骤：token序列切分，token序列特征抽取，token序列每个token起始位置、结束位置可能性预测，按起始和结束位置抽取小段文本。对应的，token序列按照汉字、英文单词、连接在一起的数字分别作为独立的token的方式切分为token序列；使用Bert模型对token序列进行特征抽取，为每一个token生成768维的向量表征；通过softmax函数，预测每一个token是答案起始位置，结束位置的概率；按照起始位置和结束位置概率从大到小排序，找到若干小段文本，作为后续答案的片段，将起始位置和结束位置概率的平均值作为小段文本的可能性打分。

其中，将检索出的文本段落列表与用户输入的问句转换拼接为机器阅读理解模型可以直接识别的token id列表的过程与步骤2.1的机器阅读理解模型训练的过程完全一致。

参考图3，在该步骤中不再使用损失函数计算层，而直接使用答案起始结束位置预测层的预测输出，当预测的可能性得分大于0.5的时候，接受预测，从而得到多个预测的答案开始和结束位置。

从最开始的答案开始位置进行遍历，找到离其最近的答案结束位置作为一对，表示一个答案小本文的开始和结束位置，并且将起始和结束位置概率的平均值，作为该小段答案文本的概率。本实施例中模型的输入输出示例如下：

。

步骤3.3，小段文本生成答案句：根据抽取的小段答案文本和可能性打分，以及小段答案文本在文章中出现的位置，找到最合适的文章中的完整句子作为候选答案。

即找到输出的小段文本在段落中所处的句子，并对句子首尾进行如“然后”、“还有”等句子间连接词语去除的处理，作为最终的答案句子。

其详细实施步骤如下：

将段落按照句子结束符号切分，产生一系列句子列表。句子结束符号包括：句号，分号，问号，感叹号等。

找到小段答案文本所在的句子，并对句子中存在的前后连接词进行去除，生成最后的答案句。前后连接词包括：并且，而且，下一点等。将在该句中概率最高的小段文本的概率作为答案句的概率。

本步骤的输入输出示例如下：

步骤3.4，答案句选择：按照作为候选答案的句子的可能性打分从高到低排序，选择得分最高的句子作为最终的答案。

与前述一种结合段落搜索和机器阅读理解的问答方法的实施例相对应，本发明还提供了一种结合段落搜索和机器阅读理解的问答装置的实施例。

参见图5，本发明实施例提供的一种结合段落搜索和机器阅读理解的问答装置，包括一个或多个处理器，用于实现上述实施例中的一种结合段落搜索和机器阅读理解的问答方法。

本发明的一种结合段落搜索和机器阅读理解的问答装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明的一种结合段落搜索和机器阅读理解的问答装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种结合段落搜索和机器阅读理解的问答方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种结合段落搜索和机器阅读理解的问答方法，其特征在于，包括以下步骤：

步骤一，收集作为答案来源的文章，对文章进行文本段落切分，对切分后的文本段落做分词操作后再进行词扩展，得到新的文本段落，再对新的文本段落进行倒排索引的构建，具体包括以下子步骤：

步骤1.3，利用搜索引擎，对新的文本段落进行倒排索引的构建；

步骤二，收集阅读理解模型的训练数据，训练阅读理解模型，具体为：采用开源阅读理解训练数据与领域训练数据标注两种方式，收集训练数据，输入至阅读理解模型，使用以推理答案起始结束位置的覆盖范围和目标答案起始结束位置的覆盖范围的重复度作为损失函数来进行模型训练；

所述进行模型训练时，对原始的训练数据正文和问题分别进行token标记切分，再拼接为一个新的token序列；其中，采用整型的id来代表一个token，如果token的文本相同，则该文本具备相同的id；

所述损失函数具体表达式为：

Loss*=-ln((Intersection(S^,S)/(Union(S^,S))+1)

其中Loss*表示改进后的损失函数，S^是目标答案的token序列，S是推理答案的token序列，Intersection(S^,S)是目标答案和推理答案token序列的交集长度，Union(S^,S)+1是目标答案和推理答案token序列的并集长度加一；

2.如权利要求1所述的一种结合段落搜索和机器阅读理解的问答方法，其特征在于，所述步骤1.2具体为：

首先，使用现有结巴分词工具，对文本段落进行分词处理；

3.如权利要求1所述的一种结合段落搜索和机器阅读理解的问答方法，其特征在于，所述步骤1.3具体为：使用ElasticSearch搜索引擎，在该搜索引擎当中创建新的索引模板，索引模板由多个被索引的不同类型的字段组成；顺序遍历所有新的文本段落，以自增的方式为每一个文本段落生成id字段对应的值作为每个段落的唯一标志符，然后为每一个词生成其所出现过的段落id的拉链表。

4.如权利要求1所述的一种结合段落搜索和机器阅读理解的问答方法，其特征在于，所述步骤三，具体包括以下子步骤：

5.如权利要求4所述的一种结合段落搜索和机器阅读理解的问答方法，其特征在于，所述步骤3.2具体为：对原文章的正文和用户输入问题分别进行token标记切分，按照汉字、英文单词、连接在一起的数字分别作为独立的token的方式切分为token序列；使用Bert模型对token序列进行特征抽取，为每一个token生成768维的向量表征；通过softmax函数，预测每一个token是答案起始位置、结束位置的概率；按照起始位置和结束位置概率从大到小排序，找到若干小段答案文本，将起始位置和结束位置概率的平均值作为小段答案文本的可能性打分。

6.如权利要求4所述的一种结合段落搜索和机器阅读理解的问答方法，其特征在于，所述步骤3.3中对找到的完整句子做前后连接词去除处理，所述前后连接词包括：并且、而且、下一、然后、还有。