CN111291188B

CN111291188B - 一种智能信息抽取方法及系统

Info

Publication number: CN111291188B
Application number: CN202010106987.0A
Authority: CN
Inventors: 胡家新
Original assignee: Ajmide Shanghai Media Co ltd
Current assignee: Ajmide Shanghai Media Co ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2023-06-23
Anticipated expiration: 2040-02-20
Also published as: CN111291188A

Abstract

本发明公开了一种智能信息抽取方法及系统，该方法采用NMF方法对文档特征矩阵分解得到K个聚类主题后，对文档中的句子进行聚类得到多个句子的集合，取与问题文本在语义上相似度最高的前k个主题句子集合，再次使用问题文本对该k个主题句子集合分别检索，从每个句子集合返回m个最相关的句子组成相应的文档后，将得到k个文档组合成一个长文档。对所述长文档和问题文本采用结合双向注意流模型、问题文本张量初始化的PointNet模型的MRC模型进行答案提取。本发明提供的方案采用改进的MRC算法，在文档主题聚合过滤、句子的检索召回和排序、答案抽取阶段都利用了问题文本这一信息；有效解决了现有技术存在的OOV问题，数据标注的成本低，兼具计算效率和准确性。

Description

一种智能信息抽取方法及系统

技术领域

本发明涉及语言处理的一个子领域---信息抽取(Information Extraction)，具体涉及一种结合了传统文本检索和机器阅读理解的智能信息抽取方法及系统。

背景技术

基于文档的检索技术由于互联网行业中搜索业务不断发展而得到广泛地研究，类似于BM25和page Rank的算法基于经验公式的方法不依赖于训练模型能够得到较好的准确召回率，但是在大型文档处理过程中会面临召回较多的冗余信息的问题，因此无法直接用于信息或者知识抽取的结果，常常需要搭配如基于规则和pattern的一阶谓词逻辑，主谓宾三联组的匹配模型进行信息抽取，pattern和定义scheme(组合策略，如表结构)的设计需要投入较大的手工特征和人工脚本成本，而范围预测类型的机器阅读理解(MRC)的召回内容上更为精确，能更好地命中知识点。机器学习基于有监督的方法训练统计模型来学习将一段话和问题形成的对映射到相对应的答案上面去，这个领域开始不断涌现新的技术，机器阅读理解的效果也越来越好，使用最新的BRRT预训练模型，已经可以将该任务的召回率提高到90％以上。

现有的基于机器阅读理解的信息抽取技术的框架如图1所示，将一个句子集合或者文档和给定的问题集合输入到现有的信息抽取系统，该信息抽取系统输出一个无明显分句的字符串答案，作为给定输入答案的相关信息。现有信息抽取系统的工作过程主要分为三个步骤：

文本过滤：这部分完成文本过滤的方案是首先进行段落的主题聚合，然后进行基于问题的段落排序。这一步骤主要依赖矩阵分解技术和文本张量化技术来实现。

文本检索：这部分完成文本检索的方案是进行基于句子为单位的检索召回，其使用的核心技术为BM25算法。

答案抽取：答案抽取中基于文本检索得到的句子集合构成的文本内容，进行答案边界的预测，其使用的核心技术为基于深度学习的特征编码和问题和文本的特征融合，加上边界的预测，这部分使用的是有监督的机器阅读理解算法。最终通过答案的抽取来得到一个问题相关的关键内容作为智能检索的最终结果。

现有的技术中的BM25，TFIDF，以及主题模型的文本聚类手段，有实体识别和实体关系分类的深度学习方法等，这些方法分别存在一些缺点:

检索结果冗余：在基于BM25和TFIDF的快速检索过程中，候选的检索信息是以词袋模型作为一个整体内容的集合，不会对词与词之间的细致关系进行分析，返回的是完整的一个句子或者一个段落。如果完全应用在非结构化的文本中，会面临预先分段和分句的问题，而这两个问题在现阶段没有有效的工具可以解决。

文本检索过程过滤掉关键信息：现有的文本检索技术主要基于词的特征和文本特征去和目标文档匹配，对于给定问题(Query)的词和答案的词表并不完全相同，甚至只有一小部分重合情况，即便能够召回和问题最相关的文本内容，但是可能答案在下一句。

答案匹配中指代消歧的问题：在现有的信息抽取算法中，文档和问题匹配的过程中，问题中出现的关键字可能出现在文档的多个位置，不同位置的权重在模型优化目标的过程中能够自动得到学习，往往和Query越相关的位置，其权重能够得到巩固。但是有可能文本中的指代实体目标发生了转移，由此导致召回的内容并不是问题指代的内容，这个问题是一个机器阅读理解主攻的难题。

需要细致且一定规模的人工标注数据：类似于实体识别和实体关系分类需要细致的人工标注，而且往往面临一个多分类的任务，虽然加上一些概率图模型(例如条件随机场)能够提高多分类任务的准确性，但是多分类任务本质上会面临类别不均衡，样本复杂度较高等问题，并且数据规模的成本也是限制用这种方法做信息抽取手段的一个重要原因。

发明内容

本发明提供一种智能信息抽取方法，以期解决现有技术存在的上述问题。该方法在文本过滤和排序召回阶段都是采用的无监督的方式，能够最大限度提炼出关键内容所处在的范围，降低人工标注数据带来的成本；采用范围预测范围类型的机器阅读理解让抽取答案的内容更为准确，降低冗余信息的比重；通过问题和文档在不同层面的融合来缓解指代消歧的问题。

本发明提供的智能信息抽取方法，该方法包括以下步骤：

S1.文档张量化：采用文档张量提取技术对文档以及问题文本进行张量化，提取原始文档张量和问题文本的张量；

S2.利用主题模型进行主题聚合和过滤：通过非负矩阵算法(NMF)将所述原始文档张量进行分解得到N个聚类主题，根据所述N个聚类主题对所述文档的所有句子进行聚类得到N个句子集合；分别对所述每个句子集合再次进行文档特征提取得到N句子集合的张量，将每个句子集合的张量与问题文本的张量进行相似度计算，根据相似度从高到低的顺序，对应地取前k个主题的句子集合作为过滤后的文档；

S3.分别对每个句子集合再次进行文档特征提取得到N句子集合张量，将所述N个句子集合特征矩阵与问题文本的张量进行相似度计算后，根据相似度从高到低的顺序，对应地取前k个主题的句子集合作为过滤后的文档；对所述k个主题的句子集合根据问题文本的张量进行句子检索召回和排序，从每个所述句子集合返回与问题文本最相关的m个句子组成相应的文档从而得到k个文档；对这个k个文档提取文档特征后再次根据所述问题文本的张量进行相似度计算，根据相似度从高到低对所述k个文档进行排序后组成一个长文档；

S4.基于所述长文档、所述问题文本采用结合双向注意力流模型的机器阅读理解(MRC)算法进行答案抽取。

其中，在上述步骤S1中，在步骤S1中的进行文档张量以及问题文本的张量提取时优选采用TFIDF技术或Doc2vec技术。步骤S2中句子集合张量与问题文本的张量相似度可以采用张量的余弦距离度量来计算。步骤S3具体实现为：根据问题文本的张量利用BM25算法对每个句子集合进行检索，所述k个句子集合的每一个返回m个和问题文本最相关的句子，由所述m个句子组合成的每个句子集合对应的长文档；再次提取所述长文档的文档张量，根据每个所述长文档的文本张量与所述问题文本张量的相似度对k个长文档进行排序。

进一步地，上述步骤S4具体实现为：在机器阅读理解(MRC)算法的嵌入层和编码层采用self-multihead attention算法对于所述长文档和所述问题文本进行建模，得到所述长文档和问所述问题文本的张量后，分别计算所述问题文本到所述长文档的注意力权重张量q2c、所述长文档到所述问题文本的注意力权重张量c2q；将上述两个注意力权重张量分别和所述长文档张量矩阵相乘后得到所述问题文本到所述长文档的注意力文档表示张量Cq2c和所述长文档到所述问题文本的注意力问题表示张量Cc2q；将所述张量Cq2c、张量Cc2q、所述原始文档张量进行张量融合得到问题提示(query-wise)的内容表示；对所述问题提示(query-wise)的内容表示采用PointNet模型进行答案抽取，所述PointNet模型使用所述问题文本张量初始化得到。

进一步地、所述对所述问题提示(query-wise)的内容表示采用PointNet模型进行答案抽取，具体实现为：对所述问题提示(query-wise)的内容表示每个位置的样本进行PointNet编码分类计算后，对编码分类计算的结果利用初始的问题张量进行初始化的PointNet对进行解码，每一步解码的过程都保留下每个样本的位置以得到该位置作为开始位置和位置结束位置的logit概率；得到所述样本表示的每个位置的开始logit估计概率和结束logit估计概率之后分别进行两次遍历，一次遍历取出概率最大的开始位置，一次遍历取出概率最大的结束位置，最终输出文档中这两个位置的中间内容作为所述问题文本的答案。

与上述方法相对应，本发明还提供一种智能信息抽取系统，该系统包括：

一种智能信息抽取系统，该系统包括：文档张量化模块、主题聚合和过滤模块、句子集合的进行检索召回及排序模块、句子集合的进行检索召回及排序模块、基于机器阅读理解的答案抽取模块；其中、

所述文档张量化模块，采用文档张量提取技术对文档以及问题文本进行张量化，提取原始文档张量和问题文本的张量；

所述主题聚合和过滤模块，用于根据预先设置的N个维度、通过非负矩阵算法(NMF)将所述文档张量化模块提取到的所述原始文档张量进行分解得到N个聚类主题；根据所述聚类主题对所述文档的所有句子进行聚类得到N个句子集合；对所述每个句子集合再次进行文档特征提取得到的N句子集合张量与问题文本的张量进行相似度计算后，根据相似度从高到低的顺序，对应地取k个主题的句子集合作为过滤后的文档；

所述句子集合的进行检索召回及排序模块，用于对所述k个主题的句子集合根据问题文本的张量进行句子检索召回和排序，从每个所述句子集合返回与问题文本最相关的m个句子组成相应的文档从而得到k个文档；对这个k个文档提取文档特征后再次根据所述问题文本的张量进行相似度计算，根据相似度从高到低对所述k个文档进行排序后组成一个长文档；

所述基于机器阅读理解的答案抽取模块，用于根据所述长文档、所述问题文本采用结合双向注意力流模型的机器阅读理解(MRC)算法进行答案抽取。

上述系统中各模块的具体实现过程与上述智能信息抽取方法中具体步骤的实现过程相对应。

附图说明

图1为现有的基于机器阅读理解的信息抽取技术的框架示意图本；

图2为本发明提供的智能信息抽取方法在文档特征提取到检索句子召回排序阶段的示意图；

图3为本发明提供的智能信息抽取方法在基于双向注意力流的张量拼接到基于机器阅读理解的答案抽取阶段的示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案以及有益效果更加清楚明白，以下结合附图对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供的智能信息抽取方法各步骤如图2、图3所示。该方法包括以下步骤：

其中、步骤S1到步骤S3的细节如图2所示。在步骤S1中的进行文档张量以及问题文本的张量提取时，优先采用词频-逆文本频率指数算法(TFIDF)或文档张量化技术(Doc2vec)。TFIDF和Doc2Vec都是词袋模型，根据每个词的张量拼接成一个整体的张量，TFIDF可以用求和的手段完成拼接，Doc2Vec用一个激活函数的映射过程完成拼接。替代方案可以有多重词张量word2vec，glove，FastText和预训练语言模型的词张量，如Elmo，Bert等。

步骤S2中利用主题模型进行主题聚合和过滤，具体实现细节为：利用NMF算法(non-negative matrix factorization)对文本特征提取过后的多个句子(文档)组成的矩阵(即原始文档张量矩阵)进行NMF分解，依赖于预先设计的维度N将原有的文档通过压缩特征然后分解的手段得到N个聚类，将每个类别分别进行聚类(主题聚合)，得到N个句子集合T1……TN。针对于每个集合再进行一次文本的特征提取以获取每个句子集合的张量，然后和问题集合的特征提取张量进行相似度匹配，按照相似度从高到低的顺序取前k个主题文档集合(M1……Mk)作为最终过滤好的文档。每个句子集合的文本张量提取采用文档张量提取技术来实现，其可以与采用步骤1中的文档张量技术采用相同或不同的算法。排序依赖于文本张量化表示后的张量相似度，在实践中可使用余弦距离度量计算相似度。

通过步骤S2的主题模型的聚合和排序之后得到k个句子的集合后，进入步骤S3的句子的检索召回和排序阶段。在这个阶段再次使用问题的张量分别对于每个句子的集合进行检索，利用BM25算法对所述k个句子集合进行检索，从每个句子集合返回m个和问题文本最相关的句子组成相应的文档。对这k个文档提取文档特征后再次根据所述问题文本的张量进行相似度计算，根据相似度从高到低对所述k个文档进行排序后组成一个长文档。在进行句子过滤和句子检索的过程中，本发明参考了文本检索类的多种算法优秀的检索效率，在面对大型文本的处理过程中能够保持优秀的计算效率；并且在保持运行效率的同时也利用主题模型对于大范围的文本进行主题聚合。这个方案比传统文本检索工具的一大优势是能够规避过于依赖于关键字词导致检索内容单一甚至无法找回正确的检索内容的问题，因此基于主题聚合文档的方案在词匹配和词串释义上更为出色。

步骤S4实施细细节如图3所示，在机器阅读理解(MRC)算法的嵌入层和编码层采用self-multihead attention算法对于所述长文档和所述问题文本进行建模，得到所述长文档和问所述问题文本的张量后，分别计算所述问题文本到所述长文档的注意力权重张量q2c、所述长文档到所述问题文本的注意力权重张量c2q。将上述两个注意力权重张量分别和所述长文档张量矩阵相乘后得到所述问题文本到所述长文档的注意力文档表示张量Cq2c和所述长文档到所述问题文本的注意力问题表示张量Cc2q。将所述张量Cq2c、张量Cc2q、所述原始文档张量进行张量融合得到问题提示(query-wise)的内容表示；具体地，可以采用的语言模型为长短时记忆模型Lstm对所述张量Cq2c、张量Cc2q、所述原始文档张量阵进行张量融合。对所述问题提示(query-wise)的内容表示采用PointNet模型进行答案抽取，所述PointNet模型使用所述问题文本张量初始化得到。所述原始文档张量为问题所述问题文本张量经过flatten处理得到的，其具有与文档张量相同数量的维度。

所述对所述问题提示(query-wise)的内容表示采用PointNet模型进行答案抽取，具体实现为：对所述问题提示(query-wise)的内容表示每个位置的样本进行PointNet编码分类计算后，对编码分类计算的结果利用初始的问题张量进行初始化的PointNet对进行解码，每一步解码的过程都保留下每个样本的位置以得到该位置作为开始位置和位置结束位置的logit概率；得到所述样本表示的每个位置的开始logit估计概率和结束logit估计概率之后分别进行两次遍历，一次遍历取出概率最大的开始位置，一次遍历取出概率最大的结束位置，最终输出文档中这两个位置的中间内容作为所述问题文本的答案。其中，开始位置和结束位置预测可以使用预测两个位置，也可以预测多个位置然后进行拼接，这种替补方案在GA-Reader中详细阐述了原理。

与上述智能信息抽取方法相对应，本发明还提供一种智能信息抽取系统，该系统包括：文档张量化模块、主题聚合和过滤模块、句子集合的进行检索召回及排序模块、句子集合的进行检索召回及排序模块、基于机器阅读理解的答案抽取模块；其中、

上述智能信息抽取系统中上述各模块的具体实现细节与上述智能信息抽取方法中具体步骤的实现过程相同。

与现有技术相比，本发明提供的方案采用无监督的机器阅读理解算法，在文档主题聚合过滤、句子的检索召回和排序、答案抽取阶段都利用了问题这一重要信息；有效解决了现有技术存在的OOV问题，数据标注的成本低，兼具计算效率和准确性。

Claims

1.一种智能信息抽取方法，其特征在于，该方法包括：

采用文档张量提取技术对文档以及问题文本进行张量化，提取原始文档张量和问题文本的张量；

根据预先设置的N个维度通过非负矩阵算法(NMF)将所述原始文档张量进行分解得到N个聚类主题，分别根据每个聚类主题对所述文档的所有句子进行聚类得到N个句子集合；

分别对每个句子集合再次进行文档特征提取得到N句子集合张量，将所述N个句子集合特征矩阵与问题文本的张量进行相似度计算后，根据相似度从高到低的顺序，对应地取前k个主题的句子集合作为过滤后的文档；

对所述k个主题的句子集合根据问题文本的张量进行句子检索召回和排序，从每个所述句子集合返回与问题文本最相关的m个句子组成相应的文档从而得到k个文档；对这个k个文档提取文档特征后再次根据所述问题文本的张量进行相似度计算，根据相似度从高到低对所述k个文档进行排序后组成一个长文档；

基于所述长文档、所述问题文本采用结合双向注意力流模型的机器阅读理解(MRC)算法进行答案抽取：在机器阅读理解(MRC)算法的嵌入层和编码层采用self-multiheadattention算法对于所述长文档和所述问题文本进行建模；基于所述建模得到的所述长文档的张量、和所述问题文本的张量，计算出所述问题文本到所述长文档的注意力权重张量q2c、所述长文档到所述问题文本的注意力权重张量c2q；将所述两个注意力权重张量分别和所述长文档张量矩阵相乘得到所述问题文本到所述长文档的注意力文档表示张量Cq2c和所述长文档到所述问题文本的注意力问题表示张量Cc2q；将所述注意力文档表示张量Cq2c、注意力文本表示张量Cc2q、所述原始文档张量进行张量融合得到问题提示(query-wise)的内容表示，对所述问题提示(query-wise)的内容表示采用PointNet模型进行答案抽取；所述PointNet模型使用所述问题文本张量初始化得到。

2.如权利要求1所述的智能信息抽取方法，其特征在于，所述对文档以及问题文本进行文张量采用TFIDF或Doc2vec技术来实现。

3.如权利要求1所述的智能信息抽取方法，其特征在于，对所述k个主题的句子集合根据问题文本的张量进行句子检索召回和排序，具体实现为：利用BM25算法对所述k个句子集合进行检索，从每个句子集合返回m个和问题文本最相关的句子；由所述m个句子组合成的每个句子集合对应的长文档，根据每个所述长文档的文本张量与所述问题文本张量的相似程度对k个长文档进行排序。

4.如权利要求1-3中任一项所述的智能信息抽取方法，其特征在于，所述张量Cq2c、张量Cc2q、所述原始文档张量阵进行张量融合所采用的语言模型为长短时记忆模型Lstm。

5.如权利要求4所述的智能信息抽取方法，其特征在于，所述对所述问题提示(query-wise)的内容表示采用PointNet模型进行答案抽取，具体实现为：

对所述问题提示(query-wise)的内容表示每个位置的样本进行PointNet编码分类计算，对PointNet编码分类计算的结果利用初始的问题张量进行初始化的PointNet进行解码，每一步解码的过程都保留下每个样本的位置、并获得每个样本的位置分别作为开始位置、结束位置的logit概率；得到每个样本的位置分别作为所述开始位置、结束位置的logit估计概率后，输出文档中作为所述开始位置logit概率最大的样本的位置、作为所述结束位置logit概率最大的样本的位置之间的内容作为所述问题文本的答案。

6.一种智能信息抽取系统，该系统包括：文档张量化模块、主题聚合和过滤模块、句子集合的进行检索召回及排序模块、句子集合的进行检索召回及排序模块、基于机器阅读理解的答案抽取模块；其中、所述文档张量化模块，采用文档张量提取技术对文档以及问题文本进行张量化，提取原始文档张量和问题文本的张量；

所述基于机器阅读理解的答案抽取模块，在其机器阅读理解(MRC)算法的嵌入层和编码层采用self-multihead attention算法对于所述长文档和所述问题文本进行建模，基于所述建模得到的所述长文档的张量、和所述问题文本的张量，计算出所述问题文本到所述长文档的注意力权重张量q2c、以及所述长文档到所述问题文本的注意力权重张量c2q；将所述两个注意力权重张量分别和所述长文档张量矩阵相乘得到所述问题文本到所述长文档的注意力文档表示张量Cq2c和所述长文档到所述问题文本的注意力问题表示张量Cc2q；将所述注意力文档表示张量Cq2c、注意力文本表示张量Cc2q、所述原始文档张量进行张量融合得到问题提示(query-wise)的内容表示，对所述问题提示(query-wise)的内容表示采用使用所述问题文本张量初始化得到的PointNet模型进行答案抽取。

7.如权利要求6所述的智能信息抽取系统，其特征在于，所述文档张量化模块采用TFIDF或Doc2vec技术对文档以及问题文本的进行张量提取。

8.如权利要求6所述的智能信息抽取系统，其特征在于，所述句子集合的进行检索召回及排序模块利用BM25算法对每个句子集合进行检索，从所述每个句子集合返回m个和问题文本最相关的句子。

9.如权利要求6-8所述的智能信息抽取系统，其特征在于，所述张量Cq2c、张量Cc2q、所述原始文档张量阵进行张量融合所采用的语言模型为长短时记忆模型Lstm。

10.如权利要求9所述的智能信息抽取系统，其特征在于，所述对所述问题提示(query-wise)的内容表示采用使用所述问题文本张量初始化得到的PointNet模型进行答案抽取,具体实现为：

对所述问题提示(query-wise)的内容表示每个位置的样本进行PointNet编码分类计算，对PointNet编码分类计算的结果利用初始的问题张量进行初始化的PointNet进行解码，每一步解码的过程都保留下每个样本的位置、并获得所述每个样本的位置分别作为开始位置、结束位置的logit概率；得到每个样本的位置分别作为所述开始位置、结束位置的logit估计概率后，输出文档中作为所述开始位置logit概率最大的样本的位置、作为所述结束位置logit概率最大的样本的位置之间的内容作为所述问题文本的答案。