CN111291188B - 一种智能信息抽取方法及系统 - Google Patents

一种智能信息抽取方法及系统 Download PDF

Info

Publication number
CN111291188B
CN111291188B CN202010106987.0A CN202010106987A CN111291188B CN 111291188 B CN111291188 B CN 111291188B CN 202010106987 A CN202010106987 A CN 202010106987A CN 111291188 B CN111291188 B CN 111291188B
Authority
CN
China
Prior art keywords
tensor
document
text
question
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010106987.0A
Other languages
English (en)
Other versions
CN111291188A (zh
Inventor
胡家新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ajmide Shanghai Media Co ltd
Original Assignee
Ajmide Shanghai Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ajmide Shanghai Media Co ltd filed Critical Ajmide Shanghai Media Co ltd
Priority to CN202010106987.0A priority Critical patent/CN111291188B/zh
Publication of CN111291188A publication Critical patent/CN111291188A/zh
Application granted granted Critical
Publication of CN111291188B publication Critical patent/CN111291188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种智能信息抽取方法及系统,该方法采用NMF方法对文档特征矩阵分解得到K个聚类主题后,对文档中的句子进行聚类得到多个句子的集合,取与问题文本在语义上相似度最高的前k个主题句子集合,再次使用问题文本对该k个主题句子集合分别检索,从每个句子集合返回m个最相关的句子组成相应的文档后,将得到k个文档组合成一个长文档。对所述长文档和问题文本采用结合双向注意流模型、问题文本张量初始化的PointNet模型的MRC模型进行答案提取。本发明提供的方案采用改进的MRC算法,在文档主题聚合过滤、句子的检索召回和排序、答案抽取阶段都利用了问题文本这一信息;有效解决了现有技术存在的OOV问题,数据标注的成本低,兼具计算效率和准确性。

Description

一种智能信息抽取方法及系统
技术领域
本发明涉及语言处理的一个子领域---信息抽取(Information Extraction),具体涉及一种结合了传统文本检索和机器阅读理解的智能信息抽取方法及系统。
背景技术
基于文档的检索技术由于互联网行业中搜索业务不断发展而得到广泛地研究,类似于BM25和page Rank的算法基于经验公式的方法不依赖于训练模型能够得到较好的准确召回率,但是在大型文档处理过程中会面临召回较多的冗余信息的问题,因此无法直接用于信息或者知识抽取的结果,常常需要搭配如基于规则和pattern的一阶谓词逻辑,主谓宾三联组的匹配模型进行信息抽取,pattern和定义scheme(组合策略,如表结构)的设计需要投入较大的手工特征和人工脚本成本,而范围预测类型的机器阅读理解(MRC)的召回内容上更为精确,能更好地命中知识点。机器学习基于有监督的方法训练统计模型来学习将一段话和问题形成的对映射到相对应的答案上面去,这个领域开始不断涌现新的技术,机器阅读理解的效果也越来越好,使用最新的BRRT预训练模型,已经可以将该任务的召回率提高到90%以上。
现有的基于机器阅读理解的信息抽取技术的框架如图1所示,将一个句子集合或者文档和给定的问题集合输入到现有的信息抽取系统,该信息抽取系统输出一个无明显分句的字符串答案,作为给定输入答案的相关信息。现有信息抽取系统的工作过程主要分为三个步骤:
文本过滤:这部分完成文本过滤的方案是首先进行段落的主题聚合,然后进行基于问题的段落排序。这一步骤主要依赖矩阵分解技术和文本张量化技术来实现。
文本检索:这部分完成文本检索的方案是进行基于句子为单位的检索召回,其使用的核心技术为BM25算法。
答案抽取:答案抽取中基于文本检索得到的句子集合构成的文本内容,进行答案边界的预测,其使用的核心技术为基于深度学习的特征编码和问题和文本的特征融合,加上边界的预测,这部分使用的是有监督的机器阅读理解算法。最终通过答案的抽取来得到一个问题相关的关键内容作为智能检索的最终结果。
现有的技术中的BM25,TFIDF,以及主题模型的文本聚类手段,有实体识别和实体关系分类的深度学习方法等,这些方法分别存在一些缺点:
检索结果冗余:在基于BM25和TFIDF的快速检索过程中,候选的检索信息是以词袋模型作为一个整体内容的集合,不会对词与词之间的细致关系进行分析,返回的是完整的一个句子或者一个段落。如果完全应用在非结构化的文本中,会面临预先分段和分句的问题,而这两个问题在现阶段没有有效的工具可以解决。
文本检索过程过滤掉关键信息:现有的文本检索技术主要基于词的特征和文本特征去和目标文档匹配,对于给定问题(Query)的词和答案的词表并不完全相同,甚至只有一小部分重合情况,即便能够召回和问题最相关的文本内容,但是可能答案在下一句。
答案匹配中指代消歧的问题:在现有的信息抽取算法中,文档和问题匹配的过程中,问题中出现的关键字可能出现在文档的多个位置,不同位置的权重在模型优化目标的过程中能够自动得到学习,往往和Query越相关的位置,其权重能够得到巩固。但是有可能文本中的指代实体目标发生了转移,由此导致召回的内容并不是问题指代的内容,这个问题是一个机器阅读理解主攻的难题。
需要细致且一定规模的人工标注数据:类似于实体识别和实体关系分类需要细致的人工标注,而且往往面临一个多分类的任务,虽然加上一些概率图模型(例如条件随机场)能够提高多分类任务的准确性,但是多分类任务本质上会面临类别不均衡,样本复杂度较高等问题,并且数据规模的成本也是限制用这种方法做信息抽取手段的一个重要原因。
发明内容
本发明提供一种智能信息抽取方法,以期解决现有技术存在的上述问题。该方法在文本过滤和排序召回阶段都是采用的无监督的方式,能够最大限度提炼出关键内容所处在的范围,降低人工标注数据带来的成本;采用范围预测范围类型的机器阅读理解让抽取答案的内容更为准确,降低冗余信息的比重;通过问题和文档在不同层面的融合来缓解指代消歧的问题。
本发明提供的智能信息抽取方法,该方法包括以下步骤:
S1.文档张量化:采用文档张量提取技术对文档以及问题文本进行张量化,提取原始文档张量和问题文本的张量;
S2.利用主题模型进行主题聚合和过滤:通过非负矩阵算法(NMF)将所述原始文档张量进行分解得到N个聚类主题,根据所述N个聚类主题对所述文档的所有句子进行聚类得到N个句子集合;分别对所述每个句子集合再次进行文档特征提取得到N句子集合的张量,将每个句子集合的张量与问题文本的张量进行相似度计算,根据相似度从高到低的顺序,对应地取前k个主题的句子集合作为过滤后的文档;
S3.分别对每个句子集合再次进行文档特征提取得到N句子集合张量,将所述N个句子集合特征矩阵与问题文本的张量进行相似度计算后,根据相似度从高到低的顺序,对应地取前k个主题的句子集合作为过滤后的文档;对所述k个主题的句子集合根据问题文本的张量进行句子检索召回和排序,从每个所述句子集合返回与问题文本最相关的m个句子组成相应的文档从而得到k个文档;对这个k个文档提取文档特征后再次根据所述问题文本的张量进行相似度计算,根据相似度从高到低对所述k个文档进行排序后组成一个长文档;
S4.基于所述长文档、所述问题文本采用结合双向注意力流模型的机器阅读理解(MRC)算法进行答案抽取。
其中,在上述步骤S1中,在步骤S1中的进行文档张量以及问题文本的张量提取时优选采用TFIDF技术或Doc2vec技术。步骤S2中句子集合张量与问题文本的张量相似度可以采用张量的余弦距离度量来计算。步骤S3具体实现为:根据问题文本的张量利用BM25算法对每个句子集合进行检索,所述k个句子集合的每一个返回m个和问题文本最相关的句子,由所述m个句子组合成的每个句子集合对应的长文档;再次提取所述长文档的文档张量,根据每个所述长文档的文本张量与所述问题文本张量的相似度对k个长文档进行排序。
进一步地,上述步骤S4具体实现为:在机器阅读理解(MRC)算法的嵌入层和编码层采用self-multihead attention算法对于所述长文档和所述问题文本进行建模,得到所述长文档和问所述问题文本的张量后,分别计算所述问题文本到所述长文档的注意力权重张量q2c、所述长文档到所述问题文本的注意力权重张量c2q;将上述两个注意力权重张量分别和所述长文档张量矩阵相乘后得到所述问题文本到所述长文档的注意力文档表示张量Cq2c和所述长文档到所述问题文本的注意力问题表示张量Cc2q;将所述张量Cq2c、张量Cc2q、所述原始文档张量进行张量融合得到问题提示(query-wise)的内容表示;对所述问题提示(query-wise)的内容表示采用PointNet模型进行答案抽取,所述PointNet模型使用所述问题文本张量初始化得到。
进一步地、所述对所述问题提示(query-wise)的内容表示采用PointNet模型进行答案抽取,具体实现为:对所述问题提示(query-wise)的内容表示每个位置的样本进行PointNet编码分类计算后,对编码分类计算的结果利用初始的问题张量进行初始化的PointNet对进行解码,每一步解码的过程都保留下每个样本的位置以得到该位置作为开始位置和位置结束位置的logit概率;得到所述样本表示的每个位置的开始logit估计概率和结束logit估计概率之后分别进行两次遍历,一次遍历取出概率最大的开始位置,一次遍历取出概率最大的结束位置,最终输出文档中这两个位置的中间内容作为所述问题文本的答案。
与上述方法相对应,本发明还提供一种智能信息抽取系统,该系统包括:
一种智能信息抽取系统,该系统包括:文档张量化模块、主题聚合和过滤模块、句子集合的进行检索召回及排序模块、句子集合的进行检索召回及排序模块、基于机器阅读理解的答案抽取模块;其中、
所述文档张量化模块,采用文档张量提取技术对文档以及问题文本进行张量化,提取原始文档张量和问题文本的张量;
所述主题聚合和过滤模块,用于根据预先设置的N个维度、通过非负矩阵算法(NMF)将所述文档张量化模块提取到的所述原始文档张量进行分解得到N个聚类主题;根据所述聚类主题对所述文档的所有句子进行聚类得到N个句子集合;对所述每个句子集合再次进行文档特征提取得到的N句子集合张量与问题文本的张量进行相似度计算后,根据相似度从高到低的顺序,对应地取k个主题的句子集合作为过滤后的文档;
所述句子集合的进行检索召回及排序模块,用于对所述k个主题的句子集合根据问题文本的张量进行句子检索召回和排序,从每个所述句子集合返回与问题文本最相关的m个句子组成相应的文档从而得到k个文档;对这个k个文档提取文档特征后再次根据所述问题文本的张量进行相似度计算,根据相似度从高到低对所述k个文档进行排序后组成一个长文档;
所述基于机器阅读理解的答案抽取模块,用于根据所述长文档、所述问题文本采用结合双向注意力流模型的机器阅读理解(MRC)算法进行答案抽取。
上述系统中各模块的具体实现过程与上述智能信息抽取方法中具体步骤的实现过程相对应。
附图说明
图1为现有的基于机器阅读理解的信息抽取技术的框架示意图本;
图2为本发明提供的智能信息抽取方法在文档特征提取到检索句子召回排序阶段的示意图;
图3为本发明提供的智能信息抽取方法在基于双向注意力流的张量拼接到基于机器阅读理解的答案抽取阶段的示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案以及有益效果更加清楚明白,以下结合附图对本发明进行进一步详细说明。应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供的智能信息抽取方法各步骤如图2、图3所示。该方法包括以下步骤:
S1.文档张量化:采用文档张量提取技术对文档以及问题文本进行张量化,提取原始文档张量和问题文本的张量;
S2.利用主题模型进行主题聚合和过滤:通过非负矩阵算法(NMF)将所述原始文档张量进行分解得到N个聚类主题,根据所述N个聚类主题对所述文档的所有句子进行聚类得到N个句子集合;分别对所述每个句子集合再次进行文档特征提取得到N句子集合的张量,将每个句子集合的张量与问题文本的张量进行相似度计算,根据相似度从高到低的顺序,对应地取前k个主题的句子集合作为过滤后的文档;
S3.分别对每个句子集合再次进行文档特征提取得到N句子集合张量,将所述N个句子集合特征矩阵与问题文本的张量进行相似度计算后,根据相似度从高到低的顺序,对应地取前k个主题的句子集合作为过滤后的文档;对所述k个主题的句子集合根据问题文本的张量进行句子检索召回和排序,从每个所述句子集合返回与问题文本最相关的m个句子组成相应的文档从而得到k个文档;对这个k个文档提取文档特征后再次根据所述问题文本的张量进行相似度计算,根据相似度从高到低对所述k个文档进行排序后组成一个长文档;
S4.基于所述长文档、所述问题文本采用结合双向注意力流模型的机器阅读理解(MRC)算法进行答案抽取。
其中、步骤S1到步骤S3的细节如图2所示。在步骤S1中的进行文档张量以及问题文本的张量提取时,优先采用词频-逆文本频率指数算法(TFIDF)或文档张量化技术(Doc2vec)。TFIDF和Doc2Vec都是词袋模型,根据每个词的张量拼接成一个整体的张量,TFIDF可以用求和的手段完成拼接,Doc2Vec用一个激活函数的映射过程完成拼接。替代方案可以有多重词张量word2vec,glove,FastText和预训练语言模型的词张量,如Elmo,Bert等。
步骤S2中利用主题模型进行主题聚合和过滤,具体实现细节为:利用NMF算法(non-negative matrix factorization)对文本特征提取过后的多个句子(文档)组成的矩阵(即原始文档张量矩阵)进行NMF分解,依赖于预先设计的维度N将原有的文档通过压缩特征然后分解的手段得到N个聚类,将每个类别分别进行聚类(主题聚合),得到N个句子集合T1……TN。针对于每个集合再进行一次文本的特征提取以获取每个句子集合的张量,然后和问题集合的特征提取张量进行相似度匹配,按照相似度从高到低的顺序取前k个主题文档集合(M1……Mk)作为最终过滤好的文档。每个句子集合的文本张量提取采用文档张量提取技术来实现,其可以与采用步骤1中的文档张量技术采用相同或不同的算法。排序依赖于文本张量化表示后的张量相似度,在实践中可使用余弦距离度量计算相似度。
通过步骤S2的主题模型的聚合和排序之后得到k个句子的集合后,进入步骤S3的句子的检索召回和排序阶段。在这个阶段再次使用问题的张量分别对于每个句子的集合进行检索,利用BM25算法对所述k个句子集合进行检索,从每个句子集合返回m个和问题文本最相关的句子组成相应的文档。对这k个文档提取文档特征后再次根据所述问题文本的张量进行相似度计算,根据相似度从高到低对所述k个文档进行排序后组成一个长文档。在进行句子过滤和句子检索的过程中,本发明参考了文本检索类的多种算法优秀的检索效率,在面对大型文本的处理过程中能够保持优秀的计算效率;并且在保持运行效率的同时也利用主题模型对于大范围的文本进行主题聚合。这个方案比传统文本检索工具的一大优势是能够规避过于依赖于关键字词导致检索内容单一甚至无法找回正确的检索内容的问题,因此基于主题聚合文档的方案在词匹配和词串释义上更为出色。
步骤S4实施细细节如图3所示,在机器阅读理解(MRC)算法的嵌入层和编码层采用self-multihead attention算法对于所述长文档和所述问题文本进行建模,得到所述长文档和问所述问题文本的张量后,分别计算所述问题文本到所述长文档的注意力权重张量q2c、所述长文档到所述问题文本的注意力权重张量c2q。将上述两个注意力权重张量分别和所述长文档张量矩阵相乘后得到所述问题文本到所述长文档的注意力文档表示张量Cq2c和所述长文档到所述问题文本的注意力问题表示张量Cc2q。将所述张量Cq2c、张量Cc2q、所述原始文档张量进行张量融合得到问题提示(query-wise)的内容表示;具体地,可以采用的语言模型为长短时记忆模型Lstm对所述张量Cq2c、张量Cc2q、所述原始文档张量阵进行张量融合。对所述问题提示(query-wise)的内容表示采用PointNet模型进行答案抽取,所述PointNet模型使用所述问题文本张量初始化得到。所述原始文档张量为问题所述问题文本张量经过flatten处理得到的,其具有与文档张量相同数量的维度。
所述对所述问题提示(query-wise)的内容表示采用PointNet模型进行答案抽取,具体实现为:对所述问题提示(query-wise)的内容表示每个位置的样本进行PointNet编码分类计算后,对编码分类计算的结果利用初始的问题张量进行初始化的PointNet对进行解码,每一步解码的过程都保留下每个样本的位置以得到该位置作为开始位置和位置结束位置的logit概率;得到所述样本表示的每个位置的开始logit估计概率和结束logit估计概率之后分别进行两次遍历,一次遍历取出概率最大的开始位置,一次遍历取出概率最大的结束位置,最终输出文档中这两个位置的中间内容作为所述问题文本的答案。其中,开始位置和结束位置预测可以使用预测两个位置,也可以预测多个位置然后进行拼接,这种替补方案在GA-Reader中详细阐述了原理。
与上述智能信息抽取方法相对应,本发明还提供一种智能信息抽取系统,该系统包括:文档张量化模块、主题聚合和过滤模块、句子集合的进行检索召回及排序模块、句子集合的进行检索召回及排序模块、基于机器阅读理解的答案抽取模块;其中、
所述文档张量化模块,采用文档张量提取技术对文档以及问题文本进行张量化,提取原始文档张量和问题文本的张量;
所述主题聚合和过滤模块,用于根据预先设置的N个维度、通过非负矩阵算法(NMF)将所述文档张量化模块提取到的所述原始文档张量进行分解得到N个聚类主题;根据所述聚类主题对所述文档的所有句子进行聚类得到N个句子集合;对所述每个句子集合再次进行文档特征提取得到的N句子集合张量与问题文本的张量进行相似度计算后,根据相似度从高到低的顺序,对应地取k个主题的句子集合作为过滤后的文档;
所述句子集合的进行检索召回及排序模块,用于对所述k个主题的句子集合根据问题文本的张量进行句子检索召回和排序,从每个所述句子集合返回与问题文本最相关的m个句子组成相应的文档从而得到k个文档;对这个k个文档提取文档特征后再次根据所述问题文本的张量进行相似度计算,根据相似度从高到低对所述k个文档进行排序后组成一个长文档;
所述基于机器阅读理解的答案抽取模块,用于根据所述长文档、所述问题文本采用结合双向注意力流模型的机器阅读理解(MRC)算法进行答案抽取。
上述智能信息抽取系统中上述各模块的具体实现细节与上述智能信息抽取方法中具体步骤的实现过程相同。
与现有技术相比,本发明提供的方案采用无监督的机器阅读理解算法,在文档主题聚合过滤、句子的检索召回和排序、答案抽取阶段都利用了问题这一重要信息;有效解决了现有技术存在的OOV问题,数据标注的成本低,兼具计算效率和准确性。

Claims (10)

1.一种智能信息抽取方法,其特征在于,该方法包括:
采用文档张量提取技术对文档以及问题文本进行张量化,提取原始文档张量和问题文本的张量;
根据预先设置的N个维度通过非负矩阵算法(NMF)将所述原始文档张量进行分解得到N个聚类主题,分别根据每个聚类主题对所述文档的所有句子进行聚类得到N个句子集合;
分别对每个句子集合再次进行文档特征提取得到N句子集合张量,将所述N个句子集合特征矩阵与问题文本的张量进行相似度计算后,根据相似度从高到低的顺序,对应地取前k个主题的句子集合作为过滤后的文档;
对所述k个主题的句子集合根据问题文本的张量进行句子检索召回和排序,从每个所述句子集合返回与问题文本最相关的m个句子组成相应的文档从而得到k个文档;对这个k个文档提取文档特征后再次根据所述问题文本的张量进行相似度计算,根据相似度从高到低对所述k个文档进行排序后组成一个长文档;
基于所述长文档、所述问题文本采用结合双向注意力流模型的机器阅读理解(MRC)算法进行答案抽取:在机器阅读理解(MRC)算法的嵌入层和编码层采用self-multiheadattention算法对于所述长文档和所述问题文本进行建模;基于所述建模得到的所述长文档的张量、和所述问题文本的张量,计算出所述问题文本到所述长文档的注意力权重张量q2c、所述长文档到所述问题文本的注意力权重张量c2q;将所述两个注意力权重张量分别和所述长文档张量矩阵相乘得到所述问题文本到所述长文档的注意力文档表示张量Cq2c和所述长文档到所述问题文本的注意力问题表示张量Cc2q;将所述注意力文档表示张量Cq2c、注意力文本表示张量Cc2q、所述原始文档张量进行张量融合得到问题提示(query-wise)的内容表示,对所述问题提示(query-wise)的内容表示采用PointNet模型进行答案抽取;所述PointNet模型使用所述问题文本张量初始化得到。
2.如权利要求1所述的智能信息抽取方法,其特征在于,所述对文档以及问题文本进行文张量采用TFIDF或Doc2vec技术来实现。
3.如权利要求1所述的智能信息抽取方法,其特征在于,对所述k个主题的句子集合根据问题文本的张量进行句子检索召回和排序,具体实现为:利用BM25算法对所述k个句子集合进行检索,从每个句子集合返回m个和问题文本最相关的句子;由所述m个句子组合成的每个句子集合对应的长文档,根据每个所述长文档的文本张量与所述问题文本张量的相似程度对k个长文档进行排序。
4.如权利要求1-3中任一项所述的智能信息抽取方法,其特征在于,所述张量Cq2c、张量Cc2q、所述原始文档张量阵进行张量融合所采用的语言模型为长短时记忆模型Lstm。
5.如权利要求4所述的智能信息抽取方法,其特征在于,所述对所述问题提示(query-wise)的内容表示采用PointNet模型进行答案抽取,具体实现为:
对所述问题提示(query-wise)的内容表示每个位置的样本进行PointNet编码分类计算,对PointNet编码分类计算的结果利用初始的问题张量进行初始化的PointNet进行解码,每一步解码的过程都保留下每个样本的位置、并获得每个样本的位置分别作为开始位置、结束位置的logit概率;得到每个样本的位置分别作为所述开始位置、结束位置的logit估计概率后,输出文档中作为所述开始位置logit概率最大的样本的位置、作为所述结束位置logit概率最大的样本的位置之间的内容作为所述问题文本的答案。
6.一种智能信息抽取系统,该系统包括:文档张量化模块、主题聚合和过滤模块、句子集合的进行检索召回及排序模块、句子集合的进行检索召回及排序模块、基于机器阅读理解的答案抽取模块;其中、所述文档张量化模块,采用文档张量提取技术对文档以及问题文本进行张量化,提取原始文档张量和问题文本的张量;
所述主题聚合和过滤模块,用于根据预先设置的N个维度、通过非负矩阵算法(NMF)将所述文档张量化模块提取到的所述原始文档张量进行分解得到N个聚类主题;根据所述聚类主题对所述文档的所有句子进行聚类得到N个句子集合;对所述每个句子集合再次进行文档特征提取得到的N句子集合张量与问题文本的张量进行相似度计算后,根据相似度从高到低的顺序,对应地取k个主题的句子集合作为过滤后的文档;
所述句子集合的进行检索召回及排序模块,用于对所述k个主题的句子集合根据问题文本的张量进行句子检索召回和排序,从每个所述句子集合返回与问题文本最相关的m个句子组成相应的文档从而得到k个文档;对这个k个文档提取文档特征后再次根据所述问题文本的张量进行相似度计算,根据相似度从高到低对所述k个文档进行排序后组成一个长文档;
所述基于机器阅读理解的答案抽取模块,在其机器阅读理解(MRC)算法的嵌入层和编码层采用self-multihead attention算法对于所述长文档和所述问题文本进行建模,基于所述建模得到的所述长文档的张量、和所述问题文本的张量,计算出所述问题文本到所述长文档的注意力权重张量q2c、以及所述长文档到所述问题文本的注意力权重张量c2q;将所述两个注意力权重张量分别和所述长文档张量矩阵相乘得到所述问题文本到所述长文档的注意力文档表示张量Cq2c和所述长文档到所述问题文本的注意力问题表示张量Cc2q;将所述注意力文档表示张量Cq2c、注意力文本表示张量Cc2q、所述原始文档张量进行张量融合得到问题提示(query-wise)的内容表示,对所述问题提示(query-wise)的内容表示采用使用所述问题文本张量初始化得到的PointNet模型进行答案抽取。
7.如权利要求6所述的智能信息抽取系统,其特征在于,所述文档张量化模块采用TFIDF或Doc2vec技术对文档以及问题文本的进行张量提取。
8.如权利要求6所述的智能信息抽取系统,其特征在于,所述句子集合的进行检索召回及排序模块利用BM25算法对每个句子集合进行检索,从所述每个句子集合返回m个和问题文本最相关的句子。
9.如权利要求6-8所述的智能信息抽取系统,其特征在于,所述张量Cq2c、张量Cc2q、所述原始文档张量阵进行张量融合所采用的语言模型为长短时记忆模型Lstm。
10.如权利要求9所述的智能信息抽取系统,其特征在于,所述对所述问题提示(query-wise)的内容表示采用使用所述问题文本张量初始化得到的PointNet模型进行答案抽取,具体实现为:
对所述问题提示(query-wise)的内容表示每个位置的样本进行PointNet编码分类计算,对PointNet编码分类计算的结果利用初始的问题张量进行初始化的PointNet进行解码,每一步解码的过程都保留下每个样本的位置、并获得所述每个样本的位置分别作为开始位置、结束位置的logit概率;得到每个样本的位置分别作为所述开始位置、结束位置的logit估计概率后,输出文档中作为所述开始位置logit概率最大的样本的位置、作为所述结束位置logit概率最大的样本的位置之间的内容作为所述问题文本的答案。
CN202010106987.0A 2020-02-20 2020-02-20 一种智能信息抽取方法及系统 Active CN111291188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010106987.0A CN111291188B (zh) 2020-02-20 2020-02-20 一种智能信息抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010106987.0A CN111291188B (zh) 2020-02-20 2020-02-20 一种智能信息抽取方法及系统

Publications (2)

Publication Number Publication Date
CN111291188A CN111291188A (zh) 2020-06-16
CN111291188B true CN111291188B (zh) 2023-06-23

Family

ID=71028151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010106987.0A Active CN111291188B (zh) 2020-02-20 2020-02-20 一种智能信息抽取方法及系统

Country Status (1)

Country Link
CN (1) CN111291188B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257412B (zh) * 2020-09-25 2023-12-01 科大讯飞股份有限公司 篇章解析方法、电子设备及存储装置
CN112836043A (zh) * 2020-10-13 2021-05-25 讯飞智元信息科技有限公司 一种基于预训练语言模型的长文本聚类方法及装置
CN112347229B (zh) * 2020-11-12 2021-07-20 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112925904B (zh) * 2021-01-27 2022-11-29 天津大学 一种基于Tucker分解的轻量级文本分类方法
CN113157888A (zh) * 2021-04-20 2021-07-23 北京邮电大学 支持多知识来源的询问答复方法、装置和电子设备
CN114328883B (zh) * 2022-03-08 2022-06-28 恒生电子股份有限公司 一种机器阅读理解的数据处理方法、装置、设备及介质
CN116794115B (zh) * 2023-05-30 2024-01-30 恩迈智能数字医疗(嘉兴)有限公司 基于多元掺杂导电聚合物的气敏传感器电极及制作方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657226A (zh) * 2018-09-20 2019-04-19 北京信息科技大学 多联结注意力的阅读理解模型、系统及方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10963782B2 (en) * 2016-11-04 2021-03-30 Salesforce.Com, Inc. Dynamic coattention network for question answering
US10572595B2 (en) * 2017-04-13 2020-02-25 Baidu Usa Llc Global normalized reader systems and methods

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657226A (zh) * 2018-09-20 2019-04-19 北京信息科技大学 多联结注意力的阅读理解模型、系统及方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张其文 ; 李明 ; .文本主题的自动提取方法研究与实现.计算机工程与设计.2006,(15),全文. *

Also Published As

Publication number Publication date
CN111291188A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111291188B (zh) 一种智能信息抽取方法及系统
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109271505B (zh) 一种基于问题答案对的问答系统实现方法
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
Xiao et al. Convolutional hierarchical attention network for query-focused video summarization
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN106708929B (zh) 视频节目的搜索方法和装置
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN113779246A (zh) 基于句子向量的文本聚类分析方法及系统
CN106570196B (zh) 视频节目的搜索方法和装置
CN111325036A (zh) 一种面向新兴技术预测的佐证事实的抽取方法及系统
Wankerl et al. f2tag—Can Tags be Predicted Using Formulas?
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
CN114048354A (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN113987175A (zh) 一种基于医学主题词表增强表征的文本多标签分类方法
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置
CN116842934A (zh) 一种基于持续学习的多文档融合深度学习标题生成方法
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant