CN115392236A - 一种文档级关系抽取方法、系统、设备及存储介质 - Google Patents
一种文档级关系抽取方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN115392236A CN115392236A CN202211167547.1A CN202211167547A CN115392236A CN 115392236 A CN115392236 A CN 115392236A CN 202211167547 A CN202211167547 A CN 202211167547A CN 115392236 A CN115392236 A CN 115392236A
- Authority
- CN
- China
- Prior art keywords
- entity
- document
- entities
- matrix
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文档级关系抽取方法、系统、设备及存储介质,包括:最优路径过滤:将文档中的实体排列组合成实体对,采用启发式方法选择与文档中与任意两个实体相关的句子,用最小集合问题的解决方案选择最少的句子作为最的向量。选取句子中的相关实体和关系构建类似于图像的特征映射实体矩阵,利用U‑Net网络获得实体矩阵相关的全局特征和局部特征。本发明的优点是:寻找文档中具有积极影响的实体构成最优路径,减少实体间相互的干扰作用,抽取文档中隐藏的关系。采用了最小集合覆盖方法,选择较少的路径,减少实体对产生的重复路径的影响,提高文档级关系抽取的准确率。
Description
技术领域
本发明涉及计算机文档数据处理技术领域,特别涉及一种基于语义分割模型去除干扰特征的文档级关系抽取方法、装置、设备及存储介质。
背景技术
关系抽取(Relation Extraction,简称RE)的概念于1988年在MessageUnderstanding Conference(MUC)大会上提出,是信息抽取的基本任务之一,能够为知识图谱的自动构建、搜索引擎、问答等下游任务提供支撑。关系抽取的主要任务是识别出非结构文本中实体与实体之间的关系。其中,实体包括人名、地名、组织结构名、时间、日期、货币和百分比七大类。关系抽取一般形式由(主体、关系、客体)构成的三元组表示。但是在真实世界中,实体通常会涉及到多个句子,抽取多个句子的抽取方式被叫做文档级关系抽取。由于文档级关系抽取具有更贴合日常生活的特性,引起了学术界的广泛关注。
文档级关系抽取任务的研究方法可分为两类,1)基于Transformer的方法和2)基于图的方法。第一种研究方法它通过建立序列数据关系来学习上下文,进而学习文档含义。该方法仅考虑了单词级别的语义特征,忽略了全局实体间的交互。第二种研究方法将文档级关系抽取视为语义分割问题,把实体与实体间的关系作为图像特征,进而使用文档中的所有实体来构建图像矩阵。该方法考虑了全局实体的交互,但是忽略了部分实体对抽取关系的负面影响。
现有技术一
张等人[1]将文档级RE任务类比为语义分割任务,用文档中的所有实体构造一个图像风格的特征矩阵,并将每个像素标记为对应的关系类别,从而考虑不同关系之间的相互作用。如下图所示,在构建实体矩阵时,e1-e8表示的是文档中的所有实体,图中带颜色的部分表示实体和实体之间存在着关系。如果文档中的实体e4和实体e5之间的关系对抽取实体e4和e6的关系起反作用,则忽略不计。这样,每一个文档则会生成一个特征图。
然而,构建了一个包含文档中所有实体的特征图矩阵,其中一些实体可能会对提取的关系产生不利影响,没有考虑特征冗余问题,使得抽取的关系准确性不高。
参考文献
[1]Ningyu Zhang,Xiang Chen,Xin Xie,Shumin Deng,Chuanqi Tan,Mos haChen,Fei Huang,Luo Si,and Huajun Chen.2021a.Document-level relatio nextraction as semantic segmenta-tion.arXiv preprint arXiv:2106.03618;
[2]Quzhe Huang,Shengqi Zhu,Yansong Feng,Yuan Ye,Yuxuan Lai,andDongyan Zhao.2021.Three sentences are all you need:Local path enhanced document relation extraction.arXiv preprint arXiv:2106.01793。
发明内容
本发明为了减少文档中冗余信息对实体抽取的影响,提供了一种基于语义分割模型去除干扰特征的文档级关系抽取方法、装置、设备及存储介质。从计算机视觉角度以全新的视角解决文档级RE问题。在抽取时引入最优路径过滤(Optimal Path Filter,OPF)模块,将文档级关系提取作为语义分割任务,并构建最佳路径以捕获全局和局部内容信息。
为了实现以上发明目的,本发明采取的技术方案如下:
一种文档级关系抽取方法,包括以下步骤:
步骤一:最优路径过滤(Optimal Path Filter,OPF),将文档中的多个实体排列组合成多个实体对,采用启发式方法选择与文档中与任意两个实体相关的句子,然后用最小集合问题的解决方案选择最少的句子作为最优路径;
步骤二:输入编码;利用预训练模型BERT进行编码,得到能够表示文档语义特征的向量。
步骤三:选取句子中的相关实体和关系构建类似于图像的特征映射实体矩阵F,
步骤四:利用U-Net网络获得实体矩阵F相关的全局特征和局部特征。
进一步地,步骤一最优路径过滤,包括:
在一个文档d中,假设有n个实体,生成n!/(n-2)!个实体对。集合覆盖问题正式定义是,给定通用集合U和一个集合S,S由U的子集组成,待求集合C,使C是S的子集并且C中元素的并集是U。把所有实体对的组合所形成的集合看作U,公式如下,其中ei表示第i个实体。
u={(ei,ej)}i,j<n;i≠j.
每个实体对涉及文档中的几个句子,将所选的句子集视为S,公式如下:
S={{path1},{path2},{path3},…,{pathn}}.
其中pathi表示第i个实体对选择的几个句子。每个实体对产生的路径是在文档所在的位置生成的。目标是在S集合中提取的路径,以便在所选路径中的所有实体可以覆盖文档中的所有实体。
定义路径之后,利用回溯算法求解出文档中提取出最小的集合C。
进一步地,步骤一中,从文档中利用启发式提取的路径与句子是否包含头实体和尾实体有关,从文档中利用启发式方法提取的路径分为:句内路径,连续路径,多跳路径和默认路径。
句内路径:如果一个句子中同时存在头实体和尾实体,则属于句子级关系抽取,因此单个句子构成一条路径。
连续路径:如果头实体和尾实体分布在不同的句子中,则头实体出现在句子Si中,尾实体出现在句子Sj中。Si和Sj相互接近,且距离不超过2,即j-i<2且i≠j。连续路径限制抽取的句子为三个连续句子。由于一个实体可能在不同的句子中有多个提及,一对实体可以有多个连续的路径。
多跳路径:有头实体eh,尾实体et和一系列“桥接实体”e1,e2,…,en。如果有一系列实体对,(eh,e1),(e2,e3),…,(es,et)使得eh和et通过桥接实体连接。则选择这些实体对所在的句子作为多跳路径。
默认路径:不满足上述所有情况,生成默认路径。统计所有头实体为eh,尾实体为et的句子,并对这些句子生成的默认路径进行排列和组合。假设头实体eh存在于句子{Sh1,Sh2,…,Shi},尾实体et存在于句子{St1,St2,…,Stj}中,每个实体对将生成i*j个默认路径,即{Sh1,St1},…,{Shi,Stj}。
进一步地,步骤二中,输入编码具体为:
使用特殊符号,来标记提到的实体。将[CLS]放在第一个句子的开头,[SEP]用来分隔两个输入句子。用特殊的符号<e></e>来标记实体:
使用WordPiece来拆分单词,产生更小的子单词单元(又称为分词)。
为了生成内容嵌入,使用预先训练好的模型BERT作为编码器,将WordPiece分割后的分词输入BERT,公式如下:
H=[η1,η2,…,ηl]=BERT([x1,x2,…xl]).
其中η1是分词xl的单词向量。如果文档的长度大于512,则利用动态窗口的重叠标记来获得文档表示。
利用<e></e>的嵌入来表示实体提及。当计算嵌入的实体ηei时,使用logsumexp池化进行表示,公式如下:
进一步地,步骤三中,构建实体矩阵F具体为:
给定文档d,假设通过最小集覆盖问题可以生成m条最优路径的集合,m条路径集覆盖文档中的所有实体。当构建实体级矩阵时,每个文档d将构建m个矩阵。一个文档生成m张实体对之间相关特征的图像,模型以像素级掩码的形式预测每个实体对的关系类型。当构造实体级矩阵时,整个文档构造一个矩阵,整个文档的关系在这个矩阵中标记。
根据最小集合覆盖问题生成的最优路径将文档分解为多个矩阵。在构造矩阵时,只使用最优路径中的关系进行构建。
在计算实体ei之间的相关性时,只考虑最优路径上的实体之间的关系。
使用关于实体的注意力机制和仿射变换来获得不同实体的相关性。
对于有关系的实体,它们之间的相关性由d维特征向量F(eh,et).表示,公式如下:
F(eh,et)=W H attenion(h,t)
其中W表示权重矩阵,attention(ht)表示实体感知的注意力权重。Ii h表示分词对第i个实体的重要性。H表示整个文档的编码,k是transformer中头的数量。
进一步地,步骤四中,将实体矩阵F输入语义分割模型;
构造实体矩阵F后,F的形状为N*N*D,其中N表示文档中实体的数量,D为实体之间的D维相关向量。
将矩阵F作为具有D通道的图像来做文档级关系抽取。
使用U-Net在每个实体级别标记特征,U-Net重复2次卷积-卷积-池化,
最后,将构造的实体矩阵F与U-Net网络融合,公式如下:
Y=U-Net(W1F)
其中UNet表示U-Net模块,W1为权值,F为得到的实体级矩阵。
最后,通过前馈神经网络对实体关系矩阵Y进行分类,得到实体之间的关系。
一种文档级关系抽取系统,包括:
最优路径过滤模块,用于将文档分为多个实体,实体组成多个实体对,采用启发式方法选择与文档中任意两个实体相关的句子,用最小集合问题选择最少的句子作为最优路径;
编码模块,用于产生能够表示文档的语义特征的向量。
构造实体矩阵模块,用于选取句子中的实体构建类似于图像的特征矩阵F;
语义分割模块,利用U-Net网络获得实体矩阵F相关的全局特征。
本发明还公开了一种计算机设备,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一种文档级关系抽取方法。
本发明还公开了一种计算机可读存储介质,用于存储计算机指令,计算机指令被处理器执行时,实现上述一种文档级关系抽取方法。
与现有技术相比,本发明的优点在于:
考虑了文档级关系抽取中实体之间的冲突问题,提出了最优路径过滤模块,以寻找文档中具有积极影响的实体构成最优路径,减少实体间相互的干扰作用,抽取文档中隐藏的关系。
进行最优路径过滤时,采用了最小集合覆盖方法,尽可能选择较少的路径,使得路径中的实体尽可能多的覆盖文档中的实体。最大程度的减少实体对产生的重复路径的影响,能够提高文档级关系抽取的准确率。
附图说明
图1是本发明实施例最优路径过滤结构示意图;
图2是本发明实施例回溯算法使用深度优先搜索代码图;
图3是本发明实施例将实体矩阵输入语义分割模型流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本发明做进一步详细说明。
一直基于语义分割模型去除干扰特征的文档级关系抽取方法,包括以下步骤:
步骤一:最优路径过滤OPF(Optimal path filtering);
在考虑文档级关系抽取时,经常会忽略这样一个事实:对实体对之间关系的推断只需要几个句子,而不是整个文档。同时,盲目考虑整个文档可能会引入不相关的信息,干扰关系抽取。如图1上半部分文段所示,句子[1]和[4]可以将实体对(Riddarhuset,Sweden)的关系标识为“country”,而无需输入文档的整个内容。
在一个文档中,假设有n个实体,生成n!/(n-2)!个实体对。在提取每个实体对的关系时,只涉及文档中的几句话。不同实体对所涉及的句子可以重复。实体对的路径选择问题可以映射为一个集合覆盖问题。集合覆盖问题是一个经典的NP-hard问题,即项式复杂程度的非确定性问题,也是一个经典的组合优化问题。集合覆盖问题的正式定义是,给定通用集合U和一个集合S,S由U的子集组成,待求集合C,使C是S的子集并且C中元素的并集是U。当解决OPF问题中,本实施例把所有实体对的组合所形成的集合看作U。即
u={(ei,ej)}i,j<n;i≠j.
每个实体对涉及文档中的几个句子,将所选的句子集视为S。即
S={{path1},{path2},{path3},...,{pathn}}·
其中pathi表示第i个实体对选择的几个句子。每个实体对产生的路径是在文章所在的位置生成的。目标是在S集合中选择一些路径,以便在所选路径中的所有实体可以覆盖文档中的所有实体。
对于给定的一对实体,从文档中提取的句子路径与这个句子是否包含头实体和尾实体有关。根据研究可以分为几种情况,句内路径,连续路径,多跳路径和默认路径。
句内路径:如果一个句子中同时存在头实体和尾实体,则属于句子级关系抽取,因此单个句子构成一条路径,如图1左边所示。
连续路径:如果头实体和尾实体分布在不同的句子中,如头实体出现在句子Si中,尾实体出现在句子Sj中。Si和Sj相互接近,且距离不超过2,即j-i<2且i≠j。如图1左边所示。连续路径限制抽取的句子为三个连续句子。由于一个实体可能在不同的句子中有多个提及,一对实体可以有多个连续的路径。
多跳路径:一些头实体和尾实体相隔很远,如图1中间所示,实体“Riddarhuset”和实体“Sweden”并不是在相邻的句子中,分别在句子[1]和句子[4]中,但有一个“桥实体”“Stockholm”,使句子[1]和[4]相关联。“桥接实体”可以与头实体或尾实体共享一个句子,也可以在另一个句子中。为了限制路径的长度,规定桥接形成的路径最多为3句话。有头实体eh,尾实体et和一系列“桥接实体”e1,e2,…,en。如果有一系列实体对,(eh,e1),(e2,e3),…,(es,et)使得eh和et通过桥接实体连接。则选择这些实体对所在的句子作为多跳路径。
除此之外,还有默认路径:有少量示例不满足上述所有情况,生成默认路径,图1中右边所示。
统计所有头实体为eh,尾实体为et的句子,并对这些句子生成的默认路径进行排列和组合。假设头实体eh存在于句子{Sh1,Sh2,…,Shi},尾实体et存在于句子{St1,St2,…,Stj}中,每个实体对将生成i*j个默认路径,即{Sh1,St1},…,{Shi,Stj}。
定义路径之后,下一步要处理的是如何从文档中提取出最小的集合C。如前文所说,这是一个NP-hard问题。NP-hard,是指所有NP问题的时间复杂度都可以降低到多项式的问题。对于NP-hard问题,回溯和分支定界方法通常是最好的算法。回溯算法是一种蛮力搜索算法,即不断尝试得到待解问题的所有解。对于许多复杂且大规模的问题,利用回溯搜索算法可以得到所有可行解,进而得到最优解。因此,回溯算法有‘通用解题方法’的美称,回溯算法也是经典人工智能的基础算法。本实施例还利用回溯算法求解最小集覆盖问题。回溯的本质是枚举和蛮力,这意味着它效率不高,所以本发明使用修剪来优化。回溯从当前节点开始递归。如果递归成功,则返回true。如果递归失败,则将当前节点移出解空间,从而完成回溯;Break,在函数中反映为返回false。回溯算法使用深度优先搜索(DFS),如下图2所示
步骤二:输入编码
本实施例引用了现有技术一中的方法,使用特殊符号,来标记提到的实体。将[CLS]放在第一个句子的开头,[SEP]用来分隔两个输入句子。例如,在下面的句子中,用特殊的符号<e></e>来标记实体“Hawaii”和“Nicole”:
[‘CLS’]<e>Hawaii</e>is an international tourist destination[‘SEP’]<e>Nicole</e>is on vacation there[‘SEP’].
使用WordPiece来标记单词,产生更小的子单词单元。
例如,单词“playing”可以分为“play”和“##ing”,其中“##”表示当前单词和前面的单词属于一个单词。为了生成内容嵌入,本发明使用预先训练好的模型BERT作为编码器,将WordPiece分割后的分词输入BERT,如下所示:
H=[η1,η2,...,ηl]=BERT([x1,x2,...,xl]).
其中η1是分词xl的单词向量。如果文档的长度大于512,则利用动态窗口的重叠标记来获得文档表示。
在前面的工作之后,利用<e></e>的嵌入来表示实体提及。当计算嵌入的实体ηei时,使用logsumexp池化进行表示。
步骤三:构造实体矩阵;
给定文档d,假设通过最小集覆盖问题可以生成m条最优路径的集合,m条路径集尽可能覆盖文档中的所有实体。当构建实体级矩阵时,每个文档d将构建m个矩阵。也就是说,一个文档生成m张实体对之间相关特征的图像,模型以像素级掩码的形式预测每个实体对的关系类型。现有技术一中,当构造实体级矩阵时,整个文档构造一个矩阵,整个文档的关系在这个矩阵中标记。但是,整个文档中的某些实体会对提取的实体对之间的关系产生负面影响。
与现有技术一不同的是,为了避免冗余信息的干扰,根据最小集合覆盖问题生成的最优路径将文档分解为多个矩阵。为了保证实体之间的潜在关系,在构造矩阵时,仍然使用整个文档中的实体,但在计算实体ei之间的相关性时,只考虑最优路径上的实体之间的关系。通过这种方式,消除了冗余信息,保留了文档中所有实体的潜在连接。对于实体间相关性,本发明遵循现有技术一的方法,使用基于内容的策略。本实施例还使用关于实体的注意力机制和仿射变换来获得不同实体的相关性。
对于有关系的实体,它们之间的相关性由d维特征向量F(eh,et).表示。
公式如下:
F(eh,et)=W H attenion(h,t)
其中W表示权重矩阵,attention(ht)表示实体感知的注意力权重。Ii h表示分词对第i个实体的重要性。H表示整个文档的编码,k是transformer中头的数量。
步骤四:将实体矩阵输入语义分割模型
构造实体矩阵F后,F的形状为N*N*D,其中N表示文档中实体的数量,D为实体之间的D维相关向量。通过这种方式,将矩阵作为图像与d通道进行比较。之后的任务变成了标记每个像素级特征。使用U-Net在每个实体级别标记特征。由于文档中的实体数量较少,所构造的矩阵非常小。如果使用图像中的U-Net网络直接提取构造的实体矩阵,卷积后的图像太小,无法准确提取其特征。因此,使用的U-Net只重复了2次卷积-卷积-池化,而不是4次,如图3所示。
U-Net可以结合实体矩阵的全局和局部细节进行综合考虑。每次卷积结束后,将其连接到下面的层,并直接传递给相同高度的解码器进行信息融合。在卷积开始时,图像的特征图保留了高分辨率的细节信息,这可以帮助实体矩阵提供精细的分割;在下层,此时的特征图包含了整个矩阵的全局信息,可以提供整个矩阵中关系的上下文语义信息。
最后,将得到的特征向量与U-Net网络融合,公式如下:
Y=UNet(W1F)
其中UNet表示U-Net模块,W1为权值,F为上面得到的实体级矩阵。最后,通过前馈神经网络对实体关系矩阵Y进行分类,得到实体之间的关系。
本发明实施例一种文档级关系抽取系统,包括:
最优路径过滤模块,用于将文档分为多个实体,实体组成多个实体对,采用启发式方法选择与文档中任意两个实体相关的句子,用最小集合问题选择最少的句子作为最优路径;
编码模块,用于产生能够表示文档的语义特征的向量。
构造实体矩阵模块,用于选取句子中的实体构建类似于图像的特征矩阵F;
语义分割模块,利用U-Net网络获得实体矩阵F相关的全局特征。
本发明实施例还提供了一种文档级关系抽取设备,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行文档级关系抽取方法。
本发明实施例还提供了一种计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行文档级关系抽取方法。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本发明中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (9)
1.一种文档级关系抽取方法,其特征在于,包括以下步骤:
步骤一:最优路径过滤(Optimal Path Filter,OPF),将文档中的多个实体排列组合成多个实体对,采用启发式方法选择与文档中与任意两个实体相关的句子,然后用最小集合问题的解决方案选择最少的句子作为最优路径;
步骤二:输入编码;利用预训练模型BERT进行编码,得到能够表示文档语义特征的向量;
步骤三:选取句子中的相关实体和关系构建类似于图像的特征映射实体矩阵F,
步骤四:利用U-Net网络获得实体矩阵F相关的全局特征和局部特征。
2.根据权利要求1所述的一种文档级关系抽取方法,其特征在于:步骤一最优路径过滤,包括:
在一个文档d中,假设有n个实体,生成n!/(n-2)!个实体对;集合覆盖问题正式定义是,给定通用集合U和一个集合S,S由U的子集组成,待求集合C,使C是S的子集并且C中元素的并集是U;把所有实体对的组合所形成的集合看作U,公式如下,其中ei表示第i个实体;
每个实体对涉及文档中的几个句子,将所选的句子集视为S,公式如下:
其中pathi表示第i个实体对选择的几个句子;每个实体对产生的路径是在文档所在的位置生成的;目标是在S集合中提取的路径,以便在所选路径中的所有实体可以覆盖文档中的所有实体;
定义路径之后,利用回溯算法求解出文档中提取出最小的集合C。
3.根据权利要求1所述的一种文档级关系抽取方法,其特征在于:步骤一中,从文档中利用启发式提取的路径与句子是否包含头实体和尾实体有关,从文档中利用启发式方法提取的路径分为:句内路径,连续路径,多跳路径和默认路径;
句内路径:如果一个句子中同时存在头实体和尾实体,则属于句子级关系抽取,因此单个句子构成一条路径;
连续路径:如果头实体和尾实体分布在不同的句子中,则头实体出现在句子Si中,尾实体出现在句子Sj中;Si和Sj相互接近,且距离不超过2,即j-i<2且i≠j;连续路径限制抽取的句子为三个连续句子;由于一个实体可能在不同的句子中有多个提及,一对实体可以有多个连续的路径;
多跳路径:有头实体eh,尾实体et和一系列“桥接实体”e1,e2,…,en;如果有一系列实体对,(eh,e1),(e2,e3),…,(es,et)使得eh和et通过桥接实体连接;则选择这些实体对所在的句子作为多跳路径;
默认路径:不满足上述所有情况,生成默认路径;统计所有头实体为eh,尾实体为et的句子,并对这些句子生成的默认路径进行排列和组合;假设头实体eh存在于句子{Sh1,Sh2,…,Shi},尾实体et存在于句子{St1,St2,…,Stj}中,每个实体对将生成i*j个默认路径,即{Sh1,St1},…,{Shi,Stj}。
4.根据权利要求1所述的一种文档级关系抽取方法,其特征在于:步骤二中,输入编码具体为:
使用特殊符号,来标记提到的实体;将[CLS]放在第一个句子的开头,[SEP]用来分隔两个输入句子;用特殊的符号<e></e>来标记实体:
使用WordPiece来拆分单词,产生更小的子单词单元又称为分词;
为了生成内容嵌入,使用预先训练好的模型BERT作为编码器,将WordPiece分割后的分词输入BERT,公式如下:
H=[η1,η2,...,ηl]=BERT([x1,x2,...,xl]).
其中η1是分词xl的单词向量;如果文档的长度大于512,则利用动态窗口的重叠标记来获得文档表示;
利用<e></e>的嵌入来表示实体提及;当计算嵌入的实体ηei时,使用logsumexp池化进行表示,公式如下:
5.根据权利要求1所述的一种文档级关系抽取方法,其特征在于:步骤三中,构造实体矩阵F具体为:
给定文档d,假设通过最小集覆盖问题可以生成m条最优路径的集合,m条路径集尽可能覆盖文档中的所有实体;当构建实体级矩阵时,每个文档d将构建m个矩阵;一个文档生成m张实体对之间相关特征的图像,模型以像素级掩码的形式预测每个实体对的关系类型;当构造实体级矩阵时,整个文档构造一个矩阵,整个文档的关系在这个矩阵中标记;
根据最小集合覆盖问题生成的最优路径将文档分解为多个矩阵;在构造矩阵时,只使用最优路径中的关系进行构建;
在计算实体ei之间的相关性时,只考虑最优路径上的实体之间的关系;
使用关于实体的注意力机制和仿射变换来获得不同实体的相关性;
对于有关系的实体,它们之间的相关性由d维特征向量F(eh,et).表示,公式如下:
F(eh,et)=WHattenion(h,t)
其中W表示权重矩阵,attention(ht)表示实体感知的注意力权重;Ii h表示分词对第i个实体的重要性;H表示整个文档的编码,k是transformer中头的数量。
6.根据权利要求1所述的一种文档级关系抽取方法,其特征在于:步骤四中,将实体矩阵F输入语义分割模型具体为:
构造实体矩阵F后,F的形状为N*N*D,其中N表示文档中实体的数量,D为实体之间的D维相关向量;
将矩阵F作为具有D通道的图像来做文档级关系抽取;
使用U-Net对每个实体进行特征标记,U-Net重复2次卷积-卷积-池化,
最后,将构造的实体矩阵F与U-Net网络融合,公式如下:
Y=U-Net(W1F)
其中UNet表示U-Net模块,W1为权值,F为得到的实体级矩阵;
最后,通过前馈神经网络对实体关系矩阵Y进行分类,得到实体之间的关系。
7.一种文档级关系抽取系统,其特征在于,包括:
最优路径过滤模块,用于将文档分为多个实体,实体组成多个实体对,采用启发式方法选择与文档中任意两个实体相关的句子,用最小集合问题选择最少的句子作为最优路径;
编码模块,用于产生能够表示文档的语义特征的向量;
构造实体矩阵模块,用于选取句子中的实体构建类似于图像的特征矩阵F;
语义分割模块,利用U-Net网络获得实体矩阵F相关的全局特征。
8.一种计算机设备,其特征在于,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6其中一项所述的一种文档级关系抽取方法。
9.一种计算机可读存储介质,其特征在于:用于存储计算机指令,计算机指令被处理器执行时,实现权利要求1至6其中一项所述的一种文档级关系抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211167547.1A CN115392236A (zh) | 2022-09-23 | 2022-09-23 | 一种文档级关系抽取方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211167547.1A CN115392236A (zh) | 2022-09-23 | 2022-09-23 | 一种文档级关系抽取方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115392236A true CN115392236A (zh) | 2022-11-25 |
Family
ID=84129399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211167547.1A Pending CN115392236A (zh) | 2022-09-23 | 2022-09-23 | 一种文档级关系抽取方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115392236A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116521888A (zh) * | 2023-03-20 | 2023-08-01 | 麦博(上海)健康科技有限公司 | 一种基于DocRE模型进行医疗长文档跨句关系抽取方法 |
-
2022
- 2022-09-23 CN CN202211167547.1A patent/CN115392236A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116521888A (zh) * | 2023-03-20 | 2023-08-01 | 麦博(上海)健康科技有限公司 | 一种基于DocRE模型进行医疗长文档跨句关系抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
Berry et al. | Supervised and unsupervised learning for data science | |
Huang et al. | Identifying disaster related social media for rapid response: a visual-textual fused CNN architecture | |
CN112559734B (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
TW201915790A (zh) | 關注點文案的生成 | |
WO2023071745A1 (zh) | 信息标注方法、模型训练方法、电子设备及存储介质 | |
CN114419642A (zh) | 一种文档图像中键值对信息的抽取方法、装置及系统 | |
Gould et al. | From taxonomies to ontologies: formalizing generalization knowledge for on-demand mapping | |
CN112800225B (zh) | 一种微博评论情绪分类方法和系统 | |
CN115392236A (zh) | 一种文档级关系抽取方法、系统、设备及存储介质 | |
CN115358234A (zh) | 基于图卷积网络与关系证据互指导的篇章关系抽取方法 | |
CN115329210A (zh) | 一种基于交互图分层池化的虚假新闻检测方法 | |
CN112508181A (zh) | 一种基于多通道机制的图池化方法 | |
CN117370736A (zh) | 一种细粒度情感识别方法、电子设备及存储介质 | |
Xu et al. | A question-guided multi-hop reasoning graph network for visual question answering | |
CN116011429A (zh) | 基于图神经网络的情感三元组提取方法及系统 | |
CN116795995A (zh) | 知识图谱构建方法、装置、计算机设备和存储介质 | |
CN116167366A (zh) | 一种方面级情感分类方法、装置、电子设备及存储介质 | |
Wang et al. | Inductive zero-shot image annotation via embedding graph | |
CN115658892A (zh) | 面向金融风险知识图谱的动态关系预测方法及设备 | |
Wu et al. | Transformer driven matching selection mechanism for multi-label image classification | |
CN114003708A (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 | |
CN113869518A (zh) | 视觉常识推理方法、装置、电子设备及存储介质 | |
Wang et al. | Diy your easynas for vision: Convolution operation merging, map channel reducing, and search space to supernet conversion tooling | |
Ali et al. | Comparison Performance of Long Short-Term Memory and Convolution Neural Network Variants on Online Learning Tweet Sentiment Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |