CN113590784B - 三元组信息抽取方法、装置、电子设备、及存储介质 - Google Patents
三元组信息抽取方法、装置、电子设备、及存储介质 Download PDFInfo
- Publication number
- CN113590784B CN113590784B CN202110860911.1A CN202110860911A CN113590784B CN 113590784 B CN113590784 B CN 113590784B CN 202110860911 A CN202110860911 A CN 202110860911A CN 113590784 B CN113590784 B CN 113590784B
- Authority
- CN
- China
- Prior art keywords
- feature vector
- information
- adjacency matrix
- tree
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 129
- 239000011159 matrix material Substances 0.000 claims abstract description 59
- 230000011218 segmentation Effects 0.000 claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了三元组信息抽取方法、装置、电子设备、及存储介质,涉及三元组抽取技术领域。具体实现方案为:对文本中原句子进行子词化分词,得到经过子词分割形成的分词句子;将所述分词句子输入至预训练语言模型中以编码上下文语义信息,获得所述语义信息特征向量;根据所述语义信息特征向量获取所述三元组信息的头实体;对文本中原句子进行解析并构建依存关系树,获得依存关系树邻接矩阵;对所述依存关系树邻接矩阵进行处理后,采用双向图卷积神经网络进行结构信息建模,获得结构信息特征向量;联合所述语义信息特征向量和所述结构信息特征向量构建结合特征向量,通过结合特征向量获取三元组信息的尾实体,完成三元组信息的抽取。
Description
技术领域
本公开涉及三元组抽取技术领域,尤其涉及一种三元组信息抽取方法、装置、电子设备、及存储介质。
背景技术
互联网中传输的海量数据蕴含着极高的价值,而这些数据大部分以非结构化的形式存储,如何从大量非结构化文本数据中提取有效信息成为一种难题。从文本数据中自动化抽取出实体-关系-实体三元组,再将抽取获得的三元组连接起来形成知识图谱,从而为信息检索、自然语言理解、推荐系统和金融风控等领域提供重要知识支撑,可以有效解决这个问题,有着重要实践意义和应用价值。在机器学习模型得到广泛应用的今天,越来越多的研究人员开始尝试利用机器学习算法来解决三元组抽取问题,然而这些方法在应对互联网上存在的复杂文本数据时存在如下弊端:
一段复杂文本数据通常会包含超过一个三元组,并且三元组之间还可能会共享一个甚至所有实体,这被称之为三元组重叠问题,三元组重叠问题的出现会致使机器学习模型出现高召回率问题,导致模型整体性能过低。
复杂文本数据通常内容多,段落长,而常见的基于预训练语言模型、循环神经网络等方法的机器学习模型专注于建模语句中各词语的上下文信息,而忽略了语句中词语之间的依赖关系,从而导致模型难以对长句子建模,特别是三元组中实体对相距较远时,模型往往很难抽取出正确的尾部实体,导致模型的准确率偏低,继而影响模型的整体性能。
发明内容
(一)要解决的技术问题
基于上述问题,本公开提供了一种三元组信息抽取方法、装置、电子设备、及存储介质,以缓解现有技术中具有三元组重叠问题和长难句子的复杂文本数据三元组抽取等技术问题。
(二)技术方案
本公开提供了一种文本三元组信息抽取方法,包括:
对文本中原句子进行子词化分词,得到经过子词分割形成的分词句子;
将所述分词句子输入至预训练语言模型中以编码上下文语义信息,获得所述语义信息特征向量;
根据所述语义信息特征向量获取所述三元组信息的头实体;
对文本中原句子进行解析并构建依存关系树,获得依存关系树邻接矩阵;
对所述依存关系树邻接矩阵进行处理后,采用双向图卷积神经网络进行结构信息建模,获得结构信息特征向量;
联合所述语义信息特征向量和所述结构信息特征向量构建结合特征向量,通过结合特征向量获取三元组信息的尾实体,完成三元组信息的抽取。
在本公开实施例中,所述预训练语言模型包括多个训练块,所述多个训练块用于处理所述分词句子。
在本公开实施例中,所述根据所述语义信息特征向量获取三元组信息的头实体包括:
通过所述语义信息特征向量的语义信息对两个头实体线性分类器进行训练,所述两个头实体线性分类器分别能够查找所述分词句子中的头实体的开始位置和结束位置,进而得到所述三元组信息的头实体。
在本公开实施例中,所述依存关系树邻接矩阵包括:
原依存关系树邻接矩阵,用于反映所述文本中句子的单词之间的依赖关系;
新依存关系树邻接矩阵,通过所述分词句子到所述原句子的映射得到映射表,并根据所述映射表重建所述原依存关系树邻接矩阵,进而得到新依存关系树邻接矩阵;所述新依存关系树邻接矩阵反映所述分词句子中子词之间的依赖关系。
在本公开实施例中,所述采用双向图卷积神经网络对所述依存关系树邻接矩阵进行结构信息建模,获得结构信息特征向量包括:
采用所述双向图卷积神经网络对获得的新依存关系树邻接矩阵进行结构信息建模,其中,所述双向图卷积神经网络具有多层神经网络,所述多层神经网络的各层神经网络能够分别对其各节点的出度和入度进行建模,得到出度特征向量与入度特征向量;对所述出度特征向量与所述入度特征向量进行串联,经过所述多层神经网络得到结构信息特征向量。
在本公开实施例中,所述通过结合特征向量获取三元组信息的尾实体包括:
通过结合特征向量的特征信息对两个尾实体线性分类器进行训练,所述两个尾实体线性分类器分别能够查找所述分词句子中的尾实体的开始位置和结束位置,进而得到所述三元组信息的尾实体。
在本公开实施例中,所述尾实体线性分类器中通过头实体向量表示所述头实体。
根据本公开另一方面,提供了一种文本三元组信息抽取装置,包括:
分词句子获取模块,用于对文本中原句子进行子词化分词,得到经过子词分割形成的分词句子;
第一向量获取模块,用于将所述分词句子输入至预训练语言模型中以编码上下文语义信息,获得所述语义信息特征向量;
头实体获取模块,用于根据所述语义信息特征向量获取三元组信息的头实体;
依存关系树获取模块,用于对文本中原句子进行解析并构建依存关系树,获得依存关系树邻接矩阵;
第二向量获取模块,用于对所述依存关系树邻接矩阵进行处理后,采用双向图卷积神经网络进行结构信息建模,获得结构信息特征向量;
尾实体获取模块,用于联合所述语义信息特征向量和所述结构信息特征向量构建结合特征向量,通过结合特征向量获取三元组信息的尾实体,完成三元组信息的抽取。
根据本公开另一方面,提供了一种电子设备,包括:
一个或多个处理器;以及
存储器,用于存储可执行指令,所述可执行指令在被所述一个或多个处理器执行时,使得所述电子设备执行根据上述任一项所述的方法。
根据本公开另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据上述任一项所述的方法。
(三)有益效果
从上述技术方案可以看出,本公开三元组信息抽取方法、装置、电子设备、及存储介质至少具有以下有益效果其中之一或其中一部分:
(1)提出一种结合语句语义信息特征和语句结构信息特征的编码方法,在提供必要的语义信息之外,基于图卷积神经网络额外增加了语句中词语之间的依赖关系信息,可以有效解决长难句子特别是实体对相距过远的长句子的三元组抽取问题;以及
(2)采用的先抽取语句中的头实体,然后根据关系抽取尾实体的三元组抽取方法,可以抽取出句子中的所有三元组,即使三元组之间共享头实体甚至全部实体,可以解决三元组重叠问题。
附图说明
图1为本公开实施例三元组信息抽取方法的方法流程图。
图2为本公开实施例三元组信息抽取方法的方法框架示意图。
图3为本公开实施例三元组信息抽取装置的框架示意图。
具体实施方式
本公开提供了一种三元组信息抽取方法、装置、电子设备、及存储介质,所述方法提出一种结合语句语义信息特征和语句结构信息特征的编码方法,在提供必要的语义信息之外,基于图卷积神经网络额外增加了语句中词语之间的依赖关系信息,可以有效解决长难句子特别是实体对相距过远的长句子的三元组抽取问题;采用的先抽取语句中的头实体,然后根据关系抽取尾实体的三元组抽取方法,可以抽取出句子中的所有三元组,即使三元组之间共享头实体甚至全部实体,可以解决三元组重叠问题。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
在本公开实施例中,提供一种三元组信息抽取方法,如图1至2所示,所述方法,包括:
对文本中原句子进行子词化分词,得到经过子词分割形成的分词句子;
将所述分词句子输入至预训练语言模型中以编码上下文语义信息,获得所述语义信息特征向量;
根据所述语义信息特征向量获取所述三元组信息的头实体;
对文本中原句子进行解析并构建依存关系树,获得依存关系树邻接矩阵;
对所述依存关系树邻接矩阵进行处理后,采用双向图卷积神经网络进行结构信息建模,获得结构信息特征向量;
联合所述语义信息特征向量和所述结构信息特征向量构建结合特征向量,通过结合特征向量获取三元组信息的尾实体,完成三元组信息的抽取。
在本公开实施例中,所述预训练语言模型包括多个训练块,所述多个训练块用于处理所述分词句子。
在本公开实施例中,所述根据所述语义信息特征向量获取三元组信息的头实体包括:
通过所述语义信息特征向量的语义信息对两个头实体线性分类器进行训练,所述两个头实体线性分类器分别能够查找所述分词句子中的头实体的开始位置和结束位置,进而得到所述三元组信息的头实体。
进一步地,通过所述语义信息特征向量的语义信息对两个头实体线性分类器进行训练,并反向传播至预训练语言模型进行微调。所述两个头实体线性分类器分别能够查找所述分词句子中的头实体的开始位置和结束位置,进而得到所述三元组信息的头实体。
在本公开实施例中,所述依存关系树邻接矩阵包括:
原依存关系树邻接矩阵,用于反映所述文本中句子的单词之间的依赖关系;
新依存关系树邻接矩阵,通过所述分词句子到所述原句子的映射得到映射表,并根据所述映射表重建所述原依存关系树邻接矩阵,进而得到新依存关系树邻接矩阵;所述新依存关系树邻接矩阵反映所述分词句子中子词之间的依赖关系。
在本公开实施例中,所述采用双向图卷积神经网络对所述依存关系树邻接矩阵进行处理后,采用双向图卷积神经网络进行结构信息建模,获得结构信息特征向量包括:
采用所述双向图卷积神经网络对获得的新依存关系树邻接矩阵进行结构信息建模,其中,所述双向图卷积神经网络具有多层神经网络,所述多层神经网络的各层神经网络能够分别对其各节点的出度和入度进行建模,得到出度特征向量与入度特征向量;对所述出度特征向量与所述入度特征向量进行串联,经过所述多层神经网络得到结构信息特征向量。
在本公开实施例中,所述通过结合特征向量获取三元组信息的尾实体包括:
通过结合特征向量的特征信息对两个尾实体线性分类器进行训练,所述两个尾实体线性分类器分别能够查找所述分词句子中的尾实体的开始位置和结束位置,进而得到所述三元组信息的尾实体,其中,经过反向传播也会微调预训练语言模型。
在本公开实施例中,所述尾实体线性分类器中通过头实体向量表示所述头实体。
具体地,为完成对具有三元组重叠问题和长难句子的复杂文本进行三元组抽取,本公开采用图卷积神经网络(GCN模型)与预训练语言模型(BERT模型)结合的方式,通过设计一种先抽取头实体,然后对每种关系判断该头实体是否存在对应尾实体的标签预测方法进行三元组抽取。
本公开针对复杂文本三元组抽取问题,提出一种既能够获取文本的上下文语义信息(预训练语言模型)又能够获取文本的长距离依赖关系结构信息(图卷积神经网络模型),结合两种重要信息后通过一种先头实体后尾实体的三元组抽取方法,可以综合句子的语义和结构两种重要信息,并解决三元组重叠问题。
综上所述,如图1所示,本公开所构建的三元组抽取方法包括三个步骤,(1)步骤1:首先使用WordPiece(分词)算法对句子进行子词化分词,然后使用BERT对分词之后的句子进行编码,获得句子语义信息特征向量,基于此特征向量抽取句子中的头实体;(2)步骤2:其次,通过CoreNLP(自然语言处理工具包)工具包获取句子的依存关系树,并将分词后获得的subword(子词),token(符号)与依存关系树建立映射关系,后将上一步获得的语义信息特征向量作为初始值向量,使用GCN训练依存结构树进而获得句子结构信息特征向量;(3)步骤3:最后,联合句子语义信息特征向量和句子结构信息特征向量构建句子结合特征向量,基于此,针对已抽取完成的头实体,对于每种关系从句子中抽取合适的尾实体,从而构建成三元组。
其中,token为符号,包括word,subowrd以及标点符号。在这个工作中,未经wordpiece算法处理之前,句子中的每个word和标点符号就是这个句子的每个token;在经过wordpiece算法处理之后,句子中的每个subword和标点符号就是句子中的每个token。他是一种统一的指代。作关系抽取主要可以看作是两部,第一步是识别句子中的实体对,第二步是判断实体对之间的关系。第一步识别实体对的过程就是在句子的所有token中查找是实体的token,所以实体也是token。但是实体在很多时候不只是由一个token组成的,他可能是跨越很多token的。特别是经过了wordpiece后得到subword token,此时一个实体通常都会包括了多个token。
本公开提出的三元组抽取方法的启发点和动机如下:相关研究证明,BERT预训练语言模型可以建模上下文语义信息,GCN模型能够很好地建模结构信息;对于复杂文本的三元组抽取,语义信息是必要的,而结构信息可以捕捉依存关系,能够抽取长句子特别是实体对相距过远的长句子中的三元组;先抽取所有头实体,然后根据关系抽取尾实体可以抽取出句子中所有三元组,即使三元组之间共享头实体甚至全部实体,所以可以解决三元组重叠问题。
基于语义信息特征向量抽取头实体:
对于一个长度为n的句子S={w1,w2,…,Wn},其中wt是句子S中的第t个单词,通过WordPiece算法对句子进行子词化分词,获得 其中/>是句子/>中的第t个子词token,原句子S中的每个单词均由子词化分词后的句子Ssw中的一个或多个子词构成。
将经过子词分割形成的句子Ssw输入到BERT预训练模型中以编码上下文语义信息,BERT预训练模型由一系列Transformer(深度自注意力网络)块构成,定义Transformer块的操作为Trans(x),则BERT的处理过程可以用如下公式来表示:
其中,Ws是子词表示矩阵,Wp是位置表示矩阵,其中p表示句子的位置索引,是隐层状态向量,即输入句子在第α层的上下文语义信息,N表示Transformer块的个数。
经过N层BERT预训练语言模型获得语义信息特征向量
然后通过训练两个线性分类器,分别查找句子中的头实体的开始位置和结束位置。分类器的分类过程可以分别表示为:
其中,和/>分别表示句子Ssw中第i个token是头实体的开始位置和结束位置的概率值,如果该值大于阈值则将该token的对应标签标为1,反之为0,xi是语义信息特征向量/>中的第i个token的语义信息表示,即/>W(.)和b(·)表示可训练权重矩阵和偏置量,Sigmoid为sigmoid激活函数。
因此给定句子语义表示X,通过优化如下似然函数来完成两个分类器的训练:
其中I{z}=a表示如果z与a相同则为真否则为假,表示句子X的标签,θ={Ws,We,bs,be}
基于GCN构建结构信息特征向量:
使用CoreNLP工具包对句子S进行解析,构建依存关系树,获得依存关系树邻接矩阵T。Tij∈{0,1}是邻接矩阵T的第i行第j列的元素,为1则反映wi与wj之间存在依赖关系,为0则反应wi与wj之间不存在依赖关系。
生成的依存关系树邻接矩阵反映的是原句子S中的单词之间的依赖关系,因此需要建立从Ssw到S的映射表M,并根据M重建依存关系树邻接矩阵T得到Tsw,从而反映子词之间的依赖关系。具体步骤为:
(1)生成Ssw到S的映射表M。对于S中的每一个单词wt,从开始查找位置在Ssw中查找wt的子串直到找到子串/>与wt的最后若干位字符匹配为止,并将位置j设定为开始查找位置,然后向映射表M中添加字典{t:(i,i+1,…,j)},重复上述步骤直到t=n。
(2)构建一个n行n列的零矩阵Tsm,对于邻接矩阵T中的每一个元素Tij,如果Tij=0,则不处理,如果Tij=1,则查找映射表M获得字典Mi={k,k+1,…,k+e}和Mj={l,l+1,…,l+e},设置和/>从而建立新邻接矩阵Tsw。上述步骤没有连接依赖词的所有子词,从而避免了信息冗余,保证依存结构树结构简单清晰。
使用双向GCN(Bi-GCN双向图卷积神经网络)对获得的新依存关系树邻接矩阵Tsm来结构信息建模,Bi-GCN分别对各节点的出度和入度建模,然后将建模得到的两个特征向量结合,具体操作可以表示为:
其中表示token x在第l层的隐式特征,/>表示token x出度GCN第l层的隐式特征,/>表示token x在入度GCN第l层的隐式特征,/>包含所有从token x指向的token,而/>包含所有指向token x的token,W和b分别是可训练的权重矩阵和偏置量,表示出度和入度GCN层中可训练的权重矩阵和偏置量,/>表示token v在第l层的意识特征,最后串联出度和入度特征向量得到该层的层特征向量,ReLU是线性整流激活函数。
经过M层Bi-GCN模型获得最终的结构信息特征向量
基于结合特征向量抽取三元组:
将训练获得的语义信息特征向量和结构信息特征向量/>串联,得到结合特征向量hcs,即:
其中表示串联操作,对于句子表示X,与识别头实体的步骤相似,同样训练两个线性分类器来分别查找尾实体的开始位置和结束位置,这两个线性分类器的分类过程可以表示为:
其中,和/>分别表示第i个token是输入句子尾实体的开始位置和结束位置的概率值,如果该值大于阈值则将该token的对应标签标为1,反之为0,xi是结合特征向量hcs中的第i个token的结合特征表示,即xi=hcs[i],Sigmoid为sigmoid激活函数,而/>表示在基于语义信息特征向量抽取头实体中识别的第k个头实体的向量表示。
特别地,作为头实体的向量表示,需要保持维度恒定,而头实体通常会跨越多个token,所以对头实体的开始位置的向量表示与结束位置向量表示取做平均池化,作为头实体的向量表示,过程为:
其中表示第k个头实体的开始位置的向量表示,/>表示第k个头实体的结束位置的向量表示,Average(·)为求平均函数。
因此给定句子语义表示X,对于头实体s和关系r,通过优化如下似然函数来完成两个分类器的训练:
其中,表示句子X的标签,比如第i个token是否是尾实体的开始位置或结束位置,所有参数/>
最后,联合基于语义信息特征向量抽取头实体和基于GCN构建结构信息特征向量的优化目标,使用如下目标函数,完成对三元组抽取的学习:
其中,参数Θ={θ,{φ}∈R},而pθ(s|x)和分别定义在基于语义信息特征向量抽取头实体和基于结合特征向量抽取三元组中。
通过Adam随机梯度下降最大化目标函数J(Θ)来训练模型,直到获得期望指标。
根据本公开另一方面,如图3所示,提供了一种文本三元组信息抽取装置,包括:
分词句子获取模块,用于对文本中原句子进行子词化分词,得到经过子词分割形成的分词句子;
第一向量获取模块,用于将所述分词句子输入至预训练语言模型中以编码上下文语义信息,获得所述语义信息特征向量;
头实体获取模块,用于根据所述语义信息特征向量获取三元组信息的头实体;
依存关系树获取模块,用于对文本中原句子进行解析并构建依存关系树,获得依存关系树邻接矩阵;
第二向量获取模块,用于对所述依存关系树邻接矩阵进行结处理后,采用双向图卷积神经网络进行构信息建模,获得结构信息特征向量;
尾实体获取模块,用于联合所述语义信息特征向量和所述结构信息特征向量构建结合特征向量,通过结合特征向量获取三元组信息的尾实体,完成三元组信息的抽取。
根据本公开另一方面,提供了一种电子设备,包括:
一个或多个处理器;以及
存储器,用于存储可执行指令,所述可执行指令在被所述一个或多个处理器执行时,使得所述电子设备执行根据上述中任一项所述的方法。
根据本公开另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据上述任一项所述的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
依据以上描述,本领域技术人员应当对本公开三元组信息抽取方法、装置、电子设备、及存储介质有了清楚的认识。
综上所述,本公开提供了一种三元组信息抽取方法、装置、电子设备、及存储介质,本公开使用BERT预训练语言模型和图卷积神经网络模型分别获得语句的上下文语义信息和词语依赖关系信息,结合两种特征可以抽取长难句子中包括实体对距离过远的三元组。本公开使用的三元组抽取方法会先抽取语句中的头实体,然后根据关系在语句中抽取合适的尾实体,可以直接解决三元组重叠问题问题。本方法适用的范围广,可以在大规模知识图谱构建、社交网络事件抽取等诸多任务中适用。
还需要说明的是,实施例中提到的方向用语,例如“上”、“下”、“前”、“后”、“左”、“右”等,仅是参考附图的方向,并非用来限制本公开的保护范围。贯穿附图,相同的元素由相同或相近的附图标记来表示。在可能导致对本公开的理解造成混淆时,将省略常规结构或构造。
并且图中各部件的形状和尺寸不反映真实大小和比例,而仅示意本公开实施例的内容。另外,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。
除非有所知名为相反之意,本说明书及所附权利要求中的数值参数是近似值,能够根据通过本公开的内容所得的所需特性改变。具体而言,所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字,应理解为在所有情况中是受到「约」的用语所修饰。一般情况下,其表达的含义是指包含由特定数量在一些实施例中±10%的变化、在一些实施例中±5%的变化、在一些实施例中±1%的变化、在一些实施例中±0.5%的变化。
再者,单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。
说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词,以修饰相应的元件,其本身并不意味着该元件有任何的序数,也不代表某一元件与另一元件的顺序、或是制造方法上的顺序,该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。
此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (8)
1.一种文本三元组信息抽取方法,包括:
对文本中原句子进行子词化分词,得到经过子词分割形成的分词句子;
将所述分词句子输入至预训练语言模型中以编码上下文语义信息,获得语义信息特征向量;
根据所述语义信息特征向量获取所述三元组信息的头实体;
对文本中原句子进行解析并构建依存关系树,获得依存关系树邻接矩阵,其中,所述依存关系树邻接矩阵包括:原依存关系树邻接矩阵,用于反映所述文本中句子的单词之间的依赖关系;新依存关系树邻接矩阵,通过所述分词句子到所述原句子的映射得到映射表,并根据所述映射表重建所述原依存关系树邻接矩阵,进而得到新依存关系树邻接矩阵;所述新依存关系树邻接矩阵反映所述分词句子中子词之间的依赖关系;
对所述依存关系树邻接矩阵进行处理后,采用双向图卷积神经网络进行结构信息建模,获得结构信息特征向量,其中,所述采用双向图卷积神经网络对所述依存关系树邻接矩阵进行结构信息建模,获得结构信息特征向量包括:采用所述双向图卷积神经网络对获得的新依存关系树邻接矩阵进行结构信息建模,其中,所述双向图卷积神经网络具有多层神经网络,所述多层神经网络的各层神经网络能够分别对其各节点的出度和入度进行建模,得到出度特征向量与入度特征向量;对所述出度特征向量与所述入度特征向量进行串联,经过所述多层神经网络得到结构信息特征向量;
联合所述语义信息特征向量和所述结构信息特征向量构建结合特征向量,通过结合特征向量获取三元组信息的尾实体,完成三元组信息的抽取。
2.根据权利要求1所述的文本三元组信息抽取方法,其中,所述预训练语言模型包括多个训练块,所述多个训练块用于处理所述分词句子。
3.根据权利要求1所述的文本三元组信息抽取方法,其中,所述根据所述语义信息特征向量获取三元组信息的头实体包括:
通过所述语义信息特征向量的语义信息对两个头实体线性分类器进行训练,所述两个头实体线性分类器分别能够查找所述分词句子中的头实体的开始位置和结束位置,进而得到所述三元组信息的头实体。
4.根据权利要求1所述的文本三元组信息抽取方法,其中,所述通过结合特征向量获取三元组信息的尾实体包括:
通过结合特征向量的特征信息对两个尾实体线性分类器进行训练,所述两个尾实体线性分类器分别能够查找所述分词句子中的尾实体的开始位置和结束位置,进而得到所述三元组信息的尾实体。
5.根据权利要求4所述的文本三元组信息抽取方法,其中,所述尾实体线性分类器中通过头实体向量表示所述头实体。
6.一种文本三元组信息抽取装置,包括:
分词句子获取模块,用于对文本中原句子进行子词化分词,得到经过子词分割形成的分词句子;
第一向量获取模块,用于将所述分词句子输入至预训练语言模型中以编码上下文语义信息,获得语义信息特征向量;
头实体获取模块,用于根据所述语义信息特征向量获取三元组信息的头实体;
依存关系树获取模块,用于对文本中原句子进行解析并构建依存关系树,获得依存关系树邻接矩阵,其中,所述依存关系树邻接矩阵包括:原依存关系树邻接矩阵,用于反映所述文本中句子的单词之间的依赖关系;新依存关系树邻接矩阵,通过所述分词句子到所述原句子的映射得到映射表,并根据所述映射表重建所述原依存关系树邻接矩阵,进而得到新依存关系树邻接矩阵;所述新依存关系树邻接矩阵反映所述分词句子中子词之间的依赖关系;
第二向量获取模块,用于对所述依存关系树邻接矩阵进行处理后,采用双向图卷积神经网络进行结构信息建模,获得结构信息特征向量,其中,所述采用双向图卷积神经网络对所述依存关系树邻接矩阵进行结构信息建模,获得结构信息特征向量包括:采用所述双向图卷积神经网络对获得的新依存关系树邻接矩阵进行结构信息建模,其中,所述双向图卷积神经网络具有多层神经网络,所述多层神经网络的各层神经网络能够分别对其各节点的出度和入度进行建模,得到出度特征向量与入度特征向量;对所述出度特征向量与所述入度特征向量进行串联,经过所述多层神经网络得到结构信息特征向量;
尾实体获取模块,用于联合所述语义信息特征向量和所述结构信息特征向量构建结合特征向量,通过结合特征向量获取三元组信息的尾实体,完成三元组信息的抽取。
7.一种电子设备,包括:
一个或多个处理器;以及
存储器,用于存储可执行指令,所述可执行指令在被所述一个或多个处理器执行时,使得所述电子设备执行根据权利要求1至5中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860911.1A CN113590784B (zh) | 2021-07-27 | 2021-07-27 | 三元组信息抽取方法、装置、电子设备、及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860911.1A CN113590784B (zh) | 2021-07-27 | 2021-07-27 | 三元组信息抽取方法、装置、电子设备、及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113590784A CN113590784A (zh) | 2021-11-02 |
CN113590784B true CN113590784B (zh) | 2024-05-24 |
Family
ID=78251460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110860911.1A Active CN113590784B (zh) | 2021-07-27 | 2021-07-27 | 三元组信息抽取方法、装置、电子设备、及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590784B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218931B (zh) * | 2021-11-04 | 2024-01-23 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备和可读存储介质 |
CN114091464B (zh) * | 2022-01-24 | 2022-04-29 | 南京万得资讯科技有限公司 | 一种融合五维特征的高普适性多对多关系三元组抽取方法 |
CN114663872A (zh) * | 2022-03-28 | 2022-06-24 | 上海易康源医疗健康科技有限公司 | 一种信息抽取系统、信息抽取方法 |
CN115168599B (zh) * | 2022-06-20 | 2023-06-20 | 北京百度网讯科技有限公司 | 多三元组抽取方法、装置、设备、介质及产品 |
CN114841151B (zh) * | 2022-07-04 | 2022-11-18 | 武汉纺织大学 | 基于分解-重组策略的医学文本实体关系联合抽取方法 |
CN115982392A (zh) * | 2023-03-21 | 2023-04-18 | 中国海洋大学 | 多重实体和关系抽取的关系图方法、装置、设备和介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
-
2021
- 2021-07-27 CN CN202110860911.1A patent/CN113590784B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
Non-Patent Citations (1)
Title |
---|
陈佳丽 ; 洪宇 ; 王捷 ; 张婧丽 ; 姚建民 ; .利用门控机制融合依存与语义信息的事件检测方法.中文信息学报.2020,(08),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113590784A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113590784B (zh) | 三元组信息抽取方法、装置、电子设备、及存储介质 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN112711948B (zh) | 一种中文句子的命名实体识别方法及装置 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN111414746B (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
CN112800239B (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
CN114077673A (zh) | 一种基于btbc模型的知识图谱构建方法 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN114091450A (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
US11494431B2 (en) | Generating accurate and natural captions for figures | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN117521659B (zh) | 基于语义增强预训练孪生网络的中文实体链接方法和系统 | |
CN112445862B (zh) | 物联网设备数据集构建方法、装置、电子设备和存储介质 | |
CN112287217B (zh) | 医学文献检索方法、装置、电子设备及存储介质 | |
CN114372454B (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
US20220318506A1 (en) | Method and apparatus for event extraction and extraction model training, device and medium | |
CN117725432A (zh) | 文本语义相似度对比方法、装置、设备及可读存储介质 | |
CN117407523A (zh) | 句子情感分析方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |