CN113626537A - 一种面向知识图谱构建的实体关系抽取方法及系统 - Google Patents
一种面向知识图谱构建的实体关系抽取方法及系统 Download PDFInfo
- Publication number
- CN113626537A CN113626537A CN202110765116.4A CN202110765116A CN113626537A CN 113626537 A CN113626537 A CN 113626537A CN 202110765116 A CN202110765116 A CN 202110765116A CN 113626537 A CN113626537 A CN 113626537A
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- output
- attention
- head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 27
- 238000010276 construction Methods 0.000 title claims description 11
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000008447 perception Effects 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 73
- 238000013528 artificial neural network Methods 0.000 claims description 48
- 230000007246 mechanism Effects 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 6
- 230000006872 improvement Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向知识图谱构建的实体关系抽取方法及系统,方法包括:数据预处理:对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式;上下文编码:对预处理之后的数据利用预先设计好的多头自注意力网络模型进行前向传播,计算序列的阶段性输出;实体关系分类:利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。本发明可以根据用户输入的文本抽取其中实体对的关系分类,充分利用文本中给出的实体对和它们的潜在类型,无需用户手动输入数据特征,能很方便的抽取出文本中实体对之间的语义关系。
Description
技术领域
本发明涉及一种面向知识图谱构建的实体关系抽取方法及系统,属于自然语言处理和数据挖掘的技术领域。
背景技术
知识图谱揭示了实体之间关系的语义网络,归纳和总结了世界的客观规律,可以大幅提升搜索引擎的搜索质量和用户体验。而实体关系抽取是一种利用人工智能领域的自然语言处理技术实现自动分析、内容挖掘和关系分类的技术,能够从非结构化文本中轻松的提取出关键的信息,为知识图谱的构建提供技术支持,是解决当前信息严重过剩问题的一种有效的辅助手段,能帮助人类更加快速、准确、全面的获取关键信息,在工业和商业方面都具有重要的实用意义。但是,当前应用在关系抽取领域的主流方法都基于神经网络模型,由于神经网络模型的不可解释性和黑盒等特性,最终得到的实体关系分类模型开始出现问题,例如:分类的准确性达不到工业要求或对源数据缺乏更有效的利用等问题。
如何解决实体关系分类过程中出现的准确性问题已经成为研究的焦点。目前采用的方法大多建立在基于递归神经网络和注意力机制的神经网络模型上,但是,注意力机制仍存在部分缺陷,在处理长文本时注意力会逐渐减弱,以及不能利用实体对的潜在类型特征。
针对如何对文本进行编码的问题,目前的处理方法大多是采用词嵌入技术,将文本映射到一个低维空间,但当同一个单词出现在不同的句子中时,它们所具有的含义却是不相同的。也就是说,仅仅通过词嵌入不能表示基于上下文的单词的隐性特征。
有鉴于此,确有必要提出一种面向知识图谱构建的实体关系抽取方法及系统,以解决上述问题。
发明内容
本发明所要解决的技术问题在于克服现有技术的不足,提供一种面向知识图谱构建的实体关系抽取方法及系统,基于该系统能够进行对文本中实体对之间的关系进行抽取和对结果的准确性进行验证。
为实现上述目的,本发明提供了一种面向知识图谱构建的实体关系抽取方法,主要包括以下步骤:
步骤A,数据预处理:对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式;
步骤B,上下文编码:对预处理之后的数据利用预先设计好的多头自注意力网络模型进行前向传播,计算序列的阶段性输出;
步骤C,实体关系分类:利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。
作为本发明的进一步改进,所述步骤A包括如下步骤:
步骤A01,将文本w中的每个单词wi作为系统的主要输入,采用词嵌入的方式对用户提交的数据文件进行编码,得到文本序列的词嵌入矩阵x,即xi表示序列中第i个单词的词嵌入向量;
步骤A02,将词嵌入矩阵x作为下一步步骤B中多头自注意力网络的输入。
作为本发明的进一步改进,所述步骤B包括如下步骤:
步骤B01,通过多头自注意力机制,从不同单词之间抽取出它们的相关性,从文本中学习到更丰富的语义信息和结构信息,用语义向量head表示,即headi表示序列中第i个单词的语义向量;
步骤B02,将语义向量head作为下一步步骤C中基于实体感知的注意力网络模型中的子网络,即双向长短期记忆神经网络的输入。
作为本发明的进一步改进,所述步骤B01具体为:
给定一个输入的词嵌入矩阵x,通过线性变换将其映射到Q(query)、K(key)、V(value),其中Q和K分别表示匹配和被匹配向量,V表示内容向量,即通过Q对K做匹配,得到一个局部注意力值,再通过这个值从V中抽取出上下文信息;对K和V的计算方式与Q的计算方式相同,以Q为例,其计算方式为:
Q=WQx+bQ
其中,是可学习的权重矩阵和偏置向量,dw表示词嵌入的维度,attention(Q,K,V)表示通过Q对K做匹配并从V中抽取出的上下文信息;在多头自注意力机制中,线性变换和标度点积分别被作用在不同的head上,表示每一个head关注文本中的不同部分;其计算方式为:
m=Wmhconcat(head1,head2,...,headh)
headh=attention(Qh,Kh,Vh)
其中,Qh、Kh、Vh分别从Q、K、V中分裂复制得到,表示第h个head应该关注的局部结构。
作为本发明的进一步改进,所述步骤C利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测,包括如下步骤:
步骤C01,利用长短期记忆神经网络,学习实体对的结构信息和长序列依赖;
步骤C02,将不同单词的上下文环境作为决定其重要性的决策信息,并使用门控机制的神经网络来学习隐藏依赖,针对特定单词获取更准确的语义信息;
步骤C03,实体的潜在类型本身作为模型推理分类的基准特征,将实体对和它们的潜在类型作为用于获取实体潜在类型的神经网络的辅助输入;
步骤C04,通过基于注意力机制的神经网络计算每一个时间步的上下文信息向量zt;
步骤C05,将基于注意力机制的神经网络的输出作为最后一层全连接神经网络的输入,通过softmax激活函数得到每个分类的条件概率Pi。
作为本发明的进一步改进,步骤C02具体为:
αi,j=softmax(hiWrhj)
其中,hi、hj分别是双向长短期记忆神经网络在第i和第j个时间步的输出,是可学习的权重矩阵,是偏置向量,n是隐藏层维度;控制着从每个时间步中可以获取到的信息量,即每个单词应该被施加的注意力,是第i个时间步的上下文输出。
作为本发明的进一步改进,步骤C03具体为:
首先求得每个实体各自的潜在类型tei,然后经过非线性变换求得隐含实体对潜在类型的文本向量e,具体为:
作为本发明的进一步改进,步骤C04具体为:
首先将单词的语义信息和实体对的潜在类型拼接,经过非线性变换后,通过基于注意力机制的神经网络求每个时间步的上下文向量zt,具体为:
其中,表示上下文输出,e表示隐含实体对潜在类型的文本向量,Wa和ba是可学习的权重矩阵和偏置向量;vt表示相关性向量v的第i个时间步;是第j个时间步的上下文输出,et,j表示中间变量,dn是词嵌入向量的维度,表示位置t处的单词对位置j处的单词的重要程度得分;zt表示每个时间步的上下文向量。
作为本发明的进一步改进,步骤C05具体为:
将上一层基于注意力机制的神经网络的输出作为最后一层全连接神经网络的输入,通过softmax激活函数得到每个分类的条件概率Pi,Pi=P(yi|w),具体为:
P(Y|w)=softmax(Wzz+bz)
其中,w表示系统的输入文本序列,Y表示所有分类,yi表示第i个分类,P(Y|w)是给定序列下所有分类的条件概率,则Pi=P(yi|w)表示给定序列下第i个分类的条件概率;是权重矩阵和偏置向量,z是所有时间步的上下文向量,r是所有的分类数量,n是隐藏层维度;是预测输出分类。
为实现上述目的,本发明还提出一种面向知识图谱构建的实体关系抽取系统,应用上述的任一项所述的方法,用于将目标用户提交的文本数据自动抽取其中实体对之间的分类,主要包括:
数据预处理模块,用于对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式;
上下文编码模块,用于对预处理之后的数据通过多头自注意力网络模型进行前向传播,计算序列的阶段性输出;
实体关系分类模块,用于利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的计算预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。
本发明的有益效果是:
本发明涉及的一种面向知识图谱构建的实体关系抽取方法及系统,一方面利用自然语言处理技术抽取文本中的实体对之间的语义关系,方便快速、准确的构建知识图谱系统;另一方面,通过强化的实体感知注意力网络和门控机制解决了关系抽取模型中输出分类和文本序列之间的映射关系,并解决了注意力机制无法有效处理长文本和结构信息以及不能有效利用文本中实体对的潜在类型特征的缺陷。
因此,本发明可以根据用户输入的文本抽取其中实体对的关系分类,充分利用文本中给出的实体对和它们的潜在类型。无需用户手动输入数据特征,能很方便的抽取出文本中实体对之间的语义关系。
附图说明
图1是本发明面向知识图谱构建的实体关系抽取系统的结构示意图。
图2是本发明面向知识图谱构建的实体关系抽取方法的流程图。
图3是本发明面向知识图谱构建的实体关系抽取系统的结构框图。
图4是本发明的图3中实体选择器的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明设计了一种面向知识图谱构建的实体关系抽取系统,该系统将文本作为输入,通过对数据进行预处理、转换以及推理,最终准确的抽取出文本中实体对之间的关系分类。
如图1所示,本发明涉及一种面向知识图谱构建的实体关系抽取系统,主要包括:
数据预处理模块,用于对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式;
上下文编码模块,用于对预处理之后的数据通过多头自注意力网络模型进行前向传播,计算序列的阶段性输出;
实体关系分类模块,用于利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的计算预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。
其中,基于实体感知的注意力网络模型包括作为子网络的双向长短期记忆神经网络、基于门控机制的神经网络、用于获取实体潜在类型的神经网络、基于注意力机制的神经网络和最后一层用于获取关系条件概率的全连接神经网络,其中所述基于门控机制的神经网络可以采用实体选择器网络。
如图2所示,根据上述系统,本发明还提出一种面向知识图谱构建的实体关系抽取方法,主要包括如下步骤:
步骤A,数据预处理:对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式,包括如下步骤:
步骤A01,将文本w中的每个单词wi作为系统的主要输入,采用词嵌入的方式对用户提交的数据文件进行编码,得到文本序列的词嵌入矩阵x,即xi表示序列中第i个单词的词嵌入向量。
为了能够快速的对文本数据进行向量化编码,增强该模型的可移植性,本发明首先在预处理阶段采用词嵌入的方式对用户提交的数据文件进行编码,并使用预训练模型Glove,通过结合矩阵分解方法和基于浅窗口方法的词嵌入模型的优点,可以尽可能的区分出两个单词之间的差异性。
步骤A02,将词嵌入矩阵x作为下一步步骤B中多头自注意力网络的输入。
步骤B,上下文编码:对预处理之后的数据利用预先设计好的多头自注意力网络模型进行前向传播,计算序列的阶段性输出,包括如下步骤:
步骤B01,通过多头自注意力机制,从不同单词之间抽取出它们的相关性,能够从文本中学习到更丰富的语义信息和结构信息,用语义向量head表示,即headi表示序列中第i个单词的语义向量。
所述步骤B01中,给定一个输入的词嵌入矩阵x,通过线性变换将其映射到Q(query)、K(key)、V(value),其中Q和K分别表示匹配和被匹配向量,V表示内容向量,即通过Q对K做匹配,得到一个局部注意力值,再通过这个值从V中抽取出上下文信息。对K和V的计算方式与Q的计算方式相同,以Q为例,其计算方式为:
Q=WQx+bQ
其中,是可学习的权重矩阵和偏置向量,dw表示词嵌入的维度,attention(Q,K,V)表示通过Q对K做匹配并从V中抽取出的上下文信息。在多头自注意力机制中,线性变换和标度点积分别被作用在不同的head上,表示每一个head关注文本中的不同部分(局部或整体结构)。其计算方式为:
m=Wmhconcat(head1,head2,...,headh)
headh=attention(Qh,Kh,Vh)
其中,Qh、Kh、Vh分别从Q、K、V中分裂复制得到,表示第h个head应该关注的局部结构。
步骤B02,将语义向量head作为下一步步骤C中基于实体感知的注意力网络模型中的子网络,即双向长短期记忆神经网络的输入。
步骤C,实体关系分类:利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。
所述基于实体感知的注意力网络模型包括作为子网络的双向长短期记忆神经网络、基于门控机制的神经网络、用于获取实体潜在类型的神经网络、基于注意力机制的神经网络和最后一层用于获取关系条件概率的全连接神经网络,其中所述基于门控机制的神经网络可以采用实体选择器网络。
如图1和图3所示,在关系分类模块中通过双向长短期记忆神经网络即LSTM网络来学习上下文的语义信息,通过基于门控机制的神经网络即实体选择器来决定单词之间的互相决策重要程度,通过基于注意力机制的神经网络来充分利用文本中的实体对和它们的潜在类型,包括具体步骤如下:
步骤C01,利用基于实体感知的注意力网络模型中的子网络即长短期记忆神经网络,学习实体对的结构信息和长序列依赖。
步骤C02,利用基于实体感知的注意力网络模型中的子网络即基于门控机制的神经网络,通过采用实体选择器网络,将不同单词的上下文环境作为决定其重要性的决策信息,并使用门控机制来学习隐藏依赖,针对特定单词获取更准确的语义信息,具体如下:
αi,j=softmax(hiWrhj)
其中,hi、hj分别是双向长短期记忆神经网络在第i和第j个时间步的输出,是可学习的权重矩阵,是偏置向量,n是隐藏层维度,即表示神经网络的前向传播过程中隐藏层的维度。控制着从每个时间步中可以获取到的信息量,即每个单词应该被施加的注意力,是第i个时间步的上下文输出。
步骤C03,实体的潜在类型本身就可以作为模型推理分类的基准特征,将实体对和它们的潜在类型作为用于获取实体潜在类型的神经网络的辅助输入,具体如下:
首先求得每个实体各自的潜在类型tei,然后经过非线性变换求得隐含实体对潜在类型的文本向量e,具体为:
步骤C04,通过基于注意力机制的神经网络计算每一个时间步的上下文信息向量zt,具体如下:
首先将单词的语义信息和实体对的潜在类型拼接,经过非线性变换后,通过基于注意力机制的神经网络求每个时间步的上下文向量zt,具体为:
其中,表示上下文输出,e表示隐含实体对潜在类型的文本向量;vt表示相关性向量v的第i个时间步,Wa和ba是可学习的权重矩阵和偏置向量;vt表示相关性向量v的第i个时间步;是第j个时间步的上下文输出,et,j表示中间变量,dn是词嵌入向量的维度,表示位置t处的单词对位置j处的单词的重要程度得分;zt表示每个时间步的上下文向量。
步骤C05,将基于注意力机制的神经网络的输出作为最后一层全连接神经网络的输入,通过softmax激活函数得到每个分类的条件概率Pi,Pi=P(yi|w),具体如下:
P(Y|w)=softmax(Wzz+bz)
其中,w表示系统的输入文本序列,Y表示所有分类,yi表示第i个分类,P(Y|w)是给定序列下所有分类的条件概率,则Pi=P(yi|w)表示给定序列下第i个分类的条件概率。是权重矩阵和偏置向量,z是所有时间步的上下文向量,r是所有的分类数量,n是隐藏层维度。是预测输出分类。
综上所述,本发明公开了一种面向知识图谱构建的实体关系抽取方法及系统,可以根据用户输入的文本抽取其中实体对的关系分类。设计了一种实体选择器来预先决定单词之间的互相决策重要程度,还设计了一种实体感知注意力网络来充分利用文本中给出的实体对和它们的潜在类型。整个过程基于端到端的处理方式,无需用户手动输入数据特征,能很方便的抽取出文本中实体对之间的语义关系。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种面向知识图谱构建的实体关系抽取方法,其特征在于,包括以下步骤:
步骤A,数据预处理:对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式;
步骤B,上下文编码:对预处理之后的数据利用预先设计好的多头自注意力网络模型进行前向传播,计算序列的阶段性输出;
步骤C,实体关系分类:利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。
2.根据权利要求1所述的面向知识图谱构建的实体关系抽取方法,其特征在于,所述步骤A包括如下步骤:
步骤A01,将文本w中的每个单词wi作为系统的主要输入,采用词嵌入的方式对用户提交的数据文件进行编码,得到文本序列的词嵌入矩阵x,即xi表示序列中第i个单词的词嵌入向量;
步骤A02,将词嵌入矩阵x作为下一步步骤B中多头自注意力网络的输入。
3.根据权利要求1所述的面向知识图谱构建的实体关系抽取方法,其特征在于,所述步骤B包括如下步骤:
步骤B01,通过多头自注意力机制,从不同单词之间抽取出它们的相关性,从文本中学习到更丰富的语义信息和结构信息,用语义向量head表示,即headi表示序列中第i个单词的语义向量;
步骤B02,将语义向量head作为下一步步骤C中基于实体感知的注意力网络模型中的子网络,即双向长短期记忆神经网络的输入。
4.根据权利要求3所述的面向知识图谱构建的实体关系抽取方法,其特征在于,所述步骤B01具体为:
给定一个输入的词嵌入矩阵x,通过线性变换将其映射到Q(query)、K(key)、V(value),其中Q和K分别表示匹配和被匹配向量,V表示内容向量,即通过Q对K做匹配,得到一个局部注意力值,再通过这个值从V中抽取出上下文信息;对K和V的计算方式与Q的计算方式相同,以Q为例,其计算方式为:
Q=WQx+bQ
其中,是可学习的权重矩阵和偏置向量,dw表示词嵌入的维度,attention(Q,K,V)表示通过Q对K做匹配并从V中抽取出的上下文信息;在多头自注意力机制中,线性变换和标度点积分别被作用在不同的head上,表示每一个head关注文本中的不同部分;其计算方式为:
m=Wmhconcat(head1,head2,...,headh)
headh=attention(Qh,Kh,Vh)
其中,Qh、Kh、Vh分别从Q、K、V中分裂复制得到,表示第h个head应该关注的局部结构。
5.根据权利要求1所述的面向知识图谱构建的实体关系抽取方法,其特征在于,所述步骤C利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测,包括如下步骤:
步骤C01,利用长短期记忆神经网络,学习实体对的结构信息和长序列依赖;
步骤C02,将不同单词的上下文环境作为决定其重要性的决策信息,并使用门控机制的神经网络来学习隐藏依赖,针对特定单词获取更准确的语义信息;
步骤C03,实体的潜在类型本身作为模型推理分类的基准特征,将实体对和它们的潜在类型作为用于获取实体潜在类型的神经网络的辅助输入;
步骤C04,通过基于注意力机制的神经网络计算每一个时间步的上下文信息向量zt;
步骤C05,将基于注意力机制的神经网络的输出作为最后一层全连接神经网络的输入,通过softmax激活函数得到每个分类的条件概率Pi。
10.一种面向知识图谱构建的实体关系抽取系统,应用权利要求1-9中任一项所述的方法,包括:
数据预处理模块,用于对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式;
上下文编码模块,用于对预处理之后的数据通过多头自注意力网络模型进行前向传播,计算序列的阶段性输出;
实体关系分类模块,用于利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的计算预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110765116.4A CN113626537B (zh) | 2021-07-06 | 2021-07-06 | 一种面向知识图谱构建的实体关系抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110765116.4A CN113626537B (zh) | 2021-07-06 | 2021-07-06 | 一种面向知识图谱构建的实体关系抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626537A true CN113626537A (zh) | 2021-11-09 |
CN113626537B CN113626537B (zh) | 2023-10-17 |
Family
ID=78379151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110765116.4A Active CN113626537B (zh) | 2021-07-06 | 2021-07-06 | 一种面向知识图谱构建的实体关系抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626537B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881038A (zh) * | 2022-07-12 | 2022-08-09 | 之江实验室 | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417092A (zh) * | 2020-11-11 | 2021-02-26 | 南京邮电大学 | 基于深度学习的智能化文本自动生成系统及其实现方法 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN112800776A (zh) * | 2021-03-10 | 2021-05-14 | 湖北工业大学 | 双向gru关系抽取数据处理方法、系统、终端、介质 |
KR20210063876A (ko) * | 2019-11-25 | 2021-06-02 | 주식회사 데이터마케팅코리아 | 지식 그래프 및 국가별 음역 전환 기반 신조어 정보 서비스 제공 방법 및 그 장치 |
-
2021
- 2021-07-06 CN CN202110765116.4A patent/CN113626537B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
KR20210063876A (ko) * | 2019-11-25 | 2021-06-02 | 주식회사 데이터마케팅코리아 | 지식 그래프 및 국가별 음역 전환 기반 신조어 정보 서비스 제공 방법 및 그 장치 |
CN112417092A (zh) * | 2020-11-11 | 2021-02-26 | 南京邮电大学 | 基于深度学习的智能化文本自动生成系统及其实现方法 |
CN112800776A (zh) * | 2021-03-10 | 2021-05-14 | 湖北工业大学 | 双向gru关系抽取数据处理方法、系统、终端、介质 |
Non-Patent Citations (1)
Title |
---|
夏鹤珑;严丹丹;: "基于多头注意力机制的人物关系抽取方法", 成都工业学院学报, no. 01 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881038A (zh) * | 2022-07-12 | 2022-08-09 | 之江实验室 | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 |
CN114881038B (zh) * | 2022-07-12 | 2022-11-11 | 之江实验室 | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113626537B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN113656570B (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN111553479B (zh) | 一种模型蒸馏方法、文本检索方法及装置 | |
CN110647619A (zh) | 一种基于问题生成和卷积神经网络的常识问答方法 | |
CN110909736B (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN111460824B (zh) | 一种基于对抗迁移学习的无标注命名实体识别方法 | |
CN110287323A (zh) | 一种面向目标的情感分类方法 | |
CN113204633B (zh) | 一种语义匹配蒸馏方法及装置 | |
CN112001166A (zh) | 面向政务咨询服务的智能问答句子对语义匹配方法和装置 | |
CN114841151B (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
US20230289528A1 (en) | Method for constructing sentiment classification model based on metaphor identification | |
CN115062727B (zh) | 一种基于多阶超图卷积网络的图节点分类方法及系统 | |
CN113988079A (zh) | 一种面向低数据的动态增强多跳文本阅读识别处理方法 | |
CN114925687B (zh) | 一种基于动态词向量表征的中文作文评分方法及系统 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN114356990A (zh) | 基于迁移学习的基地命名实体识别系统及方法 | |
CN113626537B (zh) | 一种面向知识图谱构建的实体关系抽取方法及系统 | |
CN111507103B (zh) | 一种利用部分标注集的自训练神经网络分词模型 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN113792550B (zh) | 预测答案的确定方法及装置、阅读理解方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |