CN113626537A - 一种面向知识图谱构建的实体关系抽取方法及系统 - Google Patents

一种面向知识图谱构建的实体关系抽取方法及系统 Download PDF

Info

Publication number
CN113626537A
CN113626537A CN202110765116.4A CN202110765116A CN113626537A CN 113626537 A CN113626537 A CN 113626537A CN 202110765116 A CN202110765116 A CN 202110765116A CN 113626537 A CN113626537 A CN 113626537A
Authority
CN
China
Prior art keywords
entity
vector
output
attention
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110765116.4A
Other languages
English (en)
Other versions
CN113626537B (zh
Inventor
徐小龙
丁海杰
段卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110765116.4A priority Critical patent/CN113626537B/zh
Publication of CN113626537A publication Critical patent/CN113626537A/zh
Application granted granted Critical
Publication of CN113626537B publication Critical patent/CN113626537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向知识图谱构建的实体关系抽取方法及系统,方法包括:数据预处理:对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式;上下文编码:对预处理之后的数据利用预先设计好的多头自注意力网络模型进行前向传播,计算序列的阶段性输出;实体关系分类:利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。本发明可以根据用户输入的文本抽取其中实体对的关系分类,充分利用文本中给出的实体对和它们的潜在类型,无需用户手动输入数据特征,能很方便的抽取出文本中实体对之间的语义关系。

Description

一种面向知识图谱构建的实体关系抽取方法及系统
技术领域
本发明涉及一种面向知识图谱构建的实体关系抽取方法及系统,属于自然语言处理和数据挖掘的技术领域。
背景技术
知识图谱揭示了实体之间关系的语义网络,归纳和总结了世界的客观规律,可以大幅提升搜索引擎的搜索质量和用户体验。而实体关系抽取是一种利用人工智能领域的自然语言处理技术实现自动分析、内容挖掘和关系分类的技术,能够从非结构化文本中轻松的提取出关键的信息,为知识图谱的构建提供技术支持,是解决当前信息严重过剩问题的一种有效的辅助手段,能帮助人类更加快速、准确、全面的获取关键信息,在工业和商业方面都具有重要的实用意义。但是,当前应用在关系抽取领域的主流方法都基于神经网络模型,由于神经网络模型的不可解释性和黑盒等特性,最终得到的实体关系分类模型开始出现问题,例如:分类的准确性达不到工业要求或对源数据缺乏更有效的利用等问题。
如何解决实体关系分类过程中出现的准确性问题已经成为研究的焦点。目前采用的方法大多建立在基于递归神经网络和注意力机制的神经网络模型上,但是,注意力机制仍存在部分缺陷,在处理长文本时注意力会逐渐减弱,以及不能利用实体对的潜在类型特征。
针对如何对文本进行编码的问题,目前的处理方法大多是采用词嵌入技术,将文本映射到一个低维空间,但当同一个单词出现在不同的句子中时,它们所具有的含义却是不相同的。也就是说,仅仅通过词嵌入不能表示基于上下文的单词的隐性特征。
有鉴于此,确有必要提出一种面向知识图谱构建的实体关系抽取方法及系统,以解决上述问题。
发明内容
本发明所要解决的技术问题在于克服现有技术的不足,提供一种面向知识图谱构建的实体关系抽取方法及系统,基于该系统能够进行对文本中实体对之间的关系进行抽取和对结果的准确性进行验证。
为实现上述目的,本发明提供了一种面向知识图谱构建的实体关系抽取方法,主要包括以下步骤:
步骤A,数据预处理:对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式;
步骤B,上下文编码:对预处理之后的数据利用预先设计好的多头自注意力网络模型进行前向传播,计算序列的阶段性输出;
步骤C,实体关系分类:利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。
作为本发明的进一步改进,所述步骤A包括如下步骤:
步骤A01,将文本w中的每个单词wi作为系统的主要输入,采用词嵌入的方式对用户提交的数据文件进行编码,得到文本序列的词嵌入矩阵x,即xi表示序列中第i个单词的词嵌入向量;
步骤A02,将词嵌入矩阵x作为下一步步骤B中多头自注意力网络的输入。
作为本发明的进一步改进,所述步骤B包括如下步骤:
步骤B01,通过多头自注意力机制,从不同单词之间抽取出它们的相关性,从文本中学习到更丰富的语义信息和结构信息,用语义向量head表示,即headi表示序列中第i个单词的语义向量;
步骤B02,将语义向量head作为下一步步骤C中基于实体感知的注意力网络模型中的子网络,即双向长短期记忆神经网络的输入。
作为本发明的进一步改进,所述步骤B01具体为:
给定一个输入的词嵌入矩阵x,通过线性变换将其映射到Q(query)、K(key)、V(value),其中Q和K分别表示匹配和被匹配向量,V表示内容向量,即通过Q对K做匹配,得到一个局部注意力值,再通过这个值从V中抽取出上下文信息;对K和V的计算方式与Q的计算方式相同,以Q为例,其计算方式为:
Q=WQx+bQ
Figure BDA0003149751220000031
其中,
Figure BDA0003149751220000032
是可学习的权重矩阵和偏置向量,dw表示词嵌入的维度,attention(Q,K,V)表示通过Q对K做匹配并从V中抽取出的上下文信息;在多头自注意力机制中,线性变换和标度点积分别被作用在不同的head上,表示每一个head关注文本中的不同部分;其计算方式为:
m=Wmhconcat(head1,head2,...,headh)
其中,
Figure BDA0003149751220000033
是可学习的权重矩阵,h表示head的个数,concat表示向量拼接,headh表示第h个head的注意力向量,而headh的计算方式为:
headh=attention(Qh,Kh,Vh)
其中,Qh、Kh、Vh分别从Q、K、V中分裂复制得到,表示第h个head应该关注的局部结构。
作为本发明的进一步改进,所述步骤C利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测,包括如下步骤:
步骤C01,利用长短期记忆神经网络,学习实体对的结构信息和长序列依赖;
步骤C02,将不同单词的上下文环境作为决定其重要性的决策信息,并使用门控机制的神经网络来学习隐藏依赖,针对特定单词获取更准确的语义信息;
步骤C03,实体的潜在类型本身作为模型推理分类的基准特征,将实体对和它们的潜在类型作为用于获取实体潜在类型的神经网络的辅助输入;
步骤C04,通过基于注意力机制的神经网络计算每一个时间步的上下文信息向量zt
步骤C05,将基于注意力机制的神经网络的输出作为最后一层全连接神经网络的输入,通过softmax激活函数得到每个分类的条件概率Pi
作为本发明的进一步改进,步骤C02具体为:
首先计算位置i处的单词对位置j处的单词的重要程度得分αi,j,然后用αi,j来求所有单词的依赖向量di,接着通过门控机制来获取新的上下文输出
Figure BDA0003149751220000041
具体为:
αi,j=softmax(hiWrhj)
Figure BDA0003149751220000042
Figure BDA0003149751220000043
Figure BDA0003149751220000044
其中,hi、hj分别是双向长短期记忆神经网络在第i和第j个时间步的输出,
Figure BDA0003149751220000045
是可学习的权重矩阵,
Figure BDA0003149751220000046
是偏置向量,n是隐藏层维度;
Figure BDA0003149751220000047
控制着从每个时间步中可以获取到的信息量,即每个单词应该被施加的注意力,
Figure BDA0003149751220000048
是第i个时间步的上下文输出。
作为本发明的进一步改进,步骤C03具体为:
首先求得每个实体各自的潜在类型tei,然后经过非线性变换求得隐含实体对潜在类型的文本向量e,具体为:
Figure BDA0003149751220000049
Figure BDA00031497512200000410
其中
Figure BDA00031497512200000411
是实体ei的隐藏状态向量,
Figure BDA00031497512200000412
Figure BDA00031497512200000413
是权重矩阵,
Figure BDA0003149751220000051
是偏置向量,lt是潜在类型的数量,n是隐藏层维度,concat表示向量拼接。
作为本发明的进一步改进,步骤C04具体为:
首先将单词的语义信息和实体对的潜在类型拼接,经过非线性变换后,通过基于注意力机制的神经网络求每个时间步的上下文向量zt,具体为:
Figure BDA0003149751220000052
Figure BDA0003149751220000053
Figure BDA0003149751220000054
Figure BDA0003149751220000055
其中,
Figure BDA0003149751220000056
表示上下文输出,e表示隐含实体对潜在类型的文本向量,Wa和ba是可学习的权重矩阵和偏置向量;vt表示相关性向量v的第i个时间步;
Figure BDA0003149751220000057
是第j个时间步的上下文输出,et,j表示中间变量,dn是词嵌入向量的维度,
Figure BDA0003149751220000058
表示位置t处的单词对位置j处的单词的重要程度得分;zt表示每个时间步的上下文向量。
作为本发明的进一步改进,步骤C05具体为:
将上一层基于注意力机制的神经网络的输出作为最后一层全连接神经网络的输入,通过softmax激活函数得到每个分类的条件概率Pi,Pi=P(yi|w),具体为:
P(Y|w)=softmax(Wzz+bz)
Figure BDA0003149751220000059
其中,w表示系统的输入文本序列,Y表示所有分类,yi表示第i个分类,P(Y|w)是给定序列下所有分类的条件概率,则Pi=P(yi|w)表示给定序列下第i个分类的条件概率;
Figure BDA00031497512200000510
是权重矩阵和偏置向量,z是所有时间步的上下文向量,r是所有的分类数量,n是隐藏层维度;
Figure BDA0003149751220000061
是预测输出分类。
为实现上述目的,本发明还提出一种面向知识图谱构建的实体关系抽取系统,应用上述的任一项所述的方法,用于将目标用户提交的文本数据自动抽取其中实体对之间的分类,主要包括:
数据预处理模块,用于对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式;
上下文编码模块,用于对预处理之后的数据通过多头自注意力网络模型进行前向传播,计算序列的阶段性输出;
实体关系分类模块,用于利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的计算预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。
本发明的有益效果是:
本发明涉及的一种面向知识图谱构建的实体关系抽取方法及系统,一方面利用自然语言处理技术抽取文本中的实体对之间的语义关系,方便快速、准确的构建知识图谱系统;另一方面,通过强化的实体感知注意力网络和门控机制解决了关系抽取模型中输出分类和文本序列之间的映射关系,并解决了注意力机制无法有效处理长文本和结构信息以及不能有效利用文本中实体对的潜在类型特征的缺陷。
因此,本发明可以根据用户输入的文本抽取其中实体对的关系分类,充分利用文本中给出的实体对和它们的潜在类型。无需用户手动输入数据特征,能很方便的抽取出文本中实体对之间的语义关系。
附图说明
图1是本发明面向知识图谱构建的实体关系抽取系统的结构示意图。
图2是本发明面向知识图谱构建的实体关系抽取方法的流程图。
图3是本发明面向知识图谱构建的实体关系抽取系统的结构框图。
图4是本发明的图3中实体选择器的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明设计了一种面向知识图谱构建的实体关系抽取系统,该系统将文本作为输入,通过对数据进行预处理、转换以及推理,最终准确的抽取出文本中实体对之间的关系分类。
如图1所示,本发明涉及一种面向知识图谱构建的实体关系抽取系统,主要包括:
数据预处理模块,用于对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式;
上下文编码模块,用于对预处理之后的数据通过多头自注意力网络模型进行前向传播,计算序列的阶段性输出;
实体关系分类模块,用于利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的计算预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。
其中,基于实体感知的注意力网络模型包括作为子网络的双向长短期记忆神经网络、基于门控机制的神经网络、用于获取实体潜在类型的神经网络、基于注意力机制的神经网络和最后一层用于获取关系条件概率的全连接神经网络,其中所述基于门控机制的神经网络可以采用实体选择器网络。
如图2所示,根据上述系统,本发明还提出一种面向知识图谱构建的实体关系抽取方法,主要包括如下步骤:
步骤A,数据预处理:对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式,包括如下步骤:
步骤A01,将文本w中的每个单词wi作为系统的主要输入,采用词嵌入的方式对用户提交的数据文件进行编码,得到文本序列的词嵌入矩阵x,即xi表示序列中第i个单词的词嵌入向量。
为了能够快速的对文本数据进行向量化编码,增强该模型的可移植性,本发明首先在预处理阶段采用词嵌入的方式对用户提交的数据文件进行编码,并使用预训练模型Glove,通过结合矩阵分解方法和基于浅窗口方法的词嵌入模型的优点,可以尽可能的区分出两个单词之间的差异性。
步骤A02,将词嵌入矩阵x作为下一步步骤B中多头自注意力网络的输入。
步骤B,上下文编码:对预处理之后的数据利用预先设计好的多头自注意力网络模型进行前向传播,计算序列的阶段性输出,包括如下步骤:
步骤B01,通过多头自注意力机制,从不同单词之间抽取出它们的相关性,能够从文本中学习到更丰富的语义信息和结构信息,用语义向量head表示,即headi表示序列中第i个单词的语义向量。
所述步骤B01中,给定一个输入的词嵌入矩阵x,通过线性变换将其映射到Q(query)、K(key)、V(value),其中Q和K分别表示匹配和被匹配向量,V表示内容向量,即通过Q对K做匹配,得到一个局部注意力值,再通过这个值从V中抽取出上下文信息。对K和V的计算方式与Q的计算方式相同,以Q为例,其计算方式为:
Q=WQx+bQ
Figure BDA0003149751220000081
其中,
Figure BDA0003149751220000082
是可学习的权重矩阵和偏置向量,dw表示词嵌入的维度,attention(Q,K,V)表示通过Q对K做匹配并从V中抽取出的上下文信息。在多头自注意力机制中,线性变换和标度点积分别被作用在不同的head上,表示每一个head关注文本中的不同部分(局部或整体结构)。其计算方式为:
m=Wmhconcat(head1,head2,...,headh)
其中,
Figure BDA0003149751220000091
是可学习的权重矩阵,h表示head的个数,concat表示向量拼接,headh表示第h个head的注意力向量,而headh的计算方式为:
headh=attention(Qh,Kh,Vh)
其中,Qh、Kh、Vh分别从Q、K、V中分裂复制得到,表示第h个head应该关注的局部结构。
步骤B02,将语义向量head作为下一步步骤C中基于实体感知的注意力网络模型中的子网络,即双向长短期记忆神经网络的输入。
步骤C,实体关系分类:利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。
所述基于实体感知的注意力网络模型包括作为子网络的双向长短期记忆神经网络、基于门控机制的神经网络、用于获取实体潜在类型的神经网络、基于注意力机制的神经网络和最后一层用于获取关系条件概率的全连接神经网络,其中所述基于门控机制的神经网络可以采用实体选择器网络。
如图1和图3所示,在关系分类模块中通过双向长短期记忆神经网络即LSTM网络来学习上下文的语义信息,通过基于门控机制的神经网络即实体选择器来决定单词之间的互相决策重要程度,通过基于注意力机制的神经网络来充分利用文本中的实体对和它们的潜在类型,包括具体步骤如下:
步骤C01,利用基于实体感知的注意力网络模型中的子网络即长短期记忆神经网络,学习实体对的结构信息和长序列依赖。
步骤C02,利用基于实体感知的注意力网络模型中的子网络即基于门控机制的神经网络,通过采用实体选择器网络,将不同单词的上下文环境作为决定其重要性的决策信息,并使用门控机制来学习隐藏依赖,针对特定单词获取更准确的语义信息,具体如下:
首先计算位置i处的单词对位置j处的单词的重要程度得分αi,j,然后用αi,j来求所有单词的依赖向量di,接着通过门控机制来获取新的上下文输出
Figure BDA0003149751220000101
具体如下:
αi,j=softmax(hiWrhj)
Figure BDA0003149751220000102
Figure BDA0003149751220000103
Figure BDA0003149751220000104
其中,hi、hj分别是双向长短期记忆神经网络在第i和第j个时间步的输出,
Figure BDA0003149751220000105
是可学习的权重矩阵,
Figure BDA0003149751220000106
是偏置向量,n是隐藏层维度,即表示神经网络的前向传播过程中隐藏层的维度。
Figure BDA0003149751220000107
控制着从每个时间步中可以获取到的信息量,即每个单词应该被施加的注意力,
Figure BDA0003149751220000108
是第i个时间步的上下文输出。
步骤C03,实体的潜在类型本身就可以作为模型推理分类的基准特征,将实体对和它们的潜在类型作为用于获取实体潜在类型的神经网络的辅助输入,具体如下:
首先求得每个实体各自的潜在类型tei,然后经过非线性变换求得隐含实体对潜在类型的文本向量e,具体为:
Figure BDA0003149751220000111
Figure BDA0003149751220000112
其中
Figure BDA0003149751220000113
是实体ei的隐藏状态向量,
Figure BDA0003149751220000114
Figure BDA0003149751220000115
Figure BDA0003149751220000116
是权重矩阵和偏置向量,lt是潜在类型的数量,n是隐藏层维度,concat表示向量拼接。
步骤C04,通过基于注意力机制的神经网络计算每一个时间步的上下文信息向量zt,具体如下:
首先将单词的语义信息和实体对的潜在类型拼接,经过非线性变换后,通过基于注意力机制的神经网络求每个时间步的上下文向量zt,具体为:
Figure BDA0003149751220000117
Figure BDA0003149751220000118
Figure BDA0003149751220000119
Figure BDA00031497512200001110
其中,
Figure BDA00031497512200001111
表示上下文输出,e表示隐含实体对潜在类型的文本向量;vt表示相关性向量v的第i个时间步,Wa和ba是可学习的权重矩阵和偏置向量;vt表示相关性向量v的第i个时间步;
Figure BDA00031497512200001112
是第j个时间步的上下文输出,et,j表示中间变量,dn是词嵌入向量的维度,
Figure BDA00031497512200001113
表示位置t处的单词对位置j处的单词的重要程度得分;zt表示每个时间步的上下文向量。
步骤C05,将基于注意力机制的神经网络的输出作为最后一层全连接神经网络的输入,通过softmax激活函数得到每个分类的条件概率Pi,Pi=P(yi|w),具体如下:
P(Y|w)=softmax(Wzz+bz)
Figure BDA0003149751220000121
其中,w表示系统的输入文本序列,Y表示所有分类,yi表示第i个分类,P(Y|w)是给定序列下所有分类的条件概率,则Pi=P(yi|w)表示给定序列下第i个分类的条件概率。
Figure BDA0003149751220000122
是权重矩阵和偏置向量,z是所有时间步的上下文向量,r是所有的分类数量,n是隐藏层维度。
Figure BDA0003149751220000123
是预测输出分类。
综上所述,本发明公开了一种面向知识图谱构建的实体关系抽取方法及系统,可以根据用户输入的文本抽取其中实体对的关系分类。设计了一种实体选择器来预先决定单词之间的互相决策重要程度,还设计了一种实体感知注意力网络来充分利用文本中给出的实体对和它们的潜在类型。整个过程基于端到端的处理方式,无需用户手动输入数据特征,能很方便的抽取出文本中实体对之间的语义关系。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种面向知识图谱构建的实体关系抽取方法,其特征在于,包括以下步骤:
步骤A,数据预处理:对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式;
步骤B,上下文编码:对预处理之后的数据利用预先设计好的多头自注意力网络模型进行前向传播,计算序列的阶段性输出;
步骤C,实体关系分类:利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。
2.根据权利要求1所述的面向知识图谱构建的实体关系抽取方法,其特征在于,所述步骤A包括如下步骤:
步骤A01,将文本w中的每个单词wi作为系统的主要输入,采用词嵌入的方式对用户提交的数据文件进行编码,得到文本序列的词嵌入矩阵x,即xi表示序列中第i个单词的词嵌入向量;
步骤A02,将词嵌入矩阵x作为下一步步骤B中多头自注意力网络的输入。
3.根据权利要求1所述的面向知识图谱构建的实体关系抽取方法,其特征在于,所述步骤B包括如下步骤:
步骤B01,通过多头自注意力机制,从不同单词之间抽取出它们的相关性,从文本中学习到更丰富的语义信息和结构信息,用语义向量head表示,即headi表示序列中第i个单词的语义向量;
步骤B02,将语义向量head作为下一步步骤C中基于实体感知的注意力网络模型中的子网络,即双向长短期记忆神经网络的输入。
4.根据权利要求3所述的面向知识图谱构建的实体关系抽取方法,其特征在于,所述步骤B01具体为:
给定一个输入的词嵌入矩阵x,通过线性变换将其映射到Q(query)、K(key)、V(value),其中Q和K分别表示匹配和被匹配向量,V表示内容向量,即通过Q对K做匹配,得到一个局部注意力值,再通过这个值从V中抽取出上下文信息;对K和V的计算方式与Q的计算方式相同,以Q为例,其计算方式为:
Q=WQx+bQ
Figure FDA0003149751210000021
其中,
Figure FDA0003149751210000022
是可学习的权重矩阵和偏置向量,dw表示词嵌入的维度,attention(Q,K,V)表示通过Q对K做匹配并从V中抽取出的上下文信息;在多头自注意力机制中,线性变换和标度点积分别被作用在不同的head上,表示每一个head关注文本中的不同部分;其计算方式为:
m=Wmhconcat(head1,head2,...,headh)
其中,
Figure FDA0003149751210000023
是可学习的权重矩阵,h表示head的个数,concat表示向量拼接,headh表示第h个head的注意力向量,而headh的计算方式为:
headh=attention(Qh,Kh,Vh)
其中,Qh、Kh、Vh分别从Q、K、V中分裂复制得到,表示第h个head应该关注的局部结构。
5.根据权利要求1所述的面向知识图谱构建的实体关系抽取方法,其特征在于,所述步骤C利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测,包括如下步骤:
步骤C01,利用长短期记忆神经网络,学习实体对的结构信息和长序列依赖;
步骤C02,将不同单词的上下文环境作为决定其重要性的决策信息,并使用门控机制的神经网络来学习隐藏依赖,针对特定单词获取更准确的语义信息;
步骤C03,实体的潜在类型本身作为模型推理分类的基准特征,将实体对和它们的潜在类型作为用于获取实体潜在类型的神经网络的辅助输入;
步骤C04,通过基于注意力机制的神经网络计算每一个时间步的上下文信息向量zt
步骤C05,将基于注意力机制的神经网络的输出作为最后一层全连接神经网络的输入,通过softmax激活函数得到每个分类的条件概率Pi
6.根据权利要求5所述的面向知识图谱构建的实体关系抽取方法,其特征在于,步骤C02具体为:
首先计算位置i处的单词对位置j处的单词的重要程度得分αi,j,然后用αi,j来求所有单词的依赖向量di,接着通过门控机制来获取新的上下文输出
Figure FDA00031497512100000310
具体为:
αi,j=softmax(hiWrhj)
Figure FDA0003149751210000031
Figure FDA0003149751210000032
Figure FDA0003149751210000033
其中,hi、hj分别是双向长短期记忆神经网络在第i和第j个时间步的输出,
Figure FDA0003149751210000034
是可学习的权重矩阵,
Figure FDA0003149751210000035
是偏置向量,n是隐藏层维度;
Figure FDA0003149751210000036
控制着从每个时间步中可以获取到的信息量,即每个单词应该被施加的注意力,
Figure FDA0003149751210000037
是第i个时间步的上下文输出。
7.根据权利要求5所述的面向知识图谱构建的实体关系抽取方法,其特征在于,步骤C03具体为:
首先求得每个实体各自的潜在类型tei,然后经过非线性变换求得隐含实体对潜在类型的文本向量e,具体为:
Figure FDA0003149751210000038
Figure FDA0003149751210000039
其中
Figure FDA0003149751210000041
是实体ei的隐藏状态向量,
Figure FDA0003149751210000042
Figure FDA0003149751210000043
是权重矩阵,
Figure FDA0003149751210000044
是偏置向量,lt是潜在类型的数量,n是隐藏层维度,concat表示向量拼接。
8.根据权利要求5所述的面向知识图谱构建的实体关系抽取方法,其特征在于,步骤C04具体为:
首先将单词的语义信息和实体对的潜在类型拼接,经过非线性变换后,通过基于注意力机制的神经网络求每个时间步的上下文向量zt,具体为:
Figure FDA0003149751210000045
Figure FDA0003149751210000046
Figure FDA0003149751210000047
Figure FDA0003149751210000048
其中,
Figure FDA0003149751210000049
彖示上下文输出,e表示隐含实体对潜在类型的文本向量,Wa和ba是可学习的权重矩阵和偏置向量;vt表示相关性向量v的第i个时间步;
Figure FDA00031497512100000410
是第j个时间步的上下文输出,et,j表示中间变量,dn是词嵌入向量的维度,
Figure FDA00031497512100000411
表示位置t处的单词对位置j处的单词的重要程度得分;zt表示每个时间步的上下文向量。
9.根据权利要求5所述的面向知识图谱构建的实体关系抽取方法,其特征在于,步骤C05具体为:
将上一层基于注意力机制的神经网络的输出作为最后一层全连接神经网络的输入,通过softmax激活函数得到每个分类的条件概率Pi,Pi=P(yi|w),具体为:
P(Y|w)=softmax(Wzz+bz)
Figure FDA00031497512100000412
其中,w表示系统的输入文本序列,Y表示所有分类,yi表示第i个分类,P(Y|w)是给定序列下所有分类的条件概率,则Pi=P(yi|w)表示给定序列下第i个分类的条件概率;
Figure FDA0003149751210000051
是权重矩阵和偏置向量,z是所有时间步的上下文向量,r是所有的分类数量,n是隐藏层维度;
Figure FDA0003149751210000052
是预测输出分类。
10.一种面向知识图谱构建的实体关系抽取系统,应用权利要求1-9中任一项所述的方法,包括:
数据预处理模块,用于对用户提交的数据文件进行预处理,并转换成实体关系抽取系统可以识别和处理的数据格式;
上下文编码模块,用于对预处理之后的数据通过多头自注意力网络模型进行前向传播,计算序列的阶段性输出;
实体关系分类模块,用于利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的计算预测,以得到所有实体关系分类的输出概率,并从中选出概率最大的关系分类作为结果输出。
CN202110765116.4A 2021-07-06 2021-07-06 一种面向知识图谱构建的实体关系抽取方法及系统 Active CN113626537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110765116.4A CN113626537B (zh) 2021-07-06 2021-07-06 一种面向知识图谱构建的实体关系抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110765116.4A CN113626537B (zh) 2021-07-06 2021-07-06 一种面向知识图谱构建的实体关系抽取方法及系统

Publications (2)

Publication Number Publication Date
CN113626537A true CN113626537A (zh) 2021-11-09
CN113626537B CN113626537B (zh) 2023-10-17

Family

ID=78379151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110765116.4A Active CN113626537B (zh) 2021-07-06 2021-07-06 一种面向知识图谱构建的实体关系抽取方法及系统

Country Status (1)

Country Link
CN (1) CN113626537B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881038A (zh) * 2022-07-12 2022-08-09 之江实验室 基于跨度和注意力机制的中文实体与关系抽取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417092A (zh) * 2020-11-11 2021-02-26 南京邮电大学 基于深度学习的智能化文本自动生成系统及其实现方法
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN112800776A (zh) * 2021-03-10 2021-05-14 湖北工业大学 双向gru关系抽取数据处理方法、系统、终端、介质
KR20210063876A (ko) * 2019-11-25 2021-06-02 주식회사 데이터마케팅코리아 지식 그래프 및 국가별 음역 전환 기반 신조어 정보 서비스 제공 방법 및 그 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
KR20210063876A (ko) * 2019-11-25 2021-06-02 주식회사 데이터마케팅코리아 지식 그래프 및 국가별 음역 전환 기반 신조어 정보 서비스 제공 방법 및 그 장치
CN112417092A (zh) * 2020-11-11 2021-02-26 南京邮电大学 基于深度学习的智能化文本自动生成系统及其实现方法
CN112800776A (zh) * 2021-03-10 2021-05-14 湖北工业大学 双向gru关系抽取数据处理方法、系统、终端、介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
夏鹤珑;严丹丹;: "基于多头注意力机制的人物关系抽取方法", 成都工业学院学报, no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881038A (zh) * 2022-07-12 2022-08-09 之江实验室 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN114881038B (zh) * 2022-07-12 2022-11-11 之江实验室 基于跨度和注意力机制的中文实体与关系抽取方法及装置

Also Published As

Publication number Publication date
CN113626537B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN113656570B (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN111553479B (zh) 一种模型蒸馏方法、文本检索方法及装置
CN110647619A (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN110909736B (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN111460824B (zh) 一种基于对抗迁移学习的无标注命名实体识别方法
CN110287323A (zh) 一种面向目标的情感分类方法
CN113204633B (zh) 一种语义匹配蒸馏方法及装置
CN112001166A (zh) 面向政务咨询服务的智能问答句子对语义匹配方法和装置
CN114841151B (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
US20230289528A1 (en) Method for constructing sentiment classification model based on metaphor identification
CN115062727B (zh) 一种基于多阶超图卷积网络的图节点分类方法及系统
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
CN114925687B (zh) 一种基于动态词向量表征的中文作文评分方法及系统
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法
CN113626537B (zh) 一种面向知识图谱构建的实体关系抽取方法及系统
CN111507103B (zh) 一种利用部分标注集的自训练神经网络分词模型
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN113792550B (zh) 预测答案的确定方法及装置、阅读理解方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant