CN113268985B - 基于关系路径的远程监督关系抽取方法、装置及介质 - Google Patents

基于关系路径的远程监督关系抽取方法、装置及介质 Download PDF

Info

Publication number
CN113268985B
CN113268985B CN202110451394.2A CN202110451394A CN113268985B CN 113268985 B CN113268985 B CN 113268985B CN 202110451394 A CN202110451394 A CN 202110451394A CN 113268985 B CN113268985 B CN 113268985B
Authority
CN
China
Prior art keywords
relation
sentence
path
representation
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110451394.2A
Other languages
English (en)
Other versions
CN113268985A (zh
Inventor
蔡毅
刘诤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110451394.2A priority Critical patent/CN113268985B/zh
Publication of CN113268985A publication Critical patent/CN113268985A/zh
Application granted granted Critical
Publication of CN113268985B publication Critical patent/CN113268985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于关系路径的远程监督关系抽取方法、装置及介质,其中方法包括以下步骤:通过远程监督机制将知识库中的实体对和文本语料中的实体对进行对齐,构建实体对句子集合,根据实体对的内容将句子划分为多个包;通过直接句子编码模块获取实体对的相应关系的预测概率;针对每个包对应的实体对的推理关系路径,通过关系路径编码模块获取关系路径推理出相应关系的预测概率;在联合学习模块中,结合直接句子编码模块中的信息和关系路径编码模块中的信息获取最终对应实体对的预测关系。本发明采用了联合学习框架将直接句子的特征信息和关系路径的推理信息合理地结合起来,提高关系抽取的精准度,可广泛应用于自然语言处理领域。

Description

基于关系路径的远程监督关系抽取方法、装置及介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于关系路径的远程监督关系抽取方法、装置及介质。
背景技术
信息抽取是指从自然语言文本中自动抽取指定类型的实体、关系、事件等事实信息的应用技术。信息抽取主要包括三个子任务:实体抽取、关系抽取和事件抽取。其中关系抽取作为信息抽取领域的核心任务和关键环节,近年来也受到了学术界和工业界的广泛关注。关系抽取的主要目标是从自然语言文本中识别并且判别实体对之间存在的特定关系。研究者利用关系抽取可以从海量的无结构文本中抽取出格式统一的实体关系,这进一步提高了海量数据的处理效率;将多个实体的语义关系和实体进行关联,有利于知识库和相关问答系统的自动构建;对用户查询文本进行分析处理,帮助提高智能检索的效率等。
关系抽取任务本质上是一个多分类的文本分类任务,即针对文本中识别出的实体对存在的关系划分到某个或某几个预定义的关系类别。目前主流的关系抽取方法是基于神经网络学习的关系分类方法,而其中取得较好效果的关系分类方法主要是有监督的关系抽取方法和基于远程监督的关系抽取方法。有监督的关系抽取是目前发展较成熟的一个分支,其以包含实体对的一个句子为处理样本,主要利用有标注的训练数据的信息来帮助识别未标注的样本中实体对存在的关系,优点是能有效利用样本的标记信息,识别效果较好,但缺点是标注训练语料的过程耗时费力,代价高昂。远程监督关系抽取(DistantlySupervised Relation Extraction, DSRE)方法作为目前主流的半监督的深度学习的关系抽取方法,受到了研究者的广泛关注。远程监督的实体关系抽取方法显著降低了对人工标注的依赖,大大降低了构建标注数据集的成本,可以自动抽取大量的实体对,且这种方法移植性较好,能够更加方便地应用到其他领域。
远程监督的基本假设是如果一个实体对在知识库中存在某种关系,那么包含这个实体对的所有句子都会表达出这种关系。利用这种假设,远程监督的关系抽取的方法将无标注的文本数据与知识库中的实体进行对齐来产生大量的弱标注语料,进而利用这些标注语料来训练关系分类模型。这种强假设在数据标注过程将不可避免地带来错误标注问题:大量包含实体对的句子并未表达出实体对在知识库中存在的关系从而产生数据噪音。当前大多数的远程监督关系抽取模型为了缓解远程监督带来的错误标注问题,往往采用了多示例学习的框架,即首先通过将所有包含实体对的句子根据不同的实体对分成一个个的包,再通过卷积神经网络 (CNN)、长短期记忆网络(LSTM)等特征学习神经网络对包中的一个个句子进行向量表示,再按照不同的策略对包的所有的句子表示进行信息融合生成包的向量表示,最后将包的表示输入到分类器后抽取出对应的已被远程监督机制标注好的关系(以下简称目标关系)。这种多示例的学习框架在某些特定数据集上的确取得了不错的效果,但模型的鲁棒性和应用场景比较局限,在实体关系网络复杂的真实场景下仍存在一定的问题。
首先,这种多示例的学习框架针对每一个实体对抽取目标关系时,往往都局限于这个实体对对应的包中的信息,而忽略了与其他包之间存在的联系。其次,目前有一些模型利用了包与包之间的简单的两跳关系路径来帮助模型抽取出目标关系,然而真实的场景下实体之间的关系路径并不仅仅是两跳的关系路径,三跳四跳等多跳的关系路径同样占有很大的比重,这些路径中固然有很多无效的关系路径,但同样存在着对模型有帮助的正样本路径。
此外,这些利用了两跳关系路径的模型在对关系路径信息进行融合时对于每一个实体对仅仅选择了一条置信度最高的关系路径,这样的做法虽然筛除了大量的无效或者噪音路径,但同时也损失了对于推理出目标关系有帮助的其他的正样本路径。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种基于关系路径的远程监督关系抽取方法、装置及介质。
本发明所采用的技术方案是:
一种基于关系路径的远程监督关系抽取方法,包括以下步骤:
通过远程监督机制将知识库中的实体对和文本语料中的实体对进行对齐,构建实体对句子集合,根据实体对的内容将句子划分为多个包;
针对每个包的句子,通过直接句子编码模块获取实体对的相应关系的预测概率;
针对每个包对应的实体对的推理关系路径,通过关系路径编码模块获取关系路径推理出相应关系的预测概率;
在联合学习模块中,结合直接句子编码模块中的信息和关系路径编码模块中的信息获取最终对应实体对的预测关系。
进一步,所述构建实体对句子集合,包括:
根据远程监督机制构造出的实体对句子集合,整理每个实体对对应的两跳、三跳或四跳的关系路径;
将每个包对应的关系路径信息通过路径表示框架进行建模,得到每个预定义关系的预测置信度。
进一步,所述直接句子编码模块包括输入表示层、句子表示编码层和包表示编码层;
输入表示层用于获取句子中每个词的向量表示,进而得到整个句子的向量表示序列;
句子表示编码层用于将句子的向量表示转化成整个句子的特征表示向量;
包表示编码层采用基于自注意力机制的多示例学习方法,对包中所有句子的特征表示向量进行加权求和,得到整个包的表示向量。
进一步,所述获取句子中每个词的向量表示,进而得到整个句子的向量表示序列,包括:
利用词嵌入技术拼接每个词的语义信息向量和位置信息向量,以建模出每个词的向量表示xi∈Rk(k=kw+kp×2);
其中,kw代表该词语义信息向量的维度,kp×2代表该词的相对位置信息向量。
进一步,所述对包中所有句子的特征表示向量进行加权求和,包括:
将句子级别注意力机制权重加入到包中的句子中,以使有效的句子比重增大,带有噪音的句子比重减小;
获得降噪后的包的特征表示。
进一步,所述整个包的表示向量为:
Figure BDA0003038802520000031
其中b是包表示向量,αi是对应每一个句子表示向量的权重,αi的表达式为:
Figure BDA0003038802520000032
其中,ei表示输入的句子与预测关系的匹配程度,ei的计算方式为:
ei=giAr
其中,A是加权的对角矩阵,r而代表所有关系标签中其中一个关系的关系表征向量;
最后通过softmax分类器获得条件概率:
Figure BDA0003038802520000033
其中,nr代表所有预定义的关系总数,o是给定包与所有关系类型的匹配得分:
o=Mb+v
Figure BDA0003038802520000034
是偏置向量,而M是所有关系的表示矩阵。
进一步,所述通过关系路径编码模块获取关系路径推理出相应关系的预测概率,包括:
给定一个实体对(h,t)之间存在的关系路径p,该关系路径p连接了n个实体对{(h,e1),(e1,e2),...,(en-1,t)},设这n个实体对对应的关系集合为Rp={r1,r2,...,rn};每一个被连接的实体对都至少代表了一个句子,基于关系路径p推理出关系r的条件概率描述为:
Figure BDA0003038802520000041
其中,ui衡量了根据该关系路径p推理出某个关系r的置信度;ui的表达式为:
Figure BDA0003038802520000042
其中,rt是对于实体对(h,t)的已被远程监督机制标注好的关系。
进一步,所述联合学习模块的损失函数和贡献函数的表达式为:
Figure BDA0003038802520000043
L(h,r,t)=F(h,r,t|S)+αK(h,r,t|P)
其中,T是文本中所有训练集关系三元组的集合,θ代表整个模型参数的集合,F(h,r,t|S) 代表从直接句子编码模块得到的关系r和实体对(h,t)的关联信息,而K(h,r,t|P)代表了从关系路径编码模块中获得的推理信息,α是用于平衡两种来源信息的参数。
本发明所采用的另一技术方案是:
一种基于关系路径的远程监督关系抽取装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明采用了联合学习框架将直接句子的特征信息和关系路径的推理信息合理地结合起来,这样既可以利用到关系路径的推理信息,又避免了推理信息可能带来的错误传播问题,提高关系抽取的精准度。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种基于多跳关系路径的远程监督关系抽取方法的流程图;
图2是本发明实施例中一种基于多跳关系路径的远程监督关系抽取方法的具体流程图;
图3是本发明实施例中关系路径的示意图;
图4是本发明实施例中基于多跳关系路径的关系分类模型示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
如图1所示,本发明实施例提供了一种基于多跳关系路径的远程监督关系抽取方法,包括以下步骤:
S101、通过远程监督机制将知识库中的实体对和文本语料中的实体对对齐,构建实体对句子集合;
S102、在直接句子编码模块,针对每个包的所有句子,采用基于分段卷积神经网络和注意力机制的多示例学习框架对包的表示进行建模,进而通过softmax分类器计算相应关系的预测概率;
S103、在关系路径编码模块,针对每个包对应的实体对的推理关系路径,通过关系路径表示层计算每条关系路径的置信度,再通过关系路径信息融合层,综合考虑该实体对所有关系路径的信息,得到关系路径推理出相应关系的预测概率。
S104、在联合学习模块,综合考虑直接句子编码模块的相应关系预测概率和关系路径编码模块推理出的相应关系预测概率,得到最终相应关系的预测概率,从众多关系的预测概率中选择概率最大的关系即为该实体对的预测关系。
以下集合附图及具体实施例对上述方法进行详细地解释说明。
如图2所示,本发明实施例提供了一种基于多跳关系路径的远程监督关系抽取方法,包括:
首先,通过远程监督机制将知识库的实体对与文本语料对齐,从而构建实体对句子集合。
远程监督的基本假设是如果一个实体对在知识库中存在某种关系,那么包含这个实体对的所有句子都会表达出这种关系。例如:“Steve Jobs”和“Apple”在WikiData中存在“founder”的关系,则包含这两个实体的包中的句子一“Steve Jobs was the founder andCEO of Apple and formerly Pixar.”和句子二“Steve Jobs passed away the daybefore Apple unveiled iPhone4S”都将被当作表达出了“founder”的关系。显然只有句子一是可以作为训练正例的有效句子,而句子二并未表达出“founder”的关系,对于实体对“Steve Jobs”和“Apple”来说就是无效的噪音句子。以上这种现象就是远程监督机制的主要弊端,即在带来低成本的大量标注语料的同时也无可避免地引入了很多噪音数据。当前诸多方法都围绕着去噪的方向展开研究和工作,但大都忽略了包与包之间的潜在的关系推理信息。以下例举一个实例来进一步进行介绍。
表1
Figure BDA0003038802520000061
Figure BDA0003038802520000071
如表1所示,根据实体对的不同将文本句子分成了五个包,每个包中都有一个句子实例,以bag1为测试用例,当我们通过直接句子模块预测实体对“George”和“German”在对应句子中所表达的关系时,如图3可以利用bag2到bag5这四个包组成的关系路径网络帮助推理bag1中“George”和“German”的关系。即当通过关系路径编码模块得到两跳关系路径George→Germany→German和三跳关系路径George →Berlin→Germany→German的置信度较高时,将有更高的概率推理出bag1中“George”和“German”存在着“languages_written”的关系。
最终的模型架构图如图,整体采用联合学习框架,将直接句子的信息和关系路径推理信息进行融合后抽取出最后的对应该实体对被标注的关系。整个模型架构包含三个关键模块:直接句子编码模块、关系路径编码模块、联合学习模块。
如图4所示,给定一个实体对(h,t)和包含该实体对的包S={s1,s2,…,sn}以及连接头实体 h和尾实体t的关系路径集合P(h,t)={p1,...,pN},采用的模型将结合两方面的信息计算实体h 和t对应每个预定义好的关系的概率,从中选择最大概率的作为抽取出的对应关系r。
直接句子编码模块分为输入表示层、句子表示编码层和包表示编码层。
(1)输入表示层:输入表示层旨在获取每个词的向量表示,进而得到整个句子的向量表示序列。将利用词嵌入技术拼接每个词的语义信息向量和位置信息向量以建模出每个词的向量表示xi∈Rk(k=kw+kp×2),其中kw代表了该词语义信息向量的维度,kp×2则代表了该词的相对位置信息向量。
(2)句子表示编码层:该模块旨在利用神经网络技术将句子的输入表示向量转化成整个句子的特征表示向量。这里采用了目前在该模块表现相对的不错的分段卷积网络来对句子的输入表示向量进行编码,假定给定的句子的输入表示序列为x={x1,...,xl},其中xi∈Rk。假定xi:j代表xi到xj的向量拼接后的矩阵,卷积的窗口大小为m,卷积核所代表的权重为w,则得到输出序列的卷积操作可以形式化的描述成卷积核的权重和窗口大小的序列向量的点积:
hj=wxj-m+1:j (1)
其中,可取的范围是1到l+m-1,当输入向量超出界限时,即时则采用零填充。为了捕捉不同类型的特征,具体实验中如果采用了n个卷积核,则卷积核矩阵为W={w1,w2,…,wn},此时的卷积操作可以表示为:
hij=wixj-m+1:j1≤i≤n (2)
通过卷积阶段,得到的结果矩阵为
Figure BDA0003038802520000081
在池化阶段时,与普通卷积神经网络不同的是,为了捕捉更加细粒度的结构化特征,分段卷积神经网络以头尾实体为分界点将整个句子分成三段,即:
hi={hi,1,hi,2,hi,3} (3)
接着对这些隐式结果向量进行分段最大池化处理:
sij=max(hi,j) (4)
其中1≤i≤n,j=1,2,3,对所有结果向量si=[si,1,si,2,si,3](i=1,2,…,n)进行拼接则有s∈R3n。经过一个非线性化激活层则得到该句子的特征表示向量:
g=tanh(s) (5)
其中g∈R3n,注意这里特征表示向量的维度大小已与句子长度无关。
(3)包表示编码层:为了尽量减少标注噪音问题,并且有效利用包中真正例句子的信息,该阶段主要采用基于自注意力机制的多示例学习方法。对于给定包中的所有句子S={s1,s2,...,sm},模型可以通过句子表示编码层得到所有句子对应的特征表示向量 {g1,g2,...,gm}。采用注意力机制,对包中所有句子表示向量进行加权求和可以得到整个包的表示向量为:
b=∑i aigi (6)
其中b是包表示向量,αi是对应每一个句子表示向量的权重,可以进一步定义为:
Figure BDA0003038802520000082
其中,ei表示输入的句子与预测关系的匹配程度,具体实验中本文采用了表现最好的双线性方法来计算:
ei=giAr (8)
其中,A是加权的对角矩阵,r而代表所有关系标签中其中一个关系的关系表征向量。最后通过softmax分类器获得条件概率:
Figure BDA0003038802520000083
其中,nr代表所有预定义的关系总数,o是给定包与所有关系类型的匹配得分:
o=Mb+v (10)
这里,
Figure BDA0003038802520000091
是偏置向量,而M是所有关系的表示矩阵。最终可以得到给定包对于某个关系的预测置信度:
F(h,r,t|S)=p(r|θ,S) (11)
关系路径编码模块:该模块主要针对关系路径中的推理信息进行建模,衡量根据关系路径推理出关系r的置信度,这里考虑的关系路径不仅包括两跳的关系路径,而且包含了三跳和四跳这样多跳的关系路径,这些多跳的关系路径背后代表着更加复杂隐式的推理信息。具体地,给定一个实体对(h,t)之间存在的关系路径p,该关系路径因而连接了n个实体对 {(h,e1),(e1,e2),...,(en-1,t)},设这n个实体对对应的关系集合为Rp={r1,r2,...,rn}。每一个被连接的实体对都至少代表了一个句子,基于路径p推理出关系r的条件概率可以描述为:
Figure BDA0003038802520000092
其中,ui衡量了根据该关系路径p推理出关系r的置信度。更具体地有:
Figure BDA0003038802520000093
其中rt是对于实体对(h,t)的已被远程监督机制标注好的关系,而该关系路径上所有关系向量相加的结果即为关系路径的表示向量。这样做的理由是,如果该关系在语义上接近关系路径推理的结果,那么在具体的向量表示上的相似度也高于其他关系。由此,本文形式化地给出了该关系路径对于推理出该关系的贡献分数:
K(h,r,t|p)=F(h,r1,e1)F(e1,r2,e2)…F(en-1,rn,t)p(r|Rp) (14)
这里每一个F都对应了根据直接句子信息得到的每一个关系三元组的置信度,而p(r|Rp)则衡量了根据关系路径p推理出某个关系r的概率。
接着在多条关系路径的信息融合阶段,本文对选取置信度最高的一条关系路径和综合所有关系路径置信度的两种方法进行了对比实验。当采用最高置信度的关系路径作为代表路径时,忽略了较多的正例路径的信息,对于实体对(h,t),根据多条关系路径的集合P来推理出关系r的概率可以综合描述为:
K(h,r,t|P)=maxi K(h,r,t|pi) (15)
当综合所有关系路径置信度时,本文采用了LogSumExp方法,该方法是对max方式的一种更加平滑的近似,根据关系路径部分推理出关系r的概率可以形式化地描述为:
Figure BDA0003038802520000094
联合学习模块:该模块将直接句子模块的信息和关系路径推理信息综合起来进行对应关系的抽取。给定实体对(h,t)和某关系r,本文提出的多跳关系路径模型可以定义一个全局的贡献函数为:
L(h,r,t)=F(h,r,t|S)+αK(h,r,t|P) (17)
其中,F(h,r,t|S)代表从直接句子从得到的关系r和实体对(h,t)的关联信息,而K(h,r,t|P)代表了从关系路径中获得的推理信息,α是一个用来平衡两种来源信息的参数,它的值将被设置为β(1-F(h,r,t|S)),其中β是一个超参数。这样的做法可以有效减少误差传播的影响,即当从直接句子获得的信息来抽取对应关系的置信度足够高时,模型将更少地引入关系路径的推理信息。反之当从直接句子中抽取出对应关系的置信度不够时,可以更多地考虑关系路径的推理信息,这也将一定程度上纠正直接句子中的错误信息。具体实现上,该模型的最终损失函数如下:
J(θ)=∑(h,r,t)∈Tlog(L(h,r,t)) (18)
其中,T是文本中所有训练集关系三元组的集合,θ代表整个模型参数的集合,包含了输入表示权重矩阵、位置特征权重矩阵、分段卷积神经网络权重矩阵等等。整个模型的优化函数采用了批量梯度下降算法(stochastic gradient decent,SGD),另外,在模型的输出层本文也采用了dropout算法来减少模型过拟合。
综上所述,本实施例的方法相较于现有技术,具有以下的有益效果:
(1)本实施例的方法能够挖掘文本数据中潜在的两跳甚至多跳的关系路径信息并对其中的推理信息进行有效建模,进而帮助抽取目标关系。
(2)本实施例的方法采用了联合学习框架将直接句子的特征信息和关系路径的推理信息合理地结合起来,这样既可以利用到关系路径的推理信息又避免了推理信息可能带来的错误传播问题,最终在对应的真实数据集上的效果也超过了当前同领域内先进的方法。
(3)本实施例的方法模型将特征学习模块和关系推理模块分隔开来使得整个模型架构适用性和灵活性更高,这也意味这本发明的特征学习模块可以更换成其他更好的特征学习框架,从而有利于这些特征学习框架在对应数据集上的效果提升。
本实施例还提供了一种基于关系路径的远程监督关系抽取装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图1所示的方法。
本实施例的一种基于关系路径的远程监督关系抽取装置,可执行本发明方法实施例所提供的一种基于关系路径的远程监督关系抽取方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种基于关系路径的远程监督关系抽取方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种基于关系路径的远程监督关系抽取方法,其特征在于,包括以下步骤:
通过远程监督机制将知识库中的实体对和文本语料中的实体对进行对齐,构建实体对句子集合,根据实体对的内容将句子划分为多个包;
针对每个包的句子,通过直接句子编码模块获取实体对的相应关系的预测概率;
针对每个包对应的实体对的推理关系路径,通过关系路径编码模块获取关系路径推理出相应关系的预测概率;
在联合学习模块中,结合直接句子编码模块中的信息和关系路径编码模块中的信息获取最终对应实体对的预测关系;
所述通过关系路径编码模块获取关系路径推理出相应关系的预测概率,包括:给定一个实体对(h,t)之间存在的关系路径p,该关系路径p连接了n个实体对{(h,e1),(e1,e2),…,(en-1,t)},设这n个实体对对应的关系集合为Rp={r1,r2,…,rn};每一个被连接的实体对都至少代表了一个句子,基于关系路径p推理出关系r的条件概率描述为:
Figure FDA0004216012780000011
其中,uq衡量了根据该关系路径p推理出关系r的置信度;uq的表达式为:
Figure FDA0004216012780000012
其中,rt是对于实体对(h,t)的已被远程监督机制标注好的关系;
所述联合学习模块损失函数和贡献函数的表达式如下:
Figure FDA0004216012780000013
L(h,r,t)=F(h,r,t|S)+αK(h,r,t|P)
其中,T是文本中所有训练集关系三元组的集合,θ代表整个模型参数的集合,F(h,r,t|S)代表从直接句子编码模块得到的关系r和实体对(h,t)的关联信息,而K(h,r,t|P)代表了从关系路径编码模块中获得的推理信息,α是用于平衡两种来源信息的参数。
2.根据权利要求1所述的一种基于关系路径的远程监督关系抽取方法,其特征在于,所述构建实体对句子集合,包括:
根据远程监督机制构造出的实体对句子集合,整理每个实体对对应的两跳或多跳的关系路径;
将每个包对应的关系路径信息通过路径表示框架进行建模,得到每个预定义关系的预测置信度。
3.根据权利要求1所述的一种基于关系路径的远程监督关系抽取方法,其特征在于,所述直接句子编码模块包括输入表示层、句子表示编码层和包表示编码层;
输入表示层用于获取句子中每个词的向量表示,进而得到整个句子的向量表示序列;
句子表示编码层用于将句子的向量表示转化成整个句子的特征表示向量;
包表示编码层采用基于自注意力机制的多示例学习方法,对包中所有句子的特征表示向量进行加权求和,得到整个包的表示向量。
4.根据权利要求3所述的一种基于关系路径的远程监督关系抽取方法,其特征在于,所述获取句子中每个词的向量表示,进而得到整个句子的向量表示序列,包括:
利用词嵌入技术拼接每个词的语义信息向量和位置信息向量,以建模出每个词的向量表示xi∈Rk,k=kw+kp×2;
其中,kw代表该词语义信息向量的维度,kp×2代表该词的相对位置信息向量。
5.根据权利要求3所述的一种基于关系路径的远程监督关系抽取方法,其特征在于,所述对包中所有句子的特征表示向量进行加权求和,包括:
将句子级别注意力机制权重加入到包中的句子中,以使有效的句子比重增大,带有噪音的句子比重减小;
获得降噪后的包的特征表示。
6.根据权利要求3所述的一种基于关系路径的远程监督关系抽取方法,其特征在于,所述整个包的表示向量为:
Figure FDA0004216012780000031
其中b是包表示向量,αi是对应每一个句子表示向量的权重,αi的表达式为:
Figure FDA0004216012780000032
其中,ei表示输入的句子与预测关系的匹配程度,ei的计算方式为:
ei=giAr
其中,A是加权的对角矩阵,r而代表所有关系标签中其中一个关系的关系表征向量;
最后通过softmax分类器获得条件概率:
Figure FDA0004216012780000033
其中,nr代表所有预定义的关系总数,o是给定包与所有关系类型的匹配得分:
o=Mb+v
Figure FDA0004216012780000034
是偏置向量,而M是所有关系的表示矩阵。
7.一种基于关系路径的远程监督关系抽取装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-6任一项所述方法。
8.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-6任一项所述方法。
CN202110451394.2A 2021-04-26 2021-04-26 基于关系路径的远程监督关系抽取方法、装置及介质 Active CN113268985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110451394.2A CN113268985B (zh) 2021-04-26 2021-04-26 基于关系路径的远程监督关系抽取方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110451394.2A CN113268985B (zh) 2021-04-26 2021-04-26 基于关系路径的远程监督关系抽取方法、装置及介质

Publications (2)

Publication Number Publication Date
CN113268985A CN113268985A (zh) 2021-08-17
CN113268985B true CN113268985B (zh) 2023-06-20

Family

ID=77229369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110451394.2A Active CN113268985B (zh) 2021-04-26 2021-04-26 基于关系路径的远程监督关系抽取方法、装置及介质

Country Status (1)

Country Link
CN (1) CN113268985B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901151B (zh) * 2021-09-30 2023-07-04 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质
CN114610903A (zh) * 2022-03-29 2022-06-10 科大讯飞(苏州)科技有限公司 一种文本关系抽取方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN109635124A (zh) * 2018-11-30 2019-04-16 北京大学 一种结合背景知识的远程监督关系抽取方法
CN111241303A (zh) * 2020-01-16 2020-06-05 东方红卫星移动通信有限公司 一种大规模非结构化文本数据的远程监督关系抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN109635124A (zh) * 2018-11-30 2019-04-16 北京大学 一种结合背景知识的远程监督关系抽取方法
CN111241303A (zh) * 2020-01-16 2020-06-05 东方红卫星移动通信有限公司 一种大规模非结构化文本数据的远程监督关系抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Improving Relation Extraction by Pre-trained Language Representations;Christoph Alt et al.;《arXiv:1906.03088v1》;第1-18页 *
融合结构与文本特征的知识图谱关系预测方法研究;林泽斐 等;《图书情报工作》;第64卷(第21期);第99-110页 *

Also Published As

Publication number Publication date
CN113268985A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
US11574122B2 (en) Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN111428525B (zh) 隐式篇章关系识别方法、系统及可读存储介质
CN113268985B (zh) 基于关系路径的远程监督关系抽取方法、装置及介质
CN110502626A (zh) 一种基于卷积神经网络的方面级情感分析方法
CN111737974B (zh) 一种语句的语义抽象化表示方法及装置
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN115168541A (zh) 基于框架语义映射和类型感知的篇章事件抽取方法及系统
CN115510236A (zh) 基于信息融合和数据增强的篇章级事件检测方法
CN114881014A (zh) 实体别名关系获取方法、训练方法、装置及存储介质
US20230014904A1 (en) Searchable data structure for electronic documents
CN115879453A (zh) 一种融合词汇边界及语义信息的实体识别及关系抽取方法
CN116663540A (zh) 基于小样本的金融事件抽取方法
CN113010635B (zh) 一种文本纠错方法及装置
CN114492459A (zh) 基于知识图谱与交互图卷积的评论情感分析方法及系统
CN114356924A (zh) 用于从结构化文档提取数据的方法和设备
CN114065702A (zh) 一种融合实体关系和事件要素的事件检测方法
CN117251522A (zh) 一种基于潜层关系增强的实体和关系联合抽取模型的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant