CN113220844A - 基于实体特征的远程监督关系抽取方法 - Google Patents

基于实体特征的远程监督关系抽取方法 Download PDF

Info

Publication number
CN113220844A
CN113220844A CN202110569055.4A CN202110569055A CN113220844A CN 113220844 A CN113220844 A CN 113220844A CN 202110569055 A CN202110569055 A CN 202110569055A CN 113220844 A CN113220844 A CN 113220844A
Authority
CN
China
Prior art keywords
representation
entity
sentence
word
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110569055.4A
Other languages
English (en)
Other versions
CN113220844B (zh
Inventor
朱新华
朱宇翔
温海旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Environmental Equity Exchange Co ltd
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202110569055.4A priority Critical patent/CN113220844B/zh
Publication of CN113220844A publication Critical patent/CN113220844A/zh
Application granted granted Critical
Publication of CN113220844B publication Critical patent/CN113220844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于实体特征的远程监督关系抽取方法,提出了实体引导增强特征网络,首先采用多级增强实体表示模块,在多头注意力机制下,设计实体引导注意力,从关键词和短语中提取关系特征。具体来说,实体对被视为查询序列,在多头注意力作用下,从目标句子中搜索最相关的单词和短语,其中,多级增强实体表示模块提取单词和短语层面的语义特征,并利用这些特征来增强头实体表示和尾实体表示;再将增强的两个实体表示拼接,输入到线性层中,以生成稳健的关系表示r,接下来,本发明使用语义融合层来整合多个语义表示,包括句子表示、两个增强实体表示和关系表示,生成最终健壮的句子向量。通过本发明可捕获可靠的关系特征,提高关系抽取效率。

Description

基于实体特征的远程监督关系抽取方法
技术领域
本发明涉及自然语言处理与信息处理中的关系抽取技术领域,具体是一种基于实体特征 的远程监督关系抽取方法。
背景技术
关系抽取被公认为一种从文本中提取关系的有效方法,已作为一些下游任务的辅助技术, 例如知识图谱补全和问答系统。对于关系抽取任务,抽取性能取决于大规模数据,而采用手 动标记方法构建成本高,耗时费力。为了满足数据需求,Mintz等人设计远程监督策略,启 发式地执行知识图谱关系实例与文本的对齐操作,自动快速扩充训练数据。远程监督受强假 设指导进行标注,如果知识库存在(e1,r,e2)三元组,则所有标注实体对(e1,e2)的句子均表达 关系r。然而,标记过程忽略实体上下文语境,仅依靠实体对相同这一条件,假设宽泛而不 严谨,因此远程监督必定产生噪声。图1描述远程监督标注过程,从中可见,句子S1和S2 含有相同实体对,即“Barack Obama”和“United States”,由知识库对齐后赋予两个句子 /people/person/place_of_birth关系。然而经人工检查,句子S2并未表达对应的知识库关系, 其正确关系是president_of,因此S2便成为噪声句子。
多实例学习是由Rediel等人提出,用于减少噪声标签。其主要思想是:训练集被分成多 个包,每个包汇集含有相同实体对的句子,关系标签被赋予包,等价于包内实体对的关系。 以往工作致力于解决噪声,并且依赖两个重要算法:多实例学习和选择注意力,在两者的协 助下,引导模型关注包中的正确句子。但选择性注意力忽略了特殊情况,即包内仅有一个句 子,本发明将此类包称作单句包。鉴于远程监督存在噪声问题,部分单句包会被错误标注。 以基准数据集NYT-10为例,其数据单位为包,约80%数据均为单句包,几乎占据大半部分 的比重。表1列出了三个单句包,它们标签为/people/person/place_lived,对三个包的关系进 行校准,前两个包的标签是正确的,与实际表达关系相符,而第三个包表达的关系并非其标 签。选择性注意力是一种权衡策略,自动突出有效句子的贡献,赋予噪声句子低权重,汇聚 包内句子信息并弱化噪声侵扰。当面对单句包时,选择性注意力形同虚设,失去降噪功能, 只能输出原始句子表示。本发明将上述现象定义为单句包问题。
表1单句包例子
Figure BDA0003081908920000011
Figure BDA0003081908920000021
因此,Li等人设计了一种门机制,来解决困扰选择性注意力的单句袋问题,以上下文特 征计算门控向量,门控向量与相应句子的平均聚合获得包表示。然而,这种门机制并没有利 用关键词和短语所包含的强大关系特征。如表2所示,在句子中,只有少数几个词可以提供 重要信息,这些信息与关系分类密切关联,并且一些关键短语往往表示关系的显性或隐性相 关信息。以第二句为例,头尾实体分别为“Richard Devos”和“Amway”,在预测两实体的关系 /business/company/founders时,“founder”一词和短语“a founder of”表达了明显的关系信息。对 关键词和短语的重点关注,既提升特征提取效率,又可弱化无关语义的影响。
表2句子中的关键词和短语
Figure BDA0003081908920000022
基于上述观察,如何利用关键词和短语来提升提取效率,成为本发明关注的重点。
发明内容
本发明提供了一种基于实体特征的远程监督关系抽取方法,提出了实体引导增强特征网 络(Entity-Guided Enhancement Feature Network,EGEFN),以捕获可靠的关系特征,提高关 系抽取效率。
本发明首先采用多级增强实体表示模块,在多头注意力机制0下,设计实体引导注意力, 从关键词和短语中提取关系特征。具体来说,实体对被视为查询序列,在多头注意力作用下, 从目标句子中搜索最相关的单词和短语,其中,多级增强实体表示模块提取单词和短语层面 的语义特征,并利用这些特征来增强头实体表示和尾实体表示;再将增强的头实体表示和尾 实体表示拼接,输入到一个线性层中,以生成稳健的关系表示r。接下来,本发明使用语义 融合层来整合多个语义表示,包括由PCNN编码的句子表示、两个增强实体表示和关系表示, 生成最终健壮的句子向量。不同于Li等人简单利用上下文表示设计门机制,本发明关注的是 重要词和短语所捕捉的关键关系特征,在此基础上,本发明提出了一种关系度量聚合门 (Relation-Measured Aggregation Gate,RMAG),在由两个增强实体表示计算的关系表示基础 上,将所有句子表示聚合成包表示,利用包表示来判别关系类型,从而克服选择注意力中存 在的单句包问题。
为实现上述目的,本发明的技术方案为:
基于实体特征的远程监督关系抽取方法,包括以下步骤:
S1.处理输入表示,获取输入句子序列中第i个词的低维词嵌入向量、低维位置向量, 并经过串联操作,得到输入序列X,并从X中取出初始的头实体表示和尾实体表示;
S2.头实体表示和尾实体表示并列,被视为查询向量序列,在多头注意力作用下,从 目标句子中搜索最相关的单词和短语;多级增强实体表示模块提取单词和短语层面的语 义特征,并利用这些特征来增强头实体表示和尾实体表示;再将增强的头实体表示和尾实体表示拼接,输入到一个线性层中,以生成稳健的关系表示r;另外,使用分段卷积神 经网络获取句子表示s;
S3.使用语义融合层来整合多个语义表示,包括句子表示s、两个增强实体表示和稳 健的关系表示r,生成最终健壮的句子向量
Figure BDA0003081908920000031
S4.关系度量聚合门利用关系表示r计算对应句子的门控向量,并进行门控池化操作, 即计算门控向量与健壮的句子向量
Figure BDA0003081908920000035
的均值,获取包表示向量B,通过包表示向量B计算所有关系预测概率,预测概率最高的关系即为关键关系特征。
进一步的,所述步骤S1具体为:
对于长度为n的输入句子序列s,选用word2vec工具,对于第i个词,其索引经word2vec 映射,获取低维词嵌入向量
Figure BDA0003081908920000032
其中:dw是词向量维度,得到句子嵌入向量序列
Figure BDA0003081908920000033
在输入信息中引入词与待抽取关系的头、尾实体距离信息,将位置距离向量化,得到两 个低维位置向量
Figure BDA0003081908920000034
其中,vi1表示头实体到第i个词的距离,vi2表示尾实体到第i 个词的距离,dp是位置向量维数;
经过串联操作,统合词嵌入与位置嵌入,得到最终的输入序列X={x1,x2,...,xn},xi=[wi;vi1;vi2]∈Rd,其中d表示输入向量维度,且d=dw+2×dp
从X中取出初始的头实体表示和尾实体表示,记作xh,xt∈Rd,其中,xh表示头实体表 示,xt表示尾实体表示。
进一步的,所述步骤S2具体为:
S2.1词级增强实体表示
将xh和xt并列,得到查询向量序列qe=[xh,xt]∈R2×d,作为缩放点积注意力中的查询Q, 将单词输入序列X作为注意力机制中的键值对(K,V);
将qe的两个向量分别与输入表示序列X的每个词逐一计算相关性,并通过相关性矩阵 和所有词向量的点积,得到词级增强的实体表示,具体计算公式如下:
Figure BDA0003081908920000041
Figure BDA0003081908920000042
其中,softmax()为神经网络中的归一化指数函数,A∈R2×n是相关度矩阵,由序列X与查询qe运算而来;对于A的一个元素aij代表第j个词与第i个实体的相关度;AX表示相关性矩阵 和所有词向量的点积,
Figure BDA0003081908920000043
表示词级增强的实体表示;
将输入划分多头,执行h次线性变换,各将查询、键、值分成h个分量,并行执行公式(1)和(2)中的缩放点积注意力;在多头情况下,词级增强实体表示计算如下:
MultiHead(Q,K,V)=[H1;H2;...;Hh]WR (3)
Hi=Attention(QWi Q,KWi K,VWi V) (4)
Figure BDA0003081908920000044
Figure BDA0003081908920000045
其中,MultiHead()表示多头自注意力,H1,H2,...,Hh表示多头自注意力中的h个头,
Figure BDA0003081908920000046
是第i个线性变换的参数矩阵,WR∈Rd×d是缩放点乘注意力的拼接结 果的参数矩阵,都是可学习的参数,[;]表示拼接运算,Attention()表示多头自注意力的缩放 点积注意力函数,LayerNorm指层归一化;
Figure BDA0003081908920000047
表示归一化之前的词级增强的实体表 示;
S2.2短语级增强实体表示
S2.2.1卷积层
构建卷积输入:令xi:j=[xi:xi+1:...:xj]表示拼接向量序列,代表输入序列X的部分拼接, 索引范围是[i,j];然后,定义卷积核Wc∈Rl×d,对输入X执行卷积运算,其输出为c∈Rn-l+1, cj是它的第j个元素,计算过程如下:
Figure BDA0003081908920000051
其中,l表示卷积的滑动窗口大小,
Figure BDA0003081908920000052
表示卷积算子,并对每个句子填充零向量,确保向量c 维数为n,与句子长度一致;
使用f个卷积核
Figure BDA0003081908920000053
用于拟合特征,运算结束后得到C={c1,c2,...,cf}∈Rf×n; C的每一列作为一个短语表示,且维度为f;对C转置,获得短语表示序列 P=CT={P1,P2,...,Pn}∈Rn×f
S2.2.2短语级实体引导注意力层
以词级增强实体表示
Figure BDA0003081908920000054
为缩放点积注意力中的查询Q,短语序列P为缩放点 积注意力中的键值对,获取不同短语与指定查询的相关度,引导模型聚焦重点短语,捕获短 语级关系特征,用于增强实体表示,短语级增强实体表示
Figure BDA0003081908920000055
通过下面公式 计算:
Figure BDA0003081908920000056
Figure BDA0003081908920000057
Figure BDA0003081908920000058
其中,
Figure BDA0003081908920000059
表示归一化之前的短语级增强实体表示,f(·)是一个线性变换,旨 在转换词级增强实体表征的维度,从d变为短语表示f的大小,LayerNorm表示层归一化;
S2.2.3关系表示
使用一个线性层,转换拼接的头增强实体和尾增强实体向量,生成关系表示r∈R2f;关 系表示r计算如下:
Figure BDA00030819089200000510
其中,Linear(·)表示一个全连接的线性层,[;]为拼接操作,Wr∈R2f×2f和br∈R2f是训 练参数,r包含从关键词和短语中提取的关键关系特征;
S2.2.4分段最大池化层
使用分段卷积神经网络对句子建模,对于卷积层输出C={c1,c1,...,cf}∈Rf×n,执行分段 池化捕获句子结构信息;对每个卷积结果ci,以头实体和尾实体位置为分隔点,ci被切分为 三部分{ci1,ci2,ci3},然后对每个分段最大池化,计算公式如下:
zi=[maxpool(cij)]i=1,2,...,f;j=1,2,3 (12)
经过池化层后,得到分段序列Z={Z1,Z2,Z3}∈R3×f,将三部分串联,经过tanh函数,获 得句子表示s=tanh([Z1;Z2;Z3])∈R3f
进一步的,所述步骤S3具体为:使用语义融合层来整合多个语义表示,生成的稳健的 句子表示
Figure BDA0003081908920000061
计算如下:
Figure BDA0003081908920000062
其中,fφ(·)为将结果向量映射到3f维度空间的线性层,ReLU为线性整流激活函数,[;] 表示拼接运算;
Figure BDA0003081908920000063
表示两个增强实体之间的差异性,⊙代表逐元素相乘,
Figure BDA0003081908920000064
表 示在每个维度上捕获两种相似性。
进一步的,对含有m个句子的包B={s1,s2,...,sm},经过语义融合层可获得
Figure BDA0003081908920000065
及其对应的关系表示集合R=[r1,r2,...,rm],用前馈网络为每个句子生成门控向量gi,具体计 算如下:
gi=sigmoid(W2tanh(W1ri+b1)+b2)i=1,2,...,m (14)
其中,W1∈R3f×2f、W2∈R3f×3f是学习参数,b1和b2是偏置向量,sigmoid(·)为神经网络 的激活函数,tanh(·)为双曲正切函数,ri为第i个句子的关系表示;经过上述处理,获得门 控矩阵G=[g1,g2,...,gm]∈Rm×3f
对G和
Figure BDA0003081908920000066
执行逐元素相乘,并对结果进行平均聚合,获取包表示向量B,具体计算如下:
Figure BDA0003081908920000067
利用B计算所有关系预测概率。
更进一步的,利用B计算所有关系预测概率具体为:将B进行线性变换,并使用softmax 函数,输出预测概率,具体计算公式如下:
o=MB+bM (16)
Figure BDA0003081908920000068
其中,
Figure BDA0003081908920000069
均为可学习参数,dr是关系数目,o是置信度分数的向量,每 个分量对应一种关系,or和ok分别表示预测关系y的置信度分数和关系集R中第K个关 系的置信度分数,p(y|B)表示包B对应关系y的预测概率,exp(·)为以e为底的指数函数。
以上所述的基于实体特征的远程监督关系抽取方法,从多级别语义单元出发,探索关键 词语和短语的特征,同时解决特殊场景下的降噪困境,即包内仅有一个句子时,选择注意力 机制失去功效。基于上述目的,本发明提出了实体引导增强特征网络(EGEFN),来捕获可 靠关系特征,用于提升关系抽取效率。为了强调两个关键单词和短语,EGEFN模型通过实 体引导注意力从单词和短语层面提取关系特征,并将其集成到实体表示中,获取增强实体表 示。随后通过线性层,将增强实体表示生成稳健的关系向量;然后,EGEFN设计语义融合 层,融合多个语义特征表示,提升模型的准确度;在稳健的关系表示的基础上,EGEFN采 用关系度量聚合门来处理单句包问题,并对包进行更稳定、更鲁棒的聚合操作。
相比于现有方法,本发明率先提出了以下方法:
(1)提出了一个多级的增强实体表示模块,关注重要的单词和短语,并从这两个语义 层次中提取特征,用于增强两个实体表示。此外,通过线性层将两个多级增强实体表示转化 为稳健的关系表示。
(2)提出语义融合层,来整合PCNN编码的句子表示、两个增强实体表示和稳健的关系表示,以生成最终的增强句子表示。
(3)采用了关系度量聚合门作为聚合策略,获取健壮的包表示,旨在处理选择注意力 中出现的单句包问题。
经在NYT-10上进行实验验证,EGEFN能抽取关键关系特征,降噪性能优于之前先进模 型。
附图说明
图1是远程监督标记例子示意图。
图2是本发明(EGEFN)的流程示意图。
图3是相对位置的计算示意图。
图4是多头注意力结构示意图。
图5是EGEFN与基线模型的PR曲线图。
图6是消融实验各种模型的PR曲线图。
图7是五个单句包的案例分析。
具体实施方式
以下结合具体实施例对本发明作进一步说明,但本发明的保护范围不限于以下实施例。
结合图2所示,左边为本发明的主要框架,右边是多级增强实体表示的详细结构。
基于实体特征的远程监督关系抽取方法,包括以下步骤:
S1.处理输入表示,获取输入句子序列中第i个词的低维词嵌入向量、低维位置向量, 并经过串联操作,得到输入序列X,并从X中取出初始的头实体表示和尾实体表示。
S2.头实体表示和尾实体表示并列,被视为查询向量序列,在多头注意力作用下,从 目标句子中搜索最相关的单词和短语;多级增强实体表示模块提取单词和短语层面的语 义特征,并利用这些特征来增强头实体表示和尾实体表示;再将增强的头实体表示和尾实体表示拼接,输入到一个线性层中,以生成稳健的关系表示r;另外,使用分段卷积神 经网络获取句子表示s。
S3.使用语义融合层来整合多个语义表示,包括句子表示s、两个增强实体表示和稳 健的关系表示r,生成最终健壮的句子向量
Figure BDA0003081908920000085
S4.关系度量聚合门利用关系表示r计算对应句子的门控向量,并进行门控池化操作, 即计算门控向量与健壮的句子向量
Figure BDA0003081908920000081
的均值,获取包表示向量B,通过包表示向量B计算所有关系预测概率,预测概率最高的关系即为关键关系特征。
进一步的,步骤S1具体为:
对于长度为n的输入句子序列s,选用word2vec工具(word2vec工具可参见MikolovT, Chen K,Corrado G,et al.Efficient Estimation of Word Representations inVector Space[C].In Proceedings of the International Conference on LearningRepresentations,ICLR,2013,pp 1-12.), 对于第i个词,其索引经word2vec映射,获取低维词嵌入向量
Figure BDA0003081908920000082
其中:dw是词向量 维度,得到句子嵌入向量序列
Figure BDA0003081908920000083
在输入信息中引入词与待抽取关系的头、尾实体距离信息,将位置距离向量化,得到两 个低维位置向量
Figure BDA0003081908920000084
其中,vi1表示头实体到第i个词的距离,vi2表示尾实体到第i 个词的距离,dp是位置向量维数;结合图3举例所示,指定单词“born”与头尾实体距离分别 为2、-3。
经过串联操作,统合词嵌入与位置嵌入,得到最终的输入序列X={x1,x2,...,xn},xi=[wi;vi1;vi2]∈Rd,其中d表示输入向量维度,且d=dw+2×dp
从X中取出初始的头实体表示和尾实体表示,记作xh,xt∈Rd,其中,xh表示头实体表 示,xt表示尾实体表示。
进一步的,在关系抽取中,不同的词与目标实体的关联度不同,对于短语也是如此。 因此,本实施例设置了步骤S2,即图2的右边,为多级增强实体表示层的处理步骤。本发明通过计算两个实体和语义单元(即单词和短语)之间的相关性,从单词和短语层面提取语义特征。然后,将这些特征用于增强实体表示。因此,本发明提出实体引导注意力,以多 头注意力为基础,来捕捉不同子空间的单词和短语的丰富的语义特征。
步骤S2具体为:
S2.1词级增强实体表示
将两个实体表示xh和xt并列,得到查询向量序列qe=[xh,xt]∈R2×d,作为缩放点积注意 力中的查询Q,将单词输入序列X作为注意力机制中的键值对(K,V)。
将qe的两个向量分别与输入表示序列X的每个词逐一计算相关性,并通过相关性矩阵 和所有词向量的点积,得到词级增强的实体表示,具体计算公式如下:
Figure BDA0003081908920000091
Figure BDA0003081908920000092
其中,softmax()为神经网络中的归一化指数函数,A∈R2×n是相关度矩阵,由序列X与查询qe运算而来;对于A的一个元素aij代表第j个词与第i个实体的相关度;AX表示相关性矩阵 和所有词向量的点积,
Figure BDA0003081908920000093
表示词级增强的实体表示。
为了捕获更健壮的关系特征,本发明采用多头注意力(多头注意力可参见VaswaniA, Shazeer N,Parmar N,et al.Attention is all you need[C].In:Advances inNeural Information Processing Systems.2017:6000-6010.)来细化特征空间,旨在提高特征质量。图4展示了多 头注意力的结构,将输入划分多头,执行h次线性变换,各将查询、键、值分成h个分量, 并行执行公式(1)和(2)中的缩放点积注意力;在多头情况下,词级增强实体表示计算如 下:
MultiHead(Q,K,V)=[H1;H2;...;Hh]WR (3)
Hi=Attention(QWi Q,KWi K,VWi V) (4)
Figure BDA0003081908920000094
Figure BDA0003081908920000095
其中,MultiHead()表示多头自注意力,H1,H2,...,Hh表示多头自注意力中的h个头,
Figure BDA0003081908920000096
是第i个线性变换的参数矩阵,WR∈Rd×d是缩放点乘注意力的拼接结 果的参数矩阵,都是可学习的参数,[;]表示拼接运算,Attention()表示多头自注意力的缩放 点积注意力函数,LayerNorm指层归一化;
Figure BDA0003081908920000097
表示归一化之前的词级增强的实体表 示。
S2.2短语级增强实体表示
在分析句子语义时,短语是一种高效语义单元。在关系抽取背景下,句中某些短语包含 重要关系信息,在局部语境下,短语级特征提供更深层次的语义信息。例如表2中的第二个 句子,短语“the bodyhood home”、“who was born”以及“raised in”,表达了关键的信息, 能推断实体间存在出生地关系,即/people/person/place_of_birth。为了利用短语层面的稳健关 系特征,本发明使用CNN来建模句子中短语,通过实体引导注意力,以词级增强实体表示 为查询,聚焦关键短语信息,将其用于增强实体表示。
S2.2.1卷积层
构建卷积输入:令xi:j=[xi:xi+1:...:xj]表示拼接向量序列,代表输入序列X的部分拼接, 索引范围是[i,j];然后,定义卷积核Wc∈Rl×d,对输入X执行卷积运算,其输出为c∈Rn-l+1, cj是它的第j个元素,计算过程如下:
Figure BDA0003081908920000101
其中,l表示卷积的滑动窗口大小,
Figure BDA0003081908920000102
表示卷积算子,并对每个句子填充零向量,确保向量c 维数为n,与句子长度一致;
使用f个卷积核
Figure BDA0003081908920000103
用于拟合特征,运算结束后得到C={c1,c2,...,cf}∈Rf×n; C的每一列作为一个短语表示,且维度为f;对C转置,获得短语表示序列 P=CT={P1,P2,...,Pn}∈Rn×f
S2.2.2短语级实体引导注意力层
与计算词级增强实体表示相似,以词级增强实体表示
Figure BDA0003081908920000104
为缩放点积注意力中 的查询Q,短语序列P为缩放点积注意力中的键值对,获取不同短语与指定查询的相关度, 引导模型聚焦重点短语,捕获短语级关系特征,用于增强实体表示,短语级增强实体表示
Figure BDA0003081908920000105
通过下面公式计算:
Figure BDA0003081908920000106
Figure BDA0003081908920000107
Figure BDA0003081908920000108
其中,
Figure BDA0003081908920000109
表示归一化之前的短语级增强实体表示,f(·)是一个线性变换,旨 在转换词级增强实体表征的维度,从d变为短语表示f的大小,LayerNorm表示层归一化。
Figure BDA00030819089200001010
上标用wp表示短语级增强实体表示是由词级w过渡到短语级p的。
S2.2.3关系表示
使用一个线性层,转换拼接的头增强实体和尾增强实体向量,生成关系表示r∈R2f;关 系表示r计算如下:
Figure BDA00030819089200001011
其中,Linear(·)表示一个全连接的线性层,[;]为拼接操作,Wr∈R2f×2f和br∈R2f是训 练参数,r包含从关键词和短语中提取的关键关系特征;
S2.2.4分段最大池化层
使用分段卷积神经网络(Piecewise Convolutional Neural Networks,PCNN)对句子建模, 对于卷积层输出C={c1,c1,...,cf}∈Rf×n,执行分段池化捕获句子结构信息;对每个卷积结果ci, 以头实体和尾实体位置为分隔点,ci被切分为三部分{ci1,ci2,ci3},然后对每个分段最大池化, 计算公式如下:
zi=[maxpool(cij)]i=1,2,...,f;j=1,2,3 (12)
经过池化层后,得到分段序列Z={Z1,Z2,Z3}∈R3×f,将三部分串联,经过tanh函数,获 得句子表示s=tanh([Z1;Z2;Z3])∈R3f。Z1、Z2、Z3分别由公式(12)计算获得。
进一步的,本发明生成了多种语义表示,即增强实体表示
Figure BDA0003081908920000111
稳健的关系表示r和 句子表示;增强实体表示
Figure BDA0003081908920000112
集成了多级关系特征,受实体引导注意力驱动,按顺序从单 词到短语层级聚焦于关键语义。而关系表示不仅集成多级语义,而且融合两实体之间关联特 征。为了统合所有有用特征,本发明引入了语义融合层,集成三类特征向量,旨在合成稳健 的句子表示。处理过程即步骤S3。
步骤S3具体为:使用语义融合层来整合多个语义表示,生成的稳健的句子表示
Figure BDA0003081908920000113
计算如下:
Figure BDA0003081908920000114
其中,fφ(·)为将结果向量映射到3f维度空间的线性层,ReLU为线性整流激活函数,[;] 表示拼接运算;
Figure BDA0003081908920000115
表示两个增强实体之间的差异性,⊙代表逐元素相乘,
Figure BDA0003081908920000116
表 示在每个维度上捕获两种相似性。
进一步的,前面的步骤主要集中于降噪,这些方案总体思路有两点共性,即多实例学习 框架(具体可参见Riedel S,Yao L,McCallum A.Modeling relations and theirmentions without labeled text[C].In Proceedings of Joint European Conferenceon Machine Learning and Knowledge Discovery in Databases.2010:148-163.)和选择注意力机制(具体可参见Lin Y, Shen S,Liu Z,et al.Neural Relation Extractionwith Selective Attention over Instances[C].In Proceedings of the 54th AnnualMeeting of the Association for Computational Linguistics(Volume 1:LongPapers).2006:2124-2133.)。选择注意力是一种高效策略,指导模型倾向正确句子, 抑制噪声句子特征。然而,选择注意力权重分配模式面向多个句子,当它应用于单句包时, 无法发挥降噪功能。在NYT-10数据集中,约80%的包仅有一个句子。
基于上述考虑,本发明提出关系度量聚合门机制(Relation-MatchingAggregation Gate,RMAG),以多级关系特征为参考,聚合所有句子特征,生成包表示向量。关系表示由两个 增强实体表示计算而来,在关系度量聚合门中,根据关系表示r计算对于句子的门控向量, 然后对门控向量和句子进行Hadamard乘积,即逐元素相乘,其结果输入到平均聚合模块中, 生成包向量表示。具体来说,门控向量集成了稳健的关系特征,并通过逐元素乘积,来衡量 句子嵌入与其对应关系信息之间的匹配度。在获取包表示时,包内句子具有不同的贡献,关 系度量聚合门通过削弱错误标注的句子的贡献,强化正确句子重要性,缓解了噪声干扰影响。 当面临特殊数据形式时,即包内仅有一个句子,且该单句包是噪声包,关系度量聚合门为其 生成相应的门控向量,它衡量句子表示与其对应关系信息的匹配度,动态对齐错误标注实例, 极大抑制句子表示的噪声特征,最小化噪声句子的影响,防止噪声表示的传播,确保模型稳 定且有效地运行。关系度量聚合门机制具体的处理步骤,即步骤S4具体为:
对含有m个句子的包B={s1,s2,...,sm},经过语义融合层可获得
Figure BDA0003081908920000121
及其对 应的关系表示集合R=[r1,r2,...,rm],用前馈网络为每个句子生成门控向量gi,具体计算如下:
gi=sigmoid(W2tanh(W1ri+b1)+b2)i=1,2,...,m (14)
其中,W1∈R3f×2f、W2∈R3f×3f是学习参数,b1和b2是偏置向量,sigmoid(·)为神经网络 的激活函数,tanh(·)为双曲正切函数,ri为第i个句子的关系表示;经过上述处理,获得门 控矩阵G=[g1,g2,...,gm]∈Rm×3f
对G和
Figure BDA0003081908920000125
执行逐元素相乘,并对结果进行平均聚合,获取包表示向量B,具体计算如下:
Figure BDA0003081908920000122
利用B计算所有关系预测概率。利用B计算所有关系预测概率具体为:将B进行线性变换,并使用softmax函数,输出预测概率,预测概率最高的关系即为关键关系特征。具体计算公式如下:
o=MB+bM (16)
Figure BDA0003081908920000123
其中,
Figure BDA0003081908920000124
均为可学习参数,dr是关系数目,o是置信度分数的向量,每 个分量对应一种关系,or和ok分别表示预测关系y的置信度分数和关系集R中第K个关 系的置信度分数,p(y|B)表示包B对应关系y的预测概率,exp(·)为以e为底的指数函数。
试验与分析:
本实例采用NYT-10数据集,但为了验证EGEFN模型处理单句包的有效性,使用新构造的数据集进行实验。实验包括:基准对比实验、消融实验和不同比例单句包实验。通过结果分析,展示了EGEFN模型的特点,验证EGEFN模型的稳健性。
(1)实验设置
1.1数据集
本实施例使用NYT-10数据集,完成EGEFN模型的评估。NYT-10由Riedel等人(具体参见Riedel S,Yao L,McCallum A.Modeling relations and their mentions withoutlabeled text[C]. In Proceedings of Joint European Conference on MachineLearning and Knowledge Discovery in Databases.2010:148-163.)开发,设计启发式规则标注数据,以Freebase关系(具体参见 Bollacker K,Evans C,Paritosh P,etal.Freebase:a collaboratively created graph database for structuring humanknowledge[C].In Proceedings of the 2008ACM SIGMOD International Conference onManagement of Data.2008:1247-1250.)为监督,自动对齐纽约时报语料。 NYT-10有两部分组成:训练集和测试集。前者来自2005至2006年数据,而后者来自2007 年对齐部分。NYT-10有53个关系,包括52种常见关系和NA关系,NA关系是对特殊情况 的综合概述,即句子中两个实体之间没有关系。表3展示了它的详细信息。经统计,NYT-10 训练集中包含237,127个单句包,测试集包含74,857个单句包,两者几乎达到所有数据的80%。
表3 NYT-10统计信息
Figure BDA0003081908920000131
1.2评价指标
参照先前工作,本实例采用Held-out方法对实验进行评估,使用三类指标:PR曲线、 P@N和AUC。Held-out无需人为评估,采取自动化方式,将Freebase关系实例与模型的预测对比。
1.3参数设置
本发明大部分超参数遵循Lin等人(参见Lin Y,Shen S,Liu Z,et al.NeuralRelation Extraction with Selective Attention over Instances[C].In Proceedingsof the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2006:2124-2133.)工 作,对于输入词,其向量维度为50,而位置向量维度为5。在词级增强实体表示模块,本发 明设置实体引导注意力的头数为2,而在短语级增强实体表示模块中,设置实体引导注意力 的头数为5。CNN卷积核为230,其窗口大小为3。批次设为50,本研究采用SGD优化器, 使用动态学习率,初始学习率为0.1,在指定迭代步数衰减十分之一,设置衰减步数为10万。 其次,本发明设置dropout率(参见SrivastavaN,Hinton G E,Krizhevsky A,et al.Dropout:a simple way to prevent neuralnetworks from overfitting[J].Journal of Machine Learning Research, 2014,15(1):1929-1958.)为0.5。EGEFN模型的超参数详情如表4:
表4超参数设置
Figure BDA0003081908920000141
1.4基准模型
本实例中使用的基准模型如下:
·PCNN:引入分段最大池化到CNN,用于关系抽取任务。(参见Zeng D,Liu K,ChenY,et al.Distant Supervision for Relation Extraction via PiecewiseConvolutional Neural Networks[C].In Proceedings of the 2015Conference onEmpirical Methods in Natural Language Processing.2015:1753-1762.)
·PCNN+ATT:使用选择注意力作为PCNN的聚合方式,以生成包级别表示。(参 见Lin Y,Shen S,Liu Z,et al.Neural Relation Extraction with Selective Attentionover Instances[C].In Proceedings of the 54th Annual Meeting of theAssociation for Computational Linguistics(Volume 1:Long Papers).2006:2124-2133.)
·PCNN+ATT+SL:引入软标签方法解决错误标注问题。(参见Liu T,Wang K,ChangB,et al.A Soft-label Method for Noise-tolerant Distantly Supervised RelationExtraction[C]. In Proceedings of the 2017Conference on Empirical Methods inNatural Language Processing. 2017:1790-1795.)
·BGWA:是一个基于双向GRU的模型,同时使用单词级别和句子级别注意力。 (参见Jat S,Khandelwal S,Talukdar P.Improving distantly supervised relationextraction using word and entity based attention[J].arXiv preprint arXiv:1804.06987,2018.)
·PCNN+HATT:提出层次注意力,同时利用粗粒度和细粒度的关系信息。(参见 HanX,Yu P,Liu Z,et al.Hierarchical Relation Extraction with Coarse-to-FineGrained Attention[C].In Proceedings of the 2018Conference on EmpiricalMethods in Natural Language Processing.2018:2236-2245.)
·PCNN+BAG-ATT:使用包内和包间注意力对模型建模,把降噪范围从句子层面 拓展到包层面。(参见Ye Z,Ling Z.Distant Supervision Relation Extraction withIntra-Bag and
·SeG:设计了选择门机制,主要关注单句包问题,借助特别的自注意力建模句子上下文表征,利用上下文向量来计算门控向量,最后通过平均聚合方式,获得包级别表 示。注意:由于本发明无法复现SeG模型,因此仅引入SeG模型的P@N值,与本发明EGEFN 模型对比。(参见Li Y,Long G,Shen T,et al.Self-Attention Enhanced Selective Gate withEntity-Aware Embedding for Distantly Supervised Relation Extraction[C]. InProceedings of the AAAI Conference on Artificial Intelligence. 2020:8269-8276.)
(2)结果与分析
2.1基准对比实验
如表5所示,相比与之前先进方法,本发明模型EGEFN在P@N指标中取得最好性能。在All测试设置中,EGEFN模型的平均P@N为92.9%,比PCNN和PCNN+ATT分别提升 了24.2%和20.7%。EGEFN性能优于BGWA和PCNN+ATT+SL,并分别获得16.6%和10.1% 的提升。上述结果表明,与基于选择注意力的方法相比,关系度量聚合门获取更好的效果, 很好解决错误标注问题。PCNN+HATT和PCNN+BAG-ATT是基于选择注意力的最佳模型, 与这两者相比,EGEFN仍有很大的提升,分别是12.0%和8.1%。相比于SeG,本发明模型 EGEFN设计一个关系度量聚合门,该门机制是基于多级关系特征,在平均P@N上提升3.6%, 由此可见,尽管NYT-10数据集中存在大量的单句包,EGEFN依旧能够获得稳定且高效的性 能,并且关系判别准确性更高。
表5 EGEFN与基准模型的P@N值
Figure BDA0003081908920000151
Figure BDA0003081908920000161
此外,图5为EGEFN和基准模型的PR曲线。根据曲线走势,从中可观察到:(1)BGWA和PCNN+ATT模型性能优于PCNN,这证明注意力机制的合理性,有助于消除噪声,提高 抽取性能。(2)PCNN+ATT+SL比PCNN、PCNN+ATT取得更高的精确度,说明软标签方法 强大的降噪能力,可以获得稳定的性能。(3)与所有基线相比,所提出的EGEFN在整个召 回范围内实现了最高的精度。具体来说,EGEFN比PCNN+HATT、PCNN+BAG-ATT的表现 要好很多,尤其当召回值在[0.10,0.40]区间。此外,随着召回值的增大,EGEFN的精确度稳 速下降,而所有的基准模型都快速下降,这说明EGEFN可以获得显著且相对稳定的性能。
2.2消融实验
进行消融研究以证明EGEFN框架中每个模块的有效性。消融研究中使用2.1节的指标, 即P@N、PR曲线和AUC。本发明报告了EGEFN的不同消融模型,具体描述如下:
EGEFN w/o word表示移除词级增强实体表示模块后的模型。
EGEFN w/o phrase表示移除短语级增强实体表示模块后的模型。
EGEFN w/o fusion表示删除EGEFN的语义融合层,只使用PCNN编码句子的模型。
EGEFN w/o gate表示用选择性注意力(PCNN+ATT)替换关系度量聚合门模型。
表6 EGEFN的P@N值和AUC值
Ablations AUC 100 200 300 mean
EGEFN 0.50 95.2 93.3 90.3 92.9
EGEFN w/o word 0.44 90.0 84.9 82.4 85.7
EGEFN w/o phrase 0.47 91.8 89.8 87.1 89.5
EGEFN w/o fusion 0.45 91.0 85.9 80.4 85.7
EGEFN w/o gate 0.46 90.2 87.2 83.0 86.8
P@N和AUC结果如表6所示,P@N使用All方案的结果。当移除词级增强实体表示模块,即EGEFN w/o word模型,或移除短语级增强实体表示模块,即EGEFN w/o phrase模型,所有句子P@N平均值分别下降7.2%和3.4%,其相应的AUC值分别为0.44和0.47,相较于EGEFN,分别降低了0.06和0.03。图6是相应的PR曲线,从中可观察到:EGEFN w/o phrase 的PR曲线位于EGEFN w/o word模型上方,在整个召回范围内,EGEFN模型PR曲线囊括 所有消融模型的曲线。这些结果表明,整合多级关键的关系特征可以提高关系抽取的性能, 且词级别关系特征比短语级关系特征的作用更显著,两个模块之间互为补充,相互促进。移 除语义融合层,即EGEFN w/o fusion模型,其P@N平均值从92.9%下降到85.7%,并且AUC 值为0.45,相比EGEFN模型下降0.05,这表明与PCNN句子编码相比,本发明提出的语义 融合方法产生了更强的语义表示,整合多种语义表示亦能提高关系抽取的鲁棒性。当移除关 系度量聚合门(RMAG)模块,即EGEFN w/o gate模型,用选择注意力代替关系度量聚合门 执行句子聚合操作,相比EGEFN模型,性能变化明显,其AUC值降为0.46,P@N平均值 降至86.8%。NYT-10存在特殊噪声数据,即包内所有句子均为噪声或单句包。对于包内所有 句子均为噪声,选择注意力机制产生噪声句子的加权和。对于单句包,选择注意力输出原始 句子表示。但对于EGEFN模型,它的关系度量聚合门以多级增强关系特征为依据,计算相 应门控向量,抑制噪声句子影响。从上述结果看,相比于选择注意力(PCNN+ATT),关系 度量聚合门更能包容单句包数据,更善于处理噪声。总的来说,EGEFN模型在P@N、AUC 和PR曲线均优于其他模型。
2.3案例分析
为了分析EGEFN各个模块的功能,本实施例使用EGEFN w/o FG、EGEFN w/o gate和EGEFN以五个单句包为例进行案例研究,如图7所示。需要注意的是,EGEFN w/o FG意味 着移除语义融合层模块和关系度量聚合门模块,因此EGEFN w/o FG便退化为PCNN+ATT 模型。
就包1、2和3而言,在没有关系度量聚合门的情况下,EGEFN w/o gate将三个包误判 为NA类,然而它们的关系分别为/location/location/contains、/location/country/captital/和 /people/person/nationality。另一方面,本发明提出的EGEFN模型正确预测三个包关系,由此 可见,采用关系度量聚合门有利于解决单句包问题。为了验证多级稳健关系特征的有效性, 通过包5来分析EGEFN w/o gate和EGEFN w/o FG。本发明发现,包5的标签为 /people/person/nationality,EGEFN w/o FG预测为NA,而EGEFN w/o gate做出正确预测。与 EGEFN w/o FG相比,EGEFN w/o gate使用了语义融合层模块,集成多层级关系特征。结果 表明,在判别实体对的关系时,多级关系特征能提供重要关系信息。
可见,EGEFN在NYT-10上进行实验,证明EGEFN能抽取关键关系特征,降噪性能优于之前先进模型。

Claims (6)

1.基于实体特征的远程监督关系抽取方法,其特征在于包括以下步骤:
S1.处理输入表示,获取输入句子序列中第i个词的低维词嵌入向量、低维位置向量,并经过串联操作,得到输入序列X,并从X中取出初始的头实体表示和尾实体表示;
S2.头实体表示和尾实体表示并列,被视为查询向量序列,在多头注意力作用下,从目标句子中搜索最相关的单词和短语;多级增强实体表示模块提取单词和短语层面的语义特征,并利用这些特征来增强头实体表示和尾实体表示;再将增强的头实体表示和尾实体表示拼接,输入到一个线性层中,以生成稳健的关系表示r;另外,使用分段卷积神经网络获取句子表示s;
S3.使用语义融合层来整合多个语义表示,包括句子表示s、两个增强实体表示和稳健的关系表示r,生成最终健壮的句子向量
Figure FDA0003081908910000011
S4.关系度量聚合门利用关系表示r计算对应句子的门控向量,并进行门控池化操作,即计算门控向量与健壮的句子向量
Figure FDA0003081908910000012
的均值,获取包表示向量B,通过包表示向量B计算所有关系预测概率,预测概率最高的关系即为关键关系特征。
2.根据权利要求1所述的基于实体特征的远程监督关系抽取方法,其特征在于:
所述步骤S1具体为:
对于长度为n的输入句子序列s,选用word2vec工具,对于第i个词,其索引经word2vec映射,获取低维词嵌入向量
Figure FDA0003081908910000013
其中:dw是词向量维度,得到句子嵌入向量序列
Figure FDA0003081908910000014
在输入信息中引入词与待抽取关系的头、尾实体距离信息,将位置距离向量化,得到两个低维位置向量
Figure FDA0003081908910000015
其中,vi1表示头实体到第i个词的距离,vi2表示尾实体到第i个词的距离,dp是位置向量维数;
经过串联操作,统合词嵌入与位置嵌入,得到最终的输入序列X={x1,x2,...,xn},xi=[wi;vi1;vi2]∈Rd,其中d表示输入向量维度,且d=dw+2×dp
从X中取出初始的头实体表示和尾实体表示,记作xh,xt∈Rd,其中,xh表示头实体表示,xt表示尾实体表示。
3.根据权利要求2所述的基于实体特征的远程监督关系抽取方法,其特征在于:
所述步骤S2具体为:
S2.1词级增强实体表示
将xh和xt并列,得到查询向量序列qe=[xh,xt]∈R2×d,作为缩放点积注意力中的查询Q,将单词输入序列X作为注意力机制中的键值对(K,V);
将qe的两个向量分别与输入表示序列X的每个词逐一计算相关性,并通过相关性矩阵和所有词向量的点积,得到词级增强的实体表示,具体计算公式如下:
Figure FDA0003081908910000021
Figure FDA0003081908910000022
其中,softmax()为神经网络中的归一化指数函数,A∈R2×n是相关度矩阵,由序列X与查询qe运算而来;对于A的一个元素aij代表第j个词与第i个实体的相关度;AX表示相关性矩阵和所有词向量的点积,
Figure FDA0003081908910000023
表示词级增强的实体表示;
将输入划分多头,执行h次线性变换,各将查询、键、值分成h个分量,并行执行公式(1)和(2)中的缩放点积注意力;在多头情况下,词级增强实体表示计算如下:
MultiHead(Q,K,V)=[H1;H2;...;Hh]WR (3)
Hi=Attention(QWi Q,KWi K,VWi V) (4)
Figure FDA0003081908910000024
Figure FDA0003081908910000025
其中,MultiHead()表示多头自注意力,H1,H2,...,Hh表示多头自注意力中的h个头,
Figure FDA0003081908910000026
是第i个线性变换的参数矩阵,WR∈Rd×d是缩放点乘注意力的拼接结果的参数矩阵,都是可学习的参数,[;]表示拼接运算,Attention()表示多头自注意力的缩放点积注意力函数,LayerNorm指层归一化;
Figure FDA0003081908910000027
表示归一化之前的词级增强的实体表示;
S2.2短语级增强实体表示
S2.2.1卷积层
构建卷积输入:令xi:j=[xi:xi+1:...:xj]表示拼接向量序列,代表输入序列X的部分拼接,索引范围是[i,j];然后,定义卷积核Wc∈Rl×d,对输入X执行卷积运算,其输出为c∈Rn -l+1,cj是它的第j个元素,计算过程如下:
Figure FDA0003081908910000028
其中,l表示卷积的滑动窗口大小,
Figure FDA0003081908910000029
表示卷积算子,并对每个句子填充零向量,确保向量c维数为n,与句子长度一致;
使用f个卷积核
Figure FDA00030819089100000210
用于拟合特征,运算结束后得到
Figure FDA00030819089100000211
C的每一列作为一个短语表示,且维度为f;对C转置,获得短语表示序列P=CT={P1,P2,...,Pn}∈Rn×f
S2.2.2短语级实体引导注意力层
以词级增强实体表示
Figure FDA0003081908910000031
为缩放点积注意力中的查询Q,短语序列P为缩放点积注意力中的键值对,获取不同短语与指定查询的相关度,引导模型聚焦重点短语,捕获短语级关系特征,用于增强实体表示,短语级增强实体表示
Figure FDA0003081908910000032
通过下面公式计算:
Figure FDA0003081908910000033
Figure FDA0003081908910000034
Figure FDA0003081908910000035
其中,
Figure FDA0003081908910000036
表示归一化之前的短语级增强实体表示,f(·)是一个线性变换,旨在转换词级增强实体表征的维度,从d变为短语表示f的大小,LayerNorm表示层归一化;
S2.2.3关系表示
使用一个线性层,转换拼接的头增强实体和尾增强实体向量,生成关系表示r∈R2f;关系表示r计算如下:
Figure FDA0003081908910000037
其中,Linear(·)表示一个全连接的线性层,[;]为拼接操作,Wr∈R2f×2f和br∈R2f是训练参数,r包含从关键词和短语中提取的关键关系特征;
S2.2.4分段最大池化层
使用分段卷积神经网络对句子建模,对于卷积层输出C={c1,c1,...,cf}∈Rf×n,执行分段池化捕获句子结构信息;对每个卷积结果ci,以头实体和尾实体位置为分隔点,ci被切分为三部分{ci1,ci2,ci3},然后对每个分段最大池化,计算公式如下:
zi=[maxpool(cij)] i=1,2,...,f;j=1,2,3 (12)
经过池化层后,得到分段序列Z={Z1,Z2,Z3}∈R3×f,将三部分串联,经过tanh函数,获得句子表示s=tanh([Z1;Z2;Z3])∈R3f
4.根据权利要求3所述的基于实体特征的远程监督关系抽取方法,其特征在于:
所述步骤S3具体为:使用语义融合层来整合多个语义表示,生成的稳健的句子表示
Figure FDA0003081908910000038
计算如下:
Figure FDA0003081908910000041
其中,fφ(·)为将结果向量映射到3f维度空间的线性层,ReLU为线性整流激活函数,[;]表示拼接运算;
Figure FDA0003081908910000042
表示两个增强实体之间的差异性,⊙代表逐元素相乘,
Figure FDA0003081908910000043
表示在每个维度上捕获两种相似性。
5.根据权利要求4所述的基于实体特征的远程监督关系抽取方法,其特征在于:
对含有m个句子的包B={s1,s2,...,sm},经过语义融合层可获得
Figure FDA0003081908910000044
及其对应的关系表示集合R=[r1,r2,...,rm],用前馈网络为每个句子生成门控向量gi,具体计算如下:
gi=sigmoid(W2tanh(W1ri+b1)+b2) i=1,2,...,m (14)
其中,W1∈R3f×2f、W2∈R3f×3f是学习参数,b1和b2是偏置向量,sigmoid(·)为神经网络的激活函数,tanh(·)为双曲正切函数,ri为第i个句子的关系表示;经过上述处理,获得门控矩阵G=[g1,g2,...,gm]∈Rm×3f
对G和
Figure FDA0003081908910000045
执行逐元素相乘,并对结果进行平均聚合,获取包表示向量B,具体计算如下:
Figure FDA0003081908910000046
利用B计算所有关系预测概率。
6.根据权利要求5所述的基于实体特征的远程监督关系抽取方法,其特征在于:
利用B计算所有关系预测概率具体为:将B进行线性变换,并使用softmax函数,输出预测概率,具体计算公式如下:
o=MB+bM (16)
Figure FDA0003081908910000047
其中,
Figure FDA0003081908910000048
均为可学习参数,dr是关系数目,o是置信度分数的向量,每个分量对应一种关系,or和ok分别表示预测关系y的置信度分数和关系集R中第K个关系的置信度分数,p(y|B)表示包B对应关系y的预测概率,exp(·)为以e为底的指数函数。
CN202110569055.4A 2021-05-25 2021-05-25 基于实体特征的远程监督关系抽取方法 Active CN113220844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110569055.4A CN113220844B (zh) 2021-05-25 2021-05-25 基于实体特征的远程监督关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110569055.4A CN113220844B (zh) 2021-05-25 2021-05-25 基于实体特征的远程监督关系抽取方法

Publications (2)

Publication Number Publication Date
CN113220844A true CN113220844A (zh) 2021-08-06
CN113220844B CN113220844B (zh) 2023-01-24

Family

ID=77098218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110569055.4A Active CN113220844B (zh) 2021-05-25 2021-05-25 基于实体特征的远程监督关系抽取方法

Country Status (1)

Country Link
CN (1) CN113220844B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN114330323A (zh) * 2022-03-08 2022-04-12 成都数联云算科技有限公司 实体关系联合抽取方法、装置、计算机终端及存储介质
CN114357176A (zh) * 2021-11-26 2022-04-15 永中软件股份有限公司 实体知识自动抽取方法和计算机装置、计算机可读介质
CN115168599A (zh) * 2022-06-20 2022-10-11 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品
CN117688974A (zh) * 2024-02-01 2024-03-12 中国人民解放军总医院 基于知识图谱的生成式大模型建模方法、系统及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555084A (zh) * 2019-08-26 2019-12-10 电子科技大学 基于pcnn和多层注意力的远程监督关系分类方法
CN110580340A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种基于多注意力机制的神经网络关系抽取方法
CN110619121A (zh) * 2019-09-18 2019-12-27 江南大学 基于改进深度残差网络和注意力机制的实体关系抽取方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法
CN111859912A (zh) * 2020-07-28 2020-10-30 广西师范大学 基于pcnn模型的带有实体感知的远程监督关系抽取方法
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555084A (zh) * 2019-08-26 2019-12-10 电子科技大学 基于pcnn和多层注意力的远程监督关系分类方法
CN110580340A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种基于多注意力机制的神经网络关系抽取方法
CN110619121A (zh) * 2019-09-18 2019-12-27 江南大学 基于改进深度残差网络和注意力机制的实体关系抽取方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111767409A (zh) * 2020-06-14 2020-10-13 南开大学 一种基于多头自注意力机制的实体关系抽取方法
CN111859912A (zh) * 2020-07-28 2020-10-30 广西师范大学 基于pcnn模型的带有实体感知的远程监督关系抽取方法
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAIXU WEN等: ""A gated piecewise CNN with entity-aware enhancement for distantly supervised relation extraction"", 《INFORMATION PROCESSING AND MANAGEMENT》 *
TINGTING SUN等: ""MSnet:Multi-Head Self-Attention Network for Distantly Supervised Relation Extraction"", 《IEEE ACCESS》 *
朱庆: ""融合多头自注意力和实体特征的远程监督关系抽取"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN114357176A (zh) * 2021-11-26 2022-04-15 永中软件股份有限公司 实体知识自动抽取方法和计算机装置、计算机可读介质
CN114357176B (zh) * 2021-11-26 2023-11-21 永中软件股份有限公司 实体知识自动抽取方法和计算机装置、计算机可读介质
CN114330323A (zh) * 2022-03-08 2022-04-12 成都数联云算科技有限公司 实体关系联合抽取方法、装置、计算机终端及存储介质
CN115168599A (zh) * 2022-06-20 2022-10-11 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品
CN117688974A (zh) * 2024-02-01 2024-03-12 中国人民解放军总医院 基于知识图谱的生成式大模型建模方法、系统及设备
CN117688974B (zh) * 2024-02-01 2024-04-26 中国人民解放军总医院 基于知识图谱的生成式大模型建模方法、系统及设备

Also Published As

Publication number Publication date
CN113220844B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
CN113220844B (zh) 基于实体特征的远程监督关系抽取方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
US10713298B2 (en) Video retrieval methods and apparatuses
WO2020143184A1 (zh) 知识融合方法、装置、计算机设备和存储介质
CN110598005A (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN112015868A (zh) 基于知识图谱补全的问答方法
Lu et al. Beyond holistic object recognition: Enriching image understanding with part states
CN112256939A (zh) 一种针对化工领域的文本实体关系抽取方法
Julca-Aguilar et al. A general framework for the recognition of online handwritten graphics
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN114036955B (zh) 中心词跨句事件论元检测方法
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN112307740A (zh) 一种基于混合注意力网络的事件检测方法及装置
CN114036303A (zh) 一种基于双粒度注意力和对抗训练的远程监督关系抽取方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
WO2021003813A1 (zh) 基于神经网络模型的答案生成方法及相关设备
Song et al. Sparse multi-modal topical coding for image annotation
CN112613451A (zh) 一种跨模态文本图片检索模型的建模方法
CN116361438A (zh) 基于文本-知识扩展图协同推理网络的问答方法及系统
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.
Wang et al. Dct-net: A deep co-interactive transformer network for video temporal grounding
Martin-Merino et al. Self organizing map and sammon mapping for asymmetric proximities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220921

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 541004 No. 15 Yucai Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region

Applicant before: Guangxi Normal University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230104

Address after: Room 601 and Room 602, No. 16, Yunchuang Street, Huangpu District, Guangzhou, Guangdong 510000

Applicant after: Guangdong Environmental Equity Exchange Co.,Ltd.

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant before: Yami Technology (Guangzhou) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant