CN115358227A - 一种基于短语增强的开放域关系联合抽取方法及系统 - Google Patents

一种基于短语增强的开放域关系联合抽取方法及系统 Download PDF

Info

Publication number
CN115358227A
CN115358227A CN202210385209.9A CN202210385209A CN115358227A CN 115358227 A CN115358227 A CN 115358227A CN 202210385209 A CN202210385209 A CN 202210385209A CN 115358227 A CN115358227 A CN 115358227A
Authority
CN
China
Prior art keywords
phrase
entity
open domain
relation
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210385209.9A
Other languages
English (en)
Inventor
姜添
胡岩峰
乔雪
向镐鹏
彭晨
闵飞
潘宇顺
沈红
付啟明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Aerospace Information Research Institute
Original Assignee
Suzhou Aerospace Information Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Aerospace Information Research Institute filed Critical Suzhou Aerospace Information Research Institute
Priority to CN202210385209.9A priority Critical patent/CN115358227A/zh
Publication of CN115358227A publication Critical patent/CN115358227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于短语增强的开放域关系联合抽取方法及系统,通过BERT预训练语言模型对句子中的字符进行编码,提取句子特征向量表示;根据首实体短语标注模型,解码句子特征向量表示,抽取所有可能构成关系三元组的首实体短语;构建除首实体短语外的关系短语词汇增强词典,并将外部关系短语词汇表所包含的短语信息融合到句子特征向量表示中;根据关系短语和尾实体序列标注模型,抽取出首实体短语对应的所有关系短语和尾实体短语,构建该首实体的候选开放域关系三元组集合;根据开放域关系三元组的置信度,从候选开放域关系三元组集合中,选择置信度高于设定阈值的开放域关系三元组,作为该首实体的开放域关系三元组。本发明能够更好地整合关系短语和实体对短语之间的信息。

Description

一种基于短语增强的开放域关系联合抽取方法及系统
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于短语增强的开放域关系联合抽取方法及系统。
背景技术
开放域关系抽取是信息抽取领域一个热点研究方向之一,与限定域关系抽取不同,开放域关系抽取不需要预先定义关系类别,而是直接从非结构化文本中抽取出关系三元组,这有助于发现实体间的新关系。开放域关系抽取在知识图谱构建、问答系统、信息检索等领域具有广阔的应用前景。
随着深度学习技术的迅猛发展以及各种开源开放域信息抽取系统的出现,基于深度学习模型的开放域关系抽取方法逐渐成为主流趋势。传统基于深度学习的开放域关系抽取方法通常采用序列标注的方式,将句子中开放域关系三元组的抽取过程分为两个子任务:首先,识别给定句子中的关系短语,然后,再根据识别的关系短语抽取对应的实体对短语。然而,传统方法主要存在三个问题:(1) 忽略了关系短语识别和实体对识别两个子任务之间的内在联系和依赖关系,导致关系抽取精度不高;(2)两个子任务产生的误差可能累积,关系短语识别的错误会影响实体对识别的效果;(3)基于字符级别的关系短语识别方法对关系短语边界的识别能力较差,导致识别的关系短语信息冗余或者信息缺失,难以表达实际关系含义。
针对上述问题,本发明创新性地提出一种基于短语增强的开放域关系联合抽取方法,将关系短语识别和实体对识别两个任务进行联合建模学习,端到端实现开放域关系三元组抽取,能够更好地整合关系短语和实体对短语之间的信息。此外,本方法引入外部关系短语词典,以增强开放域关系短语的边界学习能力,提高关系短语的语义简洁性和完整性。
[1]Fan,A.,Gardent,C.,Braud,C.,Bordes,A.:Using local knowledge graphconstruction to scale seq2seq models to multi-document inputs.In:Proceedingsof EMNLP-IJCNLP,pp.4186–4196(2019)
[2]Kolluru,K.,et al.:Imojie:iterative memory-based joint openinformation extraction.
In:Proceedings of ACL,pp.5871–5886(2020)
[3]Stanovsky,G.,Michael,J.,Zettlemoyer,L.,Dagan,I.:Supervised openinformation
extraction.In:Proceedings of NAACL-HLT,pp.885-895(2018)
[4]Sui,D.,Chen,Y.,Liu,K.,Zhao,J.,Liu,S.:Leverage lexical knowledgefor chinese
named entity recognition via collaborative graph network.In:Proceedings of EMNLP-IJCNLP,pp.3821–3831(2019)
[5]Zhan,J.,Zhao,H.:Span model for open information extraction onaccurate corpus.
In:Proceedings of AAAI,pp.9523–9530(2020)
发明内容
本发明的目的在于提出一种基于短语增强的开放域关系联合抽取方法及系统,以解决现有开放域关系抽取方法普遍存在的抽取准确性较低、关系短语信息冗余或缺失、关系语义表达不精准等问题。
实现本发明目的的技术解决方案为:一种基于短语增强的开放域关系联合抽取方法,包括下列步骤:
步骤1.特征提取:通过BERT预训练语言模型对句子中的字符进行编码,提取句子特征向量表示;
步骤2.首实体短语抽取:根据首实体短语标注模型,解码句子特征向量表示,抽取所有可能构成关系三元组的首实体短语;
步骤3.关系短语词汇表构建:构建除首实体短语外的关系短语词汇增强词典,并将外部关系短语词汇表所包含的短语信息融合到句子特征向量表示中;
步骤4.关系短语和尾实体短语抽取:根据关系短语和尾实体序列标注模型,抽取出首实体短语对应的所有关系短语和尾实体短语,构建该首实体的候选开放域关系三元组集合;
步骤5.开放域关系三元组筛选:根据开放域关系三元组的置信度,从候选开放域关系三元组集合中,选择置信度高于设定阈值的开放域关系三元组,作为该首实体的开放域关系三元组。
进一步的,步骤1,通过BERT预训练语言模型对句子中的字符进行编码,提取句子特征向量表示,具体方法为:
h0=SWs+Wp (1)
其中,h0表示提取的句子特征向量,S代表输入的句子中词的one-hot向量矩阵, Ws代表词嵌入矩阵,Wp代表位置嵌入矩阵,其中p表示输入句子中的位置索引;
hα=Trans(hα-1),α∈[1,N] (2)
其中,hα代表隐藏状态向量,即输入句子在第α层的上下文表示,N代表Transformer块的数量。
进一步的,步骤2,根据首实体短语标注模型,解码句子特征向量表示,抽取所有可能构成关系三元组的首实体短语,具体方法为:
首实体短语起始位置和结束位置的计算公式分别是:
Figure RE-GDA0003894108910000031
Figure RE-GDA0003894108910000032
其中,
Figure RE-GDA0003894108910000033
分别代表输入句子序列中,第i个词作为首实体短语的开始和结束位置的概率,在模型序列标注中,若概率值大于阈值,则该位置设为1,反之设为0,xi代表第i个词的编码序列,Wstart、Wend表示首实体短语开始和结束位置的权重,bstart、bend表示首实体短语开始和结束位置的偏差,σ表示 sigmoid激活函数。
进一步的,步骤3,构建除首实体短语外的关系短语词汇增强词典,并将外部关系短语词汇表所包含的短语信息融合到句子特征向量表示中,具体方法为:
步骤3.1,构建关系短语词汇增强词典:采集维基百科语料数据,使用依存句法分析、词性分析方法对数据进行处理,提取维基百科数据中的关系短语而构建关系短语词汇增强词典;
步骤3.2,匹配词分类:通过构建的关系短语词典集匹配输入句子中除首实体短语外的每个字符,将匹配的结构词分为“BMES”四类,对于一个去除首实体短语的输入句子序列s={c1,c2,...,cn},“BMES”四类定义为:
B(ci)={wi,k,wi,k∈L,i<k≤n} (5)
M(ci)={wj,k,wj,k∈L,1≤j<i<k≤n} (6)
E(ci)={wj,i,wj,i∈L,1≤j<i} (7)
S(ci)={ci,ci∈L} (8)
其中,L代表构建的关系短语词汇增强词典;B、M、E、S分别表示以ci为起始位置的词、以ci为中间位置的词、以ci为结尾位置的词、单个ci的词,w表示所有可能匹配到的B、M、E、S词集的词;
步骤3.3,词集压缩:获得“BMES”四个词集后,将每个词集的内容压缩为固定维数的向量,得到关系短语词汇表信息,压缩公式为:
Figure RE-GDA0003894108910000041
其中,
Figure RE-GDA0003894108910000042
S代表一个词集,ew代表词嵌入查找表,z(w)代表词w在维基数据集中出现的频率;
步骤3.4,将关系短信词汇表信息嵌入到句子特征向量,公式为:
Figure RE-GDA0003894108910000043
其中,vs代表加权函数,
Figure RE-GDA0003894108910000048
表示“BMES”四个词集拼接,
Figure RE-GDA0003894108910000049
表示嵌入了关系短信词汇表信息的句子特征向量。
进一步的,步骤4,根据关系短语和尾实体序列标注模型,抽取出首实体短语对应的所有关系短语和尾实体短语,构建该首实体的候选开放域关系三元组集合,具体方法为:
抽取首实体可能对应的尾实体短语位置公式为:
Figure RE-GDA0003894108910000044
Figure RE-GDA0003894108910000045
其中,
Figure RE-GDA0003894108910000046
分别代表输入句子序列中,第i个词作为尾实体短语的开始和结束位置的概率,
Figure RE-GDA0003894108910000047
代表第k个候选首实体,xi代表第i个词的编码序列,
Figure RE-GDA0003894108910000051
表示尾实体短语开始和结束位置的权重,
Figure RE-GDA0003894108910000052
表示尾实体短语开始和结束位置的偏差,σ表示sigmoid激活函数;
抽取首实体可能对应的关系短语位置公式为:
Figure RE-GDA0003894108910000053
Figure RE-GDA0003894108910000054
其中
Figure RE-GDA0003894108910000055
分别代表输入句子序列中,第i个词作为关系短语的开始和结束位置的概率,
Figure RE-GDA0003894108910000056
代表第k个候选首实体,
Figure RE-GDA0003894108910000057
代表候选首实体可能对应的第m 个尾实体,xi代表第i个词的编码序列,
Figure RE-GDA0003894108910000058
表示关系短语开始和结束位置的权重,
Figure RE-GDA0003894108910000059
表示关系短语开始和结束位置的偏差,σ表示sigmoid激活函数。
进一步的,步骤5,对于首实体存在多元关系的情况,通过筛选结果保留多个关系三元组。
一种基于短语增强的开放域关系联合抽取系统,基于所述的基于短语增强的开放域关系联合抽取方法,实现基于短语增强的开放域关系联合抽取。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的基于短语增强的开放域关系联合抽取方法,实现基于短语增强的开放域关系联合抽取。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的基于短语增强的开放域关系联合抽取方法,实现基于短语增强的开放域关系联合抽取。
本发明与现有技术相比,其显著优点为:1)利用关系短语识别和实体对识别两个子任务之间的内在联系和依赖关系,将关系短语识别和实体对识别两个任务进行联合建模学习,实现端到端的开放域关系三元组抽取,能够更好地整合关系短语和实体对短语之间的信息。2)引入外部关系短语词典,以增强开放域关系短语的边界学习能力,提高关系短语的语义简洁性和完整性。
附图说明
图1是一种基于短语增强的开放域关系联合抽取方法的框架图;
图2是一种基于短语增强的开放域关系联合抽取方法的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为本发明一种基于短语增强的开放域关系联合抽取方法的框架图。基于短语增强的开放域关系联合抽取方法,包括:
步骤1.特征提取。原始句子通过BERT预训练模型编码,提取句子特征向量。
h0=SWs+Wp (1)
其中,S代表输入的句子中词的one-hot向量矩阵,Ws代表词嵌入矩阵,Wp代表位置嵌入矩阵,p表示输入句子中的位置索引。
hα=Trans(hα-1),α∈[1,N] (2)
其中,hα代表隐藏状态向量,即输入句子在第α层的上下文表示,N代表Transformer块Trans(.)的数量。
步骤2.抽取句子中候选首实体短语。通过解码BERT编码器生成的句子特征向量,抽取输入句子中所有可能的首实体短语。首实体短语起始位置和结束位置的计算公式是:
Figure RE-GDA0003894108910000061
Figure RE-GDA0003894108910000062
其中,
Figure RE-GDA0003894108910000063
分别代表输入句子序列中,第i个词作为首实体短语的开始位置和结构位置的概率。在模型序列标注中,若概率值大于阈值,则该位置设为 1,反之设为0。xi代表第i个词的编码序列,W表示权重,b表示偏差,σ表示sigmoid激活函数。
步骤3.关系短语词汇表构建。为了解决开放域关系抽取结果中出现的关系短语冗余、关系信息错误等情况,提出构建关系短语增强词汇表提炼抽取的关系表达短语,使得抽取的关系三元组表达更简洁、清晰。关系短语词汇表构建主要包括以下步骤:
(1)构建关系短语词典集:采集维基百科语料数据,使用依存句法分析、词性分析等方法对数据进行处理,提取维基百科数据中的关系短语而构建关系短语词典集。
(2)匹配词分类:通过构建的关系短语词典集匹配输入句子中除首实体短语外的每个字符,将匹配的结构词分为“BMES”四类,对于一个去除首实体短语的输入句子序列s={c1,c2,...,cn},“BMES”四类定义为:
B(ci)={wi,k,wi,k∈L,i<k≤n} (5)
M(ci)={wj,k,wj,k∈L,1≤j<i<k≤n} (6)
E(ci)={wj,i,wj,i∈L,1≤j<i} (7)
S(ci)={ci,ci∈L} (8)
其中,L代表构建的词典集,B、M、E、S分别表示以ci为起始位置的词、以ci为中间位置的词、以ci为结尾位置的词、单个ci的词,w表示所有可能匹配到的B、 M、E、S词集的词。
(3)词集压缩:获得“BMES”四个词集后,将每个词集的内容压缩为固定维数的向量。压缩公式为:
Figure RE-GDA0003894108910000071
其中,
Figure RE-GDA0003894108910000072
S代表一个词集,ew代表词嵌入查找表,z(w)代表词w在维基数据集中出现的频率。
(4)将关系短信词汇表信息嵌入到字符特征:关系短信词汇表信息嵌入到句子的字符特征,公式为:
Figure RE-GDA0003894108910000073
其中,vs代表加权函数,
Figure RE-GDA0003894108910000074
表示“BMES”四个词集拼接,
Figure RE-GDA0003894108910000075
表示嵌入了关系短信词汇表信息的句子特征向量。
步骤4.抽取首实体短语对应的关系短语与尾实体短语。抽取首实体可能对应的尾实体短语位置公式为:
Figure RE-GDA0003894108910000081
Figure RE-GDA0003894108910000082
其中,
Figure RE-GDA0003894108910000083
分别代表输入句子序列中,第i个词作为尾实体短语的开始位置和结束位置的概率,
Figure RE-GDA0003894108910000084
代表第k个候选首实体,xi代表第i个词的编码序列,W表示权重,b表示偏差,σ表示sigmoid激活函数。
抽取首实体可能对应的关系短语位置公式为:
Figure RE-GDA0003894108910000085
Figure RE-GDA0003894108910000086
其中
Figure RE-GDA0003894108910000087
分别代表输入句子序列中,第i个词作为关系短语的开始位置和结束位置的概率,
Figure RE-GDA0003894108910000088
代表第k个候选首实体,
Figure RE-GDA0003894108910000089
代表候选首实体可能对应的第m个尾实体,xi代表第i个词的编码序列,W表示权重,b表示偏差,σ表示sigmoid激活函数。
步骤5.首实体抽取的候选三元组集中,根据置信度筛选关系三元组。将置信度大于阈值0.5的三元组保留,作为该首实体对应的开放域关系三元组。
本发明还提出一种基于短语增强的开放域关系联合抽取系统,基于所述的基于短语增强的开放域关系联合抽取方法,实现基于短语增强的开放域关系联合抽取。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的基于短语增强的开放域关系联合抽取方法,实现基于短语增强的开放域关系联合抽取。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的基于短语增强的开放域关系联合抽取方法,实现基于短语增强的开放域关系联合抽取。
下面对本发明的技术方案进行举例说明。
给定输入句子s={某国外交部****人率团访问**地}
步骤1.数据编码,提取输入句子特征信息。通过BERT预训练模型编码,提取句子到的特征向量为[0.087197 -0.083435 0.057956 0.143120 -0.000068 0.123272 0.022439-0.323317 -0.231756 -0.009262 -0.211264 -0.021698 0.246367 0.179090 0.0541170.077638 -0.054555 -0.050630 0.072361 0.103788];
步骤2.抽取句子中候选首实体短语。通过解码BERT编码器生成的句子特征向量,根据公式(3)和公式(4)抽取到的所有可能的首实体短语有{中国,** 人}。
步骤3.关系短语词汇表构建。首先关系短语构建的词典集有{外交,外交部长,部长,访问,率团,率团访问...},将词典集压缩向量化转换为[-0.13128 -0.452 0.043399 -0.99798 -0.21053 -0.95868 -0.24609 0.48413 0.18178 0.475 -0.22305 0.300640.43496 -0.3605 0.20245 -0.52594 -0.34708 0.0075873 -1.0497 0.18673 0.573690.43814 0.098659 0.3877 -0.2258 0.41911 0.043602 -0.7352 -0.53583 0.19276 -0.21961],将词典嵌入到句子特征向量,得到增强关系短语的句子向量为[0.133570.41839 1.3138 0.35678 -0.32172 -1.2257 -0.26635 0.36716 -0.27586 -0.532460.16786 -0.11253 -0.99959 -0.60706 -0.89271 0.65156 -0.88784 0.049233 0.67111-0.27553 -2.4005 -0.36989 0.29136 1.3498 1.7353 0.27 0.021299 0.144220.023784 0.33643 -0.35476 1.0921 1.4845]。
步骤4.抽取首实体短语对应的关系短语与尾实体短语,得到首实体短语对应的候选关系三元组集,例如对于首实体‘王**’得到的候选关系三元组集为{(** 人,访问,**地),(**人,率团,访问),(**人,率团,**地)}。
步骤5.从首实体抽取的候选关系三元组集中,根据置信度筛选关系三元组。例如对于首实体‘王毅’抽取到的候选关系三元组集中,(**人,访问,**地), (**人,率团,访问),(**人,率团,**地)的置信度分别为0.81,0,47,0.39,从而可得出该首实体对应抽取到的关系三元组为(**人,访问,**地)。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于短语增强的开放域关系联合抽取方法,其特征在于,包括下列步骤:
步骤1.特征提取:通过BERT预训练语言模型对句子中的字符进行编码,提取句子特征向量表示;
步骤2.首实体短语抽取:根据首实体短语标注模型,解码句子特征向量表示,抽取所有可能构成关系三元组的首实体短语;
步骤3.关系短语词汇表构建:构建除首实体短语外的关系短语词汇增强词典,并将外部关系短语词汇表所包含的短语信息融合到句子特征向量表示中;
步骤4.关系短语和尾实体短语抽取:根据关系短语和尾实体序列标注模型,抽取出首实体短语对应的所有关系短语和尾实体短语,构建该首实体的候选开放域关系三元组集合;
步骤5.开放域关系三元组筛选:根据开放域关系三元组的置信度,从候选开放域关系三元组集合中,选择置信度高于设定阈值的开放域关系三元组,作为该首实体的开放域关系三元组。
2.根据权利要求1所述的基于短语增强的开放域关系联合抽取方法,其特征在于,步骤1,通过BERT预训练语言模型对句子中的字符进行编码,提取句子特征向量表示,具体方法为:
h0=SWs+Wp (1)
其中,h0表示提取的句子特征向量,S代表输入的句子中词的one-hot向量矩阵,Ws代表词嵌入矩阵,Wp代表位置嵌入矩阵,其中p表示输入句子中的位置索引;
hα=Trans(hα-1),α∈[1,N] (2)
其中,hα代表隐藏状态向量,即输入句子在第α层的上下文表示,N代表Transformer块的数量。
3.根据权利要求1所述的基于短语增强的开放域关系联合抽取方法,其特征在于,步骤2,根据首实体短语标注模型,解码句子特征向量表示,抽取所有可能构成关系三元组的首实体短语,具体方法为:
首实体短语起始位置和结束位置的计算公式分别是:
Figure FDA0003594706480000021
Figure FDA0003594706480000022
其中,
Figure FDA0003594706480000023
分别代表输入句子序列中,第i个词作为首实体短语的开始和结束位置的概率,在模型序列标注中,若概率值大于阈值,则该位置设为1,反之设为0,xi代表第i个词的编码序列,Wstart、Wend表示首实体短语开始和结束位置的权重,bstart、bend表示首实体短语开始和结束位置的偏差,σ表示sigmoid激活函数。
4.根据权利要求1所述的基于短语增强的开放域关系联合抽取方法,其特征在于,步骤3,构建除首实体短语外的关系短语词汇增强词典,并将外部关系短语词汇表所包含的短语信息融合到句子特征向量表示中,具体方法为:
步骤3.1,构建关系短语词汇增强词典:采集维基百科语料数据,使用依存句法分析、词性分析方法对数据进行处理,提取维基百科数据中的关系短语而构建关系短语词汇增强词典;
步骤3.2,匹配词分类:通过构建的关系短语词典集匹配输入句子中除首实体短语外的每个字符,将匹配的结构词分为“BMES”四类,对于一个去除首实体短语的输入句子序列s={c1,c2,...,cn},“BMES”四类定义为:
B(ci)={wi,k,wi,k∈L,i<k≤n} (5)
M(ci)={wj,k,wj,k∈L,1≤j<i<k≤n} (6)
E(ci)={wj,i,wj,i∈L,1≤j<i} (7)
S(ci)={ci,ci∈L} (8)
其中,L代表构建的关系短语词汇增强词典;B、M、E、S分别表示以ci为起始位置的词、以ci为中间位置的词、以ci为结尾位置的词、单个ci的词,w表示所有可能匹配到的B、M、E、S词集的词;
步骤3.3,词集压缩:获得“BMES”四个词集后,将每个词集的内容压缩为固定维数的向量,得到关系短语词汇表信息,压缩公式为:
Figure FDA0003594706480000031
其中,
Figure FDA0003594706480000032
S代表一个词集,ew代表词嵌入查找表,z(w)代表词w在维基数据集中出现的频率;
步骤3.4,将关系短信词汇表信息嵌入到句子特征向量,公式为:
Figure FDA0003594706480000033
其中,vs代表加权函数,
Figure FDA0003594706480000034
表示“BMES”四个词集拼接,
Figure FDA0003594706480000035
表示嵌入了关系短信词汇表信息的句子特征向量。
5.根据权利要求1所述的基于短语增强的开放域关系联合抽取方法,其特征在于,步骤4,根据关系短语和尾实体序列标注模型,抽取出首实体短语对应的所有关系短语和尾实体短语,构建该首实体的候选开放域关系三元组集合,具体方法为:
抽取首实体可能对应的尾实体短语位置公式为:
Figure FDA0003594706480000036
Figure FDA0003594706480000037
其中,
Figure FDA0003594706480000038
分别代表输入句子序列中,第i个词作为尾实体短语的开始和结束位置的概率,
Figure FDA0003594706480000039
代表第k个候选首实体,xi代表第i个词的编码序列,
Figure FDA00035947064800000310
表示尾实体短语开始和结束位置的权重,
Figure FDA00035947064800000311
表示尾实体短语开始和结束位置的偏差,σ表示sigmoid激活函数;
抽取首实体可能对应的关系短语位置公式为:
Figure FDA00035947064800000312
Figure FDA00035947064800000313
其中
Figure FDA00035947064800000314
分别代表输入句子序列中,第i个词作为关系短语的开始和结束位置的概率,
Figure FDA00035947064800000315
代表第k个候选首实体,
Figure FDA00035947064800000316
代表候选首实体可能对应的第m个尾实体,xi代表第i个词的编码序列,
Figure FDA00035947064800000317
表示关系短语开始和结束位置的权重,
Figure FDA0003594706480000041
表示关系短语开始和结束位置的偏差,σ表示sigmoid激活函数。
6.根据权利要求1所述的基于短语增强的开放域关系联合抽取方法,其特征在于,步骤5,对于首实体存在多元关系的情况,通过筛选结果保留多个关系三元组。
7.一种基于短语增强的开放域关系联合抽取系统,其特征在于,基于权利要求1-6任一项所述的基于短语增强的开放域关系联合抽取方法,实现基于短语增强的开放域关系联合抽取。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于权利要求1-6任一项所述的基于短语增强的开放域关系联合抽取方法,实现基于短语增强的开放域关系联合抽取。
9.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于权利要求1-6任一项所述的基于短语增强的开放域关系联合抽取方法,实现基于短语增强的开放域关系联合抽取。
CN202210385209.9A 2022-04-13 2022-04-13 一种基于短语增强的开放域关系联合抽取方法及系统 Pending CN115358227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210385209.9A CN115358227A (zh) 2022-04-13 2022-04-13 一种基于短语增强的开放域关系联合抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210385209.9A CN115358227A (zh) 2022-04-13 2022-04-13 一种基于短语增强的开放域关系联合抽取方法及系统

Publications (1)

Publication Number Publication Date
CN115358227A true CN115358227A (zh) 2022-11-18

Family

ID=84030386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210385209.9A Pending CN115358227A (zh) 2022-04-13 2022-04-13 一种基于短语增强的开放域关系联合抽取方法及系统

Country Status (1)

Country Link
CN (1) CN115358227A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341554A (zh) * 2023-05-22 2023-06-27 中国科学技术大学 面向生物医学文本的命名实体识别模型的训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341554A (zh) * 2023-05-22 2023-06-27 中国科学技术大学 面向生物医学文本的命名实体识别模型的训练方法
CN116341554B (zh) * 2023-05-22 2023-08-29 中国科学技术大学 面向生物医学文本的命名实体识别模型的训练方法

Similar Documents

Publication Publication Date Title
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN111125367A (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN113239663B (zh) 一种基于知网的多义词中文实体关系识别方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN115238029A (zh) 一种电力故障知识图谱的构建方法和装置
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN113609857A (zh) 基于级联模型和数据增强的法律命名实体识别方法及系统
CN117332788A (zh) 一种基于英语口语文本的语义分析方法
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN115879460A (zh) 面向文本内容的新标签实体识别方法、装置、设备及介质
CN114661912A (zh) 基于无监督句法分析的知识图谱构建方法、装置及设备
CN114218921A (zh) 一种优化bert的问题语义匹配方法
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination