CN115062109A - 一种基于实体对注意力机制的实体关系联合抽取方法 - Google Patents

一种基于实体对注意力机制的实体关系联合抽取方法 Download PDF

Info

Publication number
CN115062109A
CN115062109A CN202210677466.XA CN202210677466A CN115062109A CN 115062109 A CN115062109 A CN 115062109A CN 202210677466 A CN202210677466 A CN 202210677466A CN 115062109 A CN115062109 A CN 115062109A
Authority
CN
China
Prior art keywords
entity
sentence
entities
relation
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210677466.XA
Other languages
English (en)
Inventor
朱继召
赵一霖
潘新龙
范纯龙
王海鹏
刘颢
丁国辉
刘瑜
滕一平
黄友澎
张思邈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Aerospace University
Original Assignee
Shenyang Aerospace University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aerospace University filed Critical Shenyang Aerospace University
Priority to CN202210677466.XA priority Critical patent/CN115062109A/zh
Publication of CN115062109A publication Critical patent/CN115062109A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于实体对注意力机制的实体关系联合抽取方法,涉及自然语言处理技术领域;具体为:对数据集进行处理,得到实体及实体间关系;构建基于实体对注意力机制的实体关系联合抽取模型,编码层采用嵌入式表示表征句子中字符级、词级和词性共三种不同粒度的特征,获得句子的初始编码,实体识别层使用Bi‑LSTM神经网络结合CRF层进行实体抽取,关系抽取层将抽取的实体配对,使用基于实体对注意力机制的句子编码模块进行实体间关系抽取;通过训练实体关系联合抽取模型,并对模型进行测试,再依据测试结果更新模型。本发明可从非结构化文本中提取实体关系三元组,实现非结构化文本的知识化,适用于大规模知识图谱的自动构建。

Description

一种基于实体对注意力机制的实体关系联合抽取方法
技术领域
本发明涉及计算机自然语言处理技术领域,尤其涉及一种基于实体对注意力机制的实体关系联合抽取方法。
背景技术
随着互联网、云计算和通讯技术等的不断发展,目前各领域产生了海量的数据,同时这些数据表现出多源、异构、高维、低质、碎片化等特征。大数据时代下,对海量数据的高效组织,是实现多元异构数据融合的有效技术之一,那么如何快速准确地从计算机产生的数据中提取出高质量的、结构化的、可被计算机直接使用的有价值的信息,使其能够自动构建知识图谱,是目前研究的热点问题。
为了能够高效利用非结构化文本中有价值的信息,研究人员提出了实体关系抽取这项技术,它是命名实体识别任务和关系抽取任务的结合,目的就是从非结构化文本中抽取出实体和实体之间的关系。为了解决实体关系抽取任务,研究者提出了多种解决方法,目前来说主要分为流水线抽取模型和联合抽取模型两大类。
流水线抽取模型可以描述为:该方法将实体关系抽取划分为命名实体识别和关系抽取两个子任务,两个子任务按照顺序依次进行,且不存在任何交互作用。流水线模型具有易于实现、操作简单、灵活性高的特点,但是也存在着实体冗余、误差传播和交互缺失的问题。
为此研究者们提出了联合抽取模型,它能够有效利用实体和关系之间的紧密联系,缓解误差传播,加强两个子任务之间的交互,有效提高模型的性能。该模型可以描述为:通过实体识别和关系抽取两个任务联合进行学习,直接得到三元组。一般联合模型可以分为参数共享、序列标注等方法。联合模型能够进一步利用两个子任务之间的潜在信息,增强任务之间的交互,但是存在以下问题:
(1)参数共享方法虽然能够让两个子任务进行底层的信息交互,但是会导致模型的参数过于庞大,训练的时候过于耗费时间;
(2)序列标注方法的优点是引入了统一的标签进行联合解码,解决了参数共享方法存在信息冗余的问题,但是只能给每个词打上唯一的标签,不能解决三元组重叠的问题。
因此,如何更好地从海量的非结构化文本中抽取出有价值的信息,引起了众多研究者的关注,并且随着深度学习的发展,更加促进了这一领域的快速发展。
发明内容
针对现有技术中存在的问题,本发明提供一种基于实体对注意力机制的实体关系联合抽取方法,通过对数据集进行处理,得到实体和实体间关系,构建基于实体对注意力机制的实体关系联合抽取模型,完成从非结构化文本中抽取实体关系三元组的任务,实现对实体关系的联合抽取。
为实现上述目的,采用的技术方案为:
一种基于实体对注意力机制的实体关系联合抽取方法,包括以下步骤:
S1:对数据集分句、去重、分词、构建字典,获得实体以及实体间关系;
S2:构建基于实体对注意力机制的实体关系联合抽取模型,所述实体关系联合抽取模型包括:用于获得句子初始编码的编码层、用于从句子中抽取实体的实体识别层、用于抽取实体间关系的关系抽取层;
S3:设定实体识别和关系抽取的损失函数,将实体识别的损失函数和关系抽取的损失函数联合,完成对实体关系联合抽取模型的训练和测试,并根据测试结果对实体关系联合抽取模型进行更新。
所述S1具体包括以下步骤:
S1.1:对数据集进行分句,删除重复的句子,使用NLTK(Natural LanguageToolkit,自然语言处理工具包)中的分词工具对句子进行处理,得到目标分词,构建词映射ID的字典;
S1.2:对数据集中分词处理后的句子,使用NLTK中的词性标注工具完成句子词性的标注,构建词性映射ID的字典;
S1.3:对句子中的每个词,构建字符映射ID的字典;
S1.4:统计数据集中出现的实体类别,结合“BIESO”标注方法,构建实体类别标签映射ID的字典;
S1.5:统计数据集中出现的实体间关系类别,构建实体间关系类别映射ID的字典;
S1.6:按照设定长度对句子进行填充或截断,并将处理后的数据集划分为训练集、验证集、测试集。
所述S2具体包括以下步骤:
S2.1:编码层采用嵌入式表示表征句子中各词的字符级、词级和词性共三种不同粒度的特征,通过拼接形成复合特征表示,获得句子的初始化编码X;
S2.2:实体识别层将句子的初始编码X输入到Bi-LSTM神经网络中,利用Bi-LSTM神经网络实现对句子特征的深度提取,输出各词对应的隐状态h,结合CRF层完成对实体标签序列的预测,通过解析实体标签序列获得从句子中抽取的实体;
S2.3:关系抽取层对抽取的实体进行配对,使用基于实体对注意力机制的句子编码模块,分别生成实体对注意力机制下的句子表示S,后融合实体对的信息,得到增强的句子表示S*,输入前馈神经网络,抽取实体间关系。
所述S2.1具体包括以下步骤:
S2.1.1:采用嵌入式表示将每条句子中的词和词性分别表征成为向量xw和xpos
S2.1.2:对每条句子中的词,使用卷积神经网络获得词所对应的字符级的向量表示xc
S2.1.3:将得到的xw、xpos和xc拼接得到每个词的复合特征表示
Figure BDA0003696989610000031
Figure BDA0003696989610000032
表示向量拼接,获得句子的初始编码X=[x1,x2,…,xn]。
所述S2.2具体包括以下步骤:
S2.2.1:对每条句子,将句子的初始编码X=[x1,x2,…,xn]输入到Bi-LSTM神经网络中,输出各词对应的隐状态
Figure BDA0003696989610000033
Figure BDA0003696989610000034
表示向量拼接,完整隐状态序列记为H=[h1,h2,…,hn];
S2.2.2:将完整的隐状态序列H输入到全连接层,输出一组与实体类别长度相同的向量表示hs
S2.2.3:将S2.2.2输出的向量表示接入CRF层,利用CRF层进行实体标签的结构化预测,得到一组全局最优的标签序列ys
S2.2.4:通过全局最优的标签序列ys解析出句子中存在的实体,完成实体识别。
所述S2.3具体包括以下步骤:
S2.3.1:将抽取出的实体配对,分别将配对实体对应的隐状态hi进行拼接和填充,得到实体e1和实体e2的初始表示
Figure BDA0003696989610000035
Figure BDA0003696989610000036
Figure BDA0003696989610000037
其中,a、b分别表示构成实体e1和实体e2的单词对应隐状态的开始位置,p、q分别表示构成实体e1和实体e2的单词数,m表示实体填充后的词长度,
Figure BDA0003696989610000038
表示向量拼接;
S2.3.2:将e1和e2分别引入全连接层输出配对实体的嵌入式表示
Figure BDA0003696989610000039
Figure BDA00036969896100000310
拼接
Figure BDA00036969896100000311
Figure BDA00036969896100000312
得到实体对嵌入式表示uep
S2.3.3:将S2.2.1得到的各词对应的隐状态hi与实体对嵌入式表示uep,作为实体对注意力机制计算的依据,根据公式αi=Attention(hi,uep),i∈[1,n]计算实体对注意力权重α=[α12,…,αn];
S2.3.4:根据S2.2.1得到的各词对应的隐状态hi和实体对注意力权重αi,i∈[1,n],按照公式
Figure BDA00036969896100000313
计算得到句子的嵌入式表示S,再将S与实体对嵌入式表示uep融合得到增强的句子嵌入式表示S*
S2.3.5:将得到的增强的句子嵌入式表示S*输入前馈神经网络,实现对配对实体间关系的预测,从而完成关系的抽取。
所述实体对注意力机制公式αi=Attention(hi,uep),i∈[1,n]具体如下:
计算实体对注意力下句子中第i个词的重要度wi,如式(1)所示:
wi=VT tanh(Whhi+Wuuep) (1)
其中,Wh、Wu和V表示权重矩阵参数,VT表示V的转置。
通过softmax对句子中各词的重要度w=[w1,w2,…,wn]进行归一化操作,得到句子对应的实体对注意力权重α=[α12,…,αn],其中,第i个词的注意力权重αi计算如式(2)所示:
Figure BDA0003696989610000041
所述S3具体包括以下步骤:
S3.1:根据S2.2中抽取的实体,结合实体的真实标签,设定实体识别的损失函数为负对数似然函数形式Lner=-Σs∈Slog(P(ys|hs;θ)),其中,hs表示从S2.2.2中获得的与实体类别长度相同的向量表示,ys表示从S2.2.3中通过CRF层获得的全局最优的标签序列,θ表示CRF层中涉及的参数;
S3.2:根据S2.3中抽取的实体间关系yj,结合实体间关系的真实标签,采用负对数似然损失函数计算关系抽取的损失值,记为
Figure BDA0003696989610000042
其中,P表示yj
Figure BDA0003696989610000043
相等的概率;
S3.3:采用联合损失函数的方式计算总损失值L=Lner+Lrel
S3.4:利用测试集对基于实体对注意力机制的实体关系联合抽取模型进行测试,记录模型的准确率、召回率和F1值,作为检测模型效果的评价指标,并加以保存;
S3.5:通过修改超参数对基于实体对注意力机制的实体关系联合抽取模型重复测试,保存测试结果F1值最高的超参数作为模型最终超参数;所述超参数包括学习率、迭代次数;
S3.6:对基于实体对注意力机制的实体关系联合抽取模型结果进行分析,通过设定的F1值验证模型的有效性。
有益技术效果
1、本发明提出的一种基于实体对注意力机制的实体关系联合抽取方法,通过有效利用文本中有价值的信息,实现在非结构化文本中进行实体和实体间关系的抽取。
2、本发明采用基于实体对注意力机制的实体关系联合抽取模型,能够有效解决实体冗余的问题,加快模型训练速度,提高模型训练效率,并且通过联合实体损失函数和实体间关系损失函数的方式,能够增强两个任务之间的交互作用。
3.、本发明采用的基于实体对注意力机制的句子编码模块,能够为不同的实体对生成不同的句子表示,因此能够有效解决三元组重叠问题。
附图说明
图1为本发明实施例提供的一种基于实体对注意力机制的实体关系联合抽取方法流程图。
图2为本发明实施例提供的基于实体对注意力机制的实体关系联合抽取方法的具体实例图。
图3为本发明实施例提供的基于实体对注意力机制的实体关系联合抽取模型的框架图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。本实施例提供了一种基于实体对注意力机制的实体关系联合抽取方法,通过构建基于实体对注意力机制的实体关系联合抽取模型,实现从非结构化的文本中有效地进行实体和实体间关系抽取,如图1所示,包括以下步骤:
S1:对数据集分句、去重、分词、构建字典,获得实体以及实体间关系;
本实施例中,通过对数据集进行分句、去重,获得NYT数据集和WebNLG数据集;NYT数据集包含56195条训练数据,5000验证数据,5000测试数据;WebNLG数据集包含5019条训练数据,500条验证数据,703条测试数据;对数据集进行进一步的处理,构建词映射ID的字典、词性映射ID的字典、字符映射ID的字典;获得实体类别信息及实体间关系类别信息,包括以下步骤:
S1.1:对数据集进行分句,删除重复的句子,使用NLTK(Natural LanguageToolkit,自然语言处理工具包)中的分词工具对句子进行处理,得到目标分词,构建词映射ID的字典;
S1.2:对数据集中分词处理后的句子,使用NLTK中的词性标注工具完成句子词性的标注,构建词性映射ID的字典;
S1.3:对句子中的每个词,构建字符映射ID的字典;
S1.4:统计数据集中出现的实体类别,结合“BIESO”标注方法,构建实体类别标签映射ID的字典;
S1.5:统计数据集中出现的实体间关系类别,构建实体间关系类别映射ID的字典;
S1.6:按照设定长度对句子进行填充或截断,并将处理后的数据集划分为训练集、验证集、测试集。
所述实体类别标签由“BIESO”标注方法结合实体类别的方法表示,还可以表示词在实体中的位置,例如B-PER、I-PER、E-PER、S-PER等;对于多词实体来说:“B”:begin,表示实体的开始位置,“I”:inside,表示实体的中间位置,“E”:end,表示实体的结束位置;对于单词实体来说:“S”:single,表示该实体只由一个词构成;“O”:other,表示该词不是实体:“X”:未知,表示对句子长度不足句子最大长度的部分进行填充的词。
在本实施例中,采用的数据集是NYT数据集和WebNLG数据集,这两个是经典的实体关系联合抽取的公共数据集;NYT数据集由远程监督的方式产生,具有一定噪声;WebNLG数据集最初就是为自然语言处理任务创建的。两者的统计数据如表1所示:
表1数据集的信息统计
数据集 关系种类 训练集句子数量 验证集句子数量 测试集句子数量
NYT 24 56195 5000 5000
WebNLG 246 5019 500 703
S2:构建基于实体对注意力机制的实体关系联合抽取模型,如图2所示,所述实体关系联合抽取模型包括:用于获得句子初始编码的编码层、用于从句子中抽取实体的实体识别层、用于抽取实体间关系的关系抽取层,包括以下步骤:
S2.1:编码层采用嵌入式表示表征句子中各词的字符级、词级和词性共三种不同粒度的特征,通过拼接形成复合特征表示,获得句子的初始编码;
本实施例中,编码层结合各词的字符级、词级和词性共三种不同粒度的特征,对每条句子进行特征融合,得到句子的初始编码X,包括以下步骤:
S2.1.1:采用嵌入式表示将每条句子中的词和词性分别表征成为向量xw和xpos
S2.1.2:对每条句子中的词,使用卷积神经网络获得词所对应的字符级的向量表示xc
S2.1.3:将得到的xw、xpos和xc拼接得到每个词的复合特征表示
Figure BDA0003696989610000061
Figure BDA0003696989610000062
表示向量拼接,获得句子的初始编码X=[x1,x2,…,xn]。
S2.2:实体识别层使用Bi-LSTM神经网络对句子特征进行深度提取,结合CRF层完成实体的抽取;
本实施例中,将句子的初始编码X输入到Bi-LSTM神经网络中,利用Bi-LSTM神经网络实现对句子特征的深度提取,输出各词对应的隐状态h,结合CRF层完成对实体标签序列的预测,通过解析实体标签序列获得从句子中抽取的实体,包括以下步骤:
S2.2.1:对每条句子,将得到的初始编码X=[x1,x2,…,xn]输入到Bi-LSTM神经网络中,输出各词对应的隐状态
Figure BDA0003696989610000071
Figure BDA0003696989610000072
表示向量拼接,完整隐状态序列记为H=[h1,h2,…,hn];
S2.2.2:将完整的隐状态序列H输入到全连接层,输出一组与实体类别长度相同的向量表示hs
S2.2.3:将S2.2.2输出的向量表示接入CRF层,利用CRF层进行实体标签的结构化预测,得到一组全局最优的标签序列ys
S2.2.4:通过全局最优的标签序列ys解析出句子中的实体,完成实体识别,如图3所示。
S2.3:关系抽取层对抽取的实体进行配对,使用基于实体对注意力机制的句子编码模块,分别生成实体对注意力机制下的句子表示S,后融合实体对的信息,得到增强的句子表示S*,输入前馈神经网络,抽取实体间关系;
本实施例中,将抽取出来的实体进行配对,作为基于实体对注意力机制的句子编码模块的计算依据,分别生成实体对注意力机制下的句子表示S,后融合实体对的信息,得到增强的句子表示S*,输入到前馈神经网络,抽取实体间关系,包括以下步骤:
S2.3.1:将抽取出的实体配对,分别将配对实体对应的隐状态hi进行拼接和填充,得到实体e1和实体e2的初始表示
Figure BDA0003696989610000073
Figure BDA0003696989610000074
Figure BDA0003696989610000075
其中,a、b分别表示构成实体e1和实体e2的单词对应隐状态的开始位置,p、q分别表示构成实体e1和实体e2的单词数,m表示实体填充后的词长度,
Figure BDA0003696989610000076
表示向量拼接;
S2.3.2:将e1和e2分别引入全连接层输入配对实体的嵌入式表示
Figure BDA0003696989610000077
Figure BDA0003696989610000078
拼接
Figure BDA0003696989610000079
Figure BDA00036969896100000710
得到实体对嵌入式表示uep
S2.3.3:将S2.2.1得到的各词对应的隐状态hi与实体对嵌入式表示uep,作为实体对注意力机制计算的依据,根据公式αi=Attention(hi,uep),i∈[1,n]计算实体对注意力权重α=[α12,…,αn];
S2.3.4:根据S2.2.1得到的各词对应的隐状态hi和实体对注意力权重αi,i∈[1,n],按照公式
Figure BDA00036969896100000711
计算得到句子的嵌入式表示S,再将S与实体对嵌入式表示uep融合得到增强的句子嵌入式表示S*
S2.3.5:将得到的增强的句子嵌入表示S*输入前馈神经网络,实现对配对实体对间关系的预测,从而完成关系的抽取,如图3所示。
所述实体对注意力机制公式αi=Attention(hi,uep),i∈[1,n]具体如下:
计算实体对注意力下句子中第i个词的重要度wi,如式(1)所示::
wi=VT tanh(Whhi+Wuuep) (1)
其中,Wh、Wu和V表示权重矩阵参数,VT表示V的转置。
通过softmax对句子中各词的重要度w=[w1,w2,…,wn]进行归一化操作,得到句子对应的实体对注意力权重α=[α12,…,αn],其中,第i个词的注意力权重αi计算如式(2)所示:
Figure BDA0003696989610000081
S3:根据S2.2中抽取的实体和S2.3中抽取的实体间关系,分别结合实体的真实标签和实体间关系的真实标签,设定实体识别和关系抽取的损失函数;将实体识别的损失函数和关系抽取的损失函数联合,完成对基于实体对注意力机制的实体关系联合抽取模型的训练和测试,并根据测试结果对模型进行更新;
本实施例中,根据S2.2中抽取的实体,结合NYT数据集和WebNLG数据集中实体的真实标签,设定实体识别的损失函数;根据S2.3中抽取的实体间关系,结合NYT数据集和WebNLG数据集中实体间关系的真实标签,设定关系抽取的损失函数;将实体识别的损失函数和关系抽取的损失函数联合,完成对基于实体对注意力机制的实体关系联合抽取模型的训练和测试,并根据测试结果对模型进行更新,包括以下步骤:
S3.1:根据S2.2中抽取的实体,结合实体的真实标签,设定实体识别的损失函数为负对数似然函数形式Lner=-∑s∈Slog(P(ys|hs;θ)),其中,hs表示S2.2.2中获得的与实体类别长度相同的向量表示,ys表示S2.2.3中通过CRF层获得的全局最优的标签序列,θ表示CRF层中涉及的参数;
S3.2:根据S2.3中抽取的实体间关系yj,结合实体间关系的真实标签,采用负对数似然损失函数计算关系抽取的损失值,记为
Figure BDA0003696989610000082
其中,P表示yj
Figure BDA0003696989610000083
相等的概率;
S3.3:采用联合损失函数的方式计算总损失值L=Lner+Lrel
S3.4:利用测试集对基于实体对注意力机制的实体关系联合抽取模型进行测试,记录模型的准确率、召回率和F1值,作为检测模型效果的评价指标,并加以保存,结果如表2所示;
表2实体关系联合抽取结果
Figure BDA0003696989610000091
S3.5:通过修改超参数对基于实体对注意力机制的实体关系联合抽取模型重复测试,保存测试结果F1值最高的超参数作为模型最终超参数;所述超参数包括学习率、迭代次数;
S3.6:对基于实体对注意力机制的实体关系联合抽取模型结果进行分析,通过设定的F1值验证该模型的有效性。

Claims (8)

1.一种基于实体对注意力机制的实体关系联合抽取方法,其特征在于:
对数据集分句、去重、分词、构建字典,获得实体以及实体间关系;
构建基于实体对注意力机制的实体关系联合抽取模型,所述实体关系联合抽取模型包括:用于获得句子初始编码的编码层、用于从句子中抽取实体的实体识别层、用于抽取实体间关系的关系抽取层;
设定实体识别和关系抽取的损失函数,将实体识别的损失函数和关系抽取的损失函数联合,完成对实体关系联合抽取模型的训练和测试,并根据测试结果对实体关系联合抽取模型进行更新。
2.根据权利要求1所述的基于实体对注意力机制的实体关系联合抽取方法,其特征在于:
所述对数据集分句、去重、分词、构建字典,获得实体以及实体间关系,具体包括以下步骤:
S1.1:对数据集进行分句,删除重复的句子,使用NLTK中的分词工具对句子进行处理,得到目标分词,构建词映射ID的字典;
S1.2:对数据集中分词处理后的句子,使用NLTK中的词性标注工具完成句子词性的标注,构建词性映射ID的字典;
S1.3:对句子中的每个词,构建字符映射ID的字典;
S1.4:统计数据集中出现的实体类别,结合“BIESO”标注方法,构建实体类别标签映射ID的字典;
S1.5:统计数据集中出现的实体间关系类别,构建实体间关系类别映射ID的字典;
S1.6:按照设定长度对句子进行填充或截断,并将处理后的数据集划分为训练集、验证集、测试集。
3.根据权利要求1所述的基于实体对注意力机制的实体关系联合抽取方法,其特征在于:
所述构建基于实体对注意力机制的实体关系联合抽取模型,具体包括以下步骤:
S2.1:编码层采用嵌入式表示表征句子中各词的字符级、词级和词性共三种不同粒度的特征,通过拼接形成复合特征表示,获得句子的初始编码X;
S2.2:实体识别层将句子的初始编码X输入到Bi-LSTM神经网络中,利用Bi-LSTM神经网络实现对句子特征的深度提取,输出各词对应的隐状态h,结合CRF层完成对实体标签序列的预测,通过解析实体标签序列获得从句子中抽取的实体;
S2.3:关系抽取层对抽取的实体进行配对,使用基于实体对注意力机制的句子编码模块,分别生成实体对注意力机制下的句子表示S,后融合实体对的信息,得到增强的句子表示S*,输入前馈神经网络,抽取实体间关系。
4.根据权利要求3所述的基于实体对注意力机制的实体关系联合抽取方法,其特征在于:
所述S2.1具体包括以下步骤:
S2.1.1:采用嵌入式表示将每条句子中的词和词性分别表征成为向量xw和xpos
S2.1.2:对每条句子中的词,使用卷积神经网络获得词所对应的字符级的向量表示xc
S2.1.3:将得到的xw、xpos和xc拼接得到每个词的复合特征表示
Figure FDA0003696989600000021
Figure FDA0003696989600000022
表示向量拼接,获得句子的初始编码X=[x1,x2,…,xn]。
5.根据权利要求3所述的基于实体对注意力机制的实体关系联合抽取方法,其特征在于:
所述S2.2具体包括以下步骤:
S2.2.1:对每条句子,将句子的初始编码X=[x1,x2,…,xn]输入到Bi-LSTM神经网络中,输出各词对应的隐状态
Figure FDA0003696989600000023
Figure FDA0003696989600000024
表示向量拼接,完整隐状态序列记为H=[h1,h2,…,hn];
S2.2.2:将完整的隐状态序列H输入到全连接层,输出一组与实体类别长度相同的向量表示hs
S2.2.3:将S2.2.2输出的向量表示接入CRF层,利用CRF层进行实体标签的结构化预测,得到一组全局最优的标签序列ys
S2.2.4:通过全局最优的标签序列ys解析出句子中存在的实体,完成实体识别。
6.根据权利要求3所述的基于实体对注意力机制的实体关系联合抽取方法,其特征在于:
所述S2.3具体包括以下步骤:
S2.3.1:将抽取出的实体配对,分别将配对实体对应的隐状态hi进行拼接和填充,得到实体e1和实体e2的初始表示
Figure FDA0003696989600000025
Figure FDA0003696989600000026
Figure FDA0003696989600000027
其中,a、b分别表示构成实体e1和实体e2的单词对应隐状态的开始位置,p、q分别表示构成实体e1和实体e2的单词数,m表示实体填充后的词长度,
Figure FDA0003696989600000028
表示向量拼接;
S2.3.2:将e1和e2分别引入全连接层输出配对实体的嵌入式表示
Figure FDA0003696989600000029
Figure FDA00036969896000000210
拼接
Figure FDA00036969896000000211
Figure FDA0003696989600000031
得到实体对嵌入式表示uep
S2.3.3:将S2.2.1得到的各词对应的隐状态hi与实体对嵌入式表示uep,作为实体对注意力机制计算的依据,根据公式αi=Attention(hi,uep),i∈[1,n]计算实体对注意力权重α=[α1,α2,…,αn];
S2.3.4:根据S2.2.1得到的各词对应的隐状态hi和实体对注意力权重αi,i∈[1,n],按照公式
Figure FDA0003696989600000032
计算得到句子的嵌入式表示S,再将S与实体对嵌入式表示uep融合得到增强的句子嵌入式表示S*
S2.3.5:将得到的增强的句子嵌入式表示S*输入前馈神经网络,实现对配对实体间关系的预测,从而完成关系的抽取。
7.根据权利要求6所述的基于实体对注意力机制的实体关系联合抽取方法,其特征在于:所述实体对注意力机制公式αi=Attention(hi,uep),i∈[1,n]具体为:
计算实体对注意力下句子中第i个词的重要度wi,如式(1)所示::
wi=VTtanh(Whhi+Wuuep) (1)
其中,Wh、Wu和V表示权重矩阵参数,VT表示V的转置;
通过sofimax对句子中各词的重要度w=[w1,w2,…,wn]进行归一化操作,得到句子对应的实体对注意力权重α=[α1,α2,…,αn],其中,第i个词的注意力权重αi计算如式(2)所示:
Figure FDA0003696989600000033
8.根据权利要求1所述的基于实体对注意力机制的实体关系联合抽取方法,其特征在于:
所述对实体关系联合抽取模型进行更新,具体包括以下步骤:
S3.1:根据S2.2中抽取的实体,结合实体的真实标签,设定实体识别的损失函数为负对数似然函数形式Lner=-∑s∈Slog(P(ys|hs;θ)),其中,hs表示S2.2.2中获得的与实体类别长度相同的向量表示,ys表示S2.2.3中通过CRF层获得的全局最优的标签序列,θ表示CRF层中涉及的参数;
S3.2:根据S2.3中抽取的实体间关系yj,结合实体间关系的真实标签,采用负对数似然损失函数计算关系抽取的损失值,记为
Figure FDA0003696989600000034
其中,P表示yj
Figure FDA0003696989600000041
相等的概率;
S3.3:采用联合损失函数的方式计算总损失值L=Lner+Lrel
S3.4:利用测试集对基于实体对注意力机制的实体关系联合抽取模型进行测试,记录模型的准确率、召回率和F1值,作为检测模型效果的评价指标,并加以保存;
S3.5:通过修改超参数对基于实体对注意力机制的实体关系联合抽取模型重复测试,保存测试结果F1值最高的超参数作为模型最终超参数;所述超参数包括学习率、迭代次数;
S3.6:对基于实体对注意力机制的实体关系联合抽取模型结果进行分析,通过设定的F1值验证模型的有效性。
CN202210677466.XA 2022-06-16 2022-06-16 一种基于实体对注意力机制的实体关系联合抽取方法 Pending CN115062109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210677466.XA CN115062109A (zh) 2022-06-16 2022-06-16 一种基于实体对注意力机制的实体关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210677466.XA CN115062109A (zh) 2022-06-16 2022-06-16 一种基于实体对注意力机制的实体关系联合抽取方法

Publications (1)

Publication Number Publication Date
CN115062109A true CN115062109A (zh) 2022-09-16

Family

ID=83199756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210677466.XA Pending CN115062109A (zh) 2022-06-16 2022-06-16 一种基于实体对注意力机制的实体关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN115062109A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510245A (zh) * 2022-10-14 2022-12-23 北京理工大学 一种面向非结构化数据的领域知识抽取方法
CN117113997A (zh) * 2023-07-25 2023-11-24 四川大学 一种增强词典知识融入的中文命名实体识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510245A (zh) * 2022-10-14 2022-12-23 北京理工大学 一种面向非结构化数据的领域知识抽取方法
CN115510245B (zh) * 2022-10-14 2024-05-14 北京理工大学 一种面向非结构化数据的领域知识抽取方法
CN117113997A (zh) * 2023-07-25 2023-11-24 四川大学 一种增强词典知识融入的中文命名实体识别方法

Similar Documents

Publication Publication Date Title
CN109766524B (zh) 一种并购重组类公告信息抽取方法及系统
CN109543183B (zh) 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN109472024B (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN112417894B (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN113255321B (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN114969275A (zh) 一种基于银行知识图谱的对话方法及其系统
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN112364125A (zh) 一种联合阅读课程学习机制的文本信息抽取系统及方法
CN115563314A (zh) 多源信息融合增强的知识图谱表示学习方法
CN115062109A (zh) 一种基于实体对注意力机制的实体关系联合抽取方法
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
CN113901211A (zh) 基于图注意力网络的多粒度汉越平行句对抽取方法
CN117349311A (zh) 一种基于改进RetNet的数据库自然语言查询方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN111259106A (zh) 一种结合神经网络和特征演算的关系抽取方法
CN115545038A (zh) 一种优化网格标签的方面情感分析方法
CN115033689B (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
CN114692615A (zh) 一种针对小语种的小样本意图识别方法
CN110807096A (zh) 一种小样本集上的信息对匹配方法及系统
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination