CN114282537A - 一种面向社交文本的级联直线型实体关系抽取方法 - Google Patents

一种面向社交文本的级联直线型实体关系抽取方法 Download PDF

Info

Publication number
CN114282537A
CN114282537A CN202111609226.8A CN202111609226A CN114282537A CN 114282537 A CN114282537 A CN 114282537A CN 202111609226 A CN202111609226 A CN 202111609226A CN 114282537 A CN114282537 A CN 114282537A
Authority
CN
China
Prior art keywords
entity
vector
layer
potential
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111609226.8A
Other languages
English (en)
Other versions
CN114282537B (zh
Inventor
马连博
任慧敏
王兴伟
黄敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202111609226.8A priority Critical patent/CN114282537B/zh
Priority claimed from CN202111609226.8A external-priority patent/CN114282537B/zh
Publication of CN114282537A publication Critical patent/CN114282537A/zh
Application granted granted Critical
Publication of CN114282537B publication Critical patent/CN114282537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种面向社交文本的级联直线型实体关系抽取方法,采取级联直线型的提取方式,即方法首先检测给定文本中所包含的关系,然后将每个关系视为额外的知识来指导后续的头实体及尾实体的提取过程。本发明的方法还设计了两个解码器,分别是关系解码器和实体解码器,联合使用这两个解码器来提取实体关系三元组。通过本发明的方法不仅可以提高实体对(头实体,尾实体)提取的准确性以及联合提取的性能,还能通过关系优先的级联提取方法自然地解决重叠问题,进而能够为构建知识图谱提供更精准的前提。

Description

一种面向社交文本的级联直线型实体关系抽取方法
技术领域
本发明涉及自然语言处理信息抽取技术领域,尤其涉及一种面向社交文本的级联直线型实体关系抽取方法。
背景技术
知识图谱是结构化的语义知识库,意在以结构化形式描述客观世界中概念、实体(entity)及其之间的关系(relation),将互联网信息表达成人类容易认知的形式。知识图谱的基本组成单位是实体关系三元组,形如(头实体,关系,尾实体),因此实体关系抽取是构建知识图谱的关键技术。
实体关系抽取是从非结构化文本中提取实体及其语义关系,即给定一个自然语言文本,其任务是提取该文本中的实体关系三元组。现有的实体关系抽取方法主要包括管道方法和联合抽取方法,传统的管道方法将抽取分成两个独立的实体识别和关系分类子任务,这种方法忽略了两个子任务之间的潜在交互信息,可能遭受错误传播的影响。而联合抽取方法是近几年来广为流行的方式,也是研究的热点,这种方式是在单个模型中联合提取实体和关系。实体关系抽取任务通常会遇到重叠三元组的问题,即一个文本中所包含的不同关系三元组中共享了相同的实体。举例来说,“Maria was born in Leipzig,Germany,and has been living here.”这个文本中具有的三元组有:(Maria,Born_in,Leipzig),(Maria,Live_in,Leipzig),(Leipzig,Located_in,Germany),其中关系“Born_in”和“Live_in”共享了相同的实体对“(Maria,Leipzig)”,而关系“Live_in”和“Located_in”共享了相同的实体“Leipzig”。重叠三元组的提取是影响关系抽取任务评价指标的重要因素,也是实体关系抽取任务需要解决的一个问题。
社交文本领域中存在复杂的实体关系,重叠三元组的情况比较常见,依靠人工标注费时费力,成本很高,然而提取结构化的社交信息不仅是构建社交知识图谱的关键前提,而且能够给社交APP中的好友推荐提供有力帮助。
发明内容
针对上述现有技术的不足,本发明提供一种面向社交文本的级联直线型实体关系抽取方法。
为解决上述技术问题,本发明所采取的技术方案是:一种面向社交文本的级联直线型实体关系抽取方法,具体包括如下步骤:
步骤1:获取具有重叠实体关系的公开实体关系抽取数据集,用以模拟具有重叠实体关系的社交文本,并对所获取的公开数据集进行预处理;
所述对公开数据集进行预处理的方法如下:
步骤1.1:使用预训练模型BERT中的BertTokenizer分词器对数据集中的每个句子进行分词处理,并将分词后句子中的单词转换成ID序号;
步骤1.2:将分词后的数据集进行随机分批处理,每批数据集中的句子以该批数据集中最长句子的长度进行填充对齐处理。
步骤2:使用预训练模型BERT作为基础编码器,并对分批数据集中的句子进行编码,从而获取句子的上下文语义向量及句子中的单词向量表示,过程如下:
步骤2.1:使用预训练模型BERT作为基础编码器;
步骤2.2:将分批数据集中句子对应的单词ID作为词嵌入层的输入,词嵌入层将单词ID映射到词向量;
步骤2.3:句子经过词嵌入层映射成词向量之后输入到预训练模型BERT中,BERT的输出即为句子编码后的最终词向量表示;
步骤2.4:从预训练模型BERT的输出中取句首特殊词“[CLS]”对应的词向量,将该词向量经过池化层,池化层的输出向量作为句子的上下文语义向量。
步骤3:构建关系解码器,其结构包括线性层和Sigmoid层,使用关系解码器探测句子中含有的潜在关系,并获取潜在关系的向量表示,过程如下:
步骤3.1:将步骤2得到的句子的上下文语义向量经过线性层和Sigmoid层之后,分类得到当前句子中含有的潜在关系;
步骤3.2:定义一个关系嵌入层,将步骤3.1分类得到的潜在关系的ID输入到关系嵌入层,关系嵌入层的输出即为潜在关系的向量表示。
步骤4:构建实体解码器,所述实体解码器由头实体提取器和尾实体提取器组成;
所述头实体提取器和尾实体提取器的结构均包括:双向LSTM层、线性层和Softmax层;依据先提取关系,再提取头实体,最后提取尾实体,这一级联直线型抽取方法,使用头实体提取器提取与步骤3中探测到的潜在关系相对应的头实体,具体过程如下:
步骤4.1:检测头实体的开始位置,将步骤2中预训练模型BERT输出的句子编码后的词向量与步骤3得到的潜在关系向量进行拼接,拼接之后的向量经过双向LSTM层得到头实体开始位置的隐藏层向量;
步骤4.2:将头实体开始位置的隐藏层向量经过线性层和Softmax层,预测出当前句子中潜在头实体的开始位置;
步骤4.3:检测头实体的结束位置,将步骤4.1中潜在头实体的开始位置的隐藏层向量和步骤3得到的潜在关系向量进行拼接,拼接后的向量经过双向LSTM层得到头实体结束位置的隐藏层向量;
步骤4.4:将头实体结束位置的隐藏层向量经过线性层和Softmax层,预测出当前句子中潜在头实体的结束位置;
步骤4.5:将步骤4.2和步骤4.4得到的潜在头实体的开始位置和结束位置,按照结束位置不能在开始位置之前的原则进行解码,得到与关系相对应的潜在头实体集合。
步骤5:使用实体解码器中的尾实体提取器探测与每个潜在关系和头实体对应的尾实体,具体过程如下:
步骤5.1:检测尾实体的开始位置,将步骤2中预训练模型BERT输出的句子编码后的词向量、步骤3中的潜在关系向量、步骤4.1中的头实体开始位置的隐藏层向量以及步骤4.3中的头实体结束位置的隐藏层向量进行拼接,拼接之后的向量经过双向LSTM层得到尾实体开始位置的隐藏层向量;
步骤5.2:将尾实体开始位置的隐藏层向量经过线性层和Softmax层,预测出当前句子中潜在尾实体的开始位置;
步骤5.3:检测尾实体的结束位置,将步骤5.1中潜在尾实体的开始位置的隐藏层向量和步骤3得到的潜在关系向量进行拼接,拼接后的向量经过双向LSTM层得到尾实体结束位置的隐藏层向量;
步骤5.4:将尾实体结束位置的隐藏层向量经过线性层和Softmax层,预测出当前句子中潜在尾实体的结束位置;
步骤5.5:将步骤5.2和步骤5.4得到的潜在尾实体的开始位置和结束位置,按照结束位置不能在开始位置之前的原则进行解码,得到与潜在关系和头实体相对应的潜在尾实体。
步骤6:获取实体关系三元组,将三元组添加到集合中,具体方法如下:
通过关系解码器和实体解码器得到的每个句子中存在的潜在关系和关系对应的头实体及尾实体,将(头实体,关系,尾实体)添加到三元组集合中,实体关系抽取任务解码完成。
采用上述技术方案所产生的有益效果在于:
1、本发明提供的方法首先根据文本的语义信息检测文本中包含的关系,然后将提取出的关系视为额外的特征来指导实体对(头实体,尾实体)的提取过程,即通过级联直线型的提取方式可以解决重叠三元组的问题,而且实现了一个较为精准的实体关系抽取方法,为社交领域提供有力支持。
2、本发明提供的方法设计了两个级联解码器,关系解码器和实体解码器,通过这两个解码器得到实体关系三元组,提升了实体关系抽取任务的评价指标。
附图说明
图1为本发明实施例中面向社交文本的级联直线型实体关系抽取方法的流程图;
图2为本发明实施例中级联直线型模型的示意图;
图3为本发明实施例中实体解码器的示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本实施例中面向社交文本的级联直线型实体关系抽取方法如下所述。
本实施例中所使用的公开实体关系抽取数据集为NYT和WebNLG数据集。
步骤1:获取具有重叠实体关系的公开实体关系抽取数据集,用以模拟具有重叠实体关系的社交文本,并对所获取的公开数据集进行预处理;
所述对公开数据集进行预处理的方法如下:
步骤1.1:使用预训练模型BERT中的BertTokenizer分词器对数据集中的每个句子进行分词处理,并将分词后句子中的单词转换成ID序号;
本实施例中,定义句子X=“x1x2x3…xn”,分词之后的句子X={[CLS],x1,x2,…,xm,[SEP]},其中“[CLS]”和“[SEP]”为预训练模型BERT增加在句首和句尾的特殊词,“[CLS]”是用于分类的特殊词,“[SEP]”是用于分隔不同句子的特殊词。数据集中的句子完成分词操作后,根据预训练模型BERT中的词库表,将句子中的每个词转换成对应的ID序号。
步骤1.2:将分词后的数据集进行随机分批处理,每批数据集中的句子以该批数据集中最长句子的长度进行填充对齐处理。
本实施例中,整个数据集中的句子按8个一组随机分批处理,在每批数据集中以该批数据集中最长句子长度进行填充,填充的方式是用ID序号0填充。
步骤2:使用预训练模型BERT作为基础编码器,并对分批数据集中的句子进行编码,从而获取句子的上下文语义向量及句子中的单词向量表示,过程如下:
步骤2.1:使用预训练模型BERT作为基础编码器;
步骤2.2:将分批数据集中句子对应的单词ID作为词嵌入层的输入,词嵌入层将单词ID映射到词向量;
步骤2.3:句子经过词嵌入层映射成词向量之后输入到预训练模型BERT中,BERT的输出即为句子编码后的最终词向量表示,记为hi
步骤2.4:从预训练模型BERT的输出中取句首特殊词“[CLS]”对应的词向量,将该词向量经过池化层,池化层的输出向量作为句子的上下文语义向量,记为hp
步骤3:构建关系解码器,其结构包括线性层和Sigmoid层,使用关系解码器探测句子中含有的潜在关系,并获取潜在关系的向量表示,过程如下:
本实施例中,在公开的数据集中有预定义的关系集合,定义关系集合R={r1,r2,...rj,...,rk},其中rj表示关系集合中的第j个关系,k是关系的总数。对于给定的句子X,关系解码器的目标是预测在关系集合R中属于句子X的潜在关系子集。
步骤3.1:将步骤2得到的句子的上下文语义向量hp经过线性层和Sigmoid层之后,分类得到当前句子中含有的潜在关系;
相关公式如下:
Figure BDA0003434624190000051
其中,Linear(·)表示线性层,Sigmoid(·)表示激活函数,
Figure BDA0003434624190000056
表示关系集合R中第i个关系的得分。句子的上下文语义向量hp经过线性层和激活函数之后,关系集合中的每个关系对应的得分值都在0和1之间。如果
Figure BDA0003434624190000052
的得分高于给定的阈值,关系解码器会将第i个关系视为当前句子X的潜在关系之一。本发明在具体实施中设置的阈值为0.5。
步骤3.2:定义一个关系嵌入层,将步骤3.1分类得到的潜在关系的ID输入到关系嵌入层,关系嵌入层的输出即为潜在关系的向量表示。
本实施例中,对于有k个关系的集合R={r1,r2,...rj,...,rk},定义与R对应的关系向量查找表为
Figure BDA0003434624190000053
为查找关系对应于关系向量查找表Vr中的向量,其维度为300。
步骤4:构建实体解码器,所述实体解码器由头实体提取器和尾实体提取器组成,如图3所示;
所述头实体提取器和尾实体提取器的结构均包括:双向LSTM层、线性层和Softmax层;依据先提取关系,再提取头实体,最后提取尾实体,这一级联直线型抽取方法,如图2所示,使用头实体提取器提取与步骤3中探测到的潜在关系相对应的头实体,具体过程如下:
步骤4.1:检测头实体的开始位置,将步骤2中预训练模型BERT输出的句子编码后的词向量与步骤3得到的潜在关系向量进行拼接,拼接之后的向量经过双向LSTM层得到头实体开始位置的隐藏层向量,记为
Figure BDA0003434624190000054
相关公式如下:
Figure BDA0003434624190000055
其中,Concat(·)表示向量拼接操作,BiLSTM(·)表示双向LSTM模型。
步骤4.2:将头实体开始位置的隐藏层向量经过线性层和Softmax层,预测出当前句子中潜在头实体的开始位置;
相关公式如下:
Figure BDA0003434624190000061
其中,Linear(·)表示线性层,Softmax(·)表示激活函数,
Figure BDA0003434624190000062
表示每个词是否被预测为开始位置的得分,对于句子中每个词,与之对应的
Figure BDA0003434624190000063
的维度是2,索引0和索引1分别表示“不属于潜在头实体的开始位置”和“属于潜在头实体的开始位置”,选取这两个索引中的值最大的索引位置,即选择索引0表示句子中的当前词不是潜在头实体的开始位置,选择索引1表示句子中的当前词是潜在头实体的开始位置。
步骤4.3:检测头实体的结束位置,将步骤4.1中潜在头实体的开始位置的隐藏层向量和步骤3得到的潜在关系向量进行拼接,拼接后的向量经过双向LSTM层得到头实体结束位置的隐藏层向量;
检测结束位置和开始位置的方法是相类似的,不同点在于输入的时候要把潜在头实体的开始位置隐藏向量信息
Figure BDA0003434624190000064
与潜在关系向量
Figure BDA0003434624190000065
和位置向量信息
Figure BDA0003434624190000066
拼接后再输入到双向LSTM中,相关公式如下:
Figure BDA0003434624190000067
其中,
Figure BDA0003434624190000068
是位置向量信息,表示的是句子中的第i个位置的单词与距离第i个位置最近的潜在头实体开始位置之间的相对距离向量。具体实施方式是,若当前第i个位置之前没有距离10以内的潜在头实体开始位置,把当前第i位置的相对距离值设为499,否则设为当前第i个位置距离最近的潜在头实体开始位置的实际相对距离值。在得到句子中的每个位置的相对距离值之后,通过位置嵌入层,将相对距离值映射成相对距离向量。位置嵌入层是一个随机初始化好的位置向量查找表,会随训练的过程不断更新。
步骤4.4:将头实体结束位置的隐藏层向量经过线性层和Softmax层,预测出当前句子中潜在头实体的结束位置;
相关公式如下:
Figure BDA0003434624190000069
其中,
Figure BDA00034346241900000610
表示每个词是否被预测为潜在头实体结束位置的得分。与预测潜在头实体的开始位置相同,对于句子中每个词,选取索引0和索引1中的值最大的索引位置,即选择索引0表示句子中的当前词不是潜在头实体的结束位置,选择索引1表示句子中的当前词是潜在头实体的结束位置。
步骤4.5:将步骤4.2和步骤4.4得到的潜在头实体的开始位置和结束位置,按照结束位置不能在开始位置之前的原则进行解码,得到与关系相对应的潜在头实体集合,记为EntityH={e1,e2,...,eh}。
具体解码算法如下:
1)定义句子序列长度为N,每个位置序号为1到N;句子中的词作为潜在头实体开始位置的潜在序列为{HS},句子中的词作为潜在头实体结束位置的潜在序列为{HE};
2)定义i初始值为1,i从1到N在开始位置序列{HS}中循环,如果位置索引i在{HS}中的值为1,表示当前位置的词是潜在头实体开始位置,转到3)执行,否则i加1继续循环。{HS}循环结束后,转到4);
3)定义j初始值为i,表示j从i到N在结束位置序列{HE}中循环,以寻找潜在头实体的结束位置。同样地,如果位置索引j在{HE}中的值为1,表示当前位置的词是潜在头实体结束位置,在找到结束位置之后,把i和j之间的词作为头实体添加到潜在头实体集合EntityH中;如果位置索引j在{HE}中的值为0,则j加1继续循环。{HE}循环结束后,转到2);
4){HS}循环结束,表示所有潜在的头实体已经解码完成,都已添加到潜在头实体集合EntityH中,潜在头实体解码算法结束。
步骤5:使用实体解码器中的尾实体提取器探测与每个潜在关系和头实体对应的尾实体,具体过程如下:
步骤5.1:检测尾实体的开始位置,将步骤2中预训练模型BERT输出的句子编码后的词向量、步骤3中的潜在关系向量、步骤4.1中的头实体开始位置的隐藏层向量以及步骤4.3中的头实体结束位置的隐藏层向量进行拼接,拼接之后的向量经过双向LSTM层得到尾实体开始位置的隐藏层向量,记为
Figure BDA0003434624190000071
相关公式如下:
Figure BDA0003434624190000072
Figure BDA0003434624190000073
其中,Sum(·)表示向量求和操作,
Figure BDA0003434624190000074
为头实体的向量信息,
Figure BDA0003434624190000075
Figure BDA0003434624190000076
是头实体集合EntityH中第i个头实体的开始位置和结束位置隐藏层向量,两者求和作为第i个头实体的向量信息。
步骤5.2:将尾实体开始位置的隐藏层向量经过线性层和Softmax层,预测出当前句子中潜在尾实体的开始位置;
相关公式如下:
Figure BDA0003434624190000081
其中,Linear(·)表示线性层,Softmax(·)表示激活函数。与预测头实体的开始位置类似,
Figure BDA0003434624190000082
表示每个词是否被预测为潜在尾实体开始位置的得分,对于句子中每个词,与之对应的
Figure BDA0003434624190000083
的维度是2,索引0和索引1分别表示“不属于尾实体的开始位置”和“属于尾实体的开始位置”,选取这两个索引中值最大的索引位置,即选择索引0表示句子中的当前词不是潜在尾实体的开始位置,选择索引1表示句子中的当前词是潜在尾实体的开始位置。
步骤5.3:检测尾实体的结束位置,将步骤5.1中潜在尾实体的开始位置的隐藏层向量和步骤3得到的潜在关系向量进行拼接,拼接后的向量经过双向LSTM层得到尾实体结束位置的隐藏层向量;
检测结束位置的时候,要把潜在尾实体的开始位置隐藏向量信息
Figure BDA0003434624190000084
与潜在关系向量
Figure BDA0003434624190000085
和位置向量信息
Figure BDA0003434624190000086
拼接后再输入到双向LSTM中,相关公式如下:
Figure BDA0003434624190000087
同样地,
Figure BDA0003434624190000088
是位置向量信息,表示的是句子中的第i个位置的单词与距离第i个位置最近的潜在尾实体开始位置之间的相对距离向量。具体实施方式是,若当前第i个位置之前没有距离10以内的潜在尾实体开始位置,把当前第i位置的相对距离值设为499,否则设为当前第i个位置距离最近的潜在尾实体开始位置的实际相对距离值。在得到句子中的每个位置的相对距离值之后,通过位置嵌入层,将相对距离值映射成相对距离向量。
步骤5.4:将尾实体结束位置的隐藏层向量经过线性层和Softmax层,预测出当前句子中潜在尾实体的结束位置;
相关公式如下:
Figure BDA0003434624190000089
其中,
Figure BDA00034346241900000810
表示每个词是否被预测为潜在尾实体结束位置的得分向量。
同样地,选择
Figure BDA00034346241900000811
中索引值最大的索引位置,选择索引0,表示句子中的当前词不是潜在尾实体的结束位置;选择索引1表示句子中的当前词是潜在尾实体的结束位置。
步骤5.5:将步骤5.2和步骤5.4得到的潜在尾实体的开始位置和结束位置,按照结束位置不能在开始位置之前的原则进行解码,得到与潜在关系和头实体相对应的潜在尾实体。
具体解码算法如下:
1)定义句子序列长度为N,每个位置序号为1到N;句子的词作为潜在尾实体开始位置的潜在序列为{TS},句子中的词作为潜在尾实体结束位置的潜在序列为{TE};定义一个空实体关系三元组集合Triple={};
2)定义i初始值为1,i从1到N在开始位置序列{TS}中循环,如果位置索引i在{TS}中的值为1,表示当前位置的词是潜在尾实体开始位置,转到3)执行,否则i加1继续循环。{TS}循环结束后,转到4);
3)定义j初始值为i,表示j从i到N在结束位置序列{TE}中循环,以寻找潜在尾实体的结束位置。同样地,如果位置索引j在{TE}中的值为1,表示当前位置的词是潜在尾实体结束位置,在找到结束位置之后,把i和j之间的词作为尾实体记为tl,此时的实体关系三元组记为(ei,rj,tl),将(ei,rj,tl)添加到三元组集合Triple中;如果位置索引j在{TE}中的值为0,则j加1继续循环。{TE}循环结束后,转到2);
4){TS}循环结束,表示所有潜在的尾实体及实体关系三元组已经解码完成,已添加到潜在集合Triple中,潜在尾实体解码算法结束。
步骤6:获取实体关系三元组,将三元组添加到集合中,具体方法如下:
通过关系解码器和实体解码器得到的每个句子中存在的潜在关系和关系对应的头实体及尾实体,将(头实体,关系,尾实体)添加到三元组集合中,实体关系抽取任务解码完成。
表1为本实施方式的实体关系联合抽取模型的测试结果对比情况,考虑到社交文本中的实体都是完整的,本实施方式中使用的是完整注释实体的NYT数据集和WebNLG数据集。根据测试结果可以看出,在完整注释实体的NYT数据集和WebNLG数据集中,与现有的CaseRel模型相比,采用本发明的方法进行实体关系联合抽取的F1分值更高,提取三元组的效果是更好的。
表1测试结果对比
模型 NYT WebNLG
CaseRel F1分值=89.2% F1分值=86.3%
Our F1分值=90.6% F1分值=88.4%

Claims (7)

1.一种面向社交文本的级联直线型实体关系抽取方法,其特征在于,包括如下步骤:
步骤1:获取具有重叠实体关系的公开实体关系抽取数据集,用以模拟具有重叠实体关系的社交文本,并对所获取的公开数据集进行预处理;
步骤2:使用预训练模型BERT作为基础编码器,并对分批数据集中的句子进行编码,从而获取句子的上下文语义向量及句子中的单词向量表示;
步骤3:构建关系解码器,其结构包括线性层和Sigmoid层,使用关系解码器探测句子中含有的潜在关系,并获取潜在关系的向量表示;
步骤4:构建实体解码器,所述实体解码器由头实体提取器和尾实体提取器组成;
所述头实体提取器和尾实体提取器的结构均包括:双向LSTM层、线性层和Softmax层;依据先提取关系,再提取头实体,最后提取尾实体,这一级联直线型抽取方法,使用头实体提取器提取与步骤3中探测到的潜在关系相对应的头实体;
步骤5:使用实体解码器中的尾实体提取器探测与每个潜在关系和头实体对应的尾实体;
步骤6:获取实体关系三元组,将三元组添加到集合中。
2.根据权利要求1所述的面向社交文本的级联直线型实体关系抽取方法,其特征在于,所述对公开数据集进行预处理的方法如下:
步骤1.1:使用预训练模型BERT中的BertTokenizer分词器对数据集中的每个句子进行分词处理,并将分词后句子中的单词转换成ID序号;
步骤1.2:将分词后的数据集进行随机分批处理,每批数据集中的句子以该批数据集中最长句子的长度进行填充对齐处理。
3.根据权利要求1所述的面向社交文本的级联直线型实体关系抽取方法,其特征在于,所述步骤2的过程如下:
步骤2.1:使用预训练模型BERT作为基础编码器;
步骤2.2:将分批数据集中句子对应的单词ID作为词嵌入层的输入,词嵌入层将单词ID映射到词向量;
步骤2.3:句子经过词嵌入层映射成词向量之后输入到预训练模型BERT中,BERT的输出即为句子编码后的最终词向量表示;
步骤2.4:从预训练模型BERT的输出中取句首特殊词“[CLS]”对应的词向量,将该词向量经过池化层,池化层的输出向量作为句子的上下文语义向量。
4.根据权利要求1所述的面向社交文本的级联直线型实体关系抽取方法,其特征在于,所述步骤3的过程如下:
步骤3.1:将步骤2得到的句子的上下文语义向量经过线性层和Sigmoid层之后,分类得到当前句子中含有的潜在关系;
步骤3.2:定义一个关系嵌入层,将步骤3.1分类得到的潜在关系的ID输入到关系嵌入层,关系嵌入层的输出即为潜在关系的向量表示。
5.根据权利要求1所述的面向社交文本的级联直线型实体关系抽取方法,其特征在于,所述步骤4的过程如下:
步骤4.1:检测头实体的开始位置,将步骤2中预训练模型BERT输出的句子编码后的词向量与步骤3得到的潜在关系向量进行拼接,拼接之后的向量经过双向LSTM层得到头实体开始位置的隐藏层向量;
步骤4.2:将头实体开始位置的隐藏层向量经过线性层和Softmax层,预测出当前句子中潜在头实体的开始位置;
步骤4.3:检测头实体的结束位置,将步骤4.1中潜在头实体的开始位置的隐藏层向量和步骤3得到的潜在关系向量进行拼接,拼接后的向量经过双向LSTM层得到头实体结束位置的隐藏层向量;
步骤4.4:将头实体结束位置的隐藏层向量经过线性层和Softmax层,预测出当前句子中潜在头实体的结束位置;
步骤4.5:将步骤4.2和步骤4.4得到的潜在头实体的开始位置和结束位置,按照结束位置不能在开始位置之前的原则进行解码,得到与关系相对应的潜在头实体集合。
6.根据权利要求5所述的面向社交文本的级联直线型实体关系抽取方法,其特征在于,所述步骤5的过程如下:
步骤5.1:检测尾实体的开始位置,将步骤2中预训练模型BERT输出的句子编码后的词向量、步骤3中的潜在关系向量、步骤4.1中的头实体开始位置的隐藏层向量以及步骤4.3中的头实体结束位置的隐藏层向量进行拼接,拼接之后的向量经过双向LSTM层得到尾实体开始位置的隐藏层向量;
步骤5.2:将尾实体开始位置的隐藏层向量经过线性层和Softmax层,预测出当前句子中潜在尾实体的开始位置;
步骤5.3:检测尾实体的结束位置,将步骤5.1中潜在尾实体的开始位置的隐藏层向量和步骤3得到的潜在关系向量进行拼接,拼接后的向量经过双向LSTM层得到尾实体结束位置的隐藏层向量;
步骤5.4:将尾实体结束位置的隐藏层向量经过线性层和Softmax层,预测出当前句子中潜在尾实体的结束位置;
步骤5.5:将步骤5.2和步骤5.4得到的潜在尾实体的开始位置和结束位置,按照结束位置不能在开始位置之前的原则进行解码,得到与潜在关系和头实体相对应的潜在尾实体。
7.根据权利要求1所述的面向社交文本的级联直线型实体关系抽取方法,其特征在于,所述步骤6的具体方法如下:
通过关系解码器和实体解码器得到的每个句子中存在的潜在关系和关系对应的头实体及尾实体,将(头实体,关系,尾实体)添加到三元组集合中,实体关系抽取任务解码完成。
CN202111609226.8A 2021-12-27 一种面向社交文本的级联直线型实体关系抽取方法 Active CN114282537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111609226.8A CN114282537B (zh) 2021-12-27 一种面向社交文本的级联直线型实体关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111609226.8A CN114282537B (zh) 2021-12-27 一种面向社交文本的级联直线型实体关系抽取方法

Publications (2)

Publication Number Publication Date
CN114282537A true CN114282537A (zh) 2022-04-05
CN114282537B CN114282537B (zh) 2024-10-22

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548090A (zh) * 2022-04-26 2022-05-27 东南大学 基于卷积神经网络和改进级联标注的快速关系抽取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196913A (zh) * 2019-05-23 2019-09-03 北京邮电大学 基于文本生成式的多实体关系联合抽取方法和装置
CN110532328A (zh) * 2019-08-26 2019-12-03 哈尔滨工程大学 一种文本概念图构造方法
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
US20210240603A1 (en) * 2018-11-05 2021-08-05 Yangzhou University Entity and relationship joint extraction method oriented to software bug knowledge
CN113553850A (zh) * 2021-03-30 2021-10-26 电子科技大学 一种基于有序结构编码指针网络解码的实体关系抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
US20210240603A1 (en) * 2018-11-05 2021-08-05 Yangzhou University Entity and relationship joint extraction method oriented to software bug knowledge
CN110196913A (zh) * 2019-05-23 2019-09-03 北京邮电大学 基于文本生成式的多实体关系联合抽取方法和装置
CN110532328A (zh) * 2019-08-26 2019-12-03 哈尔滨工程大学 一种文本概念图构造方法
CN113553850A (zh) * 2021-03-30 2021-10-26 电子科技大学 一种基于有序结构编码指针网络解码的实体关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜京池: "基于医学知识图谱的疾病诊断与健康预测模型研究", 《中国知网博士电子期刊》, 15 January 2021 (2021-01-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548090A (zh) * 2022-04-26 2022-05-27 东南大学 基于卷积神经网络和改进级联标注的快速关系抽取方法

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN114417839A (zh) 基于全局指针网络的实体关系联合抽取方法
CN116956929B (zh) 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113723083A (zh) 基于bert模型的带权消极监督文本情感分析方法
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN114020871B (zh) 基于特征融合的多模态社交媒体情感分析方法
CN114780725A (zh) 一种基于深度聚类的文本分类算法
CN114662456A (zh) 基于Faster R-卷积神经网络检测模型的图像古诗生成方法
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN117851565A (zh) 基于多源交互的文本视觉问答方法及系统
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN117371452A (zh) 一种基于演示和标签增强的网格标记细粒度概念方法
CN114548090B (zh) 基于卷积神经网络和改进级联标注的快速关系抽取方法
CN111199152A (zh) 一种基于标签注意力机制的命名实体识别方法
CN114648005B (zh) 一种多任务联合学习的多片段机器阅读理解方法及装置
CN116186277A (zh) 一种基于CasRel模型的中文知识图谱构建方法
CN114282537A (zh) 一种面向社交文本的级联直线型实体关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant