CN116628174A - 一种融合实体和关系信息的端到端关系抽取方法以及系统 - Google Patents
一种融合实体和关系信息的端到端关系抽取方法以及系统 Download PDFInfo
- Publication number
- CN116628174A CN116628174A CN202310130998.6A CN202310130998A CN116628174A CN 116628174 A CN116628174 A CN 116628174A CN 202310130998 A CN202310130998 A CN 202310130998A CN 116628174 A CN116628174 A CN 116628174A
- Authority
- CN
- China
- Prior art keywords
- entity
- relation
- information
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 238000013507 mapping Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000000747 cardiac effect Effects 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合实体和关系信息的端到端关系抽取方法,包括:获取公开数据集CONLL04;对数据集CONLL04中关系类型的映射进行调整,得到主客体实体构成的原始文本T;从原始文本T中获取实体类型和实体主客体信息;构建多元实体关系信息模板P;将得到原始文本T和信息模板P进行句子拼接,将拼接得到的数据作为编码器模型的最终输入;使用编码器模型对输入的数据进行处理编码,得到原始文本向量,实体和关系信息向量,通过全连接层降维、拼接;将得到的特征传入解码器,最后生成预测文本;该方法基于提示学习模板提示技术实现实体和关系信息的融合,在融合信息出现信息冲突、数据和知识缺乏时,能够保证关系抽取任务精确度。
Description
技术领域
本发明涉及关系抽取技术领域,特别涉及一种融合实体和关系信息的端到端关系抽取方法以及系统。
背景技术
信息抽取是自然语言处理中非常重要的一个任务,它可以将大量的文本信息转化为结构化数据,这样就可以被机器读取和分析。例如应用于新闻摘要、问答系统、知识图谱建设等。其中新闻摘要中,信息抽取可以将新闻中的关键信息提取出来,形成简洁明了的摘要;在问答系统中,信息抽取可以将问题中的关键实体和关系提取出来,帮助系统进行问题理解和回答;在知识图谱建设中,信息抽取可以提取文本中的实体和关系,帮助建立知识图谱。
而关系抽取是一个非常复杂的问题,尽管近年来已经取得了很大的进展,但仍然存在一些不足。一个主要的问题是语义不一致性,关系抽取系统在识别关系时需要考虑语义上的含义,但是由于自然语言表达方式的多样性,同一个关系可能会有不同的表达方式,这使得关系抽取系统难以统一识别。另一个问题是数据标注问题,关系抽取系统需要大量的高质量的数据进行训练,但是由于标注数据的复杂性和人工标注的成本,很难收集到足够的高质量数据。所以现有的关系抽取系统在处理长文本和复杂关系时准确性不够。
发明内容
本发明的目的在于克服现有技术中的上述缺陷,提供一种融合实体和关系信息的端到端关系抽取方法以及系统,该方法基于提示学习模板提示技术实现实体和关系信息的融合,在融合信息出现信息冲突、数据和知识缺乏时,能够保证关系抽取任务精确度。
为实现上述目的,本发明提供了一种融合实体和关系信息的端到端关系抽取方法,包括以下步骤:
步骤S1:获取公开数据集CONLL04,对原始训练数据进行预处理,包括数据清洗、数据标注和数据增强;
步骤S2:对数据集CONLL04中关系类型的映射进行调整,从而得到主客体实体构成的原始文本T;
步骤S3:从原始文本T中获取实体类型和实体主客体信息;
步骤S4:构建多元实体关系信息模板P,所述信息模板P中包含了实体类型信息、实体主客信息以及实体之间的关系信息;
步骤S5:将得到原始文本T和信息模板P进行句子拼接,将拼接得到的数据作为编码器模型的最终输入;
步骤S6:使用编码器模型对输入的数据进行处理编码,所述编码器将会对数据预处理后的数据进行编码,得到原始文本向量,实体和关系信息向量,通过全连接层降维,然后拼接;
步骤S7:随后将得到的特征传入解码器,最后生成预测文本。
作为优选的,所述步骤S2中,对于数据集原始关系类型集合R={r1,……,rn},先将该集合映射符合语言逻辑的同义短语;
对于CONLL04数据集,其中有一个关系类型为“Located_In”,将其映射为“islocated in”,从而与主客体实体构成文本“Entity1 is located in Entity2”,使预训练模型更好的理解。
作为优选的,所述步骤S3中,对于原始文本T={t1,...,e1,...,e2,...,tn}中的实体,获取其实体类型和主客体信息E1-type,E2-type和E1-subject,E2-object。
作为优选的,所述步骤S4中,将步骤S1和步骤S2中获得的实体关系信息,按照“主体-关系-客体”的形式,构建信息模板P,“<sub>Anhui<loc>is located in<obj>China<loc>”,其中实体“An hui”和“China”的实体类型均为“location”,表示地名;实体“An hui”的主客体信息为“sub”,表示主实体,实体“China”的主客体信息为“obj”;表示客实体;实体之间的关系为“is located in”,是原始关系类型“Located_In”的映射。
作为优选的,所述步骤S5中,将得到原始文本T和信息模板P进行拼接,在句首添加[CLS],句子之间用[SEP]分隔符分开,经过数据预处理以后得到了该条数据的模型最终输入。
作为优选的,所述步骤S6中,所述编码器模型采用的是BERT模型;所述BERT模型是一种多层双向Transformer编码器;所述BERT模型进行遮蔽(Mask)预训练工作,通过随机Mask输入词块中的15%,其中的80%会直接用[MASK]符号代替,10%会替代为其他任意的词,最后10%会保留原词;将其传入多层的Transformer中训练预测这些被Mask的词块,得到深度双向语义表示的向量;所述BERT模型核心部分是一个多层双向的Transformer编码结构,不再依赖RNN或者CNN,只需要注意力机制就能够一步到位地获取全局信息。
作为优选的,所述编码部分主要是基于自注意力的,计算式如下:
式中:如果忽略激活函数softmax的话,那么事实上它就是三个n×dk、dk×m、m×dv的矩阵相乘,最后的结果就是一个n×dv的矩阵;也可以将其视为一个Attention层,将n×dk的序列Q编码成了一个心的n×dv的序列,因此,其实质是一个重新编码的过程;
这样做的目的是获得一个既可以表示词本身特征又可以反映上下文关系的表达;为了增强其表示能力,Transformer使用了“多头”模式对其进行了优化,是模型共同处理来自不同表达的子空间在不同位置的信息,其计算式如下:
MultiHead(Q,K,V)=Concat(head1,head2,...,headn,);
式中:n为多头注意力的个数;按每一时序上的向量长度等分成n份;将上面等分后的数据分别通过不同的权重映射得到新的Q、K、W的值,再将n份数据headn计算相应的Attention的值,然后重新横向拼接(Concat)起来,再映射到原始的向量维度,就得到多头注意力结果值Multihead;在这之后Transformer使用残差网络和层归一化避免出现退化问题,使模型能更好的进行特征抽取;
Transformer是基于完全注意力的方法,与一般CNN和RNN编码方式都不同;它能根据上下文距离长短建模捕捉其之间的关系;为了使Transformer感知词与词之间的位置关系,所述BERT模型的输入表征中使用位置编码给每个字添加了位置信息;
所述BERT模型的输入表征是相应token embeddings、segmentation embeddings和position embeddings的总和,计算式如下:
式中:pos是指token在序列中所处的位置;i表示位置向量中每个值的维度;dmodel表示模型的维度;
所述BERT模型做到了同时考虑上下文语义特征,模型输出可以看见任意时刻的输入,能捕捉更长距离的依赖;
所述BERT模型对数据预处理后的句子输入进行编码,得到每个单词编码后的表示,结果为:H={h0,...,hm,...,hk,...,hn};
hi表示第i个单词编码后的向量表示;原始文本T={t1,...,e1,...,e2,...,tn}编码后表示为h0到hm之间的向量HT,而实体和关系信息模板P编码后的表示为hk到hn之间的向量Hp;通过全连接层后得到最终向量表示:
矩阵W0,W1维度为Rd×d,d表示输出向量的维度,b0,b1为偏置。
作为优选的,所述步骤S7中,所述解码器除了Multi-Head Attention层之外,还有一层Masked Multi-Head Attention层;所述解码器需要完成将编码转换成单词输出的操作,在该生成过程中,对于某一时刻i,只有小于i时刻的输入有效,大于i时刻的就会被屏蔽掉;所述解码器其余两层的结构与编码器相同,最终会输出一个实数向量;
该实数向量会经过线性变换层,转换为一个分数值,投射到一个被称为对数概率的向量中;对数几率向量中的分数再经过一个Softmax层,转换为概率,最终最高的概率被转换成对应的单词,形成最终的输出。
作为优选的,将关系抽取和分类作为一项生成任务来处理:使用自回归模型输出输入文本中存在的每个三元组;任务是在给定x的情况下自回归生成y:
训练时采用交叉熵损失函数:
k代表batch_size;加入了L2正则项防止过拟合,在全连接中加入dropout机制,值为0.1。
本发明还提供了一种融合实体和关系信息的端到端关系抽取系统,用于执行上述所述的一种融合实体和关系信息的端到端关系抽取方法。
与现有技术相比,本发明的有益效果在于:
1、本发明将提示学习中模板方法与端到端模型相结合,并从多角度提取数据中隐藏的实体或关系信息,并将它们进行融合,帮助模型更好的掌握数据句子上下文潜在关系,为关系分类提供依据,提高了模型关系抽取的精确度。
2、本发明解决了传统的实体关系联合抽取方案将两个子任务视为独立任务以割裂两个任务之间的联系的问题。
3、本发引入提示模板,模板中融合了实体及关系信息,充分利用提示模板的信息以提高模型的性能。
4、本发明提升了实体关系联合抽取的性能,具有良好的实用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种融合实体和关系信息的端到端关系抽取方法的流程图;
图2是本发明提供的一种融合实体和关系信息的端到端关系抽取方法的模型框架图;
图3是本发明提供的一种融合实体和关系信息的端到端关系抽取方法的算法结果对比图;
图4是本发明提供的一种融合实体和关系信息的端到端关系抽取系统的结构图。
具体实施方式
下面将结合本发明本实施方式中的附图,对本发明本实施方式中的技术方案进行清楚、完整地描述,显然,所描述的本实施方式是本发明的一种实施方式,而不是全部的本实施方式。基于本发明中的本实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他本实施方式,都属于本发明保护的范围。
实施例一
请参考图1和图2,本发明提供了一种融合实体和关系信息的端到端关系抽取方法,包括以下步骤:
步骤S1:获取公开数据集CONLL04,对原始训练数据进行预处理,包括数据清洗、数据标注和数据增强;
具体的,对于数据集CONLL04,一条原始数据中包含tokens(词集)、entities(实体集)和relations(关系集)三个部分,tokens(词集)中的元素是组成文本序列的词,entities(实体集)中的元素包含实体的类型(如loc)和实体在tokens中起始和结束的位置,换言之,entities集包含实体的类型以及实体所处句中的位置,relations集包含头实体和尾实体在句中所处的位置以及它们之间的关系类型。形式如,{“tokens”:[“Paris”,“is”,“located”,“France”,“.”],“entities”:[{“type”:“loc”,“start”:0,“end”:1},{“type”:“loc”,“start”:3,“end”:4}],“relations”:{“type”:“Located_In”,“head”:0,“tail”:1}]。对于一条CONLL04的原始数据,我们先进行数据清洗将其处理成一条完整的句子“Paris is located in France.”。
步骤S2:对数据集CONLL04中关系类型的映射进行调整,从而得到主客体实体构成的原始文本T;
所述步骤S2中,对于数据集原始关系类型集合R={r1,……,rn},先将该集合映射符合语言逻辑的同义短语;
对于CONLL04数据集,其中有一个关系类型为“Located_In”,将其映射为“islocated in”,从而与主客体实体构成文本“Entity1is located in Entity2”,使预训练模型更好的理解。
步骤S3:从原始文本T中获取实体类型和实体主客体信息;
所述步骤S3中,对于原始文本T={t1,…,e1,…,e2,…,tn}中的实体,获取其实体类型和主客体信息E1-type,E2-type和E1-subject,E2-object。
步骤S4:构建多元实体关系信息模板P,所述信息模板P中包含了实体类型信息、实体主客信息以及实体之间的关系信息;
所述步骤S4中,将步骤S1和步骤S2中获得的实体关系信息,按照“主体-关系-客体”的形式,构建信息模板P,“<sub>An hui<loc>is located in<obj>China<loc>”,其中实体“An hui”和“China”的实体类型均为“location”,表示地名;实体“An hui”的主客体信息为“sub”,表示主实体,实体“China”的主客体信息为“obj”;表示客实体;实体之间的关系为“is located in”,是原始关系类型“Located_In”的映射。
步骤S5:将得到原始文本T和信息模板P进行句子拼接,将拼接得到的数据作为编码器模型的最终输入;
所述步骤S5中,将得到原始文本T和信息模板P进行拼接,在句首添加[CLS],句子之间用[SEP]分隔符分开,经过数据预处理以后得到了该条数据的模型最终输入。
步骤S6:使用编码器模型对输入的数据进行处理编码,所述编码器模型采用的是BERT模型;所述BERT模型将会对数据预处理后的数据进行编码,得到原始文本向量,实体和关系信息向量,通过全连接层降维,然后拼接;
所述步骤S6中,所述BERT模型是一种多层双向Transformer编码器;所述BERT模型进行遮蔽(Mask)预训练工作,通过随机Mask输入词块中的15%,其中的80%会直接用[MASK]符号代替,10%会替代为其他任意的词,最后10%会保留原词;将其传入多层的Transformer中训练预测这些被Mask的词块,得到深度双向语义表示的向量;所述BERT模型核心部分是一个多层双向的Transformer编码结构,不再依赖RNN或者CNN,只需要注意力机制就能够一步到位地获取全局信息。
所述编码部分主要是基于自注意力的,计算式如下:
式中:如果忽略激活函数softmax的话,那么事实上它就是三个n×dk、dk×m、m×dv的矩阵相乘,最后的结果就是一个n×dv的矩阵;也可以将其视为一个Attention层,将n×dk的序列Q编码成了一个心的n×dv的序列,因此,其实质是一个重新编码的过程;
这样做的目的是获得一个既可以表示词本身特征又可以反映上下文关系的表达;为了增强其表示能力,Transformer使用了“多头”模式对其进行了优化,是模型共同处理来自不同表达的子空间在不同位置的信息,其计算式如下:
MultiHead(Q,K,V)=Concat(head1,head2,...,headn,);
式中:n为多头注意力的个数;按每一时序上的向量长度等分成n份;将上面等分后的数据分别通过不同的权重映射得到新的Q、K、W的值,再将n份数据headn计算相应的Attention的值,然后重新横向拼接(Concat)起来,再映射到原始的向量维度,就得到多头注意力结果值Multihead;在这之后Transformer使用残差网络和层归一化避免出现退化问题,使模型能更好的进行特征抽取;
Transformer是基于完全注意力的方法,与一般CNN和RNN编码方式都不同;它能根据上下文距离长短建模捕捉其之间的关系;为了使Transformer感知词与词之间的位置关系,所述BERT模型的输入表征中使用位置编码给每个字添加了位置信息;
所述BERT模型的输入表征是相应token embeddings、segmentation embeddings和position embeddings的总和,计算式如下:
式中:pos是指token在序列中所处的位置;i表示位置向量中每个值的维度;dmodel表示模型的维度;
所述BERT模型做到了同时考虑上下文语义特征,模型输出可以看见任意时刻的输入,能捕捉更长距离的依赖;
所述BERT模型对数据预处理后的句子输入进行编码,得到每个单词编码后的表示,结果为:H={h0,...,hm,...,hk,...,hn};
hi表示第i个单词编码后的向量表示;原始文本T={t1,...,e1,...,e2,...,tn}编码后表示为h0到hm之间的向量HT,而实体和关系信息模板P编码后的表示为hk到hn之间的向量Hp;通过全连接层后得到最终向量表示
矩阵W0,W1维度为Rd×d,d表示输出向量的维度,b0,b1为偏置。
步骤S7:随后将得到的特征传入解码器,最后生成预测文本。
所述步骤S7中,所述解码器除了Multi-Head Attention层之外,还有一层MaskedMulti-Head Attention层;所述解码器需要完成将编码转换成单词输出的操作,在该生成过程中,对于某一时刻i,只有小于i时刻的输入有效,大于i时刻的就会被屏蔽掉;所述解码器其余两层的结构与编码器相同,最终会输出一个实数向量;
该实数向量会经过线性变换层,转换为一个分数值,投射到一个被称为对数概率的向量中;对数几率向量中的分数再经过一个Softmax层,转换为概率,最终最高的概率被转换成对应的单词,形成最终的输出。
将关系抽取和分类作为一项生成任务来处理:使用自回归模型输出输入文本中存在的每个三元组;任务是在给定x的情况下自回归生成y:
训练时采用交叉熵损失函数:
k代表batch_size;加入了L2正则项防止过拟合,在全连接中加入dropout机制,值为0.1。
在图2中,首先,采用步骤S1和步骤S2对原始数据进行收集和对数据进行预处理;其次,采用步骤S3对数据的内容进行信息抽取,形成信息抽取模型;再次,采用步骤S4和步骤S5对数据进行信息融合;最后,采用步骤S6和步骤S7组成三元组抽取模型,对数据进行编码、解码以及输出结果。
如图3所示,IM Agorithm是本发明方法的实验结果,Comparison algorithm是本发明方法主要对比模型,Comparison algorithm用端到端模型解决关系抽取问题的方法,将三元组分解为文本序列,相比较以前类似做法有一定的优势。但相比于IM Agorithm,本发明方法采用了基于提示学习中构建提示模板的方法,关系抽取任务的实验结果更好。最后通过精确率、召回率、F1值进行比较,结果如图3所示。
此外,为一进步验证,我们分别设计了两种信息融合模板用于验证不同模板对结果的影响,模板A:[head_entity]relation_type[tail_entity],模板B:The relationshipbetween[head_entity]and[tail_entity]is relation_type;分别用这两个信息融合模板对CONLL04数据集进行消融实验。
Ours | Precision | Recall | F1 |
-NoTemplate | 73.43 | 66.45 | 69.27 |
-TemplateA | 80.74 | 71.89 | 74.77 |
-TemplateB | 77.02 | 68.21 | 71.56 |
在没有模板的情况下模型对于关系抽取任务的效果较差,有模板的情况下实验结果好于无模板。其中,模板A的实验结果好于模板B,可以得出不同模板对关系抽取效果有一定的影响这一结论。
实施例二
一种融合实体和关系信息的端到端关系抽取系统,用于执行实施例一所述的一种融合实体和关系信息的端到端关系抽取方法。
如图4所示;所述系统包括数据预处理模型,所述数据预处理模型包括步骤S1和步骤S2获取公开数据集CONLL04,对原始训练数据进行预处理,包括数据清洗,数据标注和数据增强;对数据集CONLLO4中的关系类型进行一对一映射;
还包括信息抽取模型,所述信息抽取模型包括步骤S3从原始文本中抽取出实体和关系信息;
还包括信息融合模型,所述信息融合模型包括步骤S4和步骤S5构建多元实体关系信息模板P,将信息抽取模块中的信息融合进信息摸板P中,并将原始文本和信息模板进行拼接;
还包括三元组抽取模型,所述三元组抽取模型包括步骤S6和步骤S7使用编码器模型对输入的数据进行处理编码,所述编码器将会对数据预处理后的数据进行编码,得到原始文本向量,实体和关系信息向量,通过全连接降维,然后拼接,最后输出预测结果。
本系统可用于任何自然语言的实体关系三元组抽取,所述实体不局限于具体的文本,包括新闻、微博、百科等数据量打且具有共同特征的数据内容,本实施例提供了基于关系分解的端到端实体关系联合抽取方法在新闻和百科文章的应用。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种融合实体和关系信息的端到端关系抽取方法,其特征在于:包括以下步骤:
步骤S1:获取公开数据集CONLL04,对原始训练数据进行预处理,包括数据清洗、数据标注和数据增强;
步骤S2:对数据集CONLL04中关系类型的映射进行调整,从而得到主客体实体构成的原始文本T;
步骤S3:从原始文本T中获取实体类型和实体主客体信息;
步骤S4:构建多元实体关系信息模板P,所述信息模板P中包含了实体类型信息、实体主客信息以及实体之间的关系信息;
步骤S5:将得到原始文本T和信息模板P进行句子拼接,将拼接得到的数据作为编码器模型的最终输入;
步骤S6:使用编码器模型对输入的数据进行处理编码,所述编码器将会对数据预处理后的数据进行编码,得到原始文本向量,实体和关系信息向量,通过全连接层降维,然后拼接;
步骤S7:随后将得到的特征传入解码器,最后生成预测文本。
2.根据权利要求1所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述步骤S2中,对于数据集原始关系类型集合R={r1,……,rn},先将该集合映射符合语言逻辑的同义短语;
对于CONLL04数据集,其中有一个关系类型为“Located_In”,将其映射为“is locatedin”,从而与主客体实体构成文本“Entity1 is located in Entity2”,使预训练模型更好的理解。
3.根据权利要求2所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述步骤S3中,对于原始文本T={t1,…,e1,…,e2,…,tn}中的实体,获取其实体类型和主客体信息E1-type,E2-type和E1-subject,E2-object。
4.根据权利要求3所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述步骤S4中,将步骤S1和步骤S2中获得的实体关系信息,按照“主体-关系-客体”的形式,构建信息模板P,“<sub>An hui<loc>is located in<obj>China<loc>”,其中实体“Anhui”和“China”的实体类型均为“location”,表示地名;实体“An hui”的主客体信息为“sub”,表示主实体,实体“China”的主客体信息为“obj”;表示客实体;实体之间的关系为“is located in”,是原始关系类型“Located_In”的映射。
5.根据权利要求4所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述步骤S5中,将得到原始文本T和信息模板P进行拼接,在句首添加[CLS],句子之间用[SEP]分隔符分开,经过数据预处理以后得到了该条数据的模型最终输入。
6.根据权利要求5所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述步骤S6中,所述编码器模型采用的是BERT模型;所述BERT模型是一种多层双向Transformer编码器;所述BERT模型进行遮蔽(Mask)预训练工作,通过随机Mask输入词块中的15%,其中的80%会直接用[MASK]符号代替,10%会替代为其他任意的词,最后10%会保留原词;将其传入多层的Transformer中训练预测这些被Mask的词块,得到深度双向语义表示的向量;所述BERT模型核心部分是一个多层双向的Transformer编码结构,不再依赖RNN或者CNN,只需要注意力机制就能够一步到位地获取全局信息。
7.根据权利要求6所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述编码部分主要是基于自注意力的,计算式如下:
式中:如果忽略激活函数softmax的话,那么事实上它就是三个n×dk、dk×m、m×dv的矩阵相乘,最后的结果就是一个n×dv的矩阵;也可以将其视为一个Attention层,将n×dk的序列Q编码成了一个心的n×dv的序列,因此,其实质是一个重新编码的过程;
这样做的目的是获得一个既可以表示词本身特征又可以反映上下文关系的表达;为了增强其表示能力,Transformer使用了“多头”模式对其进行了优化,是模型共同处理来自不同表达的子空间在不同位置的信息,其计算式如下:
MultiHead(Q,K,V)=Concat(head1,head2,…,headn,);
式中:n为多头注意力的个数;按每一时序上的向量长度等分成n份;将上面等分后的数据分别通过不同的权重映射得到新的Q、K、W的值,再将n份数据headn计算相应的Attention的值,然后重新横向拼接(Concat)起来,再映射到原始的向量维度,就得到多头注意力结果值Multihead;在这之后Transformer使用残差网络和层归一化避免出现退化问题,使模型能更好的进行特征抽取;
Transformer是基于完全注意力的方法,与一般CNN和RNN编码方式都不同;它能根据上下文距离长短建模捕捉其之间的关系;为了使Transformer感知词与词之间的位置关系,所述BERT模型的输入表征中使用位置编码给每个字添加了位置信息;
所述BERT模型的输入表征是相应token embeddings、segmentation embeddings和position embeddings的总和,计算式如下:
式中:pos是指token在序列中所处的位置;i表示位置向量中每个值的维度;dmodel表示模型的维度;
所述BERT模型做到了同时考虑上下文语义特征,模型输出可以看见任意时刻的输入,能捕捉更长距离的依赖;
所述BERT模型对数据预处理后的句子输入进行编码,得到每个单词编码后的表示,结果为:H={h0,…,hm,…,hk,…,hn};hi表示第i个单词编码后的向量表示;原始文本T={t1,…,e1,…,e2,…,tn}编码后表示为h0到hm之间的向量HT,而实体和关系信息模板P编码后的表示为hk到hn之间的向量Hp;通过全连接层后得到最终向量表示
矩阵W0,W1维度为Rd×d,d表示输出向量的维度,b0,b1为偏置。
8.根据权利要求7所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述步骤S7中,所述解码器除了Multi-Head Attention层之外,还有一层MaskedMulti-Head Attention层;所述解码器需要完成将编码转换成单词输出的操作,在该生成过程中,对于某一时刻i,只有小于i时刻的输入有效,大于i时刻的就会被屏蔽掉;所述解码器其余两层的结构与编码器相同,最终会输出一个实数向量;
该实数向量会经过线性变换层,转换为一个分数值,投射到一个被称为对数概率的向量中;对数几率向量中的分数再经过一个Softmax层,转换为概率,最终最高的概率被转换成对应的单词,形成最终的输出。
9.根据权利要求8所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:将关系抽取和分类作为一项生成任务来处理:使用自回归模型输出输入文本中存在的每个三元组;任务是在给定x的情况下自回归生成y:
训练时采用交叉熵损失函数:
k代表batch_size;加入了L2正则项防止过拟合,在全连接中加入dropout机制,值为0.1。
10.一种融合实体和关系信息的端到端关系抽取系统,其特征在于:用于执行权利要求1至9中任意一项所述的一种融合实体和关系信息的端到端关系抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310130998.6A CN116628174A (zh) | 2023-02-17 | 2023-02-17 | 一种融合实体和关系信息的端到端关系抽取方法以及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310130998.6A CN116628174A (zh) | 2023-02-17 | 2023-02-17 | 一种融合实体和关系信息的端到端关系抽取方法以及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116628174A true CN116628174A (zh) | 2023-08-22 |
Family
ID=87620018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310130998.6A Pending CN116628174A (zh) | 2023-02-17 | 2023-02-17 | 一种融合实体和关系信息的端到端关系抽取方法以及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628174A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581395A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于深度学习的模型融合三元组表示学习系统及方法 |
CN113095083A (zh) * | 2021-06-07 | 2021-07-09 | 浙江大华技术股份有限公司 | 实体抽取方法及装置 |
CN113360582A (zh) * | 2021-06-04 | 2021-09-07 | 中国人民解放军战略支援部队信息工程大学 | 基于bert模型融合多元实体信息的关系分类方法及系统 |
CN114492460A (zh) * | 2022-04-08 | 2022-05-13 | 东南大学 | 基于衍生提示学习的事件因果关系抽取方法 |
CN114781375A (zh) * | 2022-05-19 | 2022-07-22 | 中国电子科技集团公司第二十八研究所 | 一种基于bert与注意力机制的军事装备关系抽取方法 |
CN115470348A (zh) * | 2022-09-08 | 2022-12-13 | 广东工业大学 | 一种暴力事件检测方法、装置及设备 |
-
2023
- 2023-02-17 CN CN202310130998.6A patent/CN116628174A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581395A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于深度学习的模型融合三元组表示学习系统及方法 |
CN113360582A (zh) * | 2021-06-04 | 2021-09-07 | 中国人民解放军战略支援部队信息工程大学 | 基于bert模型融合多元实体信息的关系分类方法及系统 |
CN113095083A (zh) * | 2021-06-07 | 2021-07-09 | 浙江大华技术股份有限公司 | 实体抽取方法及装置 |
CN114492460A (zh) * | 2022-04-08 | 2022-05-13 | 东南大学 | 基于衍生提示学习的事件因果关系抽取方法 |
CN114781375A (zh) * | 2022-05-19 | 2022-07-22 | 中国电子科技集团公司第二十八研究所 | 一种基于bert与注意力机制的军事装备关系抽取方法 |
CN115470348A (zh) * | 2022-09-08 | 2022-12-13 | 广东工业大学 | 一种暴力事件检测方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
VASWANI, ASHISH等: "Attention Is All You Need", 31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017), 31 December 2017 (2017-12-31), pages 1 - 15, XP002796972 * |
YAOJIE LU等: "Unified Structure Generation for Universal Information Extraction", PROCEEDINGS OF THE 60TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 14 September 2022 (2022-09-14), pages 5755 - 5772 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598221B (zh) | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN115471851B (zh) | 融合双重注意力机制的缅甸语图像文本识别方法及装置 | |
CN109992669B (zh) | 一种基于语言模型和强化学习的关键词问答方法 | |
CN113158665A (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN110033008A (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN113569562B (zh) | 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统 | |
CN114998670B (zh) | 多模态信息预训练方法及系统 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN116204674B (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
CN111611346A (zh) | 一种基于动态语义编码和双注意力的文本匹配方法及装置 | |
CN114168754A (zh) | 一种基于句法依赖和融合信息的关系抽取方法 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
CN114942990A (zh) | 一种基于提示学习的少样本抽象对话摘要生成系统 | |
CN113657125B (zh) | 一种基于知识图谱的蒙汉非自回归机器翻译方法 | |
CN114817564A (zh) | 一种属性抽取方法、装置及存储介质 | |
CN113297374B (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN116341519A (zh) | 基于背景知识的事件因果关系抽取方法、装置及存储介质 | |
CN115719072A (zh) | 一种基于掩码机制的篇章级神经机器翻译方法及系统 | |
CN114757181B (zh) | 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置 | |
CN116628174A (zh) | 一种融合实体和关系信息的端到端关系抽取方法以及系统 | |
CN112989845B (zh) | 一种基于路由算法的篇章级神经机器翻译方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |