CN112084790B - 一种基于预训练卷积神经网络的关系抽取方法及系统 - Google Patents
一种基于预训练卷积神经网络的关系抽取方法及系统 Download PDFInfo
- Publication number
- CN112084790B CN112084790B CN202011014318.7A CN202011014318A CN112084790B CN 112084790 B CN112084790 B CN 112084790B CN 202011014318 A CN202011014318 A CN 202011014318A CN 112084790 B CN112084790 B CN 112084790B
- Authority
- CN
- China
- Prior art keywords
- vector
- sentence
- entity
- neural network
- semantics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于预训练卷积神经网络的关系抽取方法及系统,属于数据处理技术领域,其特征在于,一方面利用预训练模型提取目标实体的语义信息,另一方面使用卷积神经网络提取句子级的语义信息;具体为:先对数据集进行处理,在文本句子的开头、结尾以及实体前后加入特殊标签,识别出一个句子和两个目标实体,然后将处理好的数据输入预训练模型、卷积神经网络模型,提取目标实体和句子的语义,将获取的句子语义、实体语义、标签语义连接,通过softmax分类器获取目标实体之间的关系。本发明通过预训练和神经网络可以分别提取实体级和句子级的语义信息,在没有使用任何自然语言处理工具的情况下,提高了关系抽取的准确率。
Description
技术领域
本发明属于数据处理技术领域,特别是涉及一种基于预训练卷积神经网络的关系抽取方法及系统。
背景技术
实体关系抽取是一项从非结构化文本中提取信息的任务,其目的是对非结构化的文本中所蕴涵的实体语义关系进行挖掘处理,从而整理成三元组REL(e1,e2)存储在数据库中,为之后的智能信息检索和语义分析提供了一定的支持和帮助。关系抽取任务可以是一种特殊的分类任务。分类任务是指通过对文本做特征抽取,然后根据待预测的关系训练多分类模型,每种关系都是一个特定的类别。关系抽取任务可以更进一步的将关系抽取算法分为有监督关系抽取算法、boostrap关系抽取算法、无监督关系抽取以及远程监督关系抽取算法。
1、有监督关系抽取:采用有监督学习的思想,利用人工标注的语料来训练模型,学习句子的句法和语法语义特征,然后基于训练好的模型来做关系抽取。有监督的关系抽取往往准确率和召回率都是比较高的,但是其需要人工标注的训练数据,而标注的成本往往是比较高的。所以其很难扩展大新的领域,只能在一些小规模的垂直领域有很好的落地。
2、boostrap关系抽取就是基于boostraping的思想,首先利用少量的种子实例或模板来为每种关系标注少量的种子实体对,基于这些实体对在文本语料库中抽取相关的句子集合,基于这些句子抽取表达关系的模式,一次循环迭代,即“滚雪球”式的关系抽取。boostrap的方法可以较少模型对标注数据的依赖,但是这种方法也容易产生语义漂移的现象,同时抽取结果的准确率较低也是一个需要迫切解决的问题。
3、无监督关系抽取是指通过聚类等方法抽取实体之间的关系字符串。这种方法可以抽取非常大量的关系对,但是抽取结果很难映射到知识库中。
4、远程监督关系抽取。为了解决有监督关系抽取对人工标注预料的过于以来的问题,2009年Mintz提出了远程监督关系抽取的思想,如果一个实体对在知识库中国存在某种关系,那所有包含该实体对的句子都存在这种关系。基于这种假设就可以完成对文本的远程标注,然后再使用类似有监督学习的思想来训练学习。远程监督关系抽取降低了模型对人工标注语料的依赖,为大规模跨领域的关系抽取提供了实现的可能。自该思想被提出依赖,工业和学术界都在做持续深入的研究,并已取得了很不错的效果。
发明内容
技术问题
本发明要解决的技术问题是传统关系抽取方法准确率不高,依赖人工标注且未能充分利用句子和目标实体语义的问题,提供一种预训练卷积神经网络关系抽取方法。该方法在将文本输入到预训练模型(Bidirectional Encoder Representation fromTransformers,BERT)进行微调之前,首先在目标实体之前和之后插入特殊标记,以便识别两个目标实体的位置并传输信息进入BERT模型,从BERT模型中定位两个目标实体在输出嵌入中的位置。然后使用它们的嵌入以及句子编码(在BERT设置中嵌入的特殊字符[CLS],[SEP])输入到CNN提取句子级别的语义信息,并将获得的标签向量,实体向量和句子向量通过全连接神经网络和Softmax分类器中进行关系抽取。它能够捕捉句子和两个目标实体的语义,以更好地适应关系抽取任务。
技术方案
本发明的第一目的是提供一种基于预训练卷积神经网络的关系抽取方法,基于预训练卷积神经网络的关系抽取方法体现在两个方面,一方面利用预训练模型提取目标实体的语义信息,另一方面使用卷积神经网络提取句子级的语义信息。具体表现为:先对数据集进行处理,在文本句子的开头、结尾以及实体前后加入特殊标签,以更好的识别出一个句子和两个目标实体,然后将处理好的数据输入预训练模型、卷积神经网络模型,提取目标实体和句子的语义,将获取的句子语义、实体语义、标签语义连接,通过softmax分类器获取目标实体之间的关系。包含下列步骤:
步骤一:数据预处理,对于标签序列s={x1,x2,……xn},xi为句子的第i个词向量,n为模型设置的输入句子的最大长度,开头和结尾分别添加[CLS],[SEP]标签和一些特殊的规范字符;输入处理模块将每个xi编码成一个包含两个目标实体和特殊标签符号的向量ei的公式为:
ei=Etoken(xi)+Eseg(xi)+Epos(xi)
其中,Etoken(xi)表示词嵌入,Eseg(xi)表示片段嵌入,Epos(xi)表示位置嵌入。
步骤二:将处理好的数据输出到预训练模型(Bidirectional EncoderRepresentation from Transformers,BERT)模型中进行预训练;
经过预训练BERT后最终输出的隐藏向量是H={H0,H1,H2,…,Hn},标签向量为H0,向量Hi到Hj是实体e1的BERT的最终隐藏状态向量,而Hk到Hm是实体e2的BERT的最终隐藏状态向量。
步骤三:BERT预训练完成后,对实体向量取平均并激活,再分别使用卷积神经网络(Convolutional Neural Networks,CNN)和全连接神经网络提取句子和两个目标实体中的语义信息;
1,标签语义获取
H'0=W0(tanh(H0))+b0
其中:W0是参数矩阵,且W0∈Rd×d,d是BERT的隐藏状态大小。b0是偏差向量。
2,实体语义获取
其中,W1,W2是参数矩阵,具有相同的维度,即W1∈Rd×d,W2∈Rd×d,d是BERT的隐藏状态大小。b1,b2是偏差向量,且W1=W2,b1=b2。
3,句子语义提取
对BERT层的输出矩阵H={H0,H1,H2,…,Hn}进行卷积、降采样操作,然后通过拼接层,提取文本特征。假设卷积核长度为k,卷积核滑动的步长设为1,对文本矩阵进行上下滑动,则H可以分成{H0:k,H1:k+1,H2:k+2,…,Hn-k+1:n},其中Hi:j表示向量Hi到Hj的所有向量的级联,对于每一个分量执行卷积操作后得到向量C={C0,C1,C2,…,Cn-k+1},Ci是对分量Hi:i+k-1执行卷积操作后得到的值,称为一个局部特征映射,计算公式为:
Ci=W3 THi:i+k-1+b3
其中,W3是卷积核的参数,按照均匀分布随机初始化,并在模型训练过程中不断学习。b3是偏差向量。
对卷积捕获的文本特征映射向量C进行最大池化操作:
对于q个卷积核:
卷积操作实质上完成了对文本特征中表示局部重要信息的捕获,池化操作则完成了局部重要特征的提取。经过全连接后CNN的输出向量为最终的向量C’。
步骤四:将提取的标签语义,句子语义和实体语义信息进行全连接;
h”=W4[concat(C',H'0,H'1,H'2)]+b4
其中,W4∈RL×4d,L是关系类型的个数,b4是偏差向量。
步骤五:通过softmax分类器对实体关系进行抽取,输出两个目标实体的关系。
p=softmax(h”)
p是概率输出。
本专利的第二发明目的是提供一种基于预训练卷积神经网络的关系抽取系统,基于预训练卷积神经网络的关系抽取方法体现在两个方面,一方面利用预训练模型提取目标实体的语义信息,另一方面使用卷积神经网络提取句子级的语义信息。具体表现为:先对数据集进行处理,在文本句子的开头、结尾以及实体前后加入特殊标签,以更好的识别出一个句子和两个目标实体,然后将处理好的数据输入预训练模型、卷积神经网络模型,提取目标实体和句子的语义,将获取的句子语义、实体语义、标签语义连接,通过softmax分类器获取目标实体之间的关系;包括:
数据预处理模块,对于标签序列s={x1,x2,……xn},xi为句子的第i个词向量,n为模型设置的输入句子的最大长度,开头和结尾分别添加[CLS],[SEP]标签和一些特殊的规范字符;输入处理模块将每个xi编码成一个包含两个目标实体和特殊标签符号的向量ei的公式为:
ei=Etoken(xi)+Eseg(xi)+Epos(xi)
其中,Etoken(xi)表示词嵌入,Eseg(xi)表示片段嵌入,Epos(xi)表示位置嵌入。
预训练模块:将处理好的数据输出到预训练模型(Bidirectional EncoderRepresentation from Transformers,BERT)模型中进行预训练;
经过预训练BERT后最终输出的隐藏向量是H={H0,H1,H2,…,Hn},标签向量为H0,向量Hi到Hj是实体e1的BERT的最终隐藏状态向量,而Hk到Hm是实体e2的BERT的最终隐藏状态向量。
信息处理模块:BERT预训练完成后,对实体向量取平均并激活,再分别使用卷积神经网络(Convolutional Neural Networks,CNN)和全连接神经网络提取句子和两个目标实体中的语义信息;
标签语义获取
H'0=W0(tanh(H0))+b0
其中:W0是参数矩阵,且W0∈Rd×d,d是BERT的隐藏状态大小。b0是偏差向量。
实体语义获取
其中,W1,W2是参数矩阵,具有相同的维度,即W1∈Rd×d,W2∈Rd×d,d是BERT的隐藏状态大小。b1,b2是偏差向量,且W1=W2,b1=b2。
句子语义提取
对BERT层的输出矩阵H={H0,H1,H2,…,Hn}进行卷积、降采样操作,然后通过拼接层,提取文本特征。假设卷积核长度为k,卷积核滑动的步长设为1,对文本矩阵进行上下滑动,则H可以分成{H0:k,H1:k+1,H2:k+2,…,Hn-k+1:n},其中Hi:j表示向量Hi到Hj的所有向量的级联,对于每一个分量执行卷积操作后得到向量C={C0,C1,C2,…,Cn-k+1},Ci是对分量Hi:i+k-1执行卷积操作后得到的值,称为一个局部特征映射,计算公式为:
Ci=W3 THi:i+k-1+b3
其中,W3是卷积核的参数,按照均匀分布随机初始化,并在模型训练过程中不断学习。b3是偏差向量。
对卷积捕获的文本特征映射向量C进行最大池化操作:
对于q个卷积核:
卷积操作实质上完成了对文本特征中表示局部重要信息的捕获,池化操作则完成了局部重要特征的提取。经过全连接后CNN的输出向量为最终的向量C’。
连接模块:将提取的标签语义,句子语义和实体语义信息进行全连接;
h”=W4[concat(C',H'0,H'1,H'2)]+b4
其中,W4∈RL×4d,L是关系类型的个数,b4是偏差向量。
输出模块:通过softmax分类器对实体关系进行抽取,输出两个目标实体的关系。
p=softmax(h”)
p是概率输出。
本专利的第三发明目的是提供一种实现上述基于预训练卷积神经网络的关系抽取方法的计算机程序。
本专利的第四发明目的是提供一种实现上述基于预训练卷积神经网络的关系抽取方法的信息数据处理终端。
本专利的第五发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于预训练卷积神经网络的关系抽取方法。
本发明的优点及积极效果为:
通过采用上述技术方案,本发明具有如下的技术效果:
本发明的基于预训练卷积神经网络实体关系抽取方法采用SemEval 2010 Task 8数据,将实体级信息纳入预先训练的语言模型,并使用CNN提取句子级的信息,能够更好的捕捉句子和两个目标实体的语义,在不依赖任何自然语言处理工具的情况下更好地适应关系抽取任务。通过与现有方法相比,本文没有依赖任何自然语言处理工具,准确率和召回率都有了很大的提高,且缩短了训练时间。
附图说明
图1为本发明优选实例的实体关系抽取框架图;
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。
本发明针对传统实体关系抽取方法准确率不高,依赖人工标注且未能充分利用句子和目标实体语义的问题,本发明将实体级信息融入预训练模型,并采用卷积神经网络提取句子级的语义信息,然后将目标实体信息向量,句子向量和标签向量连接,获得全局信息,建立了基于预训练卷积神经网络模型,最后引入softmax分类器抽取实体之间的关系。本发明通过预训练和神经网络可以分别提取实体级和句子级的语义信息,在没有使用任何自然语言处理工具的情况下,提高了关系抽取的准确率。
请参阅图1,具体方案为:
一种基于预训练卷积神经网络的关系抽取方法,基于预训练卷积神经网络的关系抽取方法体现在两个方面,一方面利用预训练模型提取目标实体的语义信息,另一方面使用卷积神经网络提取句子级的语义信息。具体表现为:先对数据集进行处理,在文本句子的开头、结尾以及实体前后加入特殊标签,以更好的识别出一个句子和两个目标实体,然后将处理好的数据输入预训练模型、卷积神经网络模型,提取目标实体和句子的语义,将获取的句子语义、实体语义、标签语义连接,通过softmax分类器获取目标实体之间的关系。包含下列步骤:
步骤一:数据预处理,对于标签序列s={x1,x2,……xn},xi为句子的第i个词向量,n为模型设置的输入句子的最大长度,开头和结尾分别添加[CLS],[SEP]标签和一些特殊的规范字符;输入处理模块将每个xi编码成一个包含两个目标实体和特殊标签符号的向量ei的公式为:
ei=Etoken(xi)+Eseg(xi)+Epos(xi)
其中,Etoken(xi)表示词嵌入,Eseg(xi)表示片段嵌入,Epos(xi)表示位置嵌入。
步骤二:将处理好的数据输出到预训练模型(Bidirectional EncoderRepresentation from Transformers,BERT)模型中进行预训练;
经过预训练BERT后最终输出的隐藏向量是H={H0,H1,H2,…,Hn},标签向量为H0,向量Hi到Hj是实体e1的BERT的最终隐藏状态向量,而Hk到Hm是实体e2的BERT的最终隐藏状态向量。
步骤三:BERT预训练完成后,对实体向量取平均并激活,再分别使用卷积神经网络(Convolutional Neural Networks,CNN)和全连接神经网络提取句子和两个目标实体中的语义信息;
标签语义获取
H'0=W0(tanh(H0))+b0
其中:W0是参数矩阵,且W0∈Rd×d,d是BERT的隐藏状态大小。b0是偏差向量。
实体语义获取
其中,W1,W2是参数矩阵,具有相同的维度,即W1∈Rd×d,W2∈Rd×d,d是BERT的隐藏状态大小。b1,b2是偏差向量,且W1=W2,b1=b2。
句子语义提取
对BERT层的输出矩阵H={H0,H1,H2,…,Hn}进行卷积、降采样操作,然后通过拼接层,提取文本特征。假设卷积核长度为k,卷积核滑动的步长设为1,对文本矩阵进行上下滑动,则H可以分成{H0:k,H1:k+1,H2:k+2,…,Hn-k+1:n},其中Hi:j表示向量Hi到Hj的所有向量的级联,对于每一个分量执行卷积操作后得到向量C={C0,C1,C2,…,Cn-k+1},Ci是对分量Hi:i+k-1执行卷积操作后得到的值,称为一个局部特征映射,计算公式为:
Ci=W3 THi:i+k-1+b3
其中,W3是卷积核的参数,按照均匀分布随机初始化,并在模型训练过程中不断学习。b3是偏差向量。
对卷积捕获的文本特征映射向量C进行最大池化操作:
对于q个卷积核:
卷积操作实质上完成了对文本特征中表示局部重要信息的捕获,池化操作则完成了局部重要特征的提取。经过全连接后CNN的输出向量为最终的向量C’。
步骤四:将提取的标签语义,句子语义和实体语义信息进行全连接;
h”=W4[concat(C',H'0,H'1,H'2)]+b4
其中,W4∈RL×4d,L是关系类型的个数,b4是偏差向量。
步骤五:通过softmax分类器对实体关系进行抽取,输出两个目标实体的关系。
p=softmax(h”)
p是概率输出。
一种基于预训练卷积神经网络的关系抽取系统,基于预训练卷积神经网络的关系抽取方法体现在两个方面,一方面利用预训练模型提取目标实体的语义信息,另一方面使用卷积神经网络提取句子级的语义信息。具体表现为:先对数据集进行处理,在文本句子的开头、结尾以及实体前后加入特殊标签,以更好的识别出一个句子和两个目标实体,然后将处理好的数据输入预训练模型、卷积神经网络模型,提取目标实体和句子的语义,将获取的句子语义、实体语义、标签语义连接,通过softmax分类器获取目标实体之间的关系;包括:
数据预处理模块,对于标签序列s={x1,x2,……xn},xi为句子的第i个词向量,n为模型设置的输入句子的最大长度,开头和结尾分别添加[CLS],[SEP]标签和一些特殊的规范字符;输入处理模块将每个xi编码成一个包含两个目标实体和特殊标签符号的向量ei的公式为:
ei=Etoken(xi)+Eseg(xi)+Epos(xi)
其中,Etoken(xi)表示词嵌入,Eseg(xi)表示片段嵌入,Epos(xi)表示位置嵌入。
预训练模块:将处理好的数据输出到预训练模型(Bidirectional EncoderRepresentation from Transformers,BERT)模型中进行预训练;
经过预训练BERT后最终输出的隐藏向量是H={H0,H1,H2,…,Hn},标签向量为H0,向量Hi到Hj是实体e1的BERT的最终隐藏状态向量,而Hk到Hm是实体e2的BERT的最终隐藏状态向量。
信息处理模块:BERT预训练完成后,对实体向量取平均并激活,再分别使用卷积神经网络(Convolutional Neural Networks,CNN)和全连接神经网络提取句子和两个目标实体中的语义信息;
标签语义获取
H'0=W0(tanh(H0))+b0
其中:W0是参数矩阵,且W0∈Rd×d,d是BERT的隐藏状态大小。b0是偏差向量。
实体语义获取
其中,W1,W2是参数矩阵,具有相同的维度,即W1∈Rd×d,W2∈Rd×d,d是BERT的隐藏状态大小。b1,b2是偏差向量,且W1=W2,b1=b2。
句子语义提取
对BERT层的输出矩阵H={H0,H1,H2,…,Hn}进行卷积、降采样操作,然后通过拼接层,提取文本特征。假设卷积核长度为k,卷积核滑动的步长设为1,对文本矩阵进行上下滑动,则H可以分成{H0:k,H1:k+1,H2:k+2,…,Hn-k+1:n},其中Hi:j表示向量Hi到Hj的所有向量的级联,对于每一个分量执行卷积操作后得到向量C={C0,C1,C2,…,Cn-k+1},Ci是对分量Hi:i+k-1执行卷积操作后得到的值,称为一个局部特征映射,计算公式为:
Ci=W3 THi:i+k-1+b3
其中,W3是卷积核的参数,按照均匀分布随机初始化,并在模型训练过程中不断学习。b3是偏差向量。
对卷积捕获的文本特征映射向量C进行最大池化操作:
对于q个卷积核:
卷积操作实质上完成了对文本特征中表示局部重要信息的捕获,池化操作则完成了局部重要特征的提取。经过全连接后CNN的输出向量为最终的向量C’。
连接模块:将提取的标签语义,句子语义和实体语义信息进行全连接;
h”=W4[concat(C',H'0,H'1,H'2)]+b4
其中,W4∈RL×4d,L是关系类型的个数,b4是偏差向量。
输出模块:通过softmax分类器对实体关系进行抽取,输出两个目标实体的关系。
p=softmax(h”)
p是概率输出。
一种实现上述基于预训练卷积神经网络的关系抽取方法的计算机程序。
一种实现上述基于预训练卷积神经网络的关系抽取方法的信息数据处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于预训练卷积神经网络的关系抽取方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (4)
1.一种基于预训练卷积神经网络的关系抽取方法,其特征在于,一方面利用预训练模型提取目标实体的语义信息,另一方面使用卷积神经网络提取句子级的语义信息;具体为:先对数据集进行处理,在文本句子的开头、结尾以及实体前后加入特殊标签,识别出一个句子和两个目标实体,然后将处理好的数据输入预训练模型、卷积神经网络模型,提取目标实体和句子的语义,将获取的句子语义、实体语义、标签语义连接,通过softmax分类器获取目标实体之间的关系;
所述关系抽取方法包括如下步骤:
步骤一:数据预处理,对于标签序列s={x1,x2,……xn},xi为句子的第i个词向量,n为模型设置的输入句子的最大长度,开头和结尾分别添加[CLS],[SEP]标签和一些特殊的规范字符;输入处理模块将每个xi编码成一个包含两个目标实体和特殊标签符号的向量ei的公式为:
ei=Etoken(xi)+Eseg(xi)+Epos(xi)
其中,Etoken(xi)表示词嵌入,Eseg(xi)表示片段嵌入,Epos(xi)表示位置嵌入;
步骤二:将处理好的数据输出到预训练模型中进行预训练;
经过预训练BERT后最终输出的隐藏向量是H={H0,H1,H2,…,Hn },标签向量为H0,向量Hi到Hj是实体e1的BERT的最终隐藏状态向量,而Hk到Hm是实体e2的BERT的最终隐藏状态向量;
步骤三:BERT预训练完成后,对实体向量取平均并激活,再分别使用卷积神经网络和全连接神经网络提取句子和两个目标实体中的语义信息;
标签语义获取:
H′0=W0(tanh(H0))+b0
其中:W0是参数矩阵,且W0∈Rd×d,d是BERT的隐藏状态大小,b0是偏差向量;
实体语义获取:
其中,W1,W2是参数矩阵,具有相同的维度,即W1∈Rd×d,W2∈Rd×d,d是BERT的隐藏状态大小,b1,b2是偏差向量,且W1=W2,b1=b2;
句子语义提取:
对BERT层的输出矩阵H={H0,H1,H2,…,Hn }进行卷积、降采样操作,然后通过拼接层,提取文本特征;当卷积核长度为k,卷积核滑动的步长设为1时,对文本矩阵进行上下滑动,则H分成{H0:k,H1:k+1,H2:k+2,…,Hn-k+1:n},其中Hi:j表示向量Hi到Hj的所有向量的级联,对于每一个分量执行卷积操作后得到向量C={C0,C1,C2,…,Cn-k+1},Ci是对分量Hi:i+k-1执行卷积操作后得到的值,称为一个局部特征映射,计算公式为:
Ci=W3 THi:i+k-1+b3
其中,W3是卷积核的参数,按照均匀分布随机初始化,并在模型训练过程中不断学习;b3是偏差向量;
对卷积捕获的文本特征映射向量C进行最大池化操作:
对于q个卷积核:
经过全连接后卷积神经网络的输出向量为最终的向量C’;
步骤四:将提取的标签语义,句子语义和实体语义信息进行全连接;
h”=W4[concat(C′,H′0,H′1,H′2)]+b4
其中,W4∈RL×4d,L是关系类型的个数,b4是偏差向量;
步骤五:通过softmax分类器对实体关系进行抽取,输出两个目标实体的关系;
p=softmax(h”)
p是概率输出。
2.一种基于预训练卷积神经网络的关系抽取系统,其特征在于:一方面利用预训练模型提取目标实体的语义信息,另一方面使用卷积神经网络提取句子级的语义信息;具体为:先对数据集进行处理,在文本句子的开头、结尾以及实体前后加入特殊标签,识别出一个句子和两个目标实体,然后将处理好的数据输入预训练模型、卷积神经网络模型,提取目标实体和句子的语义,将获取的句子语义、实体语义、标签语义连接,通过softmax分类器获取目标实体之间的关系;所述关系抽取系统包括:
数据预处理模块,对于标签序列s={x1,x2,……xn},xi为句子的第i个词向量,n为模型设置的输入句子的最大长度,开头和结尾分别添加[CLS],[SEP]标签和一些特殊的规范字符;输入处理模块将每个xi编码成一个包含两个目标实体和特殊标签符号的向量ei的公式为:
ei=Etoken(xi)+Eseg(xi)+Epos(xi)
其中,Etoken(xi)表示词嵌入,Eseg(xi)表示片段嵌入,Epos(xi)表示位置嵌入;
预训练模块,将处理好的数据输出到预训练模型中进行预训练;
经过预训练BERT后最终输出的隐藏向量是H={H0,H1,H2,…,Hn },标签向量为H0,向量Hi到Hj是实体e1的BERT的最终隐藏状态向量,而Hk到Hm是实体e2的BERT的最终隐藏状态向量;
信息处理模块,BERT预训练完成后,对实体向量取平均并激活,再分别使用卷积神经网络和全连接神经网络提取句子和两个目标实体中的语义信息;
标签语义获取:
H′0=W0(tanh(H0))+b0
其中:W0是参数矩阵,且W0∈Rd×d,d是BERT的隐藏状态大小,b0是偏差向量;
实体语义获取:
其中,W1,W2是参数矩阵,具有相同的维度,即W1∈Rd×d,W2∈Rd×d,d是BERT的隐藏状态大小,b1,b2是偏差向量,且W1=W2,b1=b2;
句子语义提取:
对BERT层的输出矩阵H={H0,H1,H2,…,Hn}进行卷积、降采样操作,然后通过拼接层,提取文本特征;当卷积核长度为k,卷积核滑动的步长设为1时,对文本矩阵进行上下滑动,则H分成{H0:k,H1:k+1,H2:k+2,…,Hn-k+1:n},其中Hi:j表示向量Hi到Hj的所有向量的级联,对于每一个分量执行卷积操作后得到向量C={C0,C1,C2,…,Cn-k+1},Ci是对分量Hi:i+k-1执行卷积操作后得到的值,称为一个局部特征映射,计算公式为:
Ci=W3 THi:i+k-1+b3
其中,W3是卷积核的参数,按照均匀分布随机初始化,并在模型训练过程中不断学习;b3是偏差向量;
对卷积捕获的文本特征映射向量C进行最大池化操作:
对于q个卷积核:
经过全连接后卷积神经网络的输出向量为最终的向量C’;
连接模块,将提取的标签语义,句子语义和实体语义信息进行全连接;
h”=W4[concat(C′,H′0,H′1,H′2)]+b4
其中,W4∈RL×4d,L是关系类型的个数,b4是偏差向量;
输出模块,通过softmax分类器对实体关系进行抽取,输出两个目标实体的关系;
p=softmax(h”)
p是概率输出。
3.一种实现权利要求1所述基于预训练卷积神经网络的关系抽取方法的信息数据处理终端。
4.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的基于预训练卷积神经网络的关系抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011014318.7A CN112084790B (zh) | 2020-09-24 | 2020-09-24 | 一种基于预训练卷积神经网络的关系抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011014318.7A CN112084790B (zh) | 2020-09-24 | 2020-09-24 | 一种基于预训练卷积神经网络的关系抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084790A CN112084790A (zh) | 2020-12-15 |
CN112084790B true CN112084790B (zh) | 2022-07-05 |
Family
ID=73738677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011014318.7A Active CN112084790B (zh) | 2020-09-24 | 2020-09-24 | 一种基于预训练卷积神经网络的关系抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084790B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114647734A (zh) * | 2020-12-18 | 2022-06-21 | 同方威视科技江苏有限公司 | 舆情文本的事件图谱生成方法、装置、电子设备和介质 |
CN112906398B (zh) * | 2021-01-14 | 2024-05-14 | 合肥工业大学 | 句子语义匹配方法、系统、存储介质和电子设备 |
CN112883153B (zh) * | 2021-01-28 | 2023-06-23 | 北京联合大学 | 基于信息增强bert的关系分类方法及装置 |
CN112949477B (zh) * | 2021-03-01 | 2024-03-15 | 苏州美能华智能科技有限公司 | 基于图卷积神经网络的信息识别方法、装置及存储介质 |
CN112905795A (zh) * | 2021-03-11 | 2021-06-04 | 证通股份有限公司 | 文本意图分类的方法、装置和可读介质 |
CN113051929A (zh) * | 2021-03-23 | 2021-06-29 | 电子科技大学 | 一种基于细粒度语义信息增强的实体关系抽取的方法 |
CN113076744A (zh) * | 2021-04-16 | 2021-07-06 | 重庆中国三峡博物馆 | 一种基于卷积神经网络的文物知识关系抽取方法 |
CN113128238B (zh) * | 2021-04-28 | 2023-06-20 | 安徽智侒信信息技术有限公司 | 基于自然语言处理技术的金融情报语义分析方法和系统 |
CN113221568B (zh) * | 2021-05-10 | 2022-05-17 | 天津大学 | 一种基于神经网络的改进分层序列标注联合关系抽取方法 |
CN113220871B (zh) * | 2021-05-31 | 2023-10-20 | 山东外国语职业技术大学 | 一种基于深度学习的文学人物关系识别方法 |
CN113392648B (zh) * | 2021-06-02 | 2022-10-18 | 北京三快在线科技有限公司 | 实体关系获取方法及装置 |
CN113535973B (zh) * | 2021-06-07 | 2023-06-23 | 中国科学院软件研究所 | 基于知识映射的事件关系抽取、语篇关系分析方法及装置 |
CN113486669B (zh) * | 2021-07-06 | 2024-03-29 | 上海市东方医院(同济大学附属东方医院) | 应急救援输入语音的语义识别方法 |
CN113569558B (zh) * | 2021-07-06 | 2023-09-26 | 上海交通大学 | 一种实体关系抽取方法及系统 |
CN113672727B (zh) * | 2021-07-28 | 2024-04-05 | 重庆大学 | 一种金融文本实体关系抽取方法及系统 |
CN113688233A (zh) * | 2021-07-30 | 2021-11-23 | 达观数据(苏州)有限公司 | 一种用于知识图谱语义搜索的文本理解的方法 |
CN113626603B (zh) * | 2021-08-19 | 2024-03-29 | 支付宝(杭州)信息技术有限公司 | 文本分类的方法和装置 |
CN114238561B (zh) * | 2021-12-01 | 2024-08-13 | 大连理工大学 | 基于三元损失训练策略的生物医学实体关系抽取方法 |
CN114238524B (zh) * | 2021-12-21 | 2022-05-31 | 军事科学院系统工程研究院网络信息研究所 | 基于增强样本模型的卫星频轨数据信息抽取方法 |
CN114373554A (zh) * | 2021-12-28 | 2022-04-19 | 大连海事大学 | 利用药物知识和句法依存关系的药物相互作用关系抽取方法 |
CN114328978B (zh) * | 2022-03-10 | 2022-05-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 关系抽取方法、装置、设备及可读存储介质 |
CN115129896B (zh) * | 2022-08-23 | 2022-12-13 | 南京众智维信息科技有限公司 | 基于对比学习的网络安全应急响应知识图谱关系提取方法 |
CN116094843B (zh) * | 2023-04-10 | 2023-06-16 | 北京航空航天大学 | 一种基于知识图谱的网络威胁评估方法 |
CN116431831B (zh) * | 2023-04-18 | 2023-09-22 | 延边大学 | 基于标签对比学习的有监督关系抽取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059320A (zh) * | 2019-04-23 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 实体关系抽取方法、装置、计算机设备和存储介质 |
CN111126039A (zh) * | 2019-12-25 | 2020-05-08 | 贵州大学 | 一种面向关系抽取的句子结构信息获取方法 |
CN111191031A (zh) * | 2019-12-24 | 2020-05-22 | 上海大学 | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 |
CN111339774A (zh) * | 2020-02-07 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
WO2020140386A1 (zh) * | 2019-01-02 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 |
-
2020
- 2020-09-24 CN CN202011014318.7A patent/CN112084790B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020140386A1 (zh) * | 2019-01-02 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 |
CN110059320A (zh) * | 2019-04-23 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 实体关系抽取方法、装置、计算机设备和存储介质 |
CN111191031A (zh) * | 2019-12-24 | 2020-05-22 | 上海大学 | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 |
CN111126039A (zh) * | 2019-12-25 | 2020-05-08 | 贵州大学 | 一种面向关系抽取的句子结构信息获取方法 |
CN111339774A (zh) * | 2020-02-07 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
Non-Patent Citations (1)
Title |
---|
"基于深度学习的实体关系联合抽取方法研究";潘航宇;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20191215;第3.2.1节 * |
Also Published As
Publication number | Publication date |
---|---|
CN112084790A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084790B (zh) | 一种基于预训练卷积神经网络的关系抽取方法及系统 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109857990B (zh) | 一种基于文档结构与深度学习的金融类公告信息抽取方法 | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
CN110309267A (zh) | 基于预训练模型的语义检索方法和系统 | |
CN113076739A (zh) | 一种实现跨领域的中文文本纠错方法和系统 | |
CN108959305A (zh) | 一种基于互联网大数据的事件抽取方法及系统 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
WO2024067276A1 (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
CN112347761B (zh) | 基于bert的药物关系抽取方法 | |
CN113160917B (zh) | 一种电子病历实体关系抽取方法 | |
CN110807086A (zh) | 文本数据标注方法及装置、存储介质、电子设备 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及系统 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN111914555A (zh) | 基于Transformer结构的自动化关系抽取系统 | |
CN116416480A (zh) | 一种基于多模板提示学习的视觉分类方法和装置 | |
CN114780725A (zh) | 一种基于深度聚类的文本分类算法 | |
CN112084783B (zh) | 基于民航不文明旅客的实体识别方法及系统 | |
CN108241650B (zh) | 训练分类标准的训练方法和装置 | |
CN112347247A (zh) | 基于LDA和Bert的特定类别文本标题二分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |