CN112883153B - 基于信息增强bert的关系分类方法及装置 - Google Patents

基于信息增强bert的关系分类方法及装置 Download PDF

Info

Publication number
CN112883153B
CN112883153B CN202110115393.0A CN202110115393A CN112883153B CN 112883153 B CN112883153 B CN 112883153B CN 202110115393 A CN202110115393 A CN 202110115393A CN 112883153 B CN112883153 B CN 112883153B
Authority
CN
China
Prior art keywords
bert
entities
hidden state
sentence
state vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110115393.0A
Other languages
English (en)
Other versions
CN112883153A (zh
Inventor
孙连英
万莹
王金锋
涂帅
张天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN202110115393.0A priority Critical patent/CN112883153B/zh
Publication of CN112883153A publication Critical patent/CN112883153A/zh
Application granted granted Critical
Publication of CN112883153B publication Critical patent/CN112883153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于信息增强BERT的关系抽取方法及装置,将给定具有两个实体的语句使用预训练模型BERT提取出语句中实体及实体的上下文之间的语义特征向量,将提取出的实体及实体的上下文之间的语义特征向量输入到神经网络模型中,得到实体之间的分类关系。本发明与传统方法中将语句通过BERT分解为词向量后,只提取两个实体输入到神经网络模型预测两个实体间的关系不同,由于输入了实体及实体前后的上下文语句向量进行信息增强,从而具有更多的上下文信息及语境对实体间关系进行预测,因此,使得实体间的关系预测更加精确。

Description

基于信息增强BERT的关系分类方法及装置
技术领域
本发明属于自然语言处理技术技术领域,尤其是涉及一种基于信息增强BERT的关系分类方法及装置。
背景技术
关系分类是自然语言处理领域中重要的语义处理任务,随着机器学习技术的发展,现有的神经网络方法在语义理解上学习的仍不够充分,预训练模型BERT在多项自然语言处理任务中应用取得了大量研究成果,但在关系分类领域有待探索。传统的关系分类方法常用的有两种,基于规则的方法和基于特征向量的方法,但这两种方法都需要手动设计特征,复杂度高、耗时长,并且难以捕获文本语义特征,泛化能力差。
发明内容
本发明要解决的技术问题是怎样自动捕获文本语义特征,快速进行关系分类,提出了一种基于信息增强BERT的关系分类方法及装置。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于信息增强BERT的关系分类方法,将给定具有两个实体的语句使用预训练模型BERT提取出语句中实体及实体的上下文之间的语义特征向量,将提取出的实体及实体的上下文之间的语义特征向量输入到神经网络模型中,得到实体之间的分类关系。
具体包括以下步骤:
步骤1:给定具有两个实体的语句S,在两个实体的前后分别插入特殊符号对两个实体进行位置标注,同时在所述语句S的开始位置插入“[CLS]”符号,在所述语句S结尾插入“[SEP]”符号,得到插入特殊符号后的语句S′;
步骤2:将插入特殊符号后的语句S′输入预训练模型BERT,得到最终隐藏状态向量为H;
根据两个实体的位置将语句S′的最终隐藏状态向量分解为五个隐藏状态向量,具体为H1至Hi-2是S中第一个实体e1之前的内容经BERT输出的最终隐藏状态向量HA,Hi至Hj是实体e1经BERT输出的最终隐藏状态向量He1,Hj+2至Hk-2是S中两个实体e1和e2之间的内容经BERT输出的最终隐藏状态向量HB,Hk至Hm是实体e2经BERT输出的最终隐藏状态向量He2,Hm+2至Hn是S中第二个实体e2之后的内容经BERT输出的最终隐藏状态向量HC,i,j表示实体e1在S′中的开始位置和结束位置,k,m表示实体e2在S′中的开始位置和结束位置,n为S′中最后一个词向量的位置;
步骤4:对以上获取的五个隐藏状态向量分别执行平均运算,经激活函数和全连接层之后得到五个隐藏状态向量对应的矢量分别为H′A、H′e1、H′B、H′e2、H′C,对于特殊符号[SEP]经BERT输出的最终隐藏状态向量Hn+1,不做操作,而对特殊符号[CLS]经BERT输出的最终隐藏状态向量H0,同样对其执行激活函数和全连接层操作得到与隐藏状态向量H0对应的矢量H′0
步骤5:将五个隐藏状态向量对应的矢量H′0、H′A、H′e1、H′B、H′e2、H′C连接起来,经全连接层,然后送入Softmax层进行分类。
进一步地,步骤3中五个隐藏状态向量对应的矢量H′A、H′e1、H′B、H′e2、H′C的计算公式分别为:
Figure BDA0002920251730000031
Figure BDA0002920251730000032
Figure BDA0002920251730000033
Figure BDA0002920251730000034
Figure BDA0002920251730000035
权重参数We1=We2,WA=WB=Wc,偏置向量be1=be2,bA=bB=bC,Ht是BERT输出的向量H的第t个词向量,特殊符号[CLS]经BERT输出的最终隐藏状态向量H0,同样对其执行激活函数和全连接层操作,对应公式如下:
H′0=W0[tanh(H0)]+b0 (6)
权重矩阵W0,WA,We1,WB,We2,Wc具有相同的维度,即W0∈Rd×d,WA∈Rd×d,We1∈Rd×d,WB∈Rd×d,We2∈Rd×d,Wc∈Rd×d,其中d是BERT输出的隐藏状态向量的大小,bA,be1,bB,be2,bC,bh,b0表示全连接层中的偏置向量。
进一步地,根据实体在语句S中的位置不同,则隐藏状态向量对应的矢量变化如下:
当实体在语句S的句首时,则
H′A=WA[tanh(H0)]+bA (7)
当两个实体e1和e2紧挨时,则
Figure BDA0002920251730000041
当实体出现在语句的末尾时,则
H′C=Wc[tanh(Hn+1)]+bC (9)
进一步地,在对神经网络模型的训练过程中,使用交叉熵作为损失函数。
进一步地,所述神经网络结构中,在每个激活函数之后,全连接层之前,添加Dropout层。
进一步地,所述神经网络在现有的实体关系抽取的公开数据集上进行训练。
本发明还提供了一种基于信息增强BERT的关系分类装置,包括以下模块:
获取语句并预处理模块:用于给定具有两个实体的语句S,在两个实体的前后分别插入特殊符号对两个实体进行位置标注,同时在所述语句S的开始位置插入“[CLS]”符号,在所述语句S结尾插入“[SEP]”符号,得到插入特殊符号后的语句S';
BERT转换模块:用于将插入特殊符号后的语句S'输入预训练模型BERT,得到语句S'的最终隐藏状态向量为H;
上下文状态向量求解模块:用于根据两个实体的位置将语句S'的最终隐藏状态向量分解为五个隐藏状态向量,具体为H1至Hi-2是S中第一个实体e1之前的内容经BERT输出的最终隐藏状态向量HA,Hi至Hj是实体e1经BERT输出的最终隐藏状态向量He1,Hk+2至Hk-2是S中两个实体e1和e2之间的内容经BERT输出的最终隐藏状态向量HB,Hk至Hm是实体e2经BERT输出的最终隐藏状态向量He2,Hm+2至Hn是S中第二个实体e2之后的内容经BERT输出的最终隐藏状态向量HC,i,j表示实体e1在S′中的开始位置和结束位置,k,m表示实体e2在S′中的开始位置和结束位置,n为S′中最后一个词向量的位置;
状态向量输入神经网络处理模块:用于对上下文状态向量求解模块得到的五个隐藏状态向量分别执行平均运算,经激活函数和全连接层之后得到五个隐藏状态向量对应的矢量分别为H′A、H′e1、H′B、H′e2、H′C,对特殊符号[SEP]经BERT输出的最终隐藏状态向量Hn+1,不做操作,对特殊符号[CLS]经BERT输出的最终隐藏状态向量H0,同样对其执行激活函数和全连接层操作得到与隐藏状态向量H0对应的矢量H′0
关系分类输出模块:用于将隐藏状态向量对应的矢量H′0、H′A、H′e1、H′B、H′e2、H′C连接起来,经全连接层,然后送入Softmax层进行分类。
本发明还提供了一种计算机可读介质,存储计算机程序,所述计算机程序可被处理器执行可以实现前面所述的关系分类方法。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前面所述的关系分类方法的步骤。
采用上述技术方案,本发明具有如下有益效果:
本发明提供一种基于信息增强BERT的关系抽取方法及装置,在给定的语句中加入特殊符号,将语句经预训练语言模型BERT分解为词向量后,按照两个实体的位置将语句分解为五个隐藏状态向量,然后将这五个隐藏状态向量输入神经网络模型,得到实体分类关系。本发明与传统方法中将语句通过BERT分解为词向量后,只提取两个实体输入到神经网络模型预测两个实体间的关系不同,由于输入了实体及实体前后的上下文语句向量进行信息增强,从而具有更多的上下文信息及语境对实体间关系进行预测,因此,使得实体间的关系预测更加精确。
附图说明
图1为本发明使用的预训练语言模型BERT的输入表示;
图2本发明的整体方法流程。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1和图2示出了本发明一种信息增强BERT的关系分类方法的具体实施例,将给定具有两个实体的语句使用预训练模型BERT提取出语句中实体及实体的上下文之间的语义特征向量,将提取出的实体及实体的上下文之间的语义特征向量输入到神经网络模型中,得到实体之间的分类关系。本发明充分利用实体所在的语句中包含的上下文语境信息,来对实体关系进行分类,相较于传统的实体关系分类方法,只通过BERT提取出语句中的两个实体进行关系分类而言,本发明输入了更多的与实体相关的上下文信息,因此使得实体的关系分类预测更加精确。
具体包括以下步骤:
步骤1:给定具有两个实体的语句S,在两个实体的前后分别插入特殊符号对两个实体进行位置标注,同时在所述语句S的开始位置插入“[CLS]”符号,在所述语句S结尾插入“[SEP]”符号,得到插入特殊符号后的语句S'。
本实施例中,如图1所示,在第一个实体e1之前和之后插入特殊符号“$”,在第二个实体e2之前和之后插入特殊符号“#”,同时在句子的开始位置插入“[CLS]”符号,在句子结尾插入“[SEP]”符号。例如,具有两个实体“pieces”和“stories”的句子,在插入特殊符号之后变为:[CLS]Many of his literary$pieces$narrate and mention#stories#that tookplace in Lipa.[SEP]。
步骤2:将插入特殊符号后的语句S′输入预训练模型BERT,得到语句S′的最终隐藏状态向量为H;
步骤3:根据两个实体的位置将语句S′的最终隐藏状态向量分解为五个隐藏状态向量,具体为H1至Hi-2是S中第一个实体e1之前的内容经BERT输出的最终隐藏状态向量HA,Hi至Hj是实体e1经BERT输出的最终隐藏状态向量He1,Hj+2至Hk-2是S中两个实体e1和e2之间的内容经BERT输出的最终隐藏状态向量HB,Hk至Hm是实体e2经BERT输出的最终隐藏状态向量He2,Hm+2至Hn是S中第二个实体e2之后的内容经BERT输出的最终隐藏状态向量HC,i,j表示实体e1在S′中的开始位置和结束位置,k,m表示实体e2在S′中的开始位置和结束位置,n为S′中最后一个词向量的位置;
步骤4:对以上获取的五个隐藏状态向量分别执行平均运算,如图2所示,经激活函数和全连接层之后得到五个隐藏状态向量对应的矢量分别为H′A、H′e1、H′B、H′e2、H′C,对特殊符号[SEP]经BERT输出的最终隐藏状态向量Hn+1,不做操作,对特殊符号[CLS]经BERT输出的最终隐藏状态向量H0,同样对其执行激活函数和全连接层操作得到与隐藏状态向量H0对应的矢量H′0;通过将五个隐藏状态向量分别执行平均运算,能够获得统一长度的实体向量,去除实体长度不一的情况。
步骤4中各隐藏状态向量对应的矢量H′0、H′A、H′e1、H′B、H′e2、H′C的计算公式分别为:
Figure BDA0002920251730000081
Figure BDA0002920251730000082
Figure BDA0002920251730000083
Figure BDA0002920251730000084
Figure BDA0002920251730000085
H′0=W0[tanh(H0)]+b0 (6)
权重矩阵W0,WA,We1,WB,We2,Wc具有相同的维度,即W0∈Rd×d,WA∈Rd×d,We1∈Rd×d,WB∈Rd×d,We2∈Rd×d,Wc∈Rd×d,其中d是BERT输出的隐藏状态向量的大小,bA,be1,bB,be2,bC,bh,b0表示全连接层中的偏置向量,Ht是BERT输出的向量H的第t个词向量。
本实施例中,权重参数We1=We2,偏置向量be1=be2,对于两个实体,使用相同的参数进行学习,对于实体之外的上下文信息,权重参数WA=WB=Wc,偏置向量bA=bB=bC,使用相同的参数进行学习,可以学习实体的共同特点,也可以减少神经网络模型的参数。
根据实体在语句S中的位置不同,则隐藏状态向量对应的矢量变化如下:
当实体在语句S的句首时,例如以下语句:
[CLS]$Roundworms$or ascarids are caused by an intestinal#parasite#called Toxocaracanis.[SEP]
由于实体“Roundworms”位于句首,实体之前没有词语,则
H′A=WA[tanh(H0)]+bA (7)
当两个实体e1和e2紧挨时,例如以下语句:
[CLS]$Red grape$#wine#is an alcoholic fruit drink of between 10 and14%alcoholic strength.[SEP]
由于实体“Red grape”和“wine”之间没有词语,则
Figure BDA0002920251730000091
当实体出现在语句的末尾时,例如以下语句:
[CLS]A$witch$is able to change events by using# magic#.[SEP],则
H′C=Wc[tanh(Hn+1)]+bC (9)
本实施例中,在对神经网络模型的训练过程中,使用交叉熵作为损失函数。神经网络的结构,为防止出现过拟合现象,在每个激活函数之后,全连接层之前,添加Dropout层。
步骤5:将隐藏状态向量对应的矢量H′0、H′A、H′e1、H′B、H′e2、H′C连接起来,经全连接层,然后送入Softmax层进行分类。
本实施例中的神经网络模型,使用现有的实体关系抽取的公开数据集上进行训练。比如SemEval-2010任务8公开的已经标注的语料库对所述神经网络模型进行训练,只是在训练时,将语料库中的一条条语句样本在实体前后插入特殊符号,经BERT提取出实体及实体前后的上下文隐藏状态向量后,转换成本发明所需要的一条条训练样本,输入神经网络模型进行训练。在神经网络模型训练好后,就可以对语句中的实体关系进行分类。相比于传统的关系分类方法,本发明只需要在实体前后插入特殊符号即可提取语句中实体前后的特征向量,而不需要像传统的实体关系分类方法中需要输入语句中的词性、依存句法、位置等信息,因此本方法降低了复杂度,使用更加简单。
本发明还提供了一种基于信息增强BERT的关系分类装置,包括以下模块:
获取语句并预处理模块:用于给定具有两个实体的语句S,在两个实体的前后分别插入特殊符号对两个实体进行位置标注,同时在所述语句S的开始位置插入“[CLS]”符号,在所述语句S结尾插入“[SEP]”符号,得到插入特殊符号后的语句S′;
BERT转换模块:用于将插入特殊符号后的语句S′输入预训练模型BERT,得到语句S′的最终隐藏状态向量为H;
上下文状态向量求解模块:用于根据两个实体的位置将语句S′的最终隐藏状态向量分解为五个隐藏状态向量,具体为H1至Hi-2是S中第一个实体e1之前的内容经BERT输出的最终隐藏状态向量HA,Hi至Hj是实体e1经BERT输出的最终隐藏状态向量He1,Hj+2至Hk-2是S中两个实体e1和e2之间的内容经BERT输出的最终隐藏状态向量HB,Hk至Hm是实体e2经BERT输出的最终隐藏状态向量He2,Hm+2至Hn是S中第二个实体e2之后的内容经BERT输出的最终隐藏状态向量HC,i,j表示实体e1在S′中的开始位置和结束位置,k,m表示实体e2在S′中的开始位置和结束位置,n为S′中最后一个词向量的位置;
状态向量输入神经网络处理模块:用于对上下文状态向量求解模块得到的五个隐藏状态向量分别执行平均运算,经激活函数和全连接层之后得到五个隐藏状态向量对应的矢量分别为H′A、H′e1、H′B、H′e2、H′C,对特殊符号[SEP]经BERT输出的最终隐藏状态向量Hn+1,不做操作,对特殊符号[CLS]经BERT输出的最终隐藏状态向量H0,同样对其执行激活函数和全连接层操作得到与隐藏状态向量H0对应的矢量H′0
关系分类输出模块:用于将隐藏状态向量对应的矢量H′0、H′A、H′e1、H′B、H′e2、H′C连接起来,经全连接层,然后送入Softmax层进行分类。
本发明还提供了一种计算机可读介质,存储计算机程序,所述计算机程序可被处理器执行可以实现前面所述的关系分类方法。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前面所述的关系分类方法的步骤。
与现有的关系分类方法相比,本发明提出的方法可自动捕获文本语义特征,由于具有上下文信息,可以快速进行实体关系分类,取得了较好的效果,泛化能力强。
表1不同的关系分类方法对比
Figure BDA0002920251730000111
Figure BDA0002920251730000121
从表1可以看出,在两个公开数据集上,基于BERT的模型R-BERT、EC-R-BERT、EC-BERT-Base、EC-BERT-Large或基于改进BERT的模型EC-Distil BERT、EC-RoBERTa-Base、EC-RoBERTa–Large,其在性能上均超过了其他基于CNN、RNN、LSTM的模型,这些模型分别来自于:CNN+Softmax来自于文献1“ZengD,LiuK,LaiS,etal.Relation classification viaconvolutional deepneural network[J].2014.”;CR-CNN模型来自于文献2“Santos CN,XiangB,ZhouB.Classifying relations by ranking with convolutional neuralnetworks[J].arXiv preprintarXiv:1504.06580,2015.”;CNN+PF、CNN+PI、RNN+PF、RNN+PI模型均来自于文献3“ZhangD,WangD.Relation classification via recurrent neuralnetwork[J].arXivpreprintarXiv:1508.01006,2015.”;MVRNN模型来自于文献4“SocherR,HuvalB,Manning CD,etal.Semantic compositionality through recursive matrix-vector spaces[C]//Proceedings of the 2012joint conference on empiricalmethods in natural language processing and computational natural language learning.AssociationforComputationalLinguistics,2012:1201-1211”;CRNN模型来自于文献5“宋睿,陈鑫,洪宇,张民.基于卷积循环神经网络的关系抽取[J].中文信息学报,2019,33(10):64-72”;Att-BLSTM模型来自于文献6“ZhouP,ShiW,TianJ,etal.Attention-based bidirectional longshort-term memory networks for relationclassification[C]//Proceedings ofthe 54th Annual Meeting of the Associationfor Computational Linguistics(Volume2:ShortPapers).2016:207-212.”;Att-Pooling-CNN模型来自于文献7“WangL,CaoZ,DeMeloG,etal.Relation classificationvia multi-level attention cnns[C]//Proceedingsof”;BiLSTM-CNN模型来自于文献8“Zhang L,XiangF.Relation classification viaBiLSTM-CNN[C]//InternationalConference on Data MiningandBig Data.Springer,Cham,2018:373-382.”;Att-RCNN模型来自于文献9“GuoX,ZhangH,YangH,etal.A singl eattention based combination ofCNN and RNN for relation classification[J].IEEEAccess,2019,7:12467-12475.”;以及来自于文献10“刘峰,高赛,于碧辉,郭放达.基于Multi-headAttention和Bi-LSTM的实体关系分类[J].计算机系统应用,2019,28(06):118-124.”的模型进行比较,验证了BERT对于实体关系分类的优势。在SemEval-2010任务8数据集和文献3指出的KBP-37数据集上,EC-BERT-Base模型的F1值比EC-R-BERT模型分别高出0.22和1.74,验证了本发明模型设计的有效性。在两个数据集上,EC-BERT-Large模型的F1值高过所有对比方法,在在SemEval-2010任务8数据上比以前的最佳方案高出0.44,在KBP-37数据集上比以前最佳方案高出4.09,证明了本发明方法的可行性。
本发明涉及关系分类,关系分类是自然语言处理领域中重要的语义处理任务,随着机器学习技术的发展,预训练模型BERT在多项自然语言处理任务中应用取得了大量研究成果,但在关系分类领域有待探索。本发明针对预训练模型BERT在多种自然语言分类/序列标注任务上的良好表现,依据关系分类的问题特点,提出一种基于实体与实体上下文信息增强BERT的关系分类方法(EC_BERT),该方法利用BERT获取句子特征表示向量,并结合两个目标实体以及实体上下文语句信息,送入简单神经网络进行关系分类。在关系分类方法比较中取得了较好的效果。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种基于信息增强BERT的关系分类方法,其特征在于,将给定具有两个实体的语句使用预训练模型BERT提取出语句中实体及实体的上下文之间的语义特征向量,将提取出的实体及实体的上下文之间的语义特征向量输入到神经网络模型中,得到实体之间的分类关系;
将给定具有两个实体的语句使用预训练模型BERT提取出语句中实体及实体的上下文之间的语义特征向量的方法是:
步骤1:给定具有两个实体的语句S,在两个实体的前后分别插入特殊符号对两个实体进行位置标注,同时在所述语句S的开始位置插入“[CLS]”符号,在所述语句S结尾插入“[SEP]”符号,得到插入特殊符号后的语句S';
步骤2:将插入特殊符号后的语句S'输入预训练模型BERT,得到语句S'的最终隐藏状态向量为H;
步骤3:根据两个实体的位置将语句S'的最终隐藏状态向量分解为五个隐藏状态向量,具体为H1至Hi-2是S中第一个实体e1之前的内容经BERT输出的最终隐藏状态向量HA,Hi至Hj是实体e1经BERT输出的最终隐藏状态向量He1,Hj+2至Hk-2是S中两个实体e1和e2之间的内容经BERT输出的最终隐藏状态向量HB,Hk至Hm是实体e2经BERT输出的最终隐藏状态向量He2,Hm+2至Hn是S中第二个实体e2之后的内容经BERT输出的最终隐藏状态向量HC,i,j表示实体e1在S'中的开始位置和结束位置,k,m表示实体e2在S'中的开始位置和结束位置,n为S'中最后一个词向量的位置;
步骤4:对以上获取的五个隐藏状态向量分别执行平均运算,经激活函数和全连接层之后得到五个隐藏状态向量对应的矢量分别为H′A、H′e1、H′B、H′e2、H′C,对特殊符号[SEP]经BERT输出的最终隐藏状态向量Hn+1,不做操作,对特殊符号[CLS]经BERT输出的最终隐藏状态向量H0,同样对其执行激活函数和全连接层操作得到与隐藏状态向量H0对应的矢量H′0
步骤5:将隐藏状态向量对应的矢量H′0、H′A、H′e1、H′B、H′e2、H′C连接起来,经全连接层,然后送入Softmax层进行分类。
2.根据权利要求1所述的关系分类方法,其特征在于,步骤4中各隐藏状态向量对应的矢量H′0、H′A、H′e1、H′B、H′e2、H′C的计算公式分别为:
Figure FDA0004240623690000021
Figure FDA0004240623690000022
Figure FDA0004240623690000023
Figure FDA0004240623690000024
Figure FDA0004240623690000025
H′0=W0[tanh(H0)]+b0 (6)
权重矩阵W0,WA,We1,WB,We2,Wc具有相同的维度,即W0∈Rd×d,WA∈Rd×d,We1∈Rd×d,WB∈Rd ×d,We2∈Rd×d,Wc∈Rd×d,其中d是BERT输出的隐藏状态向量的大小,bA,be1,bB,be2,bC,bh,b0表示全连接层中的偏置向量,Ht是BERT输出的向量H的第t个词向量,权重参数We1=We2,WA=WB=We,偏置向量be1=be2,bA=bB=bC
3.根据权利要求2所述的关系分类方法,其特征在于,根据实体在语句S中的位置不同,则隐藏状态向量对应的矢量变化如下:
当实体在语句S的句首时,则
H′A=WA[tanh(H0)]+bA (7)
当两个实体e1和e2紧挨时,则
Figure FDA0004240623690000031
当实体出现在语句的末尾时,则
H′C=Wc[tanh(Hn+1)]+bC (9)。
4.根据权利要求1所述的关系分类方法,其特征在于,在对所述神经网络的训练过程中,使用交叉熵作为损失函数。
5.根据权利要求4所述的关系分类方法,其特征在于,所述神经网络的结构中,在每个激活函数之后,全连接层之前,添加Dropout层。
6.根据权利要求5所述的关系分类方法,其特征在于,所述神经网络在现有的实体关系抽取的公开数据集上进行训练。
7.一种基于信息增强BERT的关系分类装置,其特征在于,包括以下模块:
获取语句并预处理模块:用于给定具有两个实体的语句S,在两个实体的前后分别插入特殊符号对两个实体进行位置标注,同时在所述语句S的开始位置插入“[CLS]”符号,在所述语句S结尾插入“[SEP]”符号,得到插入特殊符号后的语句S′;
BERT转换模块:用于将插入特殊符号后的语句S′输入预训练模型BERT,得到语句S′的最终隐藏状态向量为H;
上下文状态向量求解模块:用于根据两个实体的位置将语句S'的最终隐藏状态向量分解为五个隐藏状态向量,具体为H1至Hi-2是S中第一个实体e1之前的内容经BERT输出的最终隐藏状态向量HA,Hi至Hj是实体e1经BERT输出的最终隐藏状态向量He1,Hj+2至Hk-2是S中两个实体e1和e2之间的内容经BERT输出的最终隐藏状态向量HB,Hk至Hm是实体e2经BERT输出的最终隐藏状态向量He2,Hm+2至Hn是S中第二个实体e2之后的内容经BERT输出的最终隐藏状态向量HC,i,j表示实体e1在S'中的开始位置和结束位置,k,m表示实体e2在S'中的开始位置和结束位置,n为S'中最后一个词向量的位置;
状态向量输入神经网络处理模块:用于对上下文状态向量求解模块得到的五个隐藏状态向量分别执行平均运算,经激活函数和全连接层之后得到五个隐藏状态向量对应的矢量分别为H′A、H′e1、H′B、H′e2、H′C,对特殊符号[SEP]经BERT输出的最终隐藏状态向量Hn+1,不做操作,对特殊符号[CLS]经BERT输出的最终隐藏状态向量H0,同样对其执行激活函数和全连接层操作得到与隐藏状态向量H0对应的矢量H′0
关系分类输出模块:用于将隐藏状态向量对应的矢量H′0、H′A、H′e1、H′B、H′e2、H′C连接起来,经全连接层,然后送入Softmax层进行分类。
8.一种计算机可读介质,存储计算机程序,其特征在于,所述计算机程序可被处理器执行以实现权利要求1至6中任一项所述的一种基于信息增强BERT的关系分类方法。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的一种基于信息增强BERT的关系分类方法的步骤。
CN202110115393.0A 2021-01-28 2021-01-28 基于信息增强bert的关系分类方法及装置 Active CN112883153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110115393.0A CN112883153B (zh) 2021-01-28 2021-01-28 基于信息增强bert的关系分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110115393.0A CN112883153B (zh) 2021-01-28 2021-01-28 基于信息增强bert的关系分类方法及装置

Publications (2)

Publication Number Publication Date
CN112883153A CN112883153A (zh) 2021-06-01
CN112883153B true CN112883153B (zh) 2023-06-23

Family

ID=76053015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110115393.0A Active CN112883153B (zh) 2021-01-28 2021-01-28 基于信息增强bert的关系分类方法及装置

Country Status (1)

Country Link
CN (1) CN112883153B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535973B (zh) * 2021-06-07 2023-06-23 中国科学院软件研究所 基于知识映射的事件关系抽取、语篇关系分析方法及装置
CN113990473B (zh) * 2021-10-28 2022-09-30 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
CN116094843B (zh) * 2023-04-10 2023-06-16 北京航空航天大学 一种基于知识图谱的网络威胁评估方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009182A (zh) * 2016-10-28 2018-05-08 京东方科技集团股份有限公司 一种信息提取方法和装置
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN110334354A (zh) * 2019-07-11 2019-10-15 清华大学深圳研究生院 一种中文关系抽取方法
CN111274394A (zh) * 2020-01-16 2020-06-12 重庆邮电大学 一种实体关系的抽取方法、装置、设备及存储介质
WO2020193966A1 (en) * 2019-03-26 2020-10-01 Benevolentai Technology Limited Name entity recognition with deep learning
CN111931506A (zh) * 2020-05-22 2020-11-13 北京理工大学 一种基于图信息增强的实体关系抽取方法
CN111950281A (zh) * 2020-07-02 2020-11-17 中国科学院软件研究所 一种基于深度学习和上下文语义的需求实体共指检测方法和装置
CN112084790A (zh) * 2020-09-24 2020-12-15 中国民航大学 一种基于预训练卷积神经网络的关系抽取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11144728B2 (en) * 2019-07-19 2021-10-12 Siemens Aktiengesellschaft Neural relation extraction within and across sentence boundaries

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009182A (zh) * 2016-10-28 2018-05-08 京东方科技集团股份有限公司 一种信息提取方法和装置
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
WO2020193966A1 (en) * 2019-03-26 2020-10-01 Benevolentai Technology Limited Name entity recognition with deep learning
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN110334354A (zh) * 2019-07-11 2019-10-15 清华大学深圳研究生院 一种中文关系抽取方法
CN111274394A (zh) * 2020-01-16 2020-06-12 重庆邮电大学 一种实体关系的抽取方法、装置、设备及存储介质
CN111931506A (zh) * 2020-05-22 2020-11-13 北京理工大学 一种基于图信息增强的实体关系抽取方法
CN111950281A (zh) * 2020-07-02 2020-11-17 中国科学院软件研究所 一种基于深度学习和上下文语义的需求实体共指检测方法和装置
CN112084790A (zh) * 2020-09-24 2020-12-15 中国民航大学 一种基于预训练卷积神经网络的关系抽取方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Shanchan Wu 等.Enriching Pre-trained Language Model with Entity Information for Relation Classification.《CIKM '19: Proceedings of the 28th ACM International Conference on Information and Knowledge Management》.2019,2361-2364. *
Simple BERT Models for Relation Extraction and Semantic Role Labeling;Peng Shi 等;《arXiv:1904.05255v1》;1-6 *
Yi Zhao 等.Improving Relation Classi cation by Entity Pair Graph Y.《Proceedings of The Eleventh Asian Conference on Machine Learning》.2019,1156-1171. *
基于信息增强BERT的关系分类;万莹 等;《中文信息学报》;第35卷(第3期);69-77 *
基于深度学习的实体关系联合抽取方法研究;潘航宇;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》(第12期);I138-685 *

Also Published As

Publication number Publication date
CN112883153A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
Huang et al. Facial expression recognition with grid-wise attention and visual transformer
CN112883153B (zh) 基于信息增强bert的关系分类方法及装置
CN110502753A (zh) 一种基于语义增强的深度学习情感分析模型及其分析方法
Lin et al. A post-processing method for detecting unknown intent of dialogue system via pre-trained deep neural network classifier
CN109815485B (zh) 一种微博短文本情感极性识别的方法、装置及存储介质
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN111563373B (zh) 聚焦属性相关文本的属性级情感分类方法
Sartakhti et al. Persian language model based on BiLSTM model on COVID-19 corpus
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN116662552A (zh) 金融文本数据分类方法、装置、终端设备及介质
CN114265937A (zh) 科技情报的智能分类分析方法、系统、存储介质及服务器
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
Dai et al. Weakly-supervised multi-task learning for multimodal affect recognition
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
Xue et al. Intent-enhanced attentive Bert capsule network for zero-shot intention detection
CN116561592A (zh) 文本情感识别模型的训练方法和文本情感识别方法及装置
Chen et al. Audio captioning with meshed-memory transformer
CN115630304A (zh) 一种文本抽取任务中的事件分割抽取方法及系统
Wang et al. Weakly Supervised Chinese short text classification algorithm based on ConWea model
Li et al. Class imbalance mitigation: A select-then-extract learning framework for emotion-cause pair extraction
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法
CN113849637A (zh) 一种低噪声干扰的有监督关系抽取方法及装置
CN110825851A (zh) 基于中值转化模型的句子对关系判别方法
CN117436457B (zh) 反讽识别方法、装置、计算设备及存储介质
CN116127078B (zh) 一种大规模极弱监督多标签政策分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant