CN110377903B - 一种句子级实体和关系联合抽取方法 - Google Patents

一种句子级实体和关系联合抽取方法 Download PDF

Info

Publication number
CN110377903B
CN110377903B CN201910549585.5A CN201910549585A CN110377903B CN 110377903 B CN110377903 B CN 110377903B CN 201910549585 A CN201910549585 A CN 201910549585A CN 110377903 B CN110377903 B CN 110377903B
Authority
CN
China
Prior art keywords
entity
word
representation
relation
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910549585.5A
Other languages
English (en)
Other versions
CN110377903A (zh
Inventor
张寅�
王岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910549585.5A priority Critical patent/CN110377903B/zh
Publication of CN110377903A publication Critical patent/CN110377903A/zh
Application granted granted Critical
Publication of CN110377903B publication Critical patent/CN110377903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于神经网络的实体和关系的联合抽取技术。该技术包含如下步骤:1)将句子作为输入,获取每个单词的表示向量,该表示向量由词嵌入表示和字符级别词嵌入表示拼接而成;2)使用膨胀卷积神经网络对每个单词的上下文信息进行编码,为每个单词提取包含上下文信息的特征;3)把实体识别作为序列标注问题,并使用线性链CRF来对实体标记序列联合建模;预测时,使用维特比算法计算概率最大的实体标记序列,实现实体识别;4)从组成实体的单词的特征表示中来获得实体的特征表示,通过对实体两两排列来构造关系候选,使用双仿射变换判断每个关系候选的关系,实现关系抽取。

Description

一种句子级实体和关系联合抽取方法
技术领域
本发明涉及神经网络方法在实体识别和关系抽取技术上的应用,特别是涉及一种句子级实体和关系联合抽取方法。
背景技术
实体及关系抽取是信息抽取中一项重要的子任务,其中实体抽取或者说命名实体识别(Named Entity Recognition,简称NER)是指从文本中识别出命名性的实体提及并对其提及的实体加以分类,关系抽取(Relation Extraction,简称RE)是指从文本中识别出实体之间具有的某种语义关系。实体及关系抽取为许多自然语言处理高层应用提供重要的技术支持,比如知识图谱、问答系统、搜索引擎等。
传统的方法以流水线的方式来解决实体及关系的抽取问题,这类方法把实体及关系抽取看成是先后执行的两个单独子任务:命名实体识别和关系抽取。具体而言,首先抽取句子中的命名实体,然后对抽取出的命名实体进行两两组合配对,最后识别命名实体对之间存在的语义关系。但是,这类方法存在两个主要的弊端:第一是错误传播,命名实体识别模块的错误会传递给下游的关系抽取模块,进而影响关系抽取的性能;第二是忽视了两个子任务之间存在的依赖关系,具体而言,特定类型的关系会要求两个实体分别具有特定的类型,而两个实体的类型也会限制它们之间可能存在的关系。
为了克服传统的流水线方法的弊端,人们提出以联合的方式来解决实体及关系的抽取问题。联合方法使用单个模型同时抽取实体及关系,可以有效地整合实体和关系信息。以前的联合方法都是基于特征的统计学习方法,它们严重依赖于复杂的特征工程和外部的NLP工具。随着深度学习的崛起,越来越多的神经网络方法被提出用以解决实体和关系的联合抽取问题。与传统的统计学习方法相比,这些方法不仅缓解了对特征工程的依赖,而且在许多数据集上表现优异。尽管如此,基于神经网络的联合抽取方法仍然存在一些不足:
1)表现最好的那些联合方法仍然依赖于一些词法和句法特征,比如词性和句法依赖树,这些特征需要利用外部的NLP工具来抽取。但是,这些NLP工具支持的语言种类通常是有限的,而且可能不够可靠从而导致错误传播。
2)这些方法大多选用循环神经网络(RNN)尤其是双向长短期记忆网络(Bi-LSTM)来对输入序列进行建模,但是RNN由于序列计算的限制不能在序列元素级别进行并行计算,从而不能充分利用GPU的并行计算能力。因此,这些神经网络方法在计算上不够高效。
3)这些方法没有充分考虑关系的方向性,其中大多数方法仅仅把关系看成是无向关系,只有个别方法考虑到了关系的方向性,但却没有充分加以利用。
发明内容
本发明的目的在于解决现有技术中存在的问题,并提供一种句子级实体和关系联合抽取方法。
本发明不依赖任何手动设计的特征,仅使用神经网络自动抽取的特征来识别实体及其关系,因而可以轻易推广到其他领域和语言中。本发明选用膨胀卷积网络作为编码器,由于允许序列元素级别的并行,膨胀卷积网络的计算更加高效。此外,本发明考虑到关系的方向性,使用双仿射变换来做关系分类,从而改善了关系分类的表现。
本发明具体采用的技术方案如下:
一种句子级实体和关系联合抽取方法,其步骤如下:
1)将句子作为输入,获取每个单词的表示向量,该表示向量由词嵌入表示和字符级别词嵌入表示拼接而成;
2)使用膨胀卷积神经网络对每个单词的上下文信息进行编码,为每个单词提取包含上下文信息的特征;
3)把实体识别作为序列标注问题,并使用线性链CRF来对实体标记序列联合建模;预测时,使用维特比算法计算概率最大的实体标记序列,实现实体识别;
4)从组成实体的单词的特征表示中来获得实体的特征表示,通过对实体两两排列来构造关系候选,使用双仿射变换判断每个关系候选的关系,实现关系抽取。
基于上述技术方案,各步骤可采用如下具体方式实现。
优选的,所述的步骤1)具体实现方法为:
1.1)使用预先训练好的词嵌入来获取每个单词的词嵌入表示;
1.2)使用单层CNN来获取每个单词的字符级别词嵌入表示;
1.3)将步骤1.1)得到的词嵌入表示和步骤1.2)得到的字符级别词嵌入表示拼接起来,作为每个单词最终的表示向量。
优选的,所述的步骤2)具体实现方法为:
将步骤1)中得到的所有单词的表示向量V=(v1,v2,…,vn)作为输入,使用多层膨胀卷积神经网络对每个单词的上下文信息进行编码,多层膨胀卷积神经网络中每层卷积的卷积核宽度都为w,第l层膨胀卷积的膨胀系数为dl,膨胀策略如下式所示:
dl=(w-1)l-1
第l层膨胀卷积输出为
Figure BDA0002105105550000031
其中n为句子的长度,ml表示第l层卷积核个数;第i个单词在第l层的上下文表示向量
Figure BDA0002105105550000032
Figure BDA0002105105550000033
的计算公式如下:
Figure BDA0002105105550000034
其中,relu(·)表示线性整流函数,
Figure BDA0002105105550000035
表示向量拼接操作,
Figure BDA0002105105550000036
表示第l层卷积核,bl表示第l层卷积的偏置;且H0=V,m0等于词向量维数;最后一层膨胀卷积输出
Figure BDA0002105105550000037
作为最终的编码结果Z=(z1,z2,…,zn),zi为提取到的第i个单词包含上下文信息的特征向量。
优选的,所述的步骤3)具体实现方法为:
3.1)将步骤2)中得到的结果Z=(z1,z2,…,zn)作为输入,先使用一个全连接的隐藏层去除无关的信息,该隐藏层输出为H=(h1,h2,…,hn),则hi的计算公式如下:
hi=f(Wzi+b)
其中f表示非线性激活函数,W和b分别表示该隐藏层的权重和偏置。
3.2)通过线性变换为每个单词计算一个实体标记的得分向量si=Wshi+b′,其中
Figure BDA0002105105550000038
|tag|表示实体标记总数,Ws和b′分别为线性变换的权重和偏置;
3.3)使用线性链CRF对实体标记序列进行联合建模,记输入句子为X,A表示标记转移得分矩阵,A中的元素ai,j表示从标记i转移到标记j的得分,按下式计算一个实体标记序列y=(y1,y2,…,yn)的得分:
Figure BDA0002105105550000041
其中
Figure BDA0002105105550000042
表示si中第yi个元素;
Figure BDA0002105105550000043
y0和yn+1是两个分别表示句子X起始和结束的辅助标记;
3.4)使用维特比算法选取实体标记序列的得分最大的实体标记序列y*作为实体识别的结果:
Figure BDA0002105105550000044
其中Y(X)表示句子X所有可能的实体标记序列。
优选的,所述的步骤4)具体实现方法为:
4.1)对于给定实体标记序列y=(y1,y2,…,yn),通过去除标记中表示实体边界的部分,得到仅表示实体类型的标记序列y′=(y′1,y′2,…,y′n);然后,通过嵌入层得到一个标记嵌入序列
Figure BDA0002105105550000045
其中嵌入层权重
Figure BDA0002105105550000046
Figure BDA0002105105550000047
q表示实体类型的种数,p表示标记嵌入的维数;最后,将该标记嵌入序列Et与步骤2)的编码结果Z拼接起来作为新的输入Z′=(z′1,z′2,…,z′n),其中:
Figure BDA0002105105550000048
4.2)用最大池化的方法从组成实体的单词的特征表示中获得实体的特征表示O=(o1,o2,…,om),m为实体的数量,oi表示第i个实体的特征表示;
4.3)先使用全连接的隐藏层对实体的特征表示进行降维以去除与关系分类任务无关的信息;考虑到关系的方向性,使用两个分别针对主实体和客实体的隐藏层进行降维,针对主实体的隐藏层的输出结果为
Figure BDA0002105105550000049
针对客实体的隐藏层的输出结果为
Figure BDA00021051055500000410
计算公式如下:
Figure BDA00021051055500000411
Figure BDA00021051055500000412
其中f表示非线性激活函数,Wsub、bsub分别表示主实体隐藏层的权重和偏置,Wobj和bobj分别表示客实体隐藏层的权重和偏置;
4.4)通过对实体两两排列来构造关系候选;
4.5)使用双仿射变换为每个关系候选(ei,ej)计算一个关系标签的得分向量:
Figure BDA0002105105550000051
其中
Figure BDA0002105105550000052
Figure BDA0002105105550000053
表示双仿射变换的权重,br表示双仿射变换的偏置,c是关系标签种数,d是隐藏层的输出维度;
4.6)对关系标签得分向量使用softmax函数计算属于关系标签rk的概率:
Figure BDA0002105105550000054
式中:si,j,k表示sr i,j中第k个关系标签的得分;
取概率最大的关系标签作为该关系候选的预测结果
4.7)对于给定实体对ei,ej按不同顺序构成的两个关系候选(ei,ej)和(ej,ei),若预测结果之间存在冲突,则选择概率更高的关系标签作为最终结果。
不考虑正则化项,本发明最小化以下目标函数:
L=LNER+λLRE
其中LNER表示步骤3)中实体识别的损失,LRE表示步骤4)中关系抽取的损失,λ≥0是系数,用以权衡实体识别和关系抽取在模型训练中的分量。针对实体识别和关系抽取的损失,本发明均使用交叉熵损失函数。
与传统的流水线抽取技术相比,本发明不存在错误传播问题,而且可以学习实体识别和关系抽取两个子任务之间的依赖关系。与以往的联合抽取技术相比,本发明既不需要手动设计特征,也不依赖于外部的NLP工具。本发明使用膨胀卷积神经网络作为编码器,与常见的循环神经网络相比,由于允许序列元素级别的并行,膨胀卷积神经网络的计算更加高效。此外,本发明还考虑到了关系的方向性,并使用双仿射变换来做关系分类。
附图说明
图1是本发明的整体框架。
图2是基于CNN的字符级别词嵌入的抽取过程示意图。
图3是膨胀卷积网络的示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述和说明。
本发明提供了一种基于神经网络的实体和关系的联合抽取方法,该方法的整体框架如图1所示。图2是基于CNN的字符级别词嵌入的抽取过程示意图,图3是膨胀卷积网络的示意图。下面详细说明其具体的实现方式。
本发明的句子级实体和关系联合抽取方法,步骤如下:
1)将句子作为输入,获取每个单词的表示向量,该表示向量由词嵌入表示和字符级别词嵌入表示拼接而成。本步骤的具体实现方法为:
1.1)使用预先训练好的词嵌入来获取每个单词的词嵌入表示,词嵌入可以选择word2vec、GloVe等。
1.2)使用单层CNN来获取每个单词的字符级别词嵌入表示,首先把单词看成字符序列,并将其作为输入送给字符嵌入层得到一个字符嵌入序列,然后对该字符嵌入序列进行足够的零填充以使卷积层输出和输入具有相同的长度,接着卷积层对其做一维卷积,最后通过一维全局最大池化得到每个单词的字符级别词嵌入。
1.3)将步骤1.1)得到的词嵌入表示和步骤1.2)得到的字符级别词嵌入表示拼接起来,作为每个单词最终的表示向量。
2)使用膨胀卷积神经网络对每个单词的上下文信息进行编码,为每个单词提取包含上下文信息的特征。本步骤的具体实现方法为:
将步骤1)中得到的所有单词的表示向量V=(v1,v2,…,vn)作为输入,使用多层膨胀卷积神经网络对每个单词的上下文信息进行编码,多层膨胀卷积神经网络中每层卷积的卷积核宽度都为w,第l层膨胀卷积的膨胀系数为dl,膨胀策略如下式所示:
dl=(w-1)l-1
第l层膨胀卷积输出为
Figure BDA0002105105550000061
其中n为句子的长度,ml表示第l层卷积核个数;第i个单词在第l层的上下文表示向量
Figure BDA0002105105550000062
Figure BDA0002105105550000063
的计算公式如下:
Figure BDA0002105105550000064
其中,relu(·)表示线性整流函数,
Figure BDA0002105105550000065
表示向量拼接操作,
Figure BDA0002105105550000066
表示第l层卷积核,bl表示第l层卷积的偏置;且H0=V,m0等于词向量维数;最后一层膨胀卷积输出
Figure BDA0002105105550000071
作为最终的编码结果Z=(z1,z2,…,zn),zi为提取到的第i个单词包含上下文信息的特征向量。
3)把实体识别作为序列标注问题,并使用线性链CRF来对实体标记序列联合建模;预测时,使用维特比算法计算概率最大的实体标记序列,实现实体识别。本步骤的具体实现方法为:
3.1)将步骤2)中得到的结果Z=(z1,z2,…,zn)作为输入,先使用一个全连接的隐藏层去除无关的信息,该隐藏层输出为H=(h1,h2,…,hn),则hi的计算公式如下:
hi=f(Wzi+b)
其中f表示非线性激活函数,W和b分别表示该隐藏层的权重和偏置。
3.2)通过线性变换为每个单词计算一个实体标记的得分向量si=Wshi+b′,其中
Figure BDA0002105105550000072
|tag|表示实体标记总数,Ws和b′分别为线性变换的权重和偏置;
3.3)使用线性链CRF对实体标记序列进行联合建模,记输入句子为X,A表示标记转移得分矩阵,A中的元素ai,j表示从标记i转移到标记j的得分,按下式计算一个实体标记序列y=(y1,y2,…,yn)的得分:
Figure BDA0002105105550000073
其中
Figure BDA0002105105550000074
表示si中第yi个元素;
Figure BDA0002105105550000075
y0和yn+1是两个分别表示句子X起始和结束的辅助标记;
3.4)使用维特比算法选取实体标记序列的得分最大的实体标记序列y*作为实体识别的结果:
Figure BDA0002105105550000076
其中Y(X)表示句子X所有可能的实体标记序列。
4)从组成实体的单词的特征表示中来获得实体的特征表示,通过对实体两两排列来构造关系候选,使用双仿射变换判断每个关系候选的关系,实现关系抽取。本步骤的具体实现方法为:
4.1)对于给定实体标记序列y=(y1,y2,…,yn),通过去除标记中表示实体边界的部分(对于BILOU标记方案来说,就是标记前面的“B-”、“I-”“L-”和“U-”),得到仅表示实体类型的标记序列y′=(y′1y′2,…,y′n);然后,通过嵌入层得到一个标记嵌入序列
Figure BDA0002105105550000081
其中嵌入层权重
Figure BDA0002105105550000082
q表示实体类型的种数,p表示标记嵌入的维数;多出的1是因为有些单词并不组成实体,需要另外用一个实体类型标记进行表示。最后,将该标记嵌入序列Et与步骤2)的编码结果Z拼接起来作为新的输入Z′=(z′1,z′2,…,z′n),其中:
Figure BDA0002105105550000083
4.2)考虑到一个实体可能由多个单词组成,本发明使用最大池化的方法从组成实体的单词的特征表示中获得实体的特征表示O=(o1,o2,…,om),m为实体的数量,oi表示第i个实体的特征表示;特别地,本发明在模型训练时使用真实的实体,而在模型预测时使用模型预测的实体。
4.3)先使用全连接的隐藏层对实体的特征表示进行降维以去除与关系分类任务无关的信息;考虑到关系的方向性,使用两个分别针对主实体和客实体的隐藏层进行降维,针对主实体的隐藏层的输出结果为
Figure BDA0002105105550000084
针对客实体的隐藏层的输出结果为
Figure BDA0002105105550000085
计算公式如下:
Figure BDA0002105105550000086
Figure BDA0002105105550000087
其中f表示非线性激活函数,Wsub、bsub分别表示主实体隐藏层的权重和偏置,Wobj和bobj分别表示客实体隐藏层的权重和偏置;
4.4)通过对实体两两排列来构造关系候选,和步骤4.2)一样,本发明在训练时使用真实的实体,而在预测时使用模型预测的实体。此外,本发明在关系标签中加入关系的方向,因此假设有K种预定义的关系,则关系标签有2K+1个,多出的1个是因为负类关系没有方向,其中负类关系表示两个实体没有关系或者实体识别有误。
4.5)使用双仿射变换为每个关系候选(ei,ej)计算一个关系标签的得分向量:
Figure BDA0002105105550000088
其中
Figure BDA0002105105550000089
Figure BDA00021051055500000810
表示双仿射变换的权重,br表示双仿射变换的偏置,c是关系标签种数,d是隐藏层的输出维度;
4.6)对关系标签得分向量使用softmax函数计算属于关系标签rk的概率:
Figure BDA0002105105550000091
式中:si,j,k表示sr i,j中第k个关系标签的得分;
取概率最大的关系标签作为该关系候选的预测结果
4.7)对于给定实体对ei,ej按不同顺序构成的两个关系候选(ei,ej)和(ej,ei),若预测结果之间存在冲突,则选择概率更高的关系标签作为最终结果。
不考虑正则化项,本发明在训练过程中最小化以下目标函数:
L=LNER+λLRE
其中LNER表示步骤3)中实体识别(NER)的损失,LRE表示步骤4)中关系抽取(RE)的损失,λ≥0是系数,用以权衡实体识别和关系抽取在模型训练中的分量。针对实体识别和关系抽取的损失,本发明均使用交叉熵损失函数。本发明的神经网络训练完毕后,即可输入句子,然后从句子中抽取出实体和关系。
下面将上述方法应用至具体实施例中,具体的实施步骤如前所述,实施例中主要展示其效果。
实施例:
为了测试上述句子级实体和关系联合抽取方法(具体步骤如前1)~4)所述)的实际效果,使用CoNLL04、ACE04和ACE05三个数据集。CoNLL04数据集来自于Roth和Yih开发的用于实体和关系识别的语料库,它定义了四种实体类型和五种关系类型。ACE04数据集来自于2004年的自动内容抽取(Automatic Content Extraction,简称ACE)评测,它定义了7种粗粒度的实体类型和7种粗粒度的关系类型。ACE05数据集来自于2005年的ACE评测,它定义了和ACE04数据集相同的7种粗粒度的实体类型,以及6种粗粒度的关系类型。
实验过程中超参数设置如下:使用200维预训练的GloVe词嵌入,字符嵌入维数为50,字符级别CNN卷积核大小为3,字符级别CNN卷积核个数为50,膨胀CNN层数为2,膨胀CNN卷积核大小为5,膨胀CNN卷积核个数为300,隐藏层非线性激活函数为双曲正切函数,使用Adam优化算法训练模型,学习速率为0.001,L2正则化因子为0.0001,每批次训练样本数量为16,训练轮数上限为150,早停法容忍度为25。
针对编码器设计的超参数实验的结果如下表所示,其中模型1使用两层Bi-LSTM作为编码器,模型2使用了两层膨胀CNN,模型3使用了Transformer编码器。“速度”一列显示了各个模型相对于模型1的训练速度,它是根据单轮训练时间计算得到的。实验结果表明使用膨胀卷积神经网络作为编码器能够取得更快的训练速度,这是因为它允许序列元素级别的并行,能充分发挥GPU的并行计算能力。
表1编码器实验结果
Figure BDA0002105105550000101
针对关系分类层设计的超参数实验的结果如下表所示,其中模型1使用线性变换来做关系分类,而模型2使用双线性变换,模型3则使用双仿射变换。实验结果表明三个模型在实体识别任务上的表现差别不大,但在关系抽取任务上的表现彼此之间存在一定的差距,其中使用双仿射变换的模型3在关系抽取任务上表现最好。
表2关系分类层实验结果
Figure BDA0002105105550000102
Figure BDA0002105105550000111
与现有联合抽取方法的对比实验结果如下表所示,其中Miwa&Bansal(2016)和Zhang et al.(2017)均使用了额外的特征包括单词的词性和句子的依存句法信息,而本发明的方法DCNN+biaffine以及Katiyar&Cardie(2017)和Bekoulis et al.(2018)都没有使用任何额外的特征。实验结果表明本发明提出的联合抽取方法在实体识别任务上的表现明显好于其他方法,而在关系抽取任务上的表现略好于其他不使用额外特征的联合方法,并且与使用额外特征的联合方法在一个合理的差距范围内。
表3对比实验结果
Figure BDA0002105105550000112
用于对比的方法实现参见以下参考文献:
[1]Bekoulis G,Deleu J,Demeester T,et al.Joint entity recognition andrelation extraction as a multi-head selection problem[J].Expert Systems withApplications,2018,114:34-45.
[2]Zhang M,Zhang Y,Fu G.End-to-end neural relation extraction withglobal optimization[C]//Proceedings of the 2017Conference on EmpiricalMethods in Natural Language Processing.2017:1730-1740.
[3]Katiyar A,Cardie C.Going out on a limb:Joint extraction of entitymentions and relations without dependency trees[C]//Proceedings of the 55thAnnual Meeting of the Association for Computational Linguistics(Volume 1:LongPapers).2017,1:917-928.
[4]Miwa M,Bansal M.End-to-End Relation Extraction using LSTMs onSequences and Tree Structures[C]//Proceedings of the 54th Annual Meeting ofthe Association for Computational Linguistics(Volume 1:Long Papers).2016,1:1105-1116.
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (5)

1.一种句子级实体和关系联合抽取方法,其特征在于,步骤如下:
1)将句子作为输入,获取每个单词的表示向量,该表示向量由词嵌入表示和字符级别词嵌入表示拼接而成;
2)使用膨胀卷积神经网络对每个单词的上下文信息进行编码,为每个单词提取包含上下文信息的特征;
3)把实体识别作为序列标注问题,并使用线性链CRF来对实体标记序列联合建模;预测时,使用维特比算法计算概率最大的实体标记序列,实现实体识别;
4)从组成实体的单词的特征表示中来获得实体的特征表示,通过对实体两两排列来构造关系候选,使用双仿射变换判断每个关系候选的关系,实现关系抽取。
2.如权利要求1所述的句子级实体和关系联合抽取方法,其特征在于,所述的步骤1)具体实现方法为:
1.1)使用预先训练好的词嵌入来获取每个单词的词嵌入表示;
1.2)使用单层CNN来获取每个单词的字符级别词嵌入表示;
1.3)将步骤1.1)得到的词嵌入表示和步骤1.2)得到的字符级别词嵌入表示拼接起来,作为每个单词最终的表示向量。
3.如权利要求1所述的句子级实体和关系联合抽取方法,其特征在于,所述的步骤2)具体实现方法为:
将步骤1)中得到的所有单词的表示向量V=(v1,v2,…,vn)作为输入,使用多层膨胀卷积神经网络对每个单词的上下文信息进行编码,多层膨胀卷积神经网络中每层卷积的卷积核宽度都为w,第l层膨胀卷积的膨胀系数为dl,膨胀系数如下式所示:
dl=(w-1)l-1
第l层膨胀卷积输出为
Figure FDA0002528511020000011
其中n为句子的长度,ml表示第l层卷积核个数;第i个单词在第l层的上下文表示向量
Figure FDA0002528511020000012
Figure FDA0002528511020000013
的计算公式如下:
Figure FDA0002528511020000014
其中,relu(·)表示线性整流函数,
Figure FDA0002528511020000021
表示向量拼接操作,
Figure FDA0002528511020000022
表示第层卷积核,bl表示第层卷积的偏置;且H0=V,m0等于词向量维数;最后一层膨胀卷积输出
Figure FDA0002528511020000023
作为最终的编码结果Z=(z1,z2,…,zn),zi为提取到的第i个单词包含上下文信息的特征向量。
4.如权利要求1所述的句子级实体和关系联合抽取方法,其特征在于,所述的步骤3)具体实现方法为:
3.1)将步骤2)中得到的结果Z=(z1,z2,…,zn)作为输入,先使用一个全连接的隐藏层去除无关的信息,该隐藏层输出为H=(h1,h2,…,hn),则hi的计算公式如下:
hi=f(Wzi+b)
其中f表示非线性激活函数,W和b分别表示该隐藏层的权重和偏置;
3.2)通过线性变换为每个单词计算一个实体标记的得分向量si=Wshi+b′,其中
Figure FDA0002528511020000024
|tag|表示实体标记总数,Ws和b′分别为线性变换的权重和偏置;
3.3)使用线性链CRF对实体标记序列进行联合建模,记输入句子为X,A表示标记转移得分矩阵,A中的元素ai,j表示从标记i转移到标记j的得分,按下式计算一个实体标记序列y=(y1,y2,…,yn)的得分:
Figure FDA0002528511020000025
其中
Figure FDA0002528511020000026
表示si中第yi个元素;
Figure FDA0002528511020000027
y0和yn+1是两个分别表示句子X起始和结束的辅助标记;
3.4)使用维特比算法选取实体标记序列的得分最大的实体标记序列y*作为实体识别的结果:
Figure FDA0002528511020000028
其中Y(X)表示句子X所有可能的实体标记序列。
5.如权利要求1所述的句子级实体和关系联合抽取方法,其特征在于,所述的步骤4)具体实现方法为:
4.1)对于给定实体标记序列y=(y1,y2,…,yn),通过去除标记中表示实体边界的部分,得到仅表示实体类型的标记序列y′=(y′1,y′2,…,y′n);然后,通过嵌入层得到一个标记嵌入序列
Figure FDA0002528511020000031
其中嵌入层权重
Figure FDA0002528511020000032
Figure FDA0002528511020000033
q表示实体类型的种数,p表示标记嵌入的维数;最后,将该标记嵌入序列Et与步骤2)的编码结果Z拼接起来作为新的输入Z′=(z′1,z′2,…,z′n),其中:
Figure FDA0002528511020000034
4.2)用最大池化的方法从组成实体的单词的特征表示中获得实体的特征表示O=(o1,o2,…,om),m为实体的数量,oi表示第i个实体的特征表示;
4.3)先使用全连接的隐藏层对实体的特征表示进行降维以去除与关系分类任务无关的信息;考虑到关系的方向性,使用两个分别针对主实体和客实体的隐藏层进行降维,针对主实体的隐藏层的输出结果为
Figure FDA0002528511020000035
针对客实体的隐藏层的输出结果为
Figure FDA0002528511020000036
计算公式如下:
Figure FDA0002528511020000037
Figure FDA0002528511020000038
其中f表示非线性激活函数,Wsub、bsub分别表示主实体隐藏层的权重和偏置,Wobj和bobj分别表示客实体隐藏层的权重和偏置;
4.4)通过对实体两两排列来构造关系候选;
4.5)使用双仿射变换为每个关系候选(ei,ej)计算一个关系标签的得分向量:
Figure FDA0002528511020000039
其中
Figure FDA00025285110200000310
Figure FDA00025285110200000311
表示双仿射变换的权重,br表示双仿射变换的偏置,c是关系标签种数,d是隐藏层的输出维度;
4.6)对关系标签得分向量使用softmax函数计算属于关系标签rk的概率:
Figure FDA00025285110200000312
式中:si,j,k表示sr i,j中第k个关系标签的得分;
取概率最大的关系标签作为该关系候选的预测结果
4.7)对于给定实体对ei,ej按不同顺序构成的两个关系候选(ei,ej)和(ej,ei),若预测结果之间存在冲突,则选择概率更高的关系标签作为最终结果。
CN201910549585.5A 2019-06-24 2019-06-24 一种句子级实体和关系联合抽取方法 Active CN110377903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910549585.5A CN110377903B (zh) 2019-06-24 2019-06-24 一种句子级实体和关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910549585.5A CN110377903B (zh) 2019-06-24 2019-06-24 一种句子级实体和关系联合抽取方法

Publications (2)

Publication Number Publication Date
CN110377903A CN110377903A (zh) 2019-10-25
CN110377903B true CN110377903B (zh) 2020-08-14

Family

ID=68249222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910549585.5A Active CN110377903B (zh) 2019-06-24 2019-06-24 一种句子级实体和关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN110377903B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160008B (zh) * 2019-12-18 2022-03-25 华南理工大学 一种实体关系联合抽取方法及系统
CN111128390B (zh) * 2019-12-20 2022-11-04 昆明理工大学 一种基于骨科症状特征选取的文本处理方法
CN111159336B (zh) * 2019-12-20 2023-09-12 银江技术股份有限公司 一种半监督司法实体及事件联合提取方法
CN111274412A (zh) * 2020-01-22 2020-06-12 腾讯科技(深圳)有限公司 信息提取方法、信息提取模型训练方法、装置及存储介质
CN111339407B (zh) * 2020-02-18 2023-12-05 北京航空航天大学 一种信息抽取云平台的实现方法
CN113378568B (zh) * 2020-03-09 2024-05-14 株式会社理光 关系抽取方法、装置、系统及计算机可读存储介质
CN111581957B (zh) * 2020-05-06 2022-04-12 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN112329440B (zh) * 2020-09-01 2023-07-25 浪潮云信息技术股份公司 一种基于两阶段筛选和分类的关系抽取方法和装置
CN112069801A (zh) * 2020-09-14 2020-12-11 深圳前海微众银行股份有限公司 基于依存句法的句子主干抽取方法、设备和可读存储介质
CN112069800A (zh) * 2020-09-14 2020-12-11 深圳前海微众银行股份有限公司 基于依存句法的句子时态识别方法、设备和可读存储介质
CN112101009B (zh) * 2020-09-23 2024-03-26 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112163092B (zh) * 2020-10-10 2022-07-12 成都数之联科技股份有限公司 实体及关系抽取方法及系统、装置、介质
CN112395407B (zh) * 2020-11-03 2023-09-19 杭州未名信科科技有限公司 企业实体关系的抽取方法、装置及存储介质
CN112364654A (zh) * 2020-11-11 2021-02-12 安徽工业大学 一种面向教育领域的实体和关系联合抽取方法
CN112069825B (zh) * 2020-11-12 2021-01-15 湖南数定智能科技有限公司 面向警情笔录数据的实体关系联合抽取方法
CN113051891B (zh) * 2021-01-13 2022-11-18 东南大学 一种面向机场应急预案文本的实体与关系联合抽取方法
CN114611487B (zh) * 2022-03-10 2022-12-13 昆明理工大学 基于动态词嵌入对齐的无监督泰语依存句法分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647254A (zh) * 2018-04-23 2018-10-12 苏州大学 基于模式嵌入的自动树库转化方法及系统
CN109062983A (zh) * 2018-07-02 2018-12-21 北京妙医佳信息技术有限公司 用于医学健康知识图谱的命名实体识别方法及系统
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109740151A (zh) * 2018-12-23 2019-05-10 北京明朝万达科技股份有限公司 基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647254A (zh) * 2018-04-23 2018-10-12 苏州大学 基于模式嵌入的自动树库转化方法及系统
CN109062983A (zh) * 2018-07-02 2018-12-21 北京妙医佳信息技术有限公司 用于医学健康知识图谱的命名实体识别方法及系统
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109740151A (zh) * 2018-12-23 2019-05-10 北京明朝万达科技股份有限公司 基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Fast and Accurate Entity Recognition with Iterated Dilated Convolutions";Emma Strubell等;《Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing》;20170911;全文 *
在线医疗问答文本的命名实体识别;杨文明等;《计算机系统应用》;20190128;第28卷(第2期);全文 *

Also Published As

Publication number Publication date
CN110377903A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110377903B (zh) 一种句子级实体和关系联合抽取方法
CN108733792B (zh) 一种实体关系抽取方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN109684642B (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN111767718A (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
WO2019235103A1 (ja) 質問生成装置、質問生成方法及びプログラム
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113204611A (zh) 建立阅读理解模型的方法、阅读理解方法及对应装置
CN117291265B (zh) 一种基于文本大数据的知识图谱构建方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112883199A (zh) 一种基于深度语义邻居和多元实体关联的协同消歧方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN114510946B (zh) 基于深度神经网络的中文命名实体识别方法及系统
CN114881042A (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
CN114254645A (zh) 一种人工智能辅助写作系统
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN115879460A (zh) 面向文本内容的新标签实体识别方法、装置、设备及介质
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant