CN113468888A - 基于神经网络的实体关系联合抽取方法与装置 - Google Patents

基于神经网络的实体关系联合抽取方法与装置 Download PDF

Info

Publication number
CN113468888A
CN113468888A CN202110712390.5A CN202110712390A CN113468888A CN 113468888 A CN113468888 A CN 113468888A CN 202110712390 A CN202110712390 A CN 202110712390A CN 113468888 A CN113468888 A CN 113468888A
Authority
CN
China
Prior art keywords
entity
vector
handshake
sentence
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110712390.5A
Other languages
English (en)
Inventor
杨鹏
程昌虎
谢亮亮
方海生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huaxun Technology Co ltd
Original Assignee
Zhejiang Huaxun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huaxun Technology Co ltd filed Critical Zhejiang Huaxun Technology Co ltd
Priority to CN202110712390.5A priority Critical patent/CN113468888A/zh
Publication of CN113468888A publication Critical patent/CN113468888A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于神经网络的实体关系联合抽取方法与装置。本发明首先利用单层Transformer网络融合预训练的ERNIE字向量、CWV词向量以及词语的相对位置信息;其次,对握手标注策略进行改进,引入向量化的实体类型标签,以充分利用实体类型信息;然后,通过标注解码方法获得句子中的候选实体关系三元组;最后,利用UCL国家标准能够高效组织内容、有效关联信息的特点,使用UCL标引文章、句子、实体及关系。本发明既能够在句子上直接抽取实体关系三元组,避免冗余实体、嵌套实体、重叠关系等问题,也能够利用少量标注数据对实体关系进行快速校验,还能够客观、规范地标引数据。

Description

基于神经网络的实体关系联合抽取方法与装置
技术领域
本发明涉及基于神经网络的实体关系联合抽取方法与装置,属于互联网与人工智能技术领域。
背景技术
随着互联网行业的不断发展,互联网中的数据正以指数级的速度持续增长,其中蕴含了丰富的知识和信息。通过实体关系联合抽取方法从无结构的文本数据中抽取结构化的实体及关系信息,并合理、高效地组织结构化的信息,才能更充分地挖掘以及利用文本中相互关联的信息,进而实现内容治理。在传统的关系抽取中,命名实体识别总是作为关系抽取任务的前导任务,即关系抽取在命名实体识别任务的基础上进行。分离两个任务使得两个模型相互独立,具有便捷性和灵活性,但也存在一些问题。分离的“流水线”式进行命名实体识别和关系抽取存在以下问题:命名实体识别任务产生的误差将被传播到关系抽取任务形成累积误差、命名实体识别可能会产生不属于任何关系的冗余实体加重关系抽取任务的计算量、分离两个任务会削弱任务之间的相互作用且难以快速高效地抽取新闻文本中的语义信息。
发明内容
针对现有技术中存在的问题与不足,本发明基于人工智能技术近年来的最新进展,提出基于神经网络的实体关系联合抽取方法与装置,一方面利用国内外关于实体关系联合抽取方法研究已经取得的一些有价值成果,另一方面利用国家标准《统一内容标签格式规范》(GB/T35304-2017)所定义的统一内容标签UCL(Uniform Content Label)能够高效组织内容、有效关联信息的特点,使用UCL来进一步标引文章、句子、实体及关系,以此构建具有丰富语义的知识库。本发明既能够在句子上直接抽取实体关系三元组,避免冗余实体、嵌套实体、重叠关系等问题,也能够利用少量标注数据对实体关系进行快速校验,还能够客观、规范地标引数据。
为了达到上述目的,本发明设计了基于神经网络的实体关系联合抽取方法与装置,具体的,提供如下技术方案:基于神经网络的实体关系联合抽取方法,包括如下步骤:
(1)词语信息融合。使用预训练语言模型ERNIE在训练时对实体和短语进行随机掩码,以使得模型能够学习到更多的词汇信息,能够更好地进行中文自然语言处理任务,同时,引入中文预训练词向量CWV,将词语信息通过Transformer编码到句子的字向量中。
(2)进行握手标注。为了避免曝光偏差,本发明使用握手标注策略对句子进行标注,本发明的将握手标注策略中实体头尾字符对的标注向量化,使用模长表示实体存在的概率,而向量的方向则代表不同的实体类型。使用握手标注策略同时标注实体对和描述实体对的关系,除此之外,握手标注策略也能够解决嵌套实体和关系重叠的问题。
(3)解码握手标注。解码标注矩阵展平的实体内头尾字符标注序列,首先得到句子中所包含的命名实体,使用句子序列中实体的头字符的位置作为键、实体片段列表作为值来构造实体字典Dict;其次,得到的字符对存入集合Set中;然后将解码得到的字符对中的主、客实体头字符分别关联Dict中的相应的实体值;最后在集合Set中查询上一步中由字符对关联得到的实体对是否存在,进而得到句子中所有的实体关系三元组<主实体,谓词,客实体>。
(4)使用UCL国家标准进行标引。本发明将新闻网页和文本中句子作为标引对象,利用关联UCL字段在新闻网页和从该网页提取的文本句子之间建立联系,此外本发明将句子的握手标注矩阵存储进MySQL数据库,将索引存储在句子的UCL标签的关联UCL字段中,在握手标注矩阵中编码了句子的实体及关系信息。
本发明还提供了基于神经网络的实体关系联合抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现所述的基于神经网络的实体关系联合抽取方法。
与现有技术相比,本发明具有如下优点和有益效果:
1.借助CWV可以更清晰地辨别实体边界。命名实体通常在句子中包含重要信息,对其进行部分掩盖和预测可以获得更丰富的语义信息增强的基本语言单元表示。
2.握手标注可以避免曝光偏差,模型使用握手标注策略标注实体对和描述实体对的关系,也能够解决嵌套实体和关系重叠的问题。
3.通过UCL国家标准高效关联编码后的句子的实体及关系信息,进而有效利用关联UCL字段在新闻网页和网页文本句子之间建立组织联系。
附图说明
图1为本发明实施例基于神经网络的实体关系联合模型框架图。
图2为本发明实施例实体关系联合抽取实现系统图。
图3为本发明实施例实体关系抽取实现系统架构设计图。
图4为本发明实施例实体关系联合抽取实现系统UCL逻辑结构图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明实施例公开的一种基于神经网络的实体关系联合抽取方法,其模型框架如图1所示,流程如图2所示,具体实施步骤如下:
步骤1,词语信息融合。预训练语言模型可以有效地改善自然语言处理任务的效果,当模型学习到更多的先验知识,就可以获得更可靠的语言表示。其中,预训练语言模型BERT更是在多项自然语言处理任务中达到最高水平,但BERT的训练是基于对单词的随机掩码策略,忽略了多个单词组成的实体以及短语中含有的丰富语义信息,为了改进这一点,预训练语言模型ERNIE在训练时对实体和短语进行随机掩码,以使得模型能够学习到更多的词汇信息,能够更好地进行中文自然语言处理任务。BERT预训练时输入字也对字进行掩盖,而ERNIE在预训练时输入字对实体和短语掩盖,ERNIE对实体和短语的掩盖就可以在预训练时对知识进行整合。
ERNIE使用Transformer作为基本编码器,利用自注意力机制捕获文本句中每个Token的上下文信息,生成词嵌入向量,也需要使用[CLS]和[SEP]作为分隔符。ERNIE将实体和短语级别知识集成到语言表示中,分三个学习阶段对文本句进行掩码。
第一个学习阶段使用基础掩码,将句子作为基本语言单位的序列,训练时随机掩码其中部分基本语言单位,如单词、汉字等,以此训练Transformer预测掩码单元学习到低级语义信息。第二个学习阶段使用短语掩码,短语是一小部分充当概念单元的单词或汉字,依然以基本语言单元作为训练输入,随机选择文本句中的几个短语进行掩码,并预测同一短语中的所有基本语言单元,将短语信息编码到单词或汉字嵌入中。第三个学习阶段使用实体掩码,命名实体通常在句子中包含重要信息,对其进行部分掩盖和预测可以获得更丰富的语义信息增强的基本语言单元表示。
本实施例使用的预训练词向量为在人民日报上训练的中文词向量集(ChineseWord Vectors,CWV),其中包含355987个中文词语,预训练的词向量维度为300。由于ERNIE预训练字向量与CWV词向量维度不一致,为了方便模型计算,使用仿射机制将向量维度统一转换为Demb,计算如下:
Figure BDA0003133432940000031
Figure BDA0003133432940000032
其中,
Figure BDA0003133432940000033
表示矩阵的拼接操作,L是句子长度,即句子中的中文字符数量,N是句子中含有的词语数量,包括嵌套的词语,
Figure BDA0003133432940000034
Figure BDA0003133432940000035
是两个可学习的参数矩阵。
Transformer编码器由多头自注意力层和前馈网络层组成,每层都使用了残差连接和正则化。其中,前馈网络层是一个对能够感知位置的多层感知机,以弥补注意力机制不易察觉位置变化的缺陷。多头自注意力机制的头数目为H,输出由H头自注意力的输出拼接而成。多头自注意力的输出计算如下:
Figure BDA0003133432940000041
[Q,K,V]=E[WQ,WK,WV] (4)
Figure BDA0003133432940000042
Figure BDA0003133432940000043
MultiHead(Q,K,V)=[head1;head2;…;headh]WMH (7)
其中,E是句子中字向量与词向量在句子长度方向上的拼接向量,[X,Y]表示矩阵的层叠操作,Q、K、V分别表示注意力机制的查询向量、键向量、值向量,WQ、WK、WV是相应的参数矩阵,矩阵Sim由Simi,j组成,dk表示键向量的维度,Qi表示查询向量的第i个分量,Kj表示键向量的第j个分量,多头自注意力的输出在拼接之后使用WMH参数矩阵进行降维以提高运行速度。
为了使Transformer能够获取字词的位置信息,本实施例使用基于片段的相对距离编码字词位置信息。对于句子中的两个字符片段xi和xj,它们之间存在三种位置关系:相离、相交和包含,以上三种位置关系由两个片段的头尾字符位置决定,四种可以用于表示片段相对位置关系的相对距离计算如下:
Figure BDA0003133432940000044
Figure BDA0003133432940000045
Figure BDA0003133432940000046
Figure BDA0003133432940000047
其中,head[i]和tail[i]分别表示片段xi在句子中的头尾位置,
Figure BDA0003133432940000048
表示片段xi的头字符和片段xj的头字符距离,
Figure BDA0003133432940000049
Figure BDA00031334329400000410
表示相同含义。利用上述四种相对距离计算的片段相对位置编码计算如下:
Figure BDA00031334329400000411
Figure BDA00031334329400000412
Figure BDA00031334329400000413
其中,d是位置系数,dmodel是模型的位置向量维度,k是字符位置编码向量的维度索引,Wr表示用于降维的参数矩阵。为了将片段相对位置编码引入到Transformer编码器,对多头自注意力机制中的相似度计算进行改进,改进后的相似度计算如下:
Figure BDA0003133432940000051
其中,
Figure BDA0003133432940000052
Figure BDA0003133432940000053
都是可学习的参数向量,使用
Figure BDA0003133432940000054
替代式中的Simi,j以实现在多头自注意力层引入相对位置。词语信息融合模块的输出是融合了预训练词语信息的字向量CHARs,计算如下:
Z=MultiHead(Q,K,V) (16)
Figure BDA0003133432940000055
其中,Z表示多头自注意力层的输出,W1和W2分别是前馈网络层使用的两层激活函数的参数矩阵,第一层是ReLU非线性激活函数,第二层是线性激活函数。
步骤2,握手标注。基于结构化预测的实体关系联合抽取方法通过对统一的序列标注编码与解码来抽取实体对及其关系,避免了先抽取实体对后抽取关系、先抽取主实体后抽取关系及客实体等具有先后顺序的抽取模式带来的曝光偏差问题,增强了实体识别和关系抽取之间的交互性。为了避免曝光偏差,本实施例使用握手标注策略同时标注实体对和描述实体对的关系,除此之外,握手标注策略也能够解决嵌套实体和关系重叠的问题。
握手标注策略是一种新型的实体关系联合抽取标注策略,可在一个模型中实现单阶段联合抽取,保证训练和测试的一致性。握手标注策略基于片段对句子进行标注,共设置三种握手标注,分别是:实体内头尾字符间握手的红色标注、实体对主体和客体头字符间握手的蓝色标注、实体对主体和客体尾字符间握手的绿色标注。对于上述三种握手标注,使用矩阵
Figure BDA0003133432940000056
存储标注实体内头尾字符间的握手标注,通过TEH-ET的值能够确定句子中实体的起始与结束位置,同时解决了嵌套实体的标注问题,使用
Figure BDA0003133432940000057
标注文本句中R种实体关系的主实体与客实体的头字符,使用
Figure BDA0003133432940000058
标注文本句中R种实体关系的主实体与客实体的实体尾单词。
分析握手标注矩阵可知,由于实体总是顺序的,因此TEH-ET中的握手标记不可能出现在下三角区域,出于减少资源占用的目的,可以直接丢弃下三角区域。然而,主、客实体的相对位置存在相交、包含、相离三种情况,所以TSH-OH和TST-OT的握手标记可能出现在下三角区域,在握手标记出现在下三角区域时,可以先将握手标记映射到上三角区域并将标记值从“1”改为“2”,以此表示逆序握手标记,再丢弃下三角区域。丢弃下三角区域之后,标注矩阵只留下了上三角区域,再将握手标记矩阵上三角区域展平,展平后的标记序列长度为L×(L+1)/2,当存在R种实体关系时,则句子经过握手标注并展平之后得到(2*R+1)组标记序列。
实体的类型与实体间关系存在着明显的相关性,如:<王多余,出生地,西虹市>中“王多余”属于人物,“西虹市”属于地点,人物与地点间的内在相关性可以缩小候选关系的范围,而“出生地”这样的实体关系也限制了主、客实体可选择的类型,进而利用实体和关系之间内在的相关性提升实体和关系的抽取效果。为了保持实体类型间存在语义信息,本实施例使用分布式向量替代展平后的TEH-ET矩阵中的标记,并通过反向传播对实体类型向量进行训练。
对于给定为L的句子[w1,w2,…,wL]的字向量序列CHARs,通过字向量之间相互顺序连接,组成长度为L×(L+1)/2的字符对序列。本实施例先使用基础编码器将句子字向量降维成低维向量hi,然后得到字符对(wi,wj)的向量表示hi,j,计算如下所示:
Figure BDA0003133432940000061
其中,参数矩阵Wh和偏置向量bh可以通过训练学习。本实施例对标注矩阵TSH-OH和TsT-OT在展平后的标注序列的计算如下所示,其中,WT表示参数矩阵,bT表示偏置向量,P(yi,j=l)表示将字符对(wi,wj)标记为l的概率:
P(yi,j)=softmax(WThi,j+bT) (19)
Figure BDA0003133432940000062
link(wi,wj)即为握手标注矩阵的关系部分标注。为了在TEH-ET展平后的标注序列中引入命名实体类型向量,本实施例使用单层仿射变换,如下所示,其中,WE表示参数矩阵,bE表示偏置向量。
NE=softmax(WEhi,j+bE) (21)
当NE的模长超过阈值γ时,则表示该字符对为命名实体的头尾字符,将该位置使用NE进行标注,相反,则标注为零向量。
步骤3,标注解码。握手标注的解码过程首先是解码标注矩阵TEH-ET展平的实体内头尾字符标注序列EH-to-ET,得到句子中所包含的命名实体,使用句子序列中实体的头字符的位置作为键、实体片段列表作为值来构造实体字典Dict;其次解码标注矩阵TST-OT展平的主客实体尾字符标注序列ST-to-OT,将解码得到的字符对存入集合Set中;然后解码标注矩阵TSH-OH展平的主客实体头字符标注序列SH-to-OH,将解码得到的字符对中的主、客实体头字符分别关联Dict中的相应的实体值;最后在集合Set中查询上一步中由字符对关联得到的实体对是否存在,进而得到句子中所有的实体关系三元组。
为了对本实施例设计的神经网络模型进行训练,本实施例设计的损失函数分为两部分,第一部分是关系序列标记损失,如式(22)所示,计算输出的关系标记与真实标记的负对数似然作为关系预测的损失。第二部分是实体序列标记损失,计算输出的实体标记向量与真实标记向量的欧式距离作为实体预测的损失,如式(23)所示。本实施例损失为两者之和,如式(24)所示。其中,H、T和E分别表示SH-to-OH、ST-to-OT和EH-to-ET标记序列。
Figure BDA0003133432940000071
Figure BDA0003133432940000072
LossSPO=Lossrel+Lossent (24)
步骤4,使用UCL国家标准进行标引。UCL包含代码域(UCL Code)和属性域(UCLProperties)两部分。代码域包含内容来源、一级类别、二级类别等新闻页面信息,主要保证UCL数据包在网络传输过程中的安全性和完整性。属性域包含内容标题、内容出处等文本资源信息,主要用于描述被UCL标引的对象的语义信息。其中,关联UCL字段对于高效管理和充分利用存在语义联系的实体及关系具有重要意义。
因此,在使用UCL国家标准进行标引步骤中,本发明将新闻网页和文本中句子作为标引对象,利用关联UCL字段在新闻网页和从该网页提取的文本句子之间建立联系。除此之外,本发明将句子的握手标注矩阵存储进MySQL数据库,将索引存储在句子的UCL标签的关联UCL字段中,在握手标注矩阵编码了句子的实体及关系信息。本发明设计使用的UCL逻辑结构如附图4所示。
综上,本发明设计并实现了面向新闻领域的实体关系联合抽取实现系统,其架构如图3所示。系统利用实体关系联合抽取模型直接抽取新闻文本中的实体及关系,削弱了使用外部自然语言工具带来的累积误差影响,并基于握手标注矩阵和小样本关系抽取模型提出小样本关系校验方法对直接抽取的关系进行校验,减少了错误关系的抽取,同时,使用UCL标引网页新闻、文本句子等新闻内容做到了对资源的有效组织,最后通过前端可视化技术取得了良好的实体关系三元组可视化展示效果。本发明既能用于较好的用于少量标注数据场景,又可以较好的用于无标注数据场景,可以有效解决冗余实体、嵌套实体、重叠关系等问题,对于研究利用自然语言信息抽取技术从无结构文本数据中抽取准确、有效的信息具有重要的现实意义。
基于相同的发明构思,本发明还提供了基于神经网络的实体关系联合抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现所述的基于神经网络的实体关系联合抽取方法。具体的,基于神经网络的实体关系联合抽取装置包括词语信息融合模块、握手标注模块、解码握手标注模块、UCL标引模块,分别用于具体实现基于神经网络的实体关系联合抽取方法中步骤1-步骤4内容。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (5)

1.基于神经网络的实体关系联合抽取方法,其特征在于,包括如下步骤:
步骤1,词语信息融合
使用预训练语言模型ERNIE在训练时对实体和短语进行随机掩码,同时,引入中文预训练词向量CWV,将词语信息通过Transformer编码到句子的字向量中;
步骤2,进行握手标注
使用握手标注策略对句子进行标注,同时标注实体对和描述实体对的关系,将握手标注策略中实体头尾字符对的标注向量化,使用模长表示实体存在的概率,而向量的方向则代表不同的实体类型;
步骤3,解码握手标注
解码标注矩阵展平的实体内头尾字符标注序列,首先得到句子中所包含的命名实体,使用句子序列中实体的头字符的位置作为键、实体片段列表作为值来构造实体字典Dict;其次,得到的字符对存入集合Set中;然后将解码得到的字符对中的主、客实体头字符分别关联Dict中的相应的实体值;最后在集合Set中查询上一步中由字符对关联得到的实体对是否存在,进而得到句子中所有的实体关系三元组<主实体,谓词,客实体>;
步骤4,使用UCL国家标准进行标引
将新闻网页和文本中句子作为标引对象,利用关联UCL字段在新闻网页和从该网页提取的文本句子之间建立联系,将句子的握手标注矩阵存储进MySQL数据库,将索引存储在句子的UCL标签的关联UCL字段中,在握手标注矩阵中编码了句子的实体及关系信息。
2.根据权利要求1所述的基于神经网络的实体关系联合抽取方法,其特征在于,所述步骤1具体包括如下过程:
预训练语言模型ERNIE在训练时对实体和短语进行随机掩码,使用Transformer作为基本编码器,利用自注意力机制捕获文本句中每个Token的上下文信息,生成词嵌入向量,也需要使用[CLS]和[SEP]作为分隔符,ERNIE将实体和短语级别知识集成到语言表示中,分三个学习阶段对文本句进行掩码;
使用仿射机制将向量维度统一转换为Demb,计算如下:
Figure FDA0003133432930000011
Figure FDA0003133432930000012
其中,
Figure FDA0003133432930000013
表示矩阵的拼接操作,L是句子长度,即句子中的中文字符数量,N是句子中含有的词语数量,包括嵌套的词语,
Figure FDA0003133432930000014
Figure FDA0003133432930000015
是两个可学习的参数矩阵;
Transformer编码器由多头自注意力层和前馈网络层组成,每层都使用了残差连接和正则化,多头自注意力机制的头数目为H,输出由H头自注意力的输出拼接而成,多头自注意力的输出计算如下:
Figure FDA0003133432930000021
[Q,K,V]=E[WQ,WK,WV] (4)
Figure FDA0003133432930000022
Figure FDA0003133432930000023
MultiHead(Q,K,V)=[head1;head2;…;headh]WMn (7)
其中,E是句子中字向量与词向量在句子长度方向上的拼接向量,[X,Y]表示矩阵的层叠操作,矩阵Sim由Simi,j组成,WMH为参数矩阵;Q、K、V分别表示注意力机制的查询向量、键向量、值向量,WQ、WK、WV是相应的参数矩阵,矩阵Sim由Simi,j组成,dk表示键向量的维度,Qi表示查询向量的第i个分量,Kj表示键向量的第j个分量;
使用基于片段的相对距离编码字词位置信息,对于句子中的两个字符片段xi和xj,它们之间存在三种位置关系:相离、相交和包含,以上三种位置关系由两个片段的头尾字符位置决定,四种可以用于表示片段相对位置关系的相对距离计算如下:
Figure FDA0003133432930000024
Figure FDA0003133432930000025
Figure FDA0003133432930000026
Figure FDA0003133432930000027
其中,head[i]和tail[i]分别表示片段xi在句子中的头尾位置,
Figure FDA0003133432930000028
表示片段xi的头字符和片段xj的头字符距离,
Figure FDA0003133432930000029
Figure FDA00031334329300000210
表示相同含义;利用上述四种相对距离计算的片段相对位置编码计算如下:
Figure FDA00031334329300000211
Figure FDA00031334329300000212
Figure FDA00031334329300000213
其中,d是位置系数,dmodel是模型的位置向量维度,k是字符位置编码向量的维度索引,Wr表示用于降维的参数矩阵;对多头自注意力机制中的相似度计算进行改进,改进后的相似度计算如下:
Figure FDA0003133432930000031
其中,
Figure FDA0003133432930000032
Figure FDA0003133432930000033
都是可学习的参数向量,使用
Figure FDA0003133432930000034
替代式中的Simi,j以实现在多头自注意力层引入相对位置;词语信息融合模块的输出是融合了预训练词语信息的字向量CHARs,计算如下:
Z=MultiHead(Q,K,V) (16)
Figure FDA0003133432930000035
其中,Z表示多头自注意力层的输出,W1和W2分别是前馈网络层使用的两层激活函数的参数矩阵,第一层是ReLU非线性激活函数,第二层是线性激活函数。
3.根据权利要求1所述的基于神经网络的实体关系联合抽取方法,其特征在于,所述步骤2具体包括如下过程:
使用握手标注策略同时标注实体对和描述实体对的关系;握手标注策略基于片段对句子进行标注,共设置三种握手标注,分别是:实体内头尾字符间握手的红色标注、实体对主体和客体头字符间握手的蓝色标注、实体对主体和客体尾字符间握手的绿色标注;对于上述三种握手标注,使用矩阵
Figure FDA0003133432930000036
存储标注实体内头尾字符间的握手标注,通过TEH-ET的值能够确定句子中实体的起始与结束位置,使用
Figure FDA0003133432930000037
标注文本句中R种实体关系的主实体与客实体的头字符,使用
Figure FDA0003133432930000038
标注文本句中R种实体关系的主实体与客实体的实体尾单词;
当在握手标记出现在下三角区域时,先将握手标记映射到上三角区域并将标记值从“1”改为“2”,以此表示逆序握手标记,再丢弃下三角区域;丢弃下三角区域之后,标注矩阵只留下了上三角区域,再将握手标记矩阵上三角区域展平,展平后的标记序列长度为L×(L+1)/2,当存在R种实体关系时,则句子经过握手标注并展平之后得到(2*R+1)组标记序列;
使用分布式向量替代展平后的TEH-ET矩阵中的标记,并通过反向传播对实体类型向量进行训练;
对于给定为L的句子[w1,w2,…,wL]的字向量序列CHARs,通过字向量之间相互顺序连接,组成长度为L×(L+1)/2的字符对序列,先使用基础编码器将句子字向量降维成低维向量hi,然后得到字符对(wi,wj)的向量表示hi,j,计算如下所示:
Figure FDA0003133432930000039
其中,参数矩阵Wh和偏置向量bh可以通过训练学习;对标注矩阵TSH-OH和TST-OT在展平后的标注序列的计算如下所示,其中,WT表示参数矩阵,bT表示偏置向量,P(yi,j=l)表示将字符对(wi,wj)标记为l的概率:
P(yi,j)=softmax(WThi,j+bT) (19)
Figure FDA0003133432930000041
其中,link(wi,wj)即为握手标注矩阵的关系部分标注;为了在TEH-ET展平后的标注序列中引入命名实体类型向量,使用单层仿射变换,如下所示:
NE=softmax(WEhi,j+bE) (21)
其中,WE表示参数矩阵,bE表示偏置向量,当NE的模长超过阈值γ时,则表示该字符对为命名实体的头尾字符,将该位置使用NE进行标注,相反,则标注为零向量。
4.根据权利要求1所述的基于神经网络的实体关系联合抽取方法,其特征在于,所述步骤3中,损失函数分为两部分,第一部分是关系序列标记损失,如式(22)所示,计算输出的关系标记与真实标记的负对数似然作为关系预测的损失:
Figure FDA0003133432930000042
第二部分是实体序列标记损失,计算输出的实体标记向量与真实标记向量的欧式距离作为实体预测的损失,如式(23)所示:
Figure FDA0003133432930000043
其中,H、T和E分别表示SH-to-OH、ST-to-OT和EH-to-ET标记序列;
损失为两者之和,如式(24)所示;
LossSPO=Lossrel+Lossent (24)。
5.基于神经网络的实体关系联合抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:该计算机程序被加载至处理器时实现权利要求1-4中任意一项所述的基于神经网络的实体关系联合抽取方法。
CN202110712390.5A 2021-06-25 2021-06-25 基于神经网络的实体关系联合抽取方法与装置 Pending CN113468888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110712390.5A CN113468888A (zh) 2021-06-25 2021-06-25 基于神经网络的实体关系联合抽取方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110712390.5A CN113468888A (zh) 2021-06-25 2021-06-25 基于神经网络的实体关系联合抽取方法与装置

Publications (1)

Publication Number Publication Date
CN113468888A true CN113468888A (zh) 2021-10-01

Family

ID=77873013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110712390.5A Pending CN113468888A (zh) 2021-06-25 2021-06-25 基于神经网络的实体关系联合抽取方法与装置

Country Status (1)

Country Link
CN (1) CN113468888A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886529A (zh) * 2021-10-22 2022-01-04 苏州空天信息研究院 一种面向网络安全领域的信息抽取方法及其系统
CN113901825A (zh) * 2021-11-22 2022-01-07 东北大学 一种基于主动深度学习的实体关系联合抽取方法及系统
CN113901827A (zh) * 2021-12-10 2022-01-07 北京邮电大学 实体识别和关系抽取方法、装置、电子设备及存储介质
CN113935486A (zh) * 2021-12-16 2022-01-14 中科雨辰科技有限公司 一种知识图谱的建立方法、计算机设备和存储介质
CN113987090A (zh) * 2021-12-28 2022-01-28 北京泷汇信息技术有限公司 句中实体关系模型训练方法及句中实体关系识别方法
CN114298052A (zh) * 2022-01-04 2022-04-08 中国人民解放军国防科技大学 一种基于概率图的实体联合标注关系抽取方法和系统
CN114880491A (zh) * 2022-07-08 2022-08-09 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统
CN115630171A (zh) * 2022-12-21 2023-01-20 白杨时代(北京)科技有限公司 一种实体关系联合抽取方法及装置
CN116151243A (zh) * 2023-04-23 2023-05-23 昆明理工大学 一种基于类型相关性表征的实体关系抽取方法
WO2023092719A1 (zh) * 2021-11-29 2023-06-01 中国科学院深圳先进技术研究院 病历数据的信息抽取方法、终端设备及可读存储介质
WO2023092985A1 (zh) * 2021-11-26 2023-06-01 永中软件股份有限公司 实体知识自动抽取方法和计算机装置、计算机可读介质
CN116342167A (zh) * 2023-05-22 2023-06-27 中国电子技术标准化研究院 基于序列标注命名实体识别的智能成本度量方法和装置
CN117094592A (zh) * 2023-08-21 2023-11-21 武汉市万睿数字运营有限公司 一种基于多维检测的工单自动验收方法、装置及相关介质

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886529A (zh) * 2021-10-22 2022-01-04 苏州空天信息研究院 一种面向网络安全领域的信息抽取方法及其系统
CN113886529B (zh) * 2021-10-22 2022-12-02 苏州空天信息研究院 一种面向网络安全领域的信息抽取方法及其系统
CN113901825A (zh) * 2021-11-22 2022-01-07 东北大学 一种基于主动深度学习的实体关系联合抽取方法及系统
CN113901825B (zh) * 2021-11-22 2024-05-03 东北大学 一种基于主动深度学习的实体关系联合抽取方法及系统
WO2023092985A1 (zh) * 2021-11-26 2023-06-01 永中软件股份有限公司 实体知识自动抽取方法和计算机装置、计算机可读介质
WO2023092719A1 (zh) * 2021-11-29 2023-06-01 中国科学院深圳先进技术研究院 病历数据的信息抽取方法、终端设备及可读存储介质
CN113901827A (zh) * 2021-12-10 2022-01-07 北京邮电大学 实体识别和关系抽取方法、装置、电子设备及存储介质
CN113901827B (zh) * 2021-12-10 2022-03-18 北京邮电大学 实体识别和关系抽取方法、装置、电子设备及存储介质
CN113935486A (zh) * 2021-12-16 2022-01-14 中科雨辰科技有限公司 一种知识图谱的建立方法、计算机设备和存储介质
CN113935486B (zh) * 2021-12-16 2022-03-04 中科雨辰科技有限公司 一种知识图谱的建立方法、计算机设备和存储介质
CN113987090A (zh) * 2021-12-28 2022-01-28 北京泷汇信息技术有限公司 句中实体关系模型训练方法及句中实体关系识别方法
CN113987090B (zh) * 2021-12-28 2022-03-25 北京泷汇信息技术有限公司 句中实体关系模型训练方法及句中实体关系识别方法
CN114298052A (zh) * 2022-01-04 2022-04-08 中国人民解放军国防科技大学 一种基于概率图的实体联合标注关系抽取方法和系统
CN114880491A (zh) * 2022-07-08 2022-08-09 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统
CN115630171A (zh) * 2022-12-21 2023-01-20 白杨时代(北京)科技有限公司 一种实体关系联合抽取方法及装置
CN116151243A (zh) * 2023-04-23 2023-05-23 昆明理工大学 一种基于类型相关性表征的实体关系抽取方法
CN116342167A (zh) * 2023-05-22 2023-06-27 中国电子技术标准化研究院 基于序列标注命名实体识别的智能成本度量方法和装置
CN116342167B (zh) * 2023-05-22 2023-08-08 中国电子技术标准化研究院 基于序列标注命名实体识别的智能成本度量方法和装置
CN117094592A (zh) * 2023-08-21 2023-11-21 武汉市万睿数字运营有限公司 一种基于多维检测的工单自动验收方法、装置及相关介质

Similar Documents

Publication Publication Date Title
CN113468888A (zh) 基于神经网络的实体关系联合抽取方法与装置
CN108829722B (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN113128229B (zh) 一种中文实体关系联合抽取方法
CN111914091B (zh) 一种基于强化学习的实体和关系联合抽取方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN112749562A (zh) 命名实体识别方法、装置、存储介质及电子设备
CN112446215B (zh) 一种实体关系联合抽取方法
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN115982350A (zh) 基于多模态Transformer的虚假新闻检测方法
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN114661914A (zh) 一种基于深度学习和知识图谱的合同审查方法、装置、设备和存储介质
CN114764566B (zh) 用于航空领域的知识元抽取方法
CN113051904B (zh) 一种面向小规模知识图谱的链接预测方法
CN112069825A (zh) 面向警情笔录数据的实体关系联合抽取方法
Wu et al. One improved model of named entity recognition by combining BERT and BiLSTM-CNN for domain of Chinese railway construction
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN115809666B (zh) 一种融合词典信息和注意力机制的命名实体识别方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN114297408A (zh) 一种基于级联二进制标注框架的关系三元组抽取方法
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN114691895A (zh) 一种基于指针网络的刑事案情实体关系联合抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination