CN114881038B - 基于跨度和注意力机制的中文实体与关系抽取方法及装置 - Google Patents

基于跨度和注意力机制的中文实体与关系抽取方法及装置 Download PDF

Info

Publication number
CN114881038B
CN114881038B CN202210816017.9A CN202210816017A CN114881038B CN 114881038 B CN114881038 B CN 114881038B CN 202210816017 A CN202210816017 A CN 202210816017A CN 114881038 B CN114881038 B CN 114881038B
Authority
CN
China
Prior art keywords
span
feature
feature representation
entity
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210816017.9A
Other languages
English (en)
Other versions
CN114881038A (zh
Inventor
王海涛
刘昭然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210816017.9A priority Critical patent/CN114881038B/zh
Publication of CN114881038A publication Critical patent/CN114881038A/zh
Application granted granted Critical
Publication of CN114881038B publication Critical patent/CN114881038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于跨度和注意力机制的中文实体与关系抽取方法及装置。本发明对中文语句分词后构造跨度集,将跨度集映射为向量空间的词向量集,使用基于跨度的预训练语言模型生成特征表示,使用注意力机制得到融合特征,构造特征向量使用分类器输出跨度的实体类型;在跨度的两侧加入边界信息和跨度类型信息作为先验信息,使用注意力机制得到跨度对的关系表示,通过分类器来输出将跨度对的关系类型。本发明实现了中文语句的实体与关系联合抽取,实体抽取和关系抽取分开建模独立训练,模型灵活度高,逻辑结构清晰,层次分明,节约了人力成本,提升了工作效率,准确率高,实用性强。

Description

基于跨度和注意力机制的中文实体与关系抽取方法及装置
技术领域
本发明属于自然语言处理的信息抽取领域,特别涉及一种基于跨度和注意力机制的中文实体与关系抽取方法。
背景技术
中文实体抽取和关系抽取是中文自然语言处理的关键任务,也是中文知识图谱构建、智能问答的核心关键技术。
近年来,人工智能技术快速发展,特别是深度学习技术取得了巨大突破,从 CNN(卷积神经网络)、RNN(循环神经网络)到LSTM(Long Short-Term Memory,长短期记忆人工神经网络),再到预训练语言模型BERT(Bidirectional Encoder Representation fromTransformers,基于转换器的双向编码表征),引领了自然语言处理、图像处理、计算机视觉等人工智能技术应用的发展浪潮。同时在大数据技术的推动下,移动互联网蓬勃发展,产生了丰富多样的数据要素资产,海量的数据资源进一步地推动了自然语言处理领域的发展,也为自然语言处理领域技术带来了新的问题与挑战。中文是世界上最复杂多样与多意的语言之一,有着复杂的语法规则,海量数据可以有效辅助计算机去识别中文的语法规则。计算机要读懂中文,需要先把语言处理转化成可以识别的表示,实体抽取和关系抽取是其中最基本也是最重要的任务之一。
实体抽取,也叫命名实体识别(Named Entities Recognition,NER),它的核心工作是识别标识出文本中的实体并进行分类,常见的实体包括人名、地名、机构名等等,传统的实体抽取主要基于字典或者统计学来进行实体匹配抽取,随着机器学习和深度学习技术的发展,通过模型预测进行实体标识与抽取分类成为主流,例如CNN-CRF模型、BiLSTM-CRF模型等等。
关系抽取是自然语言处理中另一个重要工作,它需要识别标记出文本中存在的多个实体之间的关系,也就是识别出文本中的关系三元组,即主体(subject)、关系(relation)、客体(relation),关系抽取是知识图谱构建、问答系统的基础。
在知识图谱构建等自然语言处理任务中,实体和实体之间的关系是及其重要和不可或缺的,实体抽取和关系抽取是知识图谱构建等任务的关键与核心。实体抽取和关系抽取从非结构化文档中自动抽取的实体以及实体之间的关系,被广泛应用于金融、医药、法律等领域的中文文本处理任务中。自动化的实体与关系抽取技术避免人工从海量数据中手工提取文本信息,节省了人力成本,显著提高了工作效率和生产力。
目前已知的中文实体抽取和关系抽取技术,存在下列不足:
1)有些实体抽取和关系抽取将实体抽取和关系抽取作为两个任务独立完成,但忽略了实体抽取和关系抽取之间的联系;近年来表现出色的基于变压器(Transformer)模型的实体和关系联合抽取方法部分改进了上述问题,但是实体和关系使用同一个变压器模型,关系抽取过分利用实体抽取的信息,造成了信息冗余和干扰,准确度和灵活性有待提升。
2)现有实体抽取和关系抽取方法对语句中不同词语之间的位置关系信息利用不足,关系抽取准确率有待提升。通常情况下,词语出现的位置以及词语之间的关系对于文本的理解有很大的帮助,实体出现在不同的位置或者不同的先后顺序会对实体的含义以及实体之间的关系识别带来影响。
发明内容
针对现有技术的不足,本发明提出一种基于跨度和注意力机制的中文实体与关系抽取方法及装置。本发明方法基于跨度,利用实体抽取的位置和类型信息作为先验信息,提升了实体对关系抽取的准确率。
本发明的技术构思为:对中文语句分词后构造跨度集,将跨度集映射为向量空间的词向量集,使用基于跨度的预训练语言模型生成特征表示,使用注意力机制得到融合特征,构造特征向量使用分类器输出跨度的实体类型;在跨度的两侧加入边界信息和跨度类型信息作为先验信息,使用注意力机制得到跨度对的关系表示,通过分类器来输出将跨度对的关系类型。
本发明解决其技术问题所采用的技术方案是:
一种基于跨度和注意力机制的中文实体与关系抽取方法,包含以下步骤:
将输入的中文语句分词并转换成跨度集合,所述跨度集合中的每个跨度是由相邻k个分词构成的新短语;
将跨度集合中的每个跨度映射为向量空间的词向量集合,再使用预训练语言模型将词向量集合转换生成第一特征表示集合;
通过多层感知器注意力机制将第一特征表示集合生成第二特征表示,所述第二特征表示是句子级注意力融合特征;
将对应的第一特征表示、第二特征表示及占位符拼接作为每个跨度的特征向量,将特征向量输入预训练的第一分类器输出跨度属于每个实体类型的概率,取最大概率所在类型为跨度类型;
将识别出来的同一句子中任意两个具有实体类型的跨度的前后加上跨度的实体类型形成带边界信息和类型信息的跨度;
将两个带边界信息和类型信息的跨度映射为向量空间的词向量,再使用预训练语言模型将词向量集转换生成第三特征表示;
通过多层感知器注意力机制将第三特征表示生成第四特征表示,所述第四特征表示是句子级注意力融合特征;
将两个跨度的第三特征表示、第四特征表示拼接作为关系分类特征c,将关系分类特征c输入预训练的第二分类器输出两个跨度的关系。
进一步地,所述预训练语言模型为SpanBERT、BERT中的一种。
进一步地,所述第二特征表示如下:
Figure 616848DEST_PATH_IMAGE001
Figure 2830DEST_PATH_IMAGE002
Figure 251409DEST_PATH_IMAGE003
其中MLP代表全连接神经网络,u j 为经过全连接神经网络后的特征表示,𝛼 j 代表由Softmax公式计算得到的注意力权重,v s 为第二特征表示,h j 是第j个跨度对应的第一特征表示。
进一步地,所述将对应的第一特征表示、第二特征表示及占位符拼接作为每个跨度的特征向量r i ,具体表示如下:
Figure 115460DEST_PATH_IMAGE004
h i 是第i个跨度对应的第一特征表示, h 0是[CLS]经过前述预训练语言模型转换后的特征表示,v s 为第二特征表示。
进一步地,所述将两个跨度的第三特征表示、第四特征表示拼接作为关系分类特征c具体为:
Figure 631629DEST_PATH_IMAGE005
v’ s 为第四特征表示,h sbj h obj 是两个跨度的第三特征表示。
一种基于跨度和注意力机制的中文实体与关系抽取装置,包括:
中文实体类型识别模块:用于将输入的中文语句分词并转换成跨度集合,所述跨度集合中的每个跨度是由相邻k个分词构成的新短语;
将跨度集合中的每个跨度映射为向量空间的词向量集,再使用预训练语言模型将词向量集转换生成第一特征表示集合;
通过多层感知器注意力机制将第一特征表示集合生成第二特征表示集合,所述第二特征表示是句子级注意力融合特征;
将对应的第一特征表示、第二特征表示及占位符拼接作为每个跨度的特征向量,将特征向量输入预训练的第一分类器输出跨度属于每个实体类型的概率,取最大概率所在类型为跨度类型;
中文实体关系识别模块:用于将识别出来的同一句子中任意两个具有实体类型的跨度的前后加上跨度的实体类型形成带边界信息和类型信息的跨度;
将两个带边界信息和类型信息的跨度映射为向量空间的词向量,再使用预训练语言模型将词向量集转换生成第三特征表示;
通过多层感知器注意力机制将第三特征表示生成第四特征表示,所述第四特征表示是句子级注意力融合特征;
将两个跨度的第三特征表示、第四特征表示拼接作为关系分类特征c,将关系分类特征c输入预训练的第二分类器输出两个跨度的关系。
进一步地,所述预训练语言模型为SpanBERT、BERT中的一种。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于跨度和注意力机制的中文实体与关系抽取方法。
一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如上述的基于跨度和注意力机制的中文实体与关系抽取方法。
本发明的有益效果主要表现在:1、实现了基于跨度的自动化中文实体与关系抽取,避免人工从海量数据中手工提取文本信息,实用性强,应用价值高; 2、充分利用了关系和位置等上下文信息,提高了抽取的准确性,满足应用场景中对于实体和关系抽取准确率高的需求;3、实体抽取和关系抽取独立训练,模型灵活性高。
附图说明
图1是本发明基于跨度和注意力机制的中文实体与关系抽取方法流程示意图。
图2是本发明基于跨度和注意力机制的中文实体与关系抽取装置结构示意图。
图3是本发明基于跨度和注意力机制的中文实体与关系抽取电子设备结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。
在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本发明提出一种基于跨度和注意力机制的中文实体与关系抽取方法,图1为本发明所提出的一示例性中文实体与关系实体抽取流程图,具体包括以下实施步骤:
(1)将输入的中文语句分词并转换成跨度集合,所述跨度集合中的每个跨度是由相邻k个分词构成的新短语,具体如下:
从中文语句库中取出一个语句,将其进行分词,得到以词为单位进行表示的中文语句:
Figure 922933DEST_PATH_IMAGE006
其中,t q 代表第q个分好的词;
定义跨度(span)是由相邻k个分词构成的新短语s:
Figure 658808DEST_PATH_IMAGE007
,其中k<=8,
其中,t m 表示T中的第m个词;
构造由跨度s构成的跨度集合S
Figure 326550DEST_PATH_IMAGE008
其中,n表示跨度s的数量。
S前插入一个[CLS]占位符,作为
Figure 464270DEST_PATH_IMAGE009
,插入后跨度集合变为S’:
Figure 926476DEST_PATH_IMAGE010
(2)将跨度集合中的每个跨度映射为向量空间的词向量集合,再使用预训练语言模型将词向量集合转换生成第一特征表示集合,具体如下:
使用Embedding映射方法将跨度集合S’映射为高维词向量集合E:
Figure 149647DEST_PATH_IMAGE011
所述高维词向量集合
Figure 355500DEST_PATH_IMAGE012
,其中e代表中文语句中跨度s对应的词向 量;
将词向量集合E送入预训练的语言模型,经过后的特征表示集合为:
Figure 144464DEST_PATH_IMAGE013
h i 是第i个跨度对应的高维词向量。
所述预训练的语言模型可以采用SpanBERT、BERT等常规的语言类型识别模型,本实施例中,预训练的语言模型是基于跨度进行训练的语言模型SpanBERT。
从特征表示集合H中去除h 0,得到用于实体分类的第一特征表示集合为:
Figure 747877DEST_PATH_IMAGE014
即第一特征表示集合H’为特征表示集合H去除h 0后的特征表示集合。
(3)通过多层感知器注意力机制将第一特征表示集合生成第二特征表示v s ,所述第二特征表示是句子级注意力融合特征,具体如下:
通过多层感知器注意力机制,使用如下计算过程获得句子级注意力融合特征:
Figure 255082DEST_PATH_IMAGE015
Figure 999047DEST_PATH_IMAGE016
Figure 111360DEST_PATH_IMAGE003
其中MLP代表全连接神经网络,u j 为经过全连接神经网络后的特征表示,𝛼 j 代表由Softmax公式计算得到的注意力权重,v s 为通过多层感知器注意力机制得到的特征向量。
(4)将对应的第一特征表示、第二特征表示及占位符拼接作为每个跨度的特征向量,将特征向量输入预训练的第一分类器输出跨度属于每个实体类型的概率,取最大概率所在类型为跨度类型,具体如下:
对于每个跨度s i ,将[CLS]经过前述预训练语言模型转换后的特征表示h 0、通过多层感知器得到的特征向量v s ,以及s i 通过前述预训练语言模型转换的第一特征表示h i 拼接成特征向量r i :
Figure 915368DEST_PATH_IMAGE017
对每一个特征向量r i ,将其送入预训练的第一分类器中得到每个跨度s i 的实体分类结果:
Figure 847552DEST_PATH_IMAGE018
其中W r 代表可训练的第一分类器权重,P(s i )表示对跨度s i 的分类结果。
所述第一分类器采用Softmax,是通过将特征向量r i 作为输入,预测的跨度s i 的分类结果作为输出,跨度s i 的实际分类结果为标签,以最小化输出与标签的误差为目标训练获得。
进一步地,结合前述的跨度分类结果作为先验信息进行关系抽取:
(5)将识别出来的同一句子中任意两个具有实体类型的跨度的前后加上跨度对应的实体类型形成带边界信息和类型信息的跨度s sbj s obj ,具体增加的流程如下:
对于第一个跨度实体,其实体类型为R_type1,在该跨度的起始增加<S:R_type1>前缀,结尾增加</S:R_type1>后缀,形成新的跨度s sbj ;对于第二个跨度实体,其实体类型为R_type2,则在该跨度的起始增加<O:R_type2>前缀,结尾增加</O:R_type2>后缀,形成新的跨度s obj
(6)将两个带边界信息和类型信息的跨度s sbj s obj 映射为向量空间的词向量,再使用预训练语言模型将词向量集转换生成第三特征表示h sbj h obj
(7)通过多层感知器注意力机制将第三特征表示生成第四特征表示,所述第四特征表示是句子级注意力融合特征;
(8)则跨度s sbj s obj 的关系分类特征c是由这两个候选跨度实体的第三特征表示以及通过多层感知器注意力机制得到的特征向量拼接而成,即:
Figure 395208DEST_PATH_IMAGE005
其中c为关系分类特征,v’ s 为通过多层感知器注意力机制得到的特征向量,即第四特征表示,具体如下:
Figure 362027DEST_PATH_IMAGE019
Figure 101050DEST_PATH_IMAGE020
Figure 520530DEST_PATH_IMAGE021
其中MLP代表全连接神经网络,u’ j 为经过全连接神经网络后的特征表示,𝛼’ j 代表由Softmax公式计算得到的注意力权重,v’ s 为通过多层感知器注意力机制得到的特征向量,即第四特征表示。
最后使用第二分类器作为关系分类器,得出关于实体对跨度s sbj s obj 的关系分类结果:
Figure 668615DEST_PATH_IMAGE022
其中W c 代表可训练的第二分类器权重,P(s sbj , s obj )代表实体跨度对s sbj s obj 关系分类结果。
所述第二分类器采用Softmax,是通过将关系分类特征c作为输入,预测的关系分类结果作为输出,跨度s sbj s obj 的实际关系分类结果为标签,以最小化输出与标签的误差为目标训练获得。
进一步地,第一分类器、第二分类器可以分别训练或者联合训练,为提高分类的准确度,本实施例中第一分类器、第二分类器具体采用如下方法进行训练:
训练时增加关系负样本的采样比例,即选择被实体分类器即第一分类器判断为具体的实体类型,但相互之间又不存在关系的实体作为负样本。假设跨度s c s d 都被判断为是实体,但是它们在数据集中并未被标注为关系,则将(s c , s d )构建为关系负样本来训练关系分类器即第二分类器。
使用双向Kullback-Leibler (KL) 散度正则化随机丢弃来优化模型。在分类器神经网络中使用随机丢弃策略,随机舍弃一部分神经元的结果来防止模型过拟合,同时使用双向Kullback-Leibler (KL) 散度损失来优化模型。具体来说,将同一个句子经过模型两次,然后通过如下公式计算两次结果之间的双向KL散度:
Figure 693203DEST_PATH_IMAGE023
Figure 901330DEST_PATH_IMAGE024
其中DKL代表计算KL散度,P1代表第一次输出结果,P2代表第二次输出结果,
Figure 808106DEST_PATH_IMAGE025
表 示第一分类器的双向KL散度损失,
Figure 697565DEST_PATH_IMAGE026
代表第二分类器的双向KL散度损失。
计算模型的交叉熵损失,计算公式如下:
Figure 373397DEST_PATH_IMAGE027
Figure 955688DEST_PATH_IMAGE028
其中
Figure 851225DEST_PATH_IMAGE029
代表实体分类器的交叉熵损失,
Figure 544374DEST_PATH_IMAGE030
代表关系分类器的交叉熵损失。最后, 模型通过计算上述四种损失之和来得到模型对于一个输入句子的最终损失:
Figure 74713DEST_PATH_IMAGE031
其中β是一个可变的超参数,可用来权衡交叉熵损失和双向KL散度损失的比例。
Figure 624643DEST_PATH_IMAGE032
为模型的总损失,模型在训练过程中的目标就是最小化总损失。
与前述基于跨度和注意力机制的中文实体与关系抽取方法的实施例相对应,本发明还提供了基于跨度和注意力机制的中文实体与关系抽取装置的实施例。图2所示为本发明一示例性基于跨度和注意力机制的中文实体与关系抽取装置示意图,包括:
中文实体类型识别模块:用于从中文文本库中取出中文语句,对语句进行分词预处理,将分词后的语句转换成跨度集合,将跨度集合的中文映射为向量空间的词向量集合,在词向量集合前插入一个[CLS]占位符,使用预训练语言模型生成第一特征表示集合,通过多层感知器注意力机制生成句子级注意力融合特征,使用第一分类器来输出跨度属于每个实体类型的概率,取最大概率所在类型为对应的跨度类型。
中文实体关系识别模块:用于将识别出来同一句子前后两个具有实体类型的跨度形成跨度对,在每个跨度的前后加上跨度对应的实体类型,形成带边界信息和类型信息的跨度对,拼接跨度对的第三特征表示和通过多层感知器注意力机制得到的特征向量形成关系分类特征,使用第二分类器来输出将每个跨度对属于每个关系类型的概率,取最大概率所在关系类型为该跨度对的关系类型,得到跨度对的中文关系抽取结果。
参见图3,本发明实施例还提供的一种电子设备,包括一个或多个处理器,用于实现上述实施例中的基于跨度和注意力机制的中文实体与关系抽取方法。
本发明电子设备的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。
装置实施例可以通过软件实现,也以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的从硬件层面而言,如图3 所示,为本发明基于跨度和注意力机制的中文实体与关系抽取装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于跨度和注意力机制的中文实体与关系抽取方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡( Smart Media Card,SMC ) 、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。

Claims (8)

1.一种基于跨度和注意力机制的中文实体与关系抽取方法,其特征在于,包含以下步骤:
将输入的中文语句分词并转换成跨度集合,所述跨度集合中的每个跨度是由相邻k个分词构成的新短语;
将跨度集合中的每个跨度映射为向量空间的词向量集合,再使用预训练语言模型将词向量集合转换生成第一特征表示集合;
通过多层感知器注意力机制将第一特征表示集合生成第二特征表示,所述第二特征表示是句子级注意力融合特征,表示如下:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
其中MLP代表全连接神经网络,u j 为经过全连接神经网络后的特征表示,𝛼 j 代表由Softmax公式计算得到的注意力权重,v s 为第二特征表示,h j 是第j个跨度对应的第一特征表示;
将对应的第一特征表示、第二特征表示及占位符拼接作为每个跨度的特征向量,将特征向量输入预训练的第一分类器输出跨度属于每个实体类型的概率,取最大概率所在类型为跨度类型;
将识别出来的同一句子中任意两个具有实体类型的跨度的前后加上跨度的实体类型形成带边界信息和类型信息的跨度;
将两个带边界信息和类型信息的跨度映射为向量空间的词向量,再使用预训练语言模型将词向量集转换生成第三特征表示;
通过多层感知器注意力机制将第三特征表示生成第四特征表示,所述第四特征表示是句子级注意力融合特征;
将两个跨度的第三特征表示、第四特征表示拼接作为关系分类特征c,将关系分类特征c输入预训练的第二分类器输出两个跨度的关系。
2.根据权利要求1所述的方法,其特征在于,所述预训练语言模型为SpanBERT、BERT中的一种。
3.根据权利要求1所述的方法,其特征在于,所述将对应的第一特征表示、第二特征表示及占位符拼接作为每个跨度的特征向量r i ,具体表示如下:
Figure DEST_PATH_IMAGE004
h i 是第i个跨度对应的第一特征表示, h 0 是[CLS]经过前述预训练语言模型转换后的特征表示,v s 为第二特征表示。
4.根据权利要求1所述的方法,其特征在于,所述将两个跨度的第三特征表示、第四特征表示拼接作为关系分类特征c具体为:
Figure DEST_PATH_IMAGE005
v’ s 为第四特征表示,h sbj h obj 是两个跨度的第三特征表示。
5.一种基于跨度和注意力机制的中文实体与关系抽取装置,其特征在于,包括:
中文实体类型识别模块:用于将输入的中文语句分词并转换成跨度集合,所述跨度集合中的每个跨度是由相邻k个分词构成的新短语;
将跨度集合中的每个跨度映射为向量空间的词向量集,再使用预训练语言模型将词向量集转换生成第一特征表示集合;
通过多层感知器注意力机制将第一特征表示集合生成第二特征表示集合,所述第二特征表示是句子级注意力融合特征,表示如下:
Figure 207623DEST_PATH_IMAGE001
Figure 531288DEST_PATH_IMAGE002
Figure 638921DEST_PATH_IMAGE003
其中MLP代表全连接神经网络,u j 为经过全连接神经网络后的特征表示,𝛼 j 代表由Softmax公式计算得到的注意力权重,v s 为第二特征表示,h j 是第j个跨度对应的第一特征表示;
将对应的第一特征表示、第二特征表示及占位符拼接作为每个跨度的特征向量,将特征向量输入预训练的第一分类器输出跨度属于每个实体类型的概率,取最大概率所在类型为跨度类型;
中文实体关系识别模块:用于将识别出来的同一句子中任意两个具有实体类型的跨度的前后加上跨度的实体类型形成带边界信息和类型信息的跨度;
将两个带边界信息和类型信息的跨度映射为向量空间的词向量,再使用预训练语言模型将词向量集转换生成第三特征表示;
通过多层感知器注意力机制将第三特征表示生成第四特征表示,所述第四特征表示是句子级注意力融合特征;
将两个跨度的第三特征表示、第四特征表示拼接作为关系分类特征c,将关系分类特征c输入预训练的第二分类器输出两个跨度的关系。
6.根据权利要求5所述的装置,其特征在于,所述预训练语言模型为SpanBERT、BERT中的一种。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的基于跨度和注意力机制的中文实体与关系抽取方法。
8.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-4任一项所述的基于跨度和注意力机制的中文实体与关系抽取方法。
CN202210816017.9A 2022-07-12 2022-07-12 基于跨度和注意力机制的中文实体与关系抽取方法及装置 Active CN114881038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210816017.9A CN114881038B (zh) 2022-07-12 2022-07-12 基于跨度和注意力机制的中文实体与关系抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210816017.9A CN114881038B (zh) 2022-07-12 2022-07-12 基于跨度和注意力机制的中文实体与关系抽取方法及装置

Publications (2)

Publication Number Publication Date
CN114881038A CN114881038A (zh) 2022-08-09
CN114881038B true CN114881038B (zh) 2022-11-11

Family

ID=82682760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210816017.9A Active CN114881038B (zh) 2022-07-12 2022-07-12 基于跨度和注意力机制的中文实体与关系抽取方法及装置

Country Status (1)

Country Link
CN (1) CN114881038B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115169351B (zh) * 2022-09-05 2023-05-09 白杨时代(北京)科技有限公司 一种安全威胁信息分层提取的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222338A (zh) * 2020-01-08 2020-06-02 大连理工大学 基于预训练模型和自注意力机制的生物医学关系抽取方法
CN111783466A (zh) * 2020-07-15 2020-10-16 电子科技大学 一种面向中文病历的命名实体识别方法
CN112800774A (zh) * 2021-01-15 2021-05-14 华南理工大学 基于注意力机制的实体关系抽取方法、装置、介质和设备
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113626537A (zh) * 2021-07-06 2021-11-09 南京邮电大学 一种面向知识图谱构建的实体关系抽取方法及系统
CN113962224A (zh) * 2021-10-09 2022-01-21 广州华多网络科技有限公司 命名实体识别方法及其装置、设备、介质、产品
CN114528368A (zh) * 2021-11-12 2022-05-24 南京师范大学 基于预训练语言模型与文本特征融合的空间关系抽取方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544259B2 (en) * 2018-11-29 2023-01-03 Koninklijke Philips N.V. CRF-based span prediction for fine machine learning comprehension
CN109754012A (zh) * 2018-12-29 2019-05-14 新华三大数据技术有限公司 实体语义关系分类方法、模型训练方法、装置及电子设备
US11790171B2 (en) * 2019-04-16 2023-10-17 Covera Health Computer-implemented natural language understanding of medical reports
US11556712B2 (en) * 2019-10-08 2023-01-17 International Business Machines Corporation Span selection training for natural language processing
CN112214610B (zh) * 2020-09-25 2023-09-08 中国人民解放军国防科技大学 一种基于跨度和知识增强的实体关系联合抽取方法
CN113591483A (zh) * 2021-04-27 2021-11-02 重庆邮电大学 一种基于序列标注的文档级事件论元抽取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222338A (zh) * 2020-01-08 2020-06-02 大连理工大学 基于预训练模型和自注意力机制的生物医学关系抽取方法
CN111783466A (zh) * 2020-07-15 2020-10-16 电子科技大学 一种面向中文病历的命名实体识别方法
CN112800774A (zh) * 2021-01-15 2021-05-14 华南理工大学 基于注意力机制的实体关系抽取方法、装置、介质和设备
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113626537A (zh) * 2021-07-06 2021-11-09 南京邮电大学 一种面向知识图谱构建的实体关系抽取方法及系统
CN113962224A (zh) * 2021-10-09 2022-01-21 广州华多网络科技有限公司 命名实体识别方法及其装置、设备、介质、产品
CN114528368A (zh) * 2021-11-12 2022-05-24 南京师范大学 基于预训练语言模型与文本特征融合的空间关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
采用融合规则与 BERT-FLAT模型对营养健康领域命名实体识别;郑丽敏 等;《农业工程学报》;20211031;第37卷(第20期);第1章 *

Also Published As

Publication number Publication date
CN114881038A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN110334219B (zh) 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN108804530B (zh) 对图像的区域加字幕
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
Fathi et al. Deep neural networks for natural language processing
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN112231447B (zh) 一种中文文档事件抽取的方法和系统
CN109657226B (zh) 多联结注意力的阅读理解模型、系统及方法
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
Li et al. Combining local and global features into a Siamese network for sentence similarity
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN114492459A (zh) 基于知识图谱与交互图卷积的评论情感分析方法及系统
CN113901813A (zh) 一种基于主题特征和隐式句子结构的事件抽取方法
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及系统
Ly et al. An end-to-end local attention based model for table recognition
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
CN114510569A (zh) 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant