CN114880466A - 一种融入全文信息的嵌套实体识别方法、设备及存储介质 - Google Patents
一种融入全文信息的嵌套实体识别方法、设备及存储介质 Download PDFInfo
- Publication number
- CN114880466A CN114880466A CN202210398804.6A CN202210398804A CN114880466A CN 114880466 A CN114880466 A CN 114880466A CN 202210398804 A CN202210398804 A CN 202210398804A CN 114880466 A CN114880466 A CN 114880466A
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- candidate
- head
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融入全文信息的嵌套实体识别方法、设备及存储介质,方法的步骤:使用预训练语言模型编码待识别文本,得到HL和HL‑1;分类识别文本中所有字是否为实体的首尾边界;将所有识别得到的首尾边界一一配对得到多个候选实体;将候选实体在HL‑1中对应位置的首尾字向量拼接映射作为候选实体向量,将各个候选实体向量视为查询向量,HL‑1视为关键字向量序列和值向量序列,将基于相对位置的注意力机制和残差连接得到融合全文信息的候选实体向量;以融合全文信息的候选实体向量为特征判断候选实体类型。本发明的方法,步序简单且设计合理,计算复杂度低,且适用于任何形式的实体嵌套。
Description
技术领域
本发明涉及机器学习与自然语言处理的信息抽取技术领域,涉及一种融入全文信息的嵌套实体识别方法、设备及存储介质。
背景技术
实体识别的任务是从给出的非结构化文本中自动识别出命名实体并对其进行分类。实体类型中较为普遍的有地名、人名等,但并没有一个特定的定义,随着具体任务的不同有着不同的定义。如今,互联网高度发达,每一分每一秒都在产生海量的非结构化文本,若是能够从其中准确的识别出有意义的实体,必然能够有效的提高其他相关的自然语言处理任务的效果,比如信息搜索、查询理解、关系抽取、智能问答等。随着实体识别技术的广泛应用,以往被忽略的嵌套实体问题也逐渐的被研究人员所关注。在一些领域的非结构化文本中,嵌套实体的现象普遍存在,而传统的实体识别研究没有对嵌套实体做出针对性的设计,导致实体识别的准确率下降。
传统实体识别一般使用序列标注方法,对每个字分类并解析出实体,但是对于此类嵌套实体每个字可能会属于多个实体,因此传统的序列标注方法并不能应对嵌套实体的情况。这问题也直接影响着诸如推荐、搜索等应用的效果。因此,如何高效地标记解码出文本中的嵌套实体将会是嵌套实体识别方法的研究重点。
发明内容
由于现有技术存在上述缺陷,本发明提供了一种融入全文信息的二阶段嵌套实体识别方法,克服了现有技术序列标注方法并不能适用于嵌套实体的缺陷。
为了实现上述目的,本发明提供以下技术方案:
一种融入全文信息的嵌套实体识别方法,包括以下步骤:
1)使用预训练语言模型编码待识别文本,得到所述模型的顶层输出向量序列HL和次顶层输出向量序列HL-1;
2)分类识别文本中所有字是否为实体的首尾边界;
3)将所有识别得到的首尾边界一一配对得到多个候选实体;
4)将候选实体在HL-1中对应位置的首尾字向量拼接映射作为候选实体向量,将各个候选实体向量视为查询向量,HL-1视为关键字向量序列和值向量序列,将基于相对位置的注意力机制得到各个候选实体的全文信息向量,并通过残差连接得到融合全文信息的候选实体向量;
5)以融合全文信息的候选实体向量为特征判断候选实体类型。
本发明的融入全文信息的嵌套实体识别方法,步序简单且设计合理,计算复杂度低,通过二阶段的方式避免遍历所有的实体可能;本方法适用于任何形式的实体嵌套,且对在非嵌套实体识别仍然有较好的效果,适用性好,极具应用前景。
作为优选的技术方案:
如上所述的一种融入全文信息的嵌套实体识别方法,所述预训练语言模型为BERT模型,此处仅给出了一种可行的技术方案,其他预训练语言模型也可适用;
所述步骤2)具体为:
将HL中每个字对应的向量分别做两次二分类预测,判断是否为实体首字符以及是否是实体尾字符。
如上所述的一种融入全文信息的嵌套实体识别方法,所述步骤3)具体为:
根据步骤2)得到的首尾边界判断结果,将所有识别出的首边界与其后面包括当前位置的尾边界配对,得到候选实体。
如上所述的一种融入全文信息的嵌套实体识别方法,所述候选实体向量的生成过程具体为:
取候选实体首尾位置在HL-1向量序列上对应的向量拼接并作线性变换作为候选实体的向量表示:
如上所述的一种融入全文信息的嵌套实体识别方法,所述基于相对位置的注意力机制中相对位置嵌入的计算公式如下:
在该基于相对位置的注意力机制方法中,每个词或者字都将会有首尾位置索引,任意候选实体与原文中字的相对位置可以通过以下四个公式精确的描述:
其中xa、xb表示任意候选实体,start和end分别表示取实体的首尾位置,表示两个词首位的相对距离,等也是如此,因为以xb为原文中词,原文中词的首尾位置是一样的,所以和相等,和相等,所以可以仅取和刻画候选实体xa与原文中词xb的相对位置,接着通过索引通过位置嵌入并拼接映射后得到相对位置的向量表示:
其中,Rab表示候选实体xa和原文中词xb的相对位置的向量表示,WR为可学习参数,P为相对位置嵌入,d为相对位置,P的生成规则与Transformer原文中使用的一致,奇偶交错的使用sin和cos生成固定的位置嵌入,dim为位置嵌入的维度。
如上所述的一种融入全文信息的嵌套实体识别方法,所述基于相对位置的注意力机制中的注意力的计算公式如下:
其中,A为注意力分数矩阵,Aab表示候选实体xa在原文第b个词xb的注意力分数,和分别表示候选实体xa和原文第b个词xb的向量表示,Wq、Wk,E、Wk,R、u和v为可学习参数,再结合Transformer中的多头注意力机制,那么本章的相对位置注意力计算可以描述为:
headc=Attnc(Q,HL-1)
MultiHead(Q,HL-1)=concat(head1,head2,…,headh)WMH
其中headc为第c头的输出,Q为候选实体集合对应的实体向量序列,WMH为可学习参数,h为总头数,z为缩放常数。
如上所述的一种融入全文信息的嵌套实体识别方法,所述通过残差连接得到融合全文信息的候选实体向量的计算公式如下:
score=softmax(concat(MultiHead(Q,HL-1),Q)WO)
其中score为实体类型的归一化分数,WO为可训练参数,argmax函数取类型分数最大的索引。
如上所述的一种融入全文信息的嵌套实体识别方法,所述以融合全文信息的候选实体向量为特征判断候选实体类型是指将最大分数对应的类型视为各个候选实体的类型,其中设置特殊类型NONE表示该候选实体为不合理实体。
本发明还提供了一种计算机设备,所述计算机设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的融入全文信息的嵌套实体识别方法。
此外,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的融入全文信息的嵌套实体识别方法。
以上技术方案仅为本发明的一种可行的技术方案而已,本发明的保护范围并不仅限于此,本领域技术人员可根据实际需求合理调整具体设计。
上述发明具有如下优点或者有益效果:
(1)本发明的融入全文信息的嵌套实体识别方法,步序简单且设计合理,计算复杂度低,通过二阶段的方式避免遍历所有的实体可能;
(2)本发明的融入全文信息的嵌套实体识别方法,适用于任何形式的实体嵌套,且对在非嵌套实体识别仍然有较好的效果,适用性好,极具应用前景。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未按照比例绘制附图,重点在于示出本发明的主旨。
图1是本发明的融入全文信息的嵌套实体识别方法的整体流程图;
图2是候选实体边界配对示意图;
图3是本发明的计算机设备的结构示意图;
其中,1-计算机设备,11-处理器,12-存储器。
具体实施方式
下面结合附图和具体的实施例对本发明中的结构作进一步的说明,但是不作为本发明的限定。
实施例1
一种融入全文信息的嵌套实体识别方法,步序如图1所示,具体包含以下步骤:
S1:使用预训练语言模型编码待识别文本得到文本向量序列HL和HL-1;
S2:分类识别文本中所有字是否为实体的首尾边界;
S3:将所有识别得到的首尾边界一一配对得到多个候选实体;
S4:输入各候选实体位置和文本向量序列HL-1,通过基于相对位置的注意力机制计算和残差连接得到融合全文信息的候选实体向量;
S5:以融合全文信息的候选实体向量为特征判断候选实体类型,其中设置特殊类型NONE表示该候选实体为不合理实体。
步骤S1具体为:
将待识别文本通过预定义的词表转换为token序列,将token序列输入预训练语言模型(如BERT),现今预训练语言模型由多层网络堆叠而成,取预训练语言模型的顶层输出HL和次顶层HL-1为待识别文本的向量序列。
步骤S2具体为:
将向量序列HL输入到线性分类层,并利用sigmoid函数将开始边界和结束边界的分数归一化到0到1,将所有大于设定阈值的输出设置为1:
Bs=ε(sigmoid(HLWS+bS)-t)
Be=ε(sigmoid(HLWE+bE)-t)
其中Bs和Be表示开始边界和结束边界标记结果,ε为开关函数,输入大于零输出1,否则输出0,HL为BERT模型的最顶层输出向量序列,WS、WE、bS和bE为判断开始边界和结束边界的可学习参数,t为设定的阈值。
步骤S3具体为:
将开始边界标记结果Bs中所有输出为1对应的字视为实体的开始边界,将结束边界标记结果Be中所有输出为1对应的字视为实体的结束边界,将开始边界与当前位置和所有其后位置的结束边界配对得到所有可能的候选实体,如图2所示。
步骤S4具体为:
将候选实体在HL-1中对应位置的首尾字向量拼接映射作为候选实体向量,将各个候选实体向量视为查询向量,文本向量序列HL-1视为关键字向量序列和值向量序列,将基于相对位置的注意力机制得到各个候选实体的全文信息向量,并通过残差连接得到融合全文信息的候选实体向量。
首先生成候选实体向量,取候选实体首尾位置在HL-1向量序列上对应的向量拼接并作线性变换作为候选实体的向量表示:
然后,计算候选实体与原文中各个字的相对位置嵌入,在该基于相对位置的注意力机制方法中,每个词或者字都将会有首尾位置索引,任意候选实体与原文中字的相对位置可以通过以下四个公式精确的描述:
其中xa、xb表示任意候选实体,start和end分别表示取实体的首尾位置,表示两个词首位的相对距离,等也是如此,因为以xb为原文中词,原文中词的首尾位置是一样的,所以和相等,和相等,所以可以仅取和刻画候选实体xa与原文中词xb的相对位置,接着通过索引通过位置嵌入并拼接映射后得到相对位置的向量表示:
其中,Rab表示候选实体xa和原文中词xb的相对位置的向量表示,WR为可学习参数,P为相对位置嵌入,d为相对位置,P的生成规则与Transformer原文中使用的一致,奇偶交错的使用sin和cos生成固定的位置嵌入,dim为位置嵌入的维度。
接着进行基于相对位置的注意力计算,基于相对位置的注意力机制中的注意力计算,具体为:
其中,A为注意力分数矩阵,Aab表示候选实体xa在原文第b个词xb的注意力分数,和分别表示候选实体xa和原文第b个词xb的向量表示,Wq、Wk,E、Wk,R、u和v为可学习参数,再结合Transformer中的多头注意力机制,那么本章的相对位置注意力计算可以描述为:
headc=Attnc(Q,HL-1)
MultiHead(Q,HL-1)=concat(head1,head2,…,headh)WMH
其中headc为第c头的输出,Q为候选实体集合对应的实体向量序列,WMH为可学习参数,h为总头数,z为缩放常数。
最后将基于相对位置的注意力计算得到的向量视为全文信息向量与原候选实体向量拼接并作映射得到融合了全文信息的候选实体向量,通过softmax得到实体类型的归一化分数:
score=softmax(concat(MultiHead(Q,HL-1),Q)WO)
其中,score为实体类型的归一化分数,WO为可训练参数,argmax函数取类型分数最大的索引步骤。
S5具体为:
解析每个候选实体的类型,每一个候选实体对应的归一化分数score中,都会有一个最大的值,将该值对应的索引视为该候选实体的类型,而每一个索引值都被定义为一种实体类型,其中对非有效实体的类型定义为NONE,最后的识别结果中排除分类为NONE的候选实体。
至此,融合全文信息的嵌套实体识别方法已经完成。
本发明实施例提供的融合全文信息的嵌套实体识别方法抛弃了传统的序列标注的方法,使用边界识别结合类型判断的二阶段式实体识别方法,此方法在理论上可以标记出任何嵌套实体形式。
实施例2
一种计算机设备,计算机设备1如图3所示,包括:至少一个处理器11;以及与至少一个处理器11通信连接的存储器12;其中,存储器存储有计算机可读指令,处理器执行计算机可读指令时实现如实施例1所述的融入全文信息的嵌套实体识别方法。
实施例3
一种计算机可读存储介质,计算机可读存储介质上存储计算机可读指令,计算机可读指令被处理器执行时实现如实施例1所述的融入全文信息的嵌套实体识别方法。
本领域技术人员应该理解,本领域技术人员在结合现有技术以及上述实施例可以实现变化例,在此不做赘述。这样的变化例并不影响本发明的实质内容,在此不予赘述。
以上对本发明的较佳实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.一种融入全文信息的嵌套实体识别方法,其特征在于,包括以下步骤:
1)使用预训练语言模型编码待识别文本,得到所述模型的顶层输出向量序列HL和次顶层输出向量序列HL-1;
2)分类识别文本中所有字是否为实体的首尾边界;
3)将所有识别得到的首尾边界一一配对得到多个候选实体;
4)将候选实体在HL-1中对应位置的首尾字向量拼接映射作为候选实体向量,将各个候选实体向量视为查询向量,HL-1视为关键字向量序列和值向量序列,将基于相对位置的注意力机制得到各个候选实体的全文信息向量,并通过残差连接得到融合全文信息的候选实体向量;
5)以融合全文信息的候选实体向量为特征判断候选实体类型。
2.根据权利要求1所述的一种融入全文信息的嵌套实体识别方法,其特征在于,所述预训练语言模型为BERT模型;
所述步骤2)具体为:
将HL中每个字对应的向量分别做两次二分类预测,判断是否为实体首字符以及是否是实体尾字符。
3.根据权利要求1所述的一种融入全文信息的嵌套实体识别方法,其特征在于,所述步骤3)具体为:
根据步骤2)得到的首尾边界判断结果,将所有识别出的首边界与其后面包括当前位置的尾边界配对,得到候选实体。
6.根据权利要求5所述的一种融入全文信息的嵌套实体识别方法,其特征在于,所述基于相对位置的注意力机制中的注意力的计算公式如下:
再结合Transformer中的多头注意力机制,相对位置注意力计算可以描述为:
headc==Attnc(Q,HL-1)
MultiHead(Q,HL-1)=concat(head1,head2,…,headh)WMH
其中headc为第c头的输出,Q为候选实体集合对应的实体向量序列,WMH为可学习参数,h为总头数,z为缩放常数。
7.根据权利要求6所述的一种融入全文信息的嵌套实体识别方法,其特征在于,所述通过残差连接得到融合全文信息的候选实体向量的计算公式如下:
score=softmax(concat(MultiHead(Q,HL-1),Q)WO)
其中score为实体类型的归一化分数,WO为可训练参数,argmax函数取类型分数最大的索引。
8.根据权利要求7所述的一种融入全文信息的嵌套实体识别方法,其特征在于,所述以融合全文信息的候选实体向量为特征判断候选实体类型是指将最大分数对应的类型视为各个候选实体的类型,其中设置特殊类型NONE表示该候选实体为不合理实体。
9.一种计算机设备,其特征在于,所述计算机设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1~8任一项所述的融入全文信息的嵌套实体识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1~8任一项所述的融入全文信息的嵌套实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210398804.6A CN114880466A (zh) | 2022-04-16 | 2022-04-16 | 一种融入全文信息的嵌套实体识别方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210398804.6A CN114880466A (zh) | 2022-04-16 | 2022-04-16 | 一种融入全文信息的嵌套实体识别方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114880466A true CN114880466A (zh) | 2022-08-09 |
Family
ID=82668601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210398804.6A Pending CN114880466A (zh) | 2022-04-16 | 2022-04-16 | 一种融入全文信息的嵌套实体识别方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114880466A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114995903A (zh) * | 2022-05-30 | 2022-09-02 | 中电金信软件有限公司 | 一种基于预训练语言模型的类别标签识别方法及装置 |
-
2022
- 2022-04-16 CN CN202210398804.6A patent/CN114880466A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114995903A (zh) * | 2022-05-30 | 2022-09-02 | 中电金信软件有限公司 | 一种基于预训练语言模型的类别标签识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN112801010B (zh) | 一种针对实际ocr场景下的视觉富文档信息抽取方法 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112036167B (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN112632225B (zh) | 基于案事件知识图谱的语义搜索方法、装置和电子设备 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN113157886B (zh) | 一种自动问答生成方法、系统、终端及可读存储介质 | |
CN110956044A (zh) | 一种基于注意力机制的司法场景用文案输入识别分类方法 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN112200664A (zh) | 基于ernie模型和dcnn模型的还款预测方法 | |
CN115688784A (zh) | 一种融合字与词语特征的中文命名实体识别方法 | |
CN112632224A (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
CN114821271A (zh) | 模型训练方法、图像描述生成方法、装置及存储介质 | |
CN116127090A (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN115934883A (zh) | 一种基于语义增强的多特征融合的实体关系联合抽取方法 | |
CN117648429B (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN114880466A (zh) | 一种融入全文信息的嵌套实体识别方法、设备及存储介质 | |
CN113076758B (zh) | 一种面向任务型对话的多域请求式意图识别方法 | |
CN117807232A (zh) | 商品分类方法、商品分类模型构建方法及装置 | |
KR102277787B1 (ko) | 신경망 기반 자연어로부터 sql 질의 번역 시 사용되는 컬럼 및 테이블을 예측하는 방법 | |
Bender et al. | Learning fine-grained image representations for mathematical expression recognition | |
CN116227486A (zh) | 一种基于检索和对比学习的情感分析方法 | |
CN114254622B (zh) | 一种意图识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |