CN113971404A - 一种基于解耦注意力的文物安全命名实体识别方法 - Google Patents

一种基于解耦注意力的文物安全命名实体识别方法 Download PDF

Info

Publication number
CN113971404A
CN113971404A CN202111269131.6A CN202111269131A CN113971404A CN 113971404 A CN113971404 A CN 113971404A CN 202111269131 A CN202111269131 A CN 202111269131A CN 113971404 A CN113971404 A CN 113971404A
Authority
CN
China
Prior art keywords
layer
vector
attention
embedding
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111269131.6A
Other languages
English (en)
Inventor
王俊
孙璐冰
康怡琳
朱容波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202111269131.6A priority Critical patent/CN113971404A/zh
Publication of CN113971404A publication Critical patent/CN113971404A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于解耦注意力的文物安全命名实体识别方法,包括以下步骤:将待识别的输入文本序列与词典进行匹配得到潜在单词,将潜在单词和输入文本序列融合得到最终的文本序列,通过预训练词嵌入向量和相对位置编码得到文本嵌入向量和位置嵌入向量;将嵌入层输出的文本嵌入向量和位置嵌入向量进行连接得到总的向量表示,作为编码层的输入,并通过解耦的自注意力机制计算注意力得到注意力矩阵,将经过残差连接和层正则化后得到的结果输入到前馈神经网络得到输出,再次进行残差连接和层正则化得到最终输出;将编码层输出作为解码层的输入,即输入条件随机场,解码预测搜索条件概率最高的标签序列。本发明识别效果好,能大大提高识别的准确性。

Description

一种基于解耦注意力的文物安全命名实体识别方法
技术领域
本发明涉及面向文物安全危险源识别文本信息处理的基础研究领域,尤其涉及一种基于解耦注意力的文物安全命名实体识别方法。
背景技术
面向文物安全危险源识别包含大量非结构化数据,命名实体识别的任务是从一句话中找到实体,并识别出其类型。因为在关系抽取、信息检索和问答系统等自然语言处理任务中存在着潜在帮助,受到了广泛的研究。
针对文物安防问题的复杂性、突发性、不确定性等特点以及文物安全数据的大规模化、多源异构、分散化、动态性等特性,基于知识图谱模型分析随时空变化过程中多区域文物实体之间的语义关系、信息特征等人员行为的动态变化是有必要的。
基于知识图谱的文物安防研究,首先,分析文物安全领域非结构化的数据(文本)结构与特征,研究深度神经网络、自然语言外理语法词法模型等提取文物之间语义关系与信息特征技术,挖掘不同类型文物之间存在的潜在关系与人员的行为特征。其次,构建文物实体与人员之间网络模型,研究关联规则算法、注意力机制、图神经网络等技术在数据关联上的应用优势与不足,制定文物安全数据之间以及人员-文物之间的关联规则,构建基于图注意力网络的非结构化文物安全数据关联分析方法,实现文物与文物、文物与人员之间的深层次动态关联及交互,推动文物安防过程中异常人员事件的检测。最后,构建面向文物安全领域的知识图谱模型,打破多区域文物安全数据之间的共享壁垒,实现文物安全数据之间语义层次的融合与共享。所以在这个过程中,建立一个高效的实体识别模型来实现文物安全领域的数据动态关联是很有必要的。并且在现有研究中,还没有一个与文物相关的数据集,所以标注一个文物数据集能够更好的进行针对性的研究。由于中文命名实体识别比英文发展晚,用于命名实体识别研究的语料较少,语料领域单一,使得通用中文命名实体识别发展受到限制,在英文语料中,单词之间有空格作为分隔,而中文的词语之间没有分割符号,会对实体边界的识别造成困难。所以中文NER相比英文更难一些。
中文命名实体识别(NER)分为基于字符的和基于词的方式,并且由于目前中文分词的性能有限,基于字符的命名实体识别可以优于基于词的命名实体识别。随着深度学习的发展,在各项任务中表现良好,具有时序特征的循环神经网络被广泛应用于自然语言处理领域。为了解决词边界的界定问题,词汇特征已被广泛用于命名实体识别以更好地利用汉语的词汇信息。有人引入了一个点阵,设计将词汇信息融入基于字符的神经命名实体识别模型。对输入句子进行词典匹配,将句子中词典识别的所有字符和潜在单词进行编码,在利用单词信息的同时避免了切分的错误传播。也有人通过卷积神经网络对词典中存在的词进行处理,以不同的窗口大小对字符序列和潜在单词进行编码,通过反思机制解决词汇冲突问题。上边两种模型都存在训练和推理慢的问题,并且难以对长距离依赖进行建模。这些都通过词汇信息构建图网络,将命名实体识别问题转换为图中节点分类任务。但是,模型都离不开RNN模块进行编码。在本发明的方法中,没有根据Lattice设计模型而是提出一种简单有效的位置编码方式来引入词汇信息。
另外,现有模型在不同数据集上得到的效果有好有坏,通过分析可知这些数据集的差异、表现好的数据集通常数据规模大,或者实体类型定义清晰,文本结构严谨。表现差的数据集则数据量小,文本质量低。在实际应用中,标注一个大型且高质量数据集费时费力,如何提高在小样本低质量数据环境下的NER效率值得研究。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于解耦注意力的文物安全命名实体识别方法。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于解耦注意力的文物安全命名实体识别方法,构建基于解耦注意力的文物安全命名实体识别模型,该模型包括嵌入层、编码层、解码层;该方法包括以下步骤:
步骤1、将待识别的输入文本序列(x1,x2,…,xn)与词典进行匹配得到潜在单词,将潜在单词和输入文本序列融合得到最终的文本序列(x1,x2,…,xn,…,xs),随后通过预训练词嵌入向量和相对位置编码得到文本嵌入向量H和位置嵌入向量P;
步骤2、将嵌入层输出的文本嵌入向量H和位置嵌入向量P进行连接得到总的向量表示E,作为编码层的输入,并通过解耦的自注意力机制计算注意力得到注意力矩阵A,然后将经过残差连接和层正则化后得到的
Figure BDA0003328041130000035
输入到前馈神经网络得到输出
Figure BDA0003328041130000036
再次进行残差连接和层正则化得到最终输出Z;
步骤3、将编码层输出Z作为解码层的输入,即输入条件随机场,解码预测搜索条件概率最高的标签序列(y1,y2,…,yn)。
进一步地,本发明的所述步骤1中得到嵌入向量的方法具体为:
每个字符或单词都有一个位置索引,对于字符,位置索引表示它在字符序列中的位置;对于单词,位置索引表示这个单词的开始字符的位置;根据标记序列中各个字符和单词的位置索引,第t个位置的第k个分量的计算方式为:
Figure BDA0003328041130000031
当t为偶数时,
Figure BDA0003328041130000032
当t为奇数时,
其中,dmodel表示嵌入向量的维度;
由此能得到其位置嵌入向量P;
文本嵌入向量通过预训练好的词向量求得。
进一步地,本发明的所述步骤1中文本嵌入向量预训练的具体方法为:
通过使用哈工大训练好的词向量,进行字词匹配获得对应的向量表示,最终得到输入的文本嵌入向量H。
进一步地,本发明的所述步骤2中分散注意力机制的方法具体为:
使用向量P和H表示位置嵌入向量和文本嵌入向量,位置t和j处的注意力分数计算分解为:
Figure BDA0003328041130000041
其中,Qt表示位置t处文本序列token的查询向量、
Figure BDA0003328041130000042
表示位置j处文本序列token的键向量得转置、Pt|j表示位置t和j处的相对位置嵌入;相应的,
Figure BDA0003328041130000043
表示位置j到t的相对位置嵌入向量的转置;
t和j处的注意力分数分解为上式四个注意力得分之和,即内容-内容,内容-位置,位置-内容,位置-位置;仅使用前三项来计算注意力分数,同时,用相对位置编码替换其中的位置嵌入向量P,公式如下:
Figure BDA0003328041130000044
Figure BDA0003328041130000045
其中,Q是查询向量,K是键向量,V是值向量,由嵌入层输出E和三个对应的权值矩阵WQ WK WV相乘而得,计算方法为:
Q=EWQ,K=EWK,V=EWV
进一步地,本发明的所述步骤3中解码的方法具体为:
将编码层输出Z作为解码层的输入,对于输入序列
Figure BDA0003328041130000046
输出预测标注序列
Figure BDA0003328041130000047
对于条件随机场CRF训练,使用最大条件似然估计,学习一组条件概率分布模型,即找到一组参数θ使得对数似然最大,计算方式如下:
Figure BDA0003328041130000048
Figure BDA0003328041130000049
其中,Score(z,y)是由转移特征概率和状态特征概率两部分组成;转移特征概率:指前一个输出标签不为y的前提下,当前输出标签为y的概率大小;状态特征概率:指当前输入为z的条件下,当前输出标签为y值的概率大小;y'是为了和分号上的y区分开,分号下表示求和,代表的就是不同的标签,zi是输入,yi是对应zi的标注序列,P(yi|zi,θ)表示给定θ当输入为zi输出是yi的概率,argmax表示求函数最大值的参数,即使公式值最大的参数θ值;
解码即搜索条件概率最高的标签序列:
Figure BDA0003328041130000051
其中,Y(z)指的是所有可能的标签序列集合,要找到使概率最大的序列y*
对于序列CRF模型仅考虑两个连续标签之间的相互作用,训练和解码问题我们采用维特比算法来解决,最终得到输出标签序列(y1,y2,…,yn)。
进一步地,本发明的所述文物安全命名实体识别模型具体为:
模型包括嵌入层,编码层和解码层;
嵌入层中:加载数据输入后,先通过词库对每句进行匹配,将匹配得到潜在单词添加到句尾,通过预训练词嵌入向量和相对位置编码得到文本嵌入向量和位置嵌入向量;
编码层中:把得到的文本嵌入向量进行正则化,随后建模进行训练,文本嵌入向量和位置嵌入向量在编码层中进行连接并通过解耦的自注意力机制计算注意力,为了防止网络退化和过拟合进行残差连接和层正则化,随后输入到前馈神经网络,同样再次进行残差连接和层正则化得到输出;
解码层中:编码层的输出会作为条件随机场的输入得到最大概率的标签输出。
进一步地,本发明的所述编码层中的具体方法为:
残差连接指的是将上一次操作的输入和上一次操作的输出相加,即:嵌入层输出E经过解耦注意力计算后得到A,将E和A相加作为下一个操作输入,层正则化就是对同一个样本的所有输入进行缩放,即求出均值和方差,归一化到均值为0,方差为1;两次的残差和正则方法一样。
本发明产生的有益效果是:本发明的基于解耦注意力的文物安全命名实体识别方法,针对文物安全领域实体类型多,实体类型存在定义不清晰情况,本发明采用一种简单有效的相对位置编码方式来编码相对位置信息,解决传统的绝对位置编码无法捕获实体间的距离方向信息,另外采用解耦注意力机制比传统自注意力机制更专注于实体和位置信息,以上两个改进方法有效解决了文物安全领域实体问题。本发明的模型在文物安全数据集上的效果相较于传统BiLSTM-CRF模型性能提升7.95%,比其它五种先进算法识别效率更高。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的模型结构示意图;
图2是本发明实施例的识别文字对象示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例的基于解耦注意力的文物安全命名实体识别方法,构建基于解耦注意力的文物安全命名实体识别模型,该模型包括嵌入层、编码层、解码层;该方法包括以下步骤:
步骤1、将待识别的输入文本序列(x1,x2,…,xn)与词典进行匹配得到潜在单词,将潜在单词和输入文本序列融合得到最终的文本序列(x1,x2,…,xn,…,xs),随后通过预训练词嵌入向量和相对位置编码得到文本嵌入向量H和位置嵌入向量P;
步骤2、将嵌入层输出的文本嵌入向量H和位置嵌入向量P进行连接得到总的向量表示E,作为编码层的输入,并通过解耦的自注意力机制计算注意力得到注意力矩阵A,然后将经过残差连接和层正则化后得到的
Figure BDA0003328041130000063
输入到前馈神经网络得到输出
Figure BDA0003328041130000064
再次进行残差连接和层正则化得到最终输出Z;
步骤3、将编码层输出Z作为解码层的输入,即输入条件随机场,解码预测搜索条件概率最高的标签序列(y1,y2,…,yn)。
该模型包括嵌入层,编码层和解码层;
嵌入层中:加载数据输入后,先通过词库对每句进行匹配,将匹配得到潜在单词添加到句尾,通过预训练词嵌入向量和相对位置编码得到文本嵌入向量(Embedding)和位置嵌入向量(Positionnal Encoding);
编码层中:把得到的文本嵌入向量(Embedding)进行正则化,随后建模进行训练,文本嵌入向量和位置嵌入向量在编码层中进行连接并通过解耦的自注意力机制(De-Self-Attention)计算注意力,为了防止网络退化和过拟合进行残差连接和层正则化(Add&LN),随后输入到前馈神经网络,同样再次进行残差连接和层正则化(Add&LN)得到输出;
解码层中:编码层的输出会作为条件随机场(CRF)的输入得到最大概率的标签输出。
(1)文本序列匹配潜在词语得到Embeding;
将输入文本序列和词典进行匹配得到潜在词语,将潜在词语和输入序列融合,同时,对包含潜在单词的序列进行编码,编码方式如图2所示。
每个字符或单词都有一个位置索引,表示它在字符序列中的位置,对于词来说,pos代表这个词的开始字符的字符位置,如“文物局”中的“文”的位置为1,“文物局“的位置就是1。得到相对位置信息后,每个位置的token用两个向量来表示,分别对应其文本和位置进行编码,文本向量通过预训练好的词向量求得,将位置嵌入向量和文本嵌入向量融合作为Encoder的输入。
(2)分散注意力机制De-Self-Attention;
使用向量P和H表示位置嵌入向量和文本嵌入向量,位置t和j处的注意力分数计算分解为:
Figure BDA0003328041130000071
其中,Qt表示位置t处文本序列token的查询向量、
Figure BDA0003328041130000072
表示位置j处文本序列token的键向量得转置、Pt|j表示位置t和j处的相对位置嵌入;相应的,
Figure BDA0003328041130000073
表示位置j到t的相对位置嵌入向量的转置;
t和j处的注意力分数分解为上式四个注意力得分之和,即内容-内容,内容-位置,位置-内容,位置-位置;认为位置-位置并不会提供太多额外信息,同时,考虑到得到token间相对位置信息的同时更要专注于文本内容本身,所以去除位置-位置这一项,仅使用前三项来计算注意力分数,同时,用相对位置编码替换其中的位置嵌入向量P,公式如下:
Figure BDA0003328041130000081
Figure BDA0003328041130000082
其中,Q是查询向量,K是键向量,V是值向量,由嵌入层输出E和三个对应的权值矩阵WQ WK WV相乘而得,计算方法为:
Q=EWQ,K=EWK,V=EWV
(3)CRF解码输出预测标签
将编码层输出Z作为解码层的输入,对于输入序列
Figure BDA0003328041130000083
输出预测标注序列
Figure BDA0003328041130000084
对于条件随机场CRF训练,使用最大条件似然估计,学习一组条件概率分布模型,即找到一组参数θ使得对数似然最大,计算方式如下:
Figure BDA0003328041130000085
Figure BDA0003328041130000086
其中,Score(z,y)是由转移特征概率和状态特征概率两部分组成;转移特征概率:指前一个输出标签不为y的前提下,当前输出标签为y的概率大小;状态特征概率:指当前输入为z的条件下,当前输出标签为y值的概率大小;y'是为了和分号上的y区分开,分号下表示求和,代表的就是不同的标签,zi是输入,yi是对应zi的标注序列,P(yi|zi,θ)表示给定θ当输入为zi输出是yi的概率,argmax表示求函数最大值的参数,即使公式值最大的参数θ值;
解码即搜索条件概率最高的标签序列:
Figure BDA0003328041130000087
其中,Y(z)指的是所有可能的标签序列集合,要找到使概率最大的序列y*
对于序列CRF模型仅考虑两个连续标签之间的相互作用,训练和解码问题我们采用维特比算法来解决,最终得到输出标签序列(y1,y2,…,yn)。
具体实验过程如下:
本发明的目标是识别文物安全领域文本中的实体,然而目前没有该领域的数据集,且文物安防文件中的实体和语言结构与其他公共数据集具有明显领域差异,所以首先标注了一个文物安防领域数据集。其次,用四个公开数据集来验证所提出模型的效果。1)MSRA是微软公开的新闻领域数据集(2)Resume是中文简历数据集(3)Weibo是社交媒体类的数据集(4)E-commerce-NER电子商务类数据集。数据集的详细信息如表所示。
Figure BDA0003328041130000091
其中MSRA典型特征是数据量大,Resume特点是文本结构清晰具有明显特点,Weibo和E-commerce数据量小且文本质量底,存在实体类型不明确的现象。
和对比模型一样,采用100维预训练字符和二元模型嵌入在中文政策数据集上,在没有使用Bert嵌入的情况下优于基线模型和其他模型,的F1平均得分比BiLSTM-CRF高出7.95%,对于LatticeLSTM,的模型比它平均F1高4.38%,比CAN-NER和WC-LSTM模型分别高出3.54%和1.85%。比SoftLexicon(LSTM)高2.49%,比Muiti-digraph Model高出3.29%。一般方法无法很好识别特定领域的实体,文物安防文本实体类别难以定义,涵盖的范围很广,并且不像别的实体类型有一个明确的实体边界,通过分散注意力让模型学习实体的内容和实体与位置间的关系,从而提高实体识别质量,在数据中存在实体边界不清晰的情况下,的模型能够有更好的效果。
Figure BDA0003328041130000092
在Weibo和E-commerce数据集上进行了实验,这两个数据集都具有数据量小,文本质量差的特点。实验结果如表所示,的模型表现最好。分析,Weibo与E-commerce-NER数据集数据量小。另外它们文本质量不高,数据集中含有大量无规则文本和噪声,且实体类别不够明确,而的模型在计算注意力时能够更专注于实体本身,所以在Weibo和Resume上效果也能达到最好,证明了所提模型的先进性。
Figure BDA0003328041130000101
同样在大型数据集MSRA和语言结构规范的Resume数据集上进行了实验,结果如表,可以看出,的模型也能得到很不错的效果。
Figure BDA0003328041130000102
为了验证所提出相对位置编码的有效性,在五个数据集上和使用绝对位置编码的Transformer编码器进行了对比实验,Transformer直接对不同的位置随机初始化一个postion embedding,加到嵌入上输入模型,作为参数进行训练。结果表明,采用绝对位置编码模型由于不能得到距离和方向信息导致表现不佳,而结合相对位置编码时,比绝对位置编码性能有了大幅提高,证明了所提出的相对位置编码方式的有效性。
Figure BDA0003328041130000103
采用了2019年哈工大和科大讯飞提出的BERT-WWM模型作为嵌入,对比了使用前后的效果,在四个数据集上进行了实验,结果如下表。整体来看,性能有不同程度的提升。虽然在小型数据集上,效果不是很明显,但在大型数据集上能够有较为明显的提升,证明了Bert作为嵌入的有效性。
Figure BDA0003328041130000111
改进TransformerEncoder并提出了一个整合词汇信息的Transformer_DSA模型,核心是引入词汇信息,通过简单有效的方式编码位置信息,融合了分散注意力机制。实验结果表明,该模型在小样本低质量数据集上的性能优于其他模型,与此同时,可以和Bert嵌入结合得到更好效果。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种基于解耦注意力的文物安全命名实体识别方法,其特征在于,构建基于解耦注意力的文物安全命名实体识别模型,该模型包括嵌入层、编码层、解码层;该方法包括以下步骤:
步骤1、将待识别的输入文本序列(x1,x2,…,xn)与词典进行匹配得到潜在单词,将潜在单词和输入文本序列融合得到最终的文本序列(x1,x2,…,xn,…,xs),随后通过预训练词嵌入向量和相对位置编码得到文本嵌入向量H和位置嵌入向量P;
步骤2、将嵌入层输出的文本嵌入向量H和位置嵌入向量P进行连接得到总的向量表示E,作为编码层的输入,并通过解耦的自注意力机制计算注意力得到注意力矩阵A,然后将经过残差连接和层正则化后得到的
Figure FDA0003328041120000013
输入到前馈神经网络得到输出
Figure FDA0003328041120000014
再次进行残差连接和层正则化得到最终输出Z;
步骤3、将编码层输出Z作为解码层的输入,即输入条件随机场,解码预测搜索条件概率最高的标签序列(y1,y2,…,yn)。
2.根据权利要求1所述的基于解耦注意力的文物安全命名实体识别方法,其特征在于,所述步骤1中得到嵌入向量的方法具体为:
每个字符或单词都有一个位置索引,对于字符,位置索引表示它在字符序列中的位置;对于单词,位置索引表示这个单词的开始字符的位置;根据标记序列中各个字符和单词的位置索引,第t个位置的第k个分量的计算方式为:
Figure FDA0003328041120000011
当t为偶数时,
Figure FDA0003328041120000012
当t为奇数时,
其中,dmodel表示嵌入向量的维度;
由此能得到其位置嵌入向量P;
文本嵌入向量通过预训练好的词向量求得。
3.根据权利要求2所述的基于解耦注意力的文物安全命名实体识别方法,其特征在于,所述步骤1中文本嵌入向量预训练的具体方法为:
通过使用哈工大训练好的词向量,进行字词匹配获得对应的向量表示,最终得到输入的文本嵌入向量H。
4.根据权利要求1所述的基于解耦注意力的文物安全命名实体识别方法,其特征在于,所述步骤2中分散注意力机制的方法具体为:
使用向量P和H表示位置嵌入向量和文本嵌入向量,位置t和j处的注意力分数计算分解为:
Figure FDA0003328041120000021
其中,Qt表示位置t处文本序列token的查询向量、
Figure FDA0003328041120000022
表示位置j处文本序列token的键向量得转置、Pt|j表示位置t和j处的相对位置嵌入;相应的,
Figure FDA0003328041120000023
表示位置j到t的相对位置嵌入向量的转置;
t和j处的注意力分数分解为上式四个注意力得分之和,即内容-内容,内容-位置,位置-内容,位置-位置;仅使用前三项来计算注意力分数,同时,用相对位置编码替换其中的位置嵌入向量P,公式如下:
Figure FDA0003328041120000024
Figure FDA0003328041120000025
其中,Q是查询向量,K是键向量,V是值向量,由嵌入层输出E和三个对应的权值矩阵WQWK WV相乘而得,计算方法为:
Q=EWQ,K=EWK,V=EWV
5.根据权利要求1所述的基于解耦注意力的文物安全命名实体识别方法,其特征在于,所述步骤3中解码的方法具体为:
将编码层输出Z作为解码层的输入,对于输入序列
Figure FDA0003328041120000026
输出预测标注序列
Figure FDA0003328041120000027
对于条件随机场CRF训练,使用最大条件似然估计,学习一组条件概率分布模型,即找到一组参数θ使得对数似然最大,计算方式如下:
Figure FDA0003328041120000028
Figure FDA0003328041120000031
其中,Score(z,y)是由转移特征概率和状态特征概率两部分组成;转移特征概率:指前一个输出标签不为y的前提下,当前输出标签为y的概率大小;状态特征概率:指当前输入为z的条件下,当前输出标签为y值的概率大小;y'是为了和分号上的y区分开,分号下表示求和,代表的就是不同的标签,zi是输入,yi是对应zi的标注序列,P(yi|zi,θ)表示给定θ当输入为zi输出是yi的概率,argmax表示求函数最大值的参数,即使公式值最大的参数θ值;
解码即搜索条件概率最高的标签序列:
Figure FDA0003328041120000032
其中,Y(z)指的是所有可能的标签序列集合,要找到使概率最大的序列y*
对于序列CRF模型仅考虑两个连续标签之间的相互作用,训练和解码问题我们采用维特比算法来解决,最终得到输出标签序列(y1,y2,…,yn)。
6.根据权利要求1所述的基于解耦注意力的文物安全命名实体识别方法,其特征在于,所述文物安全命名实体识别模型具体为:
模型包括嵌入层,编码层和解码层;
嵌入层中:加载数据输入后,先通过词库对每句进行匹配,将匹配得到潜在单词添加到句尾,通过预训练词嵌入向量和相对位置编码得到文本嵌入向量和位置嵌入向量;
编码层中:把得到的文本嵌入向量进行正则化,随后建模进行训练,文本嵌入向量和位置嵌入向量在编码层中进行连接并通过解耦的自注意力机制计算注意力,为了防止网络退化和过拟合进行残差连接和层正则化,随后输入到前馈神经网络,同样再次进行残差连接和层正则化得到输出;
解码层中:编码层的输出会作为条件随机场的输入得到最大概率的标签输出。
7.根据权利要求6所述的基于解耦注意力的文物安全命名实体识别方法,其特征在于,所述编码层中的具体方法为:
残差连接指的是将上一次操作的输入和上一次操作的输出相加,即:嵌入层输出E经过解耦注意力计算后得到A,将E和A相加作为下一个操作输入,层正则化就是对同一个样本的所有输入进行缩放,即求出均值和方差,归一化到均值为0,方差为1;两次的残差和正则方法一样。
CN202111269131.6A 2021-10-29 2021-10-29 一种基于解耦注意力的文物安全命名实体识别方法 Pending CN113971404A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111269131.6A CN113971404A (zh) 2021-10-29 2021-10-29 一种基于解耦注意力的文物安全命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111269131.6A CN113971404A (zh) 2021-10-29 2021-10-29 一种基于解耦注意力的文物安全命名实体识别方法

Publications (1)

Publication Number Publication Date
CN113971404A true CN113971404A (zh) 2022-01-25

Family

ID=79588938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111269131.6A Pending CN113971404A (zh) 2021-10-29 2021-10-29 一种基于解耦注意力的文物安全命名实体识别方法

Country Status (1)

Country Link
CN (1) CN113971404A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707467A (zh) * 2022-03-18 2022-07-05 浙江大学 一种基于自注意力机制的自动化拼音转汉字方法
CN115169426A (zh) * 2022-02-22 2022-10-11 国网山东省电力公司信息通信公司 一种基于相似性学习融合模型的异常检测方法及系统
CN115563510A (zh) * 2022-12-01 2023-01-03 北京搜狐新动力信息技术有限公司 一种点击率预估模型的训练方法及相关装置
CN117807603A (zh) * 2024-02-29 2024-04-02 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN112711948A (zh) * 2020-12-22 2021-04-27 北京邮电大学 一种中文句子的命名实体识别方法及装置
CN112949637A (zh) * 2021-05-14 2021-06-11 中南大学 基于idcnn和注意力机制的招投标文本实体识别方法
CN112989834A (zh) * 2021-04-15 2021-06-18 杭州一知智能科技有限公司 一种基于平格增强线性转换器的命名实体识别方法和系统
CN113240056A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN112711948A (zh) * 2020-12-22 2021-04-27 北京邮电大学 一种中文句子的命名实体识别方法及装置
CN112989834A (zh) * 2021-04-15 2021-06-18 杭州一知智能科技有限公司 一种基于平格增强线性转换器的命名实体识别方法和系统
CN112949637A (zh) * 2021-05-14 2021-06-11 中南大学 基于idcnn和注意力机制的招投标文本实体识别方法
CN113240056A (zh) * 2021-07-12 2021-08-10 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PENGCHENG HE等: "("DEBERTA:DECODING-ENHANCED BERT WITH DIS-ENTANGLED ATTENTION"", 《ARXIV》 *
邓安远等: "《电子商务技术》", 30 June 2015 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115169426A (zh) * 2022-02-22 2022-10-11 国网山东省电力公司信息通信公司 一种基于相似性学习融合模型的异常检测方法及系统
CN115169426B (zh) * 2022-02-22 2023-10-13 国网山东省电力公司信息通信公司 一种基于相似性学习融合模型的异常检测方法及系统
CN114707467A (zh) * 2022-03-18 2022-07-05 浙江大学 一种基于自注意力机制的自动化拼音转汉字方法
CN115563510A (zh) * 2022-12-01 2023-01-03 北京搜狐新动力信息技术有限公司 一种点击率预估模型的训练方法及相关装置
CN117807603A (zh) * 2024-02-29 2024-04-02 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质
CN117807603B (zh) * 2024-02-29 2024-04-30 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN113971404A (zh) 一种基于解耦注意力的文物安全命名实体识别方法
Al-Amin et al. Sentiment analysis of Bengali comments with Word2Vec and sentiment information of words
Shahi et al. A hybrid feature extraction method for Nepali COVID-19-related tweets classification
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN110008469B (zh) 一种多层次命名实体识别方法
CN110619034A (zh) 基于Transformer模型的文本关键词生成方法
CN111291195A (zh) 一种数据处理方法、装置、终端及可读存储介质
CN113239663B (zh) 一种基于知网的多义词中文实体关系识别方法
Logeswaran et al. Sentence ordering using recurrent neural networks
CN111753058A (zh) 一种文本观点挖掘方法及系统
CN114911947A (zh) 一种基于知识提示的概念抽取模型
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN113158659B (zh) 一种基于司法文本的涉案财物计算方法
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
Ahmad et al. Machine and Deep Learning Methods with Manual and Automatic Labelling for News Classification in Bangla Language
Gao et al. Chinese causal event extraction using causality‐associated graph neural network
CN116611436A (zh) 一种基于威胁情报的网络安全命名实体识别方法
Alkhatlan et al. Attention-based sequence learning model for Arabic diacritic restoration
CN115470348A (zh) 一种暴力事件检测方法、装置及设备
Ramena et al. An efficient architecture for predicting the case of characters using sequence models
Lee et al. Detecting context abusiveness using hierarchical deep learning
Priyadarshi et al. The first named entity recognizer in Maithili: Resource creation and system development
Kemal et al. Bilingual Social Media Text Hate Speech Detection For Afaan Oromo And Amharic Languages Using Deep Learning
Xin et al. Recognition of unknown entities in specific financial field based on ernie-doc-bilstm-crf

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination