CN115688777A - 面向中文金融文本的嵌套和不连续实体的命名实体识别系统 - Google Patents

面向中文金融文本的嵌套和不连续实体的命名实体识别系统 Download PDF

Info

Publication number
CN115688777A
CN115688777A CN202211193965.8A CN202211193965A CN115688777A CN 115688777 A CN115688777 A CN 115688777A CN 202211193965 A CN202211193965 A CN 202211193965A CN 115688777 A CN115688777 A CN 115688777A
Authority
CN
China
Prior art keywords
layer
word
decoding
vector
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211193965.8A
Other languages
English (en)
Other versions
CN115688777B (zh
Inventor
周琳娜
杨震
白旭
邢韦川
柏传洋
王壮
陈学楷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202211193965.8A priority Critical patent/CN115688777B/zh
Publication of CN115688777A publication Critical patent/CN115688777A/zh
Application granted granted Critical
Publication of CN115688777B publication Critical patent/CN115688777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明是一种面向中文金融文本的嵌套和不连续实体的命名实体识别系统。本发明系统包括词嵌入编码模块、语义增强模块和金字塔层叠式解码模块;词嵌入编码模块对金融元文本进行编码,由上下文编码层获取上下文特征,输出金融元文本的词嵌入向量;语义增强模块对当前词计算相似词,利用相似词获取当前词语义增强后的嵌入向量;金字塔层叠式解码模块包括L层解码层,每一解码层预测长度为l的实体,第L层识别长度为L的嵌套实体,每一解码层都由LSTM和CNN两个组件组成,并加入逆向金字塔模型避免高层识别长实体时对底层信息的遗漏。本发明系统在识别中文金融文本中嵌套实体和不连续实体方面展现出优越性能,提升了实体识别的准确率。

Description

面向中文金融文本的嵌套和不连续实体的命名实体识别系统
技术领域
本发明属于金融文本的自然语言处理技术领域,具体涉及针对中文金融文本中的深层嵌套实体和不连续实体的识别技术。
背景技术
命名实体识别主要指从非结构自然语言文本中识别出文本语料中的人名、地名等领域专有名词,常被视作序列化标注问题,可以分为实体边界识别与实体分类两个步骤。金融领域不同于一般领域,文本本身便存在语义信息复杂等问题,而命名实体识别作为NLP(自然语言处理)领域的基础任务,识别结果又严重影响着下游任务的效果。金融领域中文命名实体识别存在以下特点:文本结构复杂,形式多样;高频存在不规则实体缩写,专业词典匮乏;金融实体长度较长且往往存在深层嵌套的问题使得边界不容易识别。比如“中国银行北京分行”,其中嵌套着“中国银行”、“北京分行”等同类型实体或“中国”、“北京”不同类型的名词实体。
目前多采用深度学习神经网络对文本实体进行识别,如下所述:
(1)基于Embedding模型的方式。词向量模型旨在将金融领域自然语言文本中的词转换为稠密的词向量,Word2vec模型通过词的上下文得到向量化表达,然而由于其只考虑了词语的局部信息,GloVe(Global Vectors)在此基础上同时考虑全局信息,利用全局词频统计进行词表征。2018年Google提出的BERT模型具有里程碑意义,它同GPT(Gererate Pre-Training Model,生成式预训练语言模型)一样采取两阶段训练过程,其输入包括三部分——token embedding(分词编码)、position embedding(位置编码)、segmentembedding(段落编码)。后续通过Masked Language Model(掩码语言模型)任务让网络预测被隐藏掩盖的信息;Next Sentence Prediction(下一句预测)任务预测第二句是否是下一句的任务进而获得句子级表征的能力。
(2)基于LSTM(长短时记忆神经网络)模型的方式。长短时记忆神经网络作为一种经典的RNN(循环神经网络)模型以捕获上下文语义信息,在NLP序列任务中始终展现着优越性能。其关键就是单元状态(cell state),利用门控机制控制信息流从上一个cell传递给下一个cell。一个LSTM cell有三个门—遗忘门(forget gate)、输入门(input gate)、输出门(output gate),实现遗忘或增加信息,具体通过一个sigmoid函数和一个点乘操作实现。在金字塔层叠式模型中使用LSTM神经网络能学习并长期保存上下文语义信息,有效捕捉不同长度的嵌套实体。
目前所采用的深度学习神经网络对识别金融文本中的复杂嵌套实体和不连续实体的效果不佳,采用分层识别模型识别时存在层与层之间的错误传播问题,前面的层识别出的错误实体会继续影响后续层的识别,如由内而外识别实体,但先识别出最外层的实体,则内部实体将不再被识别出。除此之外,目前的方法普遍未考虑到复杂实体的划分粒度更细,会造成数据稀疏的问题,加大了命名实体识别的难度。
发明内容
针对金融文本中的复杂嵌套实体和不连续实体的识别问题,本发明提出了一种面向中文金融文本的嵌套和不连续实体的命名实体识别系统,采用一种金字塔层叠式模型,解决中文金融文本的命名实体识别问题,同时实现对复杂嵌套实体和不连续实体的识别,对于语法不规范、出现频率较低的实体,还利用语义增强表示增强识别结果,缓解数据稀疏和表达不规范所造成的实体识别不准确的问题。
具体地,本发明提供了一种面向中文金融文本的嵌套和不连续实体的识别系统,包括如下三个模块:词嵌入编码模块、语义增强模块、金字塔层叠式解码模块。将采集的中文金融文本进行清洗和分词后输入所述识别系统。
所述词嵌入编码模块对输入的金融元文本中的字进行编码,利用上下文编码层获取上下文特征,获取词向量,最后输出金融元文本的词嵌入向量给语义增强模块。
所述语义增强模块包含增强模块与门控机制;针对输入的金融元文本的词嵌入向量,增强模块基于余弦相似度计算与当前词语义最相似的前m个词,将相似词映射到另一个嵌入矩阵中,m为正整数。同时,基于上下文引入注意力机制获取每个相似词对当前词语义信息的贡献度,对m个相似词嵌入向量加权求和。将各词扩充语义后得到的加权求和的相似词嵌入向量与当前词嵌入向量利用门控机制进行加权拼接,最终得到当前词语义增强后的嵌入向量,输入金字塔层叠式解码模块中。
所述金字塔层叠式解码模块包括L层内部连接的解码层,每一解码层预测长度为l的实体,第L层识别长度为L的嵌套实体,L为正整数;每一解码层都由LSTM和CNN(卷积神经网络)两个组件组成,LSTM用于识别实体,CNN用于聚合两个相邻分词的隐层状态,然后将当前聚合得到的嵌套实体的语义信息送入更高的解码层。同时,为了避免高层识别长实体时对底层信息的遗漏,所述金字塔层叠式解码模块还将逆向的金字塔模型与正向的金字塔模型进行拟合。标记逆向金字塔模型中解码层为逆向解码层,正向金字塔模型中解码层为正向解码层,通过连接正向解码层与逆向解码层的状态,利用前馈神经网络预测实体最终的分类。
相对于现有技术,本发明的优点与积极效果在于:
(1)由于金融数据集的多源性,不同来源数据的结构大相径庭,甚至相当部分的文本存在不规范的表达方式。除此之外,还有一些词语出现的频率较低,不能准确地给出词向量表示。因此本发明系统设计了语义增强模块,进行语义信息的深层编码和聚合,改善表达不准确实体的抽取结果。
(2)金融领域中复杂嵌套实体的识别在之前虽已有工作通过堆叠传统的NER层解决嵌套问题,但是容易在错误的嵌套层识别出嵌套实体,虽然span和分类可能正确,但是会致使模型逐渐趋向不预测正确的实体,最终严重破坏召回率。本发明系统设计了金字塔层叠式模型,改善了对嵌套实体识别的准确性,以及对不连续实体识别的问题,还采用逆向的金字塔模型实现信息流的反向流动,有效改善了金融领域嵌套实体和不连续实体识别的困境,提升了对中文金融领域实体识别的准确率。
(3)经试验证明,本发明识别系统相较于现有技术,在识别中文金融文本中嵌套实体和不连续实体方面展现出优越性能,采用本发明识别系统能提升对中文金融领域实体识别的准确率。
附图说明
图1是本发明系统识别不连续实体和嵌套实体的一个整体流程示意图;
图2是本发明实施例的面向中文金融文本的嵌套和不连续实体的识别系统的结构图;
图3是本发明识别嵌套实体与不连续实体的一个示例图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明实施例从数据的采集与预处理,设计构建面向中文金融文本的嵌套和不连续实体的识别系统,使用本发明系统进行实体识别的结果分析,这三方面来进行说明。采用本发明识别系统进行实体识别的一个流程如图1所示,对金融数据预处理后输入本发明识别系统,通过词嵌入编码模块、语义增强模块和金字塔层叠式解码模块处理后,识别嵌套和不连续实体,对本发明识别系统的识别结果还可以进一步融合人工设计的规则提升精确率。
国内金融市场的非结构化文本大量存在于公司公告、新闻、股评中等等,形式结构往往多样复杂。针对金融领域实体抽取数据集匮乏的问题,本发明实施例所采集到的数据来源于同花顺网站的金融资讯,数据集涵盖公司以及实体人之间的股权关系如质押、持股、股份股权转让等信息,数据较为全面,对于将本发明实体关系识别模型迁移到更大领域具有借鉴意义。在采集到数据后,为了下一步的嵌入表示,需要先进行数据清洗,再利用专业的分词工具进行数据的初步处理。本发明采集的大量金融文本数据,涵盖了公司、实体人、股份等多种类型实体。
利用上面的分词工具分词后,得到词向量表示的金融元文本,然后将金融元文本输入识别系统中。本发明的面向中文金融文本的嵌套和不连续实体的识别系统包括词嵌入编码模块、语义增强模块和金字塔层叠式解码模块,识别系统的一个实现示例如图2所示,下面说明各模块的实现。
词嵌入(embedding)编码模块对输入的每条金融元文本,充分考虑字和词的上下文语义信息,将拼接后的字嵌入向量与词向量共同表示金融元文本。首先通过预训练词嵌入,本发明实施例采用Tencent Embedding,找到每个字符所对应的预训练向量,原始文本将会初始化为分布式的向量。然后将得到的分布式向量输入到上下文编码层LSTM以学习到文本的上下文特征;针对词向量,通过预训练好的词向量矩阵进行表示;最后通过一个线性层降低词嵌入编码模块的嵌入向量维度。
由于金融数据集的多源性,不同来源数据的结构大相径庭,甚至相当部分的文本存在不规范的表达方式。除此之外,还有一些词语出现的频率较低,不能准确地给出词向量表示,因此本发明设计利用语义增强模块进行语义信息的深层编码和聚合,改善表达不准确实体的抽取结果。以往的自然语言文本通常经过单一的预训练语言模型进行向量的表示,虽然能捕捉有效的上下文语义信息,但无法识别表达不合规范的金融实体。而预训练语言模型表示的词嵌入向量是NER任务取得良好性能的重要前提,也是语义增强表示的关键资源。
本发明的语义增强模块,也叫语义扩充模块,包含增强模块与门控机制。针对上一模块输出的每个词嵌入表示,增强模块基于余弦相似度计算与当前词语义最相似的前m个词,将相似词映射到另一个嵌入矩阵中,同时,基于上下文引入注意力机制区分每个词对当前词语义信息贡献的重要程度,最终得到当前词扩充语义后的表示。进一步,语义增强模块采用复位门控制通过的信息,再通过两个可训练矩阵平衡相似向量和原向量的权重,最终得到语义增强后的向量。
本发明实施例中,语义增强模块首先针对金融元文本词序列里的每个词,在大型语料库腾讯词向量Tencent embedding里找到与当前词相似度最高的前m个词语,并利用另一个嵌入矩阵进行映射。m为正整数。
针对一段由n个词组成的金融元文本w={w0,w1…,wn-1},对于其中的每个词wi∈w,利用预训练语言模型如word2vec或BERT进行表示,并计算与wi相似度高的前m个词语,表示为Ci={ci,1,ci,2,…,ci,j,…,ci,m},然后将每个ci,j分别利用另一个嵌入矩阵映射为ei,j。为了区分上下文词对词向量表示的贡献程度,通过注意力机制进行共同的加权表示,通过下式计算每一个词ci,j对当前词wi的贡献度pi,j,即权重,如下:
Figure BDA0003870106400000041
其中,hi是通过上下文编码层对词wi进行表示时的隐藏向量。由于获得的增强语义信息在不同上下文中也可能不同,所以本发明设计门控机制—复位门(reset gate)对这些信息进行加权表示,并把信息流集合到后续的主干分类模型中。
获得词wi的相似词加权求和,得到加权的相似词嵌入向量vi,如下:
Figure BDA0003870106400000051
之后通过门控机制控制加权后的信息流输入到后续的金字塔层叠式解码模块中。设门控机制中W1,W2是待训练参数矩阵,bg是偏置项,ui是输出,是平衡来自上下文编码器(即上下文编码层)和增强模块的信息,即词wi语义增强后的嵌入向量,符号°表示元素级乘法运算。g代表模型通过复位门机制后的输出,σ代表激活函数。
g=σ(W1·hi+W2·vi+bg)
Figure BDA0003870106400000052
其中,1表示元素为1的矩阵。
金融领域中复杂嵌套实体的识别在之前虽已有工作通过堆叠传统的NER(NamedEntity Recognition,命名实体识别)层解决嵌套问题,但是容易在错误的嵌套层识别出嵌套实体,虽然实体对应的位置标签span和分类可能正确,但是会致使模型逐渐趋向不预测正确的实体,最终严重破坏召回率。因此,本发明设计了金字塔层叠式解码模块,该模块的模型中共由L层内部连接层(即解码层)构成,每一解码层预测长度为l的实体,由于l的限制,识别模型便不会在错误层生成不对应的实体。每一层的命名实体识别组件都由两个组件——LSTM和CNN(卷积神经网络)组成,LSTM负责识别实体,CNN则聚合两个相邻分词的隐层状态,然后将丰富的语义信息送入更高层的解码层,由此还改善了不连续实体识别的问题。层数越高,识别的实体长度越长,为了使实体能接受更高层的信息反馈,金字塔层叠式解码模块还拟采用逆向的金字塔模型实现信息流的反向流动,有效改善了金融领域嵌套实体和不连续实体识别的困境,提升识别准确率。
如图3所示,最底层负责识别长度为1的token,如“中国”、“北京”、“重庆市”等。第L层负责识别长度为L的嵌套实体,由于L的限制,金字塔模型不会在错误的层输出不对应的实体。LSTM模型能充分捕捉前后文语义信息,根据上下文识别出不连续实体如“中国银行重庆市分行”。除此之外借助底层聚合隐层状态的CNN网络,还能捕获全部重叠的嵌套实体。层数越高,识别的实体长度越长,考虑到信息流经过多层传递易造成高层识别长实体时信息的遗漏,因此,本发明的金字塔层叠式解码模块最后融合正向与逆向的金字塔模型,充分利用高层的span对下层的反馈信息。
在金字塔层叠式解码模块中,语义增强模块输出的嵌入向量先进入自底向上的金字塔层叠解码模块的底层。每个解码层的命名实体识别组件由一个LSTM和一个CNN组成。在第l层需要LSTM进行长度l的实体识别,如在第2层识别跨度为2的实体,如图3中的“中国银行”、“杭州分行”、“重庆市分行”等等。这样保证目标解码层每一层任务清晰,不会识别出错误跨度的实体。卷积神经网络CNN包含两个卷积核,负责将相邻实体隐藏状态进行聚合,输入更高一层,即第(l+1)层。
Figure BDA0003870106400000067
Figure BDA0003870106400000061
其中,hl表示解码模块的第l层解码层的隐向量,LayerNorm为第l解码层的归一化层,LSTMdec为第l解码层的LSTM,Con v1d为第l解码层的CNN,
Figure BDA0003870106400000062
分别表示第l解码层、第l+1解码层中的卷积层聚合输出的相邻实体的隐藏状态。
由于第一层解码层输入来源是语义增强模块,相比其他输入上下层间的输出,维度不一致。因此为了解决该问题,本发明对语义增强模块输出的嵌入向量先进行归一化,再进入第一解码层的LSTM。
自底向上的金字塔模型中每个解码层都考虑了来自下层的信息,但是高层的长实体识别嵌入的识别往往需要经过较多底层信息,在这个传递过程会丢失许多重要的信息。为了捕获高层的信息流对下边的反馈,加强相邻解码层交互性的同时保留长实体信息,本发明在模型中加入逆向的金字塔模型。具体地,针对第l-1层的文本嵌入的重构,将第l层的正解码层和反解码层的隐藏状态连接起来,并将其输入反向CNN,如下表示:
Figure BDA0003870106400000063
Figure BDA0003870106400000064
其中,h′l为逆向金字塔中第l层的隐向量,LSTM′dec、LayerNorm′分别为逆向金字塔中第l层的LSTM、第l层的归一化层,Conv 1d′为逆向金字塔中第l层的CNN卷积层,
Figure BDA0003870106400000066
为逆向金字塔中第l层输出的隐藏状态。
最终通过连接正向解码层(decoding layer)与逆向解码层(inverse decodinglayer)的状态,利用前馈神经网络预测实体最终的分类,有效解决了实体深层嵌套与不连续的问题。
logitsl=Lineardec([hl;h′l])
其中,logitsl为第l层的分类结果,Lineardec为全连接层,hl为第l层的隐向量,h′l为逆向金字塔中第l层的隐向量。
针对金融复杂场景下的金融命名实体识别任务,对本发明的层叠式模型进行实验,结果如下表1所示。
表1对本发明进行试验结果对比
Figure BDA0003870106400000065
Figure BDA0003870106400000071
如表1所示,使用ACE2005中文数据集和人民日报数据集,分别对本发明模型和对比模型进行试验,对比模型包括:Pyramid模型和Jin模型。Pyramid模型、Pyramid+Bert模型在参考文献1(Wang J,Shou L,Chen K,et al.Pyramid:A Layered Model for NestedNamed Entity Recognition[C]//Proceedings of the 58th Annual Meeting of theAssociation for Computational Linguistics.2020.)中记载。Jin模型、baseline+Bert模型在参考文献2(Liao Z,Zhang Z,Yang L.Chinese Named Entity Recognition Basedon Hierarchical Hybrid Model[C]//Pacific Rim International Conference onTrends in Artificial Intelligence.Springer-Verlag,2010.)中记载。BERT为预训练语言模型,用来分词表示。
计算精确率(precision)、召回率(recall)以及F1分数三个评价指标,其中,F1值越大表示算法性能越好,精确率越大表示算法性能越好,召回率越大表示算法性能越好。由表1可以看出,采用本发明识别系统相较于现有技术,在这些评价指标上能取得更好的效果,相较其他模型在识别嵌套实体和不连续实体方面展现出优越性能,提升了对中文金融领域实体识别的准确率。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。本发明省略了对公知组件和公知技术的描述,以避免赘述和不必要地限制本发明。上述实施例中所描述的实施方式也并不代表与本申请相一致的所有实施方式,在本发明技术方案的基础上,本领域技术人员不需要付出创造性的劳动即可做出的各种修改或变形仍在本发明的保护范围内。

Claims (5)

1.一种面向中文金融文本的嵌套和不连续实体的命名实体识别系统,其特征在于,该识别系统包括:词嵌入编码模块、语义增强模块、以及金字塔层叠式解码模块;将采集的中文金融文本进行清洗和分词后得到的金融元文本输入所述识别系统;
所述的词嵌入编码模块对输入的金融元文本中的字进行编码,利用上下文编码层获取上下文特征,最后输出金融元文本的词嵌入向量给语义增强模块;
所述的语义增强模块包含增强模块与门控机制;针对输入的金融元文本的词嵌入向量,增强模块基于余弦相似度计算与当前词语义最相似的前m个词,将相似词映射到另一个嵌入矩阵中,m为正整数;基于上下文引入注意力机制获取每个相似词对当前词语义信息的贡献度,对m个相似词嵌入向量加权求和;利用门控机制控制当前词嵌入向量与加权求和的相似词嵌入向量的权重并进行加权拼接,最终得到当前词语义增强后的嵌入向量,输入金字塔层叠式解码模块中;
所述的金字塔层叠式解码模块包括L层内部连接的解码层,每一解码层预测长度为l的实体,第L层识别长度为L的嵌套实体,L为正整数;每一解码层都由LSTM和CNN两个组件组成,LSTM用于识别实体,CNN用于聚合两个相邻分词的隐层状态,然后将当前聚合得到的嵌套实体的语义信息送入更高的解码层;所述的金字塔层叠式解码模块还将逆向的金字塔模型与正向的金字塔模型进行拟合,通过连接正向解码层与逆向解码层的状态,利用前馈神经网络预测实体最终的分类;CNN表示卷积神经网络,LSTM表示长短时记忆神经网络。
2.根据权利要求1所述的识别系统,其特征在于,所述的词嵌入编码模块,对输入的每条金融元文本,先通过预训练词嵌入找到每个字符对应的预训练向量,将文本初始化为分布式的向量,再将分布式向量输入到上下文编码模块学习文本的上下文特征,使用预训练好的词向量矩阵表示词嵌入向量,最后通过一个线性层降低词嵌入向量的维度。
3.根据权利要求1所述的识别系统,其特征在于,所述的语义增强模块中,设增强模块对金融元文本中词wi计算得到的m个相似词表示为Ci={ci,1,ci,2,…,ci,j,…,ci,m},将各相似词ci,j利用一个嵌入矩阵映射为向量ei,j;通过注意力机制计算每一个词ci,j对当前词wi的贡献度pi,j,如下:
Figure FDA0003870106390000011
其中,hi是通过上下文编码层对词wi进行表示时的隐藏向量,为词wi的嵌入向量;
对当前词的m个相似词嵌入向量加权求和,得到嵌入向量
Figure FDA0003870106390000012
通过门控机制—复位门,通过训练矩阵W1,W2控制词wi的嵌入向量hi和由相似词得到的嵌入向量vi的权重,输出最终词wi语义增强后的嵌入向量ui,表示如下:
g=σ(W1·hi+W2·vi+bg)
Figure FDA0003870106390000013
其中,g表示通过复位门机制后的输出向量,σ为激活函数,bg为偏置项,1为元素为1的矩阵。
4.根据权利要求1所述的识别系统,其特征在于,所述的金字塔层叠式解码模块中,第l解码层的隐向量表示为hl如下:
Figure FDA0003870106390000021
Figure FDA0003870106390000022
其中,
Figure FDA0003870106390000023
表示第l解码层中的卷积层聚合输出的相邻实体的隐藏状态,LayerNorm为第l解码层的归一化层,LSTMdec为第l解码层的LSTM,Con v1d为第l解码层的CNN,
Figure FDA0003870106390000024
表示第l+1解码层中的卷积层的输出。
5.根据权利要求1或4所述的识别系统,其特征在于,所述的金字塔层叠式解码模块中,加入逆向金字塔模型,标记逆向金字塔模型中解码层为逆向解码层,正向金字塔模型中解码层为正向解码层;通过连接正向解码层与逆向解码层的状态,利用前馈神经网络预测实体最终的分类;
设逆向金字塔中第l层的隐向量为h′l,如下:
Figure FDA0003870106390000025
其中,LSTM′dec、LayerNorm′分别为第l逆向解码层的LSTM、归一化层;
Figure FDA0003870106390000026
为第l逆向解码层的输出的隐藏状态,则得到第l-1逆向解码层的CNN输出为
Figure FDA0003870106390000027
如下:
Figure FDA0003870106390000028
其中,Conv 1d′为第l逆向解码层的CNN;hl为第l正向解码层的隐向量;
最终金字塔层叠式解码模块得到第l层的分类结果logitsl,如下:
logitsl=Lineardec([hl;h′l])
其中,Lineardec为全连接层。
CN202211193965.8A 2022-09-28 2022-09-28 面向中文金融文本的嵌套和不连续实体的命名实体识别系统 Active CN115688777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211193965.8A CN115688777B (zh) 2022-09-28 2022-09-28 面向中文金融文本的嵌套和不连续实体的命名实体识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211193965.8A CN115688777B (zh) 2022-09-28 2022-09-28 面向中文金融文本的嵌套和不连续实体的命名实体识别系统

Publications (2)

Publication Number Publication Date
CN115688777A true CN115688777A (zh) 2023-02-03
CN115688777B CN115688777B (zh) 2023-05-05

Family

ID=85064125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211193965.8A Active CN115688777B (zh) 2022-09-28 2022-09-28 面向中文金融文本的嵌套和不连续实体的命名实体识别系统

Country Status (1)

Country Link
CN (1) CN115688777B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111581957A (zh) * 2020-05-06 2020-08-25 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN111783459A (zh) * 2020-05-08 2020-10-16 昆明理工大学 一种基于改进Transformer+CRF的老挝语命名实体识别方法
WO2021042516A1 (zh) * 2019-09-02 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置及计算机可读存储介质
CN113204618A (zh) * 2021-04-30 2021-08-03 平安科技(深圳)有限公司 基于语义增强的信息识别方法、装置、设备及存储介质
CN114154504A (zh) * 2021-12-06 2022-03-08 重庆邮电大学 一种基于多信息增强的中文命名实体识别算法
CN114239584A (zh) * 2021-12-15 2022-03-25 杭州电子科技大学 一种基于自监督学习的命名实体识别方法
CN114912453A (zh) * 2022-05-20 2022-08-16 大连大学 基于增强序列特征的中文法律文书命名实体识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
WO2021042516A1 (zh) * 2019-09-02 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置及计算机可读存储介质
CN111209738A (zh) * 2019-12-31 2020-05-29 浙江大学 一种联合文本分类的多任务命名实体识别方法
CN111581957A (zh) * 2020-05-06 2020-08-25 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN111783459A (zh) * 2020-05-08 2020-10-16 昆明理工大学 一种基于改进Transformer+CRF的老挝语命名实体识别方法
CN113204618A (zh) * 2021-04-30 2021-08-03 平安科技(深圳)有限公司 基于语义增强的信息识别方法、装置、设备及存储介质
CN114154504A (zh) * 2021-12-06 2022-03-08 重庆邮电大学 一种基于多信息增强的中文命名实体识别算法
CN114239584A (zh) * 2021-12-15 2022-03-25 杭州电子科技大学 一种基于自监督学习的命名实体识别方法
CN114912453A (zh) * 2022-05-20 2022-08-16 大连大学 基于增强序列特征的中文法律文书命名实体识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MENGJIE YANG ET.AL: "Lao Named Entity Recognition based on Conditional Random Fields with Simple Heuristic Information", 《2015 12TH INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY》 *
ZHEHUAN ZHAO ET.AL: "ML-CNN: a novel deep learning based disease named entity recognition architecture", 《2016 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *
杨震等: "工业互联网中的标识解析技术", 《物联网技术专栏》 *

Also Published As

Publication number Publication date
CN115688777B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
Xu et al. Knowledge graph representation with jointly structural and textual encoding
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN112989834A (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN112800190B (zh) 基于Bert模型的意图识别与槽值填充联合预测方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN114330354A (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统
CN115688784A (zh) 一种融合字与词语特征的中文命名实体识别方法
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN114547230A (zh) 一种智能行政执法案例信息抽取和案由认定方法
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN115563314A (zh) 多源信息融合增强的知识图谱表示学习方法
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN114490954A (zh) 一种基于任务调节的文档级生成式事件抽取方法
Zhang et al. Adaptive prompt learning-based few-shot sentiment analysis
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
Zhang et al. Chatbot design method using hybrid word vector expression model based on real telemarketing data
Wei et al. Named entity recognition method for educational emergency field based on BERT
Hua et al. A character-level method for text classification
CN116204643A (zh) 一种基于多任务学习知识增强的级联标签分类方法
CN115688777A (zh) 面向中文金融文本的嵌套和不连续实体的命名实体识别系统
CN115994220A (zh) 一种基于语义挖掘的接触网文本数据缺陷识别方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant