CN115545033A - 融合词汇类别表征的中文领域文本命名实体识别方法 - Google Patents

融合词汇类别表征的中文领域文本命名实体识别方法 Download PDF

Info

Publication number
CN115545033A
CN115545033A CN202211272636.2A CN202211272636A CN115545033A CN 115545033 A CN115545033 A CN 115545033A CN 202211272636 A CN202211272636 A CN 202211272636A CN 115545033 A CN115545033 A CN 115545033A
Authority
CN
China
Prior art keywords
character
category
vocabulary
representation
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211272636.2A
Other languages
English (en)
Inventor
相艳
柳如熙
郭军军
线岩团
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202211272636.2A priority Critical patent/CN115545033A/zh
Publication of CN115545033A publication Critical patent/CN115545033A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及融合词汇类别表征的中文领域文本命名实体识别方法,属于命名实体识别技术领域。本发明将字符嵌入、词汇及其类别嵌入送入Transformer编码器进行编码和融合,获得类别增强的字符表征,并在输出端通过门控机制将字符表征与类别表征再次结合,并送入CRF解码,得到字符的实体标签。本发明在中文医疗信息处理挑战榜CBLUE的两个数据集上进行了实验,结果表明本发明的性能相比其他基模型获得了明显提高。

Description

融合词汇类别表征的中文领域文本命名实体识别方法
技术领域
本发明涉及融合词汇类别表征的中文领域文本命名实体识别方法,属于命名实体识别技术领域。
背景技术
中文命名实体识别主要有基于字符或基于词的序列标注方法。基于字符的方法是为每个中文字符分配一个实体标签,而基于词的方法则先对输入句子进行分词,再为每个词分配一个实体标签。近年来较多的中文命名实体识别往往采用基于字符的方法而不是基于词的方法,这是由于基于词的方法在分词过程中会产生误差,使得无法正确的识别实体边界。基于字符的中文命名实体识别则由于中文字符向量缺乏独立的语义表达能力,影响了模型性能。因此,近来有研究者引入词汇信息以提高模型性能。典型的有LatticeLSTM模型,作者构建了Lattice结构将词汇信息融入到字符中。但是,LatticeLSTM只能让词汇与词的最后一个字符产生交互,仅依靠前一步的信息输入,而不能利用全局信息。之后的FLAT模型通过使用相对位置编码让字符与所有匹配到的词汇产生交汇,从而将词汇信息更好的融入字符中。在公共数据集上,这些方法已经取得了很好的效果。
目前中文命名实体识别模型主要是使用基于字符的序列标注方法,这是因为基于词的方法需要对句子进行分词,如果在分词过程中会产生误差,会使得模型无法正确的识别实体边界。但是基于字符的方法只使用了字符信息而无法利用全局词汇信息,因此融入词汇信息对基于字符的中文命名实体识别方法是十分重要的。近年来,为了解决基于字符方法的缺陷,通用领域中文命名实体识别的主要研究内容是如何在基于字符的模型中融入词汇信息。目前通过融合词汇信息以提高NER性能的方法主要有两条路线,一个是DynamicArchitecture,即设计一个动态框架,能够兼容词汇输入。而另一个路线是AdaptiveEmbedding,即基于词汇信息,构建自适应嵌入。这两种路线各有优势,DynamicArchitecture性能更好,但对于每个模型都设计相应结构以融入词汇信息,无法方便的移植;Adaptive Embedding可移植性更强,嵌入机构与模型无关,可以迁移到不同模型上。
由Yang等提出的Lattice LSTM的模型首次提出Adaptive Embedding的方式。他们通过构建Lattice格式融合词汇信息以提高NER性能。Huang等提出了Lexicon-Based CNNs和Refining Networks with Lexicon Rethinking,解决了Lattice LSTM的词汇冲突问题。这两种方法只能让词汇与词的最后一个字符产生交互,仅依靠前一步的信息输入,而不能利用全局信息,无法捕捉长距离依赖关系,存在词汇信息损失的问题。Liu等构建了基于协作的图网络,由编码层、图网络层、融合层、解码层组成,在图网络层通过Graph AttentionNetwork(GAN)进行特征提取,提取图网络中的前n个字符节点的特征。Huang等采取lexicon-based graph neural network(LGN),通过图结构实现局部信息的聚合,将每一个字符作为节点,由匹配到的词汇构成边,并增加全局节点进行全局信息融入。以此来解决Lattice LSTM存在的问题。这两种方法需要RNN作为底层编码器获取全局信息,结构比较复杂。Huang等将Lattice结构展平,将其从一个有向无环图展平为一个平面的Flat-LatticeTransformer结构,通过相对位置编码建模字符与所有匹配的词汇信息间的交互,同时捕捉长距离依赖,相比之前提高了模型效率。
目前,在基于字符的方法中引入词汇信息的中文命名实体识别模型已经取得了很大的进展,可以帮助模型识别实体的边界,但是对于实体类别的判断还有所不足。因此,包含类别信息的词典可以使模型更好的识别实体边界及类别。
针对上述问题,本发明提出了一种融合类别信息的命名实体识别方法。在公开的CBLUE数据集上,本发明方法与一系列基线方法进行了比较,实验结果证明了本发明方法在命名实体识别任务上的有效性。
发明内容
针对上述问题,本发明提供了融合词汇类别表征的中文领域文本命名实体识别方法,将类别信息显式嵌入词向量,生成融合特征向量表示,加深了对实体类别的识别能力;本发明以类别信息来引导实体类别的抽取,在一定程度上解决了以往相关研究工作中模型特征未包含类别信息的问题;提升中文命名实体识别的性能。
本发明的技术方案是:融合词汇类别表征的中文领域文本命名实体识别方法,所述融合词汇类别表征的中文领域文本命名实体识别方法包括如下步骤:
Step1、获得基于文本的词向量表示及其对应的类别向量表示;
Step2、获得含有类别信息的融合特征表示;
Step3、将融合特征表示输入Transformer编码器;
Step4、基于交互门控机制进行信息筛选;
Step5、CRF解码生成预测标签。
作为本发明的进一步方案,所述Step1中,构建了包含词汇类别信息的词典,词典数据来源于搜集的领域文本及数据集的训练集信息,以“词汇,词汇类别”的格式储存;在获得文本中包含的词汇后,根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。
作为本发明的进一步方案,所述Step1具体包括如下:
对于输入的文本序列,分别获取字符向量
Figure BDA0003895688900000031
匹配的词汇向量
Figure BDA0003895688900000032
及其类别向量
Figure BDA0003895688900000033
对于字符嵌入,使用在语料上所训练的字符向量来作为字符的初始嵌入;具体做法为:根据训练好的character embedding lookup table,在基于标准分词后的中文语料库Gigaword上使用Word2vec工具训练的嵌入集合;由此将字符xi映射到字符嵌入表示
Figure BDA0003895688900000034
及bigram嵌入表示
Figure BDA0003895688900000035
Figure BDA0003895688900000036
Figure BDA0003895688900000037
领域词嵌入使用word2vec进行训练,维度为50,窗口设置为5,最小词频设置为5,共训练5轮;最后得到领域词嵌入索引Ew,将每个词汇yj映射到一个词嵌入表示
Figure BDA0003895688900000038
Figure BDA0003895688900000039
对于词汇的类别嵌入,构建了一个包含词汇类别的领域词典Lt,以“词汇,词汇类别”的格式储存,构成包含词汇类别信息的领域词典Lt;Lt将词汇yj映射到类别tj,再通过Ew映射到一个嵌入表示
Figure BDA00038956889000000310
tj=Lt(yj) (4)
Figure BDA00038956889000000311
若词汇没有找到对应的类别,则将其映射为一个固定的随机初始化的嵌入表示。
作为本发明的进一步方案,所述Step2中,得到类别向量表示后,将其和词向量进行拼接,获得含有类别信息的融合特征表示。
作为本发明的进一步方案,所述Step2具体包括如下:
Step2.1、对于输入的文本序列S={x1,x2,...xm},其中xi表示句子中的字,通过不同的字符跨度匹配文本中的词及其类别向量,将类别表征显式嵌入词向量;模型从序列开头以不同的span与词典Ew中的词汇比对,若有和字符集合相同的词,则将匹配到的词yj放在句子的后面,此时文本序列变成S1={x1,x2,...xn,y1,y2,...ym};
Step2.2、然后,将输入序列中的各个字符xi映射到一个字符嵌入表示
Figure BDA0003895688900000041
以及一个bigram特征嵌入
Figure BDA0003895688900000042
Figure BDA0003895688900000043
Figure BDA0003895688900000044
拼接得到融合bigram特征的字符嵌入
Figure BDA0003895688900000045
此时模型的输入嵌入序列为
Figure BDA0003895688900000046
Figure BDA0003895688900000047
其中,
Figure BDA0003895688900000048
表示向量的拼接运算;
Step2.3、对于文本序列中的词汇yj,将输入序列中的各个词映射到一个词汇嵌入
Figure BDA0003895688900000049
并将各个词映射到一个类别嵌入
Figure BDA00038956889000000410
随后,将每个词汇的类别向量
Figure BDA00038956889000000411
与词汇向量
Figure BDA00038956889000000412
拼接得到融合类别表征的词汇向量表示
Figure BDA00038956889000000413
用e表示嵌入,计算过程如下所示;
Figure BDA00038956889000000414
Step2.4、最后,将向量
Figure BDA00038956889000000415
Figure BDA00038956889000000416
通过线性变换变为
Figure BDA00038956889000000417
dmodel表示多头注意力维度,此时模型的输入向量序列为
Figure BDA00038956889000000418
作为本发明的进一步方案,所述Step3中,获得含有类别信息的融合特征表示后,将融合特征表示输入Transformer编码器,得到融合词以及类别信息的字符特征;采用{B,M,E,O,S}标记方案,其中,B表示实体的起始位置、M表示中间位置、E表示结束位置,O表示没有实体的位置,S表示一个字的实体。
作为本发明的进一步方案,所述Step3包括如下:
给每一个字符和词汇增加了两个位置编码,分别表示该字或词在句子中开始和结束的位置,hi和ti分别表示字符和词汇的头、尾位置坐标,并从四个不同的角度来计算xi和yj的距离,从而得到四个相对距离矩阵
Figure BDA00038956889000000419
其中
Figure BDA00038956889000000420
表示xi和yj头坐标之间的距离矩阵,
Figure BDA00038956889000000421
表示xi的尾坐标和yj头坐标之间的距离矩阵,
Figure BDA00038956889000000422
表示xi的头坐标和yj尾坐标之间的距离矩阵,
Figure BDA00038956889000000423
表示xi和yj尾坐标之间的距离矩阵;将这四个距离拼接后作一个非线性变换,得到xi和yj的位置编码向量Rij,具体计算过程如公式8-10所示;
Figure BDA0003895688900000051
Figure BDA0003895688900000052
Figure BDA0003895688900000053
其中,dmodel表示多头注意力维度,Wr是可学习参数,
Figure BDA0003895688900000054
表示向量的拼接运算,d表示四个相对位置矩阵,k表示位置编码的维数索引;将得到的输入向量序列Ex与可学习参数矩阵Wq,Wk,Wv相乘得到注意力权重矩阵Q,K,V,再带入公式12、13进行计算;
[Q,K,V]=Ex[Wq,Wk,Wv] (11)
Figure BDA0003895688900000055
Att(Q,K,V)=softmax(A)V (13)
其中Wk,E、Wk,R、u、v是可学习参数,A是注意力分数;接下来的计算多头注意力,通过h个不同的线性变换对Q,K,V进行映射,将不同的Attention拼接起来并再做一次线性变换,计算过程如下所示:
Multi(Q,K,V)=Concat(head1,...,headh)Wm (14)
Figure BDA0003895688900000056
其中Wm,Wi Q
Figure BDA0003895688900000057
是可学习参数矩阵,h表示注意力头的数量,最后将Multi-head Attention结果输入到FFN层得到输出的字符特征表示
Figure BDA0003895688900000058
Figure BDA0003895688900000059
其中zi是Multi-head Attention层输出的字符向量。
作为本发明的进一步方案,所述Step4中,获得融合词及类别信息的字符特征后,再进行一次信息增强并基于交互门控机制平衡字符及类别表征的贡献。
作为本发明的进一步方案,所述Step4包括如下内容:
根据每个字符所对应的词汇的类型,将相应的类别表征和编码器输出的字符表征拼接;一个字符所对应的类型有两个以上时,将一个字符xi所对应的多个词汇yj、yj+1...通过计算得到相应的类别表征
Figure BDA00038956889000000510
将其拼接并通过线性变换得到相应的类别表征
Figure BDA00038956889000000511
再将
Figure BDA00038956889000000512
和字符表征
Figure BDA00038956889000000513
拼接,计算公式如下所示;
Figure BDA0003895688900000061
其中
Figure BDA0003895688900000062
表示字符所对应词汇的类别表征,Wt、bt是可学习参数,因为不同字符所对应词汇的数量不同,统计句子中字符所对应词汇数量,一个字符所对应的最多词汇的数量为l;对词汇数量不足l的字符,通过一个固定的随机初始化的向量进行补充,使句子中所有字符向量的维度保持一致;
为了动态平衡字符表征与类别表征的贡献,通过交互门控机制来控制类别表征的占比,门控机制计算公式如下所示;
Figure BDA0003895688900000063
Figure BDA0003895688900000064
Figure BDA0003895688900000065
其中σ表示sigmod函数,⊙表示矩阵元素间乘法,Gi是门控输出,Wg、Ug、bg是可学习参数。
作为本发明的进一步方案,所述Step5中,将门控输出的字符特征输入CRF模型解码,得到实体标签信息。
本发明的有益效果是:
本发明首先,获得基于文本的词向量表示及其对应的类别向量表示;然后,获得含有类别信息的融合特征表示;其次,将融合特征表示输入Transformer编码器;再基于交互门控机制进行信息筛选;最后,输入CRF解码生成预测标签。在公开的CBLUE数据集上,本发明方法与一系列基线方法进行了比较,实验结果证明了本发明方法在命名实体识别任务上的有效性。
附图说明
图1为本发明中的融合类别表征的领域文本命名实体识别模型框架;
图2为本发明中类别表征维度消融实验结果;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
中文命名实体识别是一个重要的信息抽取任务。目前面向领域文本的中文命名实体识别主要采用基于字符的序列标注方法,并关注于在模型中加入词语信息来改善模型性能。领域专有词汇通常有对应的实体类别,而现有方法均忽略了这种类别表征对于实体边界和类别的识别作用。
下面结合附图,对根据本发明所提供的融合词汇类别表征的中文领域文本命名实体识别方法进行详细描述。
实施例1:如图1-图2所示,融合词汇类别表征的中文领域文本命名实体识别方法,所述方法包括如下步骤:
Step1、获得基于文本的词向量表示及其对应的类别向量表示;
构建了包含词汇类别信息的词典,本发明使用的数据来自于中文领域命名实体识别数据集CMeEE。和CMeIE。数据集统计见表1。
表1数据集统计
Figure BDA0003895688900000071
词典数据以“词汇,词汇类别”的格式储存;在获得文本中包含的词汇后,根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。具体的,本发明实验环境为基于Python 3.7的深度学习框架Pytoch1.7.1。实验采用Word2vec预训练模型初始化数据集的词向量及类别,词向量维度设置为d=50。Transformer隐藏层向量维度dmodel设置为160。模型训练过程中,设置CMeIE学习率为1e-3,CMeEE学习率为2e-4,batch_size为8,采用dropout策略以防止过拟合;
所述Step1具体包括如下:
对于输入的文本序列,分别获取字符向量
Figure BDA0003895688900000072
匹配的词汇向量
Figure BDA0003895688900000073
及其类别向量
Figure BDA0003895688900000074
对于字符嵌入,使用在语料上所训练的字符向量来作为字符的初始嵌入;具体做法为:根据训练好的character embedding lookup table,在基于标准分词后的中文语料库Gigaword上使用Word2vec工具训练的嵌入集合;由此将字符xi映射到字符嵌入表示
Figure BDA0003895688900000081
及bigram嵌入表示
Figure BDA0003895688900000082
Figure BDA0003895688900000083
Figure BDA0003895688900000084
领域词嵌入使用word2vec进行训练,维度为50,窗口设置为5,最小词频设置为5,共训练5轮;最后得到领域词嵌入索引Ew,将每个词汇yj映射到一个词嵌入表示
Figure BDA0003895688900000085
Figure BDA0003895688900000086
对于词汇的类别嵌入,构建了一个包含词汇类别的领域词典Lt,以“词汇,词汇类别”的格式储存,构成包含词汇类别信息的领域词典Lt;Lt将词汇yj映射到类别tj,再通过Ew映射到一个嵌入表示
Figure BDA0003895688900000087
tj=Lt(yj) (4)
Figure BDA0003895688900000088
若词汇没有找到对应的类别,则将其映射为一个固定的随机初始化的嵌入表示。
Step2、获得含有类别信息的融合特征表示;
由Step 1得到包含词汇类别信息的词典后,在模型的输入阶段,通过跨度匹配文本中的词及其类别特征向量,将类别信息显式嵌入词向量,使命名实体识别任务从中获得提升。
所述Step2具体包括如下:
Step2.1、对于输入的文本序列S={x1,x2,...xm},其中xi表示句子中的字,通过不同的字符跨度匹配文本中的词及其类别向量,将类别表征显式嵌入词向量;模型从序列开头以不同的span与词典Ew中的词汇比对,若有和字符集合相同的词,则将匹配到的词yj放在句子的后面,此时文本序列变成S1={x1,x2,...xn,y1,y2,...ym};
Step2.2、然后,通过公式(1)、(2)将输入序列中的各个字符xi映射到一个字符嵌入表示
Figure BDA0003895688900000089
以及一个bigram特征嵌入
Figure BDA00038956889000000810
Figure BDA00038956889000000811
Figure BDA00038956889000000812
拼接得到融合bigram特征的字符嵌入
Figure BDA00038956889000000813
此时模型的输入嵌入序列为
Figure BDA00038956889000000814
Figure BDA00038956889000000815
其中,
Figure BDA0003895688900000091
表示向量的拼接运算;
Step2.3、对于文本序列中的词汇yj,通过公式(3)将输入序列中的各个词映射到一个词汇嵌入
Figure BDA0003895688900000092
并通过公式(4)、(5)将各个词映射到一个类别嵌入
Figure BDA0003895688900000093
随后,将每个词汇的类别向量
Figure BDA0003895688900000094
与词汇向量
Figure BDA0003895688900000095
拼接得到融合类别表征的词汇向量表示
Figure BDA0003895688900000096
用e表示嵌入,计算过程如下所示;
Figure BDA0003895688900000097
Step2.4、最后,将向量
Figure BDA0003895688900000098
Figure BDA0003895688900000099
通过线性变换变为
Figure BDA00038956889000000910
dmodel表示多头注意力维度,此时模型的输入向量序列为
Figure BDA00038956889000000911
Step3、将融合特征表示输入Transformer编码器;
所述Step3中,获得含有类别信息的融合特征表示后,将融合特征表示输入Transformer编码器,得到融合词以及类别信息的字符特征;采用{B,M,E,O,S}标记方案,其中,B表示实体的起始位置、M表示中间位置、E表示结束位置,O表示没有实体的位置,S表示一个字的实体。
作为本发明的进一步方案,所述Step3包括如下:
给每一个字符和词汇增加了两个位置编码,分别表示该字或词在句子中开始和结束的位置,如图1所示,hi和ti分别表示字符和词汇的头、尾位置坐标,并从四个不同的角度来计算xi和yj的距离,从而得到四个相对距离矩阵
Figure BDA00038956889000000912
其中
Figure BDA00038956889000000913
表示xi和yj头坐标之间的距离矩阵,
Figure BDA00038956889000000914
表示xi的尾坐标和yj头坐标之间的距离矩阵,
Figure BDA00038956889000000915
表示xi的头坐标和yj尾坐标之间的距离矩阵,
Figure BDA00038956889000000916
表示xi和yj尾坐标之间的距离矩阵;将这四个距离拼接后作一个非线性变换,得到xi和yj的位置编码向量Rij,具体计算过程如公式8-10所示;
Figure BDA00038956889000000917
Figure BDA00038956889000000918
Figure BDA00038956889000000919
其中,dmodel表示多头注意力维度,Wr是可学习参数,
Figure BDA00038956889000000920
表示向量的拼接运算,d表示四个相对位置矩阵,k表示位置编码的维数索引;将得到的输入向量序列Ex与可学习参数矩阵Wq,Wk,Wv相乘得到注意力权重矩阵Q,K,V,再带入公式12、13进行计算;
[Q,K,V]=Ex[Wq,Wk,Wv] (11)
Figure BDA0003895688900000101
Att(Q,K,V)=softmax(A)V (13)
其中Wk,E、Wk,R、u、v是可学习参数,A是注意力分数;接下来的计算多头注意力,通过h个不同的线性变换对Q,K,V进行映射,将不同的Attention拼接起来并再做一次线性变换,计算过程如下所示:
Multi(Q,K,V)=Concat(head1,...,headh)Wm (14)
Figure BDA0003895688900000102
其中Wm,Wi Q
Figure BDA0003895688900000103
是可学习参数矩阵,h表示注意力头的数量,最后将Multi-head Attention结果输入到FFN层得到输出的字符特征表示
Figure BDA0003895688900000104
Figure BDA0003895688900000105
其中zi是Multi-head Attention层输出的字符向量。
Step4、基于交互门控机制进行信息筛选;
所述Step4中,获得融合词及类别信息的字符特征后,再进行一次信息增强并基于交互门控机制平衡字符及类别表征的贡献。
所述Step4包括如下内容:
根据每个字符所对应的词汇的类型,将相应的类别表征和编码器输出的字符表征拼接;一个字符所对应的类型有两个以上时,将一个字符xi所对应的多个词汇yj、yj+1...通过计算得到相应的类别表征
Figure BDA0003895688900000106
将其拼接并通过线性变换得到相应的类别表征
Figure BDA0003895688900000107
再将
Figure BDA0003895688900000108
和字符表征
Figure BDA0003895688900000109
拼接,计算公式如下所示;
Figure BDA00038956889000001010
其中
Figure BDA00038956889000001011
表示字符所对应词汇的类别表征,Wt、bt是可学习参数,因为不同字符所对应词汇的数量不同,统计句子中字符所对应词汇数量,一个字符所对应的最多词汇的数量为l;对词汇数量不足l的字符,通过一个固定的随机初始化的向量进行补充,使句子中所有字符向量的维度保持一致;
为了动态平衡字符表征与类别表征的贡献,通过交互门控机制来控制类别表征的占比,门控机制计算公式如下所示;
Figure BDA0003895688900000111
Figure BDA0003895688900000112
Figure BDA0003895688900000113
其中σ表示sigmod函数,⊙表示矩阵元素间乘法,Gi是门控输出,Wg、Ug、bg是可学习参数。
Step5、CRF解码生成预测标签。将门控输出的字符特征输入CRF模型解码,得到实体标签信息。
在获得Step 4的融合类别表征输出的字符特征后,本发明使用CRF作为解码器获得实体标签信息。具体而言,CRF由一个发射矩阵
Figure BDA0003895688900000114
和转移矩阵
Figure BDA0003895688900000115
组成,其中n是句子中的字符数,tags是标签数。矩阵E记录每个标签的概率,其中Eij表示第i个字符为第j个实体标签的概率;而矩阵T是一个可学习的参数矩阵,其中的Tij表示第j个标签转移到第i个标签的概率,用来模拟相邻标签之间的关系,它能够使我们显式地建模标签之间的转移关系,提高命名实体识别的准确率。本发明将将融合类别表征的字符特征Zi输入到CRF中,使用负对数似然函数计算概率最大的标签序列。具体公式如下:
E=σ(Wchi+bc) (21)
Figure BDA0003895688900000116
Figure BDA0003895688900000117
其中,Wc、bc是可学习参数,
Figure BDA0003895688900000118
表示观测序列与标签序列之间的发射概率和标签序列转移分数之和,S表示观测序列,z表示真实标签,Z表示真实标签的集合。最后我们使用负对数似然函数计算标签的损失:
Loss=-logp(z|S) (24)
为了证明本发明的效果,将本发明所提出的融合类别信息的命名实体识别方法与基线模型的进行对比,实验结果如表2所示。本发明选用的基线模型主要是基于词汇增强方法的中文命名实体识别模型,具体如下:
Lattice LSTM:该模型在基于字符的序列标注框架中融入词汇信息,通过构建Lattice格式表示字符信息与词汇信息的交互。
LR-CNN:该模型提出了Lexicon-Based CNNs和Refining Networks with LexiconRethinking来解决Lattice LSTM模型的词汇冲突问题。
LGN:该模型采取lexicon-based graph neural network(LGN),通过图结构实现局部信息的聚合,将每一个字符作为节点,由匹配到的词汇构成边,并增加全局节点进行全局信息融入。解决了Lattice LSTM只依靠前一步的信息输入,而不能利用全局信息的问题。
WC-LSTM:该模型为解决Lattice LSTM中每个字符只能获取以它为结尾的词汇数量是动态的、不固定的从而导致Lattice LSTM不能batch并行化的问题,采取WordsEncoding Strategy,以固定编码表示每个字符为结尾的词汇信息,没有对应词汇则以<pad>表示。
Simple-Lexicon:该模型为避免设计复杂的模型结构、同时为便于迁移到其他序列标注框架,提出了一种在embedding层简单利用词汇的方法,对于每个字符获取其BMES四个位置所对应的所有词汇集合,再对其进行编码表示。
FLAT:该模型将Lattice结构展平,将其从一个有向无环图展平为一个平面的Flat-Lattice Transformer结构,来直接建模字符与所有匹配的词汇信息间的交互,同时可以捕捉长距离依赖。
MECT:该模型提出了一种Cross-Transformer来获取汉字结构的补充语义信息。与Transformer中的自注意力不同,Cross-Transformer使用两个Transformer编码器来交叉Lattice和汉字的结构信息。
表2对比实验结果
Figure BDA0003895688900000121
Figure BDA0003895688900000131
整体上,由表2可知,与所有基线模型相比,本发明所提出的模型TFLAT在CMeEE、CMeIE两个数据集上均取得了最高的F1值,验证了本发明方法的有效性。本发明模型融合了词向量和类别向量,以此作为特征表示,充分考虑了词汇的类别表征和词汇的语义信息。因此,本发明模型得以获得较优性能。相较于LatticeLSTM、LR-CNN这类仅仅依靠前一步的信息输入,而不能利用全局信息的模型,本发明模型展现出明显优势,在两个数据集上性能分别比LatticeLSTM高出3.0%、3.5%。与LGN模型和WC-LSTM模型相比,本发明模型对词汇信息利用更充分,对实体识别更为准确,性能分别比LGN模型高出1.8%、2.6%。与FLAT模型相比,本发明模型融合了类别表征,在CMeEE、CMeIE两个数据集上F1值分别提升了1.3%、0.8%,验证了融入类别表征能够帮助模型更好的识别实体。
为了探索在模型的融入类别表征的命名实体识别方法中各部分的重要性,本发明进行了使用CMeEE与CMeIE数据集在以下两种实验设置下进行比较:
1、w/o output-type:只在输入端融合词汇信息与类别表征,以验证词汇信息融合类别表征后对于模型性能的提升。
2、w/o input-type:只在transformer编码器输出特征后将字特征与类别表征进行融合,而不在输入端融入类别表征,以验证字特征与类别表征进行融合的作用。
实验过程中,实验环境设置等与步骤2保持一致。实验结果如表3所示。
表3不同层融合类别表征融实验结果
Figure BDA0003895688900000132
从实验结果可知,当只在输入端融入类别表征的情况下模型在CMeIE数据集上性能下降不明显,而只在Transformer编码器输出字符特征后将字符特征与类别表征进行融合时性能有较大幅度的下降。而在CMeEE数据集上,经实验发现只在输入端融入类别表征与只在输出端将字信息与类别表征融合后性能均出现较为明显的下降。
通过以上实验与分析,本发明认为在输入端将词信息与类别表征融合与在输出端将字特征与类别表征融合,均发挥着重要作用。
为了进一步探索融入类别表征的维度对于模型性能的影响,本发明在CMeIE、CMeEE数据集上通过线性变换函数改变类别向量的维度,使用从50维到100维的不同维度向量进行比较,其中50维是字向量及词向量的原始维度,其余实验设置保持一致。实验结果如图2所示。
从实验结果可知,维度为50的类别向量效果最佳,当向量维度扩大时性能有一定下降。这可能是由于类别向量维度过大减小了字向量和词向量的信息比例,导致模型获取的字和词的信息减少,从而影响了模型性能。
通过以上实验与分析,本发明认为使用维度为50的类别向量,即保持类别向量维度与字向量及词向量维度一致时是最合适的。
本发明提出了一种融合类别信息的用于中文领域文本命名实体识别的方法。本发明以类别信息来引导实体类别的抽取,在一定程度上解决了以往相关研究工作中模型特征未包含类别信息的问题。首先,在模型输入阶段融合词汇和类别信息,加深模型对数据语义的理解;然后,在transformer encoder输出特征后,根据每个字所对应的词的类别拼接相应的类别向量,进一步强化类别信息。在CALUA的两个数据集上进行了实验,实验结果表明了文本提出融合类别信息的方法模型在中文领域文本命名实体识别任务中的性能优于其余基线模型,从而验证了融合类别信息能提升中文命名实体识别模型的性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述融合词汇类别表征的中文领域文本命名实体识别方法包括如下步骤:
Step1、获得基于文本的词向量表示及其对应的类别向量表示;
Step2、获得含有类别信息的融合特征表示;
Step3、将融合特征表示输入Transformer编码器;
Step4、基于交互门控机制进行信息筛选;
Step5、CRF解码生成预测标签。
2.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step1中,构建了包含词汇类别信息的词典,词典数据来源于搜集的领域文本及数据集的训练集信息,以“词汇,词汇类别”的格式储存;在获得文本中包含的词汇后,根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。
3.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step1具体包括如下:
对于输入的文本序列,分别获取字符向量
Figure FDA0003895688890000011
匹配的词汇向量
Figure FDA0003895688890000012
及其类别向量
Figure FDA0003895688890000013
对于字符嵌入,使用在语料上所训练的字符向量来作为字符的初始嵌入;具体做法为:根据训练好的character embedding lookup table,在基于标准分词后的中文语料库Gigaword上使用Word2vec工具训练的嵌入集合;由此将字符xi映射到字符嵌入表示
Figure FDA0003895688890000014
及bigram嵌入表示
Figure FDA0003895688890000015
Figure FDA0003895688890000016
Figure FDA0003895688890000017
领域词嵌入使用word2vec进行训练,维度为50,窗口设置为5,最小词频设置为5,共训练5轮;最后得到领域词嵌入索引Ew,将每个词汇yj映射到一个词嵌入表示
Figure FDA0003895688890000018
Figure FDA0003895688890000019
对于词汇的类别嵌入,构建了一个包含词汇类别的领域词典Lt,以“词汇,词汇类别”的格式储存,构成包含词汇类别信息的领域词典Lt;Lt将词汇yj映射到类别tj,再通过Ew映射到一个嵌入表示
Figure FDA0003895688890000021
tj=Lt(yj) (4)
Figure FDA0003895688890000022
若词汇没有找到对应的类别,则将其映射为一个固定的随机初始化的嵌入表示。
4.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step2中,得到类别向量表示后,将其和词向量进行拼接,获得含有类别信息的融合特征表示。
5.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step2具体包括如下:
Step2.1、对于输入的文本序列S={x1,x2,...xm},其中xi表示句子中的字,通过不同的字符跨度匹配文本中的词及其类别向量,将类别表征显式嵌入词向量;模型从序列开头以不同的span与词典Ew中的词汇比对,若有和字符集合相同的词,则将匹配到的词yj放在句子的后面,此时文本序列变成S1={x1,x2,...xn,y1,y2,...ym};
Step2.2、然后,将输入序列中的各个字符xi映射到一个字符嵌入表示
Figure FDA0003895688890000023
以及一个bigram特征嵌入
Figure FDA0003895688890000024
Figure FDA0003895688890000025
Figure FDA0003895688890000026
拼接得到融合bigram特征的字符嵌入
Figure FDA0003895688890000027
此时模型的输入嵌入序列为
Figure FDA0003895688890000028
Figure FDA0003895688890000029
其中,
Figure FDA00038956888900000210
表示向量的拼接运算;
Step2.3、对于文本序列中的词汇yj,将输入序列中的各个词映射到一个词汇嵌入
Figure FDA00038956888900000211
并将各个词映射到一个类别嵌入
Figure FDA00038956888900000212
随后,将每个词汇的类别向量
Figure FDA00038956888900000213
与词汇向量
Figure FDA00038956888900000214
拼接得到融合类别表征的词汇向量表示
Figure FDA00038956888900000215
用e表示嵌入,计算过程如下所示;
Figure FDA00038956888900000216
Step2.4、最后,将向量
Figure FDA00038956888900000217
Figure FDA00038956888900000218
通过线性变换变为
Figure FDA00038956888900000219
dmodel表示多头注意力维度,此时模型的输入向量序列为
Figure FDA0003895688890000031
6.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step3中,获得含有类别信息的融合特征表示后,将融合特征表示输入Transformer编码器,得到融合词以及类别信息的字符特征;采用{B,M,E,O,S}标记方案,其中,B表示实体的起始位置、M表示中间位置、E表示结束位置,O表示没有实体的位置,S表示一个字的实体。
7.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step3包括如下:
给每一个字符和词汇增加了两个位置编码,分别表示该字或词在句子中开始和结束的位置,hi和ti分别表示字符和词汇的头、尾位置坐标,并从四个不同的角度来计算xi和yj的距离,从而得到四个相对距离矩阵
Figure FDA0003895688890000032
其中
Figure FDA0003895688890000033
表示xi和yj头坐标之间的距离矩阵,
Figure FDA0003895688890000034
表示xi的尾坐标和yj头坐标之间的距离矩阵,
Figure FDA0003895688890000035
表示xi的头坐标和yj尾坐标之间的距离矩阵,
Figure FDA0003895688890000036
表示xi和yj尾坐标之间的距离矩阵;将这四个距离拼接后作一个非线性变换,得到xi和yj的位置编码向量Rij,具体计算过程如公式8-10所示;
Figure FDA0003895688890000037
Figure FDA0003895688890000038
Figure FDA0003895688890000039
其中,dmodel表示多头注意力维度,Wr是可学习参数,
Figure FDA00038956888900000310
表示向量的拼接运算,d表示四个相对位置矩阵,k表示位置编码的维数索引;将得到的输入向量序列Ex与可学习参数矩阵Wq,Wk,Wv相乘得到注意力权重矩阵Q,K,V,再带入公式12、13进行计算;
[Q,K,V]=Ex[Wq,Wk,Wv] (11)
Figure FDA00038956888900000311
Att(Q,K,V)=softmax(A)V (13)
其中Wk,E、Wk,R、u、v是可学习参数,A是注意力分数;接下来的计算多头注意力,通过h个不同的线性变换对Q,K,V进行映射,将不同的Attention拼接起来并再做一次线性变换,计算过程如下所示:
Multi(Q,K,V)=Concat(head1,...,headh)Wm (14)
headi=Att(QWi Q,KWi K,VWi V) (15)
其中Wm,Wi Q,Wi K,Wi V是可学习参数矩阵,h表示注意力头的数量,最后将Multi-headAttention结果输入到FFN层得到输出的字符特征表示
Figure FDA0003895688890000041
Figure FDA0003895688890000042
其中zi是Multi-head Attention层输出的字符向量。
8.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step4中,获得融合词及类别信息的字符特征后,再进行一次信息增强并基于交互门控机制平衡字符及类别表征的贡献。
9.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step4包括如下内容:
根据每个字符所对应的词汇的类型,将相应的类别表征和编码器输出的字符表征拼接;一个字符所对应的类型有两个以上时,将一个字符xi所对应的多个词汇yj、yj+1...通过计算得到相应的类别表征
Figure FDA0003895688890000043
将其拼接并通过线性变换得到相应的类别表征
Figure FDA0003895688890000044
再将
Figure FDA0003895688890000045
和字符表征
Figure FDA0003895688890000046
拼接,计算公式如下所示;
Figure FDA0003895688890000047
其中
Figure FDA0003895688890000048
表示字符所对应词汇的类别表征,Wt、bt是可学习参数,因为不同字符所对应词汇的数量不同,统计句子中字符所对应词汇数量,一个字符所对应的最多词汇的数量为l;对词汇数量不足l的字符,通过一个固定的随机初始化的向量进行补充,使句子中所有字符向量的维度保持一致;
为了动态平衡字符表征与类别表征的贡献,通过交互门控机制来控制类别表征的占比,门控机制计算公式如下所示;
Figure FDA0003895688890000049
Figure FDA00038956888900000410
Figure FDA00038956888900000411
其中σ表示sigmod函数,⊙表示矩阵元素间乘法,Gi是门控输出,Wg、Ug、bg是可学习参数。
10.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step5中,将门控输出的字符特征输入CRF模型解码,得到实体标签信息。
CN202211272636.2A 2022-10-18 2022-10-18 融合词汇类别表征的中文领域文本命名实体识别方法 Pending CN115545033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211272636.2A CN115545033A (zh) 2022-10-18 2022-10-18 融合词汇类别表征的中文领域文本命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211272636.2A CN115545033A (zh) 2022-10-18 2022-10-18 融合词汇类别表征的中文领域文本命名实体识别方法

Publications (1)

Publication Number Publication Date
CN115545033A true CN115545033A (zh) 2022-12-30

Family

ID=84735455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211272636.2A Pending CN115545033A (zh) 2022-10-18 2022-10-18 融合词汇类别表征的中文领域文本命名实体识别方法

Country Status (1)

Country Link
CN (1) CN115545033A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116167368A (zh) * 2023-04-23 2023-05-26 昆明理工大学 基于类型关联特征增强的领域文本实体关系抽取方法
CN116502641A (zh) * 2023-04-11 2023-07-28 成都图奕科技有限公司 基于字符字形特征的中文命名实体识别方法及系统
CN117113997A (zh) * 2023-07-25 2023-11-24 四川大学 一种增强词典知识融入的中文命名实体识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502641A (zh) * 2023-04-11 2023-07-28 成都图奕科技有限公司 基于字符字形特征的中文命名实体识别方法及系统
CN116502641B (zh) * 2023-04-11 2024-04-05 成都图奕科技有限公司 基于字符字形特征的中文命名实体识别方法及系统
CN116167368A (zh) * 2023-04-23 2023-05-26 昆明理工大学 基于类型关联特征增强的领域文本实体关系抽取方法
CN116167368B (zh) * 2023-04-23 2023-06-27 昆明理工大学 基于类型关联特征增强的领域文本实体关系抽取方法
CN117113997A (zh) * 2023-07-25 2023-11-24 四川大学 一种增强词典知识融入的中文命名实体识别方法

Similar Documents

Publication Publication Date Title
CN107357789B (zh) 融合多语编码信息的神经机器翻译方法
CN110134771B (zh) 一种基于多注意力机制融合网络问答系统的实现方法
CN112100351A (zh) 一种通过问题生成数据集构建智能问答系统的方法及设备
CN115545033A (zh) 融合词汇类别表征的中文领域文本命名实体识别方法
CN112989834A (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111160343A (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN109977220B (zh) 一种基于关键句和关键字的反向生成摘要的方法
CN114154504B (zh) 一种基于多信息增强的中文命名实体识别算法
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114429132A (zh) 一种基于混合格自注意力网络的命名实体识别方法和装置
CN112784576B (zh) 一种文本依存句法分析方法
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN115630145A (zh) 一种基于多粒度情感的对话推荐方法及系统
CN113609857A (zh) 基于级联模型和数据增强的法律命名实体识别方法及系统
CN115859164A (zh) 一种基于prompt的建筑实体识别并分类方法及系统
CN116720531A (zh) 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法
CN115019142A (zh) 基于融合特征的图像标题生成方法、系统、电子设备
CN114036246A (zh) 商品图谱向量化方法、装置、电子设备及存储介质
CN113901813A (zh) 一种基于主题特征和隐式句子结构的事件抽取方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN115952284A (zh) 一种融合密度聚类与ernie的医疗文本关系抽取方法
CN113157855A (zh) 一种融合语义与上下文信息的文本摘要方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination