CN115545033A - 融合词汇类别表征的中文领域文本命名实体识别方法 - Google Patents
融合词汇类别表征的中文领域文本命名实体识别方法 Download PDFInfo
- Publication number
- CN115545033A CN115545033A CN202211272636.2A CN202211272636A CN115545033A CN 115545033 A CN115545033 A CN 115545033A CN 202211272636 A CN202211272636 A CN 202211272636A CN 115545033 A CN115545033 A CN 115545033A
- Authority
- CN
- China
- Prior art keywords
- character
- category
- vocabulary
- representation
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 97
- 230000004927 fusion Effects 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000012512 characterization method Methods 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 13
- 230000002452 interceptive effect Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 4
- 239000013604 expression vector Substances 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 10
- 230000010365 information processing Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000007670 refining Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101100397240 Arabidopsis thaliana ISPD gene Proteins 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 101150026370 calua gene Proteins 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融合词汇类别表征的中文领域文本命名实体识别方法,属于命名实体识别技术领域。本发明将字符嵌入、词汇及其类别嵌入送入Transformer编码器进行编码和融合,获得类别增强的字符表征,并在输出端通过门控机制将字符表征与类别表征再次结合,并送入CRF解码,得到字符的实体标签。本发明在中文医疗信息处理挑战榜CBLUE的两个数据集上进行了实验,结果表明本发明的性能相比其他基模型获得了明显提高。
Description
技术领域
本发明涉及融合词汇类别表征的中文领域文本命名实体识别方法,属于命名实体识别技术领域。
背景技术
中文命名实体识别主要有基于字符或基于词的序列标注方法。基于字符的方法是为每个中文字符分配一个实体标签,而基于词的方法则先对输入句子进行分词,再为每个词分配一个实体标签。近年来较多的中文命名实体识别往往采用基于字符的方法而不是基于词的方法,这是由于基于词的方法在分词过程中会产生误差,使得无法正确的识别实体边界。基于字符的中文命名实体识别则由于中文字符向量缺乏独立的语义表达能力,影响了模型性能。因此,近来有研究者引入词汇信息以提高模型性能。典型的有LatticeLSTM模型,作者构建了Lattice结构将词汇信息融入到字符中。但是,LatticeLSTM只能让词汇与词的最后一个字符产生交互,仅依靠前一步的信息输入,而不能利用全局信息。之后的FLAT模型通过使用相对位置编码让字符与所有匹配到的词汇产生交汇,从而将词汇信息更好的融入字符中。在公共数据集上,这些方法已经取得了很好的效果。
目前中文命名实体识别模型主要是使用基于字符的序列标注方法,这是因为基于词的方法需要对句子进行分词,如果在分词过程中会产生误差,会使得模型无法正确的识别实体边界。但是基于字符的方法只使用了字符信息而无法利用全局词汇信息,因此融入词汇信息对基于字符的中文命名实体识别方法是十分重要的。近年来,为了解决基于字符方法的缺陷,通用领域中文命名实体识别的主要研究内容是如何在基于字符的模型中融入词汇信息。目前通过融合词汇信息以提高NER性能的方法主要有两条路线,一个是DynamicArchitecture,即设计一个动态框架,能够兼容词汇输入。而另一个路线是AdaptiveEmbedding,即基于词汇信息,构建自适应嵌入。这两种路线各有优势,DynamicArchitecture性能更好,但对于每个模型都设计相应结构以融入词汇信息,无法方便的移植;Adaptive Embedding可移植性更强,嵌入机构与模型无关,可以迁移到不同模型上。
由Yang等提出的Lattice LSTM的模型首次提出Adaptive Embedding的方式。他们通过构建Lattice格式融合词汇信息以提高NER性能。Huang等提出了Lexicon-Based CNNs和Refining Networks with Lexicon Rethinking,解决了Lattice LSTM的词汇冲突问题。这两种方法只能让词汇与词的最后一个字符产生交互,仅依靠前一步的信息输入,而不能利用全局信息,无法捕捉长距离依赖关系,存在词汇信息损失的问题。Liu等构建了基于协作的图网络,由编码层、图网络层、融合层、解码层组成,在图网络层通过Graph AttentionNetwork(GAN)进行特征提取,提取图网络中的前n个字符节点的特征。Huang等采取lexicon-based graph neural network(LGN),通过图结构实现局部信息的聚合,将每一个字符作为节点,由匹配到的词汇构成边,并增加全局节点进行全局信息融入。以此来解决Lattice LSTM存在的问题。这两种方法需要RNN作为底层编码器获取全局信息,结构比较复杂。Huang等将Lattice结构展平,将其从一个有向无环图展平为一个平面的Flat-LatticeTransformer结构,通过相对位置编码建模字符与所有匹配的词汇信息间的交互,同时捕捉长距离依赖,相比之前提高了模型效率。
目前,在基于字符的方法中引入词汇信息的中文命名实体识别模型已经取得了很大的进展,可以帮助模型识别实体的边界,但是对于实体类别的判断还有所不足。因此,包含类别信息的词典可以使模型更好的识别实体边界及类别。
针对上述问题,本发明提出了一种融合类别信息的命名实体识别方法。在公开的CBLUE数据集上,本发明方法与一系列基线方法进行了比较,实验结果证明了本发明方法在命名实体识别任务上的有效性。
发明内容
针对上述问题,本发明提供了融合词汇类别表征的中文领域文本命名实体识别方法,将类别信息显式嵌入词向量,生成融合特征向量表示,加深了对实体类别的识别能力;本发明以类别信息来引导实体类别的抽取,在一定程度上解决了以往相关研究工作中模型特征未包含类别信息的问题;提升中文命名实体识别的性能。
本发明的技术方案是:融合词汇类别表征的中文领域文本命名实体识别方法,所述融合词汇类别表征的中文领域文本命名实体识别方法包括如下步骤:
Step1、获得基于文本的词向量表示及其对应的类别向量表示;
Step2、获得含有类别信息的融合特征表示;
Step3、将融合特征表示输入Transformer编码器;
Step4、基于交互门控机制进行信息筛选;
Step5、CRF解码生成预测标签。
作为本发明的进一步方案,所述Step1中,构建了包含词汇类别信息的词典,词典数据来源于搜集的领域文本及数据集的训练集信息,以“词汇,词汇类别”的格式储存;在获得文本中包含的词汇后,根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。
作为本发明的进一步方案,所述Step1具体包括如下:
对于字符嵌入,使用在语料上所训练的字符向量来作为字符的初始嵌入;具体做法为:根据训练好的character embedding lookup table,在基于标准分词后的中文语料库Gigaword上使用Word2vec工具训练的嵌入集合;由此将字符xi映射到字符嵌入表示及bigram嵌入表示
tj=Lt(yj) (4)
若词汇没有找到对应的类别,则将其映射为一个固定的随机初始化的嵌入表示。
作为本发明的进一步方案,所述Step2中,得到类别向量表示后,将其和词向量进行拼接,获得含有类别信息的融合特征表示。
作为本发明的进一步方案,所述Step2具体包括如下:
Step2.1、对于输入的文本序列S={x1,x2,...xm},其中xi表示句子中的字,通过不同的字符跨度匹配文本中的词及其类别向量,将类别表征显式嵌入词向量;模型从序列开头以不同的span与词典Ew中的词汇比对,若有和字符集合相同的词,则将匹配到的词yj放在句子的后面,此时文本序列变成S1={x1,x2,...xn,y1,y2,...ym};
Step2.3、对于文本序列中的词汇yj,将输入序列中的各个词映射到一个词汇嵌入并将各个词映射到一个类别嵌入随后,将每个词汇的类别向量与词汇向量拼接得到融合类别表征的词汇向量表示用e表示嵌入,计算过程如下所示;
作为本发明的进一步方案,所述Step3中,获得含有类别信息的融合特征表示后,将融合特征表示输入Transformer编码器,得到融合词以及类别信息的字符特征;采用{B,M,E,O,S}标记方案,其中,B表示实体的起始位置、M表示中间位置、E表示结束位置,O表示没有实体的位置,S表示一个字的实体。
作为本发明的进一步方案,所述Step3包括如下:
给每一个字符和词汇增加了两个位置编码,分别表示该字或词在句子中开始和结束的位置,hi和ti分别表示字符和词汇的头、尾位置坐标,并从四个不同的角度来计算xi和yj的距离,从而得到四个相对距离矩阵其中表示xi和yj头坐标之间的距离矩阵,表示xi的尾坐标和yj头坐标之间的距离矩阵,表示xi的头坐标和yj尾坐标之间的距离矩阵,表示xi和yj尾坐标之间的距离矩阵;将这四个距离拼接后作一个非线性变换,得到xi和yj的位置编码向量Rij,具体计算过程如公式8-10所示;
其中,dmodel表示多头注意力维度,Wr是可学习参数,表示向量的拼接运算,d表示四个相对位置矩阵,k表示位置编码的维数索引;将得到的输入向量序列Ex与可学习参数矩阵Wq,Wk,Wv相乘得到注意力权重矩阵Q,K,V,再带入公式12、13进行计算;
[Q,K,V]=Ex[Wq,Wk,Wv] (11)
Att(Q,K,V)=softmax(A)V (13)
其中Wk,E、Wk,R、u、v是可学习参数,A是注意力分数;接下来的计算多头注意力,通过h个不同的线性变换对Q,K,V进行映射,将不同的Attention拼接起来并再做一次线性变换,计算过程如下所示:
Multi(Q,K,V)=Concat(head1,...,headh)Wm (14)
其中zi是Multi-head Attention层输出的字符向量。
作为本发明的进一步方案,所述Step4中,获得融合词及类别信息的字符特征后,再进行一次信息增强并基于交互门控机制平衡字符及类别表征的贡献。
作为本发明的进一步方案,所述Step4包括如下内容:
根据每个字符所对应的词汇的类型,将相应的类别表征和编码器输出的字符表征拼接;一个字符所对应的类型有两个以上时,将一个字符xi所对应的多个词汇yj、yj+1...通过计算得到相应的类别表征将其拼接并通过线性变换得到相应的类别表征再将和字符表征拼接,计算公式如下所示;
其中表示字符所对应词汇的类别表征,Wt、bt是可学习参数,因为不同字符所对应词汇的数量不同,统计句子中字符所对应词汇数量,一个字符所对应的最多词汇的数量为l;对词汇数量不足l的字符,通过一个固定的随机初始化的向量进行补充,使句子中所有字符向量的维度保持一致;
为了动态平衡字符表征与类别表征的贡献,通过交互门控机制来控制类别表征的占比,门控机制计算公式如下所示;
其中σ表示sigmod函数,⊙表示矩阵元素间乘法,Gi是门控输出,Wg、Ug、bg是可学习参数。
作为本发明的进一步方案,所述Step5中,将门控输出的字符特征输入CRF模型解码,得到实体标签信息。
本发明的有益效果是:
本发明首先,获得基于文本的词向量表示及其对应的类别向量表示;然后,获得含有类别信息的融合特征表示;其次,将融合特征表示输入Transformer编码器;再基于交互门控机制进行信息筛选;最后,输入CRF解码生成预测标签。在公开的CBLUE数据集上,本发明方法与一系列基线方法进行了比较,实验结果证明了本发明方法在命名实体识别任务上的有效性。
附图说明
图1为本发明中的融合类别表征的领域文本命名实体识别模型框架;
图2为本发明中类别表征维度消融实验结果;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
中文命名实体识别是一个重要的信息抽取任务。目前面向领域文本的中文命名实体识别主要采用基于字符的序列标注方法,并关注于在模型中加入词语信息来改善模型性能。领域专有词汇通常有对应的实体类别,而现有方法均忽略了这种类别表征对于实体边界和类别的识别作用。
下面结合附图,对根据本发明所提供的融合词汇类别表征的中文领域文本命名实体识别方法进行详细描述。
实施例1:如图1-图2所示,融合词汇类别表征的中文领域文本命名实体识别方法,所述方法包括如下步骤:
Step1、获得基于文本的词向量表示及其对应的类别向量表示;
构建了包含词汇类别信息的词典,本发明使用的数据来自于中文领域命名实体识别数据集CMeEE。和CMeIE。数据集统计见表1。
表1数据集统计
词典数据以“词汇,词汇类别”的格式储存;在获得文本中包含的词汇后,根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。具体的,本发明实验环境为基于Python 3.7的深度学习框架Pytoch1.7.1。实验采用Word2vec预训练模型初始化数据集的词向量及类别,词向量维度设置为d=50。Transformer隐藏层向量维度dmodel设置为160。模型训练过程中,设置CMeIE学习率为1e-3,CMeEE学习率为2e-4,batch_size为8,采用dropout策略以防止过拟合;
所述Step1具体包括如下:
对于字符嵌入,使用在语料上所训练的字符向量来作为字符的初始嵌入;具体做法为:根据训练好的character embedding lookup table,在基于标准分词后的中文语料库Gigaword上使用Word2vec工具训练的嵌入集合;由此将字符xi映射到字符嵌入表示及bigram嵌入表示
tj=Lt(yj) (4)
若词汇没有找到对应的类别,则将其映射为一个固定的随机初始化的嵌入表示。
Step2、获得含有类别信息的融合特征表示;
由Step 1得到包含词汇类别信息的词典后,在模型的输入阶段,通过跨度匹配文本中的词及其类别特征向量,将类别信息显式嵌入词向量,使命名实体识别任务从中获得提升。
所述Step2具体包括如下:
Step2.1、对于输入的文本序列S={x1,x2,...xm},其中xi表示句子中的字,通过不同的字符跨度匹配文本中的词及其类别向量,将类别表征显式嵌入词向量;模型从序列开头以不同的span与词典Ew中的词汇比对,若有和字符集合相同的词,则将匹配到的词yj放在句子的后面,此时文本序列变成S1={x1,x2,...xn,y1,y2,...ym};
Step2.3、对于文本序列中的词汇yj,通过公式(3)将输入序列中的各个词映射到一个词汇嵌入并通过公式(4)、(5)将各个词映射到一个类别嵌入随后,将每个词汇的类别向量与词汇向量拼接得到融合类别表征的词汇向量表示用e表示嵌入,计算过程如下所示;
Step3、将融合特征表示输入Transformer编码器;
所述Step3中,获得含有类别信息的融合特征表示后,将融合特征表示输入Transformer编码器,得到融合词以及类别信息的字符特征;采用{B,M,E,O,S}标记方案,其中,B表示实体的起始位置、M表示中间位置、E表示结束位置,O表示没有实体的位置,S表示一个字的实体。
作为本发明的进一步方案,所述Step3包括如下:
给每一个字符和词汇增加了两个位置编码,分别表示该字或词在句子中开始和结束的位置,如图1所示,hi和ti分别表示字符和词汇的头、尾位置坐标,并从四个不同的角度来计算xi和yj的距离,从而得到四个相对距离矩阵其中表示xi和yj头坐标之间的距离矩阵,表示xi的尾坐标和yj头坐标之间的距离矩阵,表示xi的头坐标和yj尾坐标之间的距离矩阵,表示xi和yj尾坐标之间的距离矩阵;将这四个距离拼接后作一个非线性变换,得到xi和yj的位置编码向量Rij,具体计算过程如公式8-10所示;
其中,dmodel表示多头注意力维度,Wr是可学习参数,表示向量的拼接运算,d表示四个相对位置矩阵,k表示位置编码的维数索引;将得到的输入向量序列Ex与可学习参数矩阵Wq,Wk,Wv相乘得到注意力权重矩阵Q,K,V,再带入公式12、13进行计算;
[Q,K,V]=Ex[Wq,Wk,Wv] (11)
Att(Q,K,V)=softmax(A)V (13)
其中Wk,E、Wk,R、u、v是可学习参数,A是注意力分数;接下来的计算多头注意力,通过h个不同的线性变换对Q,K,V进行映射,将不同的Attention拼接起来并再做一次线性变换,计算过程如下所示:
Multi(Q,K,V)=Concat(head1,...,headh)Wm (14)
其中zi是Multi-head Attention层输出的字符向量。
Step4、基于交互门控机制进行信息筛选;
所述Step4中,获得融合词及类别信息的字符特征后,再进行一次信息增强并基于交互门控机制平衡字符及类别表征的贡献。
所述Step4包括如下内容:
根据每个字符所对应的词汇的类型,将相应的类别表征和编码器输出的字符表征拼接;一个字符所对应的类型有两个以上时,将一个字符xi所对应的多个词汇yj、yj+1...通过计算得到相应的类别表征将其拼接并通过线性变换得到相应的类别表征再将和字符表征拼接,计算公式如下所示;
其中表示字符所对应词汇的类别表征,Wt、bt是可学习参数,因为不同字符所对应词汇的数量不同,统计句子中字符所对应词汇数量,一个字符所对应的最多词汇的数量为l;对词汇数量不足l的字符,通过一个固定的随机初始化的向量进行补充,使句子中所有字符向量的维度保持一致;
为了动态平衡字符表征与类别表征的贡献,通过交互门控机制来控制类别表征的占比,门控机制计算公式如下所示;
其中σ表示sigmod函数,⊙表示矩阵元素间乘法,Gi是门控输出,Wg、Ug、bg是可学习参数。
Step5、CRF解码生成预测标签。将门控输出的字符特征输入CRF模型解码,得到实体标签信息。
在获得Step 4的融合类别表征输出的字符特征后,本发明使用CRF作为解码器获得实体标签信息。具体而言,CRF由一个发射矩阵和转移矩阵组成,其中n是句子中的字符数,tags是标签数。矩阵E记录每个标签的概率,其中Eij表示第i个字符为第j个实体标签的概率;而矩阵T是一个可学习的参数矩阵,其中的Tij表示第j个标签转移到第i个标签的概率,用来模拟相邻标签之间的关系,它能够使我们显式地建模标签之间的转移关系,提高命名实体识别的准确率。本发明将将融合类别表征的字符特征Zi输入到CRF中,使用负对数似然函数计算概率最大的标签序列。具体公式如下:
E=σ(Wchi+bc) (21)
Loss=-logp(z|S) (24)
为了证明本发明的效果,将本发明所提出的融合类别信息的命名实体识别方法与基线模型的进行对比,实验结果如表2所示。本发明选用的基线模型主要是基于词汇增强方法的中文命名实体识别模型,具体如下:
Lattice LSTM:该模型在基于字符的序列标注框架中融入词汇信息,通过构建Lattice格式表示字符信息与词汇信息的交互。
LR-CNN:该模型提出了Lexicon-Based CNNs和Refining Networks with LexiconRethinking来解决Lattice LSTM模型的词汇冲突问题。
LGN:该模型采取lexicon-based graph neural network(LGN),通过图结构实现局部信息的聚合,将每一个字符作为节点,由匹配到的词汇构成边,并增加全局节点进行全局信息融入。解决了Lattice LSTM只依靠前一步的信息输入,而不能利用全局信息的问题。
WC-LSTM:该模型为解决Lattice LSTM中每个字符只能获取以它为结尾的词汇数量是动态的、不固定的从而导致Lattice LSTM不能batch并行化的问题,采取WordsEncoding Strategy,以固定编码表示每个字符为结尾的词汇信息,没有对应词汇则以<pad>表示。
Simple-Lexicon:该模型为避免设计复杂的模型结构、同时为便于迁移到其他序列标注框架,提出了一种在embedding层简单利用词汇的方法,对于每个字符获取其BMES四个位置所对应的所有词汇集合,再对其进行编码表示。
FLAT:该模型将Lattice结构展平,将其从一个有向无环图展平为一个平面的Flat-Lattice Transformer结构,来直接建模字符与所有匹配的词汇信息间的交互,同时可以捕捉长距离依赖。
MECT:该模型提出了一种Cross-Transformer来获取汉字结构的补充语义信息。与Transformer中的自注意力不同,Cross-Transformer使用两个Transformer编码器来交叉Lattice和汉字的结构信息。
表2对比实验结果
整体上,由表2可知,与所有基线模型相比,本发明所提出的模型TFLAT在CMeEE、CMeIE两个数据集上均取得了最高的F1值,验证了本发明方法的有效性。本发明模型融合了词向量和类别向量,以此作为特征表示,充分考虑了词汇的类别表征和词汇的语义信息。因此,本发明模型得以获得较优性能。相较于LatticeLSTM、LR-CNN这类仅仅依靠前一步的信息输入,而不能利用全局信息的模型,本发明模型展现出明显优势,在两个数据集上性能分别比LatticeLSTM高出3.0%、3.5%。与LGN模型和WC-LSTM模型相比,本发明模型对词汇信息利用更充分,对实体识别更为准确,性能分别比LGN模型高出1.8%、2.6%。与FLAT模型相比,本发明模型融合了类别表征,在CMeEE、CMeIE两个数据集上F1值分别提升了1.3%、0.8%,验证了融入类别表征能够帮助模型更好的识别实体。
为了探索在模型的融入类别表征的命名实体识别方法中各部分的重要性,本发明进行了使用CMeEE与CMeIE数据集在以下两种实验设置下进行比较:
1、w/o output-type:只在输入端融合词汇信息与类别表征,以验证词汇信息融合类别表征后对于模型性能的提升。
2、w/o input-type:只在transformer编码器输出特征后将字特征与类别表征进行融合,而不在输入端融入类别表征,以验证字特征与类别表征进行融合的作用。
实验过程中,实验环境设置等与步骤2保持一致。实验结果如表3所示。
表3不同层融合类别表征融实验结果
从实验结果可知,当只在输入端融入类别表征的情况下模型在CMeIE数据集上性能下降不明显,而只在Transformer编码器输出字符特征后将字符特征与类别表征进行融合时性能有较大幅度的下降。而在CMeEE数据集上,经实验发现只在输入端融入类别表征与只在输出端将字信息与类别表征融合后性能均出现较为明显的下降。
通过以上实验与分析,本发明认为在输入端将词信息与类别表征融合与在输出端将字特征与类别表征融合,均发挥着重要作用。
为了进一步探索融入类别表征的维度对于模型性能的影响,本发明在CMeIE、CMeEE数据集上通过线性变换函数改变类别向量的维度,使用从50维到100维的不同维度向量进行比较,其中50维是字向量及词向量的原始维度,其余实验设置保持一致。实验结果如图2所示。
从实验结果可知,维度为50的类别向量效果最佳,当向量维度扩大时性能有一定下降。这可能是由于类别向量维度过大减小了字向量和词向量的信息比例,导致模型获取的字和词的信息减少,从而影响了模型性能。
通过以上实验与分析,本发明认为使用维度为50的类别向量,即保持类别向量维度与字向量及词向量维度一致时是最合适的。
本发明提出了一种融合类别信息的用于中文领域文本命名实体识别的方法。本发明以类别信息来引导实体类别的抽取,在一定程度上解决了以往相关研究工作中模型特征未包含类别信息的问题。首先,在模型输入阶段融合词汇和类别信息,加深模型对数据语义的理解;然后,在transformer encoder输出特征后,根据每个字所对应的词的类别拼接相应的类别向量,进一步强化类别信息。在CALUA的两个数据集上进行了实验,实验结果表明了文本提出融合类别信息的方法模型在中文领域文本命名实体识别任务中的性能优于其余基线模型,从而验证了融合类别信息能提升中文命名实体识别模型的性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述融合词汇类别表征的中文领域文本命名实体识别方法包括如下步骤:
Step1、获得基于文本的词向量表示及其对应的类别向量表示;
Step2、获得含有类别信息的融合特征表示;
Step3、将融合特征表示输入Transformer编码器;
Step4、基于交互门控机制进行信息筛选;
Step5、CRF解码生成预测标签。
2.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step1中,构建了包含词汇类别信息的词典,词典数据来源于搜集的领域文本及数据集的训练集信息,以“词汇,词汇类别”的格式储存;在获得文本中包含的词汇后,根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。
3.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step1具体包括如下:
对于字符嵌入,使用在语料上所训练的字符向量来作为字符的初始嵌入;具体做法为:根据训练好的character embedding lookup table,在基于标准分词后的中文语料库Gigaword上使用Word2vec工具训练的嵌入集合;由此将字符xi映射到字符嵌入表示及bigram嵌入表示
tj=Lt(yj) (4)
若词汇没有找到对应的类别,则将其映射为一个固定的随机初始化的嵌入表示。
4.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step2中,得到类别向量表示后,将其和词向量进行拼接,获得含有类别信息的融合特征表示。
5.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step2具体包括如下:
Step2.1、对于输入的文本序列S={x1,x2,...xm},其中xi表示句子中的字,通过不同的字符跨度匹配文本中的词及其类别向量,将类别表征显式嵌入词向量;模型从序列开头以不同的span与词典Ew中的词汇比对,若有和字符集合相同的词,则将匹配到的词yj放在句子的后面,此时文本序列变成S1={x1,x2,...xn,y1,y2,...ym};
Step2.3、对于文本序列中的词汇yj,将输入序列中的各个词映射到一个词汇嵌入并将各个词映射到一个类别嵌入随后,将每个词汇的类别向量与词汇向量拼接得到融合类别表征的词汇向量表示用e表示嵌入,计算过程如下所示;
6.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step3中,获得含有类别信息的融合特征表示后,将融合特征表示输入Transformer编码器,得到融合词以及类别信息的字符特征;采用{B,M,E,O,S}标记方案,其中,B表示实体的起始位置、M表示中间位置、E表示结束位置,O表示没有实体的位置,S表示一个字的实体。
7.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step3包括如下:
给每一个字符和词汇增加了两个位置编码,分别表示该字或词在句子中开始和结束的位置,hi和ti分别表示字符和词汇的头、尾位置坐标,并从四个不同的角度来计算xi和yj的距离,从而得到四个相对距离矩阵其中表示xi和yj头坐标之间的距离矩阵,表示xi的尾坐标和yj头坐标之间的距离矩阵,表示xi的头坐标和yj尾坐标之间的距离矩阵,表示xi和yj尾坐标之间的距离矩阵;将这四个距离拼接后作一个非线性变换,得到xi和yj的位置编码向量Rij,具体计算过程如公式8-10所示;
其中,dmodel表示多头注意力维度,Wr是可学习参数,表示向量的拼接运算,d表示四个相对位置矩阵,k表示位置编码的维数索引;将得到的输入向量序列Ex与可学习参数矩阵Wq,Wk,Wv相乘得到注意力权重矩阵Q,K,V,再带入公式12、13进行计算;
[Q,K,V]=Ex[Wq,Wk,Wv] (11)
Att(Q,K,V)=softmax(A)V (13)
其中Wk,E、Wk,R、u、v是可学习参数,A是注意力分数;接下来的计算多头注意力,通过h个不同的线性变换对Q,K,V进行映射,将不同的Attention拼接起来并再做一次线性变换,计算过程如下所示:
Multi(Q,K,V)=Concat(head1,...,headh)Wm (14)
headi=Att(QWi Q,KWi K,VWi V) (15)
其中zi是Multi-head Attention层输出的字符向量。
8.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step4中,获得融合词及类别信息的字符特征后,再进行一次信息增强并基于交互门控机制平衡字符及类别表征的贡献。
9.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step4包括如下内容:
根据每个字符所对应的词汇的类型,将相应的类别表征和编码器输出的字符表征拼接;一个字符所对应的类型有两个以上时,将一个字符xi所对应的多个词汇yj、yj+1...通过计算得到相应的类别表征将其拼接并通过线性变换得到相应的类别表征再将和字符表征拼接,计算公式如下所示;
其中表示字符所对应词汇的类别表征,Wt、bt是可学习参数,因为不同字符所对应词汇的数量不同,统计句子中字符所对应词汇数量,一个字符所对应的最多词汇的数量为l;对词汇数量不足l的字符,通过一个固定的随机初始化的向量进行补充,使句子中所有字符向量的维度保持一致;
为了动态平衡字符表征与类别表征的贡献,通过交互门控机制来控制类别表征的占比,门控机制计算公式如下所示;
其中σ表示sigmod函数,⊙表示矩阵元素间乘法,Gi是门控输出,Wg、Ug、bg是可学习参数。
10.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法,其特征在于:所述Step5中,将门控输出的字符特征输入CRF模型解码,得到实体标签信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211272636.2A CN115545033A (zh) | 2022-10-18 | 2022-10-18 | 融合词汇类别表征的中文领域文本命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211272636.2A CN115545033A (zh) | 2022-10-18 | 2022-10-18 | 融合词汇类别表征的中文领域文本命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115545033A true CN115545033A (zh) | 2022-12-30 |
Family
ID=84735455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211272636.2A Pending CN115545033A (zh) | 2022-10-18 | 2022-10-18 | 融合词汇类别表征的中文领域文本命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545033A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116167368A (zh) * | 2023-04-23 | 2023-05-26 | 昆明理工大学 | 基于类型关联特征增强的领域文本实体关系抽取方法 |
CN116502641A (zh) * | 2023-04-11 | 2023-07-28 | 成都图奕科技有限公司 | 基于字符字形特征的中文命名实体识别方法及系统 |
CN117113997A (zh) * | 2023-07-25 | 2023-11-24 | 四川大学 | 一种增强词典知识融入的中文命名实体识别方法 |
-
2022
- 2022-10-18 CN CN202211272636.2A patent/CN115545033A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502641A (zh) * | 2023-04-11 | 2023-07-28 | 成都图奕科技有限公司 | 基于字符字形特征的中文命名实体识别方法及系统 |
CN116502641B (zh) * | 2023-04-11 | 2024-04-05 | 成都图奕科技有限公司 | 基于字符字形特征的中文命名实体识别方法及系统 |
CN116167368A (zh) * | 2023-04-23 | 2023-05-26 | 昆明理工大学 | 基于类型关联特征增强的领域文本实体关系抽取方法 |
CN116167368B (zh) * | 2023-04-23 | 2023-06-27 | 昆明理工大学 | 基于类型关联特征增强的领域文本实体关系抽取方法 |
CN117113997A (zh) * | 2023-07-25 | 2023-11-24 | 四川大学 | 一种增强词典知识融入的中文命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107357789B (zh) | 融合多语编码信息的神经机器翻译方法 | |
CN110134771B (zh) | 一种基于多注意力机制融合网络问答系统的实现方法 | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答系统的方法及设备 | |
CN115545033A (zh) | 融合词汇类别表征的中文领域文本命名实体识别方法 | |
CN112989834A (zh) | 一种基于平格增强线性转换器的命名实体识别方法和系统 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN111160343A (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN109977220B (zh) | 一种基于关键句和关键字的反向生成摘要的方法 | |
CN114154504B (zh) | 一种基于多信息增强的中文命名实体识别算法 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114429132A (zh) | 一种基于混合格自注意力网络的命名实体识别方法和装置 | |
CN112784576B (zh) | 一种文本依存句法分析方法 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN115630145A (zh) | 一种基于多粒度情感的对话推荐方法及系统 | |
CN113609857A (zh) | 基于级联模型和数据增强的法律命名实体识别方法及系统 | |
CN115859164A (zh) | 一种基于prompt的建筑实体识别并分类方法及系统 | |
CN116720531A (zh) | 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法 | |
CN115019142A (zh) | 基于融合特征的图像标题生成方法、系统、电子设备 | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
CN114970537B (zh) | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 | |
CN115952284A (zh) | 一种融合密度聚类与ernie的医疗文本关系抽取方法 | |
CN113157855A (zh) | 一种融合语义与上下文信息的文本摘要方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |