CN114386417A - 一种融入词边界信息的中文嵌套命名实体识别方法 - Google Patents
一种融入词边界信息的中文嵌套命名实体识别方法 Download PDFInfo
- Publication number
- CN114386417A CN114386417A CN202111620499.2A CN202111620499A CN114386417A CN 114386417 A CN114386417 A CN 114386417A CN 202111620499 A CN202111620499 A CN 202111620499A CN 114386417 A CN114386417 A CN 114386417A
- Authority
- CN
- China
- Prior art keywords
- word
- pos
- vector
- chinese
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种融入词边界信息的中文嵌套命名实体识别方法,属于自然语言处理中的信息抽取技术领域。本方法结合了中文场景特有的语言形态问题,利用外部的词表向模型中融入词级别信息,对于边界敏感的嵌套命名实体识别任务,模型更加关注于词边界问题,并且利用预训练模型抽取丰富的语义信息向量表示,保证模型在词级别和句子级别都能更好地建模,提升了实体识别的准确性,有效解决了现有的机器学习中文嵌套命名实体识别模型缺乏词级别信息的问题。
Description
技术领域
本发明涉及一种融入词汇信息的嵌套命名实体识别方法,通过文本与外部词典匹配,利用词级别信息为嵌套命名实体识别提供词边界信息,属于自然语言处理中的信息抽取技术领域。
背景技术
作为人类沟通和传递信息的主要工具,自然语言本身蕴含了丰富的非结构化信息。如何从非结构化文本中提取出便于机器处理的结构化数据,是当前面临的一大挑战。
命名实体识别任务,旨在从文本中抽取能够表示独立存在的具体事务或实体的文本片段,可用于知识图谱的构建及一些文本分析的下游工作。
根据实体的文本片段边界是否存在嵌套结构,可以分为扁平命名实体识别抽取和嵌套命名实体识别抽取。命名实体识别在早期的研究过程中,一般集中于扁平命名实体识别抽取,句中每个单词最多只属于一个实体类型,因而通常将其建模为序列标注任务。近年来,嵌套命名实体识别逐渐得到重视和发展,其采用其他标注方式抽取嵌套实体,但多以英文的研究为主,针对于中文的研究通常是较为简单的语料迁移。
由于中文所属的汉藏语系不同于以英语为代表的印欧语系,英语是通过空格来分割句中单词,有比较清晰的分词结构,而中文是连续的字构成的句子,没有在表示基本语义信息的单词维度上进行显示划分,导致中文的词级别信息模糊,而命名实体识别任务对于单词边界划分敏感。随着深度神经网络在自然语言处理领域的广泛应用,模型对句子的语义信息建模能力有所增强,但是,对于词级别知识仍有所欠缺。
发明内容
本发明的目的是为了解决现有的机器学习中文嵌套命名实体识别模型缺乏词级别信息的问题,提出了一种融入词边界信息的中文嵌套命名实体识别方法,将文本与外部词典进行匹配并通过匹配词与原始文本共同建模。
首先,对有关概念进行说明:
定义1:文本序列s
指待抽取嵌套实体的一个中文句子,由连续的字构成。
符号表示为:s={w1,w2,…,wn},其中n表示句子的长度,wi表示句子中第i个字。
定义2:外部词典D
指独立于训练语料的词典文件,是中文常见词的集合,每个词由一个或多个字组成。
符号表示为:D={d1,d2,…,d/D/},其中,|D|表示词典文件中的单词数量,di表示词典中的第i个词汇。
定义3:文本匹配词M
指文本序列与外部词典按照贪心算法匹配,根据文本匹配到的词典中的单词的集合为文本匹配词。
s对应的匹配词表示为:M={m1,…,mK},其中K表示一个文本序列中匹配出来的词汇个数。
定义4:中文嵌套实体识别语料库
指针对于中文领域的嵌套实体识别任务的文本和标注信息构成的数据库,其中文本即为文本序列s的集合,而标注信息是记录文本序列中嵌套实体词在原文本的开始位置索引和结束位置索引及实体类型的三元组,符号表示为:(start,end,label)。
定义5:中文静态词向量E
指根据大规模语料预训练得到开源的中文字、词的静态向量表示。其中,静态字向量表示为Ew,静态词向量表示为Em。
定义6:位置向量PE
指对于文本序列中每个字的位置索引pos对应的向量表示。计算方法通过三角函数计算得到,如式1、式2所示:
其中,dmodel表示位置向量的维度,PE(pos,2i)表示第pos索引位置向量的第i维度上值。
定义7:预训练语言模型LMBERT
指利用大型无监督语料预训练的深层语言模型BERT。
定义8:语义信息xBERT
指通过计算每个句子中字之间的信息交互得到的句子层面的信息表示。
可以通过预训练语言模型LMBERT做字级别信息交互,获得语义信息xBERT。
定义9:实体类型c
指语料库中标注出来的实体类型的集合,符号表示为c={O,c1,c2,…,c|C|},其中,O类型表示非实体类型,其余为预定义实体类型。
本发明采用以下技术方案实现。
一种融入词边界信息的中文嵌套命名实体识别方法,包括以下步骤:
步骤1:获取中文嵌套实体识别语料库,以及外部词典和开源的中文静态词向量。
步骤2:对于语料中的每一个文本序列s,通过贪心算法得到匹配词M。
具体地,贪心算法的计算方式为:
首先,遍历文本序列中的每个字wi,在外部词典D中查找以wi为开始字且与wi之后的字能够一一对应的尽可能长的所有词汇,并记录每个匹配词对应原始文本的开始索引和结束索引位置。
然后,将{m1,…,mK}的开始索引记为posM,start={posM,s1,…,posM,sK},将结束索引记为posM,end={posM,e1,…,posM,eK}。
{w1,w2,…,wn}的开始索引和结束索引,均是从1开始递增,分别记为poss,start={1,2,…,n}、poss,end={1,2,…,n}。
步骤3:通过posM,start、posM,end、poss,start、poss,end计算每两个位置之间的相对位置向量Rij,如下所示:
其中,posstart,i表示posM,start或poss,start中第i个的位置索引,posend,i表示posM,end或poss,end中第i个的位置索引,posstart,j、posend,j的定义同理,以此类推。
步骤5:使用两层Transformer-XL的编码结构,对步骤4得到的字词向量进行编码计算。再计算Attention阶段融合相对位置,得到带有词边界信息的每个字的向量表示。
具体地,方法如下:
sub_layer_output=LayerNorm(x+(SubLayer(x))) (8)
Att(A,V)=softmax(A)V (9)
其中,sublayer_output表示Transformer-XL的子层输出,LayerNorm()表示层级正则化计算,SubLayer()表示Transformer-XL的子层结构,Att()表示自注意力计算,A表示自注意力计算的注意力权重矩阵,aij表示A矩阵中第i行第j列的元素,V表示Transformer-XL前一子层的输出经过线性变换的结果,softmax()、ReLU()均为激活函数,FFN()表示前馈神经网络,xi、xj表示i、j索引位置的字符,表示xi、xj在中文静态词向量E中的向量表示,Wk,E、Wk,R均表示模型待学习的不同参数矩阵,其中是参数矩阵W1、W2、Wq的转置矩阵,b1、b2均表示模型待学习的不同参数列向量。
在每个Transformer-XL层中都包含两个子层,最后一层的输出为融合词边界信息的向量表示,记为xboundary,i,式8为子层计算的基本逻辑,x表示子层的输入向量,第一子层式9是式8的输入,第二子层式10是式8的输入,式9中的权重矩阵A的每位元素计算为式10,当前Transformer-XL层的输入为前一层的输出,初始化输出即为E。
步骤6:利用LMBERT得到每个字带有语义信息的向量表示,将字wi的语义信息的向量表示记为xBERT,i。
步骤7:按照式12对两种向量表示进行拼接,得到最终字的向量表示xi。
xi=[xBERT,i;xboundary,i] (12)
步骤8:利用双仿射分类器,计算每个开始索引位置为i、结束位置索引为j的文本片段spanij对于实体类型为c的概率p(i,j,c),具体如下:
p(i,j,c)=softmax(scoreij) (16)
其中,FFNNs、FFNNe表示两个维度相同的独立线性映射层,分别表示由步骤7得到的文本片段spanij的开始字符以及结束字符的向量表示,softmax()表示常见的归一化层,Um、Wm表示模型的训练参数矩阵,bm表示模型的训练参数列向量。
式13至式15是双仿射分类器的计算过程。首先通过两个独立的映射层保留字向量表示中带有实体起始位置信息hstart(i)、实体结尾位置信息的向量表示hend(j),经过双仿射分类器计算得到一个文本片段span(i,j)在不同实体类型上的得分scoreij,将分数经过softmax()层转化成最终的实体分类的概率p(i,j,c),模型选择概率最大的类型作为span(i,j)的实体类型预测结果。
模型使用模型预测结果与语料库中的标注结果的交叉熵作为模型训练的损失函数,通过不断优化损失函数值来训练调整模型参数。
至此,从步骤1到步骤8,通过匹配词给模型融入词边界信息,完成了中文场景下的嵌套命名实体识别。
有益效果
本发明方法,对比现有技术,具有以下优点:
本方法结合了中文场景特有的语言形态问题,利用外部的词表向模型中融入词级别信息,对于边界敏感的嵌套命名实体识别任务,模型更加关注于词边界问题,并且利用预训练模型抽取丰富的语义信息向量表示,保证模型在词级别和句子级别都能更好地建模,提升了实体识别的准确性。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面将结合说明书附图对及实施例对本发明方法作进一步详细说明。
如图1所示,本发明包括以下步骤:
步骤A:获取文本序列以及匹配词;
具体到本实施例中,通过本文序列与外部词典匹配得到匹配词,并记录相关词的位置信息等,具体与发明内容步骤1至2相同;
步骤B:计算含词边界信息的字向量表示;
具体到本实施例中,通过匹配词与文本序列共享位置信息,利用transformer-xl结构捕获匹配词对应文本的词边界信息,得到带有词边界信息的字向量表示,具体与发明内容步骤3至5相同;
步骤C:计算含语义信息的字向量表示;
具体到本实施例中,利用预训练模型计算带有语义信息的字向量表示,具体与发明内容步骤6相同;
步骤D:拼接两种向量表示;
具体到本实施例中,与发明内容步骤7相同;
步骤E:双仿射分类器计算各实体类型概率:
具体到本实施例中,经过双仿射层计算每个文本片段在各实体类型下的得分,再转化为各实体类型的概率,与发明内容步骤8相同;
实施例
以文本序列“目前中国代表团共获得26金16银15铜”为实施例,本实施例将以具体实例对本发明所述的融入词边界信息的中文嵌套命名实体识别方法的具体操作步骤进行详细说明;
融入词边界信息的中文嵌套命名实体识别方法的处理流程如图1所示;从图1可以看出,融入词边界信息的中文嵌套命名实体识别方法,包括以下步骤:
步骤A:获取文本序列以及匹配词;
通过贪心算法匹配文本序列的匹配词,对于文本序列长度为19的“目前中国代表团共获得26金16银15铜”,经过词典匹配得到的匹配词有“目前”、“中国”、“代表”、“代表团”、“获得”,匹配词的posM,start={1,3,5,5,9},posM,start={2,4,6,7,10};
步骤B:计算含词边界信息的字向量表示;
具体到本实施例中,利用Transformer-xl计算含词边界信息的100维字向量表示;
步骤C:计算含语义信息的字向量表示;
利用BERT预训练模型计算每个字的包含语义信息512维字向量表示;
步骤D:拼接两种向量表示;
将步骤B和步骤C的两种字向量拼接,得到612维字向量表示;
步骤E:双仿射分类器计算各实体类型概率:
具体到本实施例中,通过双仿射层得到一个19×19的矩阵,矩阵中的元素就表示文本序列中以矩阵元素位置索引为边界的文本片段的实体类型分类概率,比如识别出“中国”的实体概率是矩阵中的第3行第4列的位置,“中国代表团”的实体概率是矩阵中的第3行第7列的位置。
Claims (1)
1.一种融入词边界信息的中文嵌套命名实体识别方法,其特征在于,包括以下步骤:
步骤1:获取中文嵌套实体识别语料库,以及外部词典和开源的中文静态词向量;
步骤2:对于语料中的每一个文本序列s,通过贪心算法得到匹配词M;
其中,文本序列s指待抽取嵌套实体的一个中文句子,由连续的字构成,符号表示为:s={w1,w2,...,wn},其中n表示句子的长度,wi表示句子中第i个字;
贪心算法的计算方式为:
首先,遍历文本序列中的每个字wi,在外部词典D中查找以wi为开始字且与wi之后的字能够一一对应的尽可能长的所有词汇,并记录每个匹配词对应原始文本的开始索引和结束索引位置;
其中,外部词典D是指独立于训练语料的词典文件,是中文常见词的集合,每个词由一个或多个字组成,符号表示为:D={d1,d2,...,d/D/},|D|表示词典文件中的单词数量,di表示词典中的第i个词汇;
文本匹配词M,是指文本序列与外部词典按照贪心算法匹配,根据文本匹配到的词典中的单词的集合为文本匹配词;文本序列s对应的匹配词表示为:M={m1,...,mK},其中K表示一个文本序列中匹配出来的词汇个数;
然后,将{m1,...,mK}的开始索引记为posM,start={posM,s1,...,posM,sK},将结束索引记为posM,end={posM,e1,...,posM,eK};
{w1,w2,...,wn}的开始索引和结束索引,均是从1开始递增,分别记为poss,start={1,2,...,n}、poss,end={1,2,...,n};
步骤3:通过开始索引posM,start、结束索引posM,end、poss,start、poss,end计算每两个位置之间的相对位置向量Rij,如下所示:
其中,posstart,i表示posM,start或poss,start中第i个的位置索引,posend,i表示posM,end或poss,end中第i个的位置索引,posstart,j、posend,j的定义同理,以此类推;
位置向量PE指对于文本序列中每个字的位置索引pos对应的向量表示,通过三角函数计算得到,如式6、式7所示:
其中,dmodel表示位置向量的维度,PE(pos,2i)表示第pos索引位置向量的第i维度上值;
中文静态词向量E指根据大规模语料预训练得到开源的中文字、词的静态向量表示,其中,静态字向量表示为Ew,静态词向量表示为Em;
步骤5:使用两层Transformer-XL的编码结构,对步骤4得到的字词向量进行编码计算,再计算Attention阶段融合相对位置,得到带有词边界信息的每个字的向量表示;
具体地,方法如下:
sub_layer_output=LayerNorm(x+(SubLayer(x))) (8)
Att(A,V)=softmax(A)V (9)
其中,sublayer_output表示Transformer-XL的子层输出,LayerNorm()表示层级正则化计算,SubLayer()表示Transformer-XL的子层结构,Att()表示自注意力计算,A表示自注意力计算的注意力权重矩阵,aij表示A矩阵中第i行第j列的元素,V表示Transformer-XL前一子层的输出经过线性变换的结果,softmax()、ReLU()均为激活函数,FFN()表示前馈神经网络,xi、xj表示i、j索引位置的字符,表示xi、xj在中文静态词向量E中的向量表示,Wk,E、Wk,R均表示模型待学习的不同参数矩阵,其中是参数矩阵W1、W2、Wq的转置矩阵,b1、b2均表示模型待学习的不同参数列向量;
在每个Transformer-XL层中都包含两个子层,最后一层的输出为融合词边界信息的向量表示,记为xboundary,i,式8为子层计算的基本逻辑,x表示子层的输入向量,第一子层式9是式8的输入,第二子层式10是式8的输入,式9中的权重矩阵A的每位元素计算为式10,当前Transformer-XL层的输入为前一层的输出,初始化输出即为E;
步骤6:利用预训练语言模型LMBERT得到每个字带有语义信息的向量表示,将字wi的语义信息的向量表示记为xBERT,i;
语义信息,指通过计算每个句子中字之间的信息交互得到的句子层面的信息表示;
步骤7:按照式12对两种向量表示进行拼接,得到最终字的向量表示xi;
xi=[xBERT,i;xboundary,i] (12)
步骤8:利用双仿射分类器,计算每个开始索引位置为i、结束位置索引为j的文本片段spanij对于实体类型为c的概率p(i,j,c):
p(i,j,c)=softmax(scoreij) (16)
其中,FFNNs、FFNNe表示两个维度相同的独立线性映射层,分别表示由步骤7得到的文本片段spanij的开始字符以及结束字符的向量表示,softmax()表示常见的归一化层,Um、Wm表示模型的训练参数矩阵,bm表示模型的训练参数列向量;
实体类型c指语料库中标注出来的实体类型的集合,符号表示为c={O,c1,c2,...,c|C|},其中,O类型表示非实体类型,其余为预定义实体类型;
式13至式15是双仿射分类器的计算过程;首先通过两个独立的映射层保留字向量表示中带有实体起始位置信息hstart(i)、实体结尾位置信息的向量表示hend(j),经过双仿射分类器计算得到一个文本片段span(i,j)在不同实体类型上的得分scoreij,将分数经过softmax()层转化成最终的实体分类的概率p(i,j,c),模型选择概率最大的类型作为span(i,j)的实体类型预测结果;
使用模型预测结果与语料库中的标注结果的交叉熵,作为模型训练的损失函数,通过不断优化损失函数值来训练调整模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111620499.2A CN114386417A (zh) | 2021-12-28 | 2021-12-28 | 一种融入词边界信息的中文嵌套命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111620499.2A CN114386417A (zh) | 2021-12-28 | 2021-12-28 | 一种融入词边界信息的中文嵌套命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114386417A true CN114386417A (zh) | 2022-04-22 |
Family
ID=81198631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111620499.2A Pending CN114386417A (zh) | 2021-12-28 | 2021-12-28 | 一种融入词边界信息的中文嵌套命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114386417A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329766A (zh) * | 2022-08-23 | 2022-11-11 | 中国人民解放军国防科技大学 | 一种基于动态词信息融合的命名实体识别方法 |
CN115757325A (zh) * | 2023-01-06 | 2023-03-07 | 珠海金智维信息科技有限公司 | 一种xes日志智能转换方法及系统 |
CN115952796A (zh) * | 2023-03-14 | 2023-04-11 | 华北电力科学研究院有限责任公司 | 电力设备故障分析方法和装置 |
CN116756536A (zh) * | 2023-08-17 | 2023-09-15 | 浪潮电子信息产业股份有限公司 | 数据识别方法、模型训练方法、装置、设备及存储介质 |
CN118364822A (zh) * | 2024-06-17 | 2024-07-19 | 中国电子科技集团公司第十五研究所 | 一种基于原型网络的嵌套命名实体识别方法和装置 |
-
2021
- 2021-12-28 CN CN202111620499.2A patent/CN114386417A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329766A (zh) * | 2022-08-23 | 2022-11-11 | 中国人民解放军国防科技大学 | 一种基于动态词信息融合的命名实体识别方法 |
CN115329766B (zh) * | 2022-08-23 | 2023-04-18 | 中国人民解放军国防科技大学 | 一种基于动态词信息融合的命名实体识别方法 |
CN115757325A (zh) * | 2023-01-06 | 2023-03-07 | 珠海金智维信息科技有限公司 | 一种xes日志智能转换方法及系统 |
CN115952796A (zh) * | 2023-03-14 | 2023-04-11 | 华北电力科学研究院有限责任公司 | 电力设备故障分析方法和装置 |
CN116756536A (zh) * | 2023-08-17 | 2023-09-15 | 浪潮电子信息产业股份有限公司 | 数据识别方法、模型训练方法、装置、设备及存储介质 |
CN116756536B (zh) * | 2023-08-17 | 2024-04-26 | 浪潮电子信息产业股份有限公司 | 数据识别方法、模型训练方法、装置、设备及存储介质 |
CN118364822A (zh) * | 2024-06-17 | 2024-07-19 | 中国电子科技集团公司第十五研究所 | 一种基于原型网络的嵌套命名实体识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684648B (zh) | 一种多特征融合的古今汉语自动翻译方法 | |
CN109190131B (zh) | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 | |
CN110059185B (zh) | 一种医学文档专业词汇自动化标注方法 | |
CN112989834B (zh) | 一种基于平格增强线性转换器的命名实体识别方法和系统 | |
CN114386417A (zh) | 一种融入词边界信息的中文嵌套命名实体识别方法 | |
CN109325112B (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
CN112560503A (zh) | 融合深度特征和时序模型的语义情感分析方法 | |
CN112733541A (zh) | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN111984791B (zh) | 一种基于注意力机制的长文分类方法 | |
Xing et al. | A convolutional neural network for aspect-level sentiment classification | |
CN114153971B (zh) | 一种含错中文文本纠错识别分类设备 | |
CN115238693A (zh) | 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法 | |
CN114153973A (zh) | 基于t-m bert预训练模型的蒙古语多模态情感分析方法 | |
CN117010387A (zh) | 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN117764084A (zh) | 基于多头注意力机制与多模型融合的短文本情感分析方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索系统 | |
Lefever et al. | Identifying cognates in English-Dutch and French-Dutch by means of orthographic information and cross-lingual word embeddings | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN113254590B (zh) | 一种基于多核双层卷积神经网络的中文文本情绪分类方法 | |
US11966700B2 (en) | Neural tagger with deep multi-level model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |