CN116562291A - 一种基于边界检测的中文嵌套命名实体识别方法 - Google Patents
一种基于边界检测的中文嵌套命名实体识别方法 Download PDFInfo
- Publication number
- CN116562291A CN116562291A CN202310343133.8A CN202310343133A CN116562291A CN 116562291 A CN116562291 A CN 116562291A CN 202310343133 A CN202310343133 A CN 202310343133A CN 116562291 A CN116562291 A CN 116562291A
- Authority
- CN
- China
- Prior art keywords
- word
- character
- vector
- representation
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 115
- 239000012634 fragment Substances 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 8
- 238000003058 natural language processing Methods 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理中的信息抽取领域,为一种基于边界检测的中文嵌套命名实体识别方法,该方法包括步骤:获取字符向量表示;结合词典获取匹配词汇集合,得到融合的词集合向量;将字符表示与词集合向量进行拼接,输入到长短期记忆网络中获取融合上下文信息的特征表示;将特征表示输入到两个分类器中得到最外层边界和所有可能的实体边界,生成候选实体片段,将实体片段进行分类。本发明将融合了词性信息和位置编码的词汇表示添加到字符表示中,弥补了基于字符的识别模型难以捕捉词级别的语义信息和边界信息的不足;通过在最外层边界内部进行实体开始和结束边界的匹配,可减少不必要候选实体片段的生成,对长文本语句的命名实体识别效果显著。
Description
技术领域
本发明涉及自然语言处理中的信息抽取领域,具体涉及一种基于边界检测的中文嵌套命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,NER)是自然语言处理(NatureLanguage Processing,NLP)的一项基础任务,主要目的在于确定文本中命名实体的边界,并将命名实体分类到预先定义的类别中。学术上,命名实体一般分为3大类(实体类、时间类、数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。在自然语言处理领域,命名实体识别是一项基本性的关键任务,是关系抽取、事件抽取、知识图谱、问答系统、信息检索、机器翻译等诸多NLP任务的基础,同时在自然语言处理技术走向实用化的过程中占有重要地位。
根据实体中是否有嵌套结构,命名实体识别任务可以分为平面命名实体识别(Flat Named Entity Recognition,Flat NER)和嵌套命名实体识别(Nested NamedEntity Recognition,Nested NER)两类。目前对于NER的研究大多是针对Flat NER的研究,常用的方法是将其当作序列标注问题去解决,对给定序列的每一个元素打上标签集合中的某个标签,然后输入到序列识别模型(如LSTM)中进行标签识别。目前命名实体识别技术已取得了很大进展,但多数方法在识别时对嵌套命名实体关注不够。实际上,实体嵌套问题在金融、新闻等领域普遍存在,其结构复杂,嵌套层数缺乏规律。如何准确快速地从文本中提取出嵌套命名实体信息,是当前命名实体研究的一大难点。
对于Nested NER问题,一种解决方法是对现有的序列标注模型进行改进,思路为:修改标注规则和层叠序列标注模型。传统的序列标注方法是对输入序列的每一个元素标注一个类型标签,嵌套命名实体中同一个元素可能同时拥有两个及以上的不同标签。学者们从多标签角度考虑,将多标签问题转化为单标签,如将可能出现的所有类别两两组合,产生新标签,或者修改模型解码层,使用分层的方式进行识别。这类方法无法并行训练模型,当标签类别较多时,组合标签会分布稀疏,难以学习,分层的方法也会存在层与层之间的错误传播。另一种方式是基于片段分类的方法,该方法枚举出句子中的所有子序列,再对子序列进行类别判断。这种方法理论上可以同时应用到Flat和Nested实体上,但缺点也很明显:时空复杂度极高、负样本多,分类器训练十分困难。
相比于英文文本,中文文本没有明显的词边界,需要进行分词处理,但中文本身存在有一词多义、构词灵活等特点,加大了分词的难度,分词错误会直接导致命名实体识别错误。因此,对于中文文本来说,基于字粒度的模型通常会优于基于词粒度的模型,然而,基于字粒度的嵌入能传递的信息有限,相同的字在不同词语中可能会有不同的含义,只使用字的模型会忽略文本中的许多隐含信息,需要额外引入词汇信息来增强语义信息表示。
发明内容
为解决以上问题,本发明提出一种基于边界检测的中文嵌套命名实体识别方法,通过检测嵌套命名实体的最外层边界和所有可能的实体起始、结束边界,可有效减少长文本数据中不必要片段的产生,降低时间复杂度。通过将含有词性信息和位置编码的词汇向量表示添加到基于字符的嵌入表示中,有效利用词汇信息,增强文本特征表示,提高边界检测准确率,进而提高模型整体的实体识别准确率。
一种基于边界检测的中文嵌套命名实体识别方法,具体步骤如下:
S1、获取字符向量表示,将中文文本语句中的每个字符转换成其对应的字符向量表示;
S2、获取每个字符的匹配词汇,计算匹配词汇的向量表示,通过引入词性和位置编码增强词嵌入表示,压缩词集合得到融合的词集合向量表示;
S3、所述词集合信息添加到与之对应的字符表征中,得到融合词集合信息的字符表示;
S4、将融合词集合信息的字符表示输入到特征提取器,对字符之间的依赖关系进行建模,得到融合上下文信息的特征向量;
S5、生成候选实体片段,将融合上下文信息的特征向量输入到两个分类器内,通过一个分类器识别嵌套命名实体的最外层边界,通过另一个分类器识别每个句子中所有可能的开始和结束边界;在嵌套命名实体的最外层边界内将所述开始和结束边界进行组合,得到候选实体片段;
S6、将边界的字符表示与候选实体片段表示结合,得到融合了边界信息的实体片段表示,将实体片段表示放入分类器进行实体类别判断。
具体地,所述步骤S2包括:
预先训练好的词典构建字典树,使用多模式匹配AC算法将所述文本语句中的每个字符与构建好的字典树进行匹配,获取每个字符的匹配词汇,按照字符在词汇中的不同位置将匹配词汇分类到四种不同词汇集合;
通过局部注意力网络计算匹配词汇的向量表示;
使用Stanford CoreNLP工具得到所述匹配词汇的词性,通过随机词性向量矩阵得到匹配词汇的词性向量;
将所述匹配词汇的词向量和词性向量进行拼接,得到融合词性信息的词向量;
向所述融合词性信息的词汇向量中添加位置编码,得到融合位置信息的词向量表示;
将每个词集合压缩成一个固定维度的向量,统计词汇在数据集中出现的频率,将出现的频率作为权重,融合词集合内的所有词向量得到词集合向量。
具体地,所述步骤S4包括:
采用双向的长短期记忆网络BiLSTM作为特征提取器,将所述融合词集合信息的字符表示输入双向的长短期记忆网络BiLSTM,使用前向神经网络从左至右建模得到融合上文信息的语义向量,后向神经网络/>从右至左建模获得融合下文信息的语义向量,将融合上文信息的语义向量与融合下文信息的语义向量进行拼接得到融合上下文信息的特征向量。
具体地,所述步骤S5包括:
将融合上下文信息的特征向量输入到一个基于多层感知器MLP的softmax分类器中,识别嵌套命名实体的最外层边界,通过softmax函数的输出概率,判断一个字符是最外层边界开始、边界结束还是非最外层边界;
将融合上下文信息的特征向量输入到另一个基于多层感知器MLP的softmax分类器中来获得每个句子中所有可能的开始和结束边界标签。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提出一种基于边界检测的中文嵌套命名实体识别方法,通过将字符与预先构建好的词典进行匹配,得到所有的潜在词汇,并向词向量中引入词性信息和位置编码,增强词汇表示;将融合的词集合信息添加到字符表示中,充分利用了潜在的词信息,弥补了基于字符的识别模型难以捕捉词级别的语义信息和边界信息的不足。
2、本发明在实体片段生成任务中,使用两个分类器分别预测嵌套命名实体的最外层边界和所有可能的实体起止边界,通过在最外层边界内部进行实体开始和结束边界的匹配,可在一定程度上减少不必要候选实体片段的生成,尤其对长文本语句的命名实体识别效果显著。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明实施例中的基于边界检测的中文嵌套命名实体识别方法的流程图;
图2是本发明实施例中的词典匹配示意图;
图3是本发明实施例中的中文嵌套命名实体识别模型结构示意图;
图4是本发明实施例中的边界组合策略示意图。
具体实施方式
如图1所示,一种基于边界检测的中文嵌套命名实体识别方法流程图,如图3所示,是本发明实施例中的中文嵌套命名实体识别模型结构示意图,中文嵌套命名实体识别模型包含输入层、嵌入层、特征提取层、实体识别层4个部分:
(1)输入层:将中文句子切分成一个个字,并将字与领域词典进行匹配,得到匹配词汇;
(2)嵌入层:将匹配词汇分类到四个词汇集合中,使用词频权重对词汇集合进行压缩,再将四个词集合的表示添加到每个字的表示中,得到字词融合嵌入表示;
(3)特征提取层:将字词融合嵌入表示输入到双向的长短期记忆网络BiLSTM中进行信息筛选,得到长距离依赖信息。
(4)实体识别层:该层包含三个模块,最外层边界识别模块用于得到嵌套命名实体的最外层边界,实体边界检测模块获取每个单实体的边界标签,在最外层边界内进行实体边界组合,得到候选实体片段;实体片段分类模块是将候选实体片段放入分类器,获取实体类别。
本实施例中使用多任务联合训练,共享底层模型,有助于学到更好的隐藏表示。
结合图1、图3,本发明所述的基于边界检测的中文嵌套命名实体识别方法,其详细说明如下:
S1、获取字符向量表示,将中文文本语句中的每个字符转换成其对应的字符向量表示;
针对中文文本语句中的每个字符,在预训练好的字向量表中查找该字符对应的字向量表示。具体地,针对中文文本语句中的第i个字符,在预训练好的字向量表中查找该字符对应的字向量,对应的字向量记为
S2、获取每个字符的匹配词汇,计算匹配词汇的向量表示,通过引入词性和位置编码增强词嵌入表示,压缩词集合得到融合的词集合向量表示;
具体地,步骤S2包括:
(1)由预先训练好的词典构建字典树,使用多模式匹配AC算法将所述文本语句中的每个字符与构建好的字典树进行匹配,获取每个字符的匹配词汇,并按照字符在词汇中的不同位置将匹配词汇分类到四种不同词汇集合。四种不同词汇集合包括:词汇集合B、词汇集合M、词汇集合E、词汇集合S,其中B、M、E、S分别代表字符位于匹配词汇的头部、内部、尾部和单个字符;当某个字符的四种不同词汇集合中的一种词汇集合为空时,将字符“NONE”添加到空的词集合中。
如图2所示,词典匹配示意图,以“海底水世界”为例,经过词典匹配后,得到每个字符的潜在词集合,如其中的“底”对应的词集合为:
B(c2)={“NONE”},
M(c2)={w1,5(“海底水世界”)},
E(c2)={w1,2(“海底”)},
S(c2)={w2,2(“底”)}.
(2)通过局部注意力网络计算匹配词汇的向量表示。
具体地,以句中第m个字符为例,通过局部注意力网络计算词汇中的字符cn对句中第m个字符cm的影响权重,进行加权求和得到该词汇的嵌入表示。本实施例中采用加性注意力评分函数对字符间的相似度进行打分,将函数输出结果输入到softmax函数中得到影响权重。
注意力评分函数为:
score(em,en)=vT tanh(W1em+W2en) (1)
其中,W1,W2,v为可训练参数矩阵,em、en分别代表第m、n个字符cm、cn的嵌入表示。
字符cn对句中第m个字符cm的影响权重为:
其中,1≤i≤m,n≤j≤N,i和j分别表示词汇的首字符和尾字符在句子中的位置索引;em、en分别代表第m、n个字符cm、cn的嵌入表示,ep是词汇中任意字符的嵌入表示,i≤p≤j。
文本中从第i个字符开始,以第j个字符结束的词汇wi,j的词向量表示为:
(3)使用Stanford CoreNLP工具得到所述匹配词汇的词性,利用随机词性向量矩阵,得到匹配词汇的词性向量wpos。将文本中从第i个字符开始,以第j个字符结束的词汇wi,j的词性向量记为其中,本实施例使用的Stanford CoreNLP工具是斯坦福大学自然语言处理小组开发的自然语言分析工具集,包含句法分析,分词,词性标注等功能。
(4)将所述匹配词汇的词向量和词性向量进行拼接,得到融合词性信息的词向量。
将所述词嵌入表示we和词性向量wpos进行拼接,得到融合词性信息的词向量表示wl。
(5)向所述融合词性信息的词汇向量中添加位置编码,得到融合位置信息的词向量表示。
具体地,向所述融合词性信息的词汇向量wl添加位置编码,得到融合位置信息的词向量表示。本实施例中本发明采用one-hot向量将位置信息向量化,P(B)=[1,0,0,0];P(M)=[0,1,0,0];P(E)=[0,0,1,0];P(S)=[0,0,0,1],融合位置信息的词向量表示为:
其中,Wp代表可训练权重矩阵;代表O词汇集合中第i个词汇wi的最终的向量表示;Pi(O)表示O词汇集合中第i个词汇的位置编码;/>代表O词汇集合中第i个词汇wi的融合了词性信息的词向量,由第(4)步得到,其中O表示{B,M,E,S}四种类型中的一种。
(6)将每个词集合压缩成一个固定维度的向量,统计词汇在数据集中出现的频率,将出现的频率作为权重,融合词集合内的所有词向量得到词集合向量;
其中,z(wi)代表词wi在数据集中统计的词频;表示词wi对应的词向量;v(O)为最终的词集合向量,其中O表示{B,M,E,S}四种类型中的一种。
S3、字词融合的向量表示,将所述词集合信息添加到与之对应的字符表征中,得到融合词集合信息的字符表示。具体地,将字符对应的四种词集合向量与字符表示进行拼接,如下所示:
其中,vi(B)、vi(M)、vi(E)、vi(S)分别为词集合B,M,E,S的向量表示,为字符表示。
S4、融合上下文信息的特征向量,将所述融合词集合信息的字符表示输入到特征提层,对字符之间的依赖关系进行建模,得到融合上下文信息的特征向量。
具体地,采用双向的长短期记忆网络BiLSTM作为特征提取器,将所述融合词集合信息的字符表示输入双向的长短期记忆网络BiLSTM,从左至右建模得到融合上文信息的语义向量,使用从右至左建模获得融合下文信息的语义向量表示,将融合上文信息的语义向量与融合下文信息的语义向量进行拼接得到融合上下文信息的特征向量。
本实施例中,前向LSTM神经网络从左至右建模得到融合上文信息的语义向量表示/>后向LSTM神经网络/>从右至左建模获得融合下文信息的语义向量表示/>将与/>进行拼接,得到最终的融合上下文信息的特征向量/>
S5、生成候选实体片段,将融合上下文信息的特征向量输入到两个分类器内,通过一个分类器识别嵌套命名实体的最外层边界,通过另一个分类器识别每个句子中所有可能的开始和结束边界;在嵌套命名实体的最外层边界内将所述开始和结束边界进行组合,得到候选实体片段。
具体地,通过一个分类器用于识别嵌套命名实体的最外层边界,包括:判断一个字符是最外层边界开始、边界结束还是非最外层边界。
具体地,将融合上下文信息的特征向量输入到一个基于多层感知器MLP的softmax分类器中,识别嵌套命名实体的最外层边界,通过softmax函数的输出概率,判断一个字符是最外层边界开始、边界结束还是非最外层边界;将非边界标记为类别0、最外层开始边界标记为类别1、结束位置标记为类别2。在训练过程中,将交叉熵损失函数作为所述最外层边界识别任务的目标函数,记为Lobi具体如下:
其中,是最外层边界类别为t的概率;N代表预测的元素个数;K表示最外层边界检测任务的类别个数;/>是真实的标签分布,若类别是t,则/>否则等于0。
具体地,将融合上下文信息的特征向量输入到另一个基于多层感知器MLP的softmax分类器中,获得每个句子中所有可能的开始和结束边界标签;将实体的开始位置标记为标签“B”,结束位置为标签“E”,实体内部字符标记为“I”,非实体标记为“O”;在训练过程中,目标函数为交叉熵损失函数,记为Lebd。
具体地,根据两个分类器的输出结果,在所述最外层边界内,将所述开始和结束边界(包含最外层边界)进行组合匹配,得到候选实体片段。如图4所示,本发明采用的组合策略为:在最外层开始边界1和最外层结束边界2内,将每一个开始边界B向后匹配每一个结束边界E。
S6、实体片段分类,将边界的字符表示与候选实体片段表示结合,得到融合了边界信息的实体片段表示,将实体片段表示放入分类器进行实体类别判断。
具体地,将边界的字符表示与候选实体片段表示结合,得到融合了边界信息的实体片段表示,实体片段表示Sst,ed具体为:
其中,maxpooling表示最大值池化操作,hst、hed分别表示实体开始、结束位置字符的特征向量表示。
具体地,本发明将实体片段表示Sst,ed输入基于多层感知器MLP的softmax分类器中来识别其类型,使用交叉熵损失函数为目标函数,记为Lesc:
其中,是第i个实体类别为t的概率,N代表待预测的实体片段个数,K表示实体的类别数,/>是真实的类别标签分布,若类别是t,则/>否则等于0。
结合图3所示,考虑到最外层边界识别任务、边界检测任务和实体分类预测任务共享相同的特征提取层,本实施例使用多任务损失来同时训练这三个任务。在训练阶段,将数据中真实的边界标签输入到边界检测分类器和实体分类标签预测任务中,使分类器在训练时不受错误边界检测的影响。在测试阶段,将最外层边界识别的输出用于指示边界组合匹配的范围,将边界检测的输出指示哪些实体区域应该被考虑到预测分类标签中。其中,多任务损失函数Lmulti定义如下:
Lmulti=α(βLobi+(1-β)Lebd)+(1-α)Lesc (10)
其中,Lobi和Lebd分别表示最外层边界识别任务和实体边界检测任务的损失函数,用于优化实体片段生成,Lesc是实体片段分类任务的损失函数,用于优化实体片段分类任务;α、β是超参数,用于平衡每个任务的重要性。本实施例使用多任务损失来同时训练这三个任务,通过共享一个模型,可减少内存占用量,提高推理速度,且任务间可相互补充学习,提高识别性能。
综上,本发明提出的一种基于边界检测的中文嵌套命名实体识别方法,通过向字嵌入中引入含有词性和位置编码的词汇信息,增强了字符语义特征表示,弥补了以往基于字符嵌入的中文嵌套命名实体识别模型中存在的实体边界模糊和语义缺失问题。为解决基于片段分类的识别模型负样本多、时空复杂度高等问题,本发明增加了嵌套命名实体最外层边界识别模块,限制了边界组合的范围,在不损失长实体的情况下有效减少负样本的生成,提高模型整体性能。
Claims (10)
1.一种基于边界检测的中文嵌套命名实体识别方法,其特征在于,所述方法包括:
S1、获取字符向量表示,将中文文本语句中的每个字符转换成其对应的字符向量表示;
S2、将字符与词典进行匹配得到每个字符的匹配词汇,计算匹配词汇的向量表示,通过引入词性和位置编码增强词嵌入表示,压缩词集合得到融合的词集合向量表示;
S3、将所述词集合信息添加到与之对应的字符表征中,得到融合词集合信息的字符表示;
S4、将所述融合词集合信息的字符表示输入到特征提取器,对字符之间的依赖关系进行建模,得到融合上下文信息的特征向量;
S5、生成候选实体片段,将所述融合上下文信息的特征向量输入到两个分类器内,通过一个分类器识别嵌套命名实体的最外层边界,通过另一个分类器识别每个句子中所有可能的开始和结束边界;在嵌套命名实体的最外层边界内将所述开始和结束边界进行组合,得到候选实体片段;
S6、将边界的字符表示与候选实体片段表示结合,得到融合了边界信息的实体片段表示,将实体片段表示放入分类器进行实体类别判断。
2.根据权利要求1所述的一种基于边界检测的中文嵌套命名实体识别方法,其特征在于,所述步骤S2包括:
使用预先训练好的词典构建字典树,使用多模式匹配AC算法将所述文本语句中的每个字符与构建好的字典树进行匹配,获取每个字符的匹配词汇,按照字符在词汇中的不同位置将匹配词汇分类到四种不同词汇集合;
通过局部注意力网络计算匹配词汇的向量表示;
使用Stanford CoreNLP工具获取匹配词汇的词性,通过随机词性向量矩阵得到匹配词汇的词性向量;
将所述匹配词汇的词向量和词性向量进行拼接,得到融合词性信息的词向量;
向所述融合词性信息的词汇向量中添加位置编码,得到融合位置信息的词向量表示;
将每个词集合压缩成一个固定维度的向量,统计词汇在数据集中出现的频率,将出现的频率作为权重,融合词集合内的所有词向量得到词集合向量。
3.根据权利要求2所述的一种基于边界检测的中文嵌套命名实体识别方法,其特征在于,所述通过局部注意力网络计算匹配词汇的向量表示,包括:
通过局部注意力网络计算词汇中的任一字符cn对第m个字符cm的影响权重,进行加权求和得到词汇的嵌入表示;
采用加性注意力评分函数对字符间的相似度进行打分,将加性注意力评分函数输出结果输入到softmax函数中得到影响权重。
4.根据权利要求3所述的一种基于边界检测的中文嵌套命名实体识别方法,其特征在于,所述注意力评分函数为:
score(em,en)=vTtanh(W1em+W2en)
其中,W1,W2,v均为可训练参数矩阵,vT为可训练参数矩阵v的转置,em、en分别代表第m个字符cm、第n个字符的嵌入表示;
字符cn对句中第m个字符cm的影响权重为:
其中,1≤i≤m,n≤j≤N,i和j分别表示词汇的首字符和尾字符在句子中的位置索引;ep是词汇中任意字符的嵌入表示,i≤p≤j。
文本中从第i个字符开始,以第j个字符结束的词汇wi,j的词向量表示为:
其中,为词汇wi,j的词向量表示。
5.根据权利要求4所述的一种基于边界检测的中文嵌套命名实体识别方法,其特征在于,所述融合位置信息的词向量表示为:
其中,Wp代表可训练权重矩阵,代表O词汇集合中第i个词汇wi的最终的向量表示,Pi(O)表示O词汇集合中第i个词汇的位置编码;/>代表O词汇集合中第i个词汇wi融合了词性信息的词向量,O词汇集合为{B,M,E,S}四种词汇集合中的一种。
6.根据权利要求5所述的一种基于边界检测的中文嵌套命名实体识别方法,其特征在于,所述词集合向量表示为:
其中,z(wi)代表词wi在数据集中统计的词频;表示词wi对应的词向量;v(O)为最终的词集合向量,O词汇集合为{B,M,E,S}四种词汇集合中的一种。
7.根据权利要求6所述的一种基于边界检测的中文嵌套命名实体识别方法,其特征在于,所述融合词集合信息的字符表示为:
其中,ei(B,M,E,S)为融合词集合信息的字符表示,vi(B)、vi(M)、vi(E)、vi(S)分别为词集合B,M,E,S的向量表示,为字符表示。
8.根据权利要求1所述的一种基于边界检测的中文嵌套命名实体识别方法,其特征在于,所述步骤S4包括:
采用双向的长短期记忆网络BiLSTM作为特征提取器,将所述融合词集合信息的字符表示输入双向的长短期记忆网络BiLSTM,使用前向神经网络从左至右建模得到融合上文信息的语义向量,后向神经网络/>从右至左建模获得融合下文信息的语义向量,将融合上文信息的语义向量与融合下文信息的语义向量进行拼接得到融合上下文信息的特征向量。
9.根据权利要求1所述的一种基于边界检测的中文嵌套命名实体识别方法,其特征在于,所述步骤S5包括:
将融合上下文信息的特征向量输入到一个基于多层感知器MLP的softmax分类器中,识别嵌套命名实体的最外层边界,通过softmax函数的输出概率,判断一个字符是最外层边界开始、边界结束还是非最外层边界;
将融合上下文信息的特征向量输入到另一个基于多层感知器MLP的softmax分类器中来获得每个句子中所有可能的开始和结束边界标签。
10.根据权利要求1所述的一种基于边界检测的中文嵌套命名实体识别方法,其特征在于,所述步骤S6包括:
将实体片段表示输入到基于多层感知器MLP的softmax分类器中来识别实体类型,使用交叉熵损失函数为目标函数;
所述实体片段表示为:
Sst,ed=maxpooling(hst,hst+1,...,hed),
Sst,ed←[hst;Sst,ed;hed]
其中,Sst,ed代表实体片段表示,maxpooling表示最大值池化操作,hst、hed分别表示实体开始、结束位置字符的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310343133.8A CN116562291A (zh) | 2023-04-03 | 2023-04-03 | 一种基于边界检测的中文嵌套命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310343133.8A CN116562291A (zh) | 2023-04-03 | 2023-04-03 | 一种基于边界检测的中文嵌套命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116562291A true CN116562291A (zh) | 2023-08-08 |
Family
ID=87499072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310343133.8A Pending CN116562291A (zh) | 2023-04-03 | 2023-04-03 | 一种基于边界检测的中文嵌套命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116562291A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757216A (zh) * | 2023-08-15 | 2023-09-15 | 之江实验室 | 基于聚类描述的小样本实体识别方法、装置和计算机设备 |
-
2023
- 2023-04-03 CN CN202310343133.8A patent/CN116562291A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757216A (zh) * | 2023-08-15 | 2023-09-15 | 之江实验室 | 基于聚类描述的小样本实体识别方法、装置和计算机设备 |
CN116757216B (zh) * | 2023-08-15 | 2023-11-07 | 之江实验室 | 基于聚类描述的小样本实体识别方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jung | Semantic vector learning for natural language understanding | |
CN109062893B (zh) | 一种基于全文注意力机制的商品名称识别方法 | |
CN111783462A (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN110196982B (zh) | 上下位关系抽取方法、装置及计算机设备 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN112926324B (zh) | 融合词典与对抗迁移的越南语事件实体识别方法 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN110263325A (zh) | 中文分词系统 | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN114330354B (zh) | 一种基于词汇增强的事件抽取方法、装置及存储介质 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN112667813B (zh) | 用于裁判文书的敏感身份信息的识别方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112183064A (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115048511A (zh) | 一种基于Bert的护照版面分析方法 | |
CN114881042A (zh) | 基于图卷积网络融合句法依存与词性的中文情感分析方法 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
Anjum et al. | Exploring humor in natural language processing: a comprehensive review of JOKER tasks at CLEF symposium 2023 | |
Tarride et al. | A comparative study of information extraction strategies using an attention-based neural network | |
Gupta et al. | Ensemble based hinglish hate speech detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |