CN115935992A - 命名实体识别方法、装置及存储介质 - Google Patents
命名实体识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115935992A CN115935992A CN202211470178.3A CN202211470178A CN115935992A CN 115935992 A CN115935992 A CN 115935992A CN 202211470178 A CN202211470178 A CN 202211470178A CN 115935992 A CN115935992 A CN 115935992A
- Authority
- CN
- China
- Prior art keywords
- entity
- model
- vector
- training
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000013598 vector Substances 0.000 claims abstract description 173
- 238000012549 training Methods 0.000 claims description 140
- 230000008569 process Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003094 perturbing effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 235000013399 edible fruits Nutrition 0.000 description 6
- 241000234295 Musa Species 0.000 description 4
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 241000220225 Malus Species 0.000 description 3
- 235000003953 Solanum lycopersicum var cerasiforme Nutrition 0.000 description 3
- 240000003040 Solanum lycopersicum var. cerasiforme Species 0.000 description 3
- 235000021016 apples Nutrition 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施方式公开了一种命名实体识别方法、装置及存储介质。方法包括:将文本序列输入命名实体识别模型,以获取被所述命名实体识别模型识别为无实体类型的词向量;确定所述无实体类型的词向量与注册集中的均值向量的相似度,所述均值向量对应于特定实体类型,所述均值向量是符合所述特定实体类型的多个词向量的均值运算所确定的;将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为所述无实体类型的词向量的实体类型。本发明实施方式基于与均值向量的相似度比较,可以对模型无法识别的词进行识别,提高识别准确度。
Description
技术领域
本发明实施方式涉及自然语言处理(NLP)技术领域,更具体的说,涉及一种命名实体识别方法、装置及存储介质。
背景技术
命名实体识别(Named Entity Recognition,NER),又称专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词,等等。命名实体一般指的是文本中具有特定意义或者指代性强的实体。命名实体识别是NLP中的基础任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。
在现有技术中,通常假设训练集具有较完备的类别信息,但是现实的命名实体识别任务中可能出现某种类别没有样本(即零样本)的情形,从而针对该类别难以实现识别。而且,训练集基本是通过设定规则进行标注的,标注过程中可能因失误或规则失效等原因造成标注错误,从而会对命名实体识别导致干扰。另外,在目前中文命名实体识别的相关研究中,普遍存在缺乏中文样本的缺陷。
发明内容
本发明实施方式提出一种命名实体识别方法、装置及存储介质。
本发明实施方式的技术方案如下:
一种命名实体识别方法,包括:
将文本序列输入命名实体识别模型,以获取被所述命名实体识别模型识别为无实体类型的词向量;
确定所述无实体类型的词向量与注册集中的均值向量的相似度,所述均值向量对应于特定实体类型,所述均值向量是符合所述特定实体类型的多个词向量的均值运算所确定的;
将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为所述无实体类型的词向量的实体类型。
在示范性实施方式中,所述实体识别模型包含已训练的第一Transformer模型,所述第一Transformer模型包含N个相同的编码器、对应于所述N个相同的编码器的N个丢弃器、加权求和器及解码器,其中N为至少为2的正整数;
所述编码器适配于以并行方式接收所述文本序列,将所述文本序列以并行方式编码为句向量;所述丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;所述加权求和器适配于确定所述丢弃器输出的、丢弃随机部分的句向量的加权求和结果;所述解码器适配于对所述加权求和结果执行命名实体识别,以获取所述无实体类型的词向量。
在示范性实施方式中,所述方法还包括所述第一Transformer模型的训练过程,所述训练过程包括:
获取训练样本,所述训练样本中的词被标注特定实体类型;
将所述训练样本输入所述第一Transformer以训练所述第一Transformer模型,其中所述第一Transformer模型的模型参数通过所述训练而被配置为使预定的损失函数值低于预设阈值。
在示范性实施方式中,所述方法还包括:
将所述训练样本输入所述训练后的第一Transformer模型,以从所述第一Transformer输出对应于特定实体类型的词向量;
确定对应于特定实体类型的词向量的均值向量;
将所述均值向量包含在所述注册集中。
在示范性实施方式中,所述将训练样本输入所述训练后的第一Transformer模型,以从所述第一Transformer输出对应于特定实体类型的词向量包括:
将所述训练样本以并行方式输入训练后的所述第一Transformer中的所述N个相同的编码器;其中所述编码器适配于以并行方式接收所述训练样本,将所述训练样本以并行方式编码为句向量;所述丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;所述加权求和器适配于确定所述丢弃器输出的、丢弃随机部分的句向量的加权求和结果;所述解码器适配于基于所述加权求和结果,确定被标注有所述特定实体类型的词的词向量。
在示范性实施方式中,所述方法还包括:
确定预训练样本;
扰动所述预训练样本;
利用所述扰动后的训练样本对第二Transformer模型进行预训练;
将所述预训练后的所述第二Transformer模型中的编码器复制N份,以得到所述N个相同的编码器;
其中所述扰动包括下列中的至少一个:
掩膜替换所述预训练样本中的最小单元;随机删除所述预训练样本中的最小单元;乱序变换所述预训练样本中的最小单元。
在示范性实施方式中,所述预训练样本包括通过中文词表所构建的中文语料。
一种命名实体识别装置,包括:
输入模块,用于将文本序列输入命名实体识别模型,以获取被所述命名实体识别模型识别为无实体类型的词向量;
第一确定模块,用于确定所述无实体类型的词向量与注册集中的均值向量的相似度,所述均值向量对应于特定实体类型,所述均值向量是符合所述特定实体类型的多个词向量的均值运算所确定的;
第二确定模块,用于将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为所述无实体类型的词向量的实体类型。
在示范性实施方式中,所述实体识别模型包含已训练的第一Transformer模型,所述第一Transformer模型包含N个相同的编码器、对应于所述N个相同的编码器的N个丢弃器、加权求和器及解码器,其中N为至少为2的正整数;
所述编码器适配于以并行方式接收所述文本序列,将所述文本序列以并行方式编码为句向量;所述丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;所述加权求和器适配于确定所述丢弃器输出的、丢弃随机部分的句向量的加权求和结果;所述解码器适配于对所述加权求和结果执行命名实体识别,以获取所述无实体类型的词向量。
在示范性实施方式中,所述装置还包括:
训练模块,用于执行所述第一Transformer模型的训练过程,所述训练过程包括:获取训练样本,所述训练样本中的词被标注特定实体类型;将所述训练样本输入所述第一Transformer以训练所述第一Transformer模型,其中所述第一Transformer模型的模型参数通过所述训练而被配置为使预定的损失函数值低于预设阈值。
在示范性实施方式中,所述装置还包括:
注册集确定模块,用于将所述训练样本输入所述训练后的第一Transformer模型,以从所述第一Transformer输出对应于特定实体类型的词向量;确定对应于特定实体类型的词向量的均值向量;将所述均值向量包含在所述注册集中。
在示范性实施方式中,所述注册集确定模块,用于将所述训练样本以并行方式输入训练后的所述第一Transformer中的所述N个相同的编码器;其中所述编码器适配于以并行方式接收所述训练样本,将所述训练样本以并行方式编码为句向量;所述丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;所述加权求和器适配于确定所述丢弃器输出的、丢弃随机部分的句向量的加权求和结果;所述解码器适配于基于所述加权求和结果,确定被标注有所述特定实体类型的词的词向量。
在示范性实施方式中,所述装置还包括:
预训练模块,用于确定预训练样本;扰动所述预训练样本;利用所述扰动后的训练样本对第二Transformer模型进行预训练;将所述预训练后的所述第二Transformer模型中的编码器复制N份,以得到所述N个相同的编码器;其中所述扰动包括下列中的至少一个:掩膜替换所述预训练样本中的最小单元;随机删除所述预训练样本中的最小单元;乱序变换所述预训练样本中的最小单元。
在示范性实施方式中,所述预训练样本包括通过中文词表所构建的中文语料。
一种电子设备,该电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现如上任一项所述的命名实体识别方法。
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时可实现如上任一项所述的命名实体识别方法。
一种计算机程序产品,包括计算机指令,所述计算机指令在被处理器执行时实施如上任一项所述的命名实体识别方法。
从上述技术方案可以看出,在本发明实施方式中,将文本序列输入命名实体识别模型,以获取被命名实体识别模型识别为无实体类型的词向量;确定无实体类型的词向量与注册集中的均值向量的相似度,均值向量对应于特定实体类型,均值向量是符合特定实体类型的多个词向量的均值运算所确定的;将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为无实体类型的词向量的实体类型。可见,本发明实施方式基于与均值向量的相似度比较,可以对模型无法识别的词进行识别,提高识别准确度。
而且,本发明实施方式提出一种具有新颖结构的第一Transformer模型。第一Transformer模型包含以并行方式接收文本序列的N个编码器,从而可以将文本序列复制N份以克服小样本问题,而且丢弃器和加权求和器使用随机丢弃方法实现对句子扰动因素的平滑处理,减少扰动数据对模型预测结果的干扰,提升模型鲁棒性。
另外,本发明实施方式利用中文词表构建的中文语料进行预训练,实现模型的中文语义表征能力。
附图说明
为了更清楚地说明本发明实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施方式的命名实体识别方法的示范性流程图。
图2是本发明实施方式的预训练过程的示范性示意图。
图3是本发明实施方式的训练第一Transformer模型以及生成注册集过程的示范性示意图。
图4是本发明实施方式的基于第一Transformer模型的命名实体识别过程的示范性示意图。
图5是本发明实施方式的命名实体识别装置的示范性结构图。
图6是本发明实施方式的电子设备的示范性结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
为了描述上的简洁和直观,下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显,本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案,一些实施方式没有进行细致地描述,而是仅给出了框架。下文中,“包括”是指“包括但不限于”,“根据……”是指“至少根据……,但不限于仅根据……”。由于汉语的语言习惯,下文中没有特别指出一个成分的数量时,意味着该成分可以是一个也可以是多个,或可理解为至少一个。本发明实施方式的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施方式例如能够以除在这里图示或描述的那些以外的顺序实施。
考虑到现有技术中在零样本情形时难以实现命名实体识别的缺陷,本发明实施方式计算无实体类型的词向量与特定实体类型的多个词向量的均值向量之间的相似度,可以对命名实体识别模型无法识别的词进行识别,即实现未知实体类别的预测,提高识别准确度。
而且,考虑到现有技术对于包含干扰因素的训练集鲁棒性较弱的缺陷,本发明实施方式通过随机丢弃法构造均衡化的词向量特征表示,以缓解因偏差造成的结果误差。
另外,针对现有技术大多集中于英文实体识别,对于中文命名实体识别的小样本任务研究较少的缺陷,本发明实施方式利用中文词表构建的中文语料进行预训练,实现模型的中文语义表征能力。
图1是本发明实施方式的命名实体识别方法的示范性流程图。
如图1所示,该方法包括:
步骤101:将文本序列输入命名实体识别模型,以获取被命名实体识别模型识别为无实体类型的词向量。
在这里,命名实体识别模型为具有命名实体识别能力的深度学习模型。将文本序列输入命名实体识别模型后,命名实体识别模型执行命名实体识别处理,其中部分词语被识别出实体类型(因为训练阶段中通常提供有被识别出的实体类型的样本);剩余部分词语则无法被识别,即为无实体类型(因为训练阶段中通常没有提供相应实体类型的样本),计算得到无实体类型的词的向量,即为识别为无实体类型的词向量。
步骤102:确定无实体类型的词向量与注册集中的均值向量的相似度,均值向量对应于特定实体类型,均值向量是符合特定实体类型的多个词向量的均值运算所确定的。
在这里,注册集中可以包含多个均值向量,每个均值向量具有各自的特定实体类型(特定实体类型可以通过标签进行标注)。其中:每个均值向量是符合该特定实体类型的多个词向量的均值运算所确定的。优选地,该多个词向量是将被标注特定实体类型的训练样本输入命名实体识别模型所获取的。
比如,确定无实体类型的词向量与注册集中的均值向量的相似度可以具体实施为:计算无实体类型的词向量与注册集中的均值向量的余弦相似度。
步骤103:将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为无实体类型的词向量的实体类型。
可见,本发明实施方式基于与对应特定实体类型的均值向量的相似度比较过程,可以对模型无法识别的词进行识别,提高识别准确度。
在一个实施方式中,实体识别模型可以包含Transformer模型。比如,实体识别模型包含已训练的第一Transformer模型,第一Transformer模型包含N个相同的编码器、对应于N个相同的编码器的N个丢弃(drop out)器、加权求和器及解码器,其中N为至少为2的正整数;编码器适配于以并行方式接收文本序列,将文本序列以并行方式编码为句向量;丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;加权求和器适配于确定丢弃器输出的、丢弃随机部分的句向量的加权求和结果;解码器适配于对加权求和结果执行命名实体识别,以获取无实体类型的词向量。
因此,本发明实施方式提出一种具有新颖结构的第一Transformer模型。第一Transformer模型包含以并行方式接收文本序列的N个编码器,从而可以将文本序列复制N份以克服小样本问题,而且丢弃器和加权求和器使用随机丢弃方法实现对句子扰动因素的平滑处理,减少扰动数据对模型预测结果的干扰,提升模型鲁棒性。
下面描述如何获取第一Transformer模型中的N个相同的编码器。
在一个实施方式中,该方法还包括:确定预训练样本;扰动预训练样本;利用扰动后的训练样本对第二Transformer模型进行预训练;将预训练后的第二Transformer模型中的编码器复制N份,以得到N个相同的编码器;其中扰动包括下列中的至少一个:掩膜替换预训练样本中的最小单元;随机删除预训练样本中的最小单元;乱序变换预训练样本中的最小单元,等等。第二Transformer模型整体结构具有常见的Transformer结构,即包含编码器-解码器结构,比如编码器和解码器各有6层。对于编码器部分来说,整个的编码器结构包含6层,每一层进一步包括自注意力(self-attention)层和全连接层。
可见,本发明实施方式通过对第二Transformer模型进行预训练得到的编码器进行复制,可以便利地实现第一Transformer模型。而且,在第二Transformer模型的预训练过程中,通过扰动处理可以进一步提高编码器和解码器的鲁棒性,从而进一步提升了第一Transformer模型的鲁棒性。
在一个实施方式中,预训练样本包括通过中文词表所构建的中文语料。
因此,本发明实施方式利用中文词表构建的中文语料进行预训练,实现模型的中文语义表征能力。
图2是本发明实施方式的预训练过程的示范性示意图。
假定预训练样本包括通过中文词表所构建的中文语料。比如,在图2中,预训练样本包含8个最小单元(token),依序为t0,t1,t2,t3,t4,t5,t6,t7。
首先,针对预训练样本执行扰动,具体扰动方式包括下列中的至少一个:
(1)、掩膜替换预训练样本中的最小单元。比如,利用mask替换t2,则扰动后的预训练样本为:t0,t1,mask,t3,t4,t5,t6,t7。
(2)、随机删除预训练样本中的最小单元。比如,随机删除t3,则扰动后的预训练样本为:t0,t1,t2,t4,t5,t6,t7。
(3)、乱序变换预训练样本中的最小单元。比如,将t1移动到样本的最后,则扰动后的预训练样本为:t0,t2,t3,t4,t5,t6,t1。
然后,将扰动的训练样本输入第二Transformer模型,对第二Transformer模型进行预训练,从而获得中文语义表征能力。
将经过预训练后的第二Transformer模型中的编码器,复制为N份,即可得到上述的N个相同的编码器。而且,为N个相同的编码器中的每个编码器连接各自的丢弃器。接着,针对N个丢弃器连接一个共同的加权求和器,并将加权求和器与经过预训练后的第二Transformer模型中的解码器进行连接,即可得到第一Transformer模型。
在一个实施方式中,还包括第一Transformer模型的训练过程,训练过程包括:获取训练样本,训练样本中的词被标注特定实体类型;将训练样本输入第一Transformer以训练第一Transformer模型,其中第一Transformer模型的模型参数通过训练而被配置为使预定的损失函数值低于预设阈值。
因此,通过对具有新颖结构的第一Transformer模型进行训练,第一Transformer模型可以具有命名实体识别能力。
在一个实施方式中,方法还包括:将训练样本输入训练后的第一Transformer模型,以从第一Transformer输出对应于特定实体类型的词向量;确定对应于特定实体类型的词向量的均值向量;将均值向量包含在注册集中。
可见,本发明实施方式还可以基于训练后的第一Transformer模型,快速获取用于识别无实体类型的词向量的注册集。
在一个实施方式中,将训练样本输入训练后的第一Transformer模型,以从第一Transformer输出对应于特定实体类型的词向量包括:将训练样本以并行方式输入训练后的第一Transformer中的N个相同的编码器;其中编码器适配于以并行方式接收训练样本,将训练样本以并行方式编码为句向量;丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;加权求和器适配于确定丢弃器输出的、丢弃随机部分的句向量的加权求和结果;解码器适配于基于加权求和结果,确定被标注有特定实体类型的词的词向量。
因此,本发明实施方式可以基于训练后的第一Transformer模型,确定出标注有特定实体类型的词的词向量,从而辅助生成注册集。
可以利用第一Transformer模型生成用于对模型无法识别的词进行识别的注册集。
图3是本发明实施方式的生成注册集过程的示范性示意图。
如图3所示,第一Transformer模型包含N个相同的、第二Transformer模型中的编码器(以下简称编码器,该编码器已被如图2所示预训练过),每个编码器分别连接各自的丢弃器。N个丢弃器共同连接加权求和器,加权求和器再连接第二Transformer模型中的解码器(以下简称解码器,该解码器已被如图2所示预训练过)。
在第一Transformer模型的训练过程中:
首先,第一Transformer模型接收训练样本,其中训练样本中的词被标注特定实体类型。比如,训练样本依序包含最小单元k0,k1,k2,k3,k4,k5,k6,k7。
然后,第一Transformer模型将训练样本复制N份,其中每份训练样本被输入到各自的编码器,即N个编码器并行接收将训练样本。N个编码器,分别将各自接收到的训练样本编码为句向量。每个丢弃器分别丢弃对应的编码器所编码的句向量中的随机部分。加权求和器将N个丢弃器输出的、丢弃随机部分的句向量进行加权求和,以得到加权求和结果。解码器对加权求和结果执行命名实体识别。
在第一Transformer模型的训练过程中,第一Transformer模型的模型参数通被配置为使预定的损失函数值低于预设阈值。
当第一Transformer模型完成训练后,即可用于执行命名实体识别。由于第一Transformer模型中包含以并行方式接收文本序列的N个编码器,从而可以将文本序列复制N份以克服小样本问题,而且丢弃器和加权求和器使用随机丢弃方法实现对句子扰动因素的平滑处理,减少扰动数据对模型预测结果的干扰,提升模型鲁棒性。
然而,考虑到零样本问题,完成训练后的第一Transformer模型仍然可能产生识别为无实体类型的词向量。可以基于第一Transformer模型产生注册集,以针对无实体类型的词向量进行识别。
在一个实施方式中,将训练样本再次输入训练后的第一Transformer模型,以从第一Transformer模型输出(通常是译码器中的分类层的前一层输出)对应于特定实体类型的词向量;确定对应于特定实体类型的词向量的均值向量;将均值向量包含在注册集中。
比如,假定训练样本1为:“我喜欢吃苹果”,其中“苹果”被标注的特定实体类型为“水果”;训练样本2为:“我喜欢吃橘子”,其中“橘子”被标注的特定实体类型为“水果”;训练样本3为:“我喜欢吃圣女果”,其中“圣女果”被标注的特定实体类型为“水果”。则计算“苹果”、“橘子”和“圣女果”这三个词向量的均值向量(比如,求和平均值),并将该均值向量与特定实体类型“水果”关联保存在注册集中。
图4是本发明实施方式的基于第一Transformer模型的命名实体识别过程的示范性示意图。
在图4中,第一Transformer模型接收需要被执行命名实体识别的测试样本。比如,测试样本依序包含最小单元M0,M1,M2,M3,M4,M5,M6,M7。
在测试过程中:
第一Transformer模型将测试样本复制N份,其中每份测试样本被输入到各自的编码器,即N个编码器并行接收将测试样本。N个编码器,分别将各自接收到的测试样本编码为句向量。每个丢弃器分别丢弃对应的编码器所编码的句向量中的随机部分。加权求和器将N个丢弃器输出的、丢弃随机部分的句向量进行加权求和,以得到加权求和结果。解码器对加权求和结果执行命名实体识别。其中,针对部分最小单元,由于训练阶段中提供有被识别出的实体类型的样本,因此可以识别出这部分最小单元的实体类型。剩余的最小单元,由于训练阶段中没有提供相应实体类型的样本,因此无法被识别出实体类型,即构成无实体类型的词向量。
进一步地,确定第一Transformer模型输出的无实体类型的词向量(通常是解码器的分类层输出的)与注册集中的均值向量的相似度。将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为无实体类型的词向量的实体类型。
举例,假定第一Transformer模型输出“香蕉”词向量为无实体类型。计算“香蕉”词向量与注册集中的所有特定实体类型的均值向量的相似度。可以发现“香蕉”词向量与特定实体类型“水果”的均值向量的相似度大于预定门限值(比如,0.5),则将“香蕉”识别为“水果”。可见,本发明实施方式可以只针对第一Transformer模型输出的无实体类型进行识别,从而提高了识别准确率。
图5是本发明实施方式的命名实体识别装置的示范性结构图。
命名实体识别装置500包括:
输入模块501,用于将文本序列输入命名实体识别模型,以获取被命名实体识别模型识别为无实体类型的词向量;
第一确定模块502,用于确定无实体类型的词向量与注册集中的均值向量的相似度,均值向量对应于特定实体类型,均值向量是符合特定实体类型的多个词向量的均值运算所确定的;
第二确定模块503,用于将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为无实体类型的词向量的实体类型。
在示范性实施方式中,实体识别模型包含已训练的第一Transformer模型,第一Transformer模型包含N个相同的编码器、对应于N个相同的编码器的N个丢弃器、加权求和器及解码器,其中N为至少为2的正整数;编码器适配于以并行方式接收文本序列,将文本序列以并行方式编码为句向量;丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;加权求和器适配于确定丢弃器输出的、丢弃随机部分的句向量的加权求和结果;解码器适配于对加权求和结果执行命名实体识别,以获取无实体类型的词向量。
在示范性实施方式中,装置500还包括:
训练模块504,用于执行第一Transformer模型的训练过程,训练过程包括:获取训练样本,训练样本中的词被标注特定实体类型;将训练样本输入第一Transformer以训练第一Transformer模型,其中第一Transformer模型的模型参数通过训练而被配置为使预定的损失函数值低于预设阈值。
在示范性实施方式中,装置500还包括注册集确定模块505,用于将训练样本输入训练后的第一Transformer模型,以从第一Transformer输出对应于特定实体类型的词向量;确定对应于特定实体类型的词向量的均值向量;将均值向量包含在注册集中。
在示范性实施方式中,注册集确定模块505,用于将训练样本以并行方式输入训练后的第一Transformer中的N个相同的编码器;其中编码器适配于以并行方式接收训练样本,将训练样本以并行方式编码为句向量;丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;加权求和器适配于确定丢弃器输出的、丢弃随机部分的句向量的加权求和结果;解码器适配于基于加权求和结果,确定被标注有特定实体类型的词的词向量。
在示范性实施方式中,装置500还包括预训练模块506,用于确定预训练样本;扰动预训练样本;利用扰动后的训练样本对第二Transformer模型进行预训练;将预训练后的第二Transformer模型中的编码器复制N份,以得到N个相同的编码器;其中扰动包括下列中的至少一个:掩膜替换预训练样本中的最小单元;随机删除预训练样本中的最小单元;乱序变换预训练样本中的最小单元。在示范性实施方式中,预训练样本包括通过中文词表所构建的中文语料。
综上所述,在本发明实施方式中,将文本序列输入命名实体识别模型,以获取被命名实体识别模型识别为无实体类型的词向量;确定无实体类型的词向量与注册集中的均值向量的相似度,均值向量对应于特定实体类型,均值向量是符合特定实体类型的多个词向量的均值运算所确定的;将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为无实体类型的词向量的实体类型。可见,本发明实施方式基于与均值向量的相似度比较,可以对模型无法识别的词进行识别,提高识别准确度。
而且,本发明实施方式提出一种具有新颖结构的第一Transformer模型。第一Transformer模型包含以并行方式接收文本序列的N个编码器,从而可以将文本序列复制N份以克服小样本问题,而且丢弃器和加权求和器使用随机丢弃方法实现对句子扰动因素的平滑处理,减少扰动数据对模型预测结果的干扰,提升模型鲁棒性。
另外,本发明实施方式利用中文词表构建的中文语料进行预训练,实现模型的中文语义表征能力。
本发明实施方式还提供一种计算机可读介质,计算机可读存储介质存储指令,指令在由处理器执行时可执行如上的命名实体识别方法中的步骤。实际应用中的计算机可读介质可以是上述实施方式中描述的设备/装置/系统中所包含的,也可以是单独存在而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或多个程序被执行时,可以实现上述各实施方式描述的命名实体识别方法。根据本发明公开的实施方式,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本发明保护的范围。在本发明公开的实施方式中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
如图6所示,本发明实施方式还提供一种电子设备,其中可以集成本发明实施方式实现方法的装置。如图6所示,其示出了本发明实施方式所涉及的电子设备的示范性结构图,
具体地:该电子设备可以包括一个或一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602以及存储在存储器上并可在处理器上运行的计算机程序。在执行存储器602的程序时,可以实现上述命名实体识别方法。
在实际应用中,该电子设备还可以包括电源603、输入单元604、以及输出单元605等部件。本领域技术人员可以理解,图6中示出的电子设备的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:处理器601是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行服务器的各种功能和处理数据,从而对该电子设备进行整体监控。存储器602可用于存储软件程序以及模块,即上述计算机可读存储介质。处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
该电子设备还包括给各个部件供电的电源603,可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。该电子设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该电子设备还可以包括输出单元605,该输出单元605可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
本发明实施方式还提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令在被处理器执行时实施如上述任一实施方式所述的命名实体识别方法。
本发明附图中的流程图和框图,示出了按照本发明公开的各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文中应用了具体实施方式对本发明的原理及实施方式进行了阐述,以上实施方式的说明只是用于帮助理解本发明的方法及其核心思路,并不用于限制本发明。对于本领域的技术人员来说,可以依据本发明的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种命名实体识别方法,其特征在于,包括:
将文本序列输入命名实体识别模型,以获取被所述命名实体识别模型识别为无实体类型的词向量;
确定所述无实体类型的词向量与注册集中的均值向量的相似度,所述均值向量对应于特定实体类型,所述均值向量是符合所述特定实体类型的多个词向量的均值运算所确定的;
将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为所述无实体类型的词向量的实体类型。
2.根据权利要求1所述的命名实体识别方法,其特征在于,所述实体识别模型包含已训练的第一Transformer模型,所述第一Transformer模型包含N个相同的编码器、对应于所述N个相同的编码器的N个丢弃器、加权求和器及解码器,其中N为至少为2的正整数;
所述编码器适配于以并行方式接收所述文本序列,将所述文本序列以并行方式编码为句向量;所述丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;所述加权求和器适配于确定所述丢弃器输出的、丢弃随机部分的句向量的加权求和结果;所述解码器适配于对所述加权求和结果执行命名实体识别,以获取所述无实体类型的词向量。
3.根据权利要求2所述的命名实体识别方法,其特征在于,所述方法还包括所述第一Transformer模型的训练过程,所述训练过程包括:
获取训练样本,所述训练样本中的词被标注特定实体类型;
将所述训练样本输入所述第一Transformer以训练所述第一Transformer模型,其中所述第一Transformer模型的模型参数通过所述训练而被配置为使预定的损失函数值低于预设阈值。
4.根据权利要求3所述的命名实体识别方法,其特征在于,所述方法还包括:
将所述训练样本输入所述训练后的第一Transformer模型,以从所述第一Transformer输出对应于特定实体类型的词向量;
确定对应于特定实体类型的词向量的均值向量;
将所述均值向量包含在所述注册集中。
5.根据权利要求4所述的命名实体识别方法,其特征在于,所述将训练样本输入所述训练后的第一Transformer模型,以从所述第一Transformer输出对应于特定实体类型的词向量包括:
将所述训练样本以并行方式输入训练后的所述第一Transformer中的所述N个相同的编码器;其中所述编码器适配于以并行方式接收所述训练样本,将所述训练样本以并行方式编码为句向量;所述丢弃器适配于丢弃对应的编码器所编码的句向量中的随机部分;所述加权求和器适配于确定所述丢弃器输出的、丢弃随机部分的句向量的加权求和结果;所述解码器适配于基于所述加权求和结果,确定被标注有所述特定实体类型的词的词向量。
6.根据权利要求2-5中任一项所述的命名实体识别方法,其特征在于,所述方法还包括:
确定预训练样本;
扰动所述预训练样本;
利用所述扰动后的训练样本对第二Transformer模型进行预训练;
将所述预训练后的所述第二Transformer模型中的编码器复制N份,以得到所述N个相同的编码器;
其中所述扰动包括下列中的至少一个:
掩膜替换所述预训练样本中的最小单元;随机删除所述预训练样本中的最小单元;乱序变换所述预训练样本中的最小单元。
7.根据权利要求6所述的命名实体识别方法,其特征在于,所述预训练样本包括通过中文词表所构建的中文语料。
8.一种命名实体识别装置,其特征在于,包括:
输入模块,用于将文本序列输入命名实体识别模型,以获取被所述命名实体识别模型识别为无实体类型的词向量;
第一确定模块,用于确定所述无实体类型的词向量与注册集中的均值向量的相似度,所述均值向量对应于特定实体类型,所述均值向量是符合所述特定实体类型的多个词向量的均值运算所确定的;
第二确定模块,用于将相似度大于预定门限值的均值向量所对应的特定实体类型,确定为所述无实体类型的词向量的实体类型。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时可实现权利要求1-7任一项所述的命名实体识别方法。
10.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令在被处理器执行时实施权利要求1-7任一项所述的命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211470178.3A CN115935992A (zh) | 2022-11-23 | 2022-11-23 | 命名实体识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211470178.3A CN115935992A (zh) | 2022-11-23 | 2022-11-23 | 命名实体识别方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115935992A true CN115935992A (zh) | 2023-04-07 |
Family
ID=86699877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211470178.3A Pending CN115935992A (zh) | 2022-11-23 | 2022-11-23 | 命名实体识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115935992A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204969A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 医疗命名实体识别模型的生成方法、装置和计算机设备 |
CN113590831A (zh) * | 2021-09-30 | 2021-11-02 | 湖北亿咖通科技有限公司 | 自然语言处理方法、设备及存储介质 |
WO2022068314A1 (zh) * | 2020-09-29 | 2022-04-07 | 华为技术有限公司 | 神经网络训练的方法、神经网络的压缩方法以及相关设备 |
CN115238697A (zh) * | 2022-07-26 | 2022-10-25 | 贵州数联铭品科技有限公司 | 基于自然语言处理的司法命名实体识别方法 |
CN115238696A (zh) * | 2022-08-03 | 2022-10-25 | 江西理工大学 | 中文命名实体识别方法、电子设备及存储介质 |
-
2022
- 2022-11-23 CN CN202211470178.3A patent/CN115935992A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022068314A1 (zh) * | 2020-09-29 | 2022-04-07 | 华为技术有限公司 | 神经网络训练的方法、神经网络的压缩方法以及相关设备 |
CN113204969A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 医疗命名实体识别模型的生成方法、装置和计算机设备 |
CN113590831A (zh) * | 2021-09-30 | 2021-11-02 | 湖北亿咖通科技有限公司 | 自然语言处理方法、设备及存储介质 |
CN115238697A (zh) * | 2022-07-26 | 2022-10-25 | 贵州数联铭品科技有限公司 | 基于自然语言处理的司法命名实体识别方法 |
CN115238696A (zh) * | 2022-08-03 | 2022-10-25 | 江西理工大学 | 中文命名实体识别方法、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
马孟铖;杨晴雯;艾斯卡尔・艾木都拉;吐尔地・托合提;: "基于词向量和条件随机场的中文命名实体分类", 计算机工程与设计, no. 09, 16 September 2020 (2020-09-16), pages 2516 * |
马孟铖;杨晴雯;艾斯卡尔・艾木都拉;吐尔地・托合提;: "基于词向量和条件随机场的中文命名实体分类", 计算机工程与设计, no. 09, pages 2516 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717339B (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN107193865B (zh) | 人机交互中自然语言意图理解方法及装置 | |
US11031009B2 (en) | Method for creating a knowledge base of components and their problems from short text utterances | |
US11749264B2 (en) | System and methods for training task-oriented dialogue (TOD) language models | |
WO2022188584A1 (zh) | 基于预训练语言模型的相似语句生成方法和装置 | |
CN111625634A (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
CN110909144A (zh) | 问答对话方法、装置、电子设备及计算机可读存储介质 | |
Quan et al. | Modeling long context for task-oriented dialogue state generation | |
CN111814451A (zh) | 文本处理方法、装置、设备和存储介质 | |
Kim et al. | Evolved Speech-Transformer: Applying Neural Architecture Search to End-to-End Automatic Speech Recognition. | |
CN117454884B (zh) | 历史人物信息纠错方法、系统、电子设备和存储介质 | |
CN116050425A (zh) | 建立预训练语言模型的方法、文本预测方法及装置 | |
Andreas et al. | Analogs of linguistic structure in deep representations | |
US20180307676A1 (en) | Systems, Devices, Components and Associated Computer Executable Code for Recognizing and Analyzing/Processing Modification Sentences within Human Language | |
CN113780418B (zh) | 一种数据的筛选方法、系统、设备和存储介质 | |
CN110377691A (zh) | 文本分类的方法、装置、设备及存储介质 | |
CN112133294B (zh) | 语音识别方法、装置和系统及存储介质 | |
CN117574879A (zh) | 基于预训练模型的数据增强方法、系统、设备及介质 | |
CN117193823A (zh) | 一种软件需求变更的代码工作量评估方法、系统及设备 | |
CN111553152A (zh) | 问题生成方法和装置及问题-文本对的生成方法和装置 | |
CN115935992A (zh) | 命名实体识别方法、装置及存储介质 | |
CN115099235A (zh) | 基于实体描述的文本生成方法 | |
Dey et al. | Hi-DST: A hierarchical approach for scalable and extensible dialogue state tracking | |
CN116010563A (zh) | 一种多轮对话数据分析方法、电子设备和存储介质 | |
CN114911922A (zh) | 一种情感分析方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |