CN116579345B - 命名实体识别模型的训练方法、命名实体识别方法及装置 - Google Patents
命名实体识别模型的训练方法、命名实体识别方法及装置 Download PDFInfo
- Publication number
- CN116579345B CN116579345B CN202310865106.7A CN202310865106A CN116579345B CN 116579345 B CN116579345 B CN 116579345B CN 202310865106 A CN202310865106 A CN 202310865106A CN 116579345 B CN116579345 B CN 116579345B
- Authority
- CN
- China
- Prior art keywords
- current
- named entity
- text
- prediction
- loss value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 366
- 238000000034 method Methods 0.000 title claims abstract description 123
- 238000012545 processing Methods 0.000 claims abstract description 94
- 238000001514 detection method Methods 0.000 claims abstract description 76
- 230000008569 process Effects 0.000 claims abstract description 43
- 230000000875 corresponding effect Effects 0.000 claims description 160
- 238000002372 labelling Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 230000002596 correlated effect Effects 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 description 18
- 238000004821 distillation Methods 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 11
- 239000004973 liquid crystal related substance Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 241000733943 Hapalogaster mertensii Species 0.000 description 6
- 208000025174 PANDAS Diseases 0.000 description 6
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 6
- 240000004718 Panda Species 0.000 description 6
- 235000016496 Panda oleosa Nutrition 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013140 knowledge distillation Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本申请实施例提供了一种命名实体识别模型的训练方法、命名实体识别方法、装置、电子设备及计算机可读存储介质。该方法包括:获取多个文本训练样本;利用多个文本训练样本对预设识别模型进行训练,直至满足预设训练条件,得到第一命名实体识别模型;其中,在利用多个文本训练样本中的当前文本训练样本对预设识别模型进行当前次训练的过程中,预设识别模型执行以下步骤:基于当前文本训练样本进行边界检测处理,以得到当前文本训练样本中的各单词对应的第一预测标签;基于当前文本训练样本进行跨度分类处理,以得到当前文本训练样本中的各当前候选命名实体对应的第二预测标签。本申请实施例能够提高嵌套实体的识别准确率。
Description
技术领域
本申请涉及自然语言处理技术领域,具体而言,本申请涉及一种命名实体识别模型的训练方法、命名实体识别方法、装置、电子设备及计算机可读存储介质。
背景技术
命名实体(Name Entity Recognition,NER)识别是自然语言处理的一项非常重要的基础任务,旨在自动检测文本中的命名实体,例如人名、地名、组织机构名等,是人机对话系统、机器翻译、关系抽取等的前置任务。
在相关技术中,命名实体识别主要是利用基于跨度(span)的方法来训练命名实体识别模型。
然而,经实践发现,基于跨度的方法来训练得到的命名实体识别模型,对于嵌套实体的识别准确率有待进一步提高。
发明内容
本申请实施例提供了一种命名实体识别模型的训练方法、命名实体识别方法、装置、电子设备及计算机可读存储介质,用于解决嵌套实体的识别准确率不足的技术问题,进而达到了提高嵌套实体的识别准确率的技术效果。
根据本申请实施例的一个方面,提供了一种命名实体识别模型的训练方法,该方法包括:
获取多个文本训练样本;
利用多个文本训练样本对预设识别模型进行训练,直至满足预设训练条件,得到第一命名实体识别模型,第一命名实体识别模型用于对输入的待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果,目标识别结果用于指示待识别文本中的目标命名实体;
其中,在利用多个文本训练样本中的当前文本训练样本对预设识别模型进行当前次训练的过程中,预设识别模型执行以下步骤:
基于当前文本训练样本进行边界检测处理,以得到当前文本训练样本中的各单词对应的第一预测标签,第一预测标签用于指示单词为文本训练样本中的真实命名实体的边界的预测概率;
基于当前文本训练样本进行跨度分类处理,以得到当前文本训练样本中的各当前候选命名实体对应的第二预测标签,第二预测标签用于指示候选命名实体为文本训练样本中的真实命名实体的预测概率。
在一种可能的实现方式中,预设训练条件包括:
训练次数达到预设的次数阈值;和/或,
预设识别模型的当前目标损失值满足预设的损失条件,预设识别模型的当前目标损失值是通过当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定的;
损失条件包括当前目标损失值小于预设的损失值阈值和/或当前目标损失值与上一目标损失值之间的损失差值小于预设的差值阈值,上一目标损失值为预设识别模型上一次训练得到的目标损失值。
在一种可能的实现方式中,通过当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定预设识别模型的当前目标损失值,包括:
基于当前文本训练样本中的各单词对应的第一预测标签确定边界检测处理的当前第一损失值,以及基于各当前候选命名实体对应的第二预测标签确定跨度分类处理的当前第二损失值;
基于当前第一损失值和当前第二损失值确定预设识别模型的当前目标损失值。
在一种可能的实现方式中,各文本训练样本包括对应的标注信息,标注信息包括真实开始标签和真实结束标签,真实开始标签用于指示文本训练样本中的真实命名实体对应的真实开始边界,真实结束标签用于指示文本训练样本中的真实命名实体对应的真实结束边界;
第一预测标签包括预测开始标签和预测结束标签,预测开始标签用于指示单词为开始边界的预测概率,预测结束标签用于指示单词为结束边界的预测概率;
基于当前文本训练样本中的各单词对应的第一预测标签确定边界检测处理的当前第一损失值,包括:
将当前文本训练样本中的各单词与真实开始标签所指示的真实开始边界进行比对,得到各单词对应的第一真实概率;
将当前文本训练样本中的各单词与真实结束标签所指示的真实结束边界进行比对,得到各单词对应的第二真实概率;
基于各单词对应的第一真实概率、第二真实概率、预测开始标签所指示的预测概率和预测结束标签所指示的预测概率,确定边界检测处理的当前第一损失值。
在一种可能的实现方式中,基于各单词对应的第一真实概率、第二真实概率、预测开始标签所指示的预测概率和预测结束标签所指示的预测概率,确定边界检测处理的当前第一损失值,包括:
基于各单词对应的第一真实概率和预测开始标签所指示的预测概率,确定开始边界的损失值;
基于各单词对应的第二真实概率和预测开始标签所指示的预测概率,确定结束边界的损失值;
基于开始边界的损失值与结束边界的损失值之和确定边界检测处理的当前第一损失值。
在一种可能的实现方式中,各文本训练样本包括有标注信息,标注信息包括真实实体标签,真实实体标签用于指示文本训练样本中的真实命名实体;
基于当前文本训练样本进行跨度分类处理,以得到当前文本训练样本中的各当前候选命名实体对应的第二预测标签,包括:
基于各当前候选命名实体的开始单词表示与当前候选命名实体的结束单词表示,确定各当前候选命名实体的分数向量,其中,开始单词表示用于表示命名实体的开始单词在文本训练样本的位置,结束单词表示用于表示命名实体的结束单词在文本训练样本的位置;
将各当前候选命名实体的分数向量与基准分数向量进行比对得到各当前候选命名实体对应的第二预测标签,其中,基准分数向量是基于真实命名实体的开始单词表示和真实命名实体的结束单词表示确定的。
在一种可能的实现方式中,基于各当前候选命名实体对应的第二预测标签确定跨度分类处理的当前第二损失值,包括:
将各当前候选命名实体与真实实体标签所指示的真实命名实体进行比对,得到各当前候选命名实体对应的第三真实概率;
基于各当前候选命名实体对应的第三真实概率和第二预测标签所指示的预测概率,确定跨度分类处理的当前第二损失值。
在一种可能的实现方式中,当前目标损失值与第一乘积正相关,且当前目标损失值与第二乘积负相关,第一乘积为当前第一损失值与第一超参数因子的乘积,第二乘积为当前第二损失值与第一超参数因子的乘积。
在一种可能的实现方式中,在利用多个文本训练样本中的当前文本训练样本对预设识别模型进行当前次训练的过程中,预设识别模型还执行以下步骤:
基于当前候选命名实体对应的第二预测标签,确定预设识别模型的第一预测软标签;
通过当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定预设识别模型的当前目标损失值,还包括:
基于第一预测软标签、真实实体标签确定预设识别模型的当前第三损失值;
基于当前第一损失值和当前第二损失值确定预设识别模型的当前目标损失值,包括:
基于当前第一损失值、当前第二损失值和当前第三损失值确定预设识别模型的当前目标损失值。
在一种可能的实现方式中,预设识别模型是学生模型,命名实体识别模型的训练方法还包括:
利用训练好的教师模型对当前文本训练样本进行处理,得到教师模型对应的第二预测软标签;
通过当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定预设识别模型的当前目标损失值,还包括:
基于第一预测软标签和第二预测软标签确定预设识别模型的当前第四损失值;
基于当前第一损失值、当前第二损失值和当前第三损失值确定预设识别模型的当前目标损失值,包括:
基于当前第一损失值、当前第二损失值、当前第三损失值和当前第四损失值确定预设识别模型的当前目标损失值。
在一种可能的实现方式中,当前目标损失值分别与第三损失值以及第三乘积正相关,第三乘积为当前第四损失值与第二超参数因子的乘积。
在一种可能的实现方式中,多个文本训练样本包括未标注的文本训练样本,利用多个文本训练样本对预设识别模型进行训练,包括:
通过训练完成的教师模型对未标注的文本训练样本进行伪标签生成处理,得到未标注的文本训练样本对应的伪标签,教师模型是基于已标注的文本训练样本进行训练得到的;
利用未标注的文本训练样本以及未标注的文本训练样本对应的伪标签对预设识别模型进行训练。
根据本申请实施例的另一个方面,提供了一种命名实体识别方法,包括:
获取待识别文本;
将待识别文本输入至训练完成的第一命名实体识别模型,以获得第一命名实体识别模型输出的目标识别结果,第一命名实体识别模型用于对待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果,目标识别结果用于指示待识别文本中的目标命名实体;
其中,第一命名实体识别模型是通过以上任一方面的方法训练得到的。
在一种可能的实现方式中,将待识别文本输入至训练完成的第一命名实体识别模型,包括:
若识别出待识别文本中存在疑似嵌套实体,则将待识别文本输入至训练完成的第一命名实体识别模型。
在一种可能的实现方式中,命名实体识别方法,还包括:
若识别出待识别文本中存在平直实体,则将待识别文本输入至训练完成的第二命名实体识别模型,以获得第二命名实体识别模型输出的目标识别结果,第二命名实体识别模型的轻量化程度高于第一命名实体识别模型的轻量化程度。
在一种可能的实现方式中,待识别文本中存在疑似嵌套实体的识别条件包括以下的至少一项:
待识别文本的文本长度大于预设的长度阈值;
待识别文本中的单词数量大于预设的数量阈值;
待识别文本是在目标应用的显示界面输入的文本。
根据本申请实施例的另一个方面,提供了一种命名实体识别模型的训练装置,包括:
样本获取模块,用于获取多个文本训练样本;
训练模块,用于利用多个文本训练样本对预设识别模型进行训练,直至确认预设识别模型训练完成,得到第一命名实体识别模型,第一命名实体识别模型用于对输入的待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果,目标识别结果用于指示待识别文本中的目标命名实体;
其中,在利用多个文本训练样本中的当前文本训练样本对预设识别模型进行当前次训练的过程中,预设识别模型执行以下步骤:
基于当前文本训练样本进行边界检测处理,以得到当前文本训练样本中的各单词对应的第一预测标签,第一预测标签用于指示单词为文本训练样本中的真实命名实体的边界的预测概率;
基于当前文本训练样本进行跨度分类处理,以得到当前文本训练样本中的各当前候选命名实体对应的第二预测标签,第二预测标签用于指示候选命名实体为文本训练样本中的真实命名实体的预测概率。
根据本申请实施例的另一个方面,提供了一种命名实体识别装置,包括:
文本获取模块,用于获取待识别文本;
识别模块,用于将待识别文本输入至训练完成的第一命名实体识别模型,以获得第一命名实体识别模型输出的目标识别结果,第一命名实体识别模型用于对待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果,目标识别结果用于指示待识别文本中的目标命名实体;
其中,第一命名实体识别模型是通过以上任一方面的方法训练得到的。
根据本申请实施例的另一个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现以上任一方面的方法的步骤。
根据本申请实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以上任一方面的方法。
本申请实施例提供的有益效果是:通过在训练预设识别模型的过程中,预设识别模型分别进行边界检测处理以及跨度分类处理,而边界检测处理能够预测文本训练样本中的各单词为真实命名实体的边界的概率,跨度分类处理能够预测文本训练样本中的各候选命名实体为真实命名实体的概率,也就是说,预设识别模型在训练的过程中分别考虑到了命名实体的边界和跨度等至少两个维度,因此克服了相关技术中基于跨度的方法来训练得到的命名实体识别模型对于嵌套实体的识别准确率不高的问题,进而达到了提高对于嵌套实体的识别准确率的技术效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种命名实体识别模型的训练方法的流程示意图;
图2是本申请实施例提供的另一种命名实体识别模型的训练方法的流程示意图;
图3是本申请实施例提供的另一种命名实体识别模型的训练方法的流程示意图;
图4是本申请实施例提供的一种预设识别模型的训练架构示意图;
图5是本申请实施例提供的一种多任务学习的框架示意图;
图6是本申请实施例提供的一种自蒸馏结构示意图;
图7是本申请实施例提供的一种命名实体识别方法流程示意图;
图8是本申请实施例提供的一种命名实体识别模型的训练装置的结构示意图;
图9是本申请实施例提供的一种命名实体识别装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或 “耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”指示实现为“A”,或者实现为“A”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
随着互联网技术的不断发展,人工智能(Artificial Intelligence,AI)技术也随之得到更好的发展。所谓的人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。而深度学习则是一种利用深层神经网络系统,进行机器学习的技术;机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
基于AI技术中的机器学习/深度学习技术,本申请实施例提出了一种命名实体识别方案,以提升对嵌套实体进行命名实体识别的准确性,即提升相应的实体识别结果的准确性。需要说明的是,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
在相关技术中,主要是利用基于跨度的方法来实现命名实体的识别,可以很容易地找到所有具有不同子序列的候选实体。然而,在实际的命名实体识别的场景中,存在各种各样的嵌套实体,而基于跨度的方法来对嵌套实体的识别准确性有待进一步提升。嵌套实体可以是指该实体中存在其他命名实体的情况。
经实践发现,相关技术中,基于跨度的方法主要侧重于学习跨度表示,但缺乏明确的边界监督,在对跨度进行分类时忽略了明确的边界信息,导致检测实体的边界不准确,不正确的边界是实体识别错误的主要来源。
例如“阳澄湖大闸蟹”此嵌套实体中,存在“阳澄湖”和“大闸蟹”等其他命名实体;又例如,“都江堰大熊猫”此嵌套实体中,存在“都江堰”和“大熊猫”等其他实体,但相关技术的命名实体识别,容易将“阳澄湖大闸蟹”识别成“阳澄湖”和“大闸蟹”,以及将“都江堰大熊猫”识别成“都江堰”和“大熊猫”,这导致了命名实体的识别不准确,因此需要进一步提高命名实体识别的准确性,尤其是嵌套实体的识别准确性。
针对相关技术中所存在的上述至少一个技术问题或需要改善的地方,本申请提出一种命名实体识别方案,该方案通过在训练预设识别模型的过程中,预设识别模型分别进行边界检测处理以及跨度分类处理,而边界检测处理能够预测文本训练样本中的各单词为真实命名实体的边界的概率,跨度分类处理能够预测文本训练样本中的各候选命名实体为真实命名实体的概率,也就是说,预设识别模型在训练的过程中分别考虑到了命名实体的边界和跨度等至少两个维度,因此克服了相关技术中基于跨度的方法来训练得到的命名实体识别模型对于嵌套实体的识别准确率不高的问题,进而达到了提高对于嵌套实体的识别准确率的技术效果。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
本申请实施例中提供了一种命名实体识别模型的训练方法,本实施例的命名实体识别模型的训练方法以应用于电子设备进行举例说明。如图1所示,该方法包括:
S110、获取多个文本训练样本。
可选的,本实施例的多个文本训练样本包括目标文本训练样本。目标文本训练样本可以是指存在嵌套实体的文本训练样本。示例性的,目标文本训练文本可以是“我想吃阳澄湖大闸蟹”、“我昨天去看了都江堰大熊猫”、“XX电竞游戏耳机头戴式”和“环绕音效笔记本有线耳麦”等文本训练样本,在此不做限定。可选的,多个文本训练样本还包括平直实体。平直实体指的是单一的实体,例如“大闸蟹”、“大熊猫”等,在此不做限定。
S120、利用多个文本训练样本对预设识别模型进行训练,直至满足预设训练条件,得到第一命名实体识别模型。
其中,预设识别模型可以是一个模型基本框架,本实施例是在基础框架上完成模型的训练,从而得到第一命名实体识别模型;此外,预设识别模型还可以是经过初步训练的,在一些通用性的场景下可以执行命名实体识别任务,本实施例在此基础上继续训练,从而得到第一命名实体识别模型,在此不做限定。其中,训练完成的第一识别模型用于对输入的待识别文本进行边界检测处理以及跨度分类处理,从而标识别结果,目标识别结果用于指示待识别文本中的目标命名实体。其中,预设训练条件可以是用于确定预设识别模型是否完成的条件。
需要说明的是,在利用多个文本训练样本中的当前文本训练样本对预设识别模型进行当前次训练的过程中,预设识别模型执行以下步骤:
S121、基于当前文本训练样本进行边界检测处理,以得到当前文本训练样本中的各单词对应的第一预测标签。
其中,当前文本训练样本指的是当前次训练所使用的文本训练样本,也就是说,每一次训练所使用的文本训练样本,都可以认为是一个当前训练样本。当前次训练可以理解为最新的一次训练。边界检测处理能够检测出当前文本训练样本中的每个词,是当前文本训练样本中的真实命名实体的第一个词还是最后一个词。第一预测标签用于指示单词为文本训练样本中的真实命名实体的边界的预测概率。
S122、基于当前文本训练样本进行跨度分类处理,以得到当前文本训练样本中的各当前候选命名实体对应的第二预测标签。
其中,跨度分类处理能够枚举当前文本训练样本中所有候选跨度,并将枚举出的当前文本训练样本中的候选跨度作为当前候选命名实体,并将它们分类为实体类型。第二预测标签用于指示候选命名实体为文本训练样本中的真实命名实体的预测概率。
在本实施例中,除了将跨度分类为相应的类型标签之外,还结合一个额外的边界检测任务来增强学习跨度表示中的边界监督。在多任务框架下联合训练边界检测模型和跨度分类模型。边界检测模型包括两个分类器组成,分别预测每个词是实体的第一个词还是最后一个词。跨度分类模型是聚合跨度的内部信息来预测其类型标签。
需要说明的是,若预设识别模型在当前次训练之后,若满足预设训练条件,则将该预设识别模型作为训练好的第一命名实体识别模型;若预设识别模型在当前次训练未满足预设训练条件,则预设识别模型可以基于第一预测标签和第二预测标签调节自身的模型参数,并利用下一文本训练样本对预设识别模型进行新一轮的训练。由此重复多次训练,直到满足预设条件得到第一命名实体识别模型。
本实施例的技术方案,通过在训练预设识别模型的过程中,预设识别模型分别进行边界检测处理以及跨度分类处理,而边界检测处理能够预测文本训练样本中的各单词为真实命名实体的边界的概率,跨度分类处理能够预测文本训练样本中的各候选命名实体为真实命名实体的概率,也就是说,预设识别模型在训练的过程中分别考虑到了命名实体的边界和跨度等至少两个维度,因此克服了相关技术中基于跨度的方法来训练得到的命名实体识别模型对于嵌套实体的识别准确率不高的问题,进而达到了提高对于嵌套实体的识别准确率的技术效果。
在一种可能的实现方式中,在文本训练样本进入预设识别模型之前,需要先对文本训练文本进行预处理。其中,预处理包括但不限于去重、分词、向量化等处理,在此不做限定。请参阅表1,表1是本实施例提供的一种预处理实例。
表1
如表1所示,具有相同的实体标签的多个单词,是属于同一命名实体的词。
在一种可能的实现方式中,预设训练条件包括:
训练次数达到预设的次数阈值;和/或,
预设识别模型的当前目标损失值满足预设的损失条件,预设识别模型的当前目标损失值是通过当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定的。
其中,损失条件可以包括当前目标损失值小于预设的损失值阈值和/或当前目标损失值与上一目标损失值之间的损失差值小于预设的差值阈值,上一目标损失值为预设识别模型上一次训练得到的目标损失值。
其中,当前目标损失值可以是指在当前次训练确定出的目标损失值。目标损失值可以用来评估模型的识别精度。一般来说,目标损失值越低则说明模型的识别精度越高。在本实施例中,若预设识别模型的训练次数达到此时阈值,和/或预设识别模型的当前目标损失值小于预设的损失值阈值和/或当前目标损失值与上一目标损失值之间的损失差值小于预设的差值阈值,则可以认为预设识别模型已训练至收敛,此时可以将该预设识别模型作为训练好的第一命名实体识别模型。
在本实施例中,通过预设识别模型的当前目标损失值来确定预设识别模型是否训练完成,而当前目标损失值是通过当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定的,也就是说,本实施例的预设识别识别模型是对边界检测处理和跨度分类处理联合训练的,由此能够利用边界检测处理和跨度分类处理之间的隐含信息,进一步提高第一命名实体识别模型的识别准确性。
可以理解的是,本实施例的次数阈值以及损失值阈值可以根据需要设置,在此不做限定。
在一种可能的实现方式中,通过当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定预设识别模型的当前目标损失值的方式,包括:
基于当前文本训练样本中的各单词对应的第一预测标签确定边界检测处理的当前第一损失值,以及基于各当前候选命名实体对应的第二预测标签确定跨度分类处理的当前第二损失值;
基于当前第一损失值和当前第二损失值确定预设识别模型的当前目标损失值。
其中,当前第一损失值可以用来评估边界检测处理的精度。一般来说,当前第一损失值越小,则边界检测处理的精度越高。当前第二损失值可以用来评估跨度分类处理的当前第二损失值。一般来说,当前第二损失值越小,则边界检测处理的精度越高。
可选的,当前目标损失值与当前第一损失值正相关,且当前目标损失值与当前第二损失值正相关。可选的,当前目标损失值可以是当前第一损失值与当前第二损失值之和。
以下实施例在上述任一实施例的基础上,对于如何基于当前文本训练样本中的各单词对应的第一预测标签确定边界检测处理的当前第一损失值进行进一步说明。
在一种可能的实现方式中,各文本训练样本包括对应的标注信息。
具体的,机器学习包括有监督学习、半监督学习和无监督学习。所谓有监督学习,指的是使用既有特征又有标签的数据继续学习。本实施例的预设识别模型是通过有监督学习的方式完成训练的。标注信息可以是通过人工标注的,在此不做限定。
在本实施例中,标注信息包括真实开始标签和真实结束标签,真实开始标签用于指示文本训练样本中的真实命名实体对应的真实开始边界,真实结束标签用于指示文本训练样本中的真实命名实体对应的真实结束边界。
第一预测标签包括预测开始标签和预测结束标签,预测开始标签用于指示单词为开始边界的预测概率,预测结束标签用于指示单词为结束边界的预测概率。
基于当前文本训练样本中的各单词对应的第一预测标签确定边界检测处理的当前第一损失值,包括:
将当前文本训练样本中的各单词与真实开始标签所指示的真实开始边界进行比对,得到各单词对应的第一真实概率;
将当前文本训练样本中的各单词与真实结束标签所指示的真实结束边界进行比对,得到各单词对应的第二真实概率;
基于各单词对应的第一真实概率、第二真实概率、预测开始标签所指示的预测概率和预测结束标签所指示的预测概率,确定边界检测处理的当前第一损失值。
可以理解的是,与真实开始边界是同一单词所对应的第一真实概率,大于与真实开始边界是不同单词所对应的第一真实概率。同理,与真实结束边界是同一单词所对应的第二真实概率,大于与真实结束边界是不同单词所对应的第二真实概率。
可选的,若单词与真实开始标签所指示的真实开始边界是同一个单词,则该单词的第一真实概率可以是100%;若单词与真实开始标签所指示的真实开始边界是不同的单词,则该单词的第一真实概率可以是0%。同理,若单词与真实结束标签所指示的真实结束边界是同一个单词,则该单词的第二真实概率可以是100%;若单词与真实结束标签所指示的真实结束边界是不同的单词,则该单词的第二真实概率可以是0%。
在一种可能的实现中,基于各单词对应的第一真实概率、第二真实概率、预测开始标签所指示的预测概率和预测结束标签所指示的预测概率,确定边界检测处理的当前第一损失值,包括:
基于各单词对应的第一真实概率和预测开始标签所指示的预测概率,确定开始边界的损失值;
基于各单词对应的第二真实概率和预测开始标签所指示的预测概率,确定结束边界的损失值;
基于开始边界的损失值与结束边界的损失值之和确定边界检测处理的当前第一损失值。
其中,开始边界的损失值可以是通过各单词对应的第一真实概率和预测开始标签所指示的预测概率,确定各单词对应的开始边界损失值,将各单词对应的开始边界损失值求和并取反后,得到开始边界的损失值。
其中,结束边界的损失值可以是通过各单词对应的第二真实概率和预测结束标签所指示的预测概率,确定各单词对应的结束边界损失值,将各单词对应的结束边界损失值求和并取反后,得到结束边界的损失值。
可选的,可以通过以下方式计算当前第一损失值:
;
;
;
其中,表示当前第一损失值,/>表示开始边界的损失值,/>表示结束边界的损失值,/>表示第一真实概率、/>表示第二真实概率;/>表示预测开始标签所指示的预测概率,/>表示预测结束标签所指示的预测概率。
以下实施例在以上任一实施例的基础上,对于如何基于当前文本训练样本进行跨度分类处理,以得到当前文本训练样本中的各当前候选命名实体对应的第二预测标签进行进一步说明。
在一种可能的实现方式中,标注信息包括真实实体标签,真实实体标签用于指示文本训练样本中的真实命名实体。
基于当前文本训练样本进行跨度分类处理,以得到当前文本训练样本中的各当前候选命名实体对应的第二预测标签,包括:
基于各当前候选命名实体的开始单词表示与当前候选命名实体的结束单词表示,确定各当前候选命名实体的分数向量,其中,开始单词表示用于表示命名实体的开始单词在文本训练样本的位置,结束单词表示用于表示命名实体的结束单词在文本训练样本的位置;
将各当前候选命名实体的分数向量与基准分数向量进行比对得到各当前候选命名实体对应的第二预测标签,其中,基准分数向量是基于真实命名实体的开始单词表示和真实命名实体的结束单词表示确定的。
在一种可能的实现中,基于各当前候选命名实体对应的第二预测标签确定跨度分类处理的当前第二损失值,包括:
将各当前候选命名实体与真实实体标签所指示的真实命名实体进行比对,得到各当前候选命名实体对应的第三真实概率;
基于各当前候选命名实体对应的第三真实概率和第二预测标签所指示的预测概率,确定跨度分类处理的当前第二损失值。
可以理解的是,与真实实体标签所指示的真实命名实体一致的当前候选命名实体所对应的第三真实概率,大于真实实体标签所指示的真实命名实体不一致的当前候选命名实体所对应的第三真实概率。
可选的,若当前候选命名实体与真实实体标签所指示的真实命名实体一致,则该当前候选命名实体对应的第三真实概率为100%;若当前候选命名实体与真实实体标签所指示的真实命名实体不一致,则该当前候选命名实体对应的第三真实概率为0。
可选的,当前第二损失的计算方式可以如下:
。
其中,表示当前第二损失值,/>表示第二预测标签所指示的预测概率,/>表示第三真实概率,a表示候选命名实体的第一个词在文本训练样本的位置,b表示候选命名实体的最后一个词在文本训练样本的位置,l表示文本训练样本的单词总数。
在一种可能的实现方式中,当前目标损失值与第一乘积正相关,且当前目标损失值与第二乘积负相关,第一乘积为当前第一损失值与第一超参数因子的乘积,第二乘积为当前第二损失值与第一超参数因子的乘积。
可选的,当前目标损失值的计算方式可以如下:
。
其中,表示当前目标损失值,α表示第一超参数因子。
本实施例的技术方案,通过引入第一超参数因子进行当前目标损失值的计算,在当前第一损失值和当前第二损失值相同的情况下,第一超参数因子不同也会影响当前目标损失值的计算结果不同,也就是说,判断预设识别模型是否训练完成综合考虑跨度分类处理和边界检测处理之间的识别精度关系,则确定预设识别模型训练完成时的收敛效果更好,由此得到的第一命名实体识别模型的识别准确性更高。
需要说明的是,第一预测标签、第二预测标签、真实开始标签、真实结束标签和真实实体标签等标签实质上是一种硬标签。
硬标签就是对分类结果,1就是1,0就是0,一只猫判断它是猫的概率是1,是狗的概率是0,软标签((Soft Label))就是用概率给它一个不那么确定的标签,一只猫判断它是猫的概率是0.8,是狗的概率是0.2。硬标签是数据集中通常已知的,一个模型经过训练后它输出的往往是软标签,软标签比硬标签具有更多的知识,比如图片猫的概率是0.8,狗的概率是0.2,说明猫和狗在一定程度上有相似性,而和苹果的相似性为0,这给了类别之间更多的关联和信息。
以下实施例在上述任一实施例的基础上,对于如何进一步提高实体模型的识别准确性进行进一步说明。
请参阅图2,图2是本申请实施例提供的另一种命名实体识别模型的训练方法的流程示意图。如图2所示的方法包括:
110、获取多个文本训练样本。
120、利用多个文本训练样本对预设识别模型进行训练,直至满足预设训练条件,得到第一命名实体识别模型。
需要说明的是,在利用多个文本训练样本中的当前文本训练样本对预设识别模型进行当前次训练的过程中,预设识别模型执行以下步骤:
S121、基于当前文本训练样本进行边界检测处理,以得到当前文本训练样本中的各单词对应的第一预测标签。
S122、基于当前文本训练样本进行跨度分类处理,以得到当前文本训练样本中的各当前候选命名实体对应的第二预测标签。
S123、基于当前候选命名实体对应的第二预测标签,确定预设识别模型的第一预测软标签。
相应的,通过当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定预设识别模型的当前目标损失值,还包括:
基于第一预测软标签、真实实体标签确定预设识别模型的当前第三损失值;
基于当前第一损失值和当前第二损失值确定预设识别模型的当前目标损失值,包括:
基于当前第一损失值、当前第二损失值和当前第三损失值确定预设识别模型的当前目标损失值。
其中,当前第三损失值可以用来评估预设识别模型确定的第一预测软标签与真实实体标签的差距。可选的,当前目标损失值可以分别与当前第一损失值、当前第二损失值和当前第三损失值正相关。可选的,当前目标损失值可以是当前第一损失值、当前第二损失值和当前第三损失值之和,在此不做限定。
需要说明的是,若预设识别模型在当前次训练之后,若满足预设训练条件,则将该预设识别模型作为训练好的第一命名实体识别模型;若预设识别模型在当前次训练未满足预设训练条件,则预设识别模型可以基于第一预测标签、第二预测标签和第一预测软标签调节自身的模型参数,并利用下一文本训练样本对预设识别模型进行新一轮的训练。由此重复多次训练,直到满足预设条件得到第一命名实体识别模型。
在本实施例中,软标签相比于硬标签,包含有更细腻的知识,从而能够进一步提高跨度类型识别的准确率。
在示例的一些情形中,预设识别模型联合训练边界检测任务和跨度分类任务,则预设识别模型的轻量化程度会降低,因此,有必要在提高嵌套实体的识别准确性的前提下,进一步降低预设识别模型的轻量化程度。以下实施例在上述任一实施例的基础上,对于如何在提高嵌套实体的识别准确性的前提下,进一步降低预设识别模型的轻量化程度进行进一步说明。
请参阅图3,图3是本申请实施例提供的另一种命名实体识别模型的训练方法的流程示意图。如图3所示的方法,包括:
110、获取多个文本训练样本。
120、利用多个文本训练样本对预设识别模型进行训练,直至满足预设训练条件,得到第一命名实体识别模型。
需要说明的是,在利用多个文本训练样本中的当前文本训练样本对预设识别模型进行当前次训练的过程中,预设识别模型执行以下步骤:
S121、基于当前文本训练样本进行边界检测处理,以得到当前文本训练样本中的各单词对应的第一预测标签。
S122、基于当前文本训练样本进行跨度分类处理,以得到当前文本训练样本中的各当前候选命名实体对应的第二预测标签。
S123、基于当前候选命名实体对应的第二预测标签,确定预设识别模型的第一预测软标签。
S124、利用训练好的教师模型对当前文本训练样本进行处理,得到教师模型对应的第二预测软标签。
相应的,通过当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定预设识别模型的当前目标损失值,还包括:
基于第一预测软标签和第二预测软标签确定预设识别模型的当前第四损失值。
基于当前第一损失值、当前第二损失值和当前第三损失值确定预设识别模型的当前目标损失值,包括:
基于当前第一损失值、当前第二损失值、当前第三损失值和当前第四损失值确定预设识别模型的当前目标损失值。
其中,当前第四损失值可以用来评估预设识别模型确定的第一预测软标签与第一预测软标签的差距。其中,当前目标损失值可以分别与当前第一损失值、当前第二损失值、当前第三损失值和当前第四损失值正相关。可选的,当前目标损失值可以是当前第一损失值、当前第二损失值、当前第三损失值和当前第四损失值之和。
其中,本实施例中基于当前第三损失值和当前第四损失值确定目标损失值的计算方式可以包括:
;
其中,表示当前第四损失值,/>表示当前第三损失值,β表示第二超参数因子。
需要说明的是,若预设识别模型在当前次训练之后,若满足预设训练条件,则将该预设识别模型作为训练好的第一命名实体识别模型;若预设识别模型在当前次训练未满足预设训练条件,则预设识别模型可以基于第一预测标签、第二预测标签、第一预测软标签和第二预测软标签调节自身的模型参数,并利用下一文本训练样本对预设识别模型进行新一轮的训练。由此重复多次训练,直到满足预设条件得到第一命名实体识别模型。
在本实施例中,相关NER技术在预测实体时以完全的概率分配跨度为一个实体类型,而其他所有类型的分配概率为零,忽略了这些负标签可能带有的大量信息。而本发明提出自蒸馏模型,使用模型输出的相对于概率分布的软标签进一步返回模型进行训练。相比于硬标签,软标签包含有更细腻的知识,从而进一步提高跨度类型识别的准确率。此外,在实体边界预测时也采用自蒸馏策略,缓解边界检测任务所带来的过度自信以及实际边界标注数据的错标问题,提升模型的鲁棒性。
本实施例的技术方案,通过知识蒸馏的方式训练预设识别模型,从而在提高嵌套实体的识别准确性的基础上,能够进一步提高训练完成的第一命名实体识别模型的轻量化程度。此外,由于预设识别模型的训练还考虑到了第一预测软标签和第二预测软标签之间的差距,也就是考虑到了预设识别模型与教师模型之间的差距,由此还能进一步提高嵌套实体的识别准确性。
在一种可能的实现方式中,当前目标损失值分别与第三损失值以及第三乘积正相关,第三乘积为当前第四损失值与第二超参数因子的乘积。
本实施例的技术方案,通过引入第二超参数因子进行当前目标损失值的计算,在当前第三损失值和当前第四损失值相同的情况下,第二超参数因子不同也会影响当前目标损失值的计算结果不同,也就是说,判断预设识别模型是否训练完成综合考虑预设识别模型的第一预测软标签与真实实体标签之间的关系以及第一预测软标签与第二软标签之间的关系,由此得到的第一命名实体识别模型的识别准确性更高。
在示例的一些情形中,由于相关技术中严重依赖于实体标注数据,而带标注的数据是稀缺的,而未标注数据中存在大量对实体识别任务有帮助的实体信息,因此如何利用好未标注数据对于第一命名实体识别模型的识别准确性也十分重要。
在一种可能的实现中,多个文本训练样本包括未标注的文本训练样本,利用多个文本训练样本对预设识别模型进行训练,包括:
通过训练完成的教师模型对未标注的文本训练样本进行伪标签生成处理,得到未标注的文本训练样本对应的伪标签,教师模型是基于已标注的文本训练样本进行训练得到的;
利用未标注的文本训练样本以及未标注的文本训练样本对应的伪标签对预设识别模型进行训练。
其中,本实施例的伪标签,可以包括但不限于真实开始标签、真实结束标签和真实实体标签中的至少一种,在此不做限定。
在本实施例中,伪标签生成:现有 NER技术严重依赖于实体标注数据,而带标注的数据是稀缺的。本发明基于教师模型可对大量未标注数据生成实体软标签数据加入自蒸馏训练。未标注数据中存在大量对实体识别任务有帮助的实体信息,本发明可以从未标注数据中学到更丰富、更泛化的特征。利用未标注数据中大量实体信息和潜在的特征,有效提高在模型的泛化能力和实体识别的准确率、召回率和 F1 值。
本实施例的技术方案,通过训练完成的教师模型对未标注的文本训练样本进行伪标签生成处理,得到未标注的文本训练样本对应的伪标签,可以利用未标注数据对预设识别模型进行训练,从而得到训练好的第一命名实体识别模型,同时第一命名实体识别模型的识别准确性也得以进一步提升。
请同时参阅图4-图6。图4是本申请实施例提供的一种预设识别模型的训练架构示意图。图5是本申请实施例提供的一种多任务学习的框架示意图。图6是本申请实施例提供的一种自蒸馏结构示意图。
以下实施例结合图4-图6对本申请的方案进行进一步说明。
如图所示,本提案的基础框架是一个多任务学习模型。包括编码模块、边界检测模块和跨度分类模块。
(1) 编码模块
在这个模块中,字词序列首先由预训练语言模型 BERT 做 embedding 嵌入:
;
然后将其输入 BiLSTM 编码器层以捕获单词的上下文依赖关系,生成新的表示:
;
;
;
随后将用于边界检测和跨度分类任务的共享输入。
(2) 边界检测模块
边界检测旨在识别一个词是实体的第一个词还是最后一个词,模型使用两个令牌分类器来预测开始和结束位置。具体来说,将上下文表示输入到两个多层感知器 (MLP)分类器中,并应用 softmax 分类器来分别获得单词/>作为实体开始词的概率和结束词的概率。
;
;
实体开始边界和结束边界分别对应一个损失函数,边界检测总的损失函数为两者之和。
;
;
;
(3) 跨度分类模块
跨度分类是一个跨度分类器,旨在将跨度分类为相应的语义标签。这里选择双仿射分类器。具体来说,首先采用两个单独的前馈神经网络对上下文表示进行仿射,得到属于span 开始和结束的表示和/>。实体类型数目为(c 包括一个“非实体”类型),对于一个开始于第a个 token(位置表示)、结束于第 b 个 token的跨度,可以计算出一个分数向量/>:/>
;
其中,,/>,/>。/>随后被输入一个 softmax 层得到对所有实体类型的概率:
;
基本事实是一个独热编码向量:如果索引对应于标注的实体类型,则值为1,否则为0。
因此,可以通过所有候选跨度的标准交叉熵损失来优化模型:
;
在推理阶段,预测为“非实体”的跨度首先被丢弃,其余的跨度按其预测置信度排名。
在训练过程中,联合边界检测和跨度分类两个任务,最小化如下损失:
;
其中,α为第一超参数因子。
为进一步提高模型效果,本提案还加入了知识蒸馏的模块。当前集成学习和知识蒸馏相融合的一个重要应用方向是:使一个简单模型的性能能够和多个集成的网络相媲美。在模型蒸馏过程中,这些子模型充当教师,其 logit 输出被用作软标签来监督学生模型的学习。对于自蒸馏,学生模型与这些教师具有相同的架构。软标签可用作标签平滑正则化器,改进标签的质量,以实现更好的优化。这里对多任务模型进行训练,作为教师模型,然后利用训练好的教师模型生成的软标签指导相同结构的学生模型进行自蒸馏训练。
对双仿射跨度分类,利用其最后一层 softmax 层的 logits 输入rab,计算该样本对应的软标签:
;
其中T为大于1的整数。
类似地,学生模型在训练时也能得到相应的软标签:
;
学生模型的损失函数至少包括两部分,第一部分是学生模型预测的软标签和教师模型的软标签之间的交叉熵(样本不仅有原本的有标注数据,如果存在未标注数据,教师模型也能生成相应的软标签用于学生模型训练),第二部分是学生模型预测的标签与真实硬标签之间的交叉熵。
;
其中,,β表示控制第一部分蒸馏损失相对于第二部分真实损失的超参数,通过拟合教师模型的软标签,学生模型可以学习到相对于真实硬标签更丰富的信息。
此外,对于边界检测任务,也能够进行相应的自蒸馏训练,利用教师模型生成的实体开始和结束的软标签,以平滑原本的真实硬标签边界,缓解对边界的过分关注以及错标问题,提高鲁棒性。
将实体识别任务分为边界检测和跨度分类两个任务,对边界的识别准确率得到提升。现有NER技术,忽略了对边界的关注。而本发明将实体识别任务分为边界检测和跨度分类两个任务。除了将跨度分类为相应的类型标签之外,还结合一个额外的边界检测任务来增强学习跨度表示中的边界监督。得益于边界检测任务,本发明在实体识别过程中对边界的预测准确率得到提升,进而提高最终实体识别的准确率。
引入自蒸馏策略,提升鲁棒性。现有NER技术在预测实体时以完全的概率分配跨度为一个实体类型,而其他所有类型的分配概率为零,忽略了这些负标签可能带有的大量信息。而本申请实施例提出自蒸馏模型,使用模型输出的相对于概率分布的软标签进一步返回模型进行训练。相比于硬标签,软标签包含有更细腻的知识,从而进一步提高跨度类型识别的准确率。此外,在实体边界预测时也采用自蒸馏策略,缓解边界检测任务所带来的过度自信以及实际边界标注数据的错标问题,提升模型的鲁棒性。
基于教师模型,降低对标注数据的依赖,提升模型泛化能力。现有NER技术严重依赖于实体标注数据,而带标注的数据是稀缺的。现有技术得到的模型往往只适用于训练数据,泛化能力差。本发明基于教师模型可对大量未标注数据生成实体软标签数据加入自蒸馏训练。利用未标注数据中存在的大量对实体识别任务有帮助的实体信息,本发明可以学习到更丰富、更泛化的特征。利用未标注数据中大量实体信息和潜在的特征,有效提高在模型的泛化能力和实体识别的准确率、召回率和F1值。
请参阅图7,图7是本申请实施例提供的一种命名实体识别方法流程示意图。如图7所示的方法包括:
S710、获取待识别文本。
S720、将待识别文本输入至训练完成的第一命名实体识别模型,以获得第一命名实体识别模型输出的目标识别结果,第一命名实体识别模型用于对待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果。
其中,目标识别结果用于指示待识别文本中的目标命名实体。本实施例的第一命名实体识别模型可以通过上述任一实施例的训练方法训练得到,在此不做赘述。
本实施例的技术方案,通过第一命名实体识别模型结合边界检测处理以及跨度分类处理得到目标识别结果,而边界检测处理能够预测文本训练样本中的各单词为真实命名实体的边界的概率,跨度分类处理能够预测文本训练样本中的各候选命名实体为真实命名实体的概率,也就是说,第一命名实体识别模型在识别目标命名实体时,考虑到了命名实体的边界和跨度等至少两个维度,因此克服了相关技术中基于跨度的方法来训练得到的命名实体识别模型对于嵌套实体的识别准确率不高的问题,进而达到了提高对于嵌套实体的识别准确率的技术效果。
需要说明的是,第一命名实体识别模型对待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果,可以包括:
对待识别文本进行边界检测处理,得到第一识别结果,第一识别结果用于指示待识别文本中的各单词为待识别文本中的真实命名实体的边界的第一识别概率;
对待识别文本进行跨度分类处理,得到第二识别结果,第二识别结果用于指示待识别文本中的各待选命名实体为待识别文本中的真实命名实体的第二识别概率;
基于第一识别结果和第二识别结果确定目标识别结果。
在一种可能的实现方式中,第一识别概率包括第一识别开始概率和第一识别结束概率,第一识别开始概率用于指示单词为开始边界的概率,第一识别结束概率用于指示单次为结束边界的概率,基于第一识别结果和第二识别结果确定目标识别结果,包括:
基于第一识别结果确定各待选命名实体中的待选开始边界的第一识别开始概率和待选结束边界的第一识别结束概率;
针对各待选命名实体,基于待选命名实体中对应的第二识别概率、待选命名实体中的待选开始边界的第一识别开始概率和待选命名实体中的待选结束边界的第一识别结束概率确定目标概率;
针对各待选命名实体对应的目标概率,选择最大的目标概率所对应的待选命名实体作为目标命名实体。
在本实施例中,待选命名实体对应的目标概率,可以是待选命名实体中对应的第二识别概率、待选命名实体中的待选开始边界的第一识别开始概率和待选命名实体中的待选结束边界的第一识别结束概率之和。
在一种可能的实现方式中,将待识别文本输入至训练完成的第一命名实体识别模型,包括:
若识别出待识别文本中存在疑似嵌套实体,则将待识别文本输入至训练完成的第一命名实体识别模型。
在一种可能的实现方式中,该命名实体识别方法还包括:
若识别出待识别文本中存在平直实体,则将待识别文本输入至训练完成的第二命名实体识别模型,以获得第二命名实体识别模型输出的目标识别结果,第二命名实体识别模型的轻量化程度高于第一命名实体识别模型的轻量化程度。
在本实施例中,通过在将待识别文本输入至训练完成的第一命名实体识别模型之前,判断待识别文本中是否存在疑似嵌套实体,若存在嵌套实体,则将待识别文本输入第一命名实体识别模型中;若存在平直实体则将待识别文本输入第二命名实体识别模型中进行识别,而第二命名实体识别模型的轻量化程度高于第一命名实体识别模型的轻量化程度,由此能够兼容识别准确度和识别效率。
可选的,第二命名实体识别模型可以是利用序列标注方法训练得到的,序列标注方法通常用来识别平直实体,例如LSTM-CRF模型。此外,也可以是只利用基于跨度的方法来训练得到第二命名实体识别模型,在此不做限定。
在一种可能的实现方式中,待识别文本中存在疑似嵌套实体的识别条件包括以下的至少一项:
待识别文本的文本长度大于预设的长度阈值;
待识别文本中的单词数量大于预设的数量阈值;
待识别文本是在目标应用的显示界面输入的文本。
具体的,待识别文本的文本长度大于预设的长度阈值则说明待识别文本中存在嵌套实体的可能性较大。同理,待识别文本中的单词数量大于预设的数量阈值也能说明待识别文本中存在嵌套实体的可能性较大。此外,由于个别应用,例如购物应用等目标应用中输入的文本大概率存在嵌套文本,因此,可以将在目标应用的显示界面输入的文本认为是疑似嵌套文本。
本申请实施例提供了一种命名实体识别模型的训练装置,如图8所示,该命名实体识别模型的训练装置80可以包括:样本获取模块801以及训练模块802,其中:
样本获取模块801,用于获取多个文本训练样本;训练模块802,用于利用多个文本训练样本对预设识别模型进行训练,直至确认预设识别模型训练完成,得到第一命名实体识别模型,第一命名实体识别模型用于对输入的待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果,目标识别结果用于指示待识别文本中的目标命名实体;
其中,在利用多个文本训练样本中的当前文本训练样本对预设识别模型进行当前次训练的过程中,预设识别模型执行以下步骤:
基于当前文本训练样本进行边界检测处理,以得到当前文本训练样本中的各单词对应的第一预测标签,第一预测标签用于指示单词为文本训练样本中的真实命名实体的边界的预测概率;
基于当前文本训练样本进行跨度分类处理,以得到当前文本训练样本中的各当前候选命名实体对应的第二预测标签,第二预测标签用于指示候选命名实体为文本训练样本中的真实命名实体的预测概率。
在一种可能的实现方式中,预设训练条件包括:
训练次数达到预设的次数阈值;和/或,
预设识别模型的当前目标损失值满足预设的损失条件,预设识别模型的当前目标损失值是通过当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定的;
损失条件包括当前目标损失值小于预设的损失值阈值和/或当前目标损失值与上一目标损失值之间的损失差值小于预设的差值阈值,上一目标损失值为预设识别模型上一次训练得到的目标损失值。
在一种可能的实现方式中,该训练模块802还用于基于当前文本训练样本中的各单词对应的第一预测标签确定边界检测处理的当前第一损失值,以及基于各当前候选命名实体对应的第二预测标签确定跨度分类处理的当前第二损失值;基于当前第一损失值和当前第二损失值确定预设识别模型的当前目标损失值。
在一种可能的实现中,各文本训练样本包括对应的标注信息,标注信息包括真实开始标签和真实结束标签,真实开始标签用于指示文本训练样本中的真实命名实体对应的真实开始边界,真实结束标签用于指示文本训练样本中的真实命名实体对应的真实结束边界;第一预测标签包括预测开始标签和预测结束标签,预测开始标签用于指示单词为开始边界的预测概率,预测结束标签用于指示单词为结束边界的预测概率;该训练模块802用于将当前文本训练样本中的各单词与真实开始标签所指示的真实开始边界进行比对,得到各单词对应的第一真实概率;
将当前文本训练样本中的各单词与真实结束标签所指示的真实结束边界进行比对,得到各单词对应的第二真实概率;基于各单词对应的第一真实概率、第二真实概率、预测开始标签所指示的预测概率和预测结束标签所指示的预测概率,确定边界检测处理的当前第一损失值。
在一种可能的实现方式中,该训练模块802用于基于各单词对应的第一真实概率和预测开始标签所指示的预测概率,确定开始边界的损失值;基于各单词对应的第二真实概率和预测开始标签所指示的预测概率,确定结束边界的损失值;基于开始边界的损失值与结束边界的损失值之和确定边界检测处理的当前第一损失值。
在一种可能的实现方式中,各文本训练样本包括有标注信息,标注信息包括真实实体标签,真实实体标签用于指示文本训练样本中的真实命名实体;该训练模块802用于基于各当前候选命名实体的开始单词表示与当前候选命名实体的结束单词表示,确定各当前候选命名实体的分数向量,其中,开始单词表示用于表示命名实体的开始单词在文本训练样本的位置,结束单词表示用于表示命名实体的结束单词在文本训练样本的位置;将各当前候选命名实体的分数向量与基准分数向量进行比对得到各当前候选命名实体对应的第二预测标签,其中,基准分数向量是基于真实命名实体的开始单词表示和真实命名实体的结束单词表示确定的。
在一种可能的实现方式中,该训练模块802用于将各当前候选命名实体与真实实体标签所指示的真实命名实体进行比对,得到各当前候选命名实体对应的第三真实概率;基于各当前候选命名实体对应的第三真实概率和第二预测标签所指示的预测概率,确定跨度分类处理的当前第二损失值。
在一种可能的实现方式中,当前目标损失值与第一乘积正相关,且当前目标损失值与第二乘积负相关,第一乘积为当前第一损失值与第一超参数因子的乘积,第二乘积为当前第二损失值与第一超参数因子的乘积。
在一种可能的实现方式中,训练模块802还用于基于当前候选命名实体对应的第二预测标签,确定预设识别模型的第一预测软标签;基于第一预测软标签、真实实体标签确定预设识别模型的当前第三损失值;基于当前第一损失值、当前第二损失值和当前第三损失值确定预设识别模型的当前目标损失值。
在一种可能的实现方式中,预设识别模型是学生模型,该训练模块802还用于利用训练好的教师模型对当前文本训练样本进行处理,得到教师模型对应的第二预测软标签;基于第一预测软标签和第二预测软标签确定预设识别模型的当前第四损失值;基于当前第一损失值、当前第二损失值、当前第三损失值和当前第四损失值确定预设识别模型的当前目标损失值。
在一种可能的实现方式中,当前目标损失值分别与第三损失值以及第三乘积正相关,第三乘积为当前第四损失值与第二超参数因子的乘积。
在一种可能的实现方式中,多个文本训练样本包括未标注的文本训练样本,该训练模块802用于通过训练完成的教师模型对未标注的文本训练样本进行伪标签生成处理,得到未标注的文本训练样本对应的伪标签,教师模型是基于已标注的文本训练样本进行训练得到的;利用未标注的文本训练样本以及未标注的文本训练样本对应的伪标签对预设识别模型进行训练。
本申请实施例提供了一种命名实体识别装置,如图9所示,该命名实体识别装置90可以包括:文本获取模块901以及识别模块902,其中,
文本获取模块901,用于获取待识别文本;
识别模块902,用于将待识别文本输入至训练完成的第一命名实体识别模型,以获得第一命名实体识别模型输出的目标识别结果,第一命名实体识别模型用于对待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果,目标识别结果用于指示待识别文本中的目标命名实体。
其中,第一命名实体识别模型是通过以上任一实施例的方法训练得到的。
在一种可能的实现方式中,该识别模块902用于若识别出待识别文本中存在疑似嵌套实体,则将待识别文本输入至训练完成的第一命名实体识别模型。
在一种可能的实现方式中,该识别模块902还用于若识别出待识别文本中存在平直实体,则将待识别文本输入至训练完成的第二命名实体识别模型,以获得第二命名实体识别模型输出的目标识别结果,第二命名实体识别模型的轻量化程度高于第一命名实体识别模型的轻量化程度。
在一种可能的实现方式中,待识别文本中存在疑似嵌套实体的识别条件包括以下的至少一项:
待识别文本的文本长度大于预设的长度阈值;
待识别文本中的单词数量大于预设的数量阈值;
待识别文本是在目标应用的显示界面输入的文本。
本实施例的装置可执行本申请前述实施例所示方法的步骤,其实现原理相类似,此处不再赘述。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现以上任一实施例的方法的步骤。
在一个可选实施例中提供了一种电子设备,如图10所示,图10所示的电子设备1000包括:处理器1001和存储器1003。其中,处理器1001和存储器1003相连,如通过总线1002相连。可选地,电子设备1000还可以包括收发器1004,收发器1004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器1004不限于一个,该电子设备1000的结构并不构成对本申请实施例的限定。
处理器1001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线1002可包括一通路,在上述组件之间传送信息。总线1002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线1002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器1003用于存储执行本申请实施例的计算机程序,并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的计算机程序,以实现前述方法实施例所示的步骤。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (17)
1.一种命名实体识别模型的训练方法,其特征在于,包括:
获取多个未标注的文本训练样本;
通过训练完成的教师模型对所述文本训练样本进行伪标签生成处理,得到与各文本训练样本对应的伪标签以及所述教师模型对应的第二预测软标签;所述伪标签包括真实开始标签、真实结束标签和真实实体标签;
利用所述文本训练样本及其对应的伪标签对预设识别模型进行训练,直至满足预设训练条件,得到第一命名实体识别模型,所述第一命名实体识别模型用于对输入的待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果,所述目标识别结果用于指示所述待识别文本中的目标命名实体;
其中,在利用所述多个文本训练样本中的当前文本训练样本对所述预设识别模型进行当前次训练的过程中,所述预设识别模型执行以下步骤:
基于所述当前文本训练样本进行边界检测处理,以得到所述当前文本训练样本中的各单词对应的第一预测标签,所述第一预测标签用于指示单词为文本训练样本中的真实命名实体的边界的预测概率,所述第一预测标签包括预测开始标签和预测结束标签,所述预测开始标签用于指示单词为开始边界的预测概率,所述预测结束标签用于指示单词为结束边界的预测概率;
基于所述当前文本训练样本进行跨度分类处理,以得到所述当前文本训练样本中的各当前候选命名实体对应的第二预测标签,所述第二预测标签用于指示候选命名实体为文本训练样本中的真实命名实体的预测概率;
基于当前候选命名实体对应的第二预测标签,确定所述预设识别模型的第一预测软标签;
所述预设训练条件包括所述预设识别模型的当前目标损失值满足预设的损失条件,所述当前目标损失值是基于所述第一预测标签的预测开始标签与真实开始标签之间的比对以及所述预测结束标签与真实结束标签之间的比对得到的当前第一损失值、真实实体标签和所述第二预测标签之间的比对得到的当前第二损失值、所述第一预测软标签与所述真实实体标签的比对得到的当前第三损失值和所述第一预测软标签与所述第二预测软标签之间的比对得到的当前第四损失值确定的。
2.根据权利要求1所述的方法,其特征在于,所述预设训练条件还包括:
训练次数达到预设的次数阈值;和/或,
所述损失条件包括所述当前目标损失值小于预设的损失值阈值和/或所述当前目标损失值与上一目标损失值之间的损失差值小于预设的差值阈值,所述上一目标损失值为所述预设识别模型上一次训练得到的目标损失值。
3.根据权利要求2所述的方法,其特征在于,通过所述当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定所述预设识别模型的当前目标损失值,包括:
基于所述当前文本训练样本中的各单词对应的第一预测标签确定边界检测处理的当前第一损失值,以及基于各当前候选命名实体对应的第二预测标签确定跨度分类处理的当前第二损失值;
基于所述当前第一损失值和所述当前第二损失值确定所述预设识别模型的当前目标损失值。
4.根据权利要求3所述的方法,其特征在于,各文本训练样本包括对应的标注信息,所述标注信息包括真实开始标签和真实结束标签,所述真实开始标签用于指示文本训练样本中的真实命名实体对应的真实开始边界,所述真实结束标签用于指示文本训练样本中的真实命名实体对应的真实结束边界;
所述基于所述当前文本训练样本中的各单词对应的第一预测标签确定边界检测处理的当前第一损失值,包括:
将所述当前文本训练样本中的各单词与真实开始标签所指示的真实开始边界进行比对,得到各单词对应的第一真实概率;
将所述当前文本训练样本中的各单词与真实结束标签所指示的真实结束边界进行比对,得到各单词对应的第二真实概率;
基于各单词对应的第一真实概率、第二真实概率、预测开始标签所指示的预测概率和预测结束标签所指示的预测概率,确定边界检测处理的当前第一损失值。
5.根据权利要求4所述的方法,其特征在于,所述基于各单词对应的第一真实概率、第二真实概率、预测开始标签所指示的预测概率和预测结束标签所指示的预测概率,确定边界检测处理的当前第一损失值,包括:
基于各单词对应的第一真实概率和预测开始标签所指示的预测概率,确定开始边界的损失值;
基于各单词对应的第二真实概率和预测开始标签所指示的预测概率,确定结束边界的损失值;
基于所述开始边界的损失值与所述结束边界的损失值之和确定边界检测处理的当前第一损失值。
6.根据权利要求3所述的方法,其特征在于,各文本训练样本包括有标注信息,所述标注信息包括真实实体标签,所述真实实体标签用于指示文本训练样本中的真实命名实体;
所述基于所述当前文本训练样本进行跨度分类处理,以得到所述当前文本训练样本中的各当前候选命名实体对应的第二预测标签,包括:
基于各当前候选命名实体的开始单词表示与所述当前候选命名实体的结束单词表示,确定各当前候选命名实体的分数向量,其中,所述开始单词表示用于表示命名实体的开始单词在文本训练样本的位置,所述结束单词表示用于表示命名实体的结束单词在文本训练样本的位置;
将各当前候选命名实体的分数向量与基准分数向量进行比对得到各当前候选命名实体对应的第二预测标签,其中,所述基准分数向量是基于所述真实命名实体的开始单词表示和所述真实命名实体的结束单词表示确定的。
7.根据权利要求6所述的方法,其特征在于,所述基于各当前候选命名实体对应的第二预测标签确定跨度分类处理的当前第二损失值,包括:
将各当前候选命名实体与真实实体标签所指示的真实命名实体进行比对,得到各当前候选命名实体对应的第三真实概率;
基于各当前候选命名实体对应的第三真实概率和第二预测标签所指示的预测概率,确定跨度分类处理的当前第二损失值。
8.根据权利要求3所述的方法,其特征在于,所述当前目标损失值与第一乘积正相关,且所述当前目标损失值与第二乘积负相关,所述第一乘积为当前第一损失值与第一超参数因子的乘积,所述第二乘积为当前第二损失值与所述第一超参数因子的乘积。
9.根据权利要求6所述的方法,其特征在于,在利用所述多个文本训练样本中的当前文本训练样本对所述预设识别模型进行当前次训练的过程中,所述预设识别模型还执行以下步骤:
通过所述当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定所述预设识别模型的当前目标损失值,还包括:
基于所述第一预测软标签、所述真实实体标签确定所述预设识别模型的当前第三损失值;
所述基于所述当前第一损失值和所述当前第二损失值确定所述预设识别模型的当前目标损失值,包括:
基于所述当前第一损失值、所述当前第二损失值和所述当前第三损失值确定所述预设识别模型的当前目标损失值。
10.根据权利要求9所述的方法,其特征在于,所述预设识别模型是学生模型,所述命名实体识别模型的训练方法还包括:
所述通过所述当前文本训练样本中的各单词对应的第一预测标签和各当前候选命名实体对应的第二预测标签确定所述预设识别模型的当前目标损失值,还包括:
基于所述第一预测软标签和所述第二预测软标签确定所述预设识别模型的当前第四损失值;
所述基于所述当前第一损失值、所述当前第二损失值和所述当前第三损失值确定所述预设识别模型的当前目标损失值,包括:
基于所述当前第一损失值、所述当前第二损失值、所述当前第三损失值和所述当前第四损失值确定所述预设识别模型的当前目标损失值。
11.根据权利要求10所述的方法,其特征在于,所述当前目标损失值分别与第三损失值以及第三乘积正相关,所述第三乘积为所述当前第四损失值与第二超参数因子的乘积。
12.根据权利要求1-11任一项所述的方法,其特征在于,所述教师模型是基于已标注有标注信息的文本训练样本进行训练得到的,所述标注信息包括所述真实开始标签、所述真实结束标签和所述真实实体标签,所述真实开始标签用于指示文本训练样本中的真实命名实体对应的真实开始边界,所述真实结束标签用于指示文本训练样本中的真实命名实体对应的真实结束边界,所述真实实体标签用于指示文本训练样本中的真实命名实体;所述对输入的待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果,包括:
对待识别文本进行边界检测处理,得到第一识别结果;第一识别结果用于指示待识别文本中的各单词为待识别文本中的真实命名实体的边界的第一识别概率,第一识别概率包括第一识别开始概率和第一识别结束概率,第一识别开始概率用于指示单词为开始边界的概率,第一识别结束概率用于指示单词为结束边界的概率;
对待识别文本进行跨度分类处理,得到第二识别结果;第二识别结果用于指示待识别文本中的各待选命名实体为待识别文本中的真实命名实体的第二识别概率;
基于第一识别结果确定各待选命名实体中的待选开始边界的第一识别开始概率和待选结束边界的第一识别结束概率;
针对各待选命名实体,基于待选命名实体中对应的第二识别概率、待选命名实体中的待选开始边界的第一识别开始概率和待选命名实体中的待选结束边界的第一识别结束概率确定目标概率;
针对各待选命名实体对应的目标概率,选择最大的目标概率所对应的待选命名实体作为目标命名实体。
13.一种命名实体识别方法,其特征在于,包括:
获取待识别文本;
若识别出所述待识别文本中存在疑似嵌套实体,则将所述待识别文本输入至训练完成的第一命名实体识别模型,以获得所述第一命名实体识别模型输出的目标识别结果,所述第一命名实体识别模型用于对所述待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果,所述目标识别结果用于指示所述待识别文本中的目标命名实体;
若识别出所述待识别文本中仅存在平直实体,则将所述待识别文本输入至训练完成的第二命名实体识别模型,以获得所述第二命名实体识别模型输出的所述目标识别结果,所述第二命名实体识别模型的轻量化程度高于所述第一命名实体识别模型的轻量化程度,所述第二命名实体识别模型利用序列标注方法或基于跨度的方法训练得到;
所述待识别文本中存在疑似嵌套实体的识别条件包括以下的至少一项:
所述待识别文本的文本长度大于预设的长度阈值;
所述待识别文本中的单词数量大于预设的数量阈值;
所述待识别文本是在目标应用的显示界面输入的文本;
其中,所述第一命名实体识别模型是通过如权利要求1-12任一项所述的方法训练得到的。
14.一种命名实体识别模型的训练装置,其特征在于,包括:
样本获取模块,用于获取多个未标注的文本训练样本;
训练模块,用于通过训练完成的教师模型对所述文本训练样本进行伪标签生成处理,得到与各文本训练样本对应的伪标签以及所述教师模型对应的第二预测软标签;所述伪标签包括真实开始标签、真实结束标签和真实实体标签;
所述训练模块还用于利用所述文本训练样本及其对应的伪标签对预设识别模型进行训练,直至满足预设训练条件时确认所述预设识别模型训练完成,得到第一命名实体识别模型,所述第一命名实体识别模型用于对输入的待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果,所述目标识别结果用于指示所述待识别文本中的目标命名实体;
其中,在利用所述多个文本训练样本中的当前文本训练样本对所述预设识别模型进行当前次训练的过程中,所述预设识别模型执行以下步骤:
基于所述当前文本训练样本进行边界检测处理,以得到所述当前文本训练样本中的各单词对应的第一预测标签,所述第一预测标签用于指示单词为文本训练样本中的真实命名实体的边界的预测概率,所述第一预测标签包括预测开始标签和预测结束标签,所述预测开始标签用于指示单词为开始边界的预测概率,所述预测结束标签用于指示单词为结束边界的预测概率;
基于所述当前文本训练样本进行跨度分类处理,以得到所述当前文本训练样本中的各当前候选命名实体对应的第二预测标签,所述第二预测标签用于指示候选命名实体为文本训练样本中的真实命名实体的预测概率;
基于当前候选命名实体对应的第二预测标签,确定所述预设识别模型的第一预测软标签;
所述预设训练条件包括所述预设识别模型的当前目标损失值满足预设的损失条件,所述当前目标损失值是基于所述第一预测标签的预测开始标签与真实开始标签之间的比对以及所述预测结束标签与真实结束标签之间的比对得到的当前第一损失值、真实实体标签和所述第二预测标签之间的比对得到的当前第二损失值、所述第一预测软标签与所述真实实体标签的比对得到的当前第三损失值和所述第一预测软标签与所述第二预测软标签之间的比对得到的当前第四损失值确定的。
15.一种命名实体识别装置,其特征在于,包括:
文本获取模块,用于获取待识别文本;
识别模块,用于若识别出所述待识别文本中存在疑似嵌套实体,将所述待识别文本输入至训练完成的第一命名实体识别模型,以获得所述第一命名实体识别模型输出的目标识别结果,所述第一命名实体识别模型用于对所述待识别文本进行边界检测处理以及跨度分类处理得到目标识别结果,所述目标识别结果用于指示所述待识别文本中的目标命名实体;若识别出所述待识别文本中存在平直实体,则将所述待识别文本输入至训练完成的第二命名实体识别模型,以获得所述第二命名实体识别模型输出的所述目标识别结果,所述第二命名实体识别模型的轻量化程度高于所述第一命名实体识别模型的轻量化程度,所述第二命名实体识别模型利用序列标注方法或基于跨度的方法训练得到;
所述待识别文本中存在疑似嵌套实体的识别条件包括以下的至少一项:
所述待识别文本的文本长度大于预设的长度阈值;
所述待识别文本中的单词数量大于预设的数量阈值;
所述待识别文本是在目标应用的显示界面输入的文本;
其中,所述第一命名实体识别模型是通过如权利要求1-12任一项所述的方法训练得到的。
16.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-13任一项所述方法的步骤。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-13任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310865106.7A CN116579345B (zh) | 2023-07-14 | 2023-07-14 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310865106.7A CN116579345B (zh) | 2023-07-14 | 2023-07-14 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116579345A CN116579345A (zh) | 2023-08-11 |
CN116579345B true CN116579345B (zh) | 2023-10-24 |
Family
ID=87541726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310865106.7A Active CN116579345B (zh) | 2023-07-14 | 2023-07-14 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116579345B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744660B (zh) * | 2024-02-19 | 2024-05-10 | 广东省人民医院 | 一种基于强化学习和迁移学习的命名实体识别方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541355A (zh) * | 2020-12-11 | 2021-03-23 | 华南理工大学 | 一种实体边界类别解耦的少样本命名实体识别方法与系统 |
CN112905795A (zh) * | 2021-03-11 | 2021-06-04 | 证通股份有限公司 | 文本意图分类的方法、装置和可读介质 |
WO2021135193A1 (zh) * | 2019-12-30 | 2021-07-08 | 华南理工大学 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
CN114372470A (zh) * | 2022-03-22 | 2022-04-19 | 中南大学 | 基于边界检测和提示学习的中文法律文本实体识别方法 |
CN114818713A (zh) * | 2022-05-11 | 2022-07-29 | 安徽理工大学 | 一种基于边界检测的中文命名实体识别方法 |
CN116341651A (zh) * | 2023-03-30 | 2023-06-27 | 阳光保险集团股份有限公司 | 实体识别模型训练方法、装置、电子设备及存储介质 |
CN116432655A (zh) * | 2023-06-12 | 2023-07-14 | 山东大学 | 基于语用知识学习的少样本命名实体识别方法和装置 |
-
2023
- 2023-07-14 CN CN202310865106.7A patent/CN116579345B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021135193A1 (zh) * | 2019-12-30 | 2021-07-08 | 华南理工大学 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
CN112541355A (zh) * | 2020-12-11 | 2021-03-23 | 华南理工大学 | 一种实体边界类别解耦的少样本命名实体识别方法与系统 |
CN112905795A (zh) * | 2021-03-11 | 2021-06-04 | 证通股份有限公司 | 文本意图分类的方法、装置和可读介质 |
CN114372470A (zh) * | 2022-03-22 | 2022-04-19 | 中南大学 | 基于边界检测和提示学习的中文法律文本实体识别方法 |
CN114818713A (zh) * | 2022-05-11 | 2022-07-29 | 安徽理工大学 | 一种基于边界检测的中文命名实体识别方法 |
CN116341651A (zh) * | 2023-03-30 | 2023-06-27 | 阳光保险集团股份有限公司 | 实体识别模型训练方法、装置、电子设备及存储介质 |
CN116432655A (zh) * | 2023-06-12 | 2023-07-14 | 山东大学 | 基于语用知识学习的少样本命名实体识别方法和装置 |
Non-Patent Citations (1)
Title |
---|
self-distilled Named Entity Recognition Based on Boundary Detection and Biaffine Attention;Yong Song 等;2022 IEEE Smartworld, Ubiquitous Intelligence & Computing, Scalable Computing & Communications, Digital Twin, Privacy Computing, Metaverse, Autonomous & Trusted Vehicles;正文第II-IV节 * |
Also Published As
Publication number | Publication date |
---|---|
CN116579345A (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210209356A1 (en) | Method for keyword extraction and electronic device implementing the same | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN113743099B (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN111666406A (zh) | 基于自注意力的单词和标签联合的短文本分类预测方法 | |
CN116579345B (zh) | 命名实体识别模型的训练方法、命名实体识别方法及装置 | |
US11948078B2 (en) | Joint representation learning from images and text | |
CN112257860A (zh) | 基于模型压缩的模型生成 | |
CN115130591A (zh) | 一种基于交叉监督的多模态数据分类方法及装置 | |
CN115712740A (zh) | 多模态蕴含增强图像文本检索的方法和系统 | |
Wu et al. | AI for online customer service: Intent recognition and slot filling based on deep learning technology | |
CN114120074B (zh) | 基于语义增强的图像识别模型的训练方法和训练装置 | |
CN116681961A (zh) | 基于半监督方法和噪声处理的弱监督目标检测方法 | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN116777814A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
Lou et al. | Mse-net: Pedestrian attribute recognition using mlsc and se-blocks | |
Zhang et al. | A small target detection algorithm based on improved YOLOv5 in aerial image | |
Zhou et al. | Real-Time Accurate Text Detection with Adaptive Double Pyramid Network | |
CN117591666B (zh) | 针对桥梁管养文档的摘要抽取方法 | |
Ding et al. | An improved anchor-free method for traffic scene object detection | |
Dong et al. | Multi-scale Field Distillation for Multi-task Semantic Segmentation | |
Liu et al. | Optimization Algorithm of Visual Multimodal Text Recognition for Public Opinion Analysis Scenarios | |
Sun et al. | Category-Aware Siamese Learning Network for Few-Shot Segmentation | |
Zhang et al. | Deep Learning Based Noise Level Classification of Medical Images | |
Wang et al. | Semantic-guided spatio-temporal attention for few-shot action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |