CN109697289A

CN109697289A - 一种改进的用于命名实体识别的主动学习方法

Info

Publication number: CN109697289A
Application number: CN201811624411.2A
Authority: CN
Inventors: 李焕; 李建强
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-04-30
Anticipated expiration: 2038-12-28
Also published as: CN109697289B

Abstract

本发明公开一种改进的用于命名实体识别的主动学习方法，包括：1、获取初始的数据集，将训练集中的实体作为已登录实体存储到实体词库；2、设置模型性能标准，基于初始训练集得到初始模型，判断模型性能是否达标；3、用当前模型对未标注样本进行预测，用实体词库对未标注样本中的已登录实体进行标记，然后在实体粒度上分别从三种情况计算不确定性；4、赋予三种不确定性权重参数，并加权求和作为最终的不确定性；5、将模型对未标注样本的的不确定性进行排序，选择不确定性最高的样本进行标注，并更新训练集和实体词库；6、基于新训练集重新训练模型，并判断模型性能是否达标。本发明在实体粒度上更加精细和全面地考虑了预测结果的不确定性。

Description

一种改进的用于命名实体识别的主动学习方法

技术领域

本发明属于自然语言处理领域，尤其涉及一种改进的用于命名实体识别的主动学习方法，进一步涉及一种结合命名实体识别特性对不确定性计算进行改进的主动学习算法，充分利用已标注的样本训练集中的已登录实体作为先验知识，从实体粒度上更加精细和全面地计算预测结果的不确定性，以提高所选择的样本的质量，从而进一步减少所需标注样本的数量、降低人工标注的成本。

背景技术

主动学习(Active Learning)是一种在保证模型达到性能标准的前提下尽可能地减少模型所需标注样本数量、降低人工标注成本的算法，通过迭代训练的方式，每次训练得到新模型后基于一种预设的查询标准从未标注的样本中选择更能提高模型性能、更值得标注的样本进行人工标注，然后用新标注的样本对样本训练集进行更新，并重新训练模型。主动学习算法可以应用于各种领域的各种算法上，通过选择高质量的未标注样本进行标注，能够有效地减少模型达到性能标准时所需的标注样本数量，从而降低人工标注的成本。

不确定性是主动学习算法在进行样本的查询和选择时的核心标准，不确定性表示模型对一个样本进行预测时产生的不确定性，预测概率越低，不确定性越高，而基于信息论的基本思想，样本的不确定性与其所蕴含的信息量成正比，而样本的信息量又与该样本对模型的价值、对该样本进行人工标注的必要性成正比。

命名实体识别(Named Entity Recognition)是一种自然语言处理技术，能够从文本中识别出关键的实体或者术语，将自然语言文本中的重要信息表达出来，以帮助人们快速理解文本中的语义信息。命名实体识别任务最早是利用基于字典和规则的方法解决的，自从21世纪以来，基于大规模语料库的统计方法逐步成为自然语言处理的主流，一大批基于统计的机器学习方法被成功地应用于命名实体识别中，比如隐马尔可夫模型(HMM)、最大熵马尔科夫模型(ME)、条件随机场模型(CRF)。而近年来，随着深度学习模型和硬件能力的快速发展，以及标注样本数据集的进一步扩大，深度学习模型也在命名实体识别上取得了优越的性能。

基于机器学习和深度学习的命名实体识别方法相对于以往的基于字典和规则的方法而言，都对标注样本数量提出了更高的需求，而样本的标注不仅耗时，而且需要大量的人力和财力，尤其是命名实体识别这种复杂的监督学习任务，其所需样本的人工标注成本更高，如何使命名实体识别模型性能达到性能标准的前提下尽可能地减少所需的标注样本数量成了一个亟待解决的问题。目前将主动学习算法应用于命名实体识别任务上已经得到了一系列的研究，已有的方法中将主动学习算法与机器学习方法或者深度学习方法结合应用于命名实体识别中时，能够大幅度地减少模型所需的标注样本数量、有效地降低人工标注成本。但是已有的方法在计算预测结果的不确定性的时候只考虑了模型对整个样本序列的预测概率，而没有充分考虑样本序列中具体实体的预测情况。

发明内容

本发明针对现有技术中存在的不足之处，提出一种改进的用于命名实体识别的主动学习算法。具体而言，是充分考虑模型对样本序列中具体实体的预测情况，在实体粒度上更加精细和全面地考虑不确定性，将已标注的样本训练集中已经被标注出的实体视为已登录实体，作为对未标注样本的先验知识，在主动学习的样本查询阶段对未标注样本中的已登录实体进行标记，用当前模型对未标注样本进行预测并获取对样本中实体的预测概率后，基于以下三种情况分别考虑预测结果的不确定性：已登录实体识别概率较低的情况、已登录实体未被识别的情况、未登录实体识别概率较低的情况，基于以上三种情况分别计算得到一个不确定性，然后赋予这三种不确定性一个权重参数，再进行加权求和以得到最终的不确定性。这种改进方法相对于已有的方法主要有两个优点：首先，能够在实体粒度上更加精细和全面地计算不确定性，其次，对三种情况的不确定性加权求和的时候，可以通过调整权重参数使最终的不确定性倾向于某类不确定性，从而在选择样本进行标注时更倾向于选择能够降低该类不确定性的样本，相对已有的方法更加灵活和可控。

本发明采用如下技术方案：

步骤一：获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集，将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识；

步骤二：设置模型性能标准，即终止学习条件，然后基于已标注的样本数据集训练得到初始的命名实体识别模型，判断该模型是否达到模型性能标准，若模型性能达标，则终止学习，否则进入下述步骤三至步骤九，即主动学习算法中的查询-训练阶段；

步骤三：利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果，并利用已登录实体词库对未标注样本中的已登录实体进行标记，然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性；

步骤四：计算已登录实体识别概率较低的情况下所产生的不确定性；

步骤五：计算已登录实体未被正确识别的情况下所产生的不确定性；

步骤六：计算未登录实体识别概率较低的情况下所产生的不确定性；

步骤七：分别赋予上述步骤得到的三种不确定性一个权重参数，然后进行加权求和，作为最终的整个样本预测结果的不确定性；

步骤八：将模型对所有未标注样本的预测结果的不确定性进行排序，选取不确定性最高的部分样本进行人工标注，然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充；

步骤九：基于新的已标注的样本训练集重新训练以得到新的模型，然后再次判断模型是否达到模型性能标准，若性能达标，则终止学习，否则重复步骤三至步骤九；

本发明所述的一种改进的用于命名实体识别的主动学习算法特征也在于：

所述步骤一中获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集，将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识：

初始的数据集包括已标注的样本训练集、已标注的样本验证集为、未标注的样本数据集；

在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体，将所有已登录实体存储到已登录实体词库ED中，作为对未标注样本的先验知识：

对于在已标注的样本中出现过的已登录实体，如果在未标注的样本中出现了，也应该是同样的实体。

所述步骤二中设置模型性能标准，即终止学习条件，然后基于已标注的样本数据集训练得到初始的命名实体识别模型，判断该模型是否达到模型性能标准，若模型性能达标，则终止学习，否则进入下述步骤三至步骤九，即主动学习算法中的查询-训练阶段：

先设定一个模型性能标准作为终止学习的条件，即要求模型能够在已标注的样本验证集上达到预设的性能标准；

基于已标注的样本训练集训练得到初始的命名实体识别模型，再判断模型的性能是否达到性能标准，若达标，则终止学习，否则进入步骤三至步骤九，即主动学习算法中的查询-训练循环中。

所述步骤三中利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果，并利用已登录实体词库对未标注样本中的已登录实体进行标记，然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性：

用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果；

利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记；

利用步骤四到步骤六在实体粒度上分别从以下三种情况计算不确定性：已登录实体识别概率较低的情况、已登录实体未被识别的情况、未登录实体识别概率较低的情况。

所述步骤四中计算已登录实体识别概率较低的情况下所产生的不确定性：

对于在已标注的训练集中已经出现的已登录实体，我们希望模型能够以较高的概率识别出这些实体，若模型识别出该类实体时的概率较低，可以认为该样本的语义环境使模型在识别该实体时产生了较大的不确定性，则倾向于认为该样本值得标注；

用不确定值U1衡量该不确定性，设对已登录实体识别的概率阈值为P¹，若对某已登录实体的识别概率为P_i，且有P_i<P¹，则认为对该实体的识别具有较高的不确定性，并用P¹-P_i来衡量该不确定性；

遍历每个样本中所有该类实体，并基于以下计算公式计算每个样本的不确定值U1:

上式一中，ED表示已登录实体词库，P¹表示预设的已登录实体识别概率阈值，P_i表示模型识别出已登录实体时的预测概率，表示被模型识别出、且预测概率P_i低于阈值P¹的已登录实体。

所述步骤五中计算已登录实体未被正确识别的情况下所产生的不确定性：

对于在已标注的训练集中已经出现的已登录实体，我们希望模型能够以较高的概率识别出这些实体，若这些实体未被模型正确识别出来，可以认为该样本的语义环境使模型难以识别这些已登录实体，具有很高的不确定性，则倾向于认为该样本值得标注。

用不确定值U2衡量该不确定性；

遍历每个样本中所有该类实体，并基于以下计算公式计算每个样本的不确定值U2：

上式二中，表示未被模型识别出的已登录实体。

所述步骤六中计算未登录实体识别概率较低的情况下所产生的不确定性：

对于在已标注的训练集中从未出现过的未登录新实体，若模型识别出该类实体时的预测概率较低，可以认为模型对该实体进行识别时不确定性较大，可能该词并不是一个正确的新实体但是模型错误地将其识别为实体，也可能该词确实是一个正确的新实体但是当前样本的语义环境使模型识别该实体时具有较大的不确定性，所以倾向于认为该样本值得标注；

用不确定值U3衡量该不确定性，设立未登录实体识别的概率阈值为P³，若对某未登录实体的识别概率为P′_i，且有P′_i<P³，则认为该实体的识别具有较高的不确定性，并用P³-P′_i来衡量该不确定性；

遍历每个样本中所有该类实体，并基于以下计算公式计算每个样本的不确定值U3：

上式三中，ED表示已登录实体词库，P³表示预设的未登录实体识别概率阈值，P′_i表示模型识别出未登录实体时的预测概率，表示被模型识别出、且预测概率P′_i低于阈值P³的未登录实体。

所述步骤七中分别赋予上述步骤得到的三种不确定性一个权重参数，然后进行加权求和，作为最终的整个样本预测结果的不确定性：

对不确定值U1、U2、U3分别赋予权重参数，权重参数分别为λ₁、λ₂、λ₃；

基于权重参数λ₁、λ₂、λ₃对U1、U2、U3进行加权求和，以得到最终的用于描述预测结果不确定性的值U；

基于以下计算公式计算每个样本的不确定值U：

U＝λ₁U1+λ₂U2+λ₃U3 (式四)

上式四中，λ₁、λ₂、λ₃分别代表U1、U2、U3的权重参数，且有该权重参数能够在一定程度上表示对三种不同情况所产生的不确定性的惩罚，权重参数越高，说明对该类不确定性的惩罚越高、容忍度越低；

可以通过调整该权重参数以使最终的不确定值U偏向于某类不确定性，从而在步骤八中基于不确定性选择样本时更倾向于选择能降低该类不确定性的样本。

所述步骤八中将模型对所有未标注样本的预测结果的不确定性进行排序，选取不确定性最高的部分样本进行人工标注，然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充：

将当前模型对未标注的样本数据集中的样本的预测结果的不确定性进行排序，即将所有未标注样本的不确定值U按大小排序；

选取U值最大的k个样本进行人工标注，分别对已标注的样本训练集和已登录实体词库ED进行更新和扩充。

所述步骤九中基于新的已标注的样本训练集重新训练以得到新的模型，然后再次判断模型是否达到模型性能标准，若性能达标，则终止学习，否则重复步骤三至步骤九：

基于更新和扩充后的新样本训练集重新训练得到新的模型；

判断模型是否达到模型性能标准；

若性能达标，则终止学习，否则重复步骤三至步骤九以继续查询-训练的循环。

因此，本发明具有如下优点：能够充分利用已标注的样本中出现过的已登录实体作为先验知识，在实体粒度上更加精细和全面地计算预测结果的不确定性，而且能够通过调整权重参数以使最终的不确定值偏向于某类不确定性，能够在实际操作中更加灵活和可控。

附图说明

图1为本发明提出的方法的整体流程图。

具体实施方式

下面通过实施例，对本发明的技术方案作进一步具体的说明。

如图1所示，本发明提供一种改进的用于命名实体识别的主动学习算法，包括以下步骤：

步骤一：获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集，将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识。

初始的数据集包括已标注的样本训练集、已标注的样本验证集、未标注的样本数据集；

在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体，将所有已登录实体存储到已登录实体词库ED中，作为对未标注样本的先验知识，例如对医学文本进行命名实体识别的标注时，某个样本中出现了一个症状实体“腰腿酸痛”，那么就将该实体就是一个已登录实体，将其存储到已登录实体词库ED中：

对于在已标注的样本中出现的已登录实体，如果在未标注的样本中出现了，也应该是同样的实体，在上述实例中，“腰腿酸痛”是一个已经在训练集中出现过的实体，那么如果通过文本匹配手段发现未标注样本中出现了该词，那么“腰腿酸痛”在该未标注样本中也应该是一个实体。

先设定一个模型性能标准作为终止学习的条件，即要求模型能够在已标注的样本验证集上达到预设的性能标准，例如设置模型性能标准为60％的F值，则要求模型在验证集上达到60％的F值；

基于已标注的样本训练集训练得到初始的命名实体识别模型，例如一个用于命名实体识别的CRF模型或者LSTM模型，再判断模型的性能是否达到性能标准，若达标，则终止学习，否则进入步骤三至步骤九，即主动学习算法中的查询-训练循环中。

步骤三：利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果，并利用已登录实体词库对未标注样本中的已登录实体进行标记，然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性：

步骤四：计算已登录实体识别概率较低的情况下所产生的不确定性：

用不确定值U1衡量该不确定性，设对已登录实体识别的概率阈值为P¹，若对某已登录实体的识别概率为P_i，且有P_i<P¹，则认为对该实体的识别具有较高的不确定性，并用P¹-P_i来衡量该不确定性。例如在医学文本的命名实体识别任务中，有三个已登录实体分别为“腰痛”、“腹痛”、“腿痛”，设置已登录实体识别的概率阈值P¹为60％，若在某个未标注样本中这三个已登录实体同时出现了，用模型对其进行预测，以70％的概率识别出“腰痛”是一个实体，以50％的概率识别出“腹痛”是一个实体，以40％的概率识别出“腿痛”是一个实体，其中“腰痛”的识别概率高于识别概率阈值P¹，而“腹痛”和“腿痛”的识别概率均低于P¹，产生的不确定性分别为0.1和0.2，由于实体“腿痛”的识别概率相较实体“腹痛”更低，所以产生了更高的不确定性；

步骤五：计算已登录实体未被正确识别的情况下所产生的不确定性：

用不确定值U2衡量该不确定性，例如在医学文本的命名实体识别任务中，有两个已登录实体分别为“腰痛”和“腹痛”，有两个未标注的样本，均包含了这两个已登录实体，用模型对这两个样本进行预测，第一个样本中的实体“腰痛”未被识别出来，第二个样本中的“腰痛”和“腹痛”两个实体均未被识别出来，则产生的不确定性分别为1和2；

上式二中，表示未被模型识别出的已登录实体。

步骤六：计算未登录实体识别概率较低的情况下所产生的不确定性：

用不确定值U3衡量该不确定性，设未登录实体识别的概率阈值为P³，若对某未登录实体的识别概率为P′_i，且有P′_i<P³，则认为该实体的识别具有较高的不确定性，并用P³-P′_i来衡量该不确定性。例如在医学文本的命名实体识别任务中，设置未登录实体识别的概率阈值P³为50％，用模型对一个未标注的样本进行预测，识别到一个从未在训练集中出现过的未登录的新实体“哮喘”，识别概率为40％，则认为对该实体的识别具有较高的不确定性，产生了0.1的不确定性；

步骤七：分别赋予上述步骤得到的三种不确定性一个权重参数，然后进行加权求和，作为最终的整个样本预测结果的不确定性：

基于以下计算公式计算每个样本的不确定值U：

U＝λ₁U1+λ₂U2+λ₃U3 (式四)

可以通过调整该权重参数以使最终的不确定值U偏向于某类不确定性，从而在步骤八中基于不确定性选择样本时更倾向于选择能降低该类不确定性的样本。例如若将λ₁设置得较大，则对第一种情况所产生的不确定性的惩罚较高，容忍度较低，使得在第一种情况下产生更多不确定性的样本的不确定值U较大，从而在后续步骤八中倾向于选择这些样本来提高模型识别已登录实体的性能。

步骤八：将模型对所有未标注样本的预测结果的不确定性进行排序，选取不确定性最高的部分样本进行人工标注，然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充：

选取U值最大的k个样本进行人工标注，分别对已标注的样本训练集和已登录实体词库ED进行更新和扩充，即将新标注的样本添加到已标注的样本训练集中，并且将新标注的样本中出现的新实体添加到已登录实体词库ED中。

步骤九：基于新的已标注的样本训练集重新训练以得到新的模型，然后再次判断模型是否达到模型性能标准，若性能达标，则终止学习，否则重复步骤三至步骤九：

基于更新和扩充后的新样本训练集重新训练得到新的模型；

判断模型是否达到模型性能标准；

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的方法可以被修改，而系统体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种改进的用于命名实体识别的主动学习方法，其特征在于，包括：

步骤九：基于新的已标注的样本训练集重新训练以得到新的模型，然后再次判断模型是否达到模型性能标准，若性能达标，则终止学习，否则重复步骤三至步骤九。

2.根据权利要求1所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤一中获取初始的已标注的样本训练集、已标注的样本验证集、未标注的样本数据集，其中在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体，将所有已登录实体存储到已登录实体词库ED中，作为对未标注样本的先验知识：对于在已标注的样本中出现的已登录实体，如果在未标注的样本中出现了，也应该是同样的实体。

3.根据权利要求2所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤二中先设定一个模型性能标准作为终止学习的条件，即要求模型能够在已标注的样本验证集上达到预设的性能标准，然后基于已标注的样本训练集训练得到初始的命名实体识别模型，再判断模型的性能是否达到性能标准，若达标，则终止学习，否则进入步骤三至步骤九，即主动学习算法中的查询-训练循环。

4.根据权利要求3所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤三中用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果，再利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记，然后利用步骤四到步骤六在实体粒度上分别从以下三种情况计算不确定性：已登录实体识别概率较低的情况、已登录实体未被识别的情况、未登录实体识别概率较低的情况。

5.根据权利要求4所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤四中对已登录实体识别概率较低的情况所产生的不确定性进行计算具体为：采用不确定值U1衡量该不确定性，设已登录实体识别的概率阈值为P¹，若对某已登录实体的识别概率为P_i，且有P_i<P¹，则认为对该实体的识别具有较高的不确定性，并用P¹-P_i来衡量该不确定性；遍历每个样本中所有该类实体，并基于以下计算公式计算每个样本的不确定值U1：

其中，ED表示已登录的实体词库,P¹表示预设的已登录实体识别概率阈值，P_i表示模型识别出已登录实体时的预测概率，表示被模型识别出、且预测概率P_i低于阈值P¹的已登录实体。

6.根据权利要求5所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤五中对已登录实体未被正确识别的情况所产生的不确定性进行计算具体为：采用不确定值U2衡量该不确定性，遍历每个样本中所有该类实体，并基于以下计算公式计算每个样本的不确定值U2：

其中，表示未被模型识别出的已登录实体。

7.根据权利要求6所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤六中对未登录实体识别概率较低的情况所产生的不确定性进行计算具体为：采用不确定值U3衡量该不确定性，设立未登录实体识别的概率阈值为P³，若对某未登录实体的识别概率为P′_i，且有P′_i<P³，则认为该实体的识别具有较高的不确定性，并用P³-P′_i来衡量该不确定性；遍历每个样本中所有该类实体，并基于以下计算公式计算每个样本的不确定值U3：

其中，ED表示已登录的实体词库，P³表示预设的未登录实体识别概率阈值，P′_i表示模型识别出未登录实体时的预测概率，表示被模型识别出、且预测概率P′_i低于阈值P³的未登录实体。

8.根据权利要求7所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤七中对由步骤四、步骤五、步骤六所获得的不确定值U1、U2、U3分别赋予权重参数，然后进行加权求和，以得到最终的用于描述预测结果不确定性的值；具体而言，设最终的用于描述整个样本预测结果不确定性的值为U，设U1、U2、U3的权重参数分别为λ₁、λ₂、λ₃，基于以下计算公式计算每个样本的U值：

U＝λ₁U1+λ₂U2+λ₃U3

其中，λ₁、λ₂、λ₃分别代表U1、U2、U3的权重参数，且有该权重参数表示对三种不同情况所产生的不确定性的惩罚，可以通过调整该权重参数以使最终的不确定值U偏向于某类不确定性，从而在步骤八中基于不确定性选择样本时更倾向于选择能降低该类不确定性的样本。

9.根据权利要求8所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤八中将模型对未标注的样本数据集中的样本的预测结果的不确定性进行排序，即将所有未标注样本的U值按大小排序，然后选取U值最大的k个样本进行人工标注，再分别对已标注的样本训练集和已登录实体词库ED进行更新和扩充。

10.根据权利要求9所述的一种改进的用于命名实体识别的主动学习算法，其特征在于，所述步骤九中基于新的已标注的样本训练集重新训练得到新的模型，然后再次判断模型是否达到模型性能标准，若性能达标，则终止学习，否则重复步骤三至步骤九继续查询-训练的循环。