CN109697289B - 一种改进的用于命名实体识别的主动学习方法 - Google Patents

一种改进的用于命名实体识别的主动学习方法 Download PDF

Info

Publication number
CN109697289B
CN109697289B CN201811624411.2A CN201811624411A CN109697289B CN 109697289 B CN109697289 B CN 109697289B CN 201811624411 A CN201811624411 A CN 201811624411A CN 109697289 B CN109697289 B CN 109697289B
Authority
CN
China
Prior art keywords
entity
uncertainty
model
sample
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811624411.2A
Other languages
English (en)
Other versions
CN109697289A (zh
Inventor
李焕
李建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811624411.2A priority Critical patent/CN109697289B/zh
Publication of CN109697289A publication Critical patent/CN109697289A/zh
Application granted granted Critical
Publication of CN109697289B publication Critical patent/CN109697289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种改进的用于命名实体识别的主动学习方法,包括:1、获取初始的数据集,将训练集中的实体作为已登录实体存储到实体词库;2、设置模型性能标准,基于初始训练集得到初始模型,判断模型性能是否达标;3、用当前模型对未标注样本进行预测,用实体词库对未标注样本中的已登录实体进行标记,然后在实体粒度上分别从三种情况计算不确定性;4、赋予三种不确定性权重参数,并加权求和作为最终的不确定性;5、将模型对未标注样本的的不确定性进行排序,选择不确定性最高的样本进行标注,并更新训练集和实体词库;6、基于新训练集重新训练模型,并判断模型性能是否达标。本发明在实体粒度上更加精细和全面地考虑了预测结果的不确定性。

Description

一种改进的用于命名实体识别的主动学习方法
技术领域
本发明属于自然语言处理领域,尤其涉及一种改进的用于命名实体识别的主动学习方法,进一步涉及一种结合命名实体识别特性对不确定性计算进行改进的主动学习算法,充分利用已标注的样本训练集中的已登录实体作为先验知识,从实体粒度上更加精细和全面地计算预测结果的不确定性,以提高所选择的样本的质量,从而进一步减少所需标注样本的数量、降低人工标注的成本。
背景技术
主动学习(Active Learning)是一种在保证模型达到性能标准的前提下尽可能地减少模型所需标注样本数量、降低人工标注成本的算法,通过迭代训练的方式,每次训练得到新模型后基于一种预设的查询标准从未标注的样本中选择更能提高模型性能、更值得标注的样本进行人工标注,然后用新标注的样本对样本训练集进行更新,并重新训练模型。主动学习算法可以应用于各种领域的各种算法上,通过选择高质量的未标注样本进行标注,能够有效地减少模型达到性能标准时所需的标注样本数量,从而降低人工标注的成本。
不确定性是主动学习算法在进行样本的查询和选择时的核心标准,不确定性表示模型对一个样本进行预测时产生的不确定性,预测概率越低,不确定性越高,而基于信息论的基本思想,样本的不确定性与其所蕴含的信息量成正比,而样本的信息量又与该样本对模型的价值、对该样本进行人工标注的必要性成正比。
命名实体识别(Named Entity Recognition)是一种自然语言处理技术,能够从文本中识别出关键的实体或者术语,将自然语言文本中的重要信息表达出来,以帮助人们快速理解文本中的语义信息。命名实体识别任务最早是利用基于字典和规则的方法解决的,自从21世纪以来,基于大规模语料库的统计方法逐步成为自然语言处理的主流,一大批基于统计的机器学习方法被成功地应用于命名实体识别中,比如隐马尔可夫模型(HMM)、最大熵马尔科夫模型(ME)、条件随机场模型(CRF)。而近年来,随着深度学习模型和硬件能力的快速发展,以及标注样本数据集的进一步扩大,深度学习模型也在命名实体识别上取得了优越的性能。
基于机器学习和深度学习的命名实体识别方法相对于以往的基于字典和规则的方法而言,都对标注样本数量提出了更高的需求,而样本的标注不仅耗时,而且需要大量的人力和财力,尤其是命名实体识别这种复杂的监督学习任务,其所需样本的人工标注成本更高,如何使命名实体识别模型性能达到性能标准的前提下尽可能地减少所需的标注样本数量成了一个亟待解决的问题。目前将主动学习算法应用于命名实体识别任务上已经得到了一系列的研究,已有的方法中将主动学习算法与机器学习方法或者深度学习方法结合应用于命名实体识别中时,能够大幅度地减少模型所需的标注样本数量、有效地降低人工标注成本。但是已有的方法在计算预测结果的不确定性的时候只考虑了模型对整个样本序列的预测概率,而没有充分考虑样本序列中具体实体的预测情况。
发明内容
本发明针对现有技术中存在的不足之处,提出一种改进的用于命名实体识别的主动学习算法。具体而言,是充分考虑模型对样本序列中具体实体的预测情况,在实体粒度上更加精细和全面地考虑不确定性,将已标注的样本训练集中已经被标注出的实体视为已登录实体,作为对未标注样本的先验知识,在主动学习的样本查询阶段对未标注样本中的已登录实体进行标记,用当前模型对未标注样本进行预测并获取对样本中实体的预测概率后,基于以下三种情况分别考虑预测结果的不确定性:已登录实体识别概率较低的情况、已登录实体未被识别的情况、未登录实体识别概率较低的情况,基于以上三种情况分别计算得到一个不确定性,然后赋予这三种不确定性一个权重参数,再进行加权求和以得到最终的不确定性。这种改进方法相对于已有的方法主要有两个优点:首先,能够在实体粒度上更加精细和全面地计算不确定性,其次,对三种情况的不确定性加权求和的时候,可以通过调整权重参数使最终的不确定性倾向于某类不确定性,从而在选择样本进行标注时更倾向于选择能够降低该类不确定性的样本,相对已有的方法更加灵活和可控。
本发明采用如下技术方案:
步骤一:获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识;
步骤二:设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询-训练阶段;
步骤三:利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性;
步骤四:计算已登录实体识别概率较低的情况下所产生的不确定性;
步骤五:计算已登录实体未被正确识别的情况下所产生的不确定性;
步骤六:计算未登录实体识别概率较低的情况下所产生的不确定性;
步骤七:分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性;
步骤八:将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充;
步骤九:基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九;
本发明所述的一种改进的用于命名实体识别的主动学习算法特征也在于:
所述步骤一中获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识:
初始的数据集包括已标注的样本训练集、已标注的样本验证集为、未标注的样本数据集;
在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体,将所有已登录实体存储到已登录实体词库ED中,作为对未标注样本的先验知识:
对于在已标注的样本中出现过的已登录实体,如果在未标注的样本中出现了,也应该是同样的实体。
所述步骤二中设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询-训练阶段:
先设定一个模型性能标准作为终止学习的条件,即要求模型能够在已标注的样本验证集上达到预设的性能标准;
基于已标注的样本训练集训练得到初始的命名实体识别模型,再判断模型的性能是否达到性能标准,若达标,则终止学习,否则进入步骤三至步骤九,即主动学习算法中的查询-训练循环中。
所述步骤三中利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性:
用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果;
利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记;
利用步骤四到步骤六在实体粒度上分别从以下三种情况计算不确定性:已登录实体识别概率较低的情况、已登录实体未被识别的情况、未登录实体识别概率较低的情况。
所述步骤四中计算已登录实体识别概率较低的情况下所产生的不确定性:
对于在已标注的训练集中已经出现的已登录实体,我们希望模型能够以较高的概率识别出这些实体,若模型识别出该类实体时的概率较低,可以认为该样本的语义环境使模型在识别该实体时产生了较大的不确定性,则倾向于认为该样本值得标注;
用不确定值U1衡量该不确定性,设对已登录实体识别的概率阈值为P1,若对某已登录实体的识别概率为Pi,且有Pi<P1,则认为对该实体的识别具有较高的不确定性,并用P1-Pi来衡量该不确定性;
遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值U1:
Figure BDA0001927660530000051
上式一中,ED表示已登录实体词库,P1表示预设的已登录实体识别概率阈值,Pi表示模型识别出已登录实体时的预测概率,
Figure BDA0001927660530000052
表示被模型识别出、且预测概率Pi低于阈值P1的已登录实体。
所述步骤五中计算已登录实体未被正确识别的情况下所产生的不确定性:
对于在已标注的训练集中已经出现的已登录实体,我们希望模型能够以较高的概率识别出这些实体,若这些实体未被模型正确识别出来,可以认为该样本的语义环境使模型难以识别这些已登录实体,具有很高的不确定性,则倾向于认为该样本值得标注。
用不确定值U2衡量该不确定性;
遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值U2:
Figure BDA0001927660530000061
上式二中,
Figure BDA0001927660530000062
表示未被模型识别出的已登录实体。
所述步骤六中计算未登录实体识别概率较低的情况下所产生的不确定性:
对于在已标注的训练集中从未出现过的未登录新实体,若模型识别出该类实体时的预测概率较低,可以认为模型对该实体进行识别时不确定性较大,可能该词并不是一个正确的新实体但是模型错误地将其识别为实体,也可能该词确实是一个正确的新实体但是当前样本的语义环境使模型识别该实体时具有较大的不确定性,所以倾向于认为该样本值得标注;
用不确定值U3衡量该不确定性,设立未登录实体识别的概率阈值为P3,若对某未登录实体的识别概率为P′i,且有P′i<P3,则认为该实体的识别具有较高的不确定性,并用P3-P′i来衡量该不确定性;
遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值U3:
Figure BDA0001927660530000063
上式三中,ED表示已登录实体词库,P3表示预设的未登录实体识别概率阈值,P′i表示模型识别出未登录实体时的预测概率,
Figure BDA0001927660530000064
表示被模型识别出、且预测概率P′i低于阈值P3的未登录实体。
所述步骤七中分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性:
对不确定值U1、U2、U3分别赋予权重参数,权重参数分别为λ1、λ2、λ3
基于权重参数λ1、λ2、λ3对U1、U2、U3进行加权求和,以得到最终的用于描述预测结果不确定性的值U;
基于以下计算公式计算每个样本的不确定值U:
U=λ1U1+λ2U2+λ3U3 (式四)
上式四中,λ1、λ2、λ3分别代表U1、U2、U3的权重参数,且有
Figure BDA0001927660530000071
该权重参数能够在一定程度上表示对三种不同情况所产生的不确定性的惩罚,权重参数越高,说明对该类不确定性的惩罚越高、容忍度越低;
可以通过调整该权重参数以使最终的不确定值U偏向于某类不确定性,从而在步骤八中基于不确定性选择样本时更倾向于选择能降低该类不确定性的样本。
所述步骤八中将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充:
将当前模型对未标注的样本数据集中的样本的预测结果的不确定性进行排序,即将所有未标注样本的不确定值U按大小排序;
选取U值最大的k个样本进行人工标注,分别对已标注的样本训练集和已登录实体词库ED进行更新和扩充。
所述步骤九中基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九:
基于更新和扩充后的新样本训练集重新训练得到新的模型;
判断模型是否达到模型性能标准;
若性能达标,则终止学习,否则重复步骤三至步骤九以继续查询-训练的循环。
因此,本发明具有如下优点:能够充分利用已标注的样本中出现过的已登录实体作为先验知识,在实体粒度上更加精细和全面地计算预测结果的不确定性,而且能够通过调整权重参数以使最终的不确定值偏向于某类不确定性,能够在实际操作中更加灵活和可控。
附图说明
图1为本发明提出的方法的整体流程图。
具体实施方式
下面通过实施例,对本发明的技术方案作进一步具体的说明。
如图1所示,本发明提供一种改进的用于命名实体识别的主动学习算法,包括以下步骤:
步骤一:获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识。
初始的数据集包括已标注的样本训练集、已标注的样本验证集、未标注的样本数据集;
在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体,将所有已登录实体存储到已登录实体词库ED中,作为对未标注样本的先验知识,例如对医学文本进行命名实体识别的标注时,某个样本中出现了一个症状实体“腰腿酸痛”,那么就将该实体就是一个已登录实体,将其存储到已登录实体词库ED中:
对于在已标注的样本中出现的已登录实体,如果在未标注的样本中出现了,也应该是同样的实体,在上述实例中,“腰腿酸痛”是一个已经在训练集中出现过的实体,那么如果通过文本匹配手段发现未标注样本中出现了该词,那么“腰腿酸痛”在该未标注样本中也应该是一个实体。
步骤二:设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询-训练阶段;
先设定一个模型性能标准作为终止学习的条件,即要求模型能够在已标注的样本验证集上达到预设的性能标准,例如设置模型性能标准为60%的F值,则要求模型在验证集上达到60%的F值;
基于已标注的样本训练集训练得到初始的命名实体识别模型,例如一个用于命名实体识别的CRF模型或者LSTM模型,再判断模型的性能是否达到性能标准,若达标,则终止学习,否则进入步骤三至步骤九,即主动学习算法中的查询-训练循环中。
步骤三:利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性:
用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果;
利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记;
利用步骤四到步骤六在实体粒度上分别从以下三种情况计算不确定性:已登录实体识别概率较低的情况、已登录实体未被识别的情况、未登录实体识别概率较低的情况。
步骤四:计算已登录实体识别概率较低的情况下所产生的不确定性:
对于在已标注的训练集中已经出现的已登录实体,我们希望模型能够以较高的概率识别出这些实体,若模型识别出该类实体时的概率较低,可以认为该样本的语义环境使模型在识别该实体时产生了较大的不确定性,则倾向于认为该样本值得标注;
用不确定值U1衡量该不确定性,设对已登录实体识别的概率阈值为P1,若对某已登录实体的识别概率为Pi,且有Pi<P1,则认为对该实体的识别具有较高的不确定性,并用P1-Pi来衡量该不确定性。例如在医学文本的命名实体识别任务中,有三个已登录实体分别为“腰痛”、“腹痛”、“腿痛”,设置已登录实体识别的概率阈值P1为60%,若在某个未标注样本中这三个已登录实体同时出现了,用模型对其进行预测,以70%的概率识别出“腰痛”是一个实体,以50%的概率识别出“腹痛”是一个实体,以40%的概率识别出“腿痛”是一个实体,其中“腰痛”的识别概率高于识别概率阈值P1,而“腹痛”和“腿痛”的识别概率均低于P1,产生的不确定性分别为0.1和0.2,由于实体“腿痛”的识别概率相较实体“腹痛”更低,所以产生了更高的不确定性;
遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值U1:
Figure BDA0001927660530000101
上式一中,ED表示已登录实体词库,P1表示预设的已登录实体识别概率阈值,Pi表示模型识别出已登录实体时的预测概率,
Figure BDA0001927660530000102
表示被模型识别出、且预测概率Pi低于阈值P1的已登录实体。
步骤五:计算已登录实体未被正确识别的情况下所产生的不确定性:
对于在已标注的训练集中已经出现的已登录实体,我们希望模型能够以较高的概率识别出这些实体,若这些实体未被模型正确识别出来,可以认为该样本的语义环境使模型难以识别这些已登录实体,具有很高的不确定性,则倾向于认为该样本值得标注。
用不确定值U2衡量该不确定性,例如在医学文本的命名实体识别任务中,有两个已登录实体分别为“腰痛”和“腹痛”,有两个未标注的样本,均包含了这两个已登录实体,用模型对这两个样本进行预测,第一个样本中的实体“腰痛”未被识别出来,第二个样本中的“腰痛”和“腹痛”两个实体均未被识别出来,则产生的不确定性分别为1和2;
遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值U2:
Figure BDA0001927660530000103
上式二中,
Figure BDA0001927660530000104
表示未被模型识别出的已登录实体。
步骤六:计算未登录实体识别概率较低的情况下所产生的不确定性:
对于在已标注的训练集中从未出现过的未登录新实体,若模型识别出该类实体时的预测概率较低,可以认为模型对该实体进行识别时不确定性较大,可能该词并不是一个正确的新实体但是模型错误地将其识别为实体,也可能该词确实是一个正确的新实体但是当前样本的语义环境使模型识别该实体时具有较大的不确定性,所以倾向于认为该样本值得标注;
用不确定值U3衡量该不确定性,设未登录实体识别的概率阈值为P3,若对某未登录实体的识别概率为P′i,且有P′i<P3,则认为该实体的识别具有较高的不确定性,并用P3-P′i来衡量该不确定性。例如在医学文本的命名实体识别任务中,设置未登录实体识别的概率阈值P3为50%,用模型对一个未标注的样本进行预测,识别到一个从未在训练集中出现过的未登录的新实体“哮喘”,识别概率为40%,则认为对该实体的识别具有较高的不确定性,产生了0.1的不确定性;
遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值U3:
Figure BDA0001927660530000111
上式三中,ED表示已登录实体词库,P3表示预设的未登录实体识别概率阈值,P′i表示模型识别出未登录实体时的预测概率,
Figure BDA0001927660530000112
表示被模型识别出、且预测概率P′i低于阈值P3的未登录实体。
步骤七:分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性:
对不确定值U1、U2、U3分别赋予权重参数,权重参数分别为λ1、λ2、λ3
基于权重参数λ1、λ2、λ3对U1、U2、U3进行加权求和,以得到最终的用于描述预测结果不确定性的值U;
基于以下计算公式计算每个样本的不确定值U:
U=λ1U1+λ2U2+λ3U3 (式四)
上式四中,λ1、λ2、λ3分别代表U1、U2、U3的权重参数,且有
Figure BDA0001927660530000113
该权重参数能够在一定程度上表示对三种不同情况所产生的不确定性的惩罚,权重参数越高,说明对该类不确定性的惩罚越高、容忍度越低;
可以通过调整该权重参数以使最终的不确定值U偏向于某类不确定性,从而在步骤八中基于不确定性选择样本时更倾向于选择能降低该类不确定性的样本。例如若将λ1设置得较大,则对第一种情况所产生的不确定性的惩罚较高,容忍度较低,使得在第一种情况下产生更多不确定性的样本的不确定值U较大,从而在后续步骤八中倾向于选择这些样本来提高模型识别已登录实体的性能。
步骤八:将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充:
将当前模型对未标注的样本数据集中的样本的预测结果的不确定性进行排序,即将所有未标注样本的不确定值U按大小排序;
选取U值最大的k个样本进行人工标注,分别对已标注的样本训练集和已登录实体词库ED进行更新和扩充,即将新标注的样本添加到已标注的样本训练集中,并且将新标注的样本中出现的新实体添加到已登录实体词库ED中。
步骤九:基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九:
基于更新和扩充后的新样本训练集重新训练得到新的模型;
判断模型是否达到模型性能标准;
若性能达标,则终止学习,否则重复步骤三至步骤九以继续查询-训练的循环。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的方法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims (10)

1.一种改进的用于命名实体识别的主动学习方法,其特征在于,包括:
步骤一:获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识;
步骤二:设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询-训练阶段;
步骤三:利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性;
步骤四:计算已登录实体识别概率小于概率阈值的情况下所产生的不确定性;
步骤五:计算已登录实体未被正确识别的情况下所产生的不确定性;
步骤六:计算未登录实体识别概率小于概率阈值的情况下所产生的不确定性;
步骤七:分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性;
步骤八:将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充;
步骤九:基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九。
2.根据权利要求1所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤一中获取初始的已标注的样本训练集、已标注的样本验证集、未标注的样本数据集,其中在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体,将所有已登录实体存储到已登录实体词库ED中,作为对未标注样本的先验知识:对于在已标注的样本中出现的已登录实体,如果在未标注的样本中出现了,也应该是同样的实体。
3.根据权利要求2所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤二中先设定一个模型性能标准作为终止学习的条件,即要求模型能够在已标注的样本验证集上达到预设的性能标准,然后基于已标注的样本训练集训练得到初始的命名实体识别模型,再判断模型的性能是否达到性能标准,若达标,则终止学习,否则进入步骤三至步骤九,即主动学习方法中的查询-训练循环。
4.根据权利要求3所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤三中用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,再利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记,然后利用步骤四到步骤六在实体粒度上分别从以下三种情况计算不确定性:已登录实体识别概率小于概率阈值的情况、已登录实体未被识别的情况、未登录实体识别概率小于概率阈值的情况。
5.根据权利要求4所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤四中对已登录实体识别概率小于概率阈值的情况所产生的不确定性进行计算具体为:采用不确定值
Figure DEST_PATH_IMAGE002
衡量该不确定性,设已登录实体识别的概率阈值为
Figure DEST_PATH_IMAGE004
,若对某已登录实体的识别概率为
Figure DEST_PATH_IMAGE006
,且有
Figure DEST_PATH_IMAGE008
,则认为对该实体的识别具有较高的不确定性,并用
Figure DEST_PATH_IMAGE010
来衡量该不确定性;遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值
Figure 419995DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE014
表示已登录的实体词库,
Figure 261436DEST_PATH_IMAGE004
表示预设的已登录实体识别概率阈值,
Figure 837911DEST_PATH_IMAGE006
表示模型识别出已登录实体时的预测概率,
Figure DEST_PATH_IMAGE016
表示被模型识别出、且预测概率
Figure 374066DEST_PATH_IMAGE006
低于阈值
Figure 500022DEST_PATH_IMAGE004
的已登录实体。
6.根据权利要求5所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤五中对已登录实体未被正确识别的情况所产生的不确定性进行计算具体为:采用不确定值
Figure DEST_PATH_IMAGE018
衡量该不确定性,遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值
Figure 463430DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE022
表示未被模型识别出的已登录实体。
7.根据权利要求6所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤六中对未登录实体识别概率小于概率阈值的情况所产生的不确定性进行计算具体为:采用不确定值
Figure DEST_PATH_IMAGE024
衡量该不确定性,设立未登录实体识别的概率阈值为
Figure DEST_PATH_IMAGE026
,若对某未登录实体的识别概率为
Figure DEST_PATH_IMAGE028
,且有
Figure DEST_PATH_IMAGE030
,则认为该实体的识别具有较高的不确定性,并用
Figure DEST_PATH_IMAGE032
来衡量该不确定性;遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值
Figure 887721DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE034
其中,
Figure 795941DEST_PATH_IMAGE014
表示已登录的实体词库,
Figure 792716DEST_PATH_IMAGE026
表示预设的未登录实体识别概率阈值,
Figure 599129DEST_PATH_IMAGE028
表示模型识别出未登录实体时的预测概率,
Figure DEST_PATH_IMAGE036
表示被模型识别出、且预测概率
Figure 884617DEST_PATH_IMAGE028
低于阈值
Figure 667634DEST_PATH_IMAGE026
的未登录实体。
8.根据权利要求7所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤七中对由步骤四、步骤五、步骤六所获得的不确定值
Figure 518915DEST_PATH_IMAGE002
Figure 496230DEST_PATH_IMAGE018
Figure 331330DEST_PATH_IMAGE024
分别赋予权重参数,然后进行加权求和,以得到最终的用于描述预测结果不确定性的值;具体而言,设最终的用于描述整个样本预测结果不确定性的值为
Figure DEST_PATH_IMAGE038
,设
Figure 983285DEST_PATH_IMAGE002
Figure 705384DEST_PATH_IMAGE018
Figure 102868DEST_PATH_IMAGE024
的权重参数分别为
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE044
,基于以下计算公式计算每个样本的
Figure 487582DEST_PATH_IMAGE038
值:
Figure DEST_PATH_IMAGE046
其中,
Figure 536702DEST_PATH_IMAGE040
Figure 237942DEST_PATH_IMAGE042
Figure 88218DEST_PATH_IMAGE044
分别代表
Figure 835594DEST_PATH_IMAGE002
Figure 560842DEST_PATH_IMAGE018
Figure 710064DEST_PATH_IMAGE024
的权重参数,且有
Figure DEST_PATH_IMAGE048
,该权重参数表示对三种不同情况所产生的不确定性的惩罚,可以通过调整该权重参数以使最终的不确定值
Figure 200082DEST_PATH_IMAGE038
偏向于某类不确定性,从而在步骤八中基于不确定性选择样本时更倾向于选择能降低该类不确定性的样本。
9.根据权利要求8所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤八中将模型对未标注的样本数据集中的样本的预测结果的不确定性进行排序,即将所有未标注样本的
Figure 811585DEST_PATH_IMAGE038
值按大小排序,然后选取
Figure 435465DEST_PATH_IMAGE038
值最大的
Figure DEST_PATH_IMAGE050
个样本进行人工标注,再分别对已标注的样本训练集和已登录实体词库ED进行更新和扩充。
10.根据权利要求9所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤九中基于新的已标注的样本训练集重新训练得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九继续查询-训练的循环。
CN201811624411.2A 2018-12-28 2018-12-28 一种改进的用于命名实体识别的主动学习方法 Active CN109697289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811624411.2A CN109697289B (zh) 2018-12-28 2018-12-28 一种改进的用于命名实体识别的主动学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811624411.2A CN109697289B (zh) 2018-12-28 2018-12-28 一种改进的用于命名实体识别的主动学习方法

Publications (2)

Publication Number Publication Date
CN109697289A CN109697289A (zh) 2019-04-30
CN109697289B true CN109697289B (zh) 2023-01-13

Family

ID=66232660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811624411.2A Active CN109697289B (zh) 2018-12-28 2018-12-28 一种改进的用于命名实体识别的主动学习方法

Country Status (1)

Country Link
CN (1) CN109697289B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188197B (zh) * 2019-05-13 2021-09-28 北京一览群智数据科技有限责任公司 一种用于标注平台的主动学习方法及装置
CN110688997B (zh) * 2019-09-24 2023-04-18 北京猎户星空科技有限公司 一种图像处理方法及装置
CN111241832B (zh) * 2020-01-15 2023-08-15 北京百度网讯科技有限公司 核心实体标注方法、装置及电子设备
CN111310799B (zh) * 2020-01-20 2024-04-26 中国人民大学 一种基于历史评估结果的主动学习方法
CN111832294B (zh) * 2020-06-24 2022-08-16 平安科技(深圳)有限公司 标注数据的选择方法、装置、计算机设备和存储介质
CN112633002A (zh) * 2020-12-29 2021-04-09 上海明略人工智能(集团)有限公司 样本标注、模型训练、命名实体识别方法和装置
CN113361278B (zh) * 2021-06-21 2022-02-15 中国人民解放军国防科技大学 一种基于数据增强与主动学习的小样本命名实体识别方法
CN113378548A (zh) * 2021-06-29 2021-09-10 哈尔滨工业大学 一种基于条件随机场的命名实体识别的主动学习方法
CN114118090B (zh) * 2021-11-12 2024-08-06 北京嘉和海森健康科技有限公司 医学新实体名称确定方法、装置及电子设备
CN114462531A (zh) * 2022-01-30 2022-05-10 支付宝(杭州)信息技术有限公司 一种模型训练方法、装置及电子设备
CN117251650B (zh) * 2023-11-20 2024-02-06 之江实验室 地理热点中心识别方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010102521A (ja) * 2008-10-24 2010-05-06 Nippon Telegr & Teleph Corp <Ntt> 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
CN103150454A (zh) * 2013-03-27 2013-06-12 山东大学 基于样本推荐标注的动态机器学习建模方法
CN104573013A (zh) * 2015-01-09 2015-04-29 上海大学 结合类别权重的集成学习分类方法
CN109062887A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种基于平均感知器算法的词性标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010102521A (ja) * 2008-10-24 2010-05-06 Nippon Telegr & Teleph Corp <Ntt> 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
CN103150454A (zh) * 2013-03-27 2013-06-12 山东大学 基于样本推荐标注的动态机器学习建模方法
CN104573013A (zh) * 2015-01-09 2015-04-29 上海大学 结合类别权重的集成学习分类方法
CN109062887A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种基于平均感知器算法的词性标注方法

Also Published As

Publication number Publication date
CN109697289A (zh) 2019-04-30

Similar Documents

Publication Publication Date Title
CN109697289B (zh) 一种改进的用于命名实体识别的主动学习方法
CN111177374B (zh) 一种基于主动学习的问答语料情感分类方法及系统
CN109960800B (zh) 基于主动学习的弱监督文本分类方法及装置
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
Luan et al. Scientific information extraction with semi-supervised neural tagging
CN110619034A (zh) 基于Transformer模型的文本关键词生成方法
CN111967258B (zh) 一种构建共指消解模型的方法、共指消解的方法和介质
CN110688479B (zh) 一种用于生成式摘要的评估方法及排序网络
JP6172317B2 (ja) 混合モデル選択の方法及び装置
CN104077598B (zh) 一种基于语音模糊聚类的情感识别方法
CN113179276B (zh) 基于显式和隐含特征学习的智能入侵检测方法和系统
CN110442721A (zh) 神经网络语言模型、训练方法、装置及存储介质
CN110033089A (zh) 基于分布式估计算法的深度神经网络参数优化方法及系统
CN114781651A (zh) 基于对比学习的小样本学习鲁棒性提升方法
CN115146021A (zh) 文本检索匹配模型的训练方法、装置、电子设备及介质
CN115630649A (zh) 一种基于生成模型的医学中文命名实体识别方法
Lyu et al. Feature-level debiased natural language understanding
JP6586026B2 (ja) 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
CN114004233B (zh) 一种基于半训练和句子选择的远程监督命名实体识别方法
CN108319682B (zh) 分类器修正和分类语料库构建的方法、装置、设备及介质
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
CN115600602A (zh) 一种长文本的关键要素抽取方法、系统及终端设备
Avram et al. UPB at SemEval-2021 task 8: extracting semantic information on measurements as multi-turn question answering
CN114595336A (zh) 一种基于高斯混合模型的多关系语义解决模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant