CN109697289B - 一种改进的用于命名实体识别的主动学习方法 - Google Patents
一种改进的用于命名实体识别的主动学习方法 Download PDFInfo
- Publication number
- CN109697289B CN109697289B CN201811624411.2A CN201811624411A CN109697289B CN 109697289 B CN109697289 B CN 109697289B CN 201811624411 A CN201811624411 A CN 201811624411A CN 109697289 B CN109697289 B CN 109697289B
- Authority
- CN
- China
- Prior art keywords
- entity
- uncertainty
- model
- sample
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000002372 labelling Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 10
- 238000010200 validation analysis Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 abstract description 5
- 208000004998 Abdominal Pain Diseases 0.000 description 6
- 208000008035 Back Pain Diseases 0.000 description 6
- 208000008930 Low Back Pain Diseases 0.000 description 6
- 206010033425 Pain in extremity Diseases 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 208000006673 asthma Diseases 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种改进的用于命名实体识别的主动学习方法,包括:1、获取初始的数据集,将训练集中的实体作为已登录实体存储到实体词库;2、设置模型性能标准,基于初始训练集得到初始模型,判断模型性能是否达标;3、用当前模型对未标注样本进行预测,用实体词库对未标注样本中的已登录实体进行标记,然后在实体粒度上分别从三种情况计算不确定性;4、赋予三种不确定性权重参数,并加权求和作为最终的不确定性;5、将模型对未标注样本的的不确定性进行排序,选择不确定性最高的样本进行标注,并更新训练集和实体词库;6、基于新训练集重新训练模型,并判断模型性能是否达标。本发明在实体粒度上更加精细和全面地考虑了预测结果的不确定性。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种改进的用于命名实体识别的主动学习方法,进一步涉及一种结合命名实体识别特性对不确定性计算进行改进的主动学习算法,充分利用已标注的样本训练集中的已登录实体作为先验知识,从实体粒度上更加精细和全面地计算预测结果的不确定性,以提高所选择的样本的质量,从而进一步减少所需标注样本的数量、降低人工标注的成本。
背景技术
主动学习(Active Learning)是一种在保证模型达到性能标准的前提下尽可能地减少模型所需标注样本数量、降低人工标注成本的算法,通过迭代训练的方式,每次训练得到新模型后基于一种预设的查询标准从未标注的样本中选择更能提高模型性能、更值得标注的样本进行人工标注,然后用新标注的样本对样本训练集进行更新,并重新训练模型。主动学习算法可以应用于各种领域的各种算法上,通过选择高质量的未标注样本进行标注,能够有效地减少模型达到性能标准时所需的标注样本数量,从而降低人工标注的成本。
不确定性是主动学习算法在进行样本的查询和选择时的核心标准,不确定性表示模型对一个样本进行预测时产生的不确定性,预测概率越低,不确定性越高,而基于信息论的基本思想,样本的不确定性与其所蕴含的信息量成正比,而样本的信息量又与该样本对模型的价值、对该样本进行人工标注的必要性成正比。
命名实体识别(Named Entity Recognition)是一种自然语言处理技术,能够从文本中识别出关键的实体或者术语,将自然语言文本中的重要信息表达出来,以帮助人们快速理解文本中的语义信息。命名实体识别任务最早是利用基于字典和规则的方法解决的,自从21世纪以来,基于大规模语料库的统计方法逐步成为自然语言处理的主流,一大批基于统计的机器学习方法被成功地应用于命名实体识别中,比如隐马尔可夫模型(HMM)、最大熵马尔科夫模型(ME)、条件随机场模型(CRF)。而近年来,随着深度学习模型和硬件能力的快速发展,以及标注样本数据集的进一步扩大,深度学习模型也在命名实体识别上取得了优越的性能。
基于机器学习和深度学习的命名实体识别方法相对于以往的基于字典和规则的方法而言,都对标注样本数量提出了更高的需求,而样本的标注不仅耗时,而且需要大量的人力和财力,尤其是命名实体识别这种复杂的监督学习任务,其所需样本的人工标注成本更高,如何使命名实体识别模型性能达到性能标准的前提下尽可能地减少所需的标注样本数量成了一个亟待解决的问题。目前将主动学习算法应用于命名实体识别任务上已经得到了一系列的研究,已有的方法中将主动学习算法与机器学习方法或者深度学习方法结合应用于命名实体识别中时,能够大幅度地减少模型所需的标注样本数量、有效地降低人工标注成本。但是已有的方法在计算预测结果的不确定性的时候只考虑了模型对整个样本序列的预测概率,而没有充分考虑样本序列中具体实体的预测情况。
发明内容
本发明针对现有技术中存在的不足之处,提出一种改进的用于命名实体识别的主动学习算法。具体而言,是充分考虑模型对样本序列中具体实体的预测情况,在实体粒度上更加精细和全面地考虑不确定性,将已标注的样本训练集中已经被标注出的实体视为已登录实体,作为对未标注样本的先验知识,在主动学习的样本查询阶段对未标注样本中的已登录实体进行标记,用当前模型对未标注样本进行预测并获取对样本中实体的预测概率后,基于以下三种情况分别考虑预测结果的不确定性:已登录实体识别概率较低的情况、已登录实体未被识别的情况、未登录实体识别概率较低的情况,基于以上三种情况分别计算得到一个不确定性,然后赋予这三种不确定性一个权重参数,再进行加权求和以得到最终的不确定性。这种改进方法相对于已有的方法主要有两个优点:首先,能够在实体粒度上更加精细和全面地计算不确定性,其次,对三种情况的不确定性加权求和的时候,可以通过调整权重参数使最终的不确定性倾向于某类不确定性,从而在选择样本进行标注时更倾向于选择能够降低该类不确定性的样本,相对已有的方法更加灵活和可控。
本发明采用如下技术方案:
步骤一:获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识;
步骤二:设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询-训练阶段;
步骤三:利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性;
步骤四:计算已登录实体识别概率较低的情况下所产生的不确定性;
步骤五:计算已登录实体未被正确识别的情况下所产生的不确定性;
步骤六:计算未登录实体识别概率较低的情况下所产生的不确定性;
步骤七:分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性;
步骤八:将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充;
步骤九:基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九;
本发明所述的一种改进的用于命名实体识别的主动学习算法特征也在于:
所述步骤一中获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识:
初始的数据集包括已标注的样本训练集、已标注的样本验证集为、未标注的样本数据集;
在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体,将所有已登录实体存储到已登录实体词库ED中,作为对未标注样本的先验知识:
对于在已标注的样本中出现过的已登录实体,如果在未标注的样本中出现了,也应该是同样的实体。
所述步骤二中设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询-训练阶段:
先设定一个模型性能标准作为终止学习的条件,即要求模型能够在已标注的样本验证集上达到预设的性能标准;
基于已标注的样本训练集训练得到初始的命名实体识别模型,再判断模型的性能是否达到性能标准,若达标,则终止学习,否则进入步骤三至步骤九,即主动学习算法中的查询-训练循环中。
所述步骤三中利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性:
用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果;
利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记;
利用步骤四到步骤六在实体粒度上分别从以下三种情况计算不确定性:已登录实体识别概率较低的情况、已登录实体未被识别的情况、未登录实体识别概率较低的情况。
所述步骤四中计算已登录实体识别概率较低的情况下所产生的不确定性:
对于在已标注的训练集中已经出现的已登录实体,我们希望模型能够以较高的概率识别出这些实体,若模型识别出该类实体时的概率较低,可以认为该样本的语义环境使模型在识别该实体时产生了较大的不确定性,则倾向于认为该样本值得标注;
用不确定值U1衡量该不确定性,设对已登录实体识别的概率阈值为P1,若对某已登录实体的识别概率为Pi,且有Pi<P1,则认为对该实体的识别具有较高的不确定性,并用P1-Pi来衡量该不确定性;
遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值U1:
所述步骤五中计算已登录实体未被正确识别的情况下所产生的不确定性:
对于在已标注的训练集中已经出现的已登录实体,我们希望模型能够以较高的概率识别出这些实体,若这些实体未被模型正确识别出来,可以认为该样本的语义环境使模型难以识别这些已登录实体,具有很高的不确定性,则倾向于认为该样本值得标注。
用不确定值U2衡量该不确定性;
遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值U2:
所述步骤六中计算未登录实体识别概率较低的情况下所产生的不确定性:
对于在已标注的训练集中从未出现过的未登录新实体,若模型识别出该类实体时的预测概率较低,可以认为模型对该实体进行识别时不确定性较大,可能该词并不是一个正确的新实体但是模型错误地将其识别为实体,也可能该词确实是一个正确的新实体但是当前样本的语义环境使模型识别该实体时具有较大的不确定性,所以倾向于认为该样本值得标注;
用不确定值U3衡量该不确定性,设立未登录实体识别的概率阈值为P3,若对某未登录实体的识别概率为P′i,且有P′i<P3,则认为该实体的识别具有较高的不确定性,并用P3-P′i来衡量该不确定性;
遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值U3:
所述步骤七中分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性:
对不确定值U1、U2、U3分别赋予权重参数,权重参数分别为λ1、λ2、λ3;
基于权重参数λ1、λ2、λ3对U1、U2、U3进行加权求和,以得到最终的用于描述预测结果不确定性的值U;
基于以下计算公式计算每个样本的不确定值U:
U=λ1U1+λ2U2+λ3U3 (式四)
可以通过调整该权重参数以使最终的不确定值U偏向于某类不确定性,从而在步骤八中基于不确定性选择样本时更倾向于选择能降低该类不确定性的样本。
所述步骤八中将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充:
将当前模型对未标注的样本数据集中的样本的预测结果的不确定性进行排序,即将所有未标注样本的不确定值U按大小排序;
选取U值最大的k个样本进行人工标注,分别对已标注的样本训练集和已登录实体词库ED进行更新和扩充。
所述步骤九中基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九:
基于更新和扩充后的新样本训练集重新训练得到新的模型;
判断模型是否达到模型性能标准;
若性能达标,则终止学习,否则重复步骤三至步骤九以继续查询-训练的循环。
因此,本发明具有如下优点:能够充分利用已标注的样本中出现过的已登录实体作为先验知识,在实体粒度上更加精细和全面地计算预测结果的不确定性,而且能够通过调整权重参数以使最终的不确定值偏向于某类不确定性,能够在实际操作中更加灵活和可控。
附图说明
图1为本发明提出的方法的整体流程图。
具体实施方式
下面通过实施例,对本发明的技术方案作进一步具体的说明。
如图1所示,本发明提供一种改进的用于命名实体识别的主动学习算法,包括以下步骤:
步骤一:获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识。
初始的数据集包括已标注的样本训练集、已标注的样本验证集、未标注的样本数据集;
在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体,将所有已登录实体存储到已登录实体词库ED中,作为对未标注样本的先验知识,例如对医学文本进行命名实体识别的标注时,某个样本中出现了一个症状实体“腰腿酸痛”,那么就将该实体就是一个已登录实体,将其存储到已登录实体词库ED中:
对于在已标注的样本中出现的已登录实体,如果在未标注的样本中出现了,也应该是同样的实体,在上述实例中,“腰腿酸痛”是一个已经在训练集中出现过的实体,那么如果通过文本匹配手段发现未标注样本中出现了该词,那么“腰腿酸痛”在该未标注样本中也应该是一个实体。
步骤二:设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询-训练阶段;
先设定一个模型性能标准作为终止学习的条件,即要求模型能够在已标注的样本验证集上达到预设的性能标准,例如设置模型性能标准为60%的F值,则要求模型在验证集上达到60%的F值;
基于已标注的样本训练集训练得到初始的命名实体识别模型,例如一个用于命名实体识别的CRF模型或者LSTM模型,再判断模型的性能是否达到性能标准,若达标,则终止学习,否则进入步骤三至步骤九,即主动学习算法中的查询-训练循环中。
步骤三:利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性:
用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果;
利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记;
利用步骤四到步骤六在实体粒度上分别从以下三种情况计算不确定性:已登录实体识别概率较低的情况、已登录实体未被识别的情况、未登录实体识别概率较低的情况。
步骤四:计算已登录实体识别概率较低的情况下所产生的不确定性:
对于在已标注的训练集中已经出现的已登录实体,我们希望模型能够以较高的概率识别出这些实体,若模型识别出该类实体时的概率较低,可以认为该样本的语义环境使模型在识别该实体时产生了较大的不确定性,则倾向于认为该样本值得标注;
用不确定值U1衡量该不确定性,设对已登录实体识别的概率阈值为P1,若对某已登录实体的识别概率为Pi,且有Pi<P1,则认为对该实体的识别具有较高的不确定性,并用P1-Pi来衡量该不确定性。例如在医学文本的命名实体识别任务中,有三个已登录实体分别为“腰痛”、“腹痛”、“腿痛”,设置已登录实体识别的概率阈值P1为60%,若在某个未标注样本中这三个已登录实体同时出现了,用模型对其进行预测,以70%的概率识别出“腰痛”是一个实体,以50%的概率识别出“腹痛”是一个实体,以40%的概率识别出“腿痛”是一个实体,其中“腰痛”的识别概率高于识别概率阈值P1,而“腹痛”和“腿痛”的识别概率均低于P1,产生的不确定性分别为0.1和0.2,由于实体“腿痛”的识别概率相较实体“腹痛”更低,所以产生了更高的不确定性;
遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值U1:
步骤五:计算已登录实体未被正确识别的情况下所产生的不确定性:
对于在已标注的训练集中已经出现的已登录实体,我们希望模型能够以较高的概率识别出这些实体,若这些实体未被模型正确识别出来,可以认为该样本的语义环境使模型难以识别这些已登录实体,具有很高的不确定性,则倾向于认为该样本值得标注。
用不确定值U2衡量该不确定性,例如在医学文本的命名实体识别任务中,有两个已登录实体分别为“腰痛”和“腹痛”,有两个未标注的样本,均包含了这两个已登录实体,用模型对这两个样本进行预测,第一个样本中的实体“腰痛”未被识别出来,第二个样本中的“腰痛”和“腹痛”两个实体均未被识别出来,则产生的不确定性分别为1和2;
遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值U2:
步骤六:计算未登录实体识别概率较低的情况下所产生的不确定性:
对于在已标注的训练集中从未出现过的未登录新实体,若模型识别出该类实体时的预测概率较低,可以认为模型对该实体进行识别时不确定性较大,可能该词并不是一个正确的新实体但是模型错误地将其识别为实体,也可能该词确实是一个正确的新实体但是当前样本的语义环境使模型识别该实体时具有较大的不确定性,所以倾向于认为该样本值得标注;
用不确定值U3衡量该不确定性,设未登录实体识别的概率阈值为P3,若对某未登录实体的识别概率为P′i,且有P′i<P3,则认为该实体的识别具有较高的不确定性,并用P3-P′i来衡量该不确定性。例如在医学文本的命名实体识别任务中,设置未登录实体识别的概率阈值P3为50%,用模型对一个未标注的样本进行预测,识别到一个从未在训练集中出现过的未登录的新实体“哮喘”,识别概率为40%,则认为对该实体的识别具有较高的不确定性,产生了0.1的不确定性;
遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值U3:
步骤七:分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性:
对不确定值U1、U2、U3分别赋予权重参数,权重参数分别为λ1、λ2、λ3;
基于权重参数λ1、λ2、λ3对U1、U2、U3进行加权求和,以得到最终的用于描述预测结果不确定性的值U;
基于以下计算公式计算每个样本的不确定值U:
U=λ1U1+λ2U2+λ3U3 (式四)
可以通过调整该权重参数以使最终的不确定值U偏向于某类不确定性,从而在步骤八中基于不确定性选择样本时更倾向于选择能降低该类不确定性的样本。例如若将λ1设置得较大,则对第一种情况所产生的不确定性的惩罚较高,容忍度较低,使得在第一种情况下产生更多不确定性的样本的不确定值U较大,从而在后续步骤八中倾向于选择这些样本来提高模型识别已登录实体的性能。
步骤八:将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充:
将当前模型对未标注的样本数据集中的样本的预测结果的不确定性进行排序,即将所有未标注样本的不确定值U按大小排序;
选取U值最大的k个样本进行人工标注,分别对已标注的样本训练集和已登录实体词库ED进行更新和扩充,即将新标注的样本添加到已标注的样本训练集中,并且将新标注的样本中出现的新实体添加到已登录实体词库ED中。
步骤九:基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九:
基于更新和扩充后的新样本训练集重新训练得到新的模型;
判断模型是否达到模型性能标准;
若性能达标,则终止学习,否则重复步骤三至步骤九以继续查询-训练的循环。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的方法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
Claims (10)
1.一种改进的用于命名实体识别的主动学习方法,其特征在于,包括:
步骤一:获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识;
步骤二:设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询-训练阶段;
步骤三:利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性;
步骤四:计算已登录实体识别概率小于概率阈值的情况下所产生的不确定性;
步骤五:计算已登录实体未被正确识别的情况下所产生的不确定性;
步骤六:计算未登录实体识别概率小于概率阈值的情况下所产生的不确定性;
步骤七:分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性;
步骤八:将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充;
步骤九:基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九。
2.根据权利要求1所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤一中获取初始的已标注的样本训练集、已标注的样本验证集、未标注的样本数据集,其中在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体,将所有已登录实体存储到已登录实体词库ED中,作为对未标注样本的先验知识:对于在已标注的样本中出现的已登录实体,如果在未标注的样本中出现了,也应该是同样的实体。
3.根据权利要求2所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤二中先设定一个模型性能标准作为终止学习的条件,即要求模型能够在已标注的样本验证集上达到预设的性能标准,然后基于已标注的样本训练集训练得到初始的命名实体识别模型,再判断模型的性能是否达到性能标准,若达标,则终止学习,否则进入步骤三至步骤九,即主动学习方法中的查询-训练循环。
4.根据权利要求3所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤三中用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,再利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记,然后利用步骤四到步骤六在实体粒度上分别从以下三种情况计算不确定性:已登录实体识别概率小于概率阈值的情况、已登录实体未被识别的情况、未登录实体识别概率小于概率阈值的情况。
10.根据权利要求9所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤九中基于新的已标注的样本训练集重新训练得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九继续查询-训练的循环。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811624411.2A CN109697289B (zh) | 2018-12-28 | 2018-12-28 | 一种改进的用于命名实体识别的主动学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811624411.2A CN109697289B (zh) | 2018-12-28 | 2018-12-28 | 一种改进的用于命名实体识别的主动学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109697289A CN109697289A (zh) | 2019-04-30 |
CN109697289B true CN109697289B (zh) | 2023-01-13 |
Family
ID=66232660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811624411.2A Active CN109697289B (zh) | 2018-12-28 | 2018-12-28 | 一种改进的用于命名实体识别的主动学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109697289B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188197B (zh) * | 2019-05-13 | 2021-09-28 | 北京一览群智数据科技有限责任公司 | 一种用于标注平台的主动学习方法及装置 |
CN110688997B (zh) * | 2019-09-24 | 2023-04-18 | 北京猎户星空科技有限公司 | 一种图像处理方法及装置 |
CN111241832B (zh) * | 2020-01-15 | 2023-08-15 | 北京百度网讯科技有限公司 | 核心实体标注方法、装置及电子设备 |
CN111310799B (zh) * | 2020-01-20 | 2024-04-26 | 中国人民大学 | 一种基于历史评估结果的主动学习方法 |
CN111832294B (zh) * | 2020-06-24 | 2022-08-16 | 平安科技(深圳)有限公司 | 标注数据的选择方法、装置、计算机设备和存储介质 |
CN112633002A (zh) * | 2020-12-29 | 2021-04-09 | 上海明略人工智能(集团)有限公司 | 样本标注、模型训练、命名实体识别方法和装置 |
CN113361278B (zh) * | 2021-06-21 | 2022-02-15 | 中国人民解放军国防科技大学 | 一种基于数据增强与主动学习的小样本命名实体识别方法 |
CN113378548A (zh) * | 2021-06-29 | 2021-09-10 | 哈尔滨工业大学 | 一种基于条件随机场的命名实体识别的主动学习方法 |
CN114118090B (zh) * | 2021-11-12 | 2024-08-06 | 北京嘉和海森健康科技有限公司 | 医学新实体名称确定方法、装置及电子设备 |
CN114462531A (zh) * | 2022-01-30 | 2022-05-10 | 支付宝(杭州)信息技术有限公司 | 一种模型训练方法、装置及电子设备 |
CN117251650B (zh) * | 2023-11-20 | 2024-02-06 | 之江实验室 | 地理热点中心识别方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010102521A (ja) * | 2008-10-24 | 2010-05-06 | Nippon Telegr & Teleph Corp <Ntt> | 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体 |
CN103150454A (zh) * | 2013-03-27 | 2013-06-12 | 山东大学 | 基于样本推荐标注的动态机器学习建模方法 |
CN104573013A (zh) * | 2015-01-09 | 2015-04-29 | 上海大学 | 结合类别权重的集成学习分类方法 |
CN109062887A (zh) * | 2018-06-04 | 2018-12-21 | 昆明理工大学 | 一种基于平均感知器算法的词性标注方法 |
-
2018
- 2018-12-28 CN CN201811624411.2A patent/CN109697289B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010102521A (ja) * | 2008-10-24 | 2010-05-06 | Nippon Telegr & Teleph Corp <Ntt> | 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体 |
CN103150454A (zh) * | 2013-03-27 | 2013-06-12 | 山东大学 | 基于样本推荐标注的动态机器学习建模方法 |
CN104573013A (zh) * | 2015-01-09 | 2015-04-29 | 上海大学 | 结合类别权重的集成学习分类方法 |
CN109062887A (zh) * | 2018-06-04 | 2018-12-21 | 昆明理工大学 | 一种基于平均感知器算法的词性标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109697289A (zh) | 2019-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697289B (zh) | 一种改进的用于命名实体识别的主动学习方法 | |
CN111177374B (zh) | 一种基于主动学习的问答语料情感分类方法及系统 | |
CN109960800B (zh) | 基于主动学习的弱监督文本分类方法及装置 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
Luan et al. | Scientific information extraction with semi-supervised neural tagging | |
CN110619034A (zh) | 基于Transformer模型的文本关键词生成方法 | |
CN111967258B (zh) | 一种构建共指消解模型的方法、共指消解的方法和介质 | |
CN110688479B (zh) | 一种用于生成式摘要的评估方法及排序网络 | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
CN104077598B (zh) | 一种基于语音模糊聚类的情感识别方法 | |
CN113179276B (zh) | 基于显式和隐含特征学习的智能入侵检测方法和系统 | |
CN110442721A (zh) | 神经网络语言模型、训练方法、装置及存储介质 | |
CN110033089A (zh) | 基于分布式估计算法的深度神经网络参数优化方法及系统 | |
CN114781651A (zh) | 基于对比学习的小样本学习鲁棒性提升方法 | |
CN115146021A (zh) | 文本检索匹配模型的训练方法、装置、电子设备及介质 | |
CN115630649A (zh) | 一种基于生成模型的医学中文命名实体识别方法 | |
Lyu et al. | Feature-level debiased natural language understanding | |
JP6586026B2 (ja) | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム | |
CN114004233B (zh) | 一种基于半训练和句子选择的远程监督命名实体识别方法 | |
CN108319682B (zh) | 分类器修正和分类语料库构建的方法、装置、设备及介质 | |
CN116257601A (zh) | 一种基于深度学习的违法词库构建方法及系统 | |
CN115600602A (zh) | 一种长文本的关键要素抽取方法、系统及终端设备 | |
Avram et al. | UPB at SemEval-2021 task 8: extracting semantic information on measurements as multi-turn question answering | |
CN114595336A (zh) | 一种基于高斯混合模型的多关系语义解决模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |