CN114266253B - 一种未标注数据的半监督命名实体识别的方法 - Google Patents

一种未标注数据的半监督命名实体识别的方法 Download PDF

Info

Publication number
CN114266253B
CN114266253B CN202111573126.4A CN202111573126A CN114266253B CN 114266253 B CN114266253 B CN 114266253B CN 202111573126 A CN202111573126 A CN 202111573126A CN 114266253 B CN114266253 B CN 114266253B
Authority
CN
China
Prior art keywords
data
entity
model
precision
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111573126.4A
Other languages
English (en)
Other versions
CN114266253A (zh
Inventor
叶文鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Baizhi Forever Technology Co ltd
Original Assignee
Wuhan Baizhi Forever Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Baizhi Forever Technology Co ltd filed Critical Wuhan Baizhi Forever Technology Co ltd
Priority to CN202111573126.4A priority Critical patent/CN114266253B/zh
Publication of CN114266253A publication Critical patent/CN114266253A/zh
Application granted granted Critical
Publication of CN114266253B publication Critical patent/CN114266253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种未标注数据的半监督命名实体识别的方法,包括:数据分组、建立识别模型、交叉验证、文本标注、置信度计算和识别训练等步骤,综合多种常用模型的优势,最大程度的降低训练集中噪声数据的干扰,同时本方法并不用训练基于二分类的打分器。目前市面上少量标注文本命名识别算法无法充分挖掘出大量未标注的文本中的信息和降低相应由于少量标注文本带来噪声。该方法还可以通过调整置信度α,来调整最后模型的召回率和精度,在不同场景下使用不同的置信度来满足不同场景下对召回率和精度的不同要求。

Description

一种未标注数据的半监督命名实体识别的方法
技术领域
本发明涉及自然语言处理领域技术领域,具体为一种未标注数据的半监督命名实体识别的方法及系统。
背景技术
本发明属于自然语言处理领域,涉及对大量未标注的文本进行命名实体识别。作为语义知识库、知识图谱的基本组件,命名实体识别对智能系统建设和科技情报服务都起到重要作用。近年来,深度学习方法在特征抽取深度和模型精度上表现优异,已经超过了传统方法,但无论是传统机器学习还是深度学习方法都依赖大量标注数据来训练模型,同时少量标注数据训练的模型识别准确度不高。
为解决上述问题,申请人提出了此方案,其不需要人工对大量未标注文本进行标注,相对于传统监督学习命名实体识别算法,能在仅有少量标注文本的情况下,高精度准确地对未标注文本进行命名实体识别,同时对人工标注带来的噪声能有很好的识别。同时,传统的半监督中文命名实体识别方法仅通过一种模型对识别的结果作为训练集进行置信度打分,单一模型的识别精准度对最终结果的影响很大,而本方案的方法可以综合多种常用模型的优势,最大程度的降低训练集中噪声数据的干扰,同时本方法并不用训练基于二分类的打分器。目前市面上少量标注文本命名识别算法无法充分挖掘出大量未标注的文本中的信息和降低相应由于少量标注文本带来噪声。该方法还可以通过调整置信度α,来调整最后模型的召回率和精度,在不同场景下使用不同的置信度来满足不同场景下对召回率和精度的不同要求。
发明内容
本发明的目的在于提供一种未标注数据的半监督命名实体识别的方法,以解决上述背景技术中提出的目前在机器学习和深度学习中依赖大量标注数据来训练模型,同时少量标注数据训练的模型识别准确度不高的问题。
为实现上述目的,本发明提供如下技术方案:一种未标注数据的半监督命名实体识别的方法,其特征在于,包括以下步骤:
步骤一:数据分组,将已标注文本平均随机分成N(N为正整数)份训练数据;
步骤二:建立识别模型,采用M(M为正整数)种通用常规实体命名识别算法将N份训练数据进行模型训练,生成M×N种实体命名识别模型;
步骤三:交叉验证,通过交叉验证的方式得到M×N种实体命名识别模型的F1score;
步骤四:文本标注,通过M×N种实体命名识别模型对未标注文本进行标注得到多个实体;
步骤五:置信度计算,将步骤四中得到的实体进行置信度α的计算,其计算公式为:
其中F1(k)为第k个模型的F1 score,
而第k个模型的F1值通过交叉测试的方法,首先在N份训练数据中随机抽取一个非当前模型训练的数据作为测试集进行测试,测试出来的F1 score是对精度和召回率的调和平均,具体公式为:
其中,精度(precision)为真正例除以(真正例+假正例)的和,召回率(recall)为真正例除以(真正例+假反例)的和,
将高于预定置信度α0的实体作为最终识别出来的实体对未标注的实体进行标注;
步骤六:识别训练,通过最后已经标注的数据以及M×N种模型中对应F1score最高的算法进行命名实体识别的训练。
作为一种优选的技术方案,步骤二中,M种通用常规实体命名识别算法中包括bert+crf、BiLSTM+crf、BiLSTM+crf、Bert+flat算法。
作为一种优选的技术方案,步骤一中N=3。
作为一种优选的技术方案,步骤五中,预定置信度被设为0.5。
与现有技术相比,本发明的有益效果是:
1)充分挖掘出大量未标注的文本中的信息,提高了算法的识别精准度,同时不需要大量的人工标注,节省了大量人工成本。
2)能够过滤原来少量人工标注文本中,由于人工误差以及对标注理解标准的不一致带来的样本噪声。
3)区别于传统半监督命名实体识别方法要训练一个二分类的打分器,本方法不训练打分器模型,而是综合多种传统模型对数据集分布的识别,通过非常易于操作的算法计算出各种标签的置信度,最大化的将可能的人工打标带来的噪声给排除,最大化的发挥多种模型的不同方面的优势,而非依赖单一模型的识别,达到最佳的精准度与召回率。
4)本方法不依赖单一命名实体识别模型,而是通过算法将多种传统实体识别模型计算出的分布通过算法进行置信度算法分析,得出置信度最高的标签,对于未来新型命名识别模型的引入亦能快速应用本方法,使得本方法得出的结果会优于单一模型,同时能兼容未来的扩展。该方法还可以通过调整置信度α,来调整最后模型的召回率和精度,在对精度要求高的场景可训练出高精度稍低召回率的模型,在对召回率要求高的场景可训练出稍低精度高召回率的模型,满足不同场景的不同需求。而传统方法无法调整最后模型的召回率和精度。
附图说明
图1为本发明一种未标注数据的半监督命名实体识别的方法的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:在有少量标注文本和大量未标注文本的情况下,通过采用多种常规实体命名识别算法对大量未标注文本进行命名实体识别,并对每一个识别出来的实体进行置信度评估,置信度高于预设值的实体作为最终采用的识别实体,通过最终的识别实体将未标注文本进行标注。最后再用此标注文本进行常规训练,该半监督命名实体识别的方法运用方便,准确率提高大,适用范围领域广,应用价值高,成本低,易于普及推广。
参见图1,本发明实施例所述的一种未标注数据的半监督命名实体识别的方法,包括有以下步骤:
步骤A.将已经标注文本平均随机分成N份(一般可以使用3份)训练数据
步骤B.采用bert+crf、BiLSTM+crf、BiLSTM+crf、Bert+flat等M种通用常规实体命名识别算法将N份训练数据进行模型训练,生成M×N种实体命名识别模型。
步骤C通过交叉验证的方式得到M×N种实体命名识别模型的F1score
步骤D.通过M×N种实体命名识别模型对未标注文本进行标注。
步骤E.将最后标注出来的实体进行置信度α的计算,对于高于预定置信度的实体,作为最终识别出来的实体对未标注的实体进行标注。
步骤F.通过最后已经标注的数据以及M×N种模型中对应F1 score最高的算法进行命名实体识别的训练.
所述对标注出来的实体进行置信度的计算,具体可为其中F1(k)为第k个模型的F1score。通常可将最后的预定置信度设置为0.5,对于高于预定置信度的实体,作为最终识别出来的实体对未标注的实体进行标注。对于不同的场景,如果需要一个较高的召回率的场景可将置信度人工调低,对于需要较高精准度的场景可将置信度人为调高。
其中第k个模型的F1值可通过交叉测试的方法,在N份训练数据中随机抽取一个非当前模型训练的数据作为测试集进行测试,测试出来的F1 score是对精度和召回率的调和平均,具体公式如下:
其中精度(precision)被定义为真正例除以(真正例+假正例)的和,召回率(recall)的准确定义是:真正例除以(真正例+假反例)的和。
与现有技术比,该方法有如下优点:
1.充分挖掘出大量未标注的文本中的信息,提高了算法的识别精准度,同时不需要大量的人工标注,节省了大量人工成本。
2.能够过滤原来少量人工标注文本中,由于人工误差以及对标注理解标准的不一致带来的样本噪声。
3.区别于传统半监督命名实体识别方法要训练一个二分类的打分器,本方法不训练打分器模型,而是综合多种传统模型对数据集分布的识别,通过非常易于操作的算法计算出各种标签的置信度,最大化的将可能的人工打标带来的噪声给排除,最大化的发挥多种模型的不同方面的优势,而非依赖单一模型的识别,达到最佳的精准度与召回率。
4.本方法不依赖单一命名实体识别模型,而是通过算法将多种传统实体识别模型计算出的分布通过算法进行置信度算法分析,得出置信度最高的标签,对于未来新型命名识别模型的引入亦能快速应用本方法,使得本方法得出的结果会优于单一模型,同时能兼容未来的扩展。
该方法还可以通过调整置信度α,来调整最后模型的召回率和精度,在对精度要求高的场景可训练出高精度稍低召回率的模型,在对召回率要求高的场景可训练出稍低精度高召回率的模型,满足不同场景的不同需求。而传统方法无法调整最后模型的召回率和精度。
通过数据分组、建立识别模型、交叉验证、文本标注、置信度计算和识别训练等步骤,综合多种常用模型的优势,最大程度的降低训练集中噪声数据的干扰,同时本方法并不用训练基于二分类的打分器。目前市面上少量标注文本命名识别算法无法充分挖掘出大量未标注的文本中的信息和降低相应由于少量标注文本带来噪声。该方法还可以通过调整置信度α,来调整最后模型的召回率和精度,在不同场景下使用不同的置信度来满足不同场景下对召回率和精度的不同要求。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种未标注数据的半监督命名实体识别的方法,其特征在于,包括以下步骤:
步骤一:数据分组,将已标注文本平均随机分成N(N为正整数)份训练数据;
步骤二:建立识别模型,采用M(M为正整数)种通用常规实体命名识别算法将N份训练数据进行模型训练,生成M×N种实体命名识别模型;
步骤三:交叉验证,通过交叉验证的方式得到M×N种实体命名识别模型的F1 score;
步骤四:文本标注,通过M×N种实体命名识别模型对未标注文本进行标注得到多个实体;
步骤五:置信度计算,将步骤四中得到的实体进行置信度α的计算,其计算公式为:
其中F1(k)为第k个模型的F1 score,
而第k个模型的F1值通过交叉测试的方法,首先在N份训练数据中随机抽取一个非当前模型训练的数据作为测试集进行测试,测试出来的F1 score是对精度和召回率的调和平均,具体公式为:
其中,精度(precision)为真正例除以(真正例+假正例)的和,召回率(recall)为真正例除以(真正例+假反例)的和,
将高于预定置信度α0的实体作为最终识别出来的实体对未标注的实体进行标注;
步骤六:识别训练,通过最后已经标注的数据以及M×N种模型中对应F1score最高的算法进行命名实体识别的训练。
2.根据权利要求1所述的一种未标注数据的半监督命名实体识别的方法,其特征在于,所述步骤二中,M种通用常规实体命名识别算法中包括bert+crf、BiLSTM+crf、Bert+flat算法。
3.根据权利要求1所述的一种未标注数据的半监督命名实体识别的方法,其特征在于,所述步骤一中N=3。
4.根据权利要求1所述的一种未标注数据的半监督命名实体识别的方法,其特征在于,所述步骤五中,预定置信度被设为0.5。
CN202111573126.4A 2021-12-21 2021-12-21 一种未标注数据的半监督命名实体识别的方法 Active CN114266253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111573126.4A CN114266253B (zh) 2021-12-21 2021-12-21 一种未标注数据的半监督命名实体识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111573126.4A CN114266253B (zh) 2021-12-21 2021-12-21 一种未标注数据的半监督命名实体识别的方法

Publications (2)

Publication Number Publication Date
CN114266253A CN114266253A (zh) 2022-04-01
CN114266253B true CN114266253B (zh) 2024-01-23

Family

ID=80828908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111573126.4A Active CN114266253B (zh) 2021-12-21 2021-12-21 一种未标注数据的半监督命名实体识别的方法

Country Status (1)

Country Link
CN (1) CN114266253B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280462A (zh) * 2017-12-11 2018-07-13 北京三快在线科技有限公司 一种模型训练方法及装置,电子设备
CN111738004A (zh) * 2020-06-16 2020-10-02 中国科学院计算技术研究所 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111899027A (zh) * 2020-08-04 2020-11-06 第四范式(北京)技术有限公司 一种反欺诈模型的训练方法及装置
CN112270196A (zh) * 2020-12-14 2021-01-26 完美世界(北京)软件科技发展有限公司 实体关系的识别方法、装置及电子设备
CN112818691A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 命名实体识别模型训练方法及装置
WO2021218024A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 命名实体识别模型的训练方法、装置、计算机设备
CN113807096A (zh) * 2021-04-09 2021-12-17 京东科技控股股份有限公司 文本数据的处理方法、装置、计算机设备和存储介质
CN113806494A (zh) * 2021-10-11 2021-12-17 中国人民解放军国防科技大学 一种基于预训练语言模型的命名实体识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280462A (zh) * 2017-12-11 2018-07-13 北京三快在线科技有限公司 一种模型训练方法及装置,电子设备
WO2021218024A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 命名实体识别模型的训练方法、装置、计算机设备
CN111738004A (zh) * 2020-06-16 2020-10-02 中国科学院计算技术研究所 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111899027A (zh) * 2020-08-04 2020-11-06 第四范式(北京)技术有限公司 一种反欺诈模型的训练方法及装置
CN112270196A (zh) * 2020-12-14 2021-01-26 完美世界(北京)软件科技发展有限公司 实体关系的识别方法、装置及电子设备
CN112818691A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 命名实体识别模型训练方法及装置
CN113807096A (zh) * 2021-04-09 2021-12-17 京东科技控股股份有限公司 文本数据的处理方法、装置、计算机设备和存储介质
CN113806494A (zh) * 2021-10-11 2021-12-17 中国人民解放军国防科技大学 一种基于预训练语言模型的命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多神经网络协同训练的命名实体识别;王栋;李业刚;张晓;;智能计算机与应用(第02期);全文 *
序列标注模型中的字粒度特征提取方案研究――以CCKS2017:Task2临床病历命名实体识别任务为例;孙安;于英香;罗永刚;王祺;;图书情报工作(第11期);104-112 *

Also Published As

Publication number Publication date
CN114266253A (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN104463101B (zh) 用于文字性试题的答案识别方法及系统
CN105022835B (zh) 一种群智感知大数据公共安全识别方法及系统
CN109829159A (zh) 一种古汉语文本的一体化自动词法分析方法及系统
CN109255027B (zh) 一种电商评论情感分析降噪的方法和装置
CN109543764B (zh) 一种基于智能语义感知的预警信息合法性检测方法及检测系统
CN104199840A (zh) 基于统计模型的智能地名识别技术
CN110472652A (zh) 基于语义引导的少量样本分类方法
CN105389326A (zh) 基于弱匹配概率典型相关性模型的图像标注方法
CN105117708A (zh) 人脸表情识别的方法和装置
CN110188359B (zh) 一种文本实体抽取方法
CN110598733A (zh) 一种基于交互建模的多标记距离度量学习方法
CN102411711A (zh) 一种基于个性化权重的手指静脉识别方法
CN112417132B (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN105678244A (zh) 一种基于改进编辑距离的近似视频检索方法
CN105550278A (zh) 基于深度学习的网页区域识别算法
CN104347071A (zh) 生成口语考试参考答案的方法及系统
CN111125370A (zh) 一种适应小样本的关系抽取方法
CN114090736A (zh) 一种基于文本相似度的企业行业识别系统及识别方法
CN111984790A (zh) 一种实体关系抽取方法
CN109344233B (zh) 一种中文人名识别方法
CN114266253B (zh) 一种未标注数据的半监督命名实体识别的方法
CN112711664B (zh) 一种基于tcn+lstm的文本情感分类方法
CN105632485A (zh) 一种基于语种识别系统的语言距离关系的获取方法
CN108229565A (zh) 一种基于认知的图像理解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant