CN114218951B - 实体识别模型的训练方法、实体识别方法及装置 - Google Patents

实体识别模型的训练方法、实体识别方法及装置 Download PDF

Info

Publication number
CN114218951B
CN114218951B CN202111545465.1A CN202111545465A CN114218951B CN 114218951 B CN114218951 B CN 114218951B CN 202111545465 A CN202111545465 A CN 202111545465A CN 114218951 B CN114218951 B CN 114218951B
Authority
CN
China
Prior art keywords
training
entity recognition
recognition model
entity
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111545465.1A
Other languages
English (en)
Other versions
CN114218951A (zh
Inventor
张惠蒙
黄昉
史亚冰
蒋烨
柴春光
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111545465.1A priority Critical patent/CN114218951B/zh
Publication of CN114218951A publication Critical patent/CN114218951A/zh
Application granted granted Critical
Publication of CN114218951B publication Critical patent/CN114218951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了实体识别模型的训练方法、实体识别方法及装置,涉及数据处理技术领域,尤其涉及知识图谱、深度学习等人工智能技术领域。具体技术方案包括:对第一训练集进行数据增强,得到增强后的第二训练集;基于第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;通过第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;基于第四训练集对第一实体识别模型进行训练,得到训练出的第三实体识别模型。本公开的技术方案可提到精度较高的实体识别模型,可适用于小样本场景下的实体识别。

Description

实体识别模型的训练方法、实体识别方法及装置
技术领域
本公开涉及数据处理技术领域,尤其涉及知识图谱、深度学习等人工智能技术领域,具体涉及一种实体识别模型的训练方法、实体识别方法及装置。
背景技术
命名实体识别(Named Entity Recognition,NER)是自然语言处理中非常基础和重要的任务之一,应用范围十分广泛。命名实体通常指文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。命名实体识别系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。
目前很多命名实体识别的方法需要大量的标注训练数据,而在真实应用场景下,大量人工标注数据是很难获得的,且获得大量高质量的标注数据需要较高的人工成本,需要在标注数据不足的情况下,解决命名实体识别的任务。
发明内容
本公开提供了一种实体识别模型的训练方法、实体识别方法及装置。
根据本公开的第一方面,提供了一种实体识别模型的训练方法,包括:
对第一训练集进行数据增强,得到增强后的第二训练集;第一训练集包括已标注样本数据,已标注样本数据的数量小于第一指定数量;
基于第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;
通过第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;第三训练集包括未标注样本数据,未标注样本数据的数量大于或等于第一指定数量;
基于第四训练集对第一实体识别模型进行训练,得到训练出的第三实体识别模型。
根据本公开的第二方面,提供了一种实体识别方法,包括:
获取待标注数据;
通过实体识别模型对待标注数据进行实体标注;实体识别模型是通过本公开任一实施例的实体识别模型的训练方法训练出的。
根据本公开的第三方面,提供了一种实体识别模型的训练装置,包括:
数据增强模块,用于对第一训练集进行数据增强,得到增强后的第二训练集;第一训练集包括已标注样本数据,已标注样本数据的数量小于第一指定数量;
第一训练模块,用于基于第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;
第一标注模块,用于通过第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;第三训练集包括未标注样本数据,未标注样本数据的数量大于或等于第一指定数量;
第二训练模块,用于基于第四训练集对第一实体识别模型进行训练,得到训练出的第三实体识别模型。
根据本公开的第四方面,提供了一种实体识别装置,包括:
数据获取模块,用于获取待标注数据;
实体标注模块,用于通过实体识别模型对待标注数据进行实体标注;实体识别模型是通过本公开任一实施例提供的实体识别模型的训练装置训练出的。
根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例提供的实体识别模型的训练方法或实体识别方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开任一实施例提供的实体识别模型的训练方法或实体识别方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现本公开任一实施例提供的实体识别模型的训练方法或实体识别方法。
本公开的技术方案可至少实现如下有益效果:
从多种角度对实体识别模型进行训练和优化。在通过数据增强对训练集进行优化的基础上,可基于优化后的训练集对实体识别模型进行训练和优化,进而基于优化后的实体识别模型进一步对训练集进行优化,实现训练集和实体识别模型的相互优化,可提高实体识别模型的精度和可靠性,可适用于小样本场景下的实体识别。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种实体识别模型的训练方法的流程示意图;
图2是图1所示的实体识别模型的训练方法的一个示例图;
图3是本公开实施例提供的另一种实体识别模型的训练方法的流程示意图;
图4是图3所示的实体识别模型的训练方法的一个示例图;
图5是本公开实施例提供的又一种实体识别模型的训练方法的部分流程示意图;
图6是图5所示的实体识别模型的训练方法的一个示例图;
图7是本公开实施例提供的再一种实体识别模型的训练方法的部分流程示意图;
图8是本公开实施例提供的一种实体识别方法的流程示意图;
图9是本公开实施例提供的一种实体识别模型的训练装置的结构框架示意图;
图10是本公开实施例提供的一种实体识别装置的结构框架示意图;
图11是本公开实施例提供的一种电子设备的结构框架示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
应该进一步理解的是,本公开实施例中使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,本公开实施例使用的所有术语(包括技术术语和科学术语),具有与本公开所属领域中的普通技术人员的一般理解相同的意义。
在解决小样本的命名实体识别任务时,通常采用数据增强、半监督自训练和少样本学习(meta learning)。
数据增强是在不实质性的增加标注数据的情况下,让有限的数据产生等价于更多数据的价值。数据增强后的数据能在提供更加丰富的上下文信息的同时,其分布与原始数据的分布基本吻合。
半监督自训练是一种能利用未标注语料来提升模型鲁棒性的方法。半监督自训练方法的主要训练流程为:基于原始标注数据训练一个NER教师模型;通过NER教师模型对未标注数据预测标签;基于「原始标注+预测标注」数据训练NER学生模型;将前面的步骤重复多次。
少样本学习也称为小样本学习或元学习,是目前在学界备受关注的一种解决标注样本不充足情况下命名识别任务的策略,其目的是提升模型在极少样本数据下的鲁棒性,使得模型在遇到全新的样本时能有较好的泛化能力。其方法是:在训练阶段,先使用训练集对每个类构建一个类的原型表示,再使用支持集中的每个字符(token)与实体原型表示进行距离度量、构建对比损失(loss)学习。在解码阶段,对每一个新字符与实体原型表示进行距离度量,选取最近邻的实体原型标签。
本公开的发明人在研究中发现上述方案存在以下问题:
1)数据增强方式较为简单,在面向复杂的实体类型时无法嵌套实体的数据增强;2)上述方案都是单独的技术提升策略,提升的效果有限;3)少样本学习策略在极少量样本量下达到的效果无法满足真实的工业化场景的需要,而随着标注样本量的增加,少样本学习策略的提升效果逐渐减弱,其策略带来的提升较其他策略,如:数据增强、半监督自训练等,无明显优势。
下面以具体实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。
根据本公开的实施例,本公开提供了一种实体识别模型的训练方法,如图1所示,该方法包括:
S101,对第一训练集进行数据增强,得到增强后的第二训练集。
第一训练集包括已标注样本数据(即已标注了实体的样本数据),已标注样本数据的数量小于第一指定数量。
本公开实施例对第一指定数量的具体数值不作限定,其可以是一个较小的数值,此时,第一训练集为数据量小于第一指定数量的小样本训练集。
可选的,本公开实施例中数据增强可通过同标签字符替换(字/词粒度)、同义词替换、实体级替换、乱序等至少一种方法来实现。
在同标签字符替换过程中,对于样本数据中的每一个字符,可通过二项分布来确定该字符是否需要被替换,若需要被替换,则可从第一训练集中选择相同标签的字符进行替换。
在同义词替换过程中,可根据二项分布随机替换同义词。可实现中文同义词替换的两种方式分别是词林同义词替换和词向量最近邻替换。词林同义词替换即在词林中寻找该词的同义词列表,从中随机挑选一个进行替换,词向量替换是寻找和待替换词的词向量距离相近的词进行替换。
实体级替换,与同义词替换类似,可利用当前训练集中的相同实体类型进行替换,或引用外部实体词表丰富实体种类。对于嵌套实体而言,在进行实体替换过程中,可构建实体对应嵌套内容列表,进而对于嵌套部分的实体一起替换,更适应真实场景的实体特点。
在乱序过程中,按照实体边界来切分句子,然后再对每个切分后的片段进行乱序,具体地,可通过二项分布判断是否需要被乱序(实体片段不会被打乱顺序),若需要被乱序,则打乱实体片段中的字符(字/词粒度)顺序。
本领域技术人员可以理解,本公开实施例中的数据增强还可通过其它方式实现,例如随机删除、随机增加、随机交换等,此处不再一一列举。
通过上述方式可对第一训练集中的已标注样本数据中的实体进行强化,不仅可增加第一训练集的数据量,还可对实体所在的上下文的信息起到一定的丰富作用,增加的样本数据和原始的已标注样本数据可共同作为第二训练集,用于后续处理。
S102,基于第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型。
第一实体识别模型可以是通用的预训练语言模型,也可以是领域内预训练语言模型。
在一种可选的实施方式中,基于第二训练集对第一实体识别模型进行训练之前,还包括:基于指定领域的语料对预训练语言模型进行训练,得到训练后的预训练语言模型(即领域内预训练语言模型),作为第一实体识别模型。领域内预训练语言模型经过对指定领域语料的语义特征的学习,可更好地对指定领域数据的语义特征进行理解和识别。
本公开中实施例中的指定领域可以根据实际需求确定,指定领域可以包括一个领域或多个领域,例如,实际应用场景为医疗领域时,可以基于医疗领域的语料对预训练语言模型进行训练,实际应用场景为医疗领域和金融领域时,可以基于医疗领域和金融领域两个领域的语料对预训练语言模型进行训练。
本公开对预训练语言模型的具体类型不作限定,可以是单向模型、BERT系列模型、XLNet模型等任意类型的模型,可以根据实际选择相应类型。
第二训练集是对第一训练集进行数据增强后得到的,其样本数据的数量较多且上下文信息较丰富,基于第二训练集对第一实体识别模型进行训练,可得到较高的模型,该模型可作为第二实体识别模型。
在一个可选的实施方式中,如图2所示,基于第二训练集对第一实体识别模型进行训练,包括:基于第二训练集对第一实体识别模型进行K折交叉验证(K-fold)训练,得到训练出的K个模型,该K个模型可共同作为第二实体识别模型。K折交叉验证训练可降低模型方差,提高模型的泛化能力。K为整数,其具体数值可根据实际需求确定和调整。
S103,通过第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集。
第三训练集包括未标注样本数据,该未标注样本数据的数量大于或等于第一指定数量。第三训练集中未标注样本数据可从预设的数据库中获取。
可选的,当第二实体识别模型包括K折交叉验证训练得到的K个模型时,对第三训练集的实体标注可通过如下方式实现:确定K个模型中是否存在n个模型共同将未标注样本数据中同一片段判定为某类实体;若存在,则将该片段标注为实体;若不存在,则不进行实体标注。其中,n为不大于K的整数,n的具体数值可根据实际需求确定,在一个示例中,当K为10时,n可以取8。
可选的,在确定K个模型中是否存在n个模型共同将未标注样本数据中同一片段判定为某类实体时,可通过以下方式确定:
若K个模型中存在n个模型满足:n个模型中每个模型输出的该片段为该类实体的预测概率均大于预设的第一概率阈值,或n模型输出的该片段为该类实体的预测概率的平均值大于预设的第一概率阈值,则可确定K个模型中存在n个模型共同将未标注样本数据中该片段判定为该类实体。
通过对第三训练集中的未标注样本数据进行标注,可得到标注后的第四训练集中的样本数据,第四训练集中的样本数据可作为半监督数据在后续步骤中实现半监督训练。
可选的,第三训练集中,至少部分未标注样本数据为指定领域的样本数据。
当第三训练集中包括指定领域的样本数据中,可对其标注得到指定领域的半监督数据,在利于在后续的半监督训练过程中针对指定领域进行训练。
S104,基于第四训练集对第一实体识别模型进行训练,得到训练出的第三实体识别模型。
参照图2,第四训练集可提供了新的实体信息,基于第四训练集可对第一实体识别模型进行半监督训练,进而提升模型的鲁棒性,训练出的模型可作为第三实体识别模型。当第四训练集中包括指定领域的样本数据时,可促进第一实体识别模型对指定领域的样本数据的学习,如此训练出的第三实体识别模型对指定领域的数据的实体标注的准确度更高。当第一实体识别模型为预训练语言模型或领域内预训练语言模型时,训练出的第三实体识别模型可称为持续预训练语言模型,该模型即可作为一种小样本实体识别模型。
根据本公开的实施例,本公开还提供了一种实体识别的训练方法,如图3所示,该方法包括如下步骤S301-S306:
S301,对第一训练集进行数据增强,得到增强后的第二训练集。
S302,基于第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型,然后执行S303和S305。
S303,通过第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集。
S304,基于第四训练集对第一实体识别模型进行训练,得到训练出的第三实体识别模型,然后执行S306。
步骤S301至S304的具体实施方式可参照前述的步骤S101至S104,此处不再赘述。
S305,通过第二实体识别模型对第一训练集进行实体标注,得到标注后的第五训练集。
在实际应用场景中,第一训练集经常会出现标注数据欠缺或者标注不完全的情况,将未标注的样本作为负样本训练模型时,由于负样本中含有正样本,错误的标签会导致模型产生分类错误,通过第二实体识别模型可对第一训练集中的样本数据进行实体标注,可实现对第一训练集中样本数据的补充标注,缓解第一训练集可能存在的标注不完全的情况,补充标注后的样本数据(可称为补标数据或回标数据)作为第五训练集,可用于实现后续的训练,以减少模型的分类错误。
可选的,当第二实体识别模型包括K折交叉验证训练得到的K个模型时,对第一训练集的实体标注可通过如下方式实现:确定K个模型中是否存在n个模型共同将第一训练集的样本数据中同一片段判定为某类实体;若存在,则将该片段标注为实体;若不存在,则不进行实体标注。其中,确定K个模型中是否存在将第一训练集的样本数据中同一片段判定为某类实体的n个模型的具体方式可参照前面的实施例内容,此处不再赘述。
在一种可选的实施方式中,在确定K个模型中是否存在n个模型共同将第一训练集的样本数据中同一片段判定为某类实体之后,还可确定该n个模型对该片段的判定结果与该片段的原始标注是否一致,若该n个模型将该片段判定为某类实体而该片段在原始标注时并未标注为该类实体,则认为该n个模型对该片段的判定结果与该片段的原始标注不一致,否则认为该n个模型对该片段的判定结果与该片段的原始标注一致。
对第一训练集进行实体标注通常为机器标注,机器标注的方式的相对于人工标注的方式往往存在误差,为了避免这种误差对模型的不良影响,在确定n个模型对该片段的判定结果与该片段的原始标注不一致的情况下,可在后续训练中对该片段的位置进行掩码(mask),不对该片段进行损失计算。
上述步骤S305的一个具体示例如图4所示。
S306,基于第五训练集对第三实体识别模型进行迭代训练,得到训练出的第四实体识别模型。
第三实体识别模型是基于半监督数据训练得到的,半监督数据通常为机器标注的结果,机器标注的方式相对于人工标注的方式往往存在误差,为了减小这种误差,基于第五训练集中的补标数据第三实体识别模型进行进一步的训练,以进一步提高模型的精度,迭代训练出的第四实体识别模型可作为一种小样本实体识别模型。
可选的,如图5所示,在步骤S306中,每次迭代训练,包括如下步骤S501-S504:
S501,基于当前的第五训练集对当前的第三实体识别模型进行训练。
基于当前的第五训练集对当前的第三实体识别模型进行训练,可进一步提高第三实体识别模型的精度和可靠性。
S502,通过训练后的第三实体识别模型对第四训练集和经第二实体识别模型标注后的第五训练集进行实体标注。
第四训练集和第五训练集中可能包括全量样本数据,即同时存在已标注样本数据和无标注样本数据,部分已标注样本数据为机器标注的结果,标注的准确性可能无法满足需求,通过训练后的精度较高第三实体识别模型再次对第四训练集和第五训练集进行实体标注,作为一种辅助标注方式,可进一步提升标注的准确性,得到对模型训练更有效的数据。
当第四训练集中包括指定领域的样本数据时,第四训练集参与当前的迭代训练可提升模型对指定领域数据的识别和标注能力。
S503,在经训练后的第三实体识别模型标注后的第四训练集和第五训练集中确定模型难分样本。
模型难分样本为令训练后的第三实体识别模型的区分能力低于预设的区分条件的样本数据。
区分条件可根据实际需求预先设置。在一个示例中,对于标注后的第四训练集或标注后的第五训练集中的某一样本数据,若训练后的第三实体识别模型输出的针对该样本数据的预测概率与第二概率阈值(例如该模型输出的各预测概率的中间值)的差值在小于预设的差值阈值,即训练后的第三实体识别模型输出的针对该样本数据的预测概率比较接近该第二概率阈值,则认为训练后的第三实体识别模型对样本数据的区分能力低于预设的区分条件,该样本数据可作为模型难分样本,否则该样本数据不作为模型难分样本。
可选的,对于令训练后的第三实体识别模型低于预设的区分条件的多个样本数据,可将该多个样本数据全部作为模型难分样本,也可以在该多个样本数据中选择第三实体识别模型最难区分的前m个样本数据作为模型难分样本。
S504,确定模型难分样本的数量是否大于第二指定数量;若是,则执行S505;若否,则结束迭代训练。
S505,将模型难分样本添加到当前的第五训练集中,得到新的第五训练集。
可选的,响应于添加指令,将所述模型难分样本添加到当前的第五训练集中,得到新的第五训练集;该添加指令为对模型难分样本进行人工标注后生成的指令。新的第五训练集可作为下一次迭代训练的起始训练集,即下一次迭代训练的当前的第五训练集。人工标注的准确率通常较高,人工标注后模型难分样本的质量更高,更有利于提高训练精度。
本公开中的第二指定数量可根据实际情况或经验数据设置,例如,对于某个数量T,若根据经验数据可知当模型难分样本的数量小于或等于T时,即使将模型难分样本添加到第五训练集中也无法提升模型的测试效果,则可将该数量T作为第二指定数量。
图6示出了上述迭代训练的一个示例。
根据训练后的第三实体识别模型对样本数据的区别能力,越难区分的样本数据训练价值更高,根据前序步骤可筛选出高质量即训练价值高的模型难分样本,基于高质量的模型难分样本更新当前的第五训练集,可提高第五训练集的样本数据的质量。此外,在小样本的场景中或严重缺乏已标注数据的场景中,将一定数量的模型难分样本添加到当前的第五训练集中,可增加第五训练集中样本数据的总体数量,也可增加第五训练集中已标注样本数据的数量,以克服小样本和严重缺乏已标注数据对模型训练的局限性。
可选的,如图7所示,在步骤S306中,每次迭代训练还包括:
S701,通过训练后的第三实体识别模型对测试集进行实体标注,得到标注效果值,作为第一标注效果值。
训练后的第三实体识别模型可以是步骤501中基于当前的第五训练集对当前的第三实体识别模型进行训练得到的。测试集可根据实际需求预先构建,通过对测试集进行实体标注可实现对真实预测场景的模拟,检验训练后的第三实体识别模型的预测效果。
S702,确定第一标注效果值是否小于第二标注效果值;若是,则结束迭代训练;若否,则继续迭代训练;
第二标注效果值是上一次迭代训练中对测试集进行实体预测得到的标注效果值。在实体应用场景中,第一标注效果值和第二标注效果值均可以是F1值,F1为平衡准确率和召回率的参数。
第一标注效果值小于第二标注效果值,表示相对于上一次迭代训练,本次迭代训练的模型测试效果开始降低,继续训练无法得到精度更高的模型,及时结束迭代训练可保留当前精度较高的模型,避免模型精度下降。
当如图7所示的各步骤与如图5所示的各步骤共存时,本公开实施例对如图7所示的各步骤与如图5所示的步骤S502至S505的顺序不作限定,可同步进行,如图7所示的各步骤也可在S502至S505之前进行。
根据本公开的实施例,本公开还提供了一种实体识别方法,如图8所示,该方法包括如下步骤S801-S802:
S801,获取待标注数据。
S802,通过实体识别模型对待标注数据进行实体标注;实体识别模型是通过本公开任一实施例提供的实体识别模型的训练方法训练出的。
通过本公开任一实施例提供的实体识别模型的训练方法训练出的实体识别模型对待标注数据进行实体标注,其标注的准确率较高。
根据本公开的实施例,本公开还提供了一种实体识别模型的训练装置,如图9所示,该装置包括:数据增强模块901、第一训练模块902、第一标注模块903和第二训练模块904。
数据增强模块901,用于对第一训练集进行数据增强,得到增强后的第二训练集;第一训练集包括已标注样本数据,已标注样本数据的数量小于第一指定数量。
第一训练模块902,用于基于第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型。
第一标注模块903,用于通过第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;第三训练集包括未标注样本数据,未标注样本数据的数量大于或等于第一指定数量。
第二训练模块904,用于基于第四训练集对第一实体识别模型进行训练,得到训练出的第三实体识别模型。
可选的,本公开提供的实体识别模型的训练装置还包括:第三训练模块。
第三训练模块,用于基于指定领域的语料对预训练语言模型进行训练,得到训练后的预训练语言模型,作为第一实体识别模型。
可选的,本公开提供的实体识别模型的训练装置还包括:第二标注模块和第四训练模块。
第二标注模块,用于通过第二实体识别模型对第一训练集进行实体标注,得到标注后的第五训练集。
第四训练模块,用于基于第五训练集对第三实体识别模型进行迭代训练,得到训练出的第四实体识别模型。
可选的,第四训练模块具体用于:在每次迭代训练中,基于当前的第五训练集对当前的第三实体识别模型进行训练;通过训练后的第三实体识别模型对第四训练集和经第二实体识别模型标注后的第五训练集进行实体标注;在经训练后的第三实体识别模型标注后的第四训练集和第五训练集中确定模型难分样本;确定模型难分样本的数量是否大于第二指定数量;在模型难分样本的数量大于第二指定数量的情况下,将模型难分样本添加到当前的第五训练集中,得到新的第五训练集;在模型难分样本的数量小于或等于第二指定数量的情况下,结束迭代训练。模型难分样本为令训练后的第三实体识别模型的区分能力低于预设的区分条件的样本数据。
可选的,在将模型难分样本添加到当前的第五训练集中时,第四训练模块具体用于:响应于添加指令,将模型难分样本添加到当前的第五训练集中,得到新的第五训练集;添加指令为对模型难分样本进行人工标注后生成的指令。
可选的,第四训练模块还用于:通过训练后的第三实体识别模型对测试集进行实体标注,得到标注效果值,作为第一标注效果值;确定第一标注效果值是否小于第二标注效果值;第二标注效果值是上一次迭代训练中对测试集进行实体预测得到的标注效果值;在第一标注效果值小于第二标注效果值的情况下,结束迭代训练。
可选的,至少部分未标注样本数据为指定领域的样本数据。
根据本公开的实施例,本公开还提供了一种实体识别装置,如图10所示,该装置包括:数据获取模块1001和实体标注模块1002。
数据获取模块1001,用于获取待标注数据。
实体标注模块1002,用于通过实体识别模型对待标注数据进行实体标注;实体识别模型是通过本公开任一实施例提供的实体识别模型的训练装置训练出的。
本公开实施例各装置中的模块的功能可以参照上述方法实施例中的对应描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种非瞬时计算机可读存储介质和一种计算机程序产品。
本公开提供的电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例提供的实体识别模型的训练方法或实体识别方法。
本公开提供的非瞬时计算机可读存储介质,存储有计算机指令,该计算机指令用于使计算机执行本公开任一实施例提供的实体识别模型的训练方法或实体识别方法。
本公开提供的计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现本公开任一实施例提供的实体识别模型的训练方法或实体识别方法。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如,在一些实施例中,上述方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时,可以执行上文描述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (14)

1.一种实体识别模型的训练方法,包括:
对第一训练集进行数据增强,得到增强后的第二训练集;所述第一训练集包括已标注样本数据,所述已标注样本数据的数量小于第一指定数量;
基于所述第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;
通过所述第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;所述第三训练集包括未标注样本数据,所述未标注样本数据的数量大于或等于所述第一指定数量;
基于所述第四训练集对所述第一实体识别模型进行训练,得到训练出的第三实体识别模型;
通过所述第二实体识别模型对所述第一训练集进行实体标注,得到标注后的第五训练集;
基于所述第五训练集对所述第三实体识别模型进行迭代训练,得到训练出的第四实体识别模型;
其中,每次迭代训练,包括:
基于当前的第五训练集对当前的第三实体识别模型进行训练;
通过训练后的第三实体识别模型对所述第四训练集和经所述第二实体识别模型标注后的第五训练集进行实体标注;
在经所述训练后的第三实体识别模型标注后的第四训练集和第五训练集中确定模型难分样本;所述模型难分样本为令所述训练后的第三实体识别模型的区分能力低于预设的区分条件的样本数据;
确定所述模型难分样本的数量是否大于第二指定数量;
在所述模型难分样本的数量大于所述第二指定数量的情况下,将所述模型难分样本添加到当前的第五训练集中,得到新的第五训练集;
在所述模型难分样本的数量小于或等于所述第二指定数量的情况下,结束所述迭代训练。
2.根据权利要求1所述的实体识别模型的训练方法,还包括:
基于指定领域的语料对预训练语言模型进行训练,得到训练后的预训练语言模型,作为所述第一实体识别模型。
3.根据权利要求1或2所述的实体识别模型的训练方法,其中,将所述模型难分样本添加到当前的第五训练集中,包括:
响应于添加指令,将所述模型难分样本添加到当前的第五训练集中,得到新的第五训练集;所述添加指令为对所述模型难分样本进行人工标注后生成的指令。
4.根据权利要求1或2所述的实体识别模型的训练方法,每次迭代训练还包括:
通过所述训练后的第三实体识别模型对测试集进行实体标注,得到标注效果值,作为第一标注效果值;
确定所述第一标注效果值是否小于第二标注效果值;所述第二标注效果值是上一次迭代训练中对所述测试集进行实体预测得到的标注效果值;
在所述第一标注效果值小于第二标注效果值的情况下,结束所述迭代训练。
5.根据权利要求1或2所述的实体识别模型的训练方法,其中,至少部分未标注样本数据为指定领域的样本数据。
6.一种实体识别方法,包括:
获取待标注数据;
通过实体识别模型对所述待标注数据进行实体标注;所述实体识别模型是通过权利要求1-5中任一项所述的实体识别模型的训练方法训练出的。
7.一种实体识别模型的训练装置,包括:
数据增强模块,用于对第一训练集进行数据增强,得到增强后的第二训练集;所述第一训练集包括已标注样本数据,所述已标注样本数据的数量小于第一指定数量;
第一训练模块,用于基于所述第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;
第一标注模块,用于通过所述第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;所述第三训练集包括未标注样本数据,所述未标注样本数据的数量大于或等于所述第一指定数量;
第二训练模块,用于基于所述第四训练集对所述第一实体识别模型进行训练,得到训练出的第三实体识别模型;
第二标注模块,用于通过所述第二实体识别模型对所述第一训练集进行实体标注,得到标注后的第五训练集;
第四训练模块,用于基于所述第五训练集对所述第三实体识别模型进行迭代训练,得到训练出的第四实体识别模型,其中,所述第四训练模块具体用于:在每次迭代训练中,基于当前的第五训练集对当前的第三实体识别模型进行训练;通过训练后的第三实体识别模型对所述第四训练集和经所述第二实体识别模型标注后的第五训练集进行实体标注;在经所述训练后的第三实体识别模型标注后的第四训练集和第五训练集中确定模型难分样本;确定所述模型难分样本的数量是否大于第二指定数量;在所述模型难分样本的数量大于所述第二指定数量的情况下,将所述模型难分样本添加到当前的第五训练集中,得到新的第五训练集;在所述模型难分样本的数量小于或等于所述第二指定数量的情况下,结束所述迭代训练;所述模型难分样本为令所述训练后的第三实体识别模型的区分能力低于预设的区分条件的样本数据。
8.根据权利要求7所述的实体识别模型的训练装置,还包括:
第三训练模块,用于基于指定领域的语料对预训练语言模型进行训练,得到训练后的预训练语言模型,作为所述第一实体识别模型。
9.根据权利要求7或8所述的实体识别模型的训练装置,其中,所述第四训练模块具体用于:
响应于添加指令,将所述模型难分样本添加到当前的第五训练集中,得到新的第五训练集;所述添加指令为对所述模型难分样本进行人工标注后生成的指令。
10.根据权利要求7或8所述的实体识别模型的训练装置,其中,所述第四训练模块还用于:
通过所述训练后的第三实体识别模型对测试集进行实体标注,得到标注效果值,作为第一标注效果值;确定所述第一标注效果值是否小于第二标注效果值;所述第二标注效果值是上一次迭代训练中对所述测试集进行实体预测得到的标注效果值;在所述第一标注效果值小于第二标注效果值的情况下,结束所述迭代训练。
11.根据权利要求7或8所述的实体识别模型的训练装置,其中,至少部分未标注样本数据为指定领域的样本数据。
12.一种实体识别装置,包括:
数据获取模块,用于获取待标注数据;
实体标注模块,用于通过实体识别模型对所述待标注数据进行实体标注;所述实体识别模型是通过权利要求7-11中任一项所述的实体识别模型的训练装置训练出的。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:如权利要求1-5中任一项所述的实体识别模型的训练方法,或,如权利要求6所述的实体识别方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行:如权利要求1-5中任一项所述的实体识别模型的训练方法,或,如权利要求6所述的实体识别方法。
CN202111545465.1A 2021-12-16 2021-12-16 实体识别模型的训练方法、实体识别方法及装置 Active CN114218951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111545465.1A CN114218951B (zh) 2021-12-16 2021-12-16 实体识别模型的训练方法、实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111545465.1A CN114218951B (zh) 2021-12-16 2021-12-16 实体识别模型的训练方法、实体识别方法及装置

Publications (2)

Publication Number Publication Date
CN114218951A CN114218951A (zh) 2022-03-22
CN114218951B true CN114218951B (zh) 2023-03-24

Family

ID=80703220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111545465.1A Active CN114218951B (zh) 2021-12-16 2021-12-16 实体识别模型的训练方法、实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN114218951B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116167455B (zh) * 2022-12-27 2023-12-22 北京百度网讯科技有限公司 模型训练及数据去重方法、装置、设备及存储介质
CN116468255B (zh) * 2023-06-15 2023-09-08 国网信通亿力科技有限责任公司 一种配置化主数据管理系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487814A (zh) * 2020-11-27 2021-03-12 北京百度网讯科技有限公司 实体分类模型训练方法、实体分类方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836453B2 (en) * 2015-08-27 2017-12-05 Conduent Business Services, Llc Document-specific gazetteers for named entity recognition
CN111382572B (zh) * 2020-03-03 2023-10-03 北京香侬慧语科技有限责任公司 一种命名实体识别方法、装置、设备以及介质
CN111553164A (zh) * 2020-04-29 2020-08-18 平安科技(深圳)有限公司 命名实体识别模型的训练方法、装置、计算机设备
CN111783981A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 模型训练方法、装置、电子设备及可读存储介质
CN112347769B (zh) * 2020-10-30 2024-01-23 北京百度网讯科技有限公司 实体识别模型的生成方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487814A (zh) * 2020-11-27 2021-03-12 北京百度网讯科技有限公司 实体分类模型训练方法、实体分类方法、装置及电子设备

Also Published As

Publication number Publication date
CN114218951A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
US20230142217A1 (en) Model Training Method, Electronic Device, And Storage Medium
CN114218951B (zh) 实体识别模型的训练方法、实体识别方法及装置
US20240211692A1 (en) Method of training ranking model, and electronic device
CN113836925B (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN112925883B (zh) 搜索请求处理方法、装置、电子设备及可读存储介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN113407610B (zh) 信息抽取方法、装置、电子设备和可读存储介质
CN114299194A (zh) 图像生成模型的训练方法、图像生成方法及装置
CN113902009A (zh) 一种简历分析方法、装置、电子设备、介质及产品
CN112926308A (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN114218940B (zh) 文本信息处理、模型训练方法、装置、设备及存储介质
CN114399772B (zh) 样本生成、模型训练和轨迹识别方法、装置、设备和介质
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN115186163B (zh) 搜索结果排序模型的训练与搜索结果排序方法、装置
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN113051396B (zh) 文档的分类识别方法、装置和电子设备
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
CN114417862A (zh) 文本匹配方法、文本匹配模型的训练方法和装置
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN114969371A (zh) 一种联合知识图谱的热度排序方法及装置
CN114328855A (zh) 文档查询方法、装置、电子设备和可读存储介质
CN113553410A (zh) 长文档处理方法、处理装置、电子设备和存储介质
CN114492370A (zh) 网页识别方法、装置、电子设备和介质
CN116069914B (zh) 训练数据的生成方法、模型训练方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant