CN113516196A - 命名实体识别数据增强的方法、装置、电子设备和介质 - Google Patents

命名实体识别数据增强的方法、装置、电子设备和介质 Download PDF

Info

Publication number
CN113516196A
CN113516196A CN202110820558.4A CN202110820558A CN113516196A CN 113516196 A CN113516196 A CN 113516196A CN 202110820558 A CN202110820558 A CN 202110820558A CN 113516196 A CN113516196 A CN 113516196A
Authority
CN
China
Prior art keywords
data set
data
cluster
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110820558.4A
Other languages
English (en)
Other versions
CN113516196B (zh
Inventor
单波
罗杰
魏文轩
徐森
何亮
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Unisound Intelligent Technology Co Ltd
State Grid Xinjiang Electric Power Co Ltd
Original Assignee
Xinjiang University
Unisound Intelligent Technology Co Ltd
State Grid Xinjiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University, Unisound Intelligent Technology Co Ltd, State Grid Xinjiang Electric Power Co Ltd filed Critical Xinjiang University
Priority to CN202110820558.4A priority Critical patent/CN113516196B/zh
Publication of CN113516196A publication Critical patent/CN113516196A/zh
Application granted granted Critical
Publication of CN113516196B publication Critical patent/CN113516196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及命名实体识别数据增强的方法、装置、电子设备和介质,该方法包括:获取第一数据集,将第一数据集进行扩充得到扩充数据集,将扩充数据集分为第一份扩充数据集和第二份扩充数据集;将第一份扩充数据集输入到BERT模型中得到句向量数据集;对句向量数据集聚类得到聚类结果;对聚类结果对抗训练确定簇数据集;使用GPT模型微调簇数据集得到第二数据集;使用第二数据集训练GPT模型得到预测模型;将第二份扩充数据集输入到预测模型中得到预测结果数据集;将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字,确定第三数据集;将第三数据集与第一数据集合并得到最终的数据集。本申请实施例采用数据增强的方式可以减小所需要的数据量。

Description

命名实体识别数据增强的方法、装置、电子设备和介质
技术领域
本发明涉及命名实体识别数据技术领域,具体涉及一种命名实体识别数据增强的方法、装置、电子设备和介质。
背景技术
目前,命名实体识别任务难度较大,一般来讲,需要的数据量相对较大,才能能达到实际上线标准。在对命名实体识别任务的数据进行标注时,标注难度较大,成本比较高。现在技术在数据量较小的情况下,会出现指标较差的问题。
发明内容
本发明提供一种命名实体识别数据增强的方法、装置、电子设备和存储介质,能够解决上述技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明实施例提供了一种命名实体识别数据增强的方法,包括:
获取第一数据集,第一数据集包括:文字样本和文字样本对应的实体标签;
将第一数据集进行扩充得到扩充数据集,将扩充数据集分为第一份扩充数据集和第二份扩充数据集;
将第一份扩充数据集输入到预训练BERT模型中得到句向量数据集;
对句向量数据集进行聚类得到聚类结果;
对聚类结果进行对抗训练确定簇数据集;
使用预训练模型GPT微调簇数据集得到第二数据集;
使用第二数据集训练预训练模型GPT得到预测模型;
将第二份扩充数据集输入到预测模型中得到预测结果数据集;
将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字,同时生成文字对应的实体标签,文字和实体标签组成第三数据集;
将第三数据集与第一数据集进行合并得到最终的数据集。
在一些实施例中,上述一种命名实体识别数据增强的方法中,将第一数据集进行扩充得到扩充数据集,包括:
确定第一数据集中的实体词典;
从第一数据集中抽取预设比例的数据集得到第四数据集,将实体词典中的实体词进行同类型替换到第四数据集中得到第五数据集,
合并第一数据集和第五数据集得到第六数据集;
将第六数据集中的实体词替换为标签得到扩充数据集;
将扩充数据集分为两份扩充数据集得到第一份扩充数据集和第二份扩充数据集。
在一些实施例中,上述一种命名实体识别数据增强的方法中,对聚类结果进行对抗训练确定簇数据集,包括:
步骤一:从聚类结果随机选取两个簇得到第一簇和第二簇;
步骤二:从第一簇中抽取第一样本数据,从第二簇中抽取第二样本数据;第一样本数据和第二样本数据组成样本对数据;
重复上述步骤一和步骤二直到数据量满足预定值得到簇数据集。
在一些实施例中,上述一种命名实体识别数据增强的方法中,使用预训练模型GPT微调簇数据集得到第二数据集,包括:
步骤一:获取簇数据集中的文字的字向量从而得到字向量数据集;
步骤二:对字向量数据集以此进行前向计算、损失计算、梯度计算得到变换后的字向量数据集;
重复上述步骤一和步骤二直到簇数据集中的每一条数据都进行了步骤一和步骤二得到第二数据集。
在一些实施例中,上述一种命名实体识别数据增强的方法中,对句向量数据集进行聚类得到聚类结果,包括:
使用kmeans算法对于句向量数据集中的数据进行聚类。
在一些实施例中,上述一种命名实体识别数据增强的方法中,获取簇数据集中的文字的字向量,包括:
通过预训练模型GPT的embedding模块获取得到文字的字向量。
在一些实施例中,上述一种命名实体识别数据增强的方法中,将第一份扩充数据集输入到预训练BERT模型中得到句向量数据集,包括:
通过预训练BERT模型的参数和前向计算确定句向量数据集。
第二方面,本发明实施例提供了一种命名实体识别数据增强的装置,包括:
获取模块:用于获取第一数据集,第一数据集包括:文字样本和文字样本对应的实体标签;
扩充模块:用于将第一数据集进行扩充得到扩充数据集,将扩充数据集分为第一份扩充数据集和第二份扩充数据集;
第一输入模块:用于将第一份扩充数据集输入到预训练BERT模型中得到句向量数据集;
聚类模块:用于对句向量数据集进行聚类得到聚类结果;
确定模块:用于对聚类结果进行对抗训练确定簇数据集;
微调模块:用于使用预训练模型GPT微调簇数据集得到第二数据集;
训练模块:用于使用第二数据集训练GPT模型得到预测模型;
第二输入模块:将第二份扩充数据集输入到预测模型中得到预测结果数据集;
替换模块:用于将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字,同时生成文字对应的实体标签,文字和实体标签组成第三数据集;
合并模块:用于将第三数据集与第一数据集进行合并得到最终的数据集。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种命名实体识别数据增强的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种命名实体识别数据增强的方法。
本发明的有益效果是:获取第一数据集,将第一数据集进行扩充得到扩充数据集,将扩充数据集分为第一份扩充数据集和第二份扩充数据集;将第一份扩充数据集输入到BERT模型中得到句向量数据集;对句向量数据集聚类得到聚类结果;对聚类结果对抗训练确定簇数据集;使用GPT模型微调簇数据集得到第二数据集;使用第二数据集训练GPT模型得到预测模型;将第二份扩充数据集输入到预测模型中得到预测结果数据集;将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字,确定第三数据集;将第三数据集与第一数据集合并得到最终的数据集。本申请实施例采用数据增强的方式可以减小所需要的数据量。
附图说明
图1为本发明实施例提供的一种命名实体识别数据增强的方法图一;
图2为本发明实施例提供的一种命名实体识别数据增强的方法图二;
图3为本发明实施例提供的一种命名实体识别数据增强装置图;
图4为本发明实施例提供的一种电子设备的示意性框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
图1为本发明实施例提供的一种命名实体识别数据增强的方法图一。
第一方面,本发明实施例提供了一种命名实体识别数据增强的方法,包括:
S101:获取第一数据集,第一数据集包括:文字样本和文字样本对应的实体标签;
具体的,本申请实施例中,第一数据集是标注好的数据集
Figure BDA0003171777340000051
Figure BDA0003171777340000052
其中Xi表示一条文字样本,Yi表示Xi样本对应的实体标签,
Figure BDA0003171777340000053
分别表示一个字,与这个字对应的实体标签。
S102:将第一数据集进行扩充得到扩充数据集,将扩充数据集分为第一份扩充数据集和第二份扩充数据集;
具体的,本申请实施例中,将第一数据集DATA进行扩充得到扩充数据集DATAreplace的步骤下文将结合步骤S201到S205详细介绍,将扩充数据集DATAreplace,均分为两份数据集得到第一份扩充数据集DATAsub1和第二份扩充数据集DATAsub2
S103:将第一份扩充数据集输入到预训练BERT模型中得到句向量数据集;
具体的,本申请实施例中,将第一份扩充数据集DATAsub1中的数据作为预训练BERT模型的输入,输出扩充数据集DATAsub1中每一条数据的句向量的表示,得到句向量数据集DATAvec
S104:对句向量数据集进行聚类得到聚类结果;
具体的,本申请实施例中,输入是句向量数据集DATAvec,得到聚类结果簇划分Ckmeans={C1,C2,...Ck},
Figure BDA0003171777340000061
通过聚类方法使得表达相同的句式聚类为一个簇,不同簇之间的表达差别较大。
S105:对聚类结果进行对抗训练确定簇数据集;
具体的,本申请实施例中,对聚类结果进行对抗训练让不同簇之间的数据组成句对确定簇数据集DATAcluster
S106:使用预训练模型GPT微调簇数据集得到第二数据集;
具体的,本申请实施例中,使用预训练模型GPT微调簇数据集DATAcluster得到第二数据集DATAadv
S107:使用第二数据集训练预训练模型GPT得到预测模型;
具体的,本申请实施例中,使用第二数据集DATAadv训练预训练模型GPT得到预测模型model.
S108:将第二份扩充数据集输入到预测模型中得到预测结果数据集;
具体的,本申请实施例中,第二份扩充数据集DATAsub2中数据作为输入,使用模型model进行预测,得到的预测结果数据集
Figure BDA0003171777340000062
S109:将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字,同时生成文字对应的实体标签,文字和实体标签组成第三数据集;
具体的,本申请实施例中对于预测结果数据集DATApred中的每一条数据进行替换操作,因为训练数据中,出现了大量的命名实体标签通配符,因此生成的Ypred中的通配符根据词典Dict替换为文字,同时通过规则生成标签。比如。Ypred=(我想去<city>),假如词典Dict中city命名实体的内容包括了上海,深圳等,则将Ypred=(我想去<city>),替换为(Xgen=[我想去上海],Ygen=[O O O B-CITY I-CITY],得到第三数据集DATAgen
S110:将第三数据集与第一数据集进行合并得到最终的数据集。
具体的,本申请实施例中,将第三数据集DATAgen和第一数据集DATA合并得到最终的数据集。
本申请通过聚类方法使得表达相同的句式聚类为一个簇,不同簇之间的表达差别较大,再让不同簇之间的数据组成句对,作为生成模型的训练数据,同时使用了生成式预训练模型GPT,并且在训练的过程是使用了对抗训练的方式。这样可以保证生成模型的生成结果与输入数据的差异性较大,极大的保证了扩充数据的多样性,保证了生成数据的质量,得到了生成高质量扩充数据的目的。
图2为本发明实施例提供的一种命名实体识别数据增强的方法图二;
在一些实施例中,上述一种命名实体识别数据增强的方法中,将第一数据集进行扩充得到扩充数据集,包括:
S201:确定第一数据集中的实体词典;
S202:从第一数据集中抽取预设比例的数据集得到第四数据集,将实体词典中的实体词进行同类型替换到第四数据集中得到第五数据集,
S203:合并第一数据集和第五数据集得到第六数据集;
S204:将第六数据集中的实体词替换为标签得到扩充数据集;
S205:将扩充数据集分为两份扩充数据集得到第一份扩充数据集和第二份扩充数据集。
具体的,本申请实施例中,整理第一数据集DATA中出现的实体词典Dict,随机从第一数据集DATA抽取预设比例如15%的数据得到第四数据集,对于第四数据集中的样本(Xi,Yi)中的标签不为“O”的实体根据实体词典进行同类型实体词的随机替换得到第五数据集,并将第五数据集合并到第一数据集DATA中,将第一数据集DATA中的数据每一条数据(Xi,Yi)进行转换:将其中有标签的原始文字替换为标签。比如X=[我要去北京],Y=[O O O B-CITY I-CITY],将X替换为Xnew=[我要去<CITY>],替换后得到的Xnew组成扩充数据集DATAreplace
在一些实施例中,上述一种命名实体识别数据增强的方法中,对聚类结果进行对抗训练确定簇数据集,包括:
步骤一:从聚类结果随机选取两个簇得到第一簇和第二簇;
步骤二:从第一簇中抽取第一样本数据,从第二簇中抽取第二样本数据;第一样本数据和第二样本数据组成样本对数据;
重复上述步骤一和步骤二直到数据量满足预定值得到簇数据集。
具体的,本申请实施例从聚类结果Ckmeans随机选取两个簇Ci,Cj,从Ci,Cj中分别随机抽取一个样本的数据得到样本对数据
Figure BDA0003171777340000081
重复上述步骤,直到数据量满足预定值,根据第一数据集规模大小而定,一般为第一数据集大小的2-4倍,得到簇数据集DATAcluster
在一些实施例中,上述一种命名实体识别数据增强的方法中,使用预训练模型GPT微调簇数据集得到第二数据集,包括:
步骤一:获取簇数据集中的文字的字向量从而得到字向量数据集;
步骤二:对字向量数据集以此进行前向计算、损失计算、梯度计算得到变换后的字向量数据集;
重复上述步骤一和步骤二直到簇数据集中的每一条数据都进行了步骤一和步骤二得到第二数据集。
具体的,本申请实施例针对DATAcluster中的每一条数据(Xi,Yi),通过GPT模型的embedding模块获取得到Xi的文字的字向量
Figure BDA0003171777340000091
Figure BDA0003171777340000092
其中,embedding_table表示通过GPT模型的embedding模块得到字向量
Figure BDA0003171777340000093
得到字向量数据集
Figure BDA0003171777340000094
针对字向量数据集
Figure BDA0003171777340000095
使用GPT模型进行前向计算得到结果
Figure BDA0003171777340000096
Figure BDA0003171777340000097
其中,θgpt为GPT模型的参数;
Figure BDA0003171777340000098
该公式表示针对输入数据
Figure BDA0003171777340000099
以及对应的预测结果
Figure BDA00031717773400000910
求得的损失loss。
Figure BDA00031717773400000911
该公式表示loss对输入数据
Figure BDA00031717773400000912
求导求得到的梯度;
Figure BDA00031717773400000913
其中,ε为0-1之间的一个参数,sign(grad)函数为求符号函数。当grad大于0时,sign(grad)=1;当grad小于0时,sign(grad)=-1。得到变换后的
Figure BDA00031717773400000914
得到变换后的字向量数据集
Figure BDA00031717773400000915
重复上述步骤,直到簇数据集DATAcluster中的每一条数据都进行了上述步骤。得到第二数据集
Figure BDA00031717773400000916
在一些实施例中,上述一种命名实体识别数据增强的方法中,对句向量数据集进行聚类得到聚类结果,包括:
使用kmeans算法对于句向量数据集中的数据进行聚类。
具体的,本申请实施例中输入句向量数据集DATAvec,输出簇划分Ckmeans={C1,C2,...Ck},
Figure BDA0003171777340000101
聚类的结果输出中,只包含了文字样本,不包含句向量,聚类簇个数为根据经验灵活设置。
在一些实施例中,上述一种命名实体识别数据增强的方法中,获取簇数据集中的文字的字向量,包括:
通过预训练模型GPT的embedding模块获取得到文字的字向量。
具体的,本申请实施例通过预训练模型GPT的embedding模块获取得到Xi的中文字的字向量
Figure BDA0003171777340000102
Figure BDA0003171777340000103
在一些实施例中,上述一种命名实体识别数据增强的方法中,将第一份扩充数据集输入到预训练BERT模型中得到句向量数据集,包括:
通过预训练BERT模型的参数和前向计算确定句向量数据集。
具体的,本申请实施例中将第一份扩充数据集DATAsub1中的数据作为输入,使用预训练BERT模型得到每一条数据的句向量的表示,
Figure BDA0003171777340000104
θ为BERT模型的参数,
Figure BDA0003171777340000105
表示对于样本
Figure BDA0003171777340000106
通过前向计算,得到输出,即句向量veci,得到句向量数据集DATAvec,即
Figure BDA0003171777340000107
图3为本发明实施例提供的一种命名实体识别数据增强装置图。
第二方面,结合图3,本发明实施例提供了一种命名实体识别数据增强的装置,包括:
获取模块301:用于获取第一数据集,第一数据集包括:文字样本和文字样本对应的实体标签;
具体的,本申请实施例中,获取模块301获取第一数据集,第一数据集是标注好的数据集
Figure BDA0003171777340000111
其中Xi表示一条文字样本,Yi表示Xi样本对应的实体标签,
Figure BDA0003171777340000112
分别表示一个字,与这个字对应的实体标签。
扩充模块302:用于将第一数据集进行扩充得到扩充数据集,将扩充数据集分为第一份扩充数据集和第二份扩充数据集;
具体的,本申请实施例中,扩充模块302将第一数据集DATA进行扩充得到扩充数据集DATAreplace,将扩充数据集DATAreplace均分为两份数据集得到第一份扩充数据集DATAsub1和第二份扩充数据集DATAsub2
第一输入模块303:用于将第一份扩充数据集输入到预训练BERT模型中得到句向量数据集;
具体的,本申请实施例中,第一输入模块303将第一份扩充数据集DATAsub1中的数据作为预训练BERT模型的输入,输出扩充数据集DATAsub1中每一条数据的句向量的表示,得到句向量数据集DATAvec
聚类模块304:用于对句向量数据集进行聚类得到聚类结果;
具体的,本申请实施例中,聚类模块304输入是句向量数据集DATAvec,得到聚类结果簇划分Ckmeans={C1,C2,...Ck},
Figure BDA0003171777340000113
通过聚类方法使得表达相同的句式聚类为一个簇,不同簇之间的表达差别较大。
确定模块305:用于对聚类结果进行对抗训练确定簇数据集;
具体的,本申请实施例中,确定模块305对聚类结果进行对抗训练让不同簇之间的数据组成句对确定簇数据集DATAcluster
微调模块306:用于使用预训练模型GPT微调簇数据集得到第二数据集;
具体的,本申请实施例中,微调模块306使用预训练模型GPT微调簇数据集DATAcluster得到第二数据集DATAadv
训练模块307:用于使用第二数据集训练GPT模型得到预测模型;
具体的,本申请实施例中,训练模块307使用第二数据集DATAadv训练预训练模型GPT得到预测模型model。
第二输入模块308:将第二份扩充数据集输入到预测模型中得到预测结果数据集;
具体的,本申请实施例中,第二输入模块308将第二份扩充数据集DATAsub2中数据作为输入,使用模型model进行预测,得到的预测结果数据集
Figure BDA0003171777340000121
替换模块309:用于将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字,同时生成文字对应的实体标签,文字和实体标签组成第三数据集;
具体的,本申请实施例中替换模块309将预测结果数据集DATApred中的每一条数据进行替换操作,因为训练数据中,出现了大量的命名实体标签通配符,因此生成的Ypred中的通配符根据词典Dict替换为文字,同时通过规则生成标签。比如:Ypred=(我想去<city>),假如词典Dict中city命名实体的内容包括了上海,深圳等,则将Ypred=(我想去<city>),替换为(Xgen=[我想去上海],Ygen=[O O O B-CITY I-CITY],得到第三数据集DATAgen
合并模块310:用于将第三数据集与第一数据集进行合并得到最终的数据集。
具体的,本申请实施例中,合并模块310将第三数据集DATAgen和第一数据集DATA合并得到最终的数据集。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种命名实体识别数据增强的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种命名实体识别数据增强的方法。
图4是本公开实施例提供的一种电子设备的示意性框图。
如图4所示,电子设备包括:至少一个处理器401、至少一个存储器402和至少一个通信接口403。电子设备中的各个组件通过总线系统404耦合在一起。通信接口403,用于与外部设备之间的信息传输。可理解,总线系统404用于实现这些组件之间的连接通信。总线系统304除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图4中将各种总线都标为总线系统404。
可以理解,本实施例中的存储器402可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器402存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例提供的一种命名实体识别数据增强的方法中任一方法的程序可以包含在应用程序中。
在本申请实施例中,处理器401通过调用存储器402存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器401用于执行本申请实施例提供的一种命名实体识别数据增强的方法各实施例的步骤。
获取第一数据集,第一数据集包括:文字样本和文字样本对应的实体标签;
将第一数据集进行扩充得到扩充数据集,将扩充数据集分为第一份扩充数据集和第二份扩充数据集;
将第一份扩充数据集输入到预训练BERT模型中得到句向量数据集;
对句向量数据集进行聚类得到聚类结果;
对聚类结果进行对抗训练确定簇数据集;
使用预训练模型GPT微调簇数据集得到第二数据集;
使用第二数据集训练预训练模型GPT得到预测模型;
将第二份扩充数据集输入到预测模型中得到预测结果数据集;
将预测结果数据集中的命名实体标签通配符替换为实体词典中的文字,同时生成文字对应的实体标签,文字和实体标签组成第三数据集;
将第三数据集与第一数据集进行合并得到最终的数据集。
本申请实施例提供的一种命名实体识别数据增强的方法中任一方法可以应用于处理器401中,或者由处理器401实现。处理器401可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例提供的一种命名实体识别数据增强的方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成一种命名实体识别数据增强的方法的步骤。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种命名实体识别数据增强的方法,其特征在于,包括:
获取第一数据集,所述第一数据集包括:文字样本和文字样本对应的实体标签;
将所述第一数据集进行扩充得到扩充数据集,将所述扩充数据集分为第一份扩充数据集和第二份扩充数据集;
将所述第一份扩充数据集输入到预训练BERT模型中得到句向量数据集;
对所述句向量数据集进行聚类得到聚类结果;
对所述聚类结果进行对抗训练确定簇数据集;
使用预训练模型GPT微调所述簇数据集得到第二数据集;
使用所述第二数据集训练预训练模型GPT得到预测模型;
将所述第二份扩充数据集输入到所述预测模型中得到预测结果数据集;
将所述预测结果数据集中的命名实体标签通配符替换为实体词典中的文字,同时生成文字对应的实体标签,所述文字和实体标签组成第三数据集;
将所述第三数据集与所述第一数据集进行合并得到最终的数据集。
2.根据权利要求1所述的一种命名实体识别数据增强的方法,其特征在于,所述将所述第一数据集进行扩充得到扩充数据集,包括:
确定所述第一数据集中的实体词典;
从所述第一数据集中抽取预设比例的数据集得到第四数据集,将所述实体词典中的实体词进行同类型替换到所述第四数据集中得到第五数据集,
合并所述第一数据集和所述第五数据集得到第六数据集;
将所述第六数据集中的实体词替换为标签得到扩充数据集;
将所述扩充数据集分为两份扩充数据集得到第一份扩充数据集和第二份扩充数据集。
3.根据权利要求1所述的一种命名实体识别数据增强的方法,其特征在于,所述对所述聚类结果进行对抗训练确定簇数据集,包括:
步骤一:从所述聚类结果随机选取两个簇得到第一簇和第二簇;
步骤二:从所述第一簇中抽取第一样本数据,从所述第二簇中抽取第二样本数据;所述第一样本数据和第二样本数据组成样本对数据;
重复上述步骤一和步骤二直到数据量满足预定值得到簇数据集。
4.根据权利要求1所述的一种命名实体识别数据增强的方法,其特征在于,所述使用预训练模型GPT微调所述簇数据集得到第二数据集,包括:
步骤一:获取所述簇数据集中的文字的字向量从而得到字向量数据集;
步骤二:对所述字向量数据集以此进行前向计算、损失计算、梯度计算得到变换后的字向量数据集;
重复上述步骤一和步骤二直到所述簇数据集中的每一条数据都进行了所述步骤一和所述步骤二得到第二数据集。
5.根据权利要求1所述的一种命名实体识别数据增强的方法,其特征在于,所述对所述句向量数据集进行聚类得到聚类结果,包括:
使用kmeans算法对于所述句向量数据集中的数据进行聚类。
6.根据权利要求4所述的一种命名实体识别数据增强的方法,其特征在于,所述获取所述簇数据集中的文字的字向量,包括:
通过所述预训练模型GPT的embedding模块获取得到文字的字向量。
7.根据权利要求4所述的一种命名实体识别数据增强的方法,其特征在于,将所述第一份扩充数据集输入到预训练BERT模型中得到句向量数据集,包括:
通过所述预训练BERT模型的参数和前向计算确定句向量数据集。
8.一种命名实体识别数据增强的装置,其特征在于,包括:
获取模块:用于获取第一数据集,所述第一数据集包括:文字样本和文字样本对应的实体标签;
扩充模块:用于将所述第一数据集进行扩充得到扩充数据集,将所述扩充数据集分为第一份扩充数据集和第二份扩充数据集;
第一输入模块:用于将所述第一份扩充数据集输入到预训练BERT模型中得到句向量数据集;
聚类模块:用于对所述句向量数据集进行聚类得到聚类结果;
确定模块:用于对所述聚类结果进行对抗训练确定簇数据集;
微调模块:用于使用预训练模型GPT微调所述簇数据集得到第二数据集;
训练模块:用于使用所述第二数据集训练GPT模型得到预测模型;
第二输入模块:将所述第二份扩充数据集输入到所述预测模型中得到预测结果数据集;
替换模块:用于将所述预测结果数据集中的命名实体标签通配符替换为实体词典中的文字,同时生成文字对应的实体标签,所述文字和实体标签组成第三数据集;
合并模块:用于将所述第三数据集与所述第一数据集进行合并得到最终的数据集。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述一种命名实体识别数据增强的方法。
10.一种计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述一种命名实体识别数据增强的方法。
CN202110820558.4A 2021-07-20 2021-07-20 命名实体识别数据增强的方法、装置、电子设备和介质 Active CN113516196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110820558.4A CN113516196B (zh) 2021-07-20 2021-07-20 命名实体识别数据增强的方法、装置、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110820558.4A CN113516196B (zh) 2021-07-20 2021-07-20 命名实体识别数据增强的方法、装置、电子设备和介质

Publications (2)

Publication Number Publication Date
CN113516196A true CN113516196A (zh) 2021-10-19
CN113516196B CN113516196B (zh) 2024-04-12

Family

ID=78068576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110820558.4A Active CN113516196B (zh) 2021-07-20 2021-07-20 命名实体识别数据增强的方法、装置、电子设备和介质

Country Status (1)

Country Link
CN (1) CN113516196B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881035A (zh) * 2022-05-13 2022-08-09 平安科技(深圳)有限公司 训练数据的增广方法、装置、设备和存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286629A1 (en) * 2014-04-08 2015-10-08 Microsoft Corporation Named entity recognition
CN110795945A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN110956042A (zh) * 2019-12-16 2020-04-03 中国电子科技集团公司信息科学研究院 嵌套命名实体识别方法及系统、电子设备及可读介质
WO2020118741A1 (en) * 2018-12-13 2020-06-18 Hong Kong Applied Science and Technology Research Institute Company Limited Efficient and accurate named entity recognition method and apparatus
CN111666751A (zh) * 2020-06-04 2020-09-15 北京百度网讯科技有限公司 训练文本扩充方法、装置、设备以及存储介质
CN111738003A (zh) * 2020-06-15 2020-10-02 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质
CN111738007A (zh) * 2020-07-03 2020-10-02 北京邮电大学 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111738004A (zh) * 2020-06-16 2020-10-02 中国科学院计算技术研究所 一种命名实体识别模型的训练方法及命名实体识别的方法
US20200342172A1 (en) * 2019-04-26 2020-10-29 Wangsu Science & Technology Co., Ltd. Method and apparatus for tagging text based on adversarial learning
CN112084337A (zh) * 2020-09-17 2020-12-15 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法及设备
US20210035556A1 (en) * 2019-08-02 2021-02-04 Babylon Partners Limited Fine-tuning language models for supervised learning tasks via dataset preprocessing
WO2021068329A1 (zh) * 2019-10-10 2021-04-15 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
CN112668335A (zh) * 2020-12-21 2021-04-16 广州市申迪计算机系统有限公司 一种利用命名实体识别提取营业执照结构化信息的方法
WO2021072852A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 序列标注方法、系统和计算机设备
CN112711660A (zh) * 2020-12-29 2021-04-27 易方达基金管理有限公司 文本分类样本的构建方法和文本分类模型的训练方法
CN112765359A (zh) * 2021-04-07 2021-05-07 成都数联铭品科技有限公司 一种基于少样本的文本分类方法
CN112818691A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 命名实体识别模型训练方法及装置
WO2021135446A1 (zh) * 2020-06-19 2021-07-08 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286629A1 (en) * 2014-04-08 2015-10-08 Microsoft Corporation Named entity recognition
WO2020118741A1 (en) * 2018-12-13 2020-06-18 Hong Kong Applied Science and Technology Research Institute Company Limited Efficient and accurate named entity recognition method and apparatus
US20200342172A1 (en) * 2019-04-26 2020-10-29 Wangsu Science & Technology Co., Ltd. Method and apparatus for tagging text based on adversarial learning
US20210035556A1 (en) * 2019-08-02 2021-02-04 Babylon Partners Limited Fine-tuning language models for supervised learning tasks via dataset preprocessing
WO2021068329A1 (zh) * 2019-10-10 2021-04-15 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
WO2021072852A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 序列标注方法、系统和计算机设备
CN110795945A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN110956042A (zh) * 2019-12-16 2020-04-03 中国电子科技集团公司信息科学研究院 嵌套命名实体识别方法及系统、电子设备及可读介质
CN111666751A (zh) * 2020-06-04 2020-09-15 北京百度网讯科技有限公司 训练文本扩充方法、装置、设备以及存储介质
CN111738003A (zh) * 2020-06-15 2020-10-02 中国科学院计算技术研究所 命名实体识别模型训练方法、命名实体识别方法和介质
CN111738004A (zh) * 2020-06-16 2020-10-02 中国科学院计算技术研究所 一种命名实体识别模型的训练方法及命名实体识别的方法
WO2021135446A1 (zh) * 2020-06-19 2021-07-08 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN111738007A (zh) * 2020-07-03 2020-10-02 北京邮电大学 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN112084337A (zh) * 2020-09-17 2020-12-15 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法及设备
CN112668335A (zh) * 2020-12-21 2021-04-16 广州市申迪计算机系统有限公司 一种利用命名实体识别提取营业执照结构化信息的方法
CN112711660A (zh) * 2020-12-29 2021-04-27 易方达基金管理有限公司 文本分类样本的构建方法和文本分类模型的训练方法
CN112818691A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 命名实体识别模型训练方法及装置
CN112765359A (zh) * 2021-04-07 2021-05-07 成都数联铭品科技有限公司 一种基于少样本的文本分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
余同瑞 等: "自然语言处理预训练模型的研究综述", 计算机工程与应用, no. 23 *
李舟军 等: "面向自然语言处理的预训练技术研究综述", 计算机科学, no. 3 *
焦凯楠: "中文领域命名实体识别综述", 计算机工程与应用, no. 16 *
罗枭: "基于深度学习的自然语言处理研究综述", 智能计算机与应用, vol. 10, no. 4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881035A (zh) * 2022-05-13 2022-08-09 平安科技(深圳)有限公司 训练数据的增广方法、装置、设备和存储介质
CN114881035B (zh) * 2022-05-13 2023-07-25 平安科技(深圳)有限公司 训练数据的增广方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113516196B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN112466314A (zh) 情感语音数据转换方法、装置、计算机设备及存储介质
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
CN111274797A (zh) 用于终端的意图识别方法、装置、设备及存储介质
CN112084752B (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN110704547A (zh) 基于神经网络的关系抽取数据生成方法、模型及训练方法
Ng et al. De’hubert: Disentangling noise in a self-supervised model for robust speech recognition
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN111125356A (zh) 一种文本分类方法及系统
CN110211562A (zh) 一种语音合成的方法、电子设备及可读存储介质
CN113190675A (zh) 文本摘要生成方法、装置、计算机设备和存储介质
CN112380348A (zh) 元数据处理方法、装置、电子设备及计算机可读存储介质
CN113076749A (zh) 一种文本识别方法和系统
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
CN113516196A (zh) 命名实体识别数据增强的方法、装置、电子设备和介质
CN113220828B (zh) 意图识别模型处理方法、装置、计算机设备及存储介质
CN114970470B (zh) 文案信息处理方法、装置、电子设备和计算机可读介质
CN113886520B (zh) 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质
CN113553844B (zh) 一种基于前缀树特征与卷积神经网络的领域识别方法
CN113094482B (zh) 轻量化语义智能服务适配训练演化方法及系统
CN112131384A (zh) 新闻分类方法、计算机可读存储介质
CN113011180A (zh) 一种基于描述关键词抽取的缺陷报告严重程度预测方法
CN115512374A (zh) 针对表格文本的深度学习特征提取分类方法及装置
CN116821724B (zh) 多媒体处理网络生成方法、多媒体处理方法及装置
He et al. HybridHash: Hybrid Convolutional and Self-Attention Deep Hashing for Image Retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant