CN110442859B - 标注语料生成方法、装置、设备及存储介质 - Google Patents

标注语料生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110442859B
CN110442859B CN201910579961.5A CN201910579961A CN110442859B CN 110442859 B CN110442859 B CN 110442859B CN 201910579961 A CN201910579961 A CN 201910579961A CN 110442859 B CN110442859 B CN 110442859B
Authority
CN
China
Prior art keywords
elements
labeling
data set
original data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910579961.5A
Other languages
English (en)
Other versions
CN110442859A (zh
Inventor
冯大为
杨森
李东升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910579961.5A priority Critical patent/CN110442859B/zh
Publication of CN110442859A publication Critical patent/CN110442859A/zh
Application granted granted Critical
Publication of CN110442859B publication Critical patent/CN110442859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种标注语料生成方法、装置、设备及存储介质,从原始数据集中获取标注样本作为语料模板,所述原始数据集中包括多个标注样本,每个标注样本中包括不同类型的元素和修饰词,对所述语料模板中的每一个元素,根据相似度获取与其类型相同的其它元素并进行替换,得到元素替换后的语料模板,对元素替换后的语料模板中的修饰词,利用微调后的预训练语言模型进行修改,修改完成后形成一个新的标注样本,其中,所述微调后的预训练语言模型是在原始数据集上使用遮盖语言模型任务微调预训练语言模型后得到的,从而有效生成大批量的用于训练信息抽取模型的标注数据,提升了信息抽取模型的泛化能力。

Description

标注语料生成方法、装置、设备及存储介质
技术领域
本申请涉及自然语言处理领域,特别涉及一种标注语料生成方法、装置、设备及存储介质。
背景技术
信息抽取(Information extraction,IE)一直是自然语言处理领域中一项关键而又富有挑战性的任务。信息抽取的目标是识别出文本中出现的各种元素,例如时间、地点、人物,以及元素间的关系。信息抽取任务是很多高级自然语言处理任务的基础。对话系统、自动摘要、事件图谱等都离不开对信息抽取的研究。不同领域对信息抽取有不同的需求,这对信息抽取模型的泛化能力提出了高要求,比如,从医疗文本中抽取疾病、症状、病灶、诊断等特定元素,只有准确而全面地抽取相关信息,才能更好地服务于医疗知识挖掘、医疗智能机器人、医疗临床决策系统等应用领域。
目前的信息抽取模型普遍基于有监督的深度学习方法实现,例如卷积神经网络(Convolutional neural network,CNN),循环神经网络(Recurrent neural network,RNN)以及条件随机场(Conditional random field,CRF)等。它们通常都将信息抽取任务转换成序列标注任务,使用BIO(Begin,Inside,Outside)或者BIOES(Begin,Inside,Outside,End,Single)策略标注元素在句子中的位置。例如B-LOCATION表示的是一个“地点类别”的起始词。基于深度学习的监督方法需要大量的标注数据,然而由于领域知识本体的复杂性和特殊性,标注特定领域的数据十分耗时耗力,因而导致缺乏足够的数据训练信息抽取模型。如何自动地生成大量的标注数据,对于信息抽取模型具有重要的意义。
信息抽取领域的标注数据生成方法大多基于远程监督(Distant supervision,DS)技术,通过在无监督数据上进行回标实现。远程监督方法基于一个强约束假设,即“在一个句子中共现的元素,如果在其他句子中也共同出现,那么这两个元素之间仍旧存在原来的关系”。例如,对于“A先生创建了苹果”这一句话,其中的两个元素“A先生”和“苹果”如果在其他句子中也共同出现,那么根据远程监督的假设,它们仍然具有“创建”的关系。但是利用远程监督方法自动生成标注数据,存在以下问题:远程监督的强约束假设并非总是成立,对于“A先生”和“苹果”两个元素,它们也有可能在这样一句话中共现:“A先生吃了一个苹果”,显然,“A先生”和“苹果”在这句话中并不存在“创建”的关系,因此,基于远程监督方法得到的标注数据会包含大量的噪声,远程监督标注数据都来源于特定领域的已有文本,生成数据的数量依赖于源数据大小。因此在相关领域文本语料十分稀少的情况下,远程监督方法不足以生成大量用于训练深度信息抽取模型的标注数据。
发明内容
本申请的目的在于提供一种标注语料生成方法、装置、设备及存储介质,以解决现有技术不足以生成大量用于训练信息抽取模型的标注数据的技术问题。
第一方面,本申请实施例提供了一种标注语料生成方法,包括:
从原始数据集中获取标注样本作为语料模板;所述原始数据集中包括多个标注样本,每个标注样本中包括不同类型的元素和修饰词;
对所述语料模板中的每一个元素,根据相似度获取与其类型相同的其它元素并进行替换,得到元素替换后的语料模板;
对所述元素替换后的语料模板中的修饰词,利用微调后的预训练语言模型进行修改,修改完成后形成一个新的标注样本;
其中,所述微调后的预训练语言模型是在所述原始数据集上使用遮盖语言模型任务微调预训练语言模型后得到的。
在一种可能的实现方式中,在本申请实施例提供的上述方法中,所述从原始数据集中获取标注样本作为语料模板之前,还包括:
从原始数据集中抽取同种类型的元素组成相应的元素集合;
计算所述元素集合中同种类型元素之间的相似度。
在一种可能的实现方式中,在本申请实施例提供的上述方法中,所述计算所述元素集合中同种类型元素之间的相似度,包括:
计算所述元素集合中每个元素中每个单词的词嵌入平均值,以所述平均值作为所述每个元素的嵌入表示;
计算两个同种类型元素的嵌入表示的余弦距离,所述余弦距离为同种类型元素之间的相似度。
在一种可能的实现方式中,在本申请实施例提供的上述方法中,还包括:
利用预设打分器对所述新的标注样本进行筛选;
将筛选后的新的标注样本加入所述原始数据集。
在一种可能的实现方式中,在本申请实施例提供的上述方法中,所述利用预设打分器对所述新的标注样本进行筛选,包括:
计算所述新的标注样本的复杂度及其到所述原始数据集的距离;
根据所述复杂度和距离,计算所述新的标注样本的分数;
根据所述分数对所述新的标注样本进行筛选。
第二方面,本申请实施例提供了一种标注语料生成装置,包括:
获取模块,用于从原始数据集中获取标注样本作为语料模板;所述原始数据集中包括多个标注样本,每个标注样本中包括不同类型的元素和修饰词;
元素替换模块,用于对所述语料模板中的每一个元素,根据相似度获取与其类型相同的其它元素并进行替换,得到元素替换后的语料模板;
修饰词修改模块,用于对所述元素替换后的语料模板中的修饰词,利用微调后的预训练语言模型进行修改,修改完成后形成一个新的标注样本;
其中,所述微调后的预训练语言模型是在所述原始数据集上使用遮盖语言模型任务微调预训练语言模型后得到的。
在一种可能的实现方式中,在本申请实施例提供的上述装置中,还包括:
相似度计算模块,用于所述获取模块从原始数据集中获取标注样本作为语料模板之前,从原始数据集中抽取同种类型的元素组成相应的元素集合;计算所述元素集合中同种类型元素之间的相似度。
在一种可能的实现方式中,在本申请实施例提供的上述装置中,所述相似度计算模块,具体用于计算所述元素集合中每个元素中每个单词的词嵌入平均值,以所述平均值作为所述每个元素的嵌入表示;计算两个同种类型元素的嵌入表示的余弦距离,所述余弦距离为同种类型元素之间的相似度。
在一种可能的实现方式中,在本申请实施例提供的上述装置中,还包括:
筛选模块,用于利用预设打分器对所述新的标注样本进行筛选;将筛选后的新的标注样本加入所述原始数据集。
在一种可能的实现方式中,在本申请实施例提供的上述装置中,所述筛选模块,具体用于计算所述新的标注样本的复杂度及其到所述原始数据集的距离;根据所述复杂度和距离,计算得到所述新的标注样本的分数;根据所述分数对所述新的标注样本进行筛选。
第三方面,本申请实施例提供了一种电子设备,包括:存储器和处理器;
所述存储器,用于存储计算机程序;
其中,所述处理器执行所述存储器中的计算机程序,以实现上述第一方面以及第一方面的各个实施方式中所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述第一方面以及第一方面的各个实施方式中所述的方法。
与现有技术相比,本申请提供的标注语料生成方法、装置、设备及存储介质,从原始数据集中获取标注样本作为语料模板,所述原始数据集中包括多个标注样本,每个标注样本中包括不同类型的元素和修饰词。首先对所述语料模板中的每一个元素,根据相似度获取与其类型相同的其它元素并进行替换,得到元素替换后的语料模板。然后对元素替换后的语料模板中的修饰词,利用微调后的预训练语言模型进行修改,修改完成后形成一个新的标注样本,其中,所述微调后的预训练语言模型是在原始数据集上使用遮盖语言模型任务微调预训练语言模型后得到的,从而有效生成大批量的用于训练信息抽取模型的标注数据,提升了信息抽取模型的泛化能力。
附图说明
图1为本申请实施例一提供的标注语料生成方法的流程示意图一;
图2为本申请实施例一提供的标注语料生成方法的流程示意图二;
图3为本申请实施例二提供的标注语料生成装置的结构示意图一;
图4为本申请实施例二提供的标注语料生成装置的结构示意图二;
图5为本申请实施例三提供的电子设备的结构示意图。
具体实施方式
下面结合附图,对本申请的具体实施方式进行详细描述,但应当理解本申请的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
在大规模无监督语料上通过最大化似然概率训练得到的语言模型,能够捕捉到文本中的语法和语义信息。预训练语言模型捕捉到这些信息而不依赖于特定领域的数据,属于通用的知识。在信息抽取领域的标注数据生成中,应用预训练语言模型,可以将其在大规模无监督语料上学习到的知识应用到生成的数据上,提高生成数据的多样性和质量。
图1为本申请实施例一提供的标注语料生成方法的流程示意图,如图1所示,该方法包括以下步骤S101~S103:
S101、从原始数据集中获取标注样本作为语料模板。
实际应用中,本实施例的执行主体可以为标注语料生成装置,该标注语料生成装置可以通过虚拟装置实现,例如软件代码,也可以通过写入有相关执行代码的实体装置实现,例如U盘,再或者,也可以通过集成有相关执行代码的实体装置实现,例如,芯片、各式电脑等。
其中,所述原始数据集中包括多个标注样本,每个标注样本中包括不同类型的元素和修饰词。例如,从原始数据集中抽取标注样本“A先生创建了苹果公司”作为语料模板,其中,“A先生”属于Person(人)类型元素,“苹果公司”属于Organization(组织)类型元素,“创建了”则为修饰词。
S102、对所述语料模板中的每一个元素,根据相似度获取与其类型相同的其它元素并进行替换,得到元素替换后的语料模板。
具体的,以原始数据集中的标注样本作为语料模板,根据相似度对语料模板中每个元素选择一个相同类型的相似元素进行替换。假设语料模板中元素ai的类型为t,同公式(1),集合St表示所有类型为t的元素。则St中除元素ai之外的元素被选中用于替换模板中元素ai的概率为:
Figure BDA0002112868120000061
其中,nt表示集合St的大小。为了使生成的样本更倾向于真实的表述,实际应用中,对于语料模板中的每一个元素,可以80%的概率根据公式(4)进行元素替换,以20%的概率保持不变。
示例性的,例如对“A先生创建了苹果公司”进行元素替换后得到的是“B先生创建了董事会”。
S103、对所述元素替换后的语料模板中的修饰词,利用微调后的预训练语言模型进行修改,形成一个新的标注样本。
其中,所述预训练语言模型可以为BERT(Bidirectional EncoderRepresentations from Transformers,双向预训练转换器),所述微调后的预训练语言模型BERT是在所述原始数据集上使用MLM(Masked Language Model,遮盖语言模型)任务微调预训练语言模型BERT后得到的。
具体的,从原始数据集中随机选取一段语料W=w1,w2,…,wn,将其中15%的单词替换成特殊的标记“[MASK]”,并在其开头和结尾分别加上“[CLS]”和“[SEP]”标记,得到W′=[CLS],w1,[MASK],…,wn,[SEP],然后输入到预训练语言模型BERT,预测“[MASK]”位置对应的单词,完成微调。整个MLM任务训练过程使用较低的学习率进行,例如,学习率为1e-5。
本实施例中,为了使生成的标注样本内容更流畅,使用微调后的预训练语言模型BERT修改元素替换后的语料模板中的修饰词。类似于上述使用MLM任务微调预训练语言模型BERT的过程,每次选择上述步骤S102结果中15%未经修改过的修饰词,替换成“[MASK]”,输入到微调后的预训练语言模型BERT进行预测,将原始的修饰词替换成预测的单词。当所有的修饰词都经过修改后,完成一个新的标注样本的生成。例如,对“A先生创建了苹果公司”进行元素替换后得到的是“B先生创建了董事会”,对其中修饰词“创建了”修改后,得到新的标注样本“B先生成立了董事会”。
本实施例提供的标注语料生成方法,从原始数据集中获取标注样本作为语料模板,所述原始数据集中包括多个标注样本,每个标注样本中包括不同类型的元素和修饰词。首先对所述语料模板中的每一个元素,根据相似度获取与其类型相同的其它元素并进行替换,得到元素替换后的语料模板。然后对元素替换后的语料模板中的修饰词,利用微调后的预训练语言模型BERT进行修改,修改完成后形成一个新的标注样本,其中,所述微调后的预训练语言模型BERT是在原始数据集上使用MLM任务微调预训练语言模型BERT后得到的,从而有效生成大批量的用于训练信息抽取模型的标注数据,提升了信息抽取模型的泛化能力。
本实施例中,计算元素相似度的方法可以由多种,一种优选的实施方式中,在上述实施例一的基础上,如图2所示,步骤S101之前,还可以包括以下步骤:
S201、从所述原始数据集中抽取同种类型的元素组成相应的元素集合。
示例性的,Person类型元素集合包括A先生、B先生、C先生等;Organization类型元素集合包括董事会、D公司、E组织等。
S202、计算所述元素集合中同种类型元素之间的相似度。
具体的,所述步骤S202,可以包括:
S202a、计算所述元素集合中每个元素中的每个单词的词嵌入的平均值,以所述平均值作为所述每个元素的嵌入表示。
S202b、计算两个同种类型元素的嵌入表示的余弦距离,所述余弦距离为同种类型元素之间的相似度。
示例性的,根据原始数据集已有的标签可得到不同类型元素的集合,例如抽取出所有类型为Person的元素,形成集合:
Figure BDA0002112868120000071
对于该集合中的每个元素,平均其中每个单词的词嵌入,计算元素的嵌入表示:
Figure BDA0002112868120000072
其中a∈Sp,表示集合Sp中的元素,wi∈a表示元素a中的单词,
Figure BDA0002112868120000074
表示元素中单词数量,元素之间的相似度用其嵌入表示的余弦距离度量:
Figure BDA0002112868120000073
其中ai,aj∈Sp表示两个类型为Person的元素。根据公式(1)-(3)可计算其他类型元素间的相似度。
本实施例中,为了评估生成的新的标注样本的质量,如图2所示,本申请实施例提供的方法中还可以包括:
S203、利用预设打分器对所述新的标注样本进行筛选;
S204、将筛选出的新的标注样本加入所述原始数据集。
进一步的,上述步骤S203,可以具体包括:
S203a、计算所述新的标注样本的复杂度及其到所述原始数据集的距离;
S203b、根据所述复杂度和所述距离,计算得到所述新的标注样本的分数;
S203c、根据所述分数对所述新的标注样本进行筛选。
具体的,以原始数据集中的标注样本为语料模板,可以得到大量的新的标注样本。预设打分器从两个方面考虑新的标注样本的质量,分别是新的标注样本的合理性和新的标注样本到原始数据集的距离。对于一个新的标注样本x,采用复杂度(Perplexity,PPL)来衡量合理性,复杂度是替换后的修饰词预测概率的平均值。假设其中的修饰词集合为V={v1,v2,…,vm},则复杂度为:
Figure BDA0002112868120000081
其中P(vi)表示微调后的预训练语言模型BERT预测为vi的概率,复杂度越高代表BERT对新的标注样本越不确定。采用x的嵌入表示与原始数据集中样本嵌入表示之间的余弦距离表示x到原始数据集的距离。嵌入表示是样本中所有单词嵌入表示的平均:
Figure BDA0002112868120000082
其中,wi∈x表示样本x中的单词。所以x到原始数据集的距离为:
Figure BDA0002112868120000083
其中,D表示原始数据集,di∈D是数据集D中的样本。最后打分器对于新的标注样本x的打分为:
Figure BDA0002112868120000084
其中,分数越高,说明新的标注样本的质量越高。对于所有的新的标注样本,可以根据打分器的结果筛选出其中的高质量样本,并加入原始数据集。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图3为本申请实施例二提供的标注语料生成装置的结构示意图,如图3所示,该装置可以包括:
获取模块310,用于从原始数据集中获取标注样本作为语料模板;所述原始数据集中包括多个标注样本,每个标注样本中包括不同类型的元素和修饰词;
元素替换模块320,用于对所述语料模板中的每一个元素,根据相似度获取与其类型相同的其它元素并进行替换,得到元素替换后的语料模板;
修饰词修改模块330,用于对所述元素替换后的语料模板中的修饰词,利用微调后的预训练语言模型BERT进行修改,修改完成后形成一个新的标注样本;
其中,所述微调后的预训练语言模型BERT是在所述原始数据集上使用MLM任务微调预训练语言模型BERT后得到的。
本实施例提供的标注语料生成装置,从原始数据集中获取标注样本作为语料模板,所述原始数据集中包括多个标注样本,每个标注样本中包括不同类型的元素和修饰词。首先对所述语料模板中的每一个元素,根据相似度获取与其类型相同的其它元素并进行替换,得到元素替换后的语料模板。然后对元素替换后的语料模板中的修饰词,利用微调后的预训练语言模型BERT进行修改,修改完成后形成一个新的标注样本,其中,所述微调后的预训练语言模型BERT是在原始数据集上使用MLM任务微调预训练语言模型BERT后得到的,从而有效生成大批量的用于训练信息抽取模型的标注数据,提升了信息抽取模型的泛化能力。
优选的,如图4所示,上述装置还包括:相似度计算模块410,用于所述获取模块从原始数据集中获取标注样本作为语料模板之前,从所述原始数据集中抽取同种类型的元素组成相应的元素集合;计算所述元素集合中同种类型元素之间的相似度。
具体的,所述相似度计算模块410,具体用于计算所述元素集合中每个元素中的每个单词的词嵌入的平均值,以所述平均值作为所述每个元素的嵌入表示;计算两个同种类型元素的嵌入表示的余弦距离,所述余弦距离为同种类型元素之间的相似度。
优选的,如图4所示,上述装置还包括:筛选模块420,用于利用预设打分器对所述新的标注样本进行筛选;将筛选出的新的标注样本加入所述原始数据集。
具体的,所述筛选模块420,具体用于计算所述新的标注样本的复杂度及其到所述原始数据集的距离;根据所述复杂度和所述距离,计算得到所述新的标注样本的分数;根据所述分数对所述新的标注样本进行筛选。
图5为本申请实施例三提供的电子设备的结构示意图,如图5所示,该设备包括:存储器501和处理器502;
存储器501,用于存储计算机程序;
其中,处理器502执行存储器501中的计算机程序,以实现如上所述各方法实施例所提供的方法。
在实施例中,以一电子设备对本申请提供的标注语料生成装置进行示例。处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行程序指令,以实现上文的本申请的各个实施例中的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
本申请实施例四提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时用于实现如上所述各方法实施例所提供的方法。
实际应用中,本实施例中的计算机程序可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++、python等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
实际应用中,计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
前述对本申请的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本申请限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本申请的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本申请的各种不同的示例性实施方案以及各种不同的选择和改变。本申请的范围意在由权利要求书及其等同形式所限定。

Claims (10)

1.一种标注语料生成方法,其特征在于,包括:
从原始数据集中获取标注样本作为语料模板;所述原始数据集中包括多个标注样本,每个标注样本中包括不同类型的元素和修饰词;
对所述语料模板中的每一个元素,根据相似度获取与其类型相同的其它元素并进行替换,得到元素替换后的语料模板;
对所述元素替换后的语料模板中的修饰词,利用微调后的预训练语言模型进行修改,形成一个新的标注样本;
其中,所述微调后的预训练语言模型是在所述原始数据集上使用遮盖语言模型任务微调预训练语言模型后得到的。
2.根据权利要求1所述的方法,其特征在于,所述从原始数据集中获取标注样本作为语料模板之前,还包括:
从原始数据集中抽取同种类型的元素组成相应的元素集合;
计算所述元素集合中同种类型元素之间的相似度。
3.根据权利要求2所述的方法,其特征在于,所述计算所述元素集合中同种类型元素之间的相似度,包括:
计算所述元素集合中每个元素中每个单词的词嵌入平均值,以所述平均值作为所述每个元素的嵌入表示;
计算两个同种类型元素的嵌入表示的余弦距离,所述余弦距离为同种类型元素之间的相似度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用预设打分器对所述新的标注样本进行筛选;
将筛选后的新的标注样本加入所述原始数据集。
5.根据权利要求4所述的方法,其特征在于,所述利用预设打分器对所述新的标注样本进行筛选,包括:
计算所述新的标注样本的复杂度及其到所述原始数据集的距离;
根据所述复杂度和距离,计算所述新的标注样本的分数;
根据所述分数对所述新的标注样本进行筛选。
6.一种标注语料生成装置,其特征在于,包括:
获取模块,用于从原始数据集中获取标注样本作为语料模板;所述原始数据集中包括多个标注样本,每个标注样本中包括不同类型的元素和修饰词;
元素替换模块,用于对所述语料模板中的每一个元素,根据相似度获取与其类型相同的其它元素并进行替换,得到元素替换后的语料模板;
修饰词修改模块,用于对所述元素替换后的语料模板中的修饰词,利用微调后的预训练语言模型进行修改,形成一个新的标注样本;
其中,所述微调后的预训练语言模型是在所述原始数据集上使用遮盖语言模型任务微调预训练语言模型后得到的。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
相似度计算模块,用于所述获取模块从原始数据集中获取标注样本作为语料模板之前,从原始数据集中抽取同种类型的元素组成相应的元素集合;计算所述元素集合中同种类型元素之间的相似度。
8.根据权利要求7所述的装置,其特征在于,所述相似度计算模块,具体用于计算所述元素集合中每个元素中每个单词的词嵌入平均值,以所述平均值作为所述每个元素的嵌入表示;计算两个同种类型元素的嵌入表示的余弦距离,所述余弦距离为同种类型元素之间的相似度。
9.一种电子设备,包括:存储器和处理器;
所述存储器,用于存储计算机程序;
其中,所述处理器执行所述存储器中的计算机程序,以实现如权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现如权利要求1-5中任一项所述的方法。
CN201910579961.5A 2019-06-28 2019-06-28 标注语料生成方法、装置、设备及存储介质 Active CN110442859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910579961.5A CN110442859B (zh) 2019-06-28 2019-06-28 标注语料生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910579961.5A CN110442859B (zh) 2019-06-28 2019-06-28 标注语料生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110442859A CN110442859A (zh) 2019-11-12
CN110442859B true CN110442859B (zh) 2023-05-26

Family

ID=68428674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910579961.5A Active CN110442859B (zh) 2019-06-28 2019-06-28 标注语料生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110442859B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046652A (zh) * 2019-12-10 2020-04-21 拉扎斯网络科技(上海)有限公司 文本纠错方法、文本纠错装置、存储介质和电子设备
CN111563375B (zh) * 2020-05-07 2021-04-09 北京捷通华声科技股份有限公司 一种文本生成方法和装置
CN111651988B (zh) * 2020-06-03 2023-05-19 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备以及存储介质
CN113392647B (zh) * 2020-11-25 2024-04-26 腾讯科技(深圳)有限公司 一种语料生成的方法、相关装置、计算机设备及存储介质
CN112328750A (zh) * 2020-11-26 2021-02-05 上海天旦网络科技发展有限公司 训练文本判别模型的方法及系统
CN113111665B (zh) * 2021-04-16 2022-10-04 清华大学 一种个性化对话改写方法及装置
CN114610866B (zh) * 2022-05-12 2023-05-05 湖南警察学院 基于全局事件类型的序列到序列联合事件抽取方法和系统
CN118171650A (zh) * 2024-03-21 2024-06-11 行至智能(北京)技术有限公司 一种完全无监督的大语言模型微调训练平台

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117548A1 (en) * 2013-02-01 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for acoustic language model training
CN108038108A (zh) * 2017-12-27 2018-05-15 东软集团股份有限公司 分词模型训练方法和装置、及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9727607B2 (en) * 2014-11-19 2017-08-08 Ebay Inc. Systems and methods for representing search query rewrites

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117548A1 (en) * 2013-02-01 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for acoustic language model training
CN108038108A (zh) * 2017-12-27 2018-05-15 东软集团股份有限公司 分词模型训练方法和装置、及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Universal language model fine-tuning for text classification;Jeremy Howard等;《In Proceedings of the 56th Annual Meeting of the As sociation for Computational Linguistics》;20181231;全文 *

Also Published As

Publication number Publication date
CN110442859A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110442859B (zh) 标注语料生成方法、装置、设备及存储介质
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN108984683B (zh) 结构化数据的提取方法、系统、设备及存储介质
WO2019153996A1 (zh) 一种语音识别文本纠错方法及装置
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN111738016B (zh) 多意图识别方法及相关设备
CN110414004B (zh) 一种核心信息提取的方法和系统
CN106407113B (zh) 一种基于Stack Overflow和commit库的bug定位方法
WO2021073390A1 (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN117591663B (zh) 一种基于知识图谱的大模型prompt生成方法
CN115599901A (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
Almanea Automatic methods and neural networks in Arabic texts diacritization: a comprehensive survey
CN115952298A (zh) 供应商履约风险分析方法及相关设备
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN113705207A (zh) 语法错误识别方法及装置
US11868313B1 (en) Apparatus and method for generating an article
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及系统
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN112434133B (zh) 一种意图分类方法、装置、智能终端及存储介质
CN114490937A (zh) 基于语义感知的评论分析方法及装置
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant