CN110442859B

CN110442859B - 标注语料生成方法、装置、设备及存储介质

Info

Publication number: CN110442859B
Application number: CN201910579961.5A
Authority: CN
Inventors: 冯大为; 杨森; 李东升
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2023-05-26
Anticipated expiration: 2039-06-28
Also published as: CN110442859A

Abstract

本申请公开了一种标注语料生成方法、装置、设备及存储介质，从原始数据集中获取标注样本作为语料模板，所述原始数据集中包括多个标注样本，每个标注样本中包括不同类型的元素和修饰词，对所述语料模板中的每一个元素，根据相似度获取与其类型相同的其它元素并进行替换，得到元素替换后的语料模板，对元素替换后的语料模板中的修饰词，利用微调后的预训练语言模型进行修改，修改完成后形成一个新的标注样本，其中，所述微调后的预训练语言模型是在原始数据集上使用遮盖语言模型任务微调预训练语言模型后得到的，从而有效生成大批量的用于训练信息抽取模型的标注数据，提升了信息抽取模型的泛化能力。

Description

标注语料生成方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理领域，特别涉及一种标注语料生成方法、装置、设备及存储介质。

背景技术

信息抽取(Information extraction,IE)一直是自然语言处理领域中一项关键而又富有挑战性的任务。信息抽取的目标是识别出文本中出现的各种元素，例如时间、地点、人物，以及元素间的关系。信息抽取任务是很多高级自然语言处理任务的基础。对话系统、自动摘要、事件图谱等都离不开对信息抽取的研究。不同领域对信息抽取有不同的需求，这对信息抽取模型的泛化能力提出了高要求，比如，从医疗文本中抽取疾病、症状、病灶、诊断等特定元素，只有准确而全面地抽取相关信息，才能更好地服务于医疗知识挖掘、医疗智能机器人、医疗临床决策系统等应用领域。

目前的信息抽取模型普遍基于有监督的深度学习方法实现，例如卷积神经网络(Convolutional neural network,CNN)，循环神经网络(Recurrent neural network,RNN)以及条件随机场(Conditional random field,CRF)等。它们通常都将信息抽取任务转换成序列标注任务，使用BIO(Begin,Inside,Outside)或者BIOES(Begin,Inside,Outside,End,Single)策略标注元素在句子中的位置。例如B-LOCATION表示的是一个“地点类别”的起始词。基于深度学习的监督方法需要大量的标注数据，然而由于领域知识本体的复杂性和特殊性，标注特定领域的数据十分耗时耗力，因而导致缺乏足够的数据训练信息抽取模型。如何自动地生成大量的标注数据，对于信息抽取模型具有重要的意义。

信息抽取领域的标注数据生成方法大多基于远程监督(Distant supervision,DS)技术，通过在无监督数据上进行回标实现。远程监督方法基于一个强约束假设，即“在一个句子中共现的元素，如果在其他句子中也共同出现，那么这两个元素之间仍旧存在原来的关系”。例如，对于“A先生创建了苹果”这一句话，其中的两个元素“A先生”和“苹果”如果在其他句子中也共同出现，那么根据远程监督的假设，它们仍然具有“创建”的关系。但是利用远程监督方法自动生成标注数据，存在以下问题：远程监督的强约束假设并非总是成立，对于“A先生”和“苹果”两个元素，它们也有可能在这样一句话中共现：“A先生吃了一个苹果”，显然，“A先生”和“苹果”在这句话中并不存在“创建”的关系，因此，基于远程监督方法得到的标注数据会包含大量的噪声，远程监督标注数据都来源于特定领域的已有文本，生成数据的数量依赖于源数据大小。因此在相关领域文本语料十分稀少的情况下，远程监督方法不足以生成大量用于训练深度信息抽取模型的标注数据。

发明内容

本申请的目的在于提供一种标注语料生成方法、装置、设备及存储介质，以解决现有技术不足以生成大量用于训练信息抽取模型的标注数据的技术问题。

第一方面，本申请实施例提供了一种标注语料生成方法，包括：

从原始数据集中获取标注样本作为语料模板；所述原始数据集中包括多个标注样本，每个标注样本中包括不同类型的元素和修饰词；

对所述语料模板中的每一个元素，根据相似度获取与其类型相同的其它元素并进行替换，得到元素替换后的语料模板；

对所述元素替换后的语料模板中的修饰词，利用微调后的预训练语言模型进行修改，修改完成后形成一个新的标注样本；

其中，所述微调后的预训练语言模型是在所述原始数据集上使用遮盖语言模型任务微调预训练语言模型后得到的。

在一种可能的实现方式中，在本申请实施例提供的上述方法中，所述从原始数据集中获取标注样本作为语料模板之前，还包括：

从原始数据集中抽取同种类型的元素组成相应的元素集合；

计算所述元素集合中同种类型元素之间的相似度。

在一种可能的实现方式中，在本申请实施例提供的上述方法中，所述计算所述元素集合中同种类型元素之间的相似度，包括：

计算所述元素集合中每个元素中每个单词的词嵌入平均值，以所述平均值作为所述每个元素的嵌入表示；

计算两个同种类型元素的嵌入表示的余弦距离，所述余弦距离为同种类型元素之间的相似度。

在一种可能的实现方式中，在本申请实施例提供的上述方法中，还包括：

利用预设打分器对所述新的标注样本进行筛选；

将筛选后的新的标注样本加入所述原始数据集。

在一种可能的实现方式中，在本申请实施例提供的上述方法中，所述利用预设打分器对所述新的标注样本进行筛选，包括：

计算所述新的标注样本的复杂度及其到所述原始数据集的距离；

根据所述复杂度和距离，计算所述新的标注样本的分数；

根据所述分数对所述新的标注样本进行筛选。

第二方面，本申请实施例提供了一种标注语料生成装置，包括：

获取模块，用于从原始数据集中获取标注样本作为语料模板；所述原始数据集中包括多个标注样本，每个标注样本中包括不同类型的元素和修饰词；

元素替换模块，用于对所述语料模板中的每一个元素，根据相似度获取与其类型相同的其它元素并进行替换，得到元素替换后的语料模板；

修饰词修改模块，用于对所述元素替换后的语料模板中的修饰词，利用微调后的预训练语言模型进行修改，修改完成后形成一个新的标注样本；

在一种可能的实现方式中，在本申请实施例提供的上述装置中，还包括：

相似度计算模块，用于所述获取模块从原始数据集中获取标注样本作为语料模板之前，从原始数据集中抽取同种类型的元素组成相应的元素集合；计算所述元素集合中同种类型元素之间的相似度。

在一种可能的实现方式中，在本申请实施例提供的上述装置中，所述相似度计算模块，具体用于计算所述元素集合中每个元素中每个单词的词嵌入平均值，以所述平均值作为所述每个元素的嵌入表示；计算两个同种类型元素的嵌入表示的余弦距离，所述余弦距离为同种类型元素之间的相似度。

筛选模块，用于利用预设打分器对所述新的标注样本进行筛选；将筛选后的新的标注样本加入所述原始数据集。

在一种可能的实现方式中，在本申请实施例提供的上述装置中，所述筛选模块，具体用于计算所述新的标注样本的复杂度及其到所述原始数据集的距离；根据所述复杂度和距离，计算得到所述新的标注样本的分数；根据所述分数对所述新的标注样本进行筛选。

第三方面，本申请实施例提供了一种电子设备，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

其中，所述处理器执行所述存储器中的计算机程序，以实现上述第一方面以及第一方面的各个实施方式中所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述第一方面以及第一方面的各个实施方式中所述的方法。

与现有技术相比，本申请提供的标注语料生成方法、装置、设备及存储介质，从原始数据集中获取标注样本作为语料模板，所述原始数据集中包括多个标注样本，每个标注样本中包括不同类型的元素和修饰词。首先对所述语料模板中的每一个元素，根据相似度获取与其类型相同的其它元素并进行替换，得到元素替换后的语料模板。然后对元素替换后的语料模板中的修饰词，利用微调后的预训练语言模型进行修改，修改完成后形成一个新的标注样本，其中，所述微调后的预训练语言模型是在原始数据集上使用遮盖语言模型任务微调预训练语言模型后得到的，从而有效生成大批量的用于训练信息抽取模型的标注数据，提升了信息抽取模型的泛化能力。

附图说明

图1为本申请实施例一提供的标注语料生成方法的流程示意图一；

图2为本申请实施例一提供的标注语料生成方法的流程示意图二；

图3为本申请实施例二提供的标注语料生成装置的结构示意图一；

图4为本申请实施例二提供的标注语料生成装置的结构示意图二；

图5为本申请实施例三提供的电子设备的结构示意图。

具体实施方式

下面结合附图，对本申请的具体实施方式进行详细描述，但应当理解本申请的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

在大规模无监督语料上通过最大化似然概率训练得到的语言模型，能够捕捉到文本中的语法和语义信息。预训练语言模型捕捉到这些信息而不依赖于特定领域的数据，属于通用的知识。在信息抽取领域的标注数据生成中，应用预训练语言模型，可以将其在大规模无监督语料上学习到的知识应用到生成的数据上，提高生成数据的多样性和质量。

图1为本申请实施例一提供的标注语料生成方法的流程示意图，如图1所示，该方法包括以下步骤S101～S103：

S101、从原始数据集中获取标注样本作为语料模板。

实际应用中，本实施例的执行主体可以为标注语料生成装置，该标注语料生成装置可以通过虚拟装置实现，例如软件代码，也可以通过写入有相关执行代码的实体装置实现，例如U盘，再或者，也可以通过集成有相关执行代码的实体装置实现，例如，芯片、各式电脑等。

其中，所述原始数据集中包括多个标注样本，每个标注样本中包括不同类型的元素和修饰词。例如，从原始数据集中抽取标注样本“A先生创建了苹果公司”作为语料模板，其中，“A先生”属于Person(人)类型元素，“苹果公司”属于Organization(组织)类型元素，“创建了”则为修饰词。

S102、对所述语料模板中的每一个元素，根据相似度获取与其类型相同的其它元素并进行替换，得到元素替换后的语料模板。

具体的，以原始数据集中的标注样本作为语料模板，根据相似度对语料模板中每个元素选择一个相同类型的相似元素进行替换。假设语料模板中元素a_i的类型为t，同公式(1)，集合S_t表示所有类型为t的元素。则S_t中除元素a_i之外的元素被选中用于替换模板中元素a_i的概率为：

其中，n_t表示集合S_t的大小。为了使生成的样本更倾向于真实的表述，实际应用中，对于语料模板中的每一个元素，可以80％的概率根据公式(4)进行元素替换，以20％的概率保持不变。

示例性的，例如对“A先生创建了苹果公司”进行元素替换后得到的是“B先生创建了董事会”。

S103、对所述元素替换后的语料模板中的修饰词，利用微调后的预训练语言模型进行修改，形成一个新的标注样本。

其中，所述预训练语言模型可以为BERT(Bidirectional EncoderRepresentations from Transformers，双向预训练转换器)，所述微调后的预训练语言模型BERT是在所述原始数据集上使用MLM(Masked Language Model，遮盖语言模型)任务微调预训练语言模型BERT后得到的。

具体的，从原始数据集中随机选取一段语料W＝w₁,w₂,…,w_n,将其中15％的单词替换成特殊的标记“[MASK]”，并在其开头和结尾分别加上“[CLS]”和“[SEP]”标记，得到W′＝[CLS],w₁,[MASK],…,w_n,[SEP]，然后输入到预训练语言模型BERT，预测“[MASK]”位置对应的单词，完成微调。整个MLM任务训练过程使用较低的学习率进行，例如，学习率为1e-5。

本实施例中，为了使生成的标注样本内容更流畅，使用微调后的预训练语言模型BERT修改元素替换后的语料模板中的修饰词。类似于上述使用MLM任务微调预训练语言模型BERT的过程，每次选择上述步骤S102结果中15％未经修改过的修饰词，替换成“[MASK]”，输入到微调后的预训练语言模型BERT进行预测，将原始的修饰词替换成预测的单词。当所有的修饰词都经过修改后，完成一个新的标注样本的生成。例如，对“A先生创建了苹果公司”进行元素替换后得到的是“B先生创建了董事会”，对其中修饰词“创建了”修改后，得到新的标注样本“B先生成立了董事会”。

本实施例提供的标注语料生成方法，从原始数据集中获取标注样本作为语料模板，所述原始数据集中包括多个标注样本，每个标注样本中包括不同类型的元素和修饰词。首先对所述语料模板中的每一个元素，根据相似度获取与其类型相同的其它元素并进行替换，得到元素替换后的语料模板。然后对元素替换后的语料模板中的修饰词，利用微调后的预训练语言模型BERT进行修改，修改完成后形成一个新的标注样本，其中，所述微调后的预训练语言模型BERT是在原始数据集上使用MLM任务微调预训练语言模型BERT后得到的，从而有效生成大批量的用于训练信息抽取模型的标注数据，提升了信息抽取模型的泛化能力。

本实施例中，计算元素相似度的方法可以由多种，一种优选的实施方式中，在上述实施例一的基础上，如图2所示，步骤S101之前，还可以包括以下步骤：

S201、从所述原始数据集中抽取同种类型的元素组成相应的元素集合。

示例性的，Person类型元素集合包括A先生、B先生、C先生等；Organization类型元素集合包括董事会、D公司、E组织等。

S202、计算所述元素集合中同种类型元素之间的相似度。

具体的，所述步骤S202，可以包括：

S202a、计算所述元素集合中每个元素中的每个单词的词嵌入的平均值，以所述平均值作为所述每个元素的嵌入表示。

S202b、计算两个同种类型元素的嵌入表示的余弦距离，所述余弦距离为同种类型元素之间的相似度。

示例性的，根据原始数据集已有的标签可得到不同类型元素的集合，例如抽取出所有类型为Person的元素，形成集合：

对于该集合中的每个元素，平均其中每个单词的词嵌入，计算元素的嵌入表示：

其中a∈S_p，表示集合S_p中的元素，w_i∈a表示元素a中的单词，

表示元素中单词数量，元素之间的相似度用其嵌入表示的余弦距离度量：

其中a_i,a_j∈S_p表示两个类型为Person的元素。根据公式(1)-(3)可计算其他类型元素间的相似度。

本实施例中，为了评估生成的新的标注样本的质量，如图2所示，本申请实施例提供的方法中还可以包括：

S203、利用预设打分器对所述新的标注样本进行筛选；

S204、将筛选出的新的标注样本加入所述原始数据集。

进一步的，上述步骤S203，可以具体包括：

S203a、计算所述新的标注样本的复杂度及其到所述原始数据集的距离；

S203b、根据所述复杂度和所述距离，计算得到所述新的标注样本的分数；

S203c、根据所述分数对所述新的标注样本进行筛选。

具体的，以原始数据集中的标注样本为语料模板，可以得到大量的新的标注样本。预设打分器从两个方面考虑新的标注样本的质量，分别是新的标注样本的合理性和新的标注样本到原始数据集的距离。对于一个新的标注样本x，采用复杂度(Perplexity,PPL)来衡量合理性，复杂度是替换后的修饰词预测概率的平均值。假设其中的修饰词集合为V＝{v₁,v₂,…,v_m}，则复杂度为：

其中P(v_i)表示微调后的预训练语言模型BERT预测为v_i的概率，复杂度越高代表BERT对新的标注样本越不确定。采用x的嵌入表示与原始数据集中样本嵌入表示之间的余弦距离表示x到原始数据集的距离。嵌入表示是样本中所有单词嵌入表示的平均：

其中，w_i∈x表示样本x中的单词。所以x到原始数据集的距离为：

其中，D表示原始数据集，d_i∈D是数据集D中的样本。最后打分器对于新的标注样本x的打分为：

其中，分数越高，说明新的标注样本的质量越高。对于所有的新的标注样本，可以根据打分器的结果筛选出其中的高质量样本，并加入原始数据集。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图3为本申请实施例二提供的标注语料生成装置的结构示意图，如图3所示，该装置可以包括：

获取模块310，用于从原始数据集中获取标注样本作为语料模板；所述原始数据集中包括多个标注样本，每个标注样本中包括不同类型的元素和修饰词；

元素替换模块320，用于对所述语料模板中的每一个元素，根据相似度获取与其类型相同的其它元素并进行替换，得到元素替换后的语料模板；

修饰词修改模块330，用于对所述元素替换后的语料模板中的修饰词，利用微调后的预训练语言模型BERT进行修改，修改完成后形成一个新的标注样本；

其中，所述微调后的预训练语言模型BERT是在所述原始数据集上使用MLM任务微调预训练语言模型BERT后得到的。

本实施例提供的标注语料生成装置，从原始数据集中获取标注样本作为语料模板，所述原始数据集中包括多个标注样本，每个标注样本中包括不同类型的元素和修饰词。首先对所述语料模板中的每一个元素，根据相似度获取与其类型相同的其它元素并进行替换，得到元素替换后的语料模板。然后对元素替换后的语料模板中的修饰词，利用微调后的预训练语言模型BERT进行修改，修改完成后形成一个新的标注样本，其中，所述微调后的预训练语言模型BERT是在原始数据集上使用MLM任务微调预训练语言模型BERT后得到的，从而有效生成大批量的用于训练信息抽取模型的标注数据，提升了信息抽取模型的泛化能力。

优选的，如图4所示，上述装置还包括：相似度计算模块410，用于所述获取模块从原始数据集中获取标注样本作为语料模板之前，从所述原始数据集中抽取同种类型的元素组成相应的元素集合；计算所述元素集合中同种类型元素之间的相似度。

具体的，所述相似度计算模块410，具体用于计算所述元素集合中每个元素中的每个单词的词嵌入的平均值，以所述平均值作为所述每个元素的嵌入表示；计算两个同种类型元素的嵌入表示的余弦距离，所述余弦距离为同种类型元素之间的相似度。

优选的，如图4所示，上述装置还包括：筛选模块420，用于利用预设打分器对所述新的标注样本进行筛选；将筛选出的新的标注样本加入所述原始数据集。

具体的，所述筛选模块420，具体用于计算所述新的标注样本的复杂度及其到所述原始数据集的距离；根据所述复杂度和所述距离，计算得到所述新的标注样本的分数；根据所述分数对所述新的标注样本进行筛选。

图5为本申请实施例三提供的电子设备的结构示意图，如图5所示，该设备包括：存储器501和处理器502；

存储器501，用于存储计算机程序；

其中，处理器502执行存储器501中的计算机程序，以实现如上所述各方法实施例所提供的方法。

在实施例中，以一电子设备对本申请提供的标注语料生成装置进行示例。处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行程序指令，以实现上文的本申请的各个实施例中的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

本申请实施例四提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时用于实现如上所述各方法实施例所提供的方法。

实际应用中，本实施例中的计算机程序可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++、python等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

实际应用中，计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

前述对本申请的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本申请限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本申请的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本申请的各种不同的示例性实施方案以及各种不同的选择和改变。本申请的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种标注语料生成方法，其特征在于，包括：

对所述元素替换后的语料模板中的修饰词，利用微调后的预训练语言模型进行修改，形成一个新的标注样本；

2.根据权利要求1所述的方法，其特征在于，所述从原始数据集中获取标注样本作为语料模板之前，还包括：

从原始数据集中抽取同种类型的元素组成相应的元素集合；

计算所述元素集合中同种类型元素之间的相似度。

3.根据权利要求2所述的方法，其特征在于，所述计算所述元素集合中同种类型元素之间的相似度，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用预设打分器对所述新的标注样本进行筛选；

将筛选后的新的标注样本加入所述原始数据集。

5.根据权利要求4所述的方法，其特征在于，所述利用预设打分器对所述新的标注样本进行筛选，包括：

根据所述复杂度和距离，计算所述新的标注样本的分数；

根据所述分数对所述新的标注样本进行筛选。

6.一种标注语料生成装置，其特征在于，包括：

修饰词修改模块，用于对所述元素替换后的语料模板中的修饰词，利用微调后的预训练语言模型进行修改，形成一个新的标注样本；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述相似度计算模块，具体用于计算所述元素集合中每个元素中每个单词的词嵌入平均值，以所述平均值作为所述每个元素的嵌入表示；计算两个同种类型元素的嵌入表示的余弦距离，所述余弦距离为同种类型元素之间的相似度。

9.一种电子设备，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

其中，所述处理器执行所述存储器中的计算机程序，以实现如权利要求1-5中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1-5中任一项所述的方法。