CN111798986B

CN111798986B - 一种数据增强的方法和设备

Info

Publication number: CN111798986B
Application number: CN202010648077.5A
Authority: CN
Inventors: 李慧
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2023-11-03
Anticipated expiration: 2040-07-07
Also published as: CN111798986A

Abstract

本发明提出了一种数据增强的方法和设备，该方法包括：基于与内容相关的中文专业数据对GPT2语言模型进行调整，以得到与内容相关领域的第一语言模型；通过数据集对第一语言模型进行调整，以得到第二语言模型；数据集中的各数据包括内容与内容对应的类别；在第二语言模型输入对应类别的前缀，得到多个对应类别的语料；利用由数据集训练得到的分类模型对各语料进行评分，并基于评分筛选出的语料作为数据增强后的数据。通过GPT2语言模型，解决了生成语料的多样性的问题，且基于中文专业数据对GPT2语言模型的调整，可以生成任意特定类别的医疗语料，通过GPT2语言模型和分类模型双重筛选的方式，避免了所生成得语料不能推断对应类别的问题。

Description

一种数据增强的方法和设备

技术领域

本发明涉及数据增强处理技术领域，特别涉及一种数据增强的方法和设备

背景技术

具体的，目前在处理医疗领域的分类任务时，需要收集特定类别的医疗语料，同时还依赖专业的医生对数据进行标注由此，若存在在数据量不足的情况，现有的技术方案中，往往依赖于同义词替换，或者利用back-translation(反向翻译)来做数据增强，生成新的有标注的医疗语料，但是这种方法存在一些问题：

首先，医疗领域下的同义词词典构建困难，并且生成的数据的多样性不够，其次，利用back-translation在通用领域往往能取得不错的效果，但是在医疗领域下往往存在医疗实体漏翻译的情况，导致生成的语料不能推断出对应的类别。

由此，目前需要一种更好的办法来解决该技术问题。

发明内容

针对现有技术中的缺陷，本发明提出了一种数据增强的方法和设备，通过GPT2语言模型，解决了生成语料的多样性的问题，且基于中文专业数据对GPT2语言模型的调整，可以生成任意多的特定类别的医疗语料，本方案中采用GPT2语言模型和分类模型双重筛选的方式，避免了所生成得语料不能推断对应类别的问题。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种数据增强的方法，包括：

基于与内容相关的中文专业数据对GPT2语言模型进行调整，以得到与所述内容相关领域的第一语言模型；其中，所述GPT2语言模型基于中文通用数据训练得到；

通过数据集对所述第一语言模型进行调整，以得到第二语言模型；所述数据集中的各数据包括所述内容与所述内容对应的类别；

在所述第二语言模型输入对应所述类别的前缀，得到多个对应所述类别的语料；

利用由所述数据集训练得到的分类模型对各所述语料进行评分，并基于所述评分筛选出的所述语料作为数据增强后的数据。

在一个具体的实施例中，

所述中文通用数据包括以下一个或多个的任意组合：中文百度百科数据、中文的新闻数据、中文的书籍数据。

在一个具体的实施例中，所述中文专业数据包括：中文医疗文献数据；

所述第一语言模型为医疗领域的语言模型。

在一个具体的实施例中，

所述“通过数据集对所述第一语言模型进行调整，以得到第二语言模型”包括：

将数据集中的各数据按照指定格式对内容与类别进行拼接，得到拼接数据；

将所述拼接数据输入所述第一语言模型，以对所述第一语言模型进行调整，得到第二语言模型。

在一个具体的实施例中，所述拼接数据为：

y₁SEPx₁EOSy₂SEPx₂EOS···y_nSEPx_n；

其中，y_i为所述类别；x_i为所述内容；SEP为所述内容与所述类别的分割符；EOS为一个实体对的数据的结束符号。

在一个具体的实施例中，

所述对应所述类别的前缀为：y_jSEP；

所生成的N个对应所述类别的语料为：

其中，y_j为类别。

在一个具体的实施例中，所述“基于评分筛选出的所述语料作为数据增强后的数据”，包括：

筛选出所述评分高于阈值的语料作为数据增强后的数据。

本发明实施例还提出了一种数据增强的设备，包括：

第一生成模块，用于基于与内容相关的中文专业数据对GPT2语言模型进行调整，以得到与所述内容相关领域的第一语言模型；其中，所述GPT2语言模型基于中文通用数据训练得到；

第二生成模块，用于通过数据集对所述第一语言模型进行调整，以得到第二语言模型；所述数据集中的各数据包括所述内容与所述内容对应的类别；

得到模块，用于在所述第二语言模型输入对应所述类别的前缀，得到多个对应所述类别的语料；

增强模块，用于利用由所述数据集训练得到的分类模型对各所述语料进行评分，并基于所述评分筛选出的所述语料作为数据增强后的数据。

在一个具体的实施例中，

所述第一语言模型为医疗领域的语言模型。

以此，本发明实施例提出了一种数据增强的方法和设备，该方法包括：基于与内容相关的中文专业数据对GPT2语言模型进行调整，以得到与所述内容相关领域的第一语言模型；其中，所述GPT2语言模型基于中文通用数据训练得到；通过数据集对所述第一语言模型进行调整，以得到第二语言模型；所述数据集中的各数据包括所述内容与所述内容对应的类别；在所述第二语言模型输入对应所述类别的前缀，得到多个对应所述类别的语料；利用由所述数据集训练得到的分类模型对各所述语料进行评分，并基于所述评分筛选出的所述语料作为数据增强后的数据。通过GPT2语言模型，解决了生成语料的多样性的问题，且基于中文专业数据对GPT2语言模型的调整，可以生成任意多的特定类别的医疗语料，本方案中采用GPT2语言模型和分类模型双重筛选的方式，避免了所生成得语料不能推断对应类别的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种数据增强的方法的流程示意图；

图2为本发明实施例提出的一种数据增强的方法的流程示意图；

图3为本发明实施例提出的一种数据增强的方法的框架示意图；

图4为本发明实施例提出的一种数据增强的设备的结构示意图。

具体实施方式

在下文中，将更全面地描述本公开的各种实施例。本公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本公开的各种实施例限于在此公开的特定实施例的意图，而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本公开的各种实施例中被清楚地限定。

实施例1

本发明实施例1公开了一种数据增强的方法，如图1所示，包括以下步骤：

步骤101、基于与内容相关的中文专业数据对GPT2语言模型进行调整，以得到与所述内容相关领域的第一语言模型；其中，所述GPT2语言模型基于中文通用数据训练得到；

具体的，所述中文通用数据包括以下一个或多个的任意组合：中文百度百科数据、中文的新闻数据、中文的书籍数据。

由此，在步骤101之前，如图3所示，先用中文百度百科，新闻以及书籍训练一个通用的中文的GPT2语言模型G。

所述中文专业数据包括：中文医疗文献数据；

所述第一语言模型为医疗领域的语言模型。

具体的，如图3所示，在得到GPT2语言模型G之后，再用中文的医疗文献，在通用的GPT2语言模型上微调，得到一个医疗领域下的语言模型M。

步骤102、通过数据集对所述第一语言模型进行调整，以得到第二语言模型；所述数据集中的各数据包括所述内容与所述内容对应的类别；

具体的，如图2所示，步骤102中的所述“通过数据集对所述第一语言模型进行调整，以得到第二语言模型”包括：

所述拼接数据为：

y₁SEPx₁EOSy₂SEPx₂EOS···y_nSEPx_n；

由此，具体的，如图3所示，将训练数据(也即数据集中的各数据)拼接成y₁SEPx₁EOSy₂SEPx₂EOS···y_nSEPx_n,输入到模型M中，进一步fine-tune医疗语言模型M，得到任务相关的语言模型S。

具体的，训练数据或给定分类任务数据集也即数据集其中，x表示输入的医疗的文本，y代表对应的类别，其中y∈{Y₁,Y₂,···Y_m﹜，Y_j代表具体的类别名称。

步骤103、在所述第二语言模型输入对应所述类别的前缀，得到多个对应所述类别的语料；

具体的，所述对应所述类别的前缀为：y_jSEP；所生成的N个对应所述类别的语料为：其中，y_j为类别。

在实际应用的场景中，输入对应类别的前缀y_jSEP，用模型S生成N个对应的类别的语料并将生成的数据记为D’。

步骤104、利用由所述数据集训练得到的分类模型对各所述语料进行评分，并基于所述评分筛选出的所述语料作为数据增强后的数据。

在一个具体的实施例中，步骤104中的所述“基于评分筛选出的所述语料作为数据增强后的数据”，包括：

筛选出所述评分高于阈值的语料作为数据增强后的数据。

具体的，根据数据Dtrain，训练一个分类模型C，然后利用模型C对上述步骤103中的生成的数据对D'上每个样本进行打分，将置信度低的样本去掉，得到新的数据集D*，D*即是通过数据增强方式得到的数据。

本方案利用医疗领域下的GPT2，解决了生成语料的多样性的问题，用带标签的特定领域的语料进行进一步的微调，能保证生成任意多的特定类别的医疗语料，采用GPT2和分类模型双重筛选，避免了生成语料不能推断对应类别的问题。

实施例2

本发明实施例2还公开了一种数据增强的设备，如图4所示，包括：

第一生成模块201，用于基于与内容相关的中文专业数据对GPT2语言模型进行调整，以得到与所述内容相关领域的第一语言模型；其中，所述GPT2语言模型基于中文通用数据训练得到；

第二生成模块202，用于通过数据集对所述第一语言模型进行调整，以得到第二语言模型；所述数据集中的各数据包括所述内容与所述内容对应的类别；

得到模块203，用于在所述第二语言模型输入对应所述类别的前缀，得到多个对应所述类别的语料；

增强模块204，用于利用由所述数据集训练得到的分类模型对各所述语料进行评分，并基于所述评分筛选出的所述语料作为数据增强后的数据。

在一个具体的实施例中，

所述第一语言模型为医疗领域的语言模型。

在一个具体的实施例中，

第二生成模块202，用于：

在一个具体的实施例中，所述拼接数据为：

y₁SEPx₁EOSy₂SEPx₂EOS···y_nSEPx；

在一个具体的实施例中，

所述对应所述类别的前缀为：y_jSEP；

所生成的N个对应所述类别的语料为：

其中，y_j为类别。

增强模块204“基于评分筛选出的所述语料作为数据增强后的数据”，包括：

筛选出所述评分高于阈值的语料作为数据增强后的数据。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种数据增强的方法，其特征在于，包括：

基于与内容相关的中文专业数据对GPT2语言模型进行调整，以得到与内容相关领域的第一语言模型；其中，所述GPT2语言模型基于中文通用数据训练得到；

将数据集中的各数据按照指定格式对内容与类别进行拼接，得到拼接数据：y₁SEPx₁EOSy₂SEPx₂EOS···y_nSEPx_n；其中，y_i为所述类别；x_i为所述内容；SEP为所述内容与所述类别的分割符；EOS为一个实体对的数据的结束符号；

将所述拼接数据输入所述第一语言模型，以对所述第一语言模型进行调整，得到第二语言模型；所述数据集中的各数据包括所述内容与所述内容对应的类别；

在所述第二语言模型输入对应所述类别的前缀：y_jSEP，得到多个对应所述类别的语料：其中，y_j为类别；

2.如权利要求1所述的一种数据增强的方法，其特征在于，

3.如权利要求1所述的一种数据增强的方法，其特征在于，所述中文专业数据包括：中文医疗文献数据；

所述第一语言模型为医疗领域的语言模型。

4.如权利要求1所述的一种数据增强的方法，其特征在于，所述“基于评分筛选出的所述语料作为数据增强后的数据”，包括：

筛选出所述评分高于阈值的语料作为数据增强后的数据。

5.一种数据增强的设备，其特征在于，包括：

第一生成模块，用于基于与内容相关的中文专业数据对GPT2语言模型进行调整，以得到与内容相关领域的第一语言模型；其中，所述GPT2语言模型基于中文通用数据训练得到；

第二生成模块，用于

得到模块，用于在所述第二语言模型输入对应所述类别的前缀：y_jSEP，得到多个对应所述类别的语料：其中，y_j为类别；

6.如权利要求5所述的一种数据增强的设备，其特征在于，

7.如权利要求5所述的一种数据增强的设备，其特征在于，所述中文专业数据包括：中文医疗文献数据；

所述第一语言模型为医疗领域的语言模型。