CN111462915A

CN111462915A - 一种医疗文本数据自动标注方法

Info

Publication number: CN111462915A
Application number: CN202010202518.9A
Authority: CN
Inventors: 王晔晗
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-28
Anticipated expiration: 2040-03-20
Also published as: CN111462915B

Abstract

本发明公开了一种医疗文本数据自动标注方法，所述方法包括：根据原始医疗文本数据得到预处理后的医疗文本数据；对预设参数进行初始化操作得到初始化结果；根据初始化结果和预处理后的医疗文本数据得到初代种群；对初代种群进行适应度计算，得到第一预设数目个初代个体分别对应的适应度；根据初代种群确定第二预设数目对母体；根据第二预设数目对母体得到第二预设数目个交叉个体；根据第二预设数目个交叉个体得到第二预设数目个变异个体；根据第二预设数目个变异个体得到第二预设数目个候选个体；根据第二预设数目个候选个体确定新的种群；根据新的种群获取最终的标注结果。通过本发明的技术方案，得到的标注结果准确率高。

Description

一种医疗文本数据自动标注方法

技术领域

本发明涉及医疗技术领域，特别涉及一种医疗文本数据自动标注方法。

背景技术

采用种子数据进行模型训练，得到模型。然后将未标注的数据，用模型进行标签预测。就得到了所有数据的标注。

对于种子数据中的标注噪声，使用上述方法进行标注时噪声会不断的扩大，会造成数据标注的结果不准确，并且对于种子数据中未出现的数据模式，模型是学习不到的，因此在进行标注的时候，也会造成数据标注的结果不准确。

发明内容

本发明提供一种医疗文本数据自动标注方法，包括：

对原始医疗文本数据进行预处理，以得到预处理后的医疗文本数据，其中所述预处理后的医疗文本数据包括：测试数据、源数据及未标注数据；

对预设参数进行初始化操作，以得到初始化结果；

基于所述初始化结果，根据所述预处理后的医疗文本数据进行初始训练及标注，以得到初代种群，其中，所述初代种群中包含有第一预设数目个初代个体；

对所述初代种群中的第一预设数目个初代个体分别进行适应度计算，以得到所述第一预设数目个初代个体分别对应的适应度；

基于所述第一预设数目个初代个体分别对应的适应度，通过所述初代种群确定第二预设数目对母体；

对所述第二预设数目对母体进行交叉处理，以得到第二预设数目个交叉个体；

对所述第二预设数目个交叉个体进行变异处理，以得到第二预设数目个变异个体；

根据所述第二预设数目个变异个体进行新的训练及标注，以得到第二预设数目个候选个体；

根据所述第二预设数目个候选个体确定新的种群；

根据所述新的种群获取最终的标注结果。

在一个实施例中，所述初始化结果包括种群规模、交叉概率、变异概率、终止进化准则、第一预设数目个超参数不同的BERT模型及进化代数计算器为0，所述对预设参数进行初始化操作，以得到初始化结果，包括：

确定所述种群规模；

确定所述交叉概率及所述变异概率；

设置所述终止进化准则；

获取所述第一预设数目个超参数不同的BERT模型；

设置所述进化代数计数器为0。

在一个实施例中，所述基于所述初始化结果，根据所述预处理后的医疗文本数据进行初始训练及标注，以得到初代种群，包括：

通过所述源数据对所述第一预设数目个超参数不同的BERT模型进行训练，以得到初始训练后的第一预设数目个超参数不同的BERT模型；

通过所述初始训练后的第一预设数目个超参数不同的BERT模型对所述测试数据进行标注，以得到第一标注结果；

通过所述初始训练后的第一预设数目个超参数不同的BERT模型对所述未标注数据进行标注，以得到第二标注结果；

根据所述初始训练后的第一预设数目个超参数不同的BERT模型、第一标注结果及所述第二标注结果确定所述初代种群，其中，所述初代种群中包含有第一预设数目个三元组，且确定一个三元组为一个初代个体，即所述初代种群中有第一预设数目个所述初代个体。

在一个实施例中，所述基于所述第一预设数目个初代个体分别对应的适应度，通过所述初代种群确定第二预设数目对母体，包括：

基于所述第一预设数目个初代个体分别对应的适应度，通过选择算子从所述初代种群中选择出第一若干个初代个体，其中，所述第一若干个的值小于所述第一预设数目个；

对所述第一若干个初代个体进行两两组合，以得到所述第二预设数目对母体。

在一个实施例中，所述对所述第二预设数目对母体进行交叉处理，以得到第二预设数目个交叉个体，包括：

对所述第二预设数目对母体依据所述交叉概率进行交叉处理，以得到所述第二预设数目个交叉个体。

在一个实施例中，所述对所述第二预设数目个交叉个体进行变异处理，以得到第二预设数目个变异个体，包括：

对所述第二预设数目个交叉个体依据所述变异概率进行变异处理，以得到所述第二预设数目个变异个体。

在一个实施例中，所述根据所述第二预设数目个变异个体进行新的训练及标注，以得到第二预设数目个候选个体，包括：

根据所述第二预设数目个变异个体对所述初始训练后的第一预设数目个超参数不同的BERT模型进行训练，以得到新的训练后第一预设数目个超参数不同的BERT模型；

通过所述新的训练后第一预设数目个超参数不同的BERT模型对所述测试数据进行标注，以得到第三标注结果；

通过所述新的训练后第一预设数目个超参数不同的BERT模型对所述未标注数据集进行标注，以得到第四标注结果；

根据所述新的训练后第一预设数目个超参数不同的BERT模型、第三标注结果及所述第四标注结果确定所述候选个体。

在一个实施例中，其特征在于，所述根据所述第二预设数目个候选个体确定新的种群，包括：

对所述第二预设数目个候选个体分别进行适应度计算，以得到所述第二预设数目个候选个体分别对应的适应度；

基于所述第二预设数目个候选个体分别对应的适应度，通过所述选择算子从所述第二预设数目个候选个体中选择出第二若干个候选个体，其中，所述第二若干个的值小于所述第二预设数目个；

将所述第二若干个候选个体组成所述新的种群。

在一个实施例中，所述根据所述新的种群获取最终的标注结果，包括：

输出所述新的群体中适应度最大的候选个体为最优解；

根据所述最优解确定所述最终的标注结果。

在一个实施例中，所述方法还包括：

判断所述新的种群是否满足所述终止进化准则，当所述新的种群满足所述终止进化准则时，根据所述新的种群获取最终的标注结果；

当所述新的种群不满足所述终止进化准则时，使进化代数计算器加1，进而重新执行对所述初代种群中的第一预设数目个初代个体分别进行适应度计算，以得到所述第一预设数目个初代个体分别对应的适应度及之后的操作。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明是基于遗传算法实现的，由于交叉处理的存在，能够使得到的交叉个体继承母体的优点，进而进行变异处理，而由于变异处理的存在，能够使得没有出现过的数据在进行模型标注的时候也可以自动地识别匹配，提高了标注数据的准确性，而通过对这些变异个体进行新的训练及标注，能够得到候选个体，然后根据候选个体确定新的种群，最后能够根据新的种群获取最终的标注结果，并且最终的标注结果准确率高。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中一种医疗文本数据自动标注方法的流程图；

图2为本发明一实施例中另一种医疗文本数据自动标注方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中一种医疗文本数据自动标注方法的流程图，如图1所示，该方法可被实施为以下步骤S101-S110：

在步骤S101中，对原始医疗文本数据进行预处理，以得到预处理后的医疗文本数据，其中所述预处理后的医疗文本数据包括：测试数据、源数据及未标注数据；其中，预处理是对原始医疗文本数据进行人工标注，得到测试数据T(标注过的测试数据T)，源数据S(标注过的源数据S)，原始医疗文本数据中除了这两部分标注的数据剩下的就是为标注数据U。

在步骤S102中，对预设参数进行初始化操作，以得到初始化结果；其中，预设参数包括但不限于种群规模、交叉概率。

在步骤S103中，基于初始化结果，根据预处理后的医疗文本数据进行初始训练及标注，以得到初代种群，其中，初代种群中包含有第一预设数目个初代个体；其中，初代种群就是大量初代个体的集合，初代个体是由不同的标注结果，不同的模型组成的三元组，也就是将一个三元组看成一个个体。

在步骤S104中，对初代种群中的第一预设数目个初代个体分别进行适应度计算，以得到第一预设数目个初代个体分别对应的适应度；其中，个体中包括模型，和模型标注的标注结果(预测结果)，适应度计算是指，通过模型标注(预测)测试集T，适应度等于预测正确的标注数除以测试集中数据的数量得到的值。

在步骤S105中，基于第一预设数目个初代个体分别对应的适应度，通过初代种群确定第二预设数目对母体；本发明是基于遗传算法实现的，此处的实体及上下文出现的个体等一些词与遗传算法中的同名词本质上是一样的。

在步骤S106中，对第二预设数目对母体进行交叉处理，以得到第二预设数目个交叉个体；

在步骤S107中，对第二预设数目个交叉个体进行变异处理，以得到第二预设数目个变异个体；

在步骤S108中，根据第二预设数目个变异个体进行新的训练及标注，以得到第二预设数目个候选个体；

在步骤S109中，根据第二预设数目个候选个体确定新的种群；

在步骤S110中，根据新的种群获取最终的标注结果。其中，因为新的种群中包含有候选个体，而候选个体中又包含有标注结果，因而能够根据新的种群确定最终的标注结果。

上述技术方案的工作原理为：对原始医疗文本数据进行预处理，能够得到预处理后的医疗文本数据，然后，对预设参数进行初始化操作，能够得到初始化结果；进而，基于所述初始化结果，根据所述预处理后的医疗文本数据进行初始训练及标注，能够得到初代种群，其次，对所述初代种群中的第一预设数目个初代个体分别进行适应度计算，能够得到所述第一预设数目个初代个体分别对应的适应度；进而，基于所述第一预设数目个初代个体分别对应的适应度，通过所述初代种群确定第二预设数目对母体；然后，对所述第二预设数目对母体进行交叉处理，能够得到第二预设数目个交叉个体；再对所述第二预设数目个交叉个体进行变异处理，能够得到第二预设数目个变异个体；接着，根据所述第二预设数目个变异个体进行新的训练及标注，能够得到第二预设数目个候选个体；根据所述第二预设数目个候选个体确定新的种群；最后根据所述新的种群获取最终的标注结果。

上述技术方案的有益效果为：本发明是基于遗传算法实现的，由于交叉处理的存在，能够使得到的交叉个体继承母体的优点，进而进行变异处理，而由于变异处理的存在，能够使得没有出现过的数据在进行模型标注的时候也可以自动地识别匹配，提高了标注数据的准确性，而通过对这些变异个体进行新的训练及标注，能够得到候选个体，然后根据候选个体确定新的种群，最后能够根据新的种群获取最终的标注结果，并且最终的标注结果准确率高。

如图2所示，在一个实施例中，所述初始化结果包括种群规模、交叉概率、变异概率、终止进化准则、第一预设数目个超参数不同的BERT模型及进化代数计算器为0，上述步骤S102可被实施为如下步骤S1021-S1025：

在步骤S1021中，确定种群规模；其中，种群规模用n表示，可以设定。

在步骤S1022中，确定交叉概率及变异概率；其中，交叉概率可用P_c表示，取值可以为0.7，变异概率用P_m表示，取值可为0.3.

在步骤S1023中，设置终止进化准则；

在步骤S1024中，获取第一预设数目个超参数不同的BERT模型；其中，第一预设数目可以为n，不同的模型可为

在步骤S1025中，设置进化代数计数器为0。其中，设置进化代数计数器t＝0。

本实施例中，先对一些参数进行初始化，以为后续的数据标注提供一个有利的基础。

通过所述源数据对所述第一预设数目个超参数不同的BERT模型进行训练，以得到初始训练后的第一预设数目个超参数不同的BERT模型；其中，这一过程可用如下公式

表示，等号前面的为初始训练后的模型，等号后边括号中的为初始训练前的模型，i的取值为0到n，o指的是t为o，以下同理。

通过所述初始训练后的第一预设数目个超参数不同的BERT模型对所述测试数据进行标注，以得到第一标注结果；其中，这一过程可以用如下公式表示：

通过所述初始训练后的第一预设数目个超参数不同的BERT模型对所述未标注数据进行标注，以得到第二标注结果；其中，这一过程可用如下公式

表示。

根据所述初始训练后的第一预设数目个超参数不同的BERT模型、第一标注结果及所述第二标注结果确定所述初代种群，其中，所述初代种群中包含有第一预设数目个三元组，且确定一个三元组为一个初代个体，即所述初代种群中有第一预设数目个所述初代个体。其中，三元组的表示为

而这些三元组的集合就是初代种群，一个三元组为一个初代个体。种群可以表示为X(t)，而此处t取o，所以初代个体的表示为X(0)。

本实施例中的初代种群用于为得到最终的标注结果提供数据。

基于所述第一预设数目个初代个体分别对应的适应度，通过选择算子从所述初代种群中选择出第一若干个初代个体，其中，所述第一若干个的值小于所述第一预设数目个；其中，适应度可以表示为

选择算子是指从一个种群中选取适应度最大的前m个体，可用SELECT(X(t)，m)表示，也就是此处第一若干个可为m。

对所述第一若干个初代个体进行两两组合，以得到所述第二预设数目对母体。对m个初代个体两两组合就形成了(m*(m-1))/2对母体，也就是第二预设数目为(m*(m-1))/2。

通过选择算子能进行筛选，留下一些优秀的初代个体，然后进行组合，能够得到优点更多的母体。

对所述第二预设数目对母体依据所述交叉概率进行交叉处理，以得到所述第二预设数目个交叉个体。其中，对交叉处理解释为，对于两个个体

对于

和

的每一条数据，以交叉概率P_c执行互换，即为交叉处理。记为

通过交叉处理能够使得生成的交叉个体继承母体的优点。

对所述第二预设数目个交叉个体依据所述变异概率进行变异处理，以得到所述第二预设数目个变异个体。其中，对变异处理解释为，对一个个体

对

中的每一条数据，以变异概率P_m变更其原有的标签，即为变异处理。记为

由于变异的存在，使得没有出现过的数据模型也能够得到自动地识别，匹配。提升了标注数据的准确性。

根据所述第二预设数目个变异个体对所述初始训练后的第一预设数目个超参数不同的BERT模型进行训练，以得到新的训练后第一预设数目个超参数不同的BERT模型；其中，对所述初始训练后的第一预设数目个超参数不同的BERT模型进行训练可用如下公式表示：

是指通过源数据S和变异个体中的

对初始训练后的第一预设数目个超参数不同的BERT模型进行训练，等号前的为新的训练后第一预设数目个超参数不同的BERT模型，等号后括号中的为初始训练后的第一预设数目个超参数不同的BERT模型。

通过对初始训练后的第一预设数目个超参数不同的BERT模型进行训练，得到标注结果更加准确的新的训练后第一预设数目个超参数不同的BERT模型，因而，通过新的训练后第一预设数目个超参数不同的BERT模型进行标注得到的标注结果也更准确，进而确定的候选个体越佳。

将所述第二若干个候选个体组成所述新的种群。新的种群可用X(t+1)表示。

输出所述新的群体中适应度最大的候选个体为最优解；

根据所述最优解确定所述最终的标注结果。其中，候选个体中包含有第三标注结果和第四标注结果，因而能够根据最优解得到最终的标注结果。

通过本实施例的技术方案，能够得到标注最准确的标注结果。

在一个实施例中，所述方法还包括：

通过本实施例的技术方案，保证标注结果的准确性。

对本发明实施例提供的上述一种医疗文本数据自动标注方法，本发明实施例还提供了一种医疗文本数据自动标注装置，该装置包括：

预处理模块，用于对原始医疗文本数据进行预处理，以得到预处理后的医疗文本数据，其中所述预处理后的医疗文本数据包括：测试数据、源数据及未标注数据；

初始化模块，用于对预设参数进行初始化操作，以得到初始化结果；

初始训练及标注模块，用于基于所述初始化结果，根据所述预处理后的医疗文本数据进行初始训练及标注，以得到初代种群，其中，所述初代种群中包含有第一预设数目个初代个体；

计算模块，用于对所述初代种群中的第一预设数目个初代个体分别进行适应度计算，以得到所述第一预设数目个初代个体分别对应的适应度；

第一确定模块，用于基于所述第一预设数目个初代个体分别对应的适应度，通过所述初代种群确定第二预设数目对母体；

交叉处理模块，用于对所述第二预设数目对母体进行交叉处理，以得到第二预设数目个交叉个体；

变异处理模块，用于对所述第二预设数目个交叉个体进行变异处理，以得到第二预设数目个变异个体；

新的训练及标注模块，用于根据所述第二预设数目个变异个体进行新的训练及标注，以得到第二预设数目个候选个体；其中，新的是相对于初始而言的。

第二确定模块，用于根据所述第二预设数目个候选个体确定新的种群；

获取模块，用于根据所述新的种群获取最终的标注结果。

在一个实施例中，所述初始化结果包括种群规模、交叉概率、变异概率、终止进化准则、第一预设数目个超参数不同的BERT模型及进化代数计算器为0，所述初始化模块，包括：

第一确定子模块，用于确定所述种群规模；

第二确定子模块，用于确定所述交叉概率及所述变异概率；

第一设置子模块，用于设置所述终止进化准则；

获取子模块，用于获取所述第一预设数目个超参数不同的BERT模型；

第二设置子模块，用于设置所述进化代数计数器为0。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种医疗文本数据自动标注方法，其特征在于，包括：

对预设参数进行初始化操作，以得到初始化结果；

根据所述第二预设数目个候选个体确定新的种群；

根据所述新的种群获取最终的标注结果。

2.如权利要求1所述的方法，其特征在于，所述初始化结果包括种群规模、交叉概率、变异概率、终止进化准则、第一预设数目个超参数不同的BERT模型及进化代数计算器为0，所述对预设参数进行初始化操作，以得到初始化结果，包括：

确定所述种群规模；

确定所述交叉概率及所述变异概率；

设置所述终止进化准则；

获取所述第一预设数目个超参数不同的BERT模型；

设置所述进化代数计数器为0。

3.如权利要求2所述的方法，其特征在于，所述基于所述初始化结果，根据所述预处理后的医疗文本数据进行初始训练及标注，以得到初代种群，包括：

4.如权利要求1所述的方法，其特征在于，所述基于所述第一预设数目个初代个体分别对应的适应度，通过所述初代种群确定第二预设数目对母体，包括：

5.如权利要求2所述的方法，其特征在于，所述对所述第二预设数目对母体进行交叉处理，以得到第二预设数目个交叉个体，包括：

6.如权利要求2所述的方法，其特征在于，所述对所述第二预设数目个交叉个体进行变异处理，以得到第二预设数目个变异个体，包括：

7.如权利要求3所述的方法，其特征在于，所述根据所述第二预设数目个变异个体进行新的训练及标注，以得到第二预设数目个候选个体，包括：

8.如权利要求7所述的方法，其特征在于，所述根据所述第二预设数目个候选个体确定新的种群，包括：

将所述第二若干个候选个体组成所述新的种群。

9.如权利要求8所述的方法，其特征在于，所述根据所述新的种群获取最终的标注结果，包括：

输出所述新的群体中适应度最大的候选个体为最优解；

根据所述最优解确定所述最终的标注结果。

10.如权利要求1所述的方法，其特征在于，所述方法还包括：