CN111462915A - 一种医疗文本数据自动标注方法 - Google Patents

一种医疗文本数据自动标注方法 Download PDF

Info

Publication number
CN111462915A
CN111462915A CN202010202518.9A CN202010202518A CN111462915A CN 111462915 A CN111462915 A CN 111462915A CN 202010202518 A CN202010202518 A CN 202010202518A CN 111462915 A CN111462915 A CN 111462915A
Authority
CN
China
Prior art keywords
preset number
individuals
population
initial
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010202518.9A
Other languages
English (en)
Other versions
CN111462915B (zh
Inventor
王晔晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010202518.9A priority Critical patent/CN111462915B/zh
Publication of CN111462915A publication Critical patent/CN111462915A/zh
Application granted granted Critical
Publication of CN111462915B publication Critical patent/CN111462915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Pathology (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种医疗文本数据自动标注方法,所述方法包括:根据原始医疗文本数据得到预处理后的医疗文本数据;对预设参数进行初始化操作得到初始化结果;根据初始化结果和预处理后的医疗文本数据得到初代种群;对初代种群进行适应度计算,得到第一预设数目个初代个体分别对应的适应度;根据初代种群确定第二预设数目对母体;根据第二预设数目对母体得到第二预设数目个交叉个体;根据第二预设数目个交叉个体得到第二预设数目个变异个体;根据第二预设数目个变异个体得到第二预设数目个候选个体;根据第二预设数目个候选个体确定新的种群;根据新的种群获取最终的标注结果。通过本发明的技术方案,得到的标注结果准确率高。

Description

一种医疗文本数据自动标注方法
技术领域
本发明涉及医疗技术领域,特别涉及一种医疗文本数据自动标注方法。
背景技术
采用种子数据进行模型训练,得到模型。然后将未标注的数据,用模型进行标签预测。就得到了所有数据的标注。
对于种子数据中的标注噪声,使用上述方法进行标注时噪声会不断的扩大,会造成数据标注的结果不准确,并且对于种子数据中未出现的数据模式,模型是学习不到的,因此在进行标注的时候,也会造成数据标注的结果不准确。
发明内容
本发明提供一种医疗文本数据自动标注方法,包括:
对原始医疗文本数据进行预处理,以得到预处理后的医疗文本数据,其中所述预处理后的医疗文本数据包括:测试数据、源数据及未标注数据;
对预设参数进行初始化操作,以得到初始化结果;
基于所述初始化结果,根据所述预处理后的医疗文本数据进行初始训练及标注,以得到初代种群,其中,所述初代种群中包含有第一预设数目个初代个体;
对所述初代种群中的第一预设数目个初代个体分别进行适应度计算,以得到所述第一预设数目个初代个体分别对应的适应度;
基于所述第一预设数目个初代个体分别对应的适应度,通过所述初代种群确定第二预设数目对母体;
对所述第二预设数目对母体进行交叉处理,以得到第二预设数目个交叉个体;
对所述第二预设数目个交叉个体进行变异处理,以得到第二预设数目个变异个体;
根据所述第二预设数目个变异个体进行新的训练及标注,以得到第二预设数目个候选个体;
根据所述第二预设数目个候选个体确定新的种群;
根据所述新的种群获取最终的标注结果。
在一个实施例中,所述初始化结果包括种群规模、交叉概率、变异概率、终止进化准则、第一预设数目个超参数不同的BERT模型及进化代数计算器为0,所述对预设参数进行初始化操作,以得到初始化结果,包括:
确定所述种群规模;
确定所述交叉概率及所述变异概率;
设置所述终止进化准则;
获取所述第一预设数目个超参数不同的BERT模型;
设置所述进化代数计数器为0。
在一个实施例中,所述基于所述初始化结果,根据所述预处理后的医疗文本数据进行初始训练及标注,以得到初代种群,包括:
通过所述源数据对所述第一预设数目个超参数不同的BERT模型进行训练,以得到初始训练后的第一预设数目个超参数不同的BERT模型;
通过所述初始训练后的第一预设数目个超参数不同的BERT模型对所述测试数据进行标注,以得到第一标注结果;
通过所述初始训练后的第一预设数目个超参数不同的BERT模型对所述未标注数据进行标注,以得到第二标注结果;
根据所述初始训练后的第一预设数目个超参数不同的BERT模型、第一标注结果及所述第二标注结果确定所述初代种群,其中,所述初代种群中包含有第一预设数目个三元组,且确定一个三元组为一个初代个体,即所述初代种群中有第一预设数目个所述初代个体。
在一个实施例中,所述基于所述第一预设数目个初代个体分别对应的适应度,通过所述初代种群确定第二预设数目对母体,包括:
基于所述第一预设数目个初代个体分别对应的适应度,通过选择算子从所述初代种群中选择出第一若干个初代个体,其中,所述第一若干个的值小于所述第一预设数目个;
对所述第一若干个初代个体进行两两组合,以得到所述第二预设数目对母体。
在一个实施例中,所述对所述第二预设数目对母体进行交叉处理,以得到第二预设数目个交叉个体,包括:
对所述第二预设数目对母体依据所述交叉概率进行交叉处理,以得到所述第二预设数目个交叉个体。
在一个实施例中,所述对所述第二预设数目个交叉个体进行变异处理,以得到第二预设数目个变异个体,包括:
对所述第二预设数目个交叉个体依据所述变异概率进行变异处理,以得到所述第二预设数目个变异个体。
在一个实施例中,所述根据所述第二预设数目个变异个体进行新的训练及标注,以得到第二预设数目个候选个体,包括:
根据所述第二预设数目个变异个体对所述初始训练后的第一预设数目个超参数不同的BERT模型进行训练,以得到新的训练后第一预设数目个超参数不同的BERT模型;
通过所述新的训练后第一预设数目个超参数不同的BERT模型对所述测试数据进行标注,以得到第三标注结果;
通过所述新的训练后第一预设数目个超参数不同的BERT模型对所述未标注数据集进行标注,以得到第四标注结果;
根据所述新的训练后第一预设数目个超参数不同的BERT模型、第三标注结果及所述第四标注结果确定所述候选个体。
在一个实施例中,其特征在于,所述根据所述第二预设数目个候选个体确定新的种群,包括:
对所述第二预设数目个候选个体分别进行适应度计算,以得到所述第二预设数目个候选个体分别对应的适应度;
基于所述第二预设数目个候选个体分别对应的适应度,通过所述选择算子从所述第二预设数目个候选个体中选择出第二若干个候选个体,其中,所述第二若干个的值小于所述第二预设数目个;
将所述第二若干个候选个体组成所述新的种群。
在一个实施例中,所述根据所述新的种群获取最终的标注结果,包括:
输出所述新的群体中适应度最大的候选个体为最优解;
根据所述最优解确定所述最终的标注结果。
在一个实施例中,所述方法还包括:
判断所述新的种群是否满足所述终止进化准则,当所述新的种群满足所述终止进化准则时,根据所述新的种群获取最终的标注结果;
当所述新的种群不满足所述终止进化准则时,使进化代数计算器加1,进而重新执行对所述初代种群中的第一预设数目个初代个体分别进行适应度计算,以得到所述第一预设数目个初代个体分别对应的适应度及之后的操作。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明是基于遗传算法实现的,由于交叉处理的存在,能够使得到的交叉个体继承母体的优点,进而进行变异处理,而由于变异处理的存在,能够使得没有出现过的数据在进行模型标注的时候也可以自动地识别匹配,提高了标注数据的准确性,而通过对这些变异个体进行新的训练及标注,能够得到候选个体,然后根据候选个体确定新的种群,最后能够根据新的种群获取最终的标注结果,并且最终的标注结果准确率高。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一实施例中一种医疗文本数据自动标注方法的流程图;
图2为本发明一实施例中另一种医疗文本数据自动标注方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明一实施例中一种医疗文本数据自动标注方法的流程图,如图1所示,该方法可被实施为以下步骤S101-S110:
在步骤S101中,对原始医疗文本数据进行预处理,以得到预处理后的医疗文本数据,其中所述预处理后的医疗文本数据包括:测试数据、源数据及未标注数据;其中,预处理是对原始医疗文本数据进行人工标注,得到测试数据T(标注过的测试数据T),源数据S(标注过的源数据S),原始医疗文本数据中除了这两部分标注的数据剩下的就是为标注数据U。
在步骤S102中,对预设参数进行初始化操作,以得到初始化结果;其中,预设参数包括但不限于种群规模、交叉概率。
在步骤S103中,基于初始化结果,根据预处理后的医疗文本数据进行初始训练及标注,以得到初代种群,其中,初代种群中包含有第一预设数目个初代个体;其中,初代种群就是大量初代个体的集合,初代个体是由不同的标注结果,不同的模型组成的三元组,也就是将一个三元组看成一个个体。
在步骤S104中,对初代种群中的第一预设数目个初代个体分别进行适应度计算,以得到第一预设数目个初代个体分别对应的适应度;其中,个体中包括模型,和模型标注的标注结果(预测结果),适应度计算是指,通过模型标注(预测)测试集T,适应度等于预测正确的标注数除以测试集中数据的数量得到的值。
在步骤S105中,基于第一预设数目个初代个体分别对应的适应度,通过初代种群确定第二预设数目对母体;本发明是基于遗传算法实现的,此处的实体及上下文出现的个体等一些词与遗传算法中的同名词本质上是一样的。
在步骤S106中,对第二预设数目对母体进行交叉处理,以得到第二预设数目个交叉个体;
在步骤S107中,对第二预设数目个交叉个体进行变异处理,以得到第二预设数目个变异个体;
在步骤S108中,根据第二预设数目个变异个体进行新的训练及标注,以得到第二预设数目个候选个体;
在步骤S109中,根据第二预设数目个候选个体确定新的种群;
在步骤S110中,根据新的种群获取最终的标注结果。其中,因为新的种群中包含有候选个体,而候选个体中又包含有标注结果,因而能够根据新的种群确定最终的标注结果。
上述技术方案的工作原理为:对原始医疗文本数据进行预处理,能够得到预处理后的医疗文本数据,然后,对预设参数进行初始化操作,能够得到初始化结果;进而,基于所述初始化结果,根据所述预处理后的医疗文本数据进行初始训练及标注,能够得到初代种群,其次,对所述初代种群中的第一预设数目个初代个体分别进行适应度计算,能够得到所述第一预设数目个初代个体分别对应的适应度;进而,基于所述第一预设数目个初代个体分别对应的适应度,通过所述初代种群确定第二预设数目对母体;然后,对所述第二预设数目对母体进行交叉处理,能够得到第二预设数目个交叉个体;再对所述第二预设数目个交叉个体进行变异处理,能够得到第二预设数目个变异个体;接着,根据所述第二预设数目个变异个体进行新的训练及标注,能够得到第二预设数目个候选个体;根据所述第二预设数目个候选个体确定新的种群;最后根据所述新的种群获取最终的标注结果。
上述技术方案的有益效果为:本发明是基于遗传算法实现的,由于交叉处理的存在,能够使得到的交叉个体继承母体的优点,进而进行变异处理,而由于变异处理的存在,能够使得没有出现过的数据在进行模型标注的时候也可以自动地识别匹配,提高了标注数据的准确性,而通过对这些变异个体进行新的训练及标注,能够得到候选个体,然后根据候选个体确定新的种群,最后能够根据新的种群获取最终的标注结果,并且最终的标注结果准确率高。
如图2所示,在一个实施例中,所述初始化结果包括种群规模、交叉概率、变异概率、终止进化准则、第一预设数目个超参数不同的BERT模型及进化代数计算器为0,上述步骤S102可被实施为如下步骤S1021-S1025:
在步骤S1021中,确定种群规模;其中,种群规模用n表示,可以设定。
在步骤S1022中,确定交叉概率及变异概率;其中,交叉概率可用Pc表示,取值可以为0.7,变异概率用Pm表示,取值可为0.3.
在步骤S1023中,设置终止进化准则;
在步骤S1024中,获取第一预设数目个超参数不同的BERT模型;其中,第一预设数目可以为n,不同的模型可为
Figure BDA0002419866860000071
在步骤S1025中,设置进化代数计数器为0。其中,设置进化代数计数器t=0。
本实施例中,先对一些参数进行初始化,以为后续的数据标注提供一个有利的基础。
在一个实施例中,所述基于所述初始化结果,根据所述预处理后的医疗文本数据进行初始训练及标注,以得到初代种群,包括:
通过所述源数据对所述第一预设数目个超参数不同的BERT模型进行训练,以得到初始训练后的第一预设数目个超参数不同的BERT模型;其中,这一过程可用如下公式
Figure BDA0002419866860000081
表示,等号前面的为初始训练后的模型,等号后边括号中的为初始训练前的模型,i的取值为0到n,o指的是t为o,以下同理。
通过所述初始训练后的第一预设数目个超参数不同的BERT模型对所述测试数据进行标注,以得到第一标注结果;其中,这一过程可以用如下公式表示:
Figure BDA0002419866860000082
通过所述初始训练后的第一预设数目个超参数不同的BERT模型对所述未标注数据进行标注,以得到第二标注结果;其中,这一过程可用如下公式
Figure BDA0002419866860000083
表示。
根据所述初始训练后的第一预设数目个超参数不同的BERT模型、第一标注结果及所述第二标注结果确定所述初代种群,其中,所述初代种群中包含有第一预设数目个三元组,且确定一个三元组为一个初代个体,即所述初代种群中有第一预设数目个所述初代个体。其中,三元组的表示为
Figure BDA0002419866860000084
而这些三元组的集合就是初代种群,一个三元组为一个初代个体。种群可以表示为X(t),而此处t取o,所以初代个体的表示为X(0)。
本实施例中的初代种群用于为得到最终的标注结果提供数据。
在一个实施例中,所述基于所述第一预设数目个初代个体分别对应的适应度,通过所述初代种群确定第二预设数目对母体,包括:
基于所述第一预设数目个初代个体分别对应的适应度,通过选择算子从所述初代种群中选择出第一若干个初代个体,其中,所述第一若干个的值小于所述第一预设数目个;其中,适应度可以表示为
Figure BDA0002419866860000085
选择算子是指从一个种群中选取适应度最大的前m个体,可用SELECT(X(t),m)表示,也就是此处第一若干个可为m。
对所述第一若干个初代个体进行两两组合,以得到所述第二预设数目对母体。对m个初代个体两两组合就形成了(m*(m-1))/2对母体,也就是第二预设数目为(m*(m-1))/2。
通过选择算子能进行筛选,留下一些优秀的初代个体,然后进行组合,能够得到优点更多的母体。
在一个实施例中,所述对所述第二预设数目对母体进行交叉处理,以得到第二预设数目个交叉个体,包括:
对所述第二预设数目对母体依据所述交叉概率进行交叉处理,以得到所述第二预设数目个交叉个体。其中,对交叉处理解释为,对于两个个体
Figure BDA0002419866860000091
对于
Figure BDA0002419866860000092
Figure BDA0002419866860000093
的每一条数据,以交叉概率Pc执行互换,即为交叉处理。记为
Figure BDA0002419866860000094
通过交叉处理能够使得生成的交叉个体继承母体的优点。
在一个实施例中,所述对所述第二预设数目个交叉个体进行变异处理,以得到第二预设数目个变异个体,包括:
对所述第二预设数目个交叉个体依据所述变异概率进行变异处理,以得到所述第二预设数目个变异个体。其中,对变异处理解释为,对一个个体
Figure BDA0002419866860000095
Figure BDA0002419866860000096
中的每一条数据,以变异概率Pm变更其原有的标签,即为变异处理。记为
Figure BDA0002419866860000097
由于变异的存在,使得没有出现过的数据模型也能够得到自动地识别,匹配。提升了标注数据的准确性。
在一个实施例中,所述根据所述第二预设数目个变异个体进行新的训练及标注,以得到第二预设数目个候选个体,包括:
根据所述第二预设数目个变异个体对所述初始训练后的第一预设数目个超参数不同的BERT模型进行训练,以得到新的训练后第一预设数目个超参数不同的BERT模型;其中,对所述初始训练后的第一预设数目个超参数不同的BERT模型进行训练可用如下公式表示:
Figure BDA0002419866860000101
是指通过源数据S和变异个体中的
Figure BDA0002419866860000102
对初始训练后的第一预设数目个超参数不同的BERT模型进行训练,等号前的为新的训练后第一预设数目个超参数不同的BERT模型,等号后括号中的为初始训练后的第一预设数目个超参数不同的BERT模型。
通过所述新的训练后第一预设数目个超参数不同的BERT模型对所述测试数据进行标注,以得到第三标注结果;
通过所述新的训练后第一预设数目个超参数不同的BERT模型对所述未标注数据集进行标注,以得到第四标注结果;
根据所述新的训练后第一预设数目个超参数不同的BERT模型、第三标注结果及所述第四标注结果确定所述候选个体。
通过对初始训练后的第一预设数目个超参数不同的BERT模型进行训练,得到标注结果更加准确的新的训练后第一预设数目个超参数不同的BERT模型,因而,通过新的训练后第一预设数目个超参数不同的BERT模型进行标注得到的标注结果也更准确,进而确定的候选个体越佳。
在一个实施例中,其特征在于,所述根据所述第二预设数目个候选个体确定新的种群,包括:
对所述第二预设数目个候选个体分别进行适应度计算,以得到所述第二预设数目个候选个体分别对应的适应度;
基于所述第二预设数目个候选个体分别对应的适应度,通过所述选择算子从所述第二预设数目个候选个体中选择出第二若干个候选个体,其中,所述第二若干个的值小于所述第二预设数目个;
将所述第二若干个候选个体组成所述新的种群。新的种群可用X(t+1)表示。
在一个实施例中,所述根据所述新的种群获取最终的标注结果,包括:
输出所述新的群体中适应度最大的候选个体为最优解;
根据所述最优解确定所述最终的标注结果。其中,候选个体中包含有第三标注结果和第四标注结果,因而能够根据最优解得到最终的标注结果。
通过本实施例的技术方案,能够得到标注最准确的标注结果。
在一个实施例中,所述方法还包括:
判断所述新的种群是否满足所述终止进化准则,当所述新的种群满足所述终止进化准则时,根据所述新的种群获取最终的标注结果;
当所述新的种群不满足所述终止进化准则时,使进化代数计算器加1,进而重新执行对所述初代种群中的第一预设数目个初代个体分别进行适应度计算,以得到所述第一预设数目个初代个体分别对应的适应度及之后的操作。
通过本实施例的技术方案,保证标注结果的准确性。
对本发明实施例提供的上述一种医疗文本数据自动标注方法,本发明实施例还提供了一种医疗文本数据自动标注装置,该装置包括:
预处理模块,用于对原始医疗文本数据进行预处理,以得到预处理后的医疗文本数据,其中所述预处理后的医疗文本数据包括:测试数据、源数据及未标注数据;
初始化模块,用于对预设参数进行初始化操作,以得到初始化结果;
初始训练及标注模块,用于基于所述初始化结果,根据所述预处理后的医疗文本数据进行初始训练及标注,以得到初代种群,其中,所述初代种群中包含有第一预设数目个初代个体;
计算模块,用于对所述初代种群中的第一预设数目个初代个体分别进行适应度计算,以得到所述第一预设数目个初代个体分别对应的适应度;
第一确定模块,用于基于所述第一预设数目个初代个体分别对应的适应度,通过所述初代种群确定第二预设数目对母体;
交叉处理模块,用于对所述第二预设数目对母体进行交叉处理,以得到第二预设数目个交叉个体;
变异处理模块,用于对所述第二预设数目个交叉个体进行变异处理,以得到第二预设数目个变异个体;
新的训练及标注模块,用于根据所述第二预设数目个变异个体进行新的训练及标注,以得到第二预设数目个候选个体;其中,新的是相对于初始而言的。
第二确定模块,用于根据所述第二预设数目个候选个体确定新的种群;
获取模块,用于根据所述新的种群获取最终的标注结果。
在一个实施例中,所述初始化结果包括种群规模、交叉概率、变异概率、终止进化准则、第一预设数目个超参数不同的BERT模型及进化代数计算器为0,所述初始化模块,包括:
第一确定子模块,用于确定所述种群规模;
第二确定子模块,用于确定所述交叉概率及所述变异概率;
第一设置子模块,用于设置所述终止进化准则;
获取子模块,用于获取所述第一预设数目个超参数不同的BERT模型;
第二设置子模块,用于设置所述进化代数计数器为0。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种医疗文本数据自动标注方法,其特征在于,包括:
对原始医疗文本数据进行预处理,以得到预处理后的医疗文本数据,其中所述预处理后的医疗文本数据包括:测试数据、源数据及未标注数据;
对预设参数进行初始化操作,以得到初始化结果;
基于所述初始化结果,根据所述预处理后的医疗文本数据进行初始训练及标注,以得到初代种群,其中,所述初代种群中包含有第一预设数目个初代个体;
对所述初代种群中的第一预设数目个初代个体分别进行适应度计算,以得到所述第一预设数目个初代个体分别对应的适应度;
基于所述第一预设数目个初代个体分别对应的适应度,通过所述初代种群确定第二预设数目对母体;
对所述第二预设数目对母体进行交叉处理,以得到第二预设数目个交叉个体;
对所述第二预设数目个交叉个体进行变异处理,以得到第二预设数目个变异个体;
根据所述第二预设数目个变异个体进行新的训练及标注,以得到第二预设数目个候选个体;
根据所述第二预设数目个候选个体确定新的种群;
根据所述新的种群获取最终的标注结果。
2.如权利要求1所述的方法,其特征在于,所述初始化结果包括种群规模、交叉概率、变异概率、终止进化准则、第一预设数目个超参数不同的BERT模型及进化代数计算器为0,所述对预设参数进行初始化操作,以得到初始化结果,包括:
确定所述种群规模;
确定所述交叉概率及所述变异概率;
设置所述终止进化准则;
获取所述第一预设数目个超参数不同的BERT模型;
设置所述进化代数计数器为0。
3.如权利要求2所述的方法,其特征在于,所述基于所述初始化结果,根据所述预处理后的医疗文本数据进行初始训练及标注,以得到初代种群,包括:
通过所述源数据对所述第一预设数目个超参数不同的BERT模型进行训练,以得到初始训练后的第一预设数目个超参数不同的BERT模型;
通过所述初始训练后的第一预设数目个超参数不同的BERT模型对所述测试数据进行标注,以得到第一标注结果;
通过所述初始训练后的第一预设数目个超参数不同的BERT模型对所述未标注数据进行标注,以得到第二标注结果;
根据所述初始训练后的第一预设数目个超参数不同的BERT模型、第一标注结果及所述第二标注结果确定所述初代种群,其中,所述初代种群中包含有第一预设数目个三元组,且确定一个三元组为一个初代个体,即所述初代种群中有第一预设数目个所述初代个体。
4.如权利要求1所述的方法,其特征在于,所述基于所述第一预设数目个初代个体分别对应的适应度,通过所述初代种群确定第二预设数目对母体,包括:
基于所述第一预设数目个初代个体分别对应的适应度,通过选择算子从所述初代种群中选择出第一若干个初代个体,其中,所述第一若干个的值小于所述第一预设数目个;
对所述第一若干个初代个体进行两两组合,以得到所述第二预设数目对母体。
5.如权利要求2所述的方法,其特征在于,所述对所述第二预设数目对母体进行交叉处理,以得到第二预设数目个交叉个体,包括:
对所述第二预设数目对母体依据所述交叉概率进行交叉处理,以得到所述第二预设数目个交叉个体。
6.如权利要求2所述的方法,其特征在于,所述对所述第二预设数目个交叉个体进行变异处理,以得到第二预设数目个变异个体,包括:
对所述第二预设数目个交叉个体依据所述变异概率进行变异处理,以得到所述第二预设数目个变异个体。
7.如权利要求3所述的方法,其特征在于,所述根据所述第二预设数目个变异个体进行新的训练及标注,以得到第二预设数目个候选个体,包括:
根据所述第二预设数目个变异个体对所述初始训练后的第一预设数目个超参数不同的BERT模型进行训练,以得到新的训练后第一预设数目个超参数不同的BERT模型;
通过所述新的训练后第一预设数目个超参数不同的BERT模型对所述测试数据进行标注,以得到第三标注结果;
通过所述新的训练后第一预设数目个超参数不同的BERT模型对所述未标注数据集进行标注,以得到第四标注结果;
根据所述新的训练后第一预设数目个超参数不同的BERT模型、第三标注结果及所述第四标注结果确定所述候选个体。
8.如权利要求7所述的方法,其特征在于,所述根据所述第二预设数目个候选个体确定新的种群,包括:
对所述第二预设数目个候选个体分别进行适应度计算,以得到所述第二预设数目个候选个体分别对应的适应度;
基于所述第二预设数目个候选个体分别对应的适应度,通过所述选择算子从所述第二预设数目个候选个体中选择出第二若干个候选个体,其中,所述第二若干个的值小于所述第二预设数目个;
将所述第二若干个候选个体组成所述新的种群。
9.如权利要求8所述的方法,其特征在于,所述根据所述新的种群获取最终的标注结果,包括:
输出所述新的群体中适应度最大的候选个体为最优解;
根据所述最优解确定所述最终的标注结果。
10.如权利要求1所述的方法,其特征在于,所述方法还包括:
判断所述新的种群是否满足所述终止进化准则,当所述新的种群满足所述终止进化准则时,根据所述新的种群获取最终的标注结果;
当所述新的种群不满足所述终止进化准则时,使进化代数计算器加1,进而重新执行对所述初代种群中的第一预设数目个初代个体分别进行适应度计算,以得到所述第一预设数目个初代个体分别对应的适应度及之后的操作。
CN202010202518.9A 2020-03-20 2020-03-20 一种医疗文本数据自动标注方法 Active CN111462915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010202518.9A CN111462915B (zh) 2020-03-20 2020-03-20 一种医疗文本数据自动标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010202518.9A CN111462915B (zh) 2020-03-20 2020-03-20 一种医疗文本数据自动标注方法

Publications (2)

Publication Number Publication Date
CN111462915A true CN111462915A (zh) 2020-07-28
CN111462915B CN111462915B (zh) 2023-08-18

Family

ID=71680877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010202518.9A Active CN111462915B (zh) 2020-03-20 2020-03-20 一种医疗文本数据自动标注方法

Country Status (1)

Country Link
CN (1) CN111462915B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988981A (zh) * 2021-05-14 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于遗传算法的自动标注方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809229A (zh) * 2015-05-07 2015-07-29 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统
CN105005792A (zh) * 2015-07-13 2015-10-28 河南科技大学 一种基于knn算法的稿件翻译优化方法
CN105787088A (zh) * 2016-03-14 2016-07-20 南京理工大学 一种基于分段编码遗传算法的文本信息分类方法
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置
KR102043236B1 (ko) * 2018-05-17 2019-11-11 서울대학교산학협력단 수술 또는 치료결과데이터를 기초로 복수의 환자의 생체신호데이터를 전문가의 수작업에 의한 표지없이 치료후 예후데이터와의 관련성에 따라 자동으로 분류하기 위한 방법 및 그 방법을 구현하기 위한 시스템
DE202019105282U1 (de) * 2019-09-24 2019-11-15 Albert-Ludwigs-Universität Freiburg Vorrichtung zum Optimieren eines System für das maschinelle Lernen

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809229A (zh) * 2015-05-07 2015-07-29 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统
CN105005792A (zh) * 2015-07-13 2015-10-28 河南科技大学 一种基于knn算法的稿件翻译优化方法
CN105787088A (zh) * 2016-03-14 2016-07-20 南京理工大学 一种基于分段编码遗传算法的文本信息分类方法
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
KR102043236B1 (ko) * 2018-05-17 2019-11-11 서울대학교산학협력단 수술 또는 치료결과데이터를 기초로 복수의 환자의 생체신호데이터를 전문가의 수작업에 의한 표지없이 치료후 예후데이터와의 관련성에 따라 자동으로 분류하기 위한 방법 및 그 방법을 구현하기 위한 시스템
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置
DE202019105282U1 (de) * 2019-09-24 2019-11-15 Albert-Ludwigs-Universität Freiburg Vorrichtung zum Optimieren eines System für das maschinelle Lernen

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988981A (zh) * 2021-05-14 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于遗传算法的自动标注方法

Also Published As

Publication number Publication date
CN111462915B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
Flagel et al. The unreasonable effectiveness of convolutional neural networks in population genetic inference
CN111582348B (zh) 条件生成式对抗网络的训练方法、装置、设备及存储介质
CN113947607B (zh) 一种基于深度学习的癌症病理图像生存预后模型构建方法
US11790279B2 (en) System and method for class specific deep learning
CN108446741B (zh) 机器学习超参数重要性评估方法、系统及存储介质
US20160379133A1 (en) Reasoning classification based on feature pertubation
US20200334557A1 (en) Chained influence scores for improving synthetic data generation
CN106156857B (zh) 变分推理的数据初始化的方法和装置
CN110990711B (zh) 基于机器学习的微信公众号推荐方法及系统
Young et al. Finite mixture-of-gamma distributions: estimation, inference, and model-based clustering
WO2019123451A1 (en) System and method for use in training machine learning utilities
CN106326904A (zh) 获取特征排序模型的装置和方法以及特征排序方法
CN114239744B (zh) 一种基于变分生成对抗网络的个体处理效应评估方法
CN111462915A (zh) 一种医疗文本数据自动标注方法
CN111582315A (zh) 样本数据处理方法、装置及电子设备
Dehariya et al. Brain image segmentation to diagnose tumor by applying wiener filter and intelligent water drop algorithm
CN109376784A (zh) 一种人格预测方法及人格预测装置
CN111753992A (zh) 筛选方法和筛选系统
CN115167965A (zh) 交易进度条的处理方法及装置
WO2022162839A1 (ja) 学習装置、学習方法、及び、記録媒体
CN113656279A (zh) 基于残差网络和度量注意机制的代码气味检测方法
CN111489802B (zh) 报告单编码模型生成方法、系统、设备及存储介质
KR20210050362A (ko) 앙상블 모델 프루닝 방법, 유전자 가위를 검출하는 앙상블 모델 생성 방법 및 장치
JP2016194912A (ja) 混合モデルの選択方法及び装置
Koerner et al. Neuromodulation biomarker selection using GPU-parallelized genetic algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant