CN111028953B - 一种对医学数据进行提示性标注的控制方法 - Google Patents
一种对医学数据进行提示性标注的控制方法 Download PDFInfo
- Publication number
- CN111028953B CN111028953B CN201911261092.8A CN201911261092A CN111028953B CN 111028953 B CN111028953 B CN 111028953B CN 201911261092 A CN201911261092 A CN 201911261092A CN 111028953 B CN111028953 B CN 111028953B
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- labeling
- subset
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明提供一种对医学数据进行提示性标注的控制方法,包括如下步骤:a.采用决策树算法对医学数据集进行分类生成待标注数据集;b.基于贝叶斯算法的损失评分函数作为适应度函数的遗传算法挖掘所述待标注数据集的多个提示点;c.标注终端基于多个所述提示点执行标注步骤。本发明首先通过决策树算法完成对医学数据集的分类,形成大量的小样本数据集,避免产生过常规数据分类中保留大样本数据导致医疗关键信息遗漏的问题,在此基础上,参考遗传算法通过自定义的混合算法完成提示点的选取。
Description
技术领域
本发明涉及数据标注领域,尤其是针对医学数据进行数据标注的方法,具体地涉及一种对医学数据进行提示性标注的控制方法。
背景技术
随着数据时代的到来,各种不同类型的数据被搜集和处理,医学数据作为最为特殊的一种数据,其所包含的变量众多,包括患者数据、医生数据、疾病数据、症状数据、检验数据、诊断数据、治疗数据、药物数据等等。从医学活动本身出发,其最大的区别点在于,医学行为之间存在着清晰的逻辑关系,因此医学数据之间也就存在着清晰的语义关系,同时,医学数据通常是由医生或者患者输入或者生成的,这些数据间的语义关系能够反应医生的决策和对应的治疗方法与疾病发展情况之间的相互关系。
现有针对人工智能领域应用的医学数据,一种是通过深度挖掘HIS系统病历数据生成,通常称之为结构化信息抽取,另一种是另行建模并通过医务工作者重新填写生成,两种方法都可以获得符合机器学习质量要求的基础数据。从商业运营的角度考虑,上述两种基础数据的获得方法,均源自国际上在人工智能领域较为领先的公司,之所以采取该两种方法,其原因在于国外医学数据的稀缺性。而对我国而言,我们具备世界上最大的人口基数和医疗就诊人次,医学数据的基础数量是海量的,但整体质量却参差不齐,在此基础上,如果采用上述两种常用的方法处理医学数据,对于我国国情而言,其成本更加高昂,耗时将会更久。
无论采取何种方法,其收集而来的医学数据都需要经过标注后方可作为机器学习的素材,而医学数据的标注对专业化的要求极高,其必须由医生来完成,这是医学数据标注区别于消费数据、生活数据、语言数据等传统大数据标注之所在。但是,从实际运营角度出发,特别是从我国国情考虑,在医生已经超负荷工作的前提下,组织大批量的医生专门从事医学数据的标注是基本无法实现。
为此,如果发掘一种算法,能够快速对海量医学数据中的疑难重症数据进行提示性处理,并由标注终端在对数据进行提示的前提下完成标注,将会大大提高标注效率。
发明内容
本发明技术方案所解决的技术问题为,如何对医学数据集进行提示,以提供给标注终端作为数据标注的提示点。
为了解决上述技术问题,本发明技术方案一种对医学数据进行提示性标注的控制方法,包括如下步骤:
a.采用决策树算法对医学数据集进行分类生成待标注数据集;
b.基于贝叶斯算法的损失评分函数作为适应度函数的遗传算法挖掘所述待标注数据集的多个提示点;
c.标注终端基于多个所述提示点执行标注步骤。
优选地,所述步骤a包括如下步骤:
a1.导出所述决策树算法的分类规则集,其中,每条分类规则对应一个独立的数据子集,全部所述数据子集组成所述医学数据集;
a2.判断所述数据子集所包含的样本数量是否大于样本阈值,若所述数据子集的样本数量大于所述样本阈值,则将对应的所述数据子集定义为大样本数据集;若所述数据子集的样本数量小于或者等于所述样本阈值,则将对应的所述数据子集定义为小样本数据集;
a3.将全部所述小样本数据集汇总后生成所述待标注数据集。
优选地,所述步骤b包括如下步骤:
b1.将每条所述分类规则编码成一个染色体,每个染色体被分成n个基因,其中,n为所述待标注数据集的属性数,第i个基因对应所述待标注数据集的第i个属性;
b2.通过函数F=α*PV++β*PV-确定每个所述染色体的适应度F,其中,PV+表示所述染色体具备标注价值的概率值,0<PV+<1,PV-表示所述染色体不具备标注价值的概率值,0<PV-<1,α表示所述PV+的权重,β表示所述PV-的权重;
b3.若所述染色体对应的适应度F小于适应度阈值,则将所述染色体对应的数据子集作为所述提示点。
根据权利要求3所述的控制方法,其特征在于:
其中,P(D+)表示系统预估所述分类规则对应的数据子集归属于小样本数据集的先验概率且0<P(D+)<1,P(D-)=1-P(D+),P(T+|D+)表示系统预估所述分类规则对应的数据子集归属于所述小样本数据集且该数据子集被归属于所述小样本数据集的概率,P(T+|D-)表示系统预估所述分类规则对应的数据子集归属于所述小样本数据集但该数据子集被归属于所述大样本数据集的概率,P(T-|D-)表示系统预估所述分类规则对应的数据子集归属于所述大样本数据集且该数据子集被归属于所述大样本数据集的概率,P(T-|D+)表示系统预估所述分类规则对应的数据子集归属于所述大样本数据集但该数据子集被归属于所述小样本数据集的概率。
优选地,所述待标注数据集的属性分为特征属性和类属性,则所述基因对应分为特征基因和类基因,其中,所述特征基因参与进化,所述类基因不参与进化。
优选地,所述步骤c包括如下步骤:
c1.将步骤b3中的适应度小于所述适应度阈值所对应的全部所述染色体按照适应度从大到小的规则进行排序;
c2.所述标注终端对前M个所述染色体对应的数据子集执行标注步骤,所述标注终端对最后M个所述染色体对应的数据子集不执行标注步骤;
c3.除最后M个所述染色体外,将前M个所述染色体对应的数据子集与其余染色体对应的数据子集进行随机交叉配对,所述标注终端对交叉配对后的数据子集执行标注步骤。
优选地,所述步骤c3中的随机交叉配对仅针对相对应的特征基因进行。
本发明首先通过决策树算法完成对医学数据集的分类,形成大量的小样本数据集,避免产生过常规数据分类中保留大样本数据导致医疗关键信息遗漏的问题,在此基础上,参考遗传算法通过自定义的混合算法完成提示点的选取。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的和优点将会变得更明显:
图1为本发明的一种具体实施方式的,一种对医学数据进行提示性标注的控制方法的流程图;
图2为本发明的第一实施例的,另一种对医学数据进行提示性标注的控制方法的流程图;
图3为本发明的第二实施例的,另一种对医学数据进行提示性标注的控制方法的流程图;以及
图4为本发明的第三实施例的,另一种对医学数据进行提示性标注的控制方法的流程图。
具体实施方式
为了更好的使本发明的技术方案清晰的表示出来,下面结合附图对本发明作进一步说明。
本领域技术人员理解,医学数据通常来自于用户终端的输入,所述用户终端可以理解为一种终端设备,其可以通过人工输入或者通过与不同的检测设备打通端口传输数据。例如,可以是手机或者平板电脑,通过人工输入或者拍照自动识别的方式录入数据,又例如,可以是与体征传感器或者医疗检测装置共同数据的计算机,通过开放端口实时传输数据。更为具体地,基础医学数据是与个体相关联的数据,可以从多个维度进行理解:从医学数据的产生渠道来看,所述基础医学数据主要可分为医生端数据和患者端数据,医生端数据包括门急诊记录、住院记录、影像记录、实验室记录、用药记录、手术记录、随访记录等,患者端数据包括个人生活习惯、生活环境、家庭遗传、家庭环境等。从基础医学数据的组成结构来看,基础医学数据可分为:(1)检查手段产生的测量数值,如体温、血压、血氧饱和度、化验值等;(2)仪器记录的信号,如心电图、脑电图等;(3)医学影像设备生成的图像,如X线图像、CT图像和MRI图像等;(4)文本形式呈现的报告结果,例如医生结合自身医学知识给出的针对测量数值、信号、图像的解释和医生做出的病理诊断等;(5)叙述性的数据,如医生记录的主诉(患者口述的病情)、病人的病历;(6)元数据文本,例如关于器官、药物、疾病以及治疗方法的知识、医疗设备的参数等;(7)社会特征,例如医院的机构信息、医生和患者的个人信息等。这些不同种类的基础医学数据虽然结构和包含的语义各不相同,但它们能够相互印证相互补充,都从特定的角度表达了医学信息的内容和特点,构成了多样且互补的数据集合。
进一步地,医学数据标注之目的就在于发现海量数据中的最具价值的数据,为下一步的人工智能研究做基础,海量数据的源头来自于上一段的描述,之后,还会对数据做一些常规化的矫正、去除或者忽略噪声以及特殊值的处理,这都属于数据质量方面的问题。在对海量数据完成数据质量修正后,即可进入医学数据集的提示点筛选阶段,筛选算法有很多种,包括人工智能神经网络、粗糙集、决策树、遗传算法、最临近技术、规则归纳等,上述算法各有不同的特点,并未绝对性的好坏之分,结合本发明筛选提示点之目的,算法的选择要同时具备两个特点,一是符合医学全面性评价要求,也就是避免遗漏;二是满足医学上的新颖性需求,也就是发现具有临床价值且未被记载于临床指南中的医学信息。
进一步地,通过衡量不同算法的特点,混合后的技术应体现两个方面的优点:
快速的、鲁棒的算法。要在庞大的医学数据库提取提示点,必须考虑效率问题,快速处理的算法对远程医疗具有重大意义,其直接决定响应速度和成本,同时,医学数据库是不断变化的,所以要去有一定的容错性和鲁棒性。
准确、可靠的算法。提示点的挖掘主要是为数据标注打基础,标注后的数据又将用于医学研究,降低算法运行过程中的风险,提高提示点挖掘的准确性和科学性,是算法能否得到实际应用的关键所在。
图1示出了本发明的具体实施方式的,一种对医学数据进行提示性标注的控制方法,包括如下步骤:
首先执行步骤S101,采用决策树算法对医学数据集进行分类生成待标注数据集。本领域技术人员理解,医学数据区别于常规的数据,其往往更加注重对于小样本数据集的研究,因为小样本数据集中往往包含着一些疑难杂症的信息或规律,决策树算法作为一种典型的分类方法,具有分类速度快、计算量小、描述简单的特点。具体地,决策树算法是一种逼近离散值目标函数的方法,分为分类树和回归树两种,其中,所有变量为离散值的决策树称为分类树,所有变量为连续值的决策树称为回归树。决策树分类方法采用自顶向下的递归方式,决策树的根节点是整个数据集合空间,每个分结点是对一个单一变量的测试,每个分支代表着一个测试输出。从决策树的根到叶结点的一条路径就对应着一条合取规则,整个决策树对应一组析取表达式规则,目前常用的决策树方法包括ID3、C4.5、CAR、SLIQ、SPRINT等。
进一步地,通过是采用在数据集合中寻找当前最好分裂属性来划分,一般做法事穷尽所有的属性,对每个属性分裂的好坏给出量化指标,依据这个指标选择一个最好的分裂属性,选择不同的分裂属性直接影响决策树生长的快慢、结构的好坏和产生的规则信息的优劣,具体属性选择的实现要综合考虑信息论原理,包括自信息量、信息熵、条件信息熵、平均互信息量。优选地,采用信息增益作为选择分类属性的方法,信息增益越大的属性,其分裂数据集的可能性就越大,决策树的形成就是递归的对数据集中的每个结点进行分裂,直到结点的所有类别都属于同一类或者没有多余的属性来划分医学数据集。
为进一步说明本步骤,以下示出本步骤的具体示例:
选择代表性的部分医学数据的单个结点开始建树;
若该部分医学数据都属于同一个类,则将该结点成为叶结点,并用该类标记;
若该部分医学数据不属于同一个类,则使用信息增益比例作为启发信息,选择能够最好地将医学数据分类的属性,定义该属性成为该结点的“测试”或者“判断”属性;
对于测试属性的每个已知的值,创建一个分支,并据此划分医学数据;
重复执行上述步骤,递归地形成每个划分上的医学数据决策树,同时,若一个属性出现在一个结点上,则该属性衍生的迭代属性不再定义为该结点的“测试”或者“判断”属性;
重复执行上述步骤过程中,出现以下任一条件则停止重复步骤:
1)给定结点的全部医学数据属于同一类;
2)在没有剩余属性可以进一步划分医学数据时,采用多数表决来标识该结点的类别;
3)当分支没有医学数据时,统计整个医学数据集中占多数的数据类别,并用该类别来标识该叶结点。
进一步地,执行步骤S102,基于贝叶斯算法的损失评分函数作为适应度函数的遗传算法挖掘所述待标注数据集的多个提示点。本领域技术人员理解,适应度函数用于对个体医学数据进行评价,也是优化过程发展的依据。对于简单的医学数据的优化,通常直接利用目标函数变换成适应度函数,对于复杂问题则需要构造个性化的适应度函数,但无论如何,适应度函数遵循两个原则:一是目标函数的优化方向(例如挖掘最大值或者最小值)与适应度函数增加的方向一致;二是适应度函数值非负。适应度函数直接影响遗传算法的性能,通常是改变数据种群进化的早熟收敛进度,适应度函数的改进有线性变换、指数变化等。
进一步地,本发明的决策树算法主要是根据属性来产生相应的分支用以划分数据集,随着数据集的不断划分,可能在一些特定的分支上所包含的样本数变得很小,此时,为了防止产生过拟合现象,通常还会采用对包含小样本数据集的分支进行剪除或转换的步骤,但这样又会造成产生更多大样本数据集的问题,本步骤引入贝叶斯算法和遗传算法弥补决策树算法的这一问题。具体地,医学数据的评价指标一般包括准确度、敏感度与特异度,其中,准确度没有利用假性信息(包括假性肯定性信息和假性否定性信息),所以即使准确率共同也可能具有不同的表达。为此,用敏感度和特异度来评价更为合适,其中,敏感度越高,表示假性否定性概率越低,这样遗漏信息的可能性也就低,而特异度越高,表示假性肯定性概率月底,这样错误判断信息的可能性也就更低,实际应用中,肯定性信息概率通常较低,敏感度指标偏低是常态,若同时考虑敏感度和特异度作为适应度函数,会导致适应度函数将肯定性信息予以淘汰。
进一步地,步骤S101中的医学数据集,其质量的好坏取决于分类的准确程度,如果基于贝叶斯定理构建损失评分函数,则能够充分考虑到医学数据集中肯定性信息相对较少的问题,降低肯定性信息被淘汰的概率,更能够真实的反映分类预测效果,避免适应度函数错误淘汰肯定性信息的现象。相应地,通过适应度函数评价的医学数据即可作为一个提示点,理论上,适应度越接近于1,其被评价为提示点的可能性越高。
进一步地,执行步骤S103,标注终端基于多个所述提示点执行标注步骤。具体地,标注终端的标注行为通常包括标签化和字符串的增减,现有实践中是由人工操作完成,其本身并未固定的规律可遵循,具有较大的个性化发挥,但为了提高标注行为的效率,可以提供一些智能化的辅助工具,例如,分词工具、OCR识别等,这些都属于现有技术,在此不予赘述。
作为本发明的第一实施例,图2示出了另一种对医学数据进行提示性标注的控制方法,包括如下步骤:
首先执行步骤S201,导出所述决策树算法的分类规则集,其中,每条分类规则对应一个独立的数据子集,全部所述数据子集组成所述医学数据集。具体地,所述分类规则集首先是通过决策树算法参考医学数据集在理论上完成的分类,其用于对所述医学数据集进行分类预测,即,任何一个医学数据样本凡是沿着决策树能够向下直到某一个叶结点,那么该类医学数据样本即构成一个数据子集,对于无法沿着决策树归结到任何一个叶结点的数据,则自动将其赋予至数据样本最多的数据子集。
进一步地,执行步骤S202,判断所述数据子集所包含的样本数量是否大于样本阈值,若所述数据子集的样本数量大于所述样本阈值,则执行步骤S203,将对应的所述数据子集定义为大样本数据集;若所述数据子集的样本数量小于或者等于所述样本阈值,则执行步骤S204,将对应的所述数据子集定义为小样本数据集。具体地,所述样本阈值以数据样本的数量为单位,由系统设定,而计入所述数据子集的样本数量的样本是指经过决策树归结处理数据。
进一步地,执行步骤S205,将全部所述小样本数据集汇总后生成所述待标注数据集。具体地,本步骤中的汇总是指集合运算中的并集运算,不包括对小样本数据集的交叉运算和变异运算。更为具体地,所述待标注数据集的样本数量肯定小于所述医学数据集,同时,其包含的分类规则也小于所述医学数据集。
进一步地,执行步骤S206,基于贝叶斯算法的损失评分函数作为适应度函数的遗传算法挖掘所述待标注数据集的多个提示点。具体地,本步骤可以结合步骤S102予以理解,不同的是,本实施例中,通过分类规则集完成对医学数据集的分类预测后,每个数据样本所产生输出类别需要同医学数据集中该样本的原先类别进行比较,即,判断按照分类规则集完成的数据子集分类是否属于假性肯定性信息亦或是假性否定性信息,常用的数据评价算法可以用于实现本步骤。
进一步地,执行步骤S207,标注终端基于多个所述提示点执行标注步骤,具体地,本步骤可以结合步骤S103予以理解,在此不予赘述。
作为本发明的第二实施例,图3示出了另一种对医学数据进行提示性标注的控制方法,包括如下步骤:
首先执行步骤S301,导出所述决策树算法的分类规则集,其中,每条分类规则对应一个独立的数据子集,全部所述数据子集组成所述医学数据集,具体可以结合步骤S201予以理解,在此不予赘述。
进一步地,执行步骤S302,判断所述数据子集所包含的样本数量是否大于样本阈值,若所述数据子集的样本数量大于所述样本阈值,则执行步骤S303,将对应的所述数据子集定义为大样本数据集;若所述数据子集的样本数量小于或者等于所述样本阈值,则执行步骤S304,将对应的所述数据子集定义为小样本数据集。
进一步地,执行步骤S305,将全部所述小样本数据集汇总后生成所述待标注数据集,具体可以结合步骤S205予以理解,在此不予赘述。
进一步地,执行步骤S306,将每条所述分类规则编码成一个染色体,每个染色体被分成n个基因,其中,n为所述待标注数据集的属性数,第i个基因对应所述待标注数据集的第i个属性。具体地,本步骤中,每个基因相当于分类规则坐部的一个合取项和右部的结论,整个染色体可以代表一条完整的IF-THEN规则。在一个优选实施例中,所述待标注数据集的属性分为特征属性和类属性,则所述基因对应分为特征基因和类基因,其中,特征属性对应的基因成为特征基因,它组成了规则的IF部分,而类属性所对应的基因成为类基因,它组成了规则的THEN部分,所述特征基因参与进化,所述类基因不参与进化。每个特征基因内部可以分为三部分:权(Weight)、运算符(Operator)和值(Value),权表示该基因对应的属性是否在分类规则中,通常是一个布尔型变量,运算符表示该基因所采用的操作符,若是布尔值和离散值属性可以取“=”或者“≠”,若是连续值属性可以取“≤”或者“>”。值表示该基因对应的属性在分类规则中的取值,属性值不同,可以采用不同的进制编码。
进一步地,执行步骤S307,通过函数F=α*PV++β*PV-确定每个所述染色体的适应度F,其中,PV+表示所述染色体具备标注价值的概率值,0<PV+<1,PV-表示所述染色体不具备标注价值的概率值,0<PV-<1,α表示所述PV+的权重,β表示所述PV-的权重。具体地,所述染色体与所述分类规则对应的数据子集也是相对应的,通过本发明的函数可以获得一个染色体的适应度F取值,该取值用于表达所述分类规则的分类预测能力,适应度F取值越接近于1,则所述分类规则的分类预测能力越高,则该分类规则对应的数据子集更合适作为提示点。更为具体地,本步骤中,所述染色体具备标注价值的概率也就是数据子集具备标注价值的概率,相应的,PV+和PV-的取值是预估性的。
在一个优选地实施例中:
其中,P(D+)表示系统预估所述分类规则对应的数据子集归属于小样本数据集的先验概率且0<P(D+)<1,P(D-)=1-P(D+),P(T+|D+)表示系统预估所述分类规则对应的数据子集归属于所述小样本数据集且该数据子集被归属于所述小样本数据集的概率,P(T+|D-)表示系统预估所述分类规则对应的数据子集归属于所述小样本数据集但该数据子集被归属于所述大样本数据集的概率,P(T-|D-)表示系统预估所述分类规则对应的数据子集归属于所述大样本数据集且该数据子集被归属于所述大样本数据集的概率,P(T-|D+)表示系统预估所述分类规则对应的数据子集归属于所述大样本数据集但该数据子集被归属于所述小样本数据集的概率。具体地,本实施例具体说明了PV+和PV-预估性取值的方式,本领域技术人员理解,在执行本步骤之前,数据子集是否应该归属于小样本数据集或者大样本数据集,以及该数据子集是否被实际归属于小样本数据集或者大样本数据集,都已经有了可以概率化表达的基础,在此基础上,通过分类规则理论上归属于小样本数据集或者大样本数据集以及实际上小样本数据集或者大样本数据集的概率,预测运算PV+和PV-的预估性取值。
进一步地,执行步骤S308,判断所述染色体对应的适应度F是否小于适应度阈值,若所述染色体对应的适应度F小于适应度阈值,则执行步骤S309,将所述染色体对应的数据子集作为所述提示点。具体地,所述适应度阈值由系统设定,取值在0-1之间,比对完毕后,按照确定的对应规则追溯到对应的数据子集并将其作为提示点即可。本领域技术人员理解,本步骤中的染色体所对应的数据子集本就属于小样本数据集,如果其适应度同时还小于适应度阈值,则其本身就属于较为少见,这对于常规大数据而言(例如消费大数据)是不具备意义,但对于医学而言,对于疑难重症的发现是其重要目标,这也是本发明所要解决的技术问题。
进一步地,执行步骤S310,标注终端基于多个所述提示点执行标注步骤,具体地,本步骤可以结合步骤S103予以理解,在此不予赘述。
作为本发明的第三实施例,图4示出了另一种对医学数据进行提示性标注的控制方法,包括如下步骤:
首先执行步骤S401,导出所述决策树算法的分类规则集,其中,每条分类规则对应一个独立的数据子集,全部所述数据子集组成所述医学数据集,具体可以结合步骤S201予以理解,在此不予赘述。
进一步地,执行步骤S402,判断所述数据子集所包含的样本数量是否大于样本阈值,若所述数据子集的样本数量大于所述样本阈值,则执行步骤S403,将对应的所述数据子集定义为大样本数据集;若所述数据子集的样本数量小于或者等于所述样本阈值,则执行步骤S404,将对应的所述数据子集定义为小样本数据集。
进一步地,执行步骤S405,将全部所述小样本数据集汇总后生成所述待标注数据集,具体可以结合步骤S205予以理解,在此不予赘述。
进一步地,执行步骤S406,将每条所述分类规则编码成一个染色体,每个染色体被分成n个基因,其中,n为所述待标注数据集的属性数,第i个基因对应所述待标注数据集的第i个属性,具体可以结合步骤S306予以理解,在此不予赘述。
进一步地,执行步骤S407,通过函数F=α*PV++β*PV-确定每个所述染色体的适应度F,其中,PV+表示所述染色体具备标注价值的概率值,0<PV+<1,PV-表示所述染色体不具备标注价值的概率值,0<PV-<1,α表示所述PV+的权重,β表示所述PV-的权重,具体可以结合步骤S307予以理解,在此不予赘述。
进一步地,执行步骤S408,判断所述染色体对应的适应度F是否小于适应度阈值,若所述染色体对应的适应度F小于适应度阈值,则执行步骤S409,将所述染色体对应的数据子集作为所述提示点。
进一步地,执行步骤S410,将步骤S408中的适应度小于所述适应度阈值所对应的全部所述染色体按照适应度从大到小的规则进行排序。本领域技术人员理解,本发明主要用于发现有标注价值的疑难重症数据,在前述步骤S401至S409中已经实现了这一基本目的,而前述步骤主要是避免产生漏诊现象,即避免遗漏数据,这是敏感度的要求,本步骤的排序,其目的是为了同时考虑到特异性的需求做铺垫。
进一步地,执行步骤S411,所述标注终端对前M个所述染色体对应的数据子集执行标注步骤,所述标注终端对最后M个所述染色体对应的数据子集不执行标注步骤。具体地,本步骤的意义在于,对于前M个所述染色体对应的数据子集而言,直接对原始的数据子集进行标注,而对于对于M个所述染色体对应的数据子集而言,本实施例则直接不予以标注,其目的是防止对误诊数据进行标注,这是满足特异性的需求之一。
进一步地,执行步骤S412,除最后M个所述染色体外,将前M个所述染色体对应的数据子集与其余染色体对应的数据子集进行随机交叉配对,所述标注终端对交叉配对后的数据子集执行标注步骤。具体地,本步骤所涉及的染色体对应的数据子集是指除步骤S411之外的其余染色体,在本实施例中,对该等染色对应的数据子集进行有条件的标注,也就是首先进行随机交叉配对,交叉方法采用单点交叉的方法,在随机配对的一对染色体中随机选择某个交叉位置,在交叉位置将基因段进行交换,产生新的两个染色体,本步骤限定了前M个染色体必然参与每次交叉,即,前M个染色体中的一个染色体可以参与多次交叉,但对于前M个染色体而言,仍然是随机参与的。优选地,本步骤中的随机交叉配对仅针对相对应的特征基因进行,同时也不会发生特征基因1和特征基因2的交叉,并且对应的特征基因段内部之间也不会发生交叉操作,不会影响每个特征基因内部的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (5)
1.一种对医学数据进行提示性标注的控制方法,其特征在于,包括如下步骤:
a.采用决策树算法对医学数据集进行分类生成待标注数据集;
a1.导出所述决策树算法的分类规则集,其中,每条分类规则对应一个独立的数据子集,全部所述数据子集组成所述医学数据集;
a2.判断所述数据子集所包含的样本数量是否大于样本阈值,若所述数据子集的样本数量大于所述样本阈值,则将对应的所述数据子集定义为大样本数据集;若所述数据子集的样本数量小于或者等于所述样本阈值,则将对应的所述数据子集定义为小样本数据集;
a3.将全部所述小样本数据集汇总后生成所述待标注数据集;
b.基于贝叶斯算法的损失评分函数作为适应度函数的遗传算法挖掘所述待标注数据集的多个提示点;
b1.将每条所述分类规则编码成一个染色体,每个染色体被分成n个基因,其中,n为所述待标注数据集的属性数,第i个基因对应所述待标注数据集的第i个属性;
b2.通过函数F=α*PV++β*PV确定每个所述染色体的适应度F,其中,PV+表示所述染色体具备标注价值的概率值,0<PV+<1,PV表示所述染色体不具备标注价值的概率值,0<PV-<1,α表示所述PV+的权重,β表示所述PV的权重;
b3.若所述染色体对应的适应度F小于适应度阈值,则将所述染色体对应的数据子集作为所述提示点;
c.标注终端基于多个所述提示点执行标注步骤。
2.根据权利要求1所述的控制方法,其特征在于:
其中,P(D+)表示系统预估所述分类规则对应的数据子集归属于小样本数据集的先验概率且0<P(D+)<1,P(D)=1-P(D+),P(T+|D+)表示系统预估所述分类规则对应的数据子集归属于所述小样本数据集且该数据子集被归属于所述小样本数据集的概率,P(T+|D-)表示系统预估所述分类规则对应的数据子集归属于所述小样本数据集但该数据子集被归属于所述大样本数据集的概率,P(T-|D-)表示系统预估所述分类规则对应的数据子集归属于所述大样本数据集且该数据子集被归属于所述大样本数据集的概率,P(T-|D+)表示系统预估所述分类规则对应的数据子集归属于所述大样本数据集但该数据子集被归属于所述小样本数据集的概率。
3.根据权利要求1所述的控制方法,其特征在于:所述待标注数据集的属性分为特征属性和类属性,则所述基因对应分为特征基因和类基因,其中,所述特征基因参与进化,所述类基因不参与进化。
4.根据权利要求3所述的控制方法,其特征在于:所述步骤c包括如下步骤:
c1.将步骤b3中的适应度小于所述适应度阈值所对应的全部所述染色体按照适应度从大到小的规则进行排序;
c2.所述标注终端对前M个所述染色体对应的数据子集执行标注步骤,所述标注终端对最后M个所述染色体对应的数据子集不执行标注步骤;
c3.除最后M个所述染色体外,将前M个所述染色体对应的数据子集与其余染色体对应的数据子集进行随机交叉配对,所述标注终端对交叉配对后的数据子集执行标注步骤。
5.根据权利要求4所述的控制方法,其特征在于:所述步骤c3中的随机交叉配对仅针对相对应的特征基因进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911261092.8A CN111028953B (zh) | 2019-12-10 | 2019-12-10 | 一种对医学数据进行提示性标注的控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911261092.8A CN111028953B (zh) | 2019-12-10 | 2019-12-10 | 一种对医学数据进行提示性标注的控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111028953A CN111028953A (zh) | 2020-04-17 |
CN111028953B true CN111028953B (zh) | 2023-07-25 |
Family
ID=70208748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911261092.8A Active CN111028953B (zh) | 2019-12-10 | 2019-12-10 | 一种对医学数据进行提示性标注的控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111028953B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103499608A (zh) * | 2013-07-30 | 2014-01-08 | 中国标准化研究院 | 一种基于蚁群算法的表征蜂蜜差异性智能嗅觉图谱特征提取方法 |
CN104462738A (zh) * | 2013-09-24 | 2015-03-25 | 西门子公司 | 一种标注医学图像的方法、装置和系统 |
-
2019
- 2019-12-10 CN CN201911261092.8A patent/CN111028953B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103499608A (zh) * | 2013-07-30 | 2014-01-08 | 中国标准化研究院 | 一种基于蚁群算法的表征蜂蜜差异性智能嗅觉图谱特征提取方法 |
CN104462738A (zh) * | 2013-09-24 | 2015-03-25 | 西门子公司 | 一种标注医学图像的方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111028953A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Christo et al. | Feature selection and instance selection from clinical datasets using co-operative co-evolution and classification using random forest | |
CN109036577B (zh) | 糖尿病并发症分析方法及装置 | |
Peissig et al. | Relational machine learning for electronic health record-driven phenotyping | |
Bader Alazzam et al. | Machine learning of medical applications involving complicated proteins and genetic measurements | |
WO2021008601A1 (zh) | 一种医学数据的检验方法 | |
Pillai et al. | Prediction of heart disease using rnn algorithm | |
Al-Mualemi et al. | A deep learning-based sepsis estimation scheme | |
CN114582429B (zh) | 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置 | |
Mamiya et al. | Towards probabilistic decision support in public health practice: Predicting recent transmission of tuberculosis from patient attributes | |
Kumari et al. | A hybrid rough set shuffled frog leaping knowledge inference system for diagnosis of lung cancer disease | |
CN111028953B (zh) | 一种对医学数据进行提示性标注的控制方法 | |
CN115862897A (zh) | 一种基于临床数据的症候群监测方法及系统 | |
Kumar et al. | Estimation of inter-centroid distance quality in data clustering problem using hybridized K-means algorithm | |
CN114191665A (zh) | 机械通气过程中人机异步现象的分类方法和分类装置 | |
KR20220144132A (ko) | 음수 미포함 행렬 분해를 이용한 마이크로바이옴 데이터로부터의 미생물 상호작용 네트워크 분석 방법 | |
CN110033862B (zh) | 一种基于加权有向图的中医量化诊断系统及存储介质 | |
Gada | Disease Prediction System using Machine Learning | |
Alfallah | A Two-Stage SACI-Based Feature Selection and Classification Method for Dimensionality Reduction in Breast Cancer Diagnosis and Recurrence | |
Gomes et al. | A risk scoring model of COVID-19 at hospital admission | |
Abdulkader et al. | A comparison of five machine learning algorithms in the classification of diabetes dataset | |
Xie et al. | Predicting the risk of stroke based on imbalanced data set with missing data | |
Badolato et al. | The limits of predicting individual-level longevity | |
CN111026282B (zh) | 一种在输入过程中判断是否进行医学数据标注的控制方法 | |
CN117912715A (zh) | 一种基于知识融合网络的传染病预测方法及系统 | |
Chang et al. | Explainable AI for Fair Sepsis Mortality Predictive Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |