CN113362920B - 基于临床数据的特征选择方法及装置 - Google Patents

基于临床数据的特征选择方法及装置 Download PDF

Info

Publication number
CN113362920B
CN113362920B CN202110662867.3A CN202110662867A CN113362920B CN 113362920 B CN113362920 B CN 113362920B CN 202110662867 A CN202110662867 A CN 202110662867A CN 113362920 B CN113362920 B CN 113362920B
Authority
CN
China
Prior art keywords
feature
data
prediction
subset
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110662867.3A
Other languages
English (en)
Other versions
CN113362920A (zh
Inventor
罗嘉庆
郭春来
陈子蝶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110662867.3A priority Critical patent/CN113362920B/zh
Publication of CN113362920A publication Critical patent/CN113362920A/zh
Application granted granted Critical
Publication of CN113362920B publication Critical patent/CN113362920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于临床数据的特征选择方法及装置,属于数字医疗技术领域。本发明利用滤波方法和mRMR因子对遗传算法的适应度函数进行了改进,提出了一种基于mRMR‑GA算法的临床数据的特征选择方法。同时,为了确保更有效地计算mRMR因子,使用核密度函数估计来计算互信息,该核密度函数估计具有比密度直方图估计更平滑的概率密度函数的优点,最后,利用遗传算法的特征选择处理是基于特征关系搜索特征空间集的一种方式,能获得更好的特征集选择结果。本发明在用于对指定预测任务的预测模型中,基于本发明确定预测目标的优选特征子集,进而对预测模型进行训练和测试识别,能够有效的将数据维度降低,进而能有效提升预测模型的准确率。

Description

基于临床数据的特征选择方法及装置
技术领域
本发明属于数字医疗技术领域,具体涉及一种基于临床数据的特征选择方法及装置。
背景技术
随着数字化浪潮的兴起,对实体经济进行数字化成为了一个脍炙人口的话题,而数字化中最重要的资产便是其中的数据。当前进行辅助治疗的医疗器械的蓬勃发展,进一步带动了医疗数据成多元化、规模化等特点发展,而利用这些庞大的数据去挖掘出有用的信息辅助医疗诊断成为一个有意义的话题。基于医疗数据去对疾病预测、远程治疗等可以更有效的使医疗数据系统更有效的进行运作。
医学数据爆炸式地产生,通过计算机技术进行自动化的分析和预测是有用且高效的。它包括通过一些机器学习算法(如神经网络、随机森林、支持向量机SVM)一些算法对医疗数据进行预测,即基于现有的机器学习算法构建预测目标的预测模型,并且医学数据的多元化而呈现为数据特征的高纬度特性,为了保证预测任务的准确性,往往通过特征选择等方式来对高维医疗数据特征进行降维,选取更有效的特征进行预测任务,例如呼吸类疾病的预测,基于对应预测目标的训练数据集完成对所设定的预测模型的训练,则可基于所确定的数据特征选择结果,提取当前的临床数据进行特征向量并输入训练好的预测模型,基于预测模型的输出得到对应的预测结果。
发明内容
本发明实施例提供了一种基于临床数据的特征选择方法及装置,以用于提升对指定的预测目标的预测模型的预测准确性。
一方面,本发明实施例提供了一种基于临床数据的特征选择方法,所述方法包括:
采集临床医疗数据,设置预测目标的目标类别;
根据高斯核密度函数估计每项数据之间的互信息值,并基于每项数据的互信息值计算最大相关最小冗余((Max-Relevance and Min-Redundancy,mRMR)因子,即特征(数据项)与目标类之间的相关性最大且特征之间(数据项之间)冗余性最小的因子;
以每个数据项的mRMR因子作为个体分数,根据遗传选择算法从所述临床医疗数据的所有数据项中选择出当前预测目标的第一特征子集,得到该临床医疗数据的第一特征选择结果。
即本发明实施例中,利用滤波方法和mRMR因子对遗传算法(GA)的适应度函数进行了改进,提出了一种基于mRMR-GA算法的临床数据的特征选择方法。同时,为了确保更有效地计算mRMR因子,使用核密度函数估计来计算互信息,该核密度函数估计具有比密度直方图估计更平滑的概率密度函数的优点,最后,利用遗传算法的特征选择处理是基于特征关系搜索特征空间集的一种方式,能获得更好的特征集选择结果。
进一步的,本发明实施例还包括对所获得的第一特征子集进行第二选择处理,获得第二特征子集,所述第二选择处理包括:
步骤b1,基于随机森林作为预测目标的预测模型,以采集的临床医疗数据中对应第一特征子集的数据作为样本,得到预测模型的样本集;
步骤b2,初始化特征集合S0为空集,剩余特征集合S1为当前得到的预测目标的特征子集;以及设置关于样本袋外误差的特征重要度评估函数,和预测性能评估函数;
步骤b3,基于预测模型和特征重要度评估函数获取第一特征子集中各个特征的重要度,并按照重要降序排列得到第一特征序列的初始值;
步骤b4,从剩余特征集合S1中选择第一特征序列中最靠前一个特征xi加入集合S0,并从剩余特征集合S1中去掉特征xi,以及从第一特征序列中删除特征xi;
根据预测性能评估函数,通过所述预测模型对特征集合S0进行评估,得到加入特征xi后的预测性能,若比加入之前的预测性能更好,则保留特征xi,否则,从特征集合S0中删除特征xi,其中,集合S0所对应的预测性能的初始值为预测性能的最小取值,例如设置为0;
重复步骤b4,直到遍历完第一特征序列中的所有特征值,基于当前特征集合S0得到第二特征子集。
另一方面,本发明实施例提供了一种基于临床数据的特征选择装置,所述装置包括:
数据采集单元,用于采集临床医疗数据;
用户设置单元,用于设置预测目标的目标类别;
计算及输出单元,根据高斯核密度函数估计每项数据之间的互信息值,并基于每项数据的互信息值计算mRMR因子;以每个数据项的mRMR因子作为个体分数,根据遗传选择算法从所述临床医疗数据的所有数据项中选择出当前预测目标的第一特征子集,得到该临床医疗数据的第一特征选择结果并输出。
进一步的,所述计算单元还对所获得的第一特征子集进行第二选择处理,获得第二特征子集并输出。
另一方面,本发明实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现上述任一所述的基于临床数据的特征选择方法。
另一方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现上述任一所述的基于临床数据的特征选择方法。
基于本发明实施例所提供的特征选择方法或装置,可以进而实现对指定的预测任务的预测处理,即基于本发明实施例所提供的特征选择方法或装置提取当前的临床数据进行特征向量并输入训练好的预测模型,基于预测模型的输出得到对应的预测结果,如对呼吸类疾病(例如COVID-19的预测(例如病重程度的预测))、肝脏类疾病(人工肝的衰竭程度)等的预测任务。
本发明实施例提供的技术方案至少带来如下有益效果:在本发明实施例中,能够有效的将数据维度降低,进而能有效提升预测模型的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中,第一选择处理的处理过程示意图;
图2是本发明实施例中,第二选择处理的过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例中,提供了一种基于临床数据的特征选择方法,该方法包括:
采集临床医疗数据,设置预测目标的目标类别,其中目标类别基于实际应用需求进行划分;
根据高斯核密度函数估计每项数据之间的互信息值,并基于每项数据的互信息值计算mRMR因子;
以每个数据项的mRMR因子作为个体分数,根据遗传选择算法从所述临床医疗数据的所有数据项中选择出当前预测目标的第一特征子集,得到该临床医疗数据的第一特征选择结果。
即,在计算种群的适应度时,将每个数据项的mRMR因子作为个体分数。
以参见图1,在一种可能的实现方式中,本发明实施例中基于遗产算法的特征选择处理包括:
本实施例中,在初始化种群时,对所涉及到的特征项,在遗传算法中将以0,1二进制码来代表个体基因,0表示特征不被选择,1代表特征被选择,数据集中每个个体通过染色体来表示,而染色体由一定数量的基因片段来代表,染色体中每个基因片段的顺序为指定方式。
在有了个体的表示方法之后,种群是遗传算法进行迭代搜索的基础,将生成多个染色体个体作为种群。在种群中,每个个体可能有不同的染色体表示,本实施例中,代表对应的个体所选择的特征,整个种群可以代表在所有可能性中选择所有特征的一些组合方式。
适应度函数,由于遗传算法的迭代复杂性,适应度函数的选择往往要求不能过于复杂,本实施中,采用最大相关最小冗余因子来作为适应度计算因子,通过适应度函数能够反映出染色体个体所代表的特征集合的评估值。当染色体个体所代表的特征集合通过mRMR因子计算得到的评估值较大时,那么这个特征集合也有较好的效果,同时对于遗传算法而言,染色体个体的适应度越大。
其中,mRMR因子的计算公式为:
maxφ(D,R),φ(D,R)=D-R                                 (1)
其中,D表示每个数据项xi与目标类c之间的相关性,
Figure GDA0003730898410000041
R表示数据项之间的冗余性,
Figure GDA0003730898410000042
S表示数据项集合,|S|表示集合数量,I()表示基于高斯核密度函数的互信息值,本实施例中,即I()为基于高斯核密度函数的信息熵。
选择操作,对每一代的种群进行选择优良个体作为下一代的时候,会根据适应度函数返回的值来作为每个个体生存值,通过生存值得到每个个体的选择概率,如公式(2)所示:
Figure GDA0003730898410000043
其中,xi代表第i个个体,f(xi)表示个体的适应度函数。
最后,将求得的选择概率按分布函数形式量化到[0,1]区间中,公式如(3)所示:
Figure GDA0003730898410000044
其中,qi为个体xi的积累概率。
再接着,通过轮盘赌选择法来选择优良个体。具体步骤如下:
第一步:在[0,1]区间中产生一个随机数r。
第二步:如果随机数满足qi-1≤r≤qi(1≤i≤n),那么第i个个体被选中,作为下一代种群中的个体。
交叉操作,交叉操作主要是为了从优良个体中产生可能更好的个体,同时也是为了增加种群的多样性,本文主要采用单点交叉来进行交叉操作。具体做法是通过设定在[0,1]区间中的一个阈值,然后随机生成一个概率值,判断概率值是否大于设定的阈值,如果大于就对两个染色体个体进行交叉,同时会随机生成一个交叉点将染色体分成两段,最后通过交叉生成新的个体。
变异操作,变异操作是一种有效防止局部优化的操作,按照一定几率对染色体个体的某些基因进行改变,对种群个体也具有多样性的特点。例如可采用基本位变异操作方式来改变染色体上某些基因编码。
需要说明的是,本发明实施例中,遗传算法中所涉及的选择、交叉和变异操作可采用遗传算法中任意惯用方式,本发明对此不做具体限定。
参见图2,本发明实施例中,对当前所获得的第一特征子集进行第二选择处理包括:
步骤b1,基于随机森林作为预测目标的预测模型,以采集的临床医疗数据中对应第一特征子集的数据作为样本,得到预测模型的样本集;
步骤b2,初始化特征集合S0为空集,剩余特征集合S1为当前得到的预测目标的特征子集;以及设置关于样本袋外误差的特征重要度评估函数,和预测性能评估函数;
步骤b3,基于预测模型和特征重要度评估函数获取第一特征子集中各个特征的重要度,并按照重要降序排列得到第一特征序列的初始值;
步骤b4,从剩余特征集合S1中选择第一特征序列中最靠前一个特征xi加入集合S0,并从剩余特征集合S1中去掉特征xi,以及从第一特征序列中删除特征xi;
根据预测性能评估函数,通过所述预测模型对特征集合S0进行评估,得到加入特征xi后的预测性能,若比加入之前的预测性能更好,则保留特征xi,否则,从特征集合S0中删除特征xi,其中,集合S0所对应的预测性能的初始值为预测性能的最小取值,例如设置为0;
重复步骤b4,直到遍历完第一特征序列中的所有特征值,基于当前特征集合S0得到第二特征子集。
优选的,可基于样本袋外误差计算每个特征的重要度,训练集通过均匀概率从数据集有放回的抽样方式,这样,对于被抽取的样本概率可以表示为:
Figure GDA0003730898410000051
其中,N表示抽样次数,当其足够大时,被抽取的样本值趋于0.63,意味着对于抽样出的样本大概有0.63为原训练数据,而未被抽中的样本称为袋外样本(OOB),这样就可以利用袋外样本当做验证集。通过袋外样本做验证的时候,随机森林算法不需要额外的训练集,可以得到样本袋外误差公式为:
Figure GDA0003730898410000061
公式(4)中,N为样本xi作为袋外数据所有生成决策树的棵数,
Figure GDA0003730898410000062
为样本xi作为袋外数据所对应决策树组成的随机森林,yi为样本xi的实际分类值,从而可以得到样本xi作为袋外数据的袋外数据错误率。
本实施例中,基于下列步骤构造随机森林:
第一步:从数据集通过装袋技术来抽取样本,作为子训练集(xi,yi)。
第二步:用子训练集(xi,yi)中随机抽取特征子空间去训练得到一棵决策树。
第三步:迭代第二步,得到多棵决策树,综合平均结果,最后输出得到的预测结果。
假设对于重排列前,构造的随机森林利用袋外样本计算得到的袋外数据误差为eoOB,选择第j个变量进行重排序并重新计算袋外数据误差记为
Figure GDA0003730898410000063
那么可以得到第j个变量的重要性计算公式为:
Figure GDA0003730898410000064
其中,VIj表示第j个特征的特征重要度,
Figure GDA0003730898410000065
表示选择第j个特征时的袋外数据误差,EOOB表示未选择第j个特征时的袋外数据误,n表示第一特征子集的数量。由此随机森林对变量的重要性排序步骤包括:
(1)使用装袋技术从样本集S中抽取获得子样本集s;
(2)从子样本集s的特征空间X中随机选择得到子样本特征空间Xsub
(3)利用Xsub训练决策树;
(4)重复步骤(2)-(3),生成N棵决策树,并计算袋外样本误差eOOB
(5)选取第j个特征,并对变量重排序,并计算袋外样本误差
Figure GDA0003730898410000066
(6)重复步骤5,分别计算所有特征变量的重要性VIj
(7)对所有特征变量的重要性标准化(归一化),得到各特征重要度排序。
另一方面,本发明实施例还提供了一种基于临床数据的特征选择装置,所述装置包括:
数据采集单元,用于采集临床医疗数据;
用户设置单元,用于设置预测目标的目标类别;
计算及输出单元,根据高斯核密度函数估计每项数据之间的互信息值,并基于每项数据的互信息值计算mRMR因子;以每个数据项的mRMR因子作为个体分数,根据遗传选择算法从所述临床医疗数据的所有数据项中选择出当前预测目标的第一特征子集,得到该临床医疗数据的第一特征选择结果并输出,即可视化输出,以供用户查看。
进一步的,所述计算单元还对所获得的第一特征子集进行第二选择处理,获得第二特征子集并输出。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行,以实现上述任一种特征选择方法。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由计算机设备的处理器加载并执行,以实现上述任一种特征选择方法。
在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROMD)、磁带和光数据存储设备等。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例方式并不代表与本发明相一致的所有实施方式。想法,它们仅是与如所附权利要求书中所详细的、本发明的一些方面相一致的装置和方法的例子。
以上所述仅为本发明的示例性实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于临床数据的特征选择方法,其特征在于,所述方法包括:
采集临床医疗数据,设置预测目标的目标类别;
根据高斯核密度函数估计每项数据之间的互信息值,并基于每项数据的互信息值计算mRMR因子;
以每个数据项的mRMR因子作为个体分数,根据遗传选择算法从所述临床医疗数据的所有数据项中选择出当前预测目标的第一特征子集,得到该临床医疗数据的第一特征选择结果;
对第一特征子集进行第二选择处理,获得第二特征子集,所述第二选择处理包括:
步骤b1,基于随机森林作为预测目标的预测模型,以采集的临床医疗数据中对应第一特征子集的数据作为样本,得到预测模型的样本集;
步骤b2,初始化特征集合S0为空集,剩余特征集合S1为当前得到的预测目标的特征子集;以及设置关于样本袋外误差的特征重要度评估函数,和预测性能评估函数;
步骤b3,基于预测模型和特征重要度评估函数获取第一特征子集中各个特征的重要度,并按照重要降序排列得到第一特征序列的初始值;
步骤b4,从剩余特征集合S1中选择第一特征序列中最靠前一个特征xi加入集合S0,并从剩余特征集合S1中去掉特征xi,以及从第一特征序列中删除特征xi;
根据预测性能评估函数,通过所述预测模型对特征集合S0进行评估,得到加入特征xi后的预测性能,若比加入之前的预测性能更好,则保留特征xi,否则,从特征集合S0中删除特征xi,其中,集合S0所对应的预测性能的初始值为预测性能的最小取值;
重复步骤b4,直到遍历完第一特征序列中的所有特征值,基于当前特征集合S0得到第二特征子集。
2.如权利要求1所述的方法,其特征在于,所述预测模型和特征重要度评估函数为:
Figure FDA0004049073640000011
其中VIj表示第j个特征的特征重要度,
Figure FDA0004049073640000012
表示选择第j个特征时的袋外数据误差,EOOB表示未选择第j个特征时的袋外数据误,n表示第一特征子集的数量。
3.如权利要求1所述的方法,其特征在于,所述mRMR因子的计算公式为:maxφ(D,R),φ(D,R)=D-R,其中,D表示每个数据项xi与目标类c之间的相关性,
Figure FDA0004049073640000013
S表示数据项集合,|S|表示集合数量,I()表示基于高斯核密度函数的互信息值,R表示数据项之间的冗余性,
Figure FDA0004049073640000021
4.一种基于临床数据的特征选择装置,其特征在于,所述装置包括:
数据采集单元,用于采集临床医疗数据;
用户设置单元,用于设置预测目标的目标类别;
计算及输出单元,根据高斯核密度函数估计每项数据之间的互信息值,并基于每项数据的互信息值计算mRMR因子;以每个数据项的mRMR因子作为个体分数,根据遗传选择算法从所述临床医疗数据的所有数据项中选择出当前预测目标的第一特征子集,得到该临床医疗数据的第一特征选择结果并输出;
所述计算及输出单元还对所获得的第一特征子集进行第二选择处理,获得第二特征子集并输出;
所述第二选择处理包括:
步骤b1,基于随机森林作为预测目标的预测模型,以采集的临床医疗数据中对应第一特征子集的数据作为样本,得到预测模型的样本集;
步骤b2,初始化特征集合S0为空集,剩余特征集合S1为当前得到的预测目标的特征子集;以及设置关于样本袋外误差的特征重要度评估函数,和预测性能评估函数;
步骤b3,基于预测模型和特征重要度评估函数获取第一特征子集中各个特征的重要度,并按照重要降序排列得到第一特征序列的初始值;
步骤b4,从剩余特征集合S1中选择第一特征序列中最靠前一个特征xi加入集合S0,并从剩余特征集合S1中去掉特征xi,以及从第一特征序列中删除特征xi;
根据预测性能评估函数,通过所述预测模型对特征集合S0进行评估,得到加入特征xi后的预测性能,若比加入之前的预测性能更好,则保留特征xi,否则,从特征集合S0中删除特征xi,其中,集合S0所对应的预测性能的初始值为预测性能的最小取值;
重复步骤b4,直到遍历完第一特征序列中的所有特征值,基于当前特征集合S0得到第二特征子集。
5.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现如权利要求1至3任一项所述的基于临床数据的特征选择方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现如权利要求1至3任一项所述的基于临床数据的特征选择方法。
CN202110662867.3A 2021-06-15 2021-06-15 基于临床数据的特征选择方法及装置 Active CN113362920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110662867.3A CN113362920B (zh) 2021-06-15 2021-06-15 基于临床数据的特征选择方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110662867.3A CN113362920B (zh) 2021-06-15 2021-06-15 基于临床数据的特征选择方法及装置

Publications (2)

Publication Number Publication Date
CN113362920A CN113362920A (zh) 2021-09-07
CN113362920B true CN113362920B (zh) 2023-04-18

Family

ID=77534331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110662867.3A Active CN113362920B (zh) 2021-06-15 2021-06-15 基于临床数据的特征选择方法及装置

Country Status (1)

Country Link
CN (1) CN113362920B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005546B (zh) * 2021-12-31 2022-05-03 四川大学华西医院 一种基于随机森林模型特征空间拟合的病情预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6240804B1 (ja) * 2017-04-13 2017-11-29 大▲連▼大学 改良した情報測定とgaに基づくフィルター式特徴選択アルゴリズム
CN111814394A (zh) * 2020-06-30 2020-10-23 三峡大学 一种基于相关性和冗余性检测的电力系统安全评估方法
CN112183598A (zh) * 2020-09-21 2021-01-05 西安理工大学 一种基于遗传算法的特征选择方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971240A (zh) * 2017-03-16 2017-07-21 河海大学 一种变量选择与高斯过程回归的短期负荷预测方法
CN107255785A (zh) * 2017-04-28 2017-10-17 南京邮电大学 基于改进mRMR的模拟电路故障诊断方法
CN110459267B (zh) * 2019-08-12 2023-05-26 岭南师范学院 一种基于改进自适应遗传算法的人体体成分预测方法
CN110766042B (zh) * 2019-09-09 2023-04-07 河南师范大学 一种基于最大相关最小冗余的多标记特征选择方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6240804B1 (ja) * 2017-04-13 2017-11-29 大▲連▼大学 改良した情報測定とgaに基づくフィルター式特徴選択アルゴリズム
CN111814394A (zh) * 2020-06-30 2020-10-23 三峡大学 一种基于相关性和冗余性检测的电力系统安全评估方法
CN112183598A (zh) * 2020-09-21 2021-01-05 西安理工大学 一种基于遗传算法的特征选择方法

Also Published As

Publication number Publication date
CN113362920A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
JP3209163B2 (ja) 分類装置
Jacobs et al. A Bayesian approach to model selection in hierarchical mixtures-of-experts architectures
JP2013541085A (ja) オブジェクトにスコアを提供する方法及び意思決定支援システム
Visweswaran et al. Learning Instance-Specific Predictive Models.
Islam et al. Sgbba: An efficient method for prediction system in machine learning using imbalance dataset
CN116805533A (zh) 一种基于数据收集与模拟的脑出血手术风险预测系统
CN113362920B (zh) 基于临床数据的特征选择方法及装置
JP3896868B2 (ja) パターンの特徴選択方法及び分類方法及び判定方法及びプログラム並びに装置
CN112084944A (zh) 一种动态演化表情的识别方法与系统
Pavithra et al. Comparative Study of Machine Learning Classification Techniques to Predict the Cardiovascular Diseases Using HRFLC
Uyar et al. The analysis and optimization of CNN Hyperparameters with fuzzy tree modelfor image classification
CN115907775A (zh) 基于深度学习的个人征信评级方法及其应用
Badriyah et al. Deep learning algorithm for data classification with hyperparameter optimization method
CN112200224B (zh) 医学图像特征处理方法和装置
Aly A new approach for classifier model selection and tuning using logistic regression and genetic algorithms
CN114171206A (zh) 模型训练、传感病预测方法、装置、设备及存储介质
Bharathi et al. The significance of feature selection techniques in machine learning
Alabed et al. Genetic algorithms as a feature selection tool in heart failure disease
CN117437976B (zh) 基于基因检测的疾病风险筛查方法及系统
Varghese et al. Efficient Feature Subset Selection Techniques for High Dimensional Data
Whitehouse et al. Tree sequences as a general-purpose tool for population genetic inference
Gordon et al. Addressing Optimisation Challenges for Datasets with Many Variables, Using Genetic Algorithms to Implement Feature Selection
Kouzani Subcellular localisation of proteins in fluorescent microscope images using a random forest
CN112465009B (zh) 一种软件崩溃故障位置定位方法
CN117668701B (zh) Ai人工智能机器学习系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant