CN110197706B - 一种基于sbs的层次化特征选择方法、系统及应用 - Google Patents

一种基于sbs的层次化特征选择方法、系统及应用 Download PDF

Info

Publication number
CN110197706B
CN110197706B CN201910342155.6A CN201910342155A CN110197706B CN 110197706 B CN110197706 B CN 110197706B CN 201910342155 A CN201910342155 A CN 201910342155A CN 110197706 B CN110197706 B CN 110197706B
Authority
CN
China
Prior art keywords
data
value
category
sbs
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910342155.6A
Other languages
English (en)
Other versions
CN110197706A (zh
Inventor
罗宁政
蔡志平
孙文成
王明
刘海滨
黄克涛
胡健
黄浪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ningyuan Technology Co ltd
National University of Defense Technology
Original Assignee
Shenzhen Ningyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ningyuan Technology Co ltd filed Critical Shenzhen Ningyuan Technology Co ltd
Priority to CN201910342155.6A priority Critical patent/CN110197706B/zh
Publication of CN110197706A publication Critical patent/CN110197706A/zh
Application granted granted Critical
Publication of CN110197706B publication Critical patent/CN110197706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种基于SBS的层次化特征选择方法、系统及应用,该方法包括获取数据集;根据CatBoost模型拟合所有的类别集,获取每个类别集的权重值W1;根据XGBoost模型拟合所有的特征数据集,获取每个特征数据的重要性分数W2;根据每个类别集的权重值W1及每个特征数据的重要性分数W2,获取每个项目的全局参数W=W1*W2;并对每个特征数据按照全局参数W由高到低进行排序;根据SBS算法,每轮迭代删除排名最差的特征数据,并记录剩余子集的均方差值MSE;获取标均差值MSE最小的剩余子集,作为最优子集O输出。用于解决现有技术中数据处理的实用性和准确性不高等问题,基于数据内部的联系进行层次化特征选择,提高数据处理的实用性和准确性。

Description

一种基于SBS的层次化特征选择方法、系统及应用
技术领域
本发明涉及医疗数据处理技术领域,尤其是一种基于SBS的层次化特征选择方法、系统及应用。
背景技术
通过特征选择方法对体检数据进行处理、优化,根据特征间的相关性合理预测某种疾病一项重要参数(例如糖尿病的血糖值水平),加强疾病尤其是糖尿病的预防与控制,进而服务于医疗领域。
下面以糖尿病为例对特征选择方法的使用环境进行说明,糖尿病作为一种可怕的疾病,对社会的危害性也在逐年的加深。另外,糖尿病的不可治愈性以及严重的并发症,如高血压、心脑血管疾病等,必须重视对糖尿病的预防和控制。
目前对血糖的预测有两种类型,一种是基于生理模型的预测,另一种是基于数据的预测。由于人体内在生理环境的复杂性和不可控因素,使得前一种方法受到很大的限制,稳定性和鲁棒性较差。后一种方法不依赖生理学知识,而是依赖所收集的数据,这使得这个领域受到更多的关注。通过历史相关数据加强对患者血糖水平的预测,可以起到了重要的参考作用,有效提高医师的诊断效率。
通常将数据集中的每一种数据称为一个特征。特征对于预测工作的重要性是不相同的,直接使用数据集中的原始特征进行血糖预测是不适合的,因此必须考虑如何优选出重要特征、由重要特征生成最优子集。特征的选择也称特征子集选择,或属性选择,是指从已有的M个特征中选择N个特征(M>N) 使得系统的特定指标(如分类准确率等)最优化,是从原始特征中选择出一组最有效的特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。但是采用不同的特征选择方法获得的特征不尽相同,期望目标是找到一种减少计算时间,提高预测性能以及更好地理解机器学习或模式识别应用程序中的数据的方法作为特征选择方法。目前主要有三种特征选择方法:过滤法,包装法和嵌入法。
过滤法通过对变量按照优选特征进行排序,排名方法因其简单性和在实际应用中取得的成功而被推广。使用适当的排名标准对变量进行评分,并使用阈值以上的变量,删除阈值以下的变量。常用的标准包括简单的相关系数和互信息。过滤方法也可以分为两类:单变量方法和多变量方法。在工程中经常使用的方法如卡方检验、信息增益和增益比属于前一种,后者包括基于相关性的特征选择(CFS)和马尔可夫包络滤波器(MBF)。
包装法使用预测器作为黑盒,并把预测器的性能作为评估变量子集的目标函数。由于评估子集是一个NP难题,因此最优子集将通过搜索算法进行启发式选择。包装方法可以分为两类:确定性方法和随机方法。前者的代表性算法包括顺序前向选择(SFS)和顺序后向选择(SBS),后者的代表性算法包括模拟退火,随机爬山和遗传算法。
嵌入法可以用于减少包装法后重新分类所花费的计算时间。嵌入式方法将特征选择算法作为学习过程的一部分,典型算法包括ID3,C4.5和CART。
上述方法均是直接在检查项目形成的原始数据集中的进行选择特征,而忽略了特征与其所属的类别以及所属的类别与其他重要参数之间的关联性,例如:所拿到的数据集中包括:肝功能8项、肾功能3项、血常规17项、血脂4 项以及乙肝5项,总共有37项检查内容和5个检查科目。一般的做法是直接对 37个项目进行特征选择。人体的各个生理因素之间是天然具有内在联系的,忽略了这种联系,是一种不科学也不明智的做法。这种做法就忽略了37个检查项目和5个科目以及5个科目和空腹血糖值之间的关系,因此基于上述特征预测的数值也不科学,不符合实际,实用性和准确性不高,对医生诊断的参考作用也不大。
发明内容
本发明提供一种基于SBS的层次化特征选择方法、系统及应用,用于克服现有技术中数据处理的科学性、实用性和准确性不高等缺陷,基于数据内部的联系进行层次化特征选择,提高数据处理的实用性和准确性。
为实现上述目的,本发明提出一种基于SBS的层次化特征选择方法,包括:
获取数据集,所述数据集包括多个类别集、每个类别中包含至少一个特征数据集、所有类别集包含的特征数据集;
根据CatBoost模型拟合所有的类别集,获取每个类别集的权重值W1;
根据XGBoost模型拟合所有的特征数据集,获取每个特征数据的重要性分数W2;
根据每个类别集的权重值W1及每个特征数据的重要性分数W2,获取每个项目的全局参数W=W1×W2;并对每个特征数据按照全局参数W由高到低进行排序;
根据SBS算法,每轮迭代删除排名最差的特征数据,并记录剩余子集的均方差值MSE;获取标均差值MSE最小的剩余子集,作为最优子集O输出。
为实现上述目的,本发明还提供一种基于SBS的层次化特征选择系统,包括处理器,以及与所述处理器连接的存储器,所述存储器存储有基于SBS 的层次化特征选择程序,所述基于SBS的层次化特征选择程序被所述处理器执行时实现上述方法的步骤。
为实现上述目的,本发明还提供一种用于糖尿病预测的基于SBS的层次化特征选择方法,包括以下步骤:
获取数据集,所述数据集中包含所有检查科目集,每个检查科目集中包含的检查项目集、所有的检查项目集;
根据CatBoost模型拟合所有的检查科目集,分别以每个检查科目集为基础对空腹血糖进行预测并获得预测值,进而获得每个空腹血糖预测值与空腹血糖真实值之间的均方差值;根据所述均方差值为每个检查科目集分配权第一重值W1;
根据XGBoost模型拟合所有的检查项目集,计算所述数据集中每个检查项目与空腹血糖真实值之间重要性的第二权重W2;
根据所述第一权重W1与第二权重W2乘积的分值由高到低对所述数据集中的所有检查项目进行排名;
通过SBS算法从排名最低的特征数据开始,依次删掉一个检查项目,分别以剩余子集为基础对空腹血糖进行预测获得预测值,进而获得每个空腹血糖预测值与空腹血糖真实值之间的均方差值;以均方差值最小的空腹血糖预测值对应的剩余子集作为最优特征选择子集输出。
为实现上述目的,本发明还提供一种用于糖尿病预测的基于SBS的层次化特征选择系统,包括处理器,以及与所述处理器连接的存储器,所述存储器存储有用于糖尿病预测的基于SBS的层次化特征选择程序,所述用于糖尿病预测的基于SBS的层次化特征选择程序被所述处理器执行时实现上述方法的步骤。
与现有技术相比,本发明能够产生以下技术效果:
本发明提供的基于SBS的层次化特征选择方法、系统及应用,基于原始数据集中类别与特征数据之间的层次化分布,对类别与计算模型检测目标之间的关系赋予第一权重,然后在生成的特征数据与计算模型检测目标之间的关系的重要性分数的基础上考虑该权值,生成每个特征数据的全局参数(即第一权重与第二权重的乘积),在全局参数的基础上,通过SBS算法,生成特征数据的最优子集;相对于现有的算法,分别从两个层次上通过权重反应原始数据之间的关联关系,更符合原始数据的真实性,进而提高了数据处理的科学性、实用性和准确性;另一方面,基于贪心算法思想,并调整贪心策略的选择,使其具备无后效性,在保证子集的当前效果的同时,可以大幅度降低特征选择过程的复杂性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明实施例提供的基于SBS的层次化特征选择方法的流程示意图;
图2是本发明实施例提供的基于糖尿病预测的基于SBS的层次化特征选择方法的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接,还可以是物理连接或无线通信连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提出一种基于SBS的层次化特征选择方法、系统及应用。
实施例一
请参照图1,本发明提供一种基于SBS的层次化特征选择方法,包括以下步骤:
步骤S1,获取数据集,所述数据集包括多个类别集、每个类别中包含至少一个特征数据集、所有类别集包含的特征数据集;
本发明实施例中使用的体检数据是来自于医院的真实病历,体检数据的内容主要包括病人的基本信息,如年龄、男女、体检日期等(涉及病人私隐的信息已被删除),和肝功能8项、肾功能3项、血常规17项、血脂4项以及乙肝5项,其中肝功能、肾功能、血常规、血脂和乙肝相是体检数据中的检查科目,当于数据集中的类别集,其中肝功能中包含的具体的8项体检项目相当于类别集中包含的特征数据,具体参见下表1:
表1是所有体检项目与英文名的对照表
序号 中文 缩写 序号 中文 缩写
1 *天门冬氨酸氨基转换酶 AST 22 *总蛋白 TP
2 *丙氨酸氨基转换酶 ALT 23 白蛋白 Alb
3 *碱性磷酸酶 ALP 24 *球蛋白 GLB
4 *r-谷氨酰基转换酶 r-GT 25 白球比例 A/G
5 高密度脂蛋白胆固醇 HDL 26 甘油三酯 TG
6 低密度脂蛋白胆固醇 LDL 27 总胆固醇 TC
7 乙肝表面抗原 HBsAg 28 尿素 UR
8 乙肝表面抗体 HBsAb 29 肌酐 CR
9 乙肝e抗原 HBeAg 30 尿酸 UA
10 乙肝e抗体 HBeAb 31 血小板比积 PCT
11 乙肝核心抗体 HbcAb 32 血小板计数 PLT
12 白细胞计数 WBC 33 淋巴细胞% LY%
13 红细胞计数 RBC 34 单核细胞% MONO%
14 中性粒细胞% NEUT% 35 嗜酸细胞% EO%
15 红细胞压积 PCV 36 嗜碱细胞% BA%
16 红细胞平均体积 MCV 37 血糖 FBG
17 红细胞平均血红蛋白量 MCH 38 血红蛋白 HGB
18 红细胞平均血红蛋白浓度 MCHC 39 性别 sex
19 红细胞体积分布宽度 RDW 40 年龄 age
20 血小板平均体积 MPV 41 体检日期 Date
21 血小板体积分布宽度 PDW
表1是体检项目的中文和英文缩写对照表。因为部分项目的中文名较为复杂,不方便理解和使用,因此在后面的实验表格中使用了项目的英文缩写。
由于病人的体检项目是选做的,因此不可避免的带来数据缺失现象。直接将带有缺失的数据样本或属性删掉使不合适的,因为这会减少数据的样本量,也会使数据的分布特点更难以发现。针对体检数据的数据缺失现象,在数据预处理阶段,我们提出了两种不同的数据缺失值处理方法。
采取的第一种方式是利用属性的中位值进行填充,具体在所述获取数据集的步骤S1之后还包括:
步骤S101,在所述数据集中的特征数据缺失时,针对缺失的特征数据,按照归属同一类别中对应的固有特征数据的中位数对所述数据集中原始的特征数据进行填充。
采取的第二中处理方式混合式填充,具体在所述获取数据集的步骤之后 S1还包括:
步骤S201,在所述数据集中的特征数据缺失时,针对缺失的特征数据对所述数据集中原始的特征数据进行预处理;具体包括以下步骤:
步骤S201A,缺失数据中归属同一类别的特征数据缺失率小于1%时,按照该类别中对应的固有特征数据的中位数进行填充;
步骤S201B,缺失数据中归属同一类别的特征数据缺失率大于70%时,删除该类别以及归属该类别的所有原始特征数据;
步骤S201C,缺失数据中归属同一类别的特征数据缺失率大于等于1%且小于等于70%时,采用随机森林模型生成的预测值对缺失的特征数据进行填充。
对于缺失率低于1%的特征,选择使用中位数(选特征对应值的中间部分数值)来填充。对于缺失率超过70%的特征,选择删除这些特征。对于剩余的特征,选择使用随机森林模型生成的预测值进行填充。然而,经过对比实验发现,第二种比较复杂的混合填充方法通常不如第一次简单的填充中值那么有效。经过分析,认为由随机森林生成的预测值与真实值之间的误差大于属性中值与真实值之间的误差,从而影响最终的预测结果。因此在实际处理缺失现象时,选择中位值填充的方式有时会提高效果。这表明根据FBG预测的体检数据,随机森林模型不是很好。
步骤S2,根据CatBoost模型拟合所有的类别集,获取每个类别集的权重值W1;
步骤S21,分别以每个类别集为基础对目标参数进行预测获得预测值Xi,进而获得每个预测值Xi与真实值X0之间的均方差值;所述类别集与所述目标参数具有关联;
Figure BDA0002041089180000081
步骤S22,根据所述均方差值MSE为每个类别分配权第一重值W1。
按照下述的公式为每个类别分配第一权重值W1:
Figure BDA0002041089180000082
在本实施例中,基于体检科目与血糖标签关联性对科目权重赋值,通过 CatBoost算法,分别以每个体检科目为基础对血糖进行预测并获得一个预测值,共生成5各预测值,通过五折交叉验证的方式,根据公式(1)为每一个体检科目和血糖预测值生成一个均方差值MSE,MSE值是预测值和标准值(即血糖测试真实值)之间的均方差值,然后通过公式2,就可以得到每个科目的权重值W1。均方差值越小的,权重越大。表2是数据集的基本缺失情况与权重值:
表2
科目 项目数 缺失率 权重值W1
肝功能 8 21.60% 1
肾功能 3 24.40% 0.778
血常规 17 0.28% 0.667
血脂 4 0.41% 0.778
乙肝 5 75.90% 0.778
步骤S3,根据XGBoost模型拟合所有的特征数据集,获取每个特征数据的重要性分数W2;具体包括:计算所述数据集中每个所述特征数据与所述目标参数真实值之间重要性的第二权重;所述特征数据与所述目标参数具有关联。
基于体检项目与标签值的关联性的体检项目的全局参数生成方法,通过 XGBoost算法得到每一个项目的重要性分数。
步骤S4,根据每个类别集的权重值W1及每个特征数据的重要性分数W2,获取每个项目的全局参数W=W1*W2;并对每个特征数据按照全局参数W由高到低进行排序;然后将每个科目的权重考虑进来,生成项目的全局参数。表3是本方案和Score-SBS方法获得的重要性排名及分数:
表3
Figure BDA0002041089180000091
表3是根据本方案的方法和Score-SBS方法获得的重要性排名及分数。在得到每个科目的权重值W1之后,接下来要做的就是通过XGBoost算法得到每一个项目的重要性分数W2;Score-SBS方法没有对直接得到的重要性分数进行处理,而本方案的方法是将每个科目的权重值W1与科目内的所有项目的权重值W2综合之后,生成全局的参数W,并进行排名,最终的结果如表3。可以明显的看出,在重要性排名的最前面(比如排名第1和第2的特征都是AST、ALP)和最后面(比如排名第36、37的特征都是HBsAg、HBeAg),两种方法是一样的,这说明这些特征的重要性是基本固定的,不以方法而改变。而在中间部分(排名位于第2-35的特征),特征在两种方法的排名上完全不同。要做的就是分辨出中间部分的重要特征,不断地迭代优选特征,本方案取前28个特征(参照本方案方法排名第1-28对应的28个特征)形成了最优子集;在Score-SBS方法中,取前31个特征(参照Score-SBS方法排名第1-31对应的31个特征)形成最优子集。
步骤S5,根据SBS算法,每轮迭代删除排名最差的特征数据,并记录剩余子集的均方差值MSE;获取标均差值MSE最小的剩余子集,作为最优子集 O输出。具体包括:
步骤S51,通过SBS算法从排名最低的特征数据开始,依次删掉一个特征数据;
步骤S52,分别以剩余子集为基础对所述目标参数进行预测获得预测值,进而获得每个预测值与真实值之间的均方差值MSE;
步骤S53,以均方差值MSE最小的预测值对应的剩余子集作为最优特征选择子集。
针对本实施例中的体检数据,基于体检科目与血糖值、科目与项目和项目和血糖值之间关联系的层次化特征选择方法,通过为每一个体检项目的全局参数排序,确定每个项目最终的重要性排名,排名越靠前,分数越高。然后根据SBS算法,从排名最低的特征开始,依次去掉一个特征,计算剩余子集与血糖值之间的均方差值,直到剩余子集只包括一个特征,即排名最高的特征为止。然后取均方差值最小的子集作为最优子集。
在设置对比实验时,将所有特征作为特征选择方法效果的基线。此外,使用Score-SBS方法作为比较,来评估在本方案提出的特征选择方法。分别在四个模型上验证了本方案的特征选择方法,这四个模型分别是随机森林(RF), XGBoost,LightGBM和CatBoost。可以表4看出,这些模型的MAE和RMSE 几乎保持相同的趋势,这说明经过五折交叉验证之后,这些模型的性能是比较稳定的,表4是在四种预测模型上的最终效果:
表4
Figure BDA0002041089180000101
首先解释一下本发明用到的几个评价指标。均方误差(MSE,Mean Squared Error)是指参数估计值与参数真值之差平方的期望值,MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。均方根误差(RMSE,Root Mean SquaredError)是均方误差的算术平方根。
平均绝对误差(MAE,Mean Absolute Error)是绝对误差的平均值。平均绝对误差能更好地反映预测值误差的实际情况。
Figure BDA0002041089180000111
Figure BDA0002041089180000112
如表4所示,与基线方法相比,Score-SBS特征选择方法对大多数模型效果上有提升,但是提升的幅度有限,另外,该方法并不是在所有模型上效果都有提升,在XGBoost模型上,效果反而出现了下滑。它表明Score-SBS方法依赖于模型,这种方法不具有良好的可扩展性和稳定性。
与基线方法相比,本方案提出的方法在所有模型上都取得了较好的结果。这说明本方案的方法在稳定性上是优于Score-SBS方法的。与Score-SBS方法相比,本方案的方法在XGBoost、LightGBM和CatBoost三种模型上效果出现明显提升,这说明本方案的方法在可扩展性上优于Score-SBS方法。
实施例二
在实施例一的基础上,提供一种基于SBS的层次化特征选择系统,包括处理器,以及与所述处理器连接的存储器,所述存储器存储有基于SBS的层次化特征选择程序,所述基于SBS的层次化特征选择程序被所述处理器执行时实现上述实施例一所述方法的步骤。
实施例三
参见图2,在实施例一的基础上,提供一种用于糖尿病预测的基于SBS的层次化特征选择方法,包括以下步骤:
步骤P1,获取数据集,所述数据集中包含所有检查科目集S,每个检查科目集中包含的检查项目集t、所有的检查项目集Y;其中:
所有的科目集S{S1,S2,S3…Si…Sn},每个科目集Si中包含的项目集 ti{ti1,ti2,ti3…tii…tim},所有的项目集Y{Y1,Y2,Y3…Yi…Yp},其中项目集Y{Y1,Y2,Y3… Yi…Yp}与集合{t11,t12,t13…t1i…tia,t21,t22,t23…t2i…t2b…ti1,ti2,ti3…tii…tim,tn1,tn2,tn3…tni…tnm}中的项目一一对应;实施例的具体数据参见上表1。
步骤P2,根据CatBoost模型拟合所有的检查科目集S,分别以每个检查科目集Si为基础对空腹血糖进行预测并获得预测值,进而获得每个空腹血糖预测值与空腹血糖真实值之间的均方差值;根据所述均方差值为每个检查科目集分配权第一重值W1;具体实验数据参见上表2。
步骤P3,根据XGBoost模型拟合所有的检查项目集Y,计算所述数据集中每个检查项目Yi与空腹血糖真实值之间重要性的第二权重W2;
步骤P4,根据所述第一权重W1与第二权重W2乘积的分值由高到低对所述数据集中的所有检查项目进行排名;具体实验数据参见上表3。
步骤P5,通过SBS算法从排名最低的特征数据开始,依次删掉一个检查项目,分别以剩余子集为基础对空腹血糖进行预测获得预测值,进而获得每个空腹血糖预测值与空腹血糖真实值之间的均方差值;以均方差值最小的空腹血糖预测值对应的剩余子集作为最优特征选择子集输出。具体实验数据参见上表4。
利用体检项目和科目之间的层次化分布特征,对体检数据进行特征选择,在进行特征选择的过程中,尽量减少该选择过程的计算复杂性,同时保证挑选出的子集具有局部的最优性。基于贪心算法思想,通过多轮迭代依次删除排名最后的特征,记录剩余子集的性能,从而挑选最优子集。贪心算法的优势在于能达成局部最优,但是没有从整体上进行考虑,容易忽略全局性的特点。但是,这并不是说贪心算法对所有问题都得不到整体最优解,关键是贪心策略的选择,选择的贪心策略必须具备无后效性,即某个状态以前的过程不会影响以后的状态,只与当前状态有关,本方法在保证该子集的当前效果的同时,可以大幅度降低特征选择过程的复杂性。
实施例四
在实施例三的基础上,提供一种用于糖尿病预测的基于SBS的层次化特征选择系统,包括处理器,以及与所述处理器连接的存储器,所述存储器存储有用于糖尿病预测的基于SBS的层次化特征选择程序,所述用于糖尿病预测的基于SBS的层次化特征选择程序被所述处理器执行时实现上述实施例三所述方法的步骤。
以上所述仅为本发明的优选的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于SBS的层次化特征选择方法,其特征在于,包括以下步骤:
获取数据集,所述数据集包括多个类别集、每个类别集中包含至少一个特征数据集以及所有类别集包含的特征数据集;所述数据集为体检数据集,所述类别集为体检数据集中的检查科目;所述检查科目包括:肝功能、肾功能、血常规、血脂和乙肝;所述特征数据集为从体检数据集中提取的对应于检查科目的体检数据;
根据CatBoost模型拟合所有的检查科目,获取每个检查科目的权重值W1;
根据XGBoost模型拟合所有的体检数据,获取每个体检数据的重要性分数W2;
根据每个检查科目的权重值W1及每个体检数据的重要性分数W2,获取每个项目的全局参数W=W1×W2;并对每个体检数据按照全局参数W由高到低进行排序;
根据SBS算法,每轮迭代删除排名最差的体检数据,并记录剩余子集的均方差值MSE;获取标均差值MSE最小的剩余子集,作为最优子集O输出;
在所述获取数据集的步骤之后还包括:
在所述数据集中的特征数据缺失时,针对缺失的特征数据,按照归属同一类别中对应的固有特征数据的中位数对所述数据集中原始的特征数据进行填充;
在所述获取数据集的步骤之后还包括:
在所述数据集中的特征数据缺失时,针对缺失的特征数据对所述数据集中原始的特征数据进行预处理;具体包括以下步骤:
缺失数据中归属同一类别的特征数据缺失率小于1%时,按照该类别中对应的固有特征数据的中位数进行填充;
缺失数据中归属同一类别的特征数据缺失率大于70%时,删除该类别以及归属该类别的所有原始特征数据;
缺失数据中归属同一类别的特征数据缺失率大于等于1%且小于等于70%时,采用随机森林模型生成的预测值对缺失的特征数据进行填充。
2.根据权利要求1所述的基于SBS的层次化特征选择方法,其特征在于,所述根据CatBoost模型拟合所有的类别集,获取每个类别集的权重值W1的步骤包括:
分别以每个类别集为基础对目标参数进行预测获得预测值Xi,进而获得每个预测值Xi与真实值X0之间的均方差值;所述类别集与所述目标参数具有关联;
Figure FDA0003142359790000021
根据所述均方差值MSE为每个类别分配权第一重值W1。
3.根据权利要求2所述的基于SBS的层次化特征选择方法,其特征在于,所述根据所述均方差值mse为每个类别分配第一权重值W1的步骤包括:
按照下述的公式为每个类别分配第一权重值W1:
Figure FDA0003142359790000022
4.根据权利要求3所述的基于SBS的层次化特征选择方法,其特征在于,所述根据XGBoost模型拟合所有的特征数据集,获取每个特征数据的重要性分数W2的步骤包括:
计算所述数据集中每个所述特征数据与所述目标参数真实值之间重要性的第二权重;所述特征数据与所述目标参数具有关联。
5.根据权利要求4所述的基于SBS的层次化特征选择方法,其特征在于,所述根据SBS算法,每轮迭代删除排名最差的项目,并记录剩余子集的均方差值MSE;获取均方差值MSE最小的剩余子集,作为最优子集O输出的步骤包括:
通过SBS算法从排名最低的特征数据开始,依次删掉一个特征数据;
分别以剩余子集为基础对所述目标参数进行预测获得预测值,进而获得每个预测值与真实值之间的均方差值MSE;
以均方差值MSE最小的预测值对应的剩余子集作为最优特征选择子集。
6.一种基于SBS的层次化特征选择系统,其特征在于:包括处理器,以及与所述处理器连接的存储器,所述存储器存储有基于SBS的层次化特征选择程序,所述基于SBS的层次化特征选择程序被所述处理器执行时实现上述权利要求1~5任一项所述方法的步骤。
7.一种用于血糖预测的基于SBS的层次化特征选择方法,其特征在于,包括以下步骤:
获取数据集,所述数据集包括多个类别集、每个类别集中包含至少一个特征数据集以及所有类别集包含的特征数据集;所述数据集为体检数据集,所述类别集为体检数据集中的检查科目;所述检查科目包括:肝功能、肾功能、血常规、血脂和乙肝;所述特征数据集为从体检数据集中提取的对应于检查科目的体检数据;
根据CatBoost模型拟合所有的检查科目,分别以每个检查科目为基础对空腹血糖进行预测并获得预测值,进而获得每个空腹血糖预测值与空腹血糖真实值之间的均方差值;根据所述均方差值为每个检查科目分配第一权重值W1;
根据XGBoost模型拟合所有的体检数据,计算所述体检数据集中每个体检数据与空腹血糖真实值之间重要性的第二权重W2;
根据所述第一权重W1与第二权重W2乘积的分值由高到低对所述数据集中的所有检查项目进行排名;
通过SBS算法从排名最低的特征数据开始,依次删掉一个检查项目,分别以剩余子集为基础对空腹血糖进行预测获得预测值,进而获得每个空腹血糖预测值与空腹血糖真实值之间的均方差值;以均方差值最小的空腹血糖预测值对应的剩余子集作为最优特征选择子集输出;
在所述获取数据集的步骤之后还包括:
在所述数据集中的特征数据缺失时,针对缺失的特征数据,按照归属同一类别中对应的固有特征数据的中位数对所述数据集中原始的特征数据进行填充;
在所述获取数据集的步骤之后还包括:
在所述数据集中的特征数据缺失时,针对缺失的特征数据对所述数据集中原始的特征数据进行预处理;具体包括以下步骤:
缺失数据中归属同一类别的特征数据缺失率小于1%时,按照该类别中对应的固有特征数据的中位数进行填充;
缺失数据中归属同一类别的特征数据缺失率大于70%时,删除该类别以及归属该类别的所有原始特征数据;
缺失数据中归属同一类别的特征数据缺失率大于等于1%且小于等于70%时,采用随机森林模型生成的预测值对缺失的特征数据进行填充。
8.一种用于血糖预测的基于SBS的层次化特征选择系统,其特征在于,包括处理器,以及与所述处理器连接的存储器,所述存储器存储有用于糖尿病预测的基于SBS的层次化特征选择程序,所述用于糖尿病预测的基于SBS的层次化特征选择程序被所述处理器执行时实现上述权利要求7所述方法的步骤。
CN201910342155.6A 2019-04-26 2019-04-26 一种基于sbs的层次化特征选择方法、系统及应用 Active CN110197706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910342155.6A CN110197706B (zh) 2019-04-26 2019-04-26 一种基于sbs的层次化特征选择方法、系统及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910342155.6A CN110197706B (zh) 2019-04-26 2019-04-26 一种基于sbs的层次化特征选择方法、系统及应用

Publications (2)

Publication Number Publication Date
CN110197706A CN110197706A (zh) 2019-09-03
CN110197706B true CN110197706B (zh) 2021-08-27

Family

ID=67752191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910342155.6A Active CN110197706B (zh) 2019-04-26 2019-04-26 一种基于sbs的层次化特征选择方法、系统及应用

Country Status (1)

Country Link
CN (1) CN110197706B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941963A (zh) * 2019-11-29 2020-03-31 福州大学 一种基于句子情感属性的文本属性生成观点摘要方法与系统
CN111024898B (zh) * 2019-12-30 2021-07-06 中国科学技术大学 一种基于CatBoost模型的车辆尾气浓度超标判别方法
CN111380686A (zh) * 2020-04-26 2020-07-07 华风数据(深圳)有限公司 一种基于XGBoost算法模型的风机主轴承故障监测与诊断方法
CN112000955B (zh) * 2020-08-21 2022-09-27 北京紫光展锐通信技术有限公司 确定日志特征序列的方法、漏洞分析方法及系统、设备
CN111859057B (zh) * 2020-09-22 2020-12-04 上海冰鉴信息科技有限公司 数据特征处理方法及数据特征处理装置
CN112270441A (zh) * 2020-10-30 2021-01-26 华东师范大学 建立自闭症儿童康复效果预测模型的方法、预测自闭症儿童康复效果的方法及系统
CN115775630A (zh) * 2023-02-10 2023-03-10 北京海思瑞格科技有限公司 一种术前基于睡眠阶段数据的术后肺部并发症概率预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194138A (zh) * 2016-01-31 2017-09-22 青岛睿帮信息技术有限公司 一种基于体检数据建模的空腹血糖预测方法
CN109119130A (zh) * 2018-07-11 2019-01-01 上海夏先机电科技发展有限公司 一种基于云计算的大数据健康管理系统及方法
CN109448855A (zh) * 2018-09-17 2019-03-08 大连大学 一种基于cnn和模型融合的糖尿病血糖预测方法
CN109493929A (zh) * 2018-09-20 2019-03-19 北京工业大学 基于分组变量的低冗余特征选择方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9252559B2 (en) * 2012-07-10 2016-02-02 Honeywell International Inc. Narrow bandwidth reflectors for reducing stimulated Brillouin scattering in optical cavities
CN105760303A (zh) * 2016-03-04 2016-07-13 中国石油大学(华东) 基于最大互信息和改进Adaboost的软件缺陷数据特征选择方法
US10173294B2 (en) * 2016-06-13 2019-01-08 William Thomas Owens, III Knife storage system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194138A (zh) * 2016-01-31 2017-09-22 青岛睿帮信息技术有限公司 一种基于体检数据建模的空腹血糖预测方法
CN109119130A (zh) * 2018-07-11 2019-01-01 上海夏先机电科技发展有限公司 一种基于云计算的大数据健康管理系统及方法
CN109448855A (zh) * 2018-09-17 2019-03-08 大连大学 一种基于cnn和模型融合的糖尿病血糖预测方法
CN109493929A (zh) * 2018-09-20 2019-03-19 北京工业大学 基于分组变量的低冗余特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Fasting Blood Glucose Change Prediction Model Based on Medical Examination Data and Data Mining Techniques;Wenxiang Xiao等;《2015 IEEE International Conference on Smart City/SocialCom/SustainCom(smartcity)》;20160505;摘要,第4节 *
基于XGBoost算法的2型糖尿病精准预测模型研究;张洪侠等;《中国实验诊断》;20180325;第22卷(第3期);第408-412页 *

Also Published As

Publication number Publication date
CN110197706A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110197706B (zh) 一种基于sbs的层次化特征选择方法、系统及应用
Basak et al. Multimodal optimization using a biobjective differential evolution algorithm enhanced with mean distance-based selection
JP3209163B2 (ja) 分類装置
Odenbaugh et al. Buyer beware: Robustness analyses in economics and biology
CN110276442B (zh) 一种神经网络架构的搜索方法及装置
CN108154198A (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
Lasserre et al. Predicting the outcome of renal transplantation
CN106372122B (zh) 一种基于维基语义匹配的文档分类方法及系统
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
CN109359115B (zh) 基于图数据库的分布式存储方法、装置及系统
KR102181058B1 (ko) 신약 후보 물질 도출을 위한 데이터 처리 방법
CN113987155B (zh) 一种融合知识图谱与大规模用户日志的会话式检索方法
Martínez-Cruz et al. Flexible queries on relational databases using fuzzy logic and ontologies
CN108256030B (zh) 一种基于本体的密度自适应概念语义相似度计算方法
Du et al. The effects of deep network topology on mortality prediction
CN111128292B (zh) 一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法
Autio et al. On the neural network classification of medical data and an endeavour to balance non-uniform data sets with artificial data extension
CN114580345B (zh) 电路仿真方法、装置、计算机设备及计算机可读存储介质
CN109344877A (zh) 一种样本数据处理方法、样本数据处理装置及电子设备
Sivasankar et al. Identification of important biomarkers for detection of chronic kidney disease using feature selection and classification algorithms
CN114996490A (zh) 电影推荐方法、系统、存储介质及设备
Zhang et al. Improved feature size customized fast correlation-based filter for Naive Bayes text classification
CN112700859A (zh) 一种基于医学影像的医疗诊断辅助方法及系统
CN111310857A (zh) 特征提取方法、电子装置及医疗案例相似度模型构建方法
CN109787784A (zh) 群组推荐方法、装置、存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211228

Address after: 410073 Hunan province Changsha Kaifu District, Deya Road No. 109

Patentee after: National University of Defense Technology

Patentee after: SHENZHEN NINGYUAN TECHNOLOGY Co.,Ltd.

Address before: 518000 floors 11-12, building 2, Yongxin Times Square, No. 4078, Dongbin Road, Nanshan street, Nanshan District, Shenzhen, Guangdong Province

Patentee before: SHENZHEN NINGYUAN TECHNOLOGY Co.,Ltd.