CN108389626A - 基于人工智能的脑卒中筛查方法及系统 - Google Patents

基于人工智能的脑卒中筛查方法及系统 Download PDF

Info

Publication number
CN108389626A
CN108389626A CN201810136208.4A CN201810136208A CN108389626A CN 108389626 A CN108389626 A CN 108389626A CN 201810136208 A CN201810136208 A CN 201810136208A CN 108389626 A CN108389626 A CN 108389626A
Authority
CN
China
Prior art keywords
feature
data
cerebral apoplexy
screening
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810136208.4A
Other languages
English (en)
Inventor
陈继智
赵政达
熊伟
王永明
翟向东
胡天龙
刘佳伟
章玉宇
崔修涛
应振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC SOFTWARE INFORMATION SERVICES Co.,Ltd.
Original Assignee
Shanghai Changjiang Science And Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Changjiang Science And Technology Development Co Ltd filed Critical Shanghai Changjiang Science And Technology Development Co Ltd
Priority to CN201810136208.4A priority Critical patent/CN108389626A/zh
Publication of CN108389626A publication Critical patent/CN108389626A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于人工智能的脑卒中筛查方法及方法,包括:数据预处理步骤:选取历史数据,对历史数据进行预处理,得到预处理数据集;特征选择步骤:基于预处理数据集,采用遗传算法来进行特征选择,得到特征选择数据集;特征优化步骤:对特征选择数据集进行特征优化,得到特征优化数据集;筛查步骤:对特征优化数据集进行预测,得到目标人群患脑卒中的风险概率。本发明将人工智能中的一系列方法引入,通过数据预处理、特征选择、特征优化,得到的数据特征更有效。采用XGBoost方法自动生成目标人群患脑卒中的风险概率,可以更高效便捷地进行社区健康普查,同时,可以帮助医生更简单快捷地对目标人群患脑卒中风险进行评估。

Description

基于人工智能的脑卒中筛查方法及系统
技术领域
本发明涉及脑卒中筛查和医疗领域,具体地,涉及一种基于人工智能的脑卒中筛查方法及系统。
背景技术
“脑卒中”(cerebral stroke)又称“中风”、“脑血管意外”,是一种急性脑血管疾病,是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一组疾病,包括缺血性和出血性卒中。不同类型的脑卒中,其治疗方式不同。由于一直缺乏有效的治疗手段,目前认为预防是最好的措施,为有效预防,进行脑卒中筛查是最有效的方法。
刘芹等人(刘芹等.社区脑卒中筛查的意义及规范化管理效果分析.中国初级卫生保健,2013.)探讨了社区脑卒中筛查的意义及规范化管理后的效果。对1091例社区居民进行问卷调查,并对颈动脉彩超检查进行筛查和分析;对440例居民规范化管理1年后,按照危险因素的控制情况进行效果评价,通过社区脑卒中筛查发现:1091例参与者中,876例(80.29%)为脑卒中高危人群;排在前三位的可变的危险因素为超重或肥胖(61.96%)、高血压(45.73%)和血脂异常(28.69%);颈动脉彩超检查大部分颈动脉异常;对高危人群进行社区规范化管理后,60.44%的居民危险因素控制优良。得出,社区脑卒中筛查是早期发现脑卒中高危人群的有效方法,对高危人群实施社区规范化管理,能够有效地控制和减少危险因素,降低脑卒中的发生。
许颖玲等人(许颖玲等.不同脑卒中类型患者血脂情况.中国慢性病预防与控制,2008.)对不同脑卒中类型患者血脂情况进行了研究,以为临床治疗及膳食营养提供参考意见。对全部样本进行血脂指标(甘油三酯、总胆固醇、低密度脂蛋白胆固醇、高密度脂蛋白胆固醇)检测,将120例脑血管疾病患者分为脑梗死组(60例)和脑出血组(60例),并选择50例非脑血管疾病患者作为对照。结果显示,脑梗死组甘油三酯、总胆固醇、低密度脂蛋白胆固醇和高密度脂蛋白胆固醇分别为(1.65±0.98)、(4.89±1.23)、(2.96±0.21)和(1.36±1.20)mmol/L,脑出血组分别为(1.01±0.26)、(4.23±0.85)、(2.24±1.25)和(1.12±0.36)mmol/L,对照组分别为(1.02±0.25)、(3.96±2.01)、(2.18±0.54)和(1.13±0.75)mmol/L,可见,脑梗死组甘油三酯、总胆固醇、低密度脂蛋白胆固醇均高于脑出血组和对照组,差别有统计学意义(P<0.05)。得出,脑梗死患者血脂代谢紊乱,未发现脑出血患者血脂明显异常。
吴承龙等(吴承龙等.脑卒中高危人群筛查结果的分析.中华全科医学,2014.)对绍兴地区脑卒中高危人群筛查结果进行了分析,为脑卒中的防治提供科学的依据。于2013年1月8日至4月30日,按整群随机抽样方法,对绍兴地区6个社区的≥40岁的常住人口进行筛查,城乡比例为2∶3,共12237名人,进行问卷调查和体格检查,并筛选出脑卒中高危人群进行实验室检查和颈动脉彩超检查,采用使用率和百分比对筛查结果进行描述性统计分析。结果显示,筛选出脑卒中高危人群1646人,占总筛查人数的13.45%,其中,脑卒中高危人群中,影响脑卒中的各项危险因素排序依次为高血压、少运动、高血脂、年龄≥60岁、肥胖、饮酒、糖尿病、吸烟、脑卒中家族史、既往脑卒中史和房颤或瓣膜心脏病;而各项危险因素在不同年龄段分布又有所不同,高危人群中房颤患者的抗凝比例极低,颈动脉粥样硬化检出率为44.7%,有斑块者40.1%、其中软斑不稳定斑块高达15.9%,颈动脉狭窄比例为3%。得出,加强脑卒中高危人群的管理、控制各项危险因素、提倡健康生活方式对脑卒中的防治有重要意义。
综上可知,传统的脑卒中筛查方法,主要采用对血压、血脂、血糖、肥胖程度以及其他检查报告等信息进行采集,然后进行人为的筛查,较为复杂且耗费人力,为解决这一技术问题,本发明将人工智能方法引入对脑卒中进行筛查,基于可信度高且数据层次丰富的BRFSS数据集,设计智能筛查模型,提出了一种基于人工智能的脑卒中筛查方法及系统,采用多种特征选择方法进行特征选择,并输入到遗传算法中,通过设计的目标函数确定选取的特征,选取了_RFCHOL(是否是高胆固醇),_RFSMOK3(是否抽烟),BPHIGH4(是否有高血压),DRNKANY5(过去30天至少喝过一次酒),CVDCRHD4(冠心病),CVDINFR4(心肌梗死),_MICHD=CVDCRHD4 or CVDINFR4(是否有冠心病或心肌梗死),_RACEG21(人种),MENTHLTH(精神状态)等信息,以从多维度对目标人群健康状况进行更准确表示,在此基础上,采用机器学习中的XGBoost方法自动地对目标人群患脑卒中的风险概率进行评估,更准确有效,且快速智能化。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于人工智能的脑卒中筛查方法及系统。
根据本发明提供的一种基于人工智能的脑卒中筛查方法,包括如下步骤:
数据预处理步骤:选取历史数据,对历史数据进行预处理,得到预处理数据集;
特征选择步骤:基于预处理数据集,采用遗传算法来进行特征选择,得到特征选择数据集;
特征优化步骤:对特征选择数据集进行特征优化,得到特征优化数据集;
筛查步骤:对特征优化数据集进行预测,得到目标人群患脑卒中的风险概率。
优选地,所述数据预处理步骤包括:
去缺失和噪声数据步骤:采用均值和最近邻补差方法对历史数据的缺失值和噪声数据进行处理;
数据转化步骤:采用函数变换进行数据转化,进行数学函数变换将不具有正态分布的数据变换成具有正态性的数据;对于时间序列,采用对数变换或者差分运算,将非平稳序列转换为平稳序列;
数据规范化和离散化步骤:采用最小-最大规范化方法进行数据规范化,以消除量纲影响;采用不同离散方法对历史数据进行离散化,得到预处理数据集,以矩阵Dpre表示。
优选地,所述数学函数变换方法包括平方、开方、取对数或者差分运算;
所述离散方法包括等宽法、等频法或者基于聚类分析的方法。
优选地,所述特征选择步骤包括:
特征组合获取步骤:基于不同特征选择方法得到不同的特征组合;
特征组合优化步骤:采用遗传算法对不同的特征组合进行处理,得到优化的特征组合,对优化的特征组合采用集合交的计算方式得到最终特征组合,并通过目标函数对最终特征组合进行评估,得出最优特征组合,形成特征选择数据集;
在所述特征优化步骤中,基于XGBoost方法对特征选择数据集进行特征优化;
在所述筛查步骤中,基于XGBoost方法对特征选择数据集进行特征优化。
优选地,所述不同的特征选择方法包括:基于方差的特征选择方法、单变量特征选择方法、LS-SVM、Ridge、RFE、随机森林方法、Lasso或者稳定性特征选择方法;
所述目标函数为:
其中:
F是目标函数的修正项,为了保证特征与脑卒中相关,F为用于脑卒中筛查的风险因素集;N表示初始特征的个数,是自变量,的取值范围为:n表示特征选择方法的种类数,Z表示最后选择的特征子集,Xi表示第i个特征选择方法的特征组合,newXi是第i个特征选择方法产生的特征子集;目标函数的取值范围是0~1,值越接近于1,特征组合越优。
根据本发明提供的一种基于人工智能的脑卒中筛查系统,包括如下模块:
数据预处理模块:用于选取历史数据,对历史数据进行预处理,得到预处理数据集;
特征选择模块:用于基于预处理数据集,采用遗传算法来进行特征选择,得到特征选择数据集;
特征优化模块:用于对特征选择数据集进行特征优化,得到特征优化数据集;
筛查模块:用于对特征优化数据集进行预测,得到目标人群患脑卒中的风险概率。
优选地,所述数据预处理模块包括:
去缺失和噪声数据模块:用于采用均值和最近邻补差方法对历史数据的缺失值和噪声数据进行处理;
数据转化模块:用于采用函数变换进行数据转化,进行数学函数变换将不具有正态分布的数据变换成具有正态性的数据;对于时间序列,采用对数变换或者差分运算,将非平稳序列转换为平稳序列;
数据规范化和离散化模块:用于采用最小-最大规范化方法进行数据规范化,以消除量纲影响;采用不同离散方法对历史数据进行离散化,得到预处理数据集,以矩阵Dpre表示。
优选地,所述数学函数变换方法包括平方、开方、取对数或者差分运算;
所述离散方法包括等宽法、等频法或者基于聚类分析的方法。
优选地,所述特征选择模块包括:
特征组合获取模块:用于基于不同特征选择方法得到不同的特征组合;
特征组合优化模块:用于采用遗传算法对不同的特征组合进行处理,得到优化的特征组合,对优化的特征组合采用集合交的计算方式得到最终特征组合,并通过目标函数对最终特征组合进行评估,得出最优特征组合,形成特征选择数据集;
在所述特征优化模块中基于XGBoost方法对特征选择数据集进行特征优化;
在所述筛查模块中基于XGBoost方法对特征选择数据集进行特征优化。
优选地,所述不同的特征选择方法包括:基于方差的特征选择方法、单变量特征选择方法、LS-SVM、Ridge、RFE、随机森林方法、Lasso或者稳定性特征选择方法;
所述目标函数为:
其中:
F是目标函数的修正项,为了保证特征与脑卒中相关,F为用于脑卒中筛查的风险因素集;N表示初始特征的个数,是自变量,的取值范围为:n表示特征选择方法的种类数,Z表示最后选择的特征子集,Xi表示第i个特征选择方法的特征组合,newXi是第i个特征选择方法产生的特征子集;目标函数的取值范围是0~1,值越接近于1,特征组合越优。
与现有技术相比,本发明具有如下的有益效果:
1、本发明基于世界上最大的持续健康调查系统收集的数据,将人工智能中的一系列方法引入,通过数据预处理、特征选择、特征优化,得到的数据特征更有效。
2、本发明采用XGBoost方法自动生成目标人群患脑卒中的风险概率,可以更高效便捷地进行社区健康普查,同时,可以帮助医生更简单快捷地对目标人群患脑卒中风险进行评估。
3、和传统人为筛查方法相比,本发明提供的方法更简单有效,可有力推动健康普查,以更快发现潜在脑卒中患者,更早提醒,以更早更有效地治疗;发现了除了八分量表之外的新的特征,筛查更有效。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为基于人工智能的脑卒中筛查方法的设计流程图;
图2为数据预处理模块的工作原理图
图3为特征选择模块的工作原理图
图4为特征优化模块的工作原理图
图5为筛查器模块的工作原理图
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1至图5所示,根据本发明提供的一种基于人工智能的脑卒中筛查方法及系统,基于世界上最大的持续健康调查系统收集的数据,通过数据清洗、去缺失、去噪、转化和离散化,得到预处理数据集;采用改进的遗传算法来进行特征选择,得到特征选择数据集,基于多种特征选择算法(如基于方差的特征选择方法、单变量特征选择方法、L2-svm方法、Ridge方法等)进行特征选择,并将得到的特征输入到遗传算法进行处理,通过设计的目标函数确定选取的特征;基于XGBoost方法进行特征优化,得到特征优化数据集;选用XGBoost方法对特征优化数据集进行预测,得到目标人群患脑卒中的风险概率。
如图1所示,根据本发明提供的一种基于人工智能的脑卒中筛查方法,包括数据预处理步骤:选取历史数据,对历史数据进行预处理,得到预处理数据集;特征选择步骤:基于预处理数据集,采用遗传算法来进行特征选择,得到特征选择数据集;特征优化步骤:对特征选择数据集进行特征优化,得到特征优化数据集;筛查步骤:对特征优化数据集进行预测,得到目标人群患脑卒中的风险概率。
详细地,所述历史数据是基于世界上最大的持续健康调查系统(The BehavioralRisk Factor Surveillance System,BRFSS)收集的有关美国居民的健康风险行为、慢性健康状况和使用预防服务的数据,并对所述数据进行数据清洗、去缺失、去噪、转化以及离散化,得到预处理数据集。
更为详细地,首先采用均值和最近邻补差方法对缺失值和噪声数据进行处理;然后采用简单函数变换进行数据转化(进行数学函数变换如平方、开方、取对数或者差分运算,将不具有正态分布的数据变换成具有正态性的数据;对于时间序列,采用对数变换或者差分运算,将非平稳序列转换为平稳序列。);然后进行数据规范化和离散化:采用最小-最大规范化方法进行规范化,以消除量纲影响;采用多种离散方法如等宽法、等频法或者基于聚类分析的方法进行离散化;通过去缺失和噪声数据、数据转化、数据规范化和离散化,最后得到预处理数据集,以矩阵Dpre表示。
进一步地,特征选择步骤是基于预处理数据集,采用改进的遗传算法来进行特征选择,得到特征选择数据集。
更进一步地,特征选择步骤首先分别采用基于方差的特征选择方法、单变量特征选择方法、LS-SVM、Ridge、RFE、随机森林方法、Lasso、稳定性特征选择方法进行特征选择:对数据集Dpre(假如为m行n列)的特征属性分别采用f1,f2,……,fn来表示,每种特征选择方法得到的优化特征组合采用Xi(i=1,2,……,8,其中,采用X1代表基于方差的特征选择方法得到的特征组合,X2代表基于单变量方法得到的特征组合,X3代表基于LS-SVM方法得到的特征组合,X4代表基于Ridge方法得到的特征组合,X5代表基于RFE方法得到的特征组合,X6代表基于随机森林方法得到的特征组合,X7代表基于Lasso方法得到的特征组合,X8代表基于稳定性特征选择方法的特征组合),Xi为1*n特征向量,Xij(i=1,2,3,4,5,6,7,8;j=1,2,……,n)取值为1或者0;当Xij取值为1,则表示第j个特征fj被Xi对应的特征选择方法选择,取值为0,则表示第j个特征fj未被Xi对应的特征选择方法选择,例如,X1=(0,0,1,……,1,0),则代表采用基于方差的方法得到特征组合,选择出了f3和……和fn(所有取值为1对应的特征列)。
然后,将X1~X8作为输入,采用遗传算法(Genetic Algorithm,GA)进行处理309,得到若干个较优的特征组合(如(X1,X3)、(X2,X5)、(X1、X4、X6)),每对组合采用集合交的计算方式得到最终特征组合(如X1∩X3={f3,f6,f7,f20,f31,f44,f52}、X2∩X5={f5,f7,f44,f63,f65,f87}、X1∩X4∩X6={f6,f31,f87,f66,f131}),然后分别采用设计的目标函数310来对遗传算法得到的多组特征组合其进行评估,得出最优的特征组合,进行评估的目标函数310为:
其中:
其中,F是目标函数的修正项,为了保证特征与脑卒中相关,F等于目前医院中用于脑卒中筛查的风险因素集;N表示初始特征的个数,是自变量,取值范围为:n表示特征选择方法的种类数,Z表示最后选择的特征子集,Xi表示第i个特征选择方法的特征组合,newXi是第i个特征选择方法产生的特征子集。目标函数的取值范围是0~1,值越接近于1,特征组合越优。
在特征优化步骤中,基于XGBoost方法进行特征优化,得到特征优化数据集,以矩阵DsecondFeatureSetlect表示;在筛查步骤中,基于特征选择器得到的DsecondFeatureSetlect,选用预测方法XGBoost对特征选择器得到的数据集进行预测,得到目标人群的患脑卒中的风险概率。
通过上述一系列的处理,最终得到特征选择结果,以矩阵DfirstFeatureSetlect表示,选出的特征为_RFCHOL(是否是高胆固醇),_RFSMOK3(是否抽烟),BPHIGH4(是否有高血压),DRNKANY5(过去30天至少喝过一次酒),CVDCRHD4(冠心病),CVDINFR4(心肌梗死),_MICHD=CVDCRHD4 or CVDINFR4(是否有冠心病或心肌梗死),_RACEG21(人种),MENTHLTH(精神状态)等。
本发明还提供一种基于人工智能的脑卒中筛查系统,包括如下模块:数据预处理模块:用于选取历史数据,对历史数据进行预处理,得到预处理数据集;特征选择模块:用于基于预处理数据集,采用遗传算法来进行特征选择,得到特征选择数据集;特征优化模块:用于对特征选择数据集进行特征优化,得到特征优化数据集;筛查模块:用于对特征优化数据集进行预测,得到目标人群患脑卒中的风险概率。
具体地,所述历史数据是基于世界上最大的持续健康调查系统(The BehavioralRisk Factor Surveillance System,BRFSS)收集的有关美国居民的健康风险行为、慢性健康状况和使用预防服务的数据,并对所述数据进行数据清洗、去缺失、去噪、转化以及离散化,得到预处理数据集。
更加具体地,首先采用均值和最近邻补差方法对缺失值和噪声数据进行处理;然后采用简单函数变换进行数据转化(进行数学函数变换如平方、开方、取对数或者差分运算,将不具有正态分布的数据变换成具有正态性的数据;对于时间序列,采用对数变换或者差分运算,将非平稳序列转换为平稳序列。);然后进行数据规范化和离散化:采用最小-最大规范化方法进行规范化,以消除量纲影响;采用多种离散方法如等宽法、等频法或者基于聚类分析的方法进行离散化;通过去缺失和噪声数据、数据转化、数据规范化和离散化,最后得到预处理数据集,以矩阵Dpre表示。
进一步地,特征选择模块基于预处理数据集,采用改进的遗传算法来进行特征选择,得到特征选择数据集。
更进一步地,特征选择模块首先分别采用基于方差的特征选择方法、单变量特征选择方法、LS-SVM、Ridge、RFE、随机森林方法、Lasso、稳定性特征选择方法进行特征选择:对数据集Dpre(假如为m行n列)的特征属性分别采用f1,f2,……,fn来表示,每种特征选择方法得到的优化特征组合采用Xi(i=1,2,……,8,其中,采用X1代表基于方差的特征选择方法得到的特征组合,X2代表基于单变量方法得到的特征组合,X3代表基于LS-SVM方法得到的特征组合,X4代表基于Ridge方法得到的特征组合,X5代表基于RFE方法得到的特征组合,X6代表基于随机森林方法得到的特征组合,X7代表基于Lasso方法得到的特征组合,X8代表基于稳定性特征选择方法的特征组合),Xi为1*n特征向量,Xij(i=1,2,3,4,5,6,7,8;j=1,2,……,n)取值为1或者0;当Xij取值为1,则表示第j个特征fj被Xi对应的特征选择方法选择,取值为0,则表示第j个特征fj未被Xi对应的特征选择方法选择,例如,X1=(0,0,1,……,1,0),则代表采用基于方差的方法得到特征组合,选择出了f3和……和fn(所有取值为1对应的特征列)。
然后,将X1~X8作为输入,采用遗传算法(Genetic Algorithm,GA)进行处理309,得到若干个较优的特征组合(如(X1,X3)、(X2,X5)、(X1、X4、X6)),每对组合采用集合交的计算方式得到最终特征组合(如X1∩X3={f3,f6,f7,f20,f31,f44,f52}、X2∩X5={f5,f7,f44,f63,f65,f87}、X1∩X4∩X6={f6,f31,f87,f66,f131}),然后分别采用设计的目标函数310来对遗传算法得到的多组特征组合其进行评估,得出最优的特征组合,进行评估的目标函数310为:
其中:
其中,F是目标函数的修正项,为了保证特征与脑卒中相关,F等于目前医院中用于脑卒中筛查的风险因素集;N表示初始特征的个数,是自变量,取值范围为:n表示特征选择方法的种类数,Z表示最后选择的特征子集,Xi表示第i个特征选择方法的特征组合,newXi是第i个特征选择方法产生的特征子集。目标函数的取值范围是0~1,值越接近于1,特征组合越优。
在特征优化模块中,基于XGBoost方法进行特征优化,得到特征优化数据集,以矩阵DsecondFeatureSetlect表示;在筛查模块中,基于特征选择器得到的DsecondFeatureSetlect,选用预测方法XGBoost对特征选择器得到的数据集进行预测,得到目标人群的患脑卒中的风险概率。
通过上述一系列的处理,最终得到特征选择结果,以矩阵DfirstFeatureSetlect表示,选出的特征为_RFCHOL(是否是高胆固醇),_RFSMOK3(是否抽烟),BPHIGH4(是否有高血压),DRNKANY5(过去30天至少喝过一次酒),CVDCRHD4(冠心病),CVDINFR4(心肌梗死),_MICHD=CVDCRHD4 or CVDINFR4(是否有冠心病或心肌梗死),_RACEG21(人种),MENTHLTH(精神状态)等。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于人工智能的脑卒中筛查方法,其特征在于,包括如下步骤:
数据预处理步骤:选取历史数据,对历史数据进行预处理,得到预处理数据集;
特征选择步骤:基于预处理数据集,采用遗传算法来进行特征选择,得到特征选择数据集;
特征优化步骤:对特征选择数据集进行特征优化,得到特征优化数据集;
筛查步骤:对特征优化数据集进行预测,得到目标人群患脑卒中的风险概率。
2.根据权利要求1所述的基于人工智能的脑卒中筛查方法,其特征在于,所述数据预处理步骤包括:
去缺失和噪声数据步骤:采用均值和最近邻补差方法对历史数据的缺失值和噪声数据进行处理;
数据转化步骤:采用函数变换进行数据转化,进行数学函数变换将不具有正态分布的数据变换成具有正态性的数据;对于时间序列,采用对数变换或者差分运算,将非平稳序列转换为平稳序列;
数据规范化和离散化步骤:采用最小-最大规范化方法进行数据规范化,以消除量纲影响;采用不同离散方法对历史数据进行离散化,得到预处理数据集,以矩阵Dpre表示。
3.根据权利要求2所述的基于人工智能的脑卒中筛查方法,其特征在于,
所述数学函数变换方法包括平方、开方、取对数或者差分运算;
所述离散方法包括等宽法、等频法或者基于聚类分析的方法。
4.根据权利要求1所述的基于人工智能的脑卒中筛查方法,其特征在于,所述特征选择步骤包括:
特征组合获取步骤:基于不同特征选择方法得到不同的特征组合;
特征组合优化步骤:采用遗传算法对不同的特征组合进行处理,得到优化的特征组合,对优化的特征组合采用集合交的计算方式得到最终特征组合,并通过目标函数对最终特征组合进行评估,得出最优特征组合,形成特征选择数据集;
在所述特征优化步骤中,基于XGBoost方法对特征选择数据集进行特征优化;
在所述筛查步骤中,基于XGBoost方法对特征选择数据集进行特征优化。
5.根据权利要求4所述的基于人工智能的脑卒中筛查方法,其特征在于,
所述不同的特征选择方法包括:基于方差的特征选择方法、单变量特征选择方法、LS-SVM、Ridge、RFE、随机森林方法、Lasso或者稳定性特征选择方法;
所述目标函数为:
其中:
F是目标函数的修正项,为了保证特征与脑卒中相关,F为用于脑卒中筛查的风险因素集;N表示初始特征的个数;是自变量,的取值范围为:n表示特征选择方法的种类数;Z表示;Xi表示第i个特征选择方法的特征组合;newXi是第i个特征选择方法产生的特征子集;目标函数的取值范围是0~1,值越接近于1,特征组合越优。
6.一种基于人工智能的脑卒中筛查系统,其特征在于,包括如下模块:
数据预处理模块:用于选取历史数据,对历史数据进行预处理,得到预处理数据集;
特征选择模块:用于基于预处理数据集,采用遗传算法来进行特征选择,得到特征选择数据集;
特征优化模块:用于对特征选择数据集进行特征优化,得到特征优化数据集;
筛查模块:用于对特征优化数据集进行预测,得到目标人群患脑卒中的风险概率。
7.根据权利要求6所述的基于人工智能的脑卒中筛查系统,其特征在于,所述数据预处理模块包括:
去缺失和噪声数据模块:用于采用均值和最近邻补差方法对历史数据的缺失值和噪声数据进行处理;
数据转化模块:用于采用函数变换进行数据转化,进行数学函数变换将不具有正态分布的数据变换成具有正态性的数据;对于时间序列,采用对数变换或者差分运算,将非平稳序列转换为平稳序列;
数据规范化和离散化模块:用于采用最小-最大规范化方法进行数据规范化,以消除量纲影响;采用不同离散方法对历史数据进行离散化,得到预处理数据集,以矩阵Dpre表示。
8.根据权利要求7所述的基于人工智能的脑卒中筛查系统,其特征在于,
所述数学函数变换方法包括平方、开方、取对数或者差分运算;
所述离散方法包括等宽法、等频法或者基于聚类分析的方法。
9.根据权利要求6所述的基于人工智能的脑卒中筛查系统,其特征在于,所述特征选择模块包括:
特征组合获取模块:用于基于不同特征选择方法得到不同的特征组合;
特征组合优化模块:用于采用遗传算法对不同的特征组合进行处理,得到优化的特征组合,对优化的特征组合采用集合交的计算方式得到最终特征组合,并通过目标函数对最终特征组合进行评估,得出最优特征组合,形成特征选择数据集;
在所述特征优化模块中基于XGBoost方法对特征选择数据集进行特征优化;
在所述筛查模块中基于XGBoost方法对特征选择数据集进行特征优化。
10.根据权利要求9所述的基于人工智能的脑卒中筛查系统,其特征在于,
所述不同的特征选择方法包括:基于方差的特征选择方法、单变量特征选择方法、LS-SVM、Ridge、RFE、随机森林方法、Lasso或者稳定性特征选择方法;
所述目标函数为:
其中:
F是目标函数的修正项,为了保证特征与脑卒中相关,F为用于脑卒中筛查的风险因素集;N表示初始特征的个数,是自变量,的取值范围为:n表示特征选择方法的种类数,Z表示最后选择的特征子集,Xi表示第i个特征选择方法的特征组合,newXi是第i个特征选择方法产生的特征子集;目标函数的取值范围是0~1,值越接近于1,特征组合越优。
CN201810136208.4A 2018-02-09 2018-02-09 基于人工智能的脑卒中筛查方法及系统 Pending CN108389626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810136208.4A CN108389626A (zh) 2018-02-09 2018-02-09 基于人工智能的脑卒中筛查方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810136208.4A CN108389626A (zh) 2018-02-09 2018-02-09 基于人工智能的脑卒中筛查方法及系统

Publications (1)

Publication Number Publication Date
CN108389626A true CN108389626A (zh) 2018-08-10

Family

ID=63075675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810136208.4A Pending CN108389626A (zh) 2018-02-09 2018-02-09 基于人工智能的脑卒中筛查方法及系统

Country Status (1)

Country Link
CN (1) CN108389626A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036556A (zh) * 2018-08-29 2018-12-18 王雁 一种基于机器学习诊断圆锥角膜病例的方法
CN109256207A (zh) * 2018-08-29 2019-01-22 王雁 一种基于XGBoost+SVM混合机器学习诊断圆锥角膜病例的方法
CN109480780A (zh) * 2018-11-14 2019-03-19 重庆三峡医药高等专科学校 一种脑卒中预警系统及方法
CN110797119A (zh) * 2019-09-23 2020-02-14 深圳甲田科技有限公司 健康风险智能监测装置和迁移学习方法
WO2020034801A1 (zh) * 2018-08-14 2020-02-20 平安医疗健康管理股份有限公司 医疗特征筛选方法、装置、计算机设备和存储介质
CN111091911A (zh) * 2019-12-30 2020-05-01 重庆同仁至诚智慧医疗科技股份有限公司 一种卒中风险筛查系统及方法
CN111243751A (zh) * 2020-01-17 2020-06-05 河北工业大学 一种基于双重特征选择和XGBoost算法的心脏病预测方法
CN111436933A (zh) * 2020-04-04 2020-07-24 上海健康医学院 一种大规模产后疾病筛查和追踪治疗的方法及系统
CN111968746A (zh) * 2020-07-21 2020-11-20 华中科技大学协和深圳医院 一种基于混合深度迁移学习的脑卒中风险预测方法及装置
CN112216391A (zh) * 2020-10-22 2021-01-12 深圳市第二人民医院(深圳市转化医学研究院) 基于颈动脉粥样硬化情况评估脑卒中发病风险方法及装置
CN112434737A (zh) * 2020-11-25 2021-03-02 南京大学 用于脑卒中分析的多智能体评价准则融合的特征选择系统
CN112447292A (zh) * 2020-11-25 2021-03-05 南京大学 基于机器学习可解释性的人体指标-脑卒中关系分析系统
CN112967807A (zh) * 2021-03-03 2021-06-15 吾征智能技术(北京)有限公司 基于饮食行为预测脑卒中的系统、设备及存储介质
CN113111918A (zh) * 2021-03-17 2021-07-13 重庆城市管理职业学院 基于异常样本检测和多维信息输出的脑卒中风险筛查方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143087A (zh) * 2014-07-24 2014-11-12 苏州大学 基于sd-oct的挫伤性视网膜内外节缺失检测方法
US20160128663A1 (en) * 2013-07-17 2016-05-12 Hepatiq Llc Systems and methods for determining hepatic function from liver scans
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN107066791A (zh) * 2016-12-19 2017-08-18 银江股份有限公司 一种基于病人检验结果的辅助疾病诊断方法
CN107492071A (zh) * 2017-08-17 2017-12-19 京东方科技集团股份有限公司 医学图像处理方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160128663A1 (en) * 2013-07-17 2016-05-12 Hepatiq Llc Systems and methods for determining hepatic function from liver scans
CN104143087A (zh) * 2014-07-24 2014-11-12 苏州大学 基于sd-oct的挫伤性视网膜内外节缺失检测方法
CN107066791A (zh) * 2016-12-19 2017-08-18 银江股份有限公司 一种基于病人检验结果的辅助疾病诊断方法
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN107492071A (zh) * 2017-08-17 2017-12-19 京东方科技集团股份有限公司 医学图像处理方法及设备

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020034801A1 (zh) * 2018-08-14 2020-02-20 平安医疗健康管理股份有限公司 医疗特征筛选方法、装置、计算机设备和存储介质
CN109036556B (zh) * 2018-08-29 2021-06-04 王雁 一种基于机器学习诊断圆锥角膜病例的方法
CN109256207A (zh) * 2018-08-29 2019-01-22 王雁 一种基于XGBoost+SVM混合机器学习诊断圆锥角膜病例的方法
CN109036556A (zh) * 2018-08-29 2018-12-18 王雁 一种基于机器学习诊断圆锥角膜病例的方法
CN109480780A (zh) * 2018-11-14 2019-03-19 重庆三峡医药高等专科学校 一种脑卒中预警系统及方法
CN109480780B (zh) * 2018-11-14 2021-08-24 重庆三峡医药高等专科学校 一种脑卒中预警系统的评估方法及系统
CN110797119A (zh) * 2019-09-23 2020-02-14 深圳甲田科技有限公司 健康风险智能监测装置和迁移学习方法
CN110797119B (zh) * 2019-09-23 2022-09-20 深圳甲田科技有限公司 健康风险智能监测装置和迁移学习方法
CN111091911A (zh) * 2019-12-30 2020-05-01 重庆同仁至诚智慧医疗科技股份有限公司 一种卒中风险筛查系统及方法
CN111243751B (zh) * 2020-01-17 2022-04-22 河北工业大学 一种基于双重特征选择和XGBoost算法的心脏病预测方法
CN111243751A (zh) * 2020-01-17 2020-06-05 河北工业大学 一种基于双重特征选择和XGBoost算法的心脏病预测方法
CN111436933A (zh) * 2020-04-04 2020-07-24 上海健康医学院 一种大规模产后疾病筛查和追踪治疗的方法及系统
CN111968746A (zh) * 2020-07-21 2020-11-20 华中科技大学协和深圳医院 一种基于混合深度迁移学习的脑卒中风险预测方法及装置
CN112216391A (zh) * 2020-10-22 2021-01-12 深圳市第二人民医院(深圳市转化医学研究院) 基于颈动脉粥样硬化情况评估脑卒中发病风险方法及装置
CN112216391B (zh) * 2020-10-22 2024-05-10 深圳市第二人民医院(深圳市转化医学研究院) 基于颈动脉粥样硬化情况评估脑卒中发病风险方法及装置
CN112447292B (zh) * 2020-11-25 2022-03-25 南京大学 基于机器学习可解释性的人体指标-脑卒中关系分析系统
CN112447292A (zh) * 2020-11-25 2021-03-05 南京大学 基于机器学习可解释性的人体指标-脑卒中关系分析系统
CN112434737A (zh) * 2020-11-25 2021-03-02 南京大学 用于脑卒中分析的多智能体评价准则融合的特征选择系统
CN112434737B (zh) * 2020-11-25 2024-03-19 南京大学 用于脑卒中分析的多智能体评价准则融合的特征选择系统
CN112967807A (zh) * 2021-03-03 2021-06-15 吾征智能技术(北京)有限公司 基于饮食行为预测脑卒中的系统、设备及存储介质
CN112967807B (zh) * 2021-03-03 2023-12-01 吾征智能技术(北京)有限公司 基于饮食行为预测脑卒中的系统、设备及存储介质
CN113111918A (zh) * 2021-03-17 2021-07-13 重庆城市管理职业学院 基于异常样本检测和多维信息输出的脑卒中风险筛查方法

Similar Documents

Publication Publication Date Title
CN108389626A (zh) 基于人工智能的脑卒中筛查方法及系统
CN110090012A (zh) 一种基于机器学习的人体疾病检测方法及检测产品
Koulaouzidis et al. Telemonitoring predicts in advance heart failure admissions
CN111261289A (zh) 一种基于人工智能模型的心脏疾病的检测方法
CN109480780A (zh) 一种脑卒中预警系统及方法
Al Ahdal et al. Monitoring cardiovascular problems in heart patients using machine learning
CN109938695A (zh) 一种基于异质度指标的人体疾病风险预测方法及设备
Grün et al. Identifying heart failure in ECG data with artificial intelligence—a meta-analysis
Desai et al. Decision support system for arrhythmia beats using ECG signals with DCT, DWT and EMD methods: A comparative study
Nasimov et al. A new approach to classifying myocardial infarction and cardiomyopathy using deep learning
Shahin et al. Data mining in healthcare information systems: case studies in Northern Lebanon
Karaolis et al. Association rule analysis for the assessment of the risk of coronary heart events
Chou et al. Extracting drug utilization knowledge using self-organizing map and rough set theory
Thaiparnit et al. A classification for patients with heart disease based on hoeffding tree
Yang et al. Automated intra-patient and inter-patient coronary artery disease and congestive heart failure detection using EFAP-Net
Simegn et al. Computer-aided decision support system for diagnosis of heart diseases
Tong et al. Locating abnormal heartbeats in ECG segments based on deep weakly supervised learning
Feng et al. Dcmn: Double core memory network for patient outcome prediction with multimodal data
Andry et al. Electronic health record to predict a heart attack used data mining with Naïve Bayes method
CN111329467A (zh) 一种基于人工智能的心脏疾病辅助检测方法
Liu et al. Automatic detection of high-frequency oscillations based on an end-to-end bi-branch neural network and clinical cross-validation
Shchetinin et al. Cardiac arrhythmia disorders detection with deep learning models
Hong et al. Gated temporal convolutional neural network and expert features for diagnosing and explaining physiological time series: a case study on heart rates
Moslem et al. Classification of multichannel uterine EMG signals by using unsupervised competitive learning
Ali et al. Comparative evaluation for two and five classes ECG signal classification: applied deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190409

Address after: Room 501-503, 43 Block 1485, Jialuo Road, Jiading District, Shanghai, 201800

Applicant after: Zhong electricity Ke software information Services Co., Ltd

Applicant after: Shanghai Changjiang science and Technology Development Co Ltd

Address before: Room 106-7, 50 Jiling Road, Jing'an District, Shanghai, 2003

Applicant before: Shanghai Changjiang science and Technology Development Co Ltd

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200616

Address after: Room 501-503, building 43, No. 1485, Jialuo Road, Jiading District, Shanghai, 201899

Applicant after: CETC SOFTWARE INFORMATION SERVICES Co.,Ltd.

Applicant after: CHANGJIANG COMPUTER Group Corp.

Address before: Room 501-503, 43 Block 1485, Jialuo Road, Jiading District, Shanghai, 201800

Applicant before: CETC SOFTWARE INFORMATION SERVICES Co.,Ltd.

Applicant before: SHANGHAI CHANGJIANG TECHNOLOGY DEVELOPMENT Co.,Ltd.

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180810

WD01 Invention patent application deemed withdrawn after publication