CN113111918A - 基于异常样本检测和多维信息输出的脑卒中风险筛查方法 - Google Patents

基于异常样本检测和多维信息输出的脑卒中风险筛查方法 Download PDF

Info

Publication number
CN113111918A
CN113111918A CN202110285606.4A CN202110285606A CN113111918A CN 113111918 A CN113111918 A CN 113111918A CN 202110285606 A CN202110285606 A CN 202110285606A CN 113111918 A CN113111918 A CN 113111918A
Authority
CN
China
Prior art keywords
risk
stroke
data set
screening
risk factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110285606.4A
Other languages
English (en)
Inventor
何海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing City Management College
Original Assignee
Chongqing City Management College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing City Management College filed Critical Chongqing City Management College
Priority to CN202110285606.4A priority Critical patent/CN113111918A/zh
Publication of CN113111918A publication Critical patent/CN113111918A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于脑卒中风险筛查技术领域,具体涉及一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,该方法包括:构建筛查对象的脑卒中风险因素数据集,将该数据集输入到训练好的脑卒中风险筛查预测评估模型中,得到风险因素重要性指标和脑卒中风险等级评估结果,并对异常评估结果的数据进行标记;所述脑卒中风险筛查预测评估模型包括风险因素重要性检测评估模型和脑卒中风险等级预测评估模型;本发明在进行风险等级分类预测评估前,先采用Isolation Forest算法对筛查数据中的异常样本进行检查和剔除,有效的减少了异常样本对于预测分类评估环节的影响,有效的提高了预测评估的准确度。

Description

基于异常样本检测和多维信息输出的脑卒中风险筛查方法
技术领域
本发明属于脑卒中风险筛查技术领域,具体涉及一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法。
背景技术
脑卒中已成为威胁全球居民健康的重大疾病,是世界各国急需解决的重大公共卫生问题。脑卒中具有高发病率、高致死率以及高复发率等特点,严重地影响人类的生活质量和生命健康。据不完全统计,估算中国卒中患者的发病率在1300万左右,脑卒中死亡率大约占全球的30%,因此,如何对脑卒中高危人群的筛查,根据筛查结果对高危人群进行重点监护检测,是一种降低脑卒中的死亡率的方法;而提升脑卒中筛查技术的多样性、先进性、有效性对脑卒中的预防与控制有着至关重要的意义。目前,基于电子病历筛查脑卒中的方法中存在识别准确率不佳和脑卒中风险等级识别不够全面等问题,这是因为电子病历数据在采集的过程中存在医疗设备的系统误差、采集人员的偶然性误差、被采集人员的误报或漏报以及评估指标的主观性较强等问题,从而导致筛查数据集中存在大量的异常样本,异常样本的存在使得模型训练过程出现较大偏差及整体测试准确率较低。因此,如何剔除筛查数据集中存在的大量异常样本是目前提高用户脑卒中筛查效率和精确度中亟待解决的问题。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,该方法包括:构建筛查对象的脑卒中风险因素数据集,将该数据集输入到训练好的脑卒中风险筛查预测评估模型中,得到风险因素重要性指标和脑卒中风险等级评估结果,并对异常评估结果的数据进行标记;所述脑卒中风险筛查预测评估模型包括风险因素重要性检测评估模型和脑卒中风险等级预测评估模型。
优选的,采用脑卒中风险筛查预测评估模型对数据集进行处理的过程包括:
S1:对脑卒中风险因素数据集中的数据进行归一化处理,得到归一化后的脑卒中风险因素数据集;
S2:采用卡方检验和F检验算法分别对归一化后的脑卒中风险因素数据集中各项风险因素进行重要性检验,得到两个重要性检验结果;
S3:采用特征复合得分指标对两个重要性检验结果进行优化,得到风险因素重要性检测评估结果;
S4:采用Isolation Forest算法对脑卒中风险数据集进行异常样本检测,去除识别到的异常样本,并对异常样本编号进行标记;
S5:将剔除异常样本后的数据集输入到脑卒中风险等级预测评估模型中进行预测评估,得到两个风险等级预测评估结果;所述脑卒中风险等级预测评估模型采用Randomforest算法和线性SVM算法分别计算剔除异常样本后的数据集;
S6:采用概率决策融合方法对两个风险等级预测评估结果进行优化,得到最终的脑卒中风险等级预测评估结果。
进一步的,脑卒中风险因素数据集包括筛查对象人群的人口统计学信息、生理检验指标信息、临床病史信息。
进一步的,对脑卒中风险数据集进行归一化处理的公式为:
Figure BDA0002980317190000021
进一步的,采用卡方检验和F检验算法分别对归一化后的脑卒中风险因素数据集中各项风险因素进行重要性检验的具体过程包括:
21、进行卡方检验的假设定义;设置零假定χi,0和备选假定χi,1;其中,零假定表示筛查对象风险数据集中第i项风险因素重要性高,备选假定表示筛查对象风险数据集中第i项风险因素重要性低;
22、根据卡方检验的假设定义计算各项风险因素的重要性评分;计算公式为:
Figure BDA0002980317190000031
其中,CHI2i,score表示对数据集中第i条风险因素采用卡方检验计算出的重要性评分;A表示脑卒中患者中该项风险因素实际发生的频数,T表示预期发生的频数;
23、进行F检验的假设定义;设置F的零假定Fi,0和备选假定Fi,1,零假定表示筛查对象风险数据集中第i项风险因素重要性低;备选假定表示筛查对象风险数据集中第i项风险因素重要性高;
24、根据风险等级将筛查数据集中的样本进行划分;
25、根据F检验的假设定义和风险类别检测各项风险因素的重要性评分,检测方法为:
Figure BDA0002980317190000032
进一步的,风险等级分为5种等级,等级分别为第一等级为零风险,第二等级为低危,第三等级为高危,第四等级为缺血性脑卒中,第五等级为出血性脑卒中。
优选的,特征复合得分指标的计算公式为:
Figure BDA0002980317190000033
优选的,采用Isolation Forest算法对脑卒中风险数据进行异常样本检测和剔除的过程包括:
41:设置isolation Forest异常样本检测模型的参数,所述参数包括采样点参数、二叉树个数以及二叉树深度;
42:将脑卒中风险数据集中的数据输入到isolation Forest异常样本检测模型中检测异常样本,对识别出的异常样本数据进行标记;
43:将异常样本从脑卒中筛查对象的风险因素数据集中剔除,得到经过异常样本剔除的脑卒中筛查对象的风险因素数据集。
优选的,脑卒中风险等级预测评估模型预测两个风险等级预测评估结果的过程包括:
S51:对经过异常样本筛除后的脑卒中筛查对象数据集进行划分,得到训练集和测试集;
S52:配置Random forest分类预测模型的参数;所述配置的参数包括:特征指标总个数、决策树使用特征的最大数量、决策子树个数、决策树叶子数以及分类结果种类数;
S53:将训练集中的数据输入到Random forest分类预测模型训练,将测试集中的数据输入到训练好的Random forest分类预测模型中,得到第一脑卒中风险等级预测评估结果;
S54:构建线性SVM分类预测模型,对线性SVM分类预测模型的参数进行配置;配置的参数包括:核函数选择线性和核函数,输入数据中的属性数以及分类结果数;
S55:将训练集中的数据输入到线性SVM分类预测模型进行训练,将测试集中的数据输入到训练好的线性SVM分类预测模型中进行分类预测,得到第二脑卒中风险等级预测评估结果。
优选的,概率决策融合方法为:
Figure BDA0002980317190000041
本发明提出了一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,能够有效的辅助进行脑卒中风险筛查;采用单一检测方法评估脑卒中风险因素的重要性时,其检测结果存在波动性;本发明分别采用基于卡方(Chi2)检验和F检验两种算法计算出重要性评估得分,然后采用特征复合得分指标对上述得到的两个评估评分进行优化处理,使得评估出的结果更加准确与稳定;本发明在进行风险等级分类预测评估前,先采用Isolation Forest算法对筛查数据中的异常样本进行检查和剔除,有效的减少了异常样本对于预测分类评估环节的影响,有效的提高了预测评估的准确度;本发明选取欧式距离较大且余弦相似度较低的两个算法模型:Random forest分类预测模型和线性SVM分类预测来评估脑卒中风险评分,然后对上述两个评估出的结果采用概率融合决策方法进行优化处理,得到最终的脑卒中风险等级预测评估结果;通过上述方法能够增强对于不同地区和不同筛查对象下的普适性,进一步提高了预测结果的准确率。
附图说明
图1为本发明提出的优选的用于脑卒中风险等级预测评估的方法的流程图;
图2为本发明提出的复合特征指标方法评估出的风险因素重要性得分图;
图3为本发明提出的优选的异常样本检测流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,如图1所示,该方法包括:构建筛查对象的脑卒中风险因素数据集,将该数据集输入到训练好的脑卒中风险筛查预测评估模型中,得到风险因素重要性指标和脑卒中风险等级评估结果,并对异常评估结果的数据进行标记;所述脑卒中风险筛查预测评估模型包括风险因素重要性检测评估模型和脑卒中风险等级预测评估模型。
优选的,脑卒中风险因素数据集包括筛查对象人群的人口统计学信息、生理检验指标信息、临床病史信息。
采用脑卒中风险筛查预测评估模型对数据集进行处理的过程包括:
S1:对脑卒中风险因素数据集中的数据进行归一化处理,得到归一化后的脑卒中风险因素数据集;
S2:采用卡方检验和F检验算法分别对归一化后的脑卒中风险因素数据集中各项风险因素进行重要性检验,得到两个重要性检验结果;
S3:为避免单一检测算法的局限性和波动性,构建特征复合得分指标计算方法,通过该方法对S3中计算出的两个检验结果进行优化处理,得出最终的风险因素重要性检测评估结果,
S5:采用Isolation Forest算法对脑卒中风险数据集进行异常样本检测,去除识别到的异常样本,并对异常样本编号进行标记;
S6:将剔除异常样本后的数据集输入到脑卒中风险等级预测评估模型中进行预测评估,在评估模型中,分别采用经典的Random forest分类预测模型和线性SVM分类预测模型计算出两个风险预测评估得分,然后采用概率决策融合方法对上述得到的两个预测评估结果进行优化处理,得出最终的脑卒中风险等级预测评估结果。
数据采集与风险因素数据集的构建是通过从临床患者的电子病历中采集脑中卒筛查数据,然后从中选取20条信息项目构建脑中卒风险因素数据集。信息项目选取时,参考《中国脑卒中防治报告(2020)》以及临床医生的建议,选取的信息中包括筛查对象人群的人口统计学信息、生理检验指标信息、临床病史信息,具体如下表1所示。
表1脑卒中风险因素数据集中选取的信息项目说明
Figure BDA0002980317190000061
Figure BDA0002980317190000071
对采集到的数据进行归一化处理,即将数据映射到0~1范围内,确保数据不受量纲的影响。映射方式为:
Figure BDA0002980317190000072
其中,
Figure BDA0002980317190000073
表示经过归一化处理的数据集中第j个患者的第i条风险因素项目的值,Max(Xi)表示数据集中所有患者的第i条风险因素项目的值的最大值,Min(Xi)表示表示数据集中所有患者的第i条风险因素项目的值的最小值。
构建脑卒中风险筛查预测评估模型包括:
步骤1:进行风险因素重要性评估。对风险数据集数据,分别使用卡方(Chi2)检验、F检验两种检验算法计算出各个风险因数的重要性得分,然后采用复合特征指标计算方式得到最终的重要性评分。使用卡方(Chi2)检验、F检验两种检验算法计算出各个风险因数的重要性得分的具体过程包括:
步骤11:进行卡方检验的假设定义。设置零假定为χi,0,表示筛查对象风险数据集中第i项风险因素重要性很高;设定备选假定为χi,1,表示筛查对象风险数据集中第i项风险因素重要性不高。
步骤12:使用卡方检验检测出这项风险因素的重要性评分,方法如下:
Figure BDA0002980317190000074
其中,CHI2i,score表示对数据集中第i条风险因素采用卡方检验计算出的重要性评分,值越大表示重要性越高;A表示脑卒中患者中该项风险因素实际发生的频数,T表示预期发生的频数。此处,T值固定设置为脑卒中筛查对象数据集中样本的总个数。
步骤13:进行F检验的假设定义。设置零假定为Fi,0,表示筛查对象风险数据集中第i项风险因素重要性不高;设定备选假定为Fi,1,表示筛查对象风险数据集中第i项风险因素重要性很高。
步骤14:将筛查数据集中的样本按照风险不同划分为5组:组1(零风险),组2(低危),组3(高危),组4(缺血性脑卒中),组5(出血性脑卒中)。
步骤15:使用F检验检测出这项风险因素的重要性评分,方法如下:
Figure BDA0002980317190000081
其中,AFi,score表示对数据集中第i条风险因素采用F检验计算出的重要性评分,值越大表示重要性越高;
Figure BDA0002980317190000082
表示所有样本的第i项指标的均值;
Figure BDA0002980317190000083
表示第n组的所有样本的第i项指标的均值;
Figure BDA0002980317190000084
表示第n组的第m个样本中第i项指标的值。
得到的最终的重要性评分中,分值越高的风险因素表面该风险因素对于脑卒中发病风险的影响越大,反之则越小。
Figure BDA0002980317190000085
其中,scorei表示第i条风险因素的复合重要性评分,CHI2i,score表示第i条风险因素采用卡方检验计算出的重要性评分,AFi,score表示第i条风险因素采用F检验计算出的重要性评分。
图2是复合特征指标评估出的风险因素重要性得分,设置0.05为是否具有主要影响的判决门限,识别出12条风险因素存在主要影响;12条风险因素包括:年龄、是否缺血性脑卒中、是否出血性脑卒中、是否存在心率不齐、是否运动、是否有吸烟史、是否有家族脑卒中史、BMI、舒张压、收缩压、甘油三脂以及高密度胆固醇。
步骤2:采用Isolation Forest算法对脑卒中风险数据集进行异常样本检测,去除识别到的异常样本,并对异常样本编号进行标记。脑卒中患者筛查数据中由于医疗设备存在系统误差、采集人员的偶然误差、被采集人员的误报或漏报以及评估指标的主观性较强等因素,导致了在进行数据筛查时产生异常样本,异常样本严重影响最终的脑卒中风险预测评估的准确性。因此,采用Isolation Forest算法进行异常样本检测和筛除。其中,输入数据是经过步骤2预处理后的风险因素数据集,输出数据是剔除异常样本后的风险因素数据集。操作流程如图3所示:
步骤21:获取经过归一化处理后的风险因素数据集X。
步骤22:设置isolation Forest异常样本检测模型的参数,设置的参数包括:将采样样本点设置为256,二叉树个数配置为100,二叉树深度配置为8,输入数据集设置为归一化处理后的风险因素数据集;将归一化处理后的风险因素数据集X输入到isolationForest异常样本检测模型进行异常样本检测,最终检测出异常样本集Y。
步骤23:从风险因素数据集中剔除掉检测出的异常样本集Y中包含的数据,形成新的风险因素数据集X。
步骤24:判断异常样本集Y是否为空,是,则执行步骤2.5,否,则返回到步骤22执行。
步骤25:获得剔除掉异常样本后的风险因素数据集。
经过上述脑卒中异常样本检测后,异常样本被剔除,提升了后续风险预测评估的准确性,并且通过向医疗工作人员提供识别出的异常样本编号,便于后续有针对性的对这部分异常数据人群进行二次筛查,有效提高了筛查的效率。
步骤3:将剔除异常样本后的数据集输入到脑卒中风险等级预测评估模型中进行预测评估,得到两个风险等级预测评估结果;所述脑卒中风险等级预测评估模型采用Random forest算法和线性SVM算法分别计算剔除异常样本后的数据集。
步骤31:对经过异常样本筛除后的脑卒中筛查对象数据集进行划分,得到训练集和测试集;其中,训练集中的样本数占总样本数的75%,测试集中的样本数占总样本数的25%。
步骤32:配置Random forest分类预测模型的参数;所述配置的参数包括:特征指标总个数、决策树使用特征的最大数量、决策子树个数、决策树叶子数以及分类结果种类数。
优选的,特征指标总个数为12,即为之前重要性预测步骤中识别出的对脑卒中风险性影响较高的风险因素,包括:年龄、是否缺血性脑卒中、是否出血性脑卒中、是否存在心率不齐、是否运动、是否有吸烟史、是否有家族脑卒中史、BMI、舒张压、收缩压、甘油三脂、高密度胆固醇;决策树使用特征的最大数量为(log212)向上取整=4个;决策子树个数为32;决策树叶子数为50,其余参数选取为默认。
步骤33:将训练集中的数据输入到Random forest分类预测模型训练,将测试集中的数据输入到训练好的Random forest分类预测模型中,得到第一脑卒中风险等级预测评估结果;
步骤34:构建线性SVM分类预测模型,对线性SVM分类预测模型的参数进行配置;配置的参数包括:核函数选择线性和核函数,输入数据中的属性数以及分类结果数;
优选的,输入数据中的属性数设置为12;输出结果分类个数为5;其余参数选取为默认。
步骤35:将训练集中的数据输入到线性SVM分类预测模型进行训练,将测试集中的数据输入到训练好的线性SVM分类预测模型中进行分类预测,得到第二脑卒中风险等级预测评估结果。
由于不同地区和国家的筛查数据存在较大差异性,会影响预测的普适准确性。因此,本发明优选的构建了欧式距离较大且余弦相似度较低的两种预测模型:Random forest和SVM linear分别计算出两组脑卒中风险等级预测评估结果。
步骤4:采用概率决策融合方法对两个风险等级预测评估结果进行优化,得到最终的脑卒中风险等级预测评估结果。
采用概率决策融合方法对两个风险等级预测评估结果进行融合优化,增强了对于不同地区、不同是筛查对象下的普适性,进一步提高了最终的预测准确率。具体的概率融合决策采用如下方式:
Figure BDA0002980317190000111
其中:Hj(x)表示对第j个筛查对象的脑卒中风险等级最终预测结果,
Figure BDA0002980317190000112
表示使用Random forest模型预测出的第j个筛查对象的脑卒中风险等级,
Figure BDA0002980317190000113
表示使用SVMlinear模型预测出的第j个筛查对象的脑卒中风险等级,wRF表示Random forest模型的决策权重,wSVM-lin表示SVM linear模型的决策权重。上述评估中的风险等级分类预测结果为5值变量,取值分别为1、(零风险)、2(低危)、3(高危)、4(缺血性脑卒中)、5(出血性脑卒中)。
在对模型进行训练和有效性验证过程中,利用29340份临床历史电子病历数据(脑卒中历史筛查数据)作为数据集进行测试,其中零风险3996份,低危2988份,高危18252份,缺血性脑卒中1404份,出血性脑卒中2700份,采用随机划分训练集和测试集的方式,其中训练集75%,测试集25%,进行随机训练和测试,平均预测准确率达到99.63%,准确率标准差0.003559。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,其特征在于,包括:构建筛查对象的脑卒中风险因素数据集,将该数据集输入到训练好的脑卒中风险筛查预测评估模型中,得到风险因素重要性指标和脑卒中风险等级评估结果,并对异常评估结果的数据进行标记;所述脑卒中风险筛查预测评估模型包括风险因素重要性检测评估模型和脑卒中风险等级预测评估模型。
2.根据权利要求1所述的一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,其特征在于,采用脑卒中风险筛查预测评估模型对数据集进行处理的过程包括:
S1:对脑卒中风险因素数据集中的数据进行归一化处理,得到归一化后的脑卒中风险因素数据集;
S2:采用卡方检验和F检验算法分别对归一化后的脑卒中风险因素数据集中各项风险因素进行重要性检验,得到两个重要性检验结果;
S3:采用特征复合得分指标对两个重要性检验结果进行优化,得到风险因素重要性检测评估结果;
S4:采用Isolation Forest算法对脑卒中风险数据集进行异常样本检测,去除识别到的异常样本,并对异常样本编号进行标记;
S5:将剔除异常样本后的数据集输入到脑卒中风险等级预测评估模型中进行预测评估,得到两个风险等级预测评估结果;所述脑卒中风险等级预测评估模型采用Randomforest算法和线性SVM算法分别计算剔除异常样本后的数据集;
S6:采用概率决策融合方法对两个风险等级预测评估结果进行优化,得到最终的脑卒中风险等级预测评估结果。
3.根据权利要求2所述的一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,其特征在于,脑卒中风险因素数据集包括筛查对象人群的人口统计学信息、生理检验指标信息、临床病史信息。
4.根据权利要求2所述的一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,其特征在于,对脑卒中风险数据集进行归一化处理,处理方式为:
Figure FDA0002980317180000021
其中,
Figure FDA0002980317180000022
表示经过归一化处理的数据集中第j个筛查对象的第i条风险因素的数值,Max(Xi)表示数据集中所有筛查对象的第i条风险因素的所有取值中的最大值,Min(Xi)表示数据集中所有筛查对象的第i条风险因素的数值取值中的最小值。
5.根据权利要求2所述的一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,其特征在于,采用卡方检验和F检验算法分别对归一化后的脑卒中风险因素数据集中各项风险因素进行重要性检验的具体过程包括:
21、进行卡方检验的假设定义;设置零假定χi,0和备选假定χi,1;其中,零假定表示筛查对象风险数据集中第i项风险因素重要性高,备选假定表示筛查对象风险数据集中第i项风险因素重要性低;
22、根据卡方检验的假设定义计算各项风险因素的重要性评分;计算公式为:
Figure FDA0002980317180000023
其中,CHI2i,score表示对数据集中第i条风险因素采用卡方检验计算出的重要性评分;A表示脑卒中患者中该项风险因素实际发生的频数,T表示预期发生的频数;
23、进行F检验的假设定义;设置F的零假定Fi,0和备选假定Fi,1,零假定表示筛查对象风险数据集中第i项风险因素重要性低;备选假定表示筛查对象风险数据集中第i项风险因素重要性高;
24、根据风险等级将筛查数据集中的样本进行划分;
25、根据F检验的假设定义和风险类别检测各项风险因素的重要性评分,检测方法为:
Figure FDA0002980317180000031
其中,AFi,score表示对数据集中第i条风险因素采用F检验计算出的重要性评分,值越大表示重要性越高;
Figure FDA0002980317180000032
表示所有样本的第i项指标的均值;
Figure FDA0002980317180000033
表示第n组的所有样本的第i项指标的均值;
Figure FDA0002980317180000034
表示第n组的第m个样本中第i项指标的值。
6.根据权利要求5所述的一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,其特征在于,风险等级分为5种等级,等级分别为第一等级为零风险,第二等级为低危,第三等级为高危,第四等级为缺血性脑卒中,第五等级为出血性脑卒中。
7.根据权利要求2所述的一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,其特征在于,特征复合得分指标的计算公式为:
Figure FDA0002980317180000035
其中,scorei表示第i条风险因素的复合重要性评分,CHI2i,score表示第i条风险因素采用卡方检验计算出的重要性评分,AFi,score表示第i条风险因素采用F检验计算出的重要性评分。
8.根据权利要求2所述的一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,其特征在于,采用Isolation Forest算法对脑卒中风险数据进行异常样本检测和剔除的过程包括:
41:设置isolation Forest异常样本检测模型的参数,所述参数包括采样点参数、二叉树个数以及二叉树深度;
42:将脑卒中风险数据集中的数据输入到isolation Forest异常样本检测模型中检测异常样本,对识别出的异常样本数据进行标记;
43:将异常样本从脑卒中筛查对象的风险因素数据集中剔除,得到经过异常样本剔除的脑卒中筛查对象的风险因素数据集。
9.根据权利要求2所述的一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,其特征在于,脑卒中风险等级预测评估模型预测两个风险等级预测评估结果的过程包括:
S51:对经过异常样本筛除后的脑卒中筛查对象数据集进行划分,得到训练集和测试集;
S52:配置Random forest分类预测模型的参数;所述配置的参数包括:特征指标总个数、决策树使用特征的最大数量、决策子树个数、决策树叶子数以及分类结果种类数;
S53:将训练集中的数据输入到Random forest分类预测模型训练,将测试集中的数据输入到训练好的Random forest分类预测模型中,得到第一脑卒中风险等级预测评估结果;
S54:构建线性SVM分类预测模型,对线性SVM分类预测模型的参数进行配置;配置的参数包括:核函数选择线性和核函数,输入数据中的属性数以及分类结果数;
S55:将训练集中的数据输入到线性SVM分类预测模型进行训练,将测试集中的数据输入到训练好的线性SVM分类预测模型中进行分类预测,得到第二脑卒中风险等级预测评估结果。
10.根据权利要求2所述的一种基于异常样本检测和多维信息输出的脑卒中风险筛查方法,其特征在于,概率决策融合方法为:
Figure FDA0002980317180000041
其中,Hj(x)表示对第j个筛查对象的脑卒中风险等级最终预测结果,
Figure FDA0002980317180000042
表示使用Random forest分类预测模型预测出的第j个筛查对象的脑卒中风险等级评分,
Figure FDA0002980317180000043
表示使用线性SVM分类预测模型预测出的第j个筛查对象的脑卒中风险等级评分,wRF为所设置的Random forest模型的决策权重值,wSVM-lin为所设置的线性SVM模型的决策权重。
CN202110285606.4A 2021-03-17 2021-03-17 基于异常样本检测和多维信息输出的脑卒中风险筛查方法 Pending CN113111918A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110285606.4A CN113111918A (zh) 2021-03-17 2021-03-17 基于异常样本检测和多维信息输出的脑卒中风险筛查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110285606.4A CN113111918A (zh) 2021-03-17 2021-03-17 基于异常样本检测和多维信息输出的脑卒中风险筛查方法

Publications (1)

Publication Number Publication Date
CN113111918A true CN113111918A (zh) 2021-07-13

Family

ID=76711636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110285606.4A Pending CN113111918A (zh) 2021-03-17 2021-03-17 基于异常样本检测和多维信息输出的脑卒中风险筛查方法

Country Status (1)

Country Link
CN (1) CN113111918A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634893A (zh) * 2024-01-24 2024-03-01 浙江浙商金控有限公司 风险评估模型训练方法、风险预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389626A (zh) * 2018-02-09 2018-08-10 上海长江科技发展有限公司 基于人工智能的脑卒中筛查方法及系统
CN110428901A (zh) * 2019-07-19 2019-11-08 中国医学科学院阜外医院 脑卒中发病风险预测系统及应用
CN110782990A (zh) * 2019-10-12 2020-02-11 广东徕康医疗科技有限公司 用于基层公卫服务脑卒中风险评估的方法、系统及移动平台
CN112434737A (zh) * 2020-11-25 2021-03-02 南京大学 用于脑卒中分析的多智能体评价准则融合的特征选择系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389626A (zh) * 2018-02-09 2018-08-10 上海长江科技发展有限公司 基于人工智能的脑卒中筛查方法及系统
CN110428901A (zh) * 2019-07-19 2019-11-08 中国医学科学院阜外医院 脑卒中发病风险预测系统及应用
CN110782990A (zh) * 2019-10-12 2020-02-11 广东徕康医疗科技有限公司 用于基层公卫服务脑卒中风险评估的方法、系统及移动平台
CN112434737A (zh) * 2020-11-25 2021-03-02 南京大学 用于脑卒中分析的多智能体评价准则融合的特征选择系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于数据挖掘的缺血性脑卒中风险预测模型及其应用研究", 中国优秀硕士学位论文全文数据库 医药卫生科技辑(月刊)》, no. 2021 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634893A (zh) * 2024-01-24 2024-03-01 浙江浙商金控有限公司 风险评估模型训练方法、风险预测方法

Similar Documents

Publication Publication Date Title
US8155735B2 (en) Prediction and prevention of postoperative atrial fibrillation in cardiac surgery patients
Alalawi et al. Detection of cardiovascular disease using machine learning classification models
CN113995419B (zh) 一种基于心跳节律信号的房颤发生风险预测系统及其应用
CN112641451B (zh) 基于单通道脑电信号多尺度残差网络睡眠分期方法及系统
CN111370124A (zh) 一种基于面手部识别和大数据的健康分析系统及方法
CN113593708A (zh) 基于集成学习算法的脓毒症预后预测方法
Mamun et al. Mlheartdis: Can machine learning techniques enable to predict heart diseases?
CN115083604A (zh) 一种术后不良事件预测模型的构建方法、系统和预测装置
Sharanyaa et al. Hybrid machine learning techniques for heart disease prediction
CN113111918A (zh) 基于异常样本检测和多维信息输出的脑卒中风险筛查方法
CN117557409B (zh) 基于物联网的智慧建筑火灾风险可视化评估管理系统
CN113611428A (zh) 一种脑卒中高危人群筛选方法和系统
CN112768074A (zh) 一种基于人工智能的重疾风险预测方法及系统
CN117116475A (zh) 缺血性脑卒中的风险预测方法、系统、终端及存储介质
CN116564521A (zh) 一种慢性病风险评估模型建立方法、介质及系统
CN110622692A (zh) 一种甘蔗联合收割机运行状态的智能识别方法及系统
Magboo et al. Prediction of late intrauterine growth restriction using machine learning models
Ali et al. Cardiovascular disease detection using multiple machine learning algorithms and their performance analysis
CN114724701A (zh) 基于叠加集成算法和自动编码器的无创通气疗效预测系统
Utkarsh et al. Classification of atrial arrhythmias using neural networks
Usha et al. Predicting Heart Disease Using Feature Selection Techniques Based On Data Driven Approach
CN117877736B (zh) 基于机器学习的智能戒指异常健康数据预警方法
Nanarkar et al. A Survey on Classification and identification of Arrhythmia using Machine Learning techniques
Chowdhury et al. Incorporating an Integrated Software System for Stroke Prediction using Machine Learning Algorithms and Artificial Neural Network
CN117084683B (zh) 一种技术人员心理状态监测评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination