CN112365942B - 一种传染病流行风险预测分析方法 - Google Patents
一种传染病流行风险预测分析方法 Download PDFInfo
- Publication number
- CN112365942B CN112365942B CN202011123887.5A CN202011123887A CN112365942B CN 112365942 B CN112365942 B CN 112365942B CN 202011123887 A CN202011123887 A CN 202011123887A CN 112365942 B CN112365942 B CN 112365942B
- Authority
- CN
- China
- Prior art keywords
- infectious disease
- data
- patient
- model
- idf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
一种传染病流行风险预测分析方法,属于传染病风险预测技术领域,通过信息采集、运用TF‑IDF算法实现文本特征向量化处理、构建传染病流行风险预测模型、运用Savitzy‑Golay算法实现模型优化处理、风险预测、风险预警等步骤实现对传染病流程风险预测及预警分析。首次使用TF‑IDF算法针对各项数据进行文本特征向量化的处理,将各类数据实现数字向量的统一,简化后续模型构建,为优化模型处理提供更加精准的基础数据,提高模型预测精准度。首次使用Savitzy‑Golay算法实现模型优化处理,将模型进行平滑滤波,减少模型中误差率的干扰,保证模型在数据计算和检测方面不会发生细微变化,提高模型预测精准度。
Description
技术领域
本发明属于传染病风险预测技术领域,具体涉及一种传染病流行风险预测分析方法。
背景技术
传染病是由各种病原体引起的能在人与人、动物与动物或人与动物之间相互传播的一类疾病。目前,我国针对新发传染病的控制措施主要是对确诊病例进行控制,同时对接触或易感人群进行隔离等,但是,不同传染病的传染方式不同,潜在的高危人群分布较为广泛,使得传染病的病源确定和流行风险预测十分困难。因此,对于传染病进行有效防控是十分必要的,能够防止在短时间内群体性发病情况的发生。
发明内容
本发明的目的是提供一种传染病流行风险预测分析方法,以实现对传染病的有效防控和流行风险预测。
本发明的一种传染病流行风险预测分析方法,包括以下步骤:
步骤一、信息采集;
步骤二、运用TF-IDF算法实现文本特征向量化处理;
步骤三、构建传染病流行风险预测模型;
步骤四、运用Savitzy-Golay算法实现模型优化处理;
步骤五、风险预测;
步骤六、风险预警。
作优选的实施方式,步骤一的具体实现过程如下:
S101、传染病等级分类
将传染病等级设定为轻症、重症、死亡三个等级;
S102、从疾控中心获取所有的传染病疾病数据和传染病患者个人数据,同时根据传染病等级分类情况将所有数据分类存储在数据库中;
S103、根据传染病等级分类情况对应采集各等级传染病患者临床数据,同时存储在数据库中。
作优选的实施方式,步骤二的具体实现过程如下:
S201、将传染病疾病数据进行文本特征向量化处理
S2011、分别计算每项传染病疾病数据出现的频率,计算公式如下:
其中,TFn为在24小时之内第n项传染病疾病数据出现的频率,Nn为在24小时之内第n项传染病疾病数据被测量的次数,N为在24小时之内所有传染病疾病数据被测量的次数;
S2012、分别计算每项传染病疾病数据对应的逆文档频率,计算公式如下:
其中,IDFn为第n项传染病疾病数据的逆文档频率,Mn为数据库中所有数据总数,M为数据库中传染病疾病数据总数;
S2013、分别计算每项传染病疾病数据对应的TF-IDF值,计算公式如下:
S202、将传染病患者个人数据进行文本特征向量化处理
S2021、分别计算每项传染病患者个人数据出现的频率,计算公式如下:
其中,TFm为在24小时之内第m项传染病患者个人数据出现的频率,Pm为在24小时之内第m项传染病患者个人数据被测量的次数,P为在24小时之内所有传染病疾病数据被测量的次数;
S2022、分别计算每项传染病患者个人数据对应的逆文档频率,计算公式如下:
其中,IDFm为第m项传染病患者个人数据的逆文档频率,Sm为数据库中所有数据总数,S为数据库中传染病患者个人数据总数;
S2023、分别计算每项传染病患者个人数据对应的TF-IDF值,计算公式如下:
S203、将传染病患者临床数据进行文本特征向量化处理
S2031、分别计算每项传染病患者临床数据出现的频率,计算公式如下:
其中,TFi为在24小时之内第i项传染病患者临床数据出现的频率,Qi为在24小时之内第i项传染病患者临床数据被测量的次数,Q为在24小时之内所有传染病患者临床数据被测量的次数;
S2032、分别计算每项传染病患者临床数据对应的逆文档频率,计算公式如下:
其中,IDFn为第i项传染病患者临床数据的逆文档频率,Ei为数据库中所有数据总数,E为数据库中传染病患者临床数据总数;
S2033、分别计算每项传染病患者临床数据对应的TF-IDF值,计算公式如下:
作优选的实施方式,步骤三的具体实现过程如下:
S301、采用随机森林算法对所有数据对应的TF-IDF值即数字特征向量进行决策树构建;
S3011、训练集构建
分别对传染病疾病数据、传染病患者个人数据、传染病患者临床数据构建训练集;设定传染病疾病数据的总数为X、传染病患者个人数据的总数为Y、传染病患者临床数据的总数为Z,则对应的传染病疾病数据TF-IDF值的总数为X、传染病患者个人数据TF-IDF值的总数为Y、传染病患者临床数据TF-IDF值的总数为Z,则采用有放回地随机抽样方法在X个传染病疾病数据TF-IDF值中有放回地取样X次,在Y个传染病患者个人数据TF-IDF值中有放回地取样Y次,在Z个传染病患者临床数据TF-IDF值中有放回地取样Z次,将取样后的数据作为训练集;
S3012、测试集构建
在取样过程中未被取样的数据作为测试集;
S3013、采用训练集和测试集完成多棵决策树的构建;
S302、将多棵决策树合并融合在一起生成随机森林模型,即为传染病流行风险预测模型。
作优选的实施方式,步骤四的具体实现过程如下:
S401、将随机森林中的任意一棵决策树的所有节点分别设为a0、a1、a2…aj,则这一棵决策树所对应的拟合曲线方程为y=a0+a1x+a2x2+…ajxj;
S402、根据上述的拟合曲线方程将所有决策树上的所有节点分别用拟合曲线方程的形式来表示;
S403、以每j+1个节点为一组重复进行,每进行一次则去掉最左边的一个点,然后从最右边再增加一个点,如此重复进行,直到结束;
S404、利用卷积算法求出拟合曲线方程的多项式系数。
作优选的实施方式,步骤五的具体实现过程如下:
根据优化后的传染病流行风险预测模型,输入目前的各等级传染病患者临床数据,输出传染病流行风险预测概率,完成传染病风险预测。
作优选的实施方式,步骤六的具体实现过程如下:
根据传染病流行风险预测概率,通过网络或短信形式发出紧急程度预警或不进行预警。
本发明的有益效果是:
本发明的一种传染病流行风险预测分析方法,通过信息采集、运用TF-IDF算法实现文本特征向量化处理、构建传染病流行风险预测模型、运用Savitzy-Golay算法实现模型优化处理、风险预测、风险预警等步骤实现对传染病流程风险预测及预警分析。本发明首次使用TF-IDF算法针对传染病疾病数据、传染病患者个人数据、传染病患者临床数据进行文本特征向量化的处理,将各类数据实现数字向量的统一,可以极大的简化后续的模型构建过程,还能为优化模型处理提供更加精准的基础数据,同时间接的为提高模型预测精准度提供了有利支撑。本发明首次使用Savitzy-Golay算法实现模型优化处理,可以将模型进行平滑滤波,有效减少模型中误差率的干扰,能够保证模型在数据计算和检测方面不会发生细微变化,进一步提高模型预测精准度,为后续风险预测和预警提供有利支撑。
本发明的一种传染病流行风险预测分析方法,通过随机森林算法构建的传染病流行风险预测模型,具有传染病流行风险预测精度高、预测效果好的优点,通过通过Savitzy-Golay算法实现模型优化处理,又进一步提高了模型预测的精准度。
本发明的一种传染病流行风险预测分析方法,所依据的各项数据(传染病疾病数据、传染病患者个人数据、传染病患者临床数据)具有一定的可靠性,并且所依据的数据作为模型构建的基础数据,使得所构建的模型在预测精度上误差较小。
本发明的一种传染病流行风险预测分析方法,具有传染病流行风险预测精度高、预测效果好,并能够对监测区域内的传染病流行情况作出预测和预警,具有较强的实用性,能够为我国现有重点传染病区域早起的预测和预警起到有力支撑。
具体实施方式
本发明的一种传染病流行风险预测分析方法,主要包括以下步骤:
步骤一、信息采集:
S101、传染病等级分类
根据传染病患者临床检测数据,患者的情况可以分为轻症、重症和死亡三种情况,根据这种情况,本发明将传染病等级设定为轻症、重症、死亡三个等级。
S102、从疾控中心获取所有的传染病疾病数据和传染病患者个人数据,同时根据传染病等级分类情况将所有数据分类存储在数据库中;其中,传染病疾病数据主要包括:传染病医学定义的名称、初诊日期、确诊机构名称、确诊时间、诊断报告、发病原因、发病症状、常接触人群种类、常接触动物种类、近期接触人群种类、近期接触动物种类、既往病史。
其中,传染病患者个人数据主要包括:姓名、性别、年龄、出生日期、身高、体重、民族、婚姻状况、职业、家庭现住址、联系方式。
S103、根据传染病等级分类情况对应采集各等级传染病患者临床数据,同时存储在数据库中;其中,传染病患者临床数据主要为所确诊的传染病种类所对应的各项临床检测数据,一般会包括血常规、尿常规、体温等常规检测项目,最重要的是该传染病特定的检测项目,这些检测数据定义为本申请中的传染病患者临床数据。
步骤二、运用TF-IDF算法实现文本特征向量化处理:
S201、将传染病疾病数据进行文本特征向量化处理
S2011、分别计算每项传染病疾病数据出现的频率,计算公式如下:
其中,TFn为在24小时之内第n项传染病疾病数据出现的频率,Nn为在24小时之内第n项传染病疾病数据被测量的次数,N为在24小时之内所有传染病疾病数据被测量的次数;
S2012、分别计算每项传染病疾病数据对应的逆文档频率,计算公式如下:
其中,IDFn为第n项传染病疾病数据的逆文档频率,Mn为数据库中所有数据总数,M为数据库中传染病疾病数据总数;
S2013、分别计算每项传染病疾病数据对应的TF-IDF值,计算公式如下:
S202、将传染病患者个人数据进行文本特征向量化处理
S2021、分别计算每项传染病患者个人数据出现的频率,计算公式如下:
其中,TFm为在24小时之内第m项传染病患者个人数据出现的频率,Pm为在24小时之内第m项传染病患者个人数据被测量的次数,P为在24小时之内所有传染病疾病数据被测量的次数;
S2022、分别计算每项传染病患者个人数据对应的逆文档频率,计算公式如下:
其中,IDFm为第m项传染病患者个人数据的逆文档频率,Sm为数据库中所有数据总数,S为数据库中传染病患者个人数据总数;
S2023、分别计算每项传染病患者个人数据对应的TF-IDF值,计算公式如下:
S203、将传染病患者临床数据进行文本特征向量化处理
S2031、分别计算每项传染病患者临床数据出现的频率,计算公式如下:
其中,TFi为在24小时之内第i项传染病患者临床数据出现的频率,Qi为在24小时之内第i项传染病患者临床数据被测量的次数,Q为在24小时之内所有传染病患者临床数据被测量的次数;
S2032、分别计算每项传染病患者临床数据对应的逆文档频率,计算公式如下:
其中,IDFn为第i项传染病患者临床数据的逆文档频率,Ei为数据库中所有数据总数,E为数据库中传染病患者临床数据总数;
S2033、分别计算每项传染病患者临床数据对应的TF-IDF值,计算公式如下:
上述的运用TF-IDF算法实现文本特征向量化处理的结果如下表所示:
表1传染病疾病数据文本特征向量化处理结果
表2传染病患者个人数据文本特征向量化处理结果
表3传染病患者临床数据文本特征向量化处理结果
本发明首次使用TF-IDF算法针对传染病疾病数据、传染病患者个人数据、传染病患者临床数据进行文本特征向量化的处理,将各类数据实现数字向量的统一,可以极大的简化后续的模型构建过程,还能为优化模型处理提供更加精准的基础数据,同时间接的为提高模型预测精准度提供了有利支撑。
步骤三、构建传染病流行风险预测模型:
S301、采用随机森林算法对所有数据对应的TF-IDF值即数字特征向量进行决策树构建;
S3011、训练集构建
分别对传染病疾病数据、传染病患者个人数据、传染病患者临床数据构建训练集;设定传染病疾病数据的总数为X、传染病患者个人数据的总数为Y、传染病患者临床数据的总数为Z,则对应的传染病疾病数据TF-IDF值的总数为X、传染病患者个人数据TF-IDF值的总数为Y、传染病患者临床数据TF-IDF值的总数为Z,则采用有放回地随机抽样方法在X个传染病疾病数据TF-IDF值中有放回地取样X次,在Y个传染病患者个人数据TF-IDF值中有放回地取样Y次,在Z个传染病患者临床数据TF-IDF值中有放回地取样Z次,将取样后的数据作为训练集;
S3012、测试集构建
在取样过程中未被取样的数据作为测试集;
S3013、采用训练集和测试集完成多棵决策树的构建;
S302、将多棵决策树合并融合在一起生成随机森林模型,即为传染病流行风险预测模型。
步骤四、运用Savitzy-Golay算法实现模型优化处理:
S401、将随机森林中的任意一棵决策树的所有节点分别设为a0、a1、a2…aj,则这一棵决策树所对应的拟合曲线方程为y=a0+a1x+a2x2+…ajxj;
S402、根据上述的拟合曲线方程将所有决策树上的所有节点分别用拟合曲线方程的形式来表示。
假设所构建的决策树有1000棵,则对应的拟合曲线方程也有1000个,即分别为y1=a0+a1x1+a2x1 2+…ajx1 j,y2=a0+a1x2+a2x2 2+…ajx2 j,……y1000=a0+a1x1000+a2x1000 2+…ajx1000 j。
S403、以每j+1个节点为一组重复进行,每进行一次则去掉最左边的一个点,然后从最右边再增加一个点,如此重复进行,直到结束;
S404、利用卷积算法求出拟合曲线方程的多项式系数。
本发明首次使用Savitzy-Golay算法实现模型优化处理,可以将模型进行平滑滤波,有效减少模型中误差率的干扰,能够保证模型在数据计算和检测方面不会发生细微变化,进一步提高模型预测精准度,为后续风险预测和预警提供有利支撑。
步骤五、风险预测:
根据优化后的传染病流行风险预测模型,输入目前的各等级传染病患者临床数据,输出传染病流行风险预测概率,完成传染病风险预测。
步骤六、风险预警:
根据传染病流行风险预测概率,通过网络或短信形式发出紧急程度预警或不进行预警。
本发明公开了一种传染病流行风险预测分析方法,本领域技术人员可以借鉴本文内容,适当改进工艺参数实现。特别需要指出的是,所有类似的替换和改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明。本发明的产品已经通过较佳实施例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的产品进行改动或适当变更与组合,来实现和应用本发明技术。
Claims (1)
1.一种传染病流行风险预测分析方法,其特征在于,包括以下步骤:
步骤一、信息采集;
S101、传染病等级分类
将传染病等级设定为轻症、重症、死亡三个等级;
S102、从疾控中心获取所有的传染病疾病数据和传染病患者个人数据,同时根据传染病等级分类情况将所有数据分类存储在数据库中;
S103、根据传染病等级分类情况对应采集各等级传染病患者临床数据,同时存储在数据库中;
步骤二、运用TF-IDF算法实现文本特征向量化处理;
S201、将传染病疾病数据进行文本特征向量化处理
S2011、分别计算每项传染病疾病数据出现的频率,计算公式如下:
其中,TFn为在24小时之内第n项传染病疾病数据出现的频率,Nn为在24小时之内第n项传染病疾病数据被测量的次数,N为在24小时之内所有传染病疾病数据被测量的次数;
S2012、分别计算每项传染病疾病数据对应的逆文档频率,计算公式如下:
其中,IDFn为第n项传染病疾病数据的逆文档频率,Mn为数据库中所有数据总数,M为数据库中传染病疾病数据总数;
S2013、分别计算每项传染病疾病数据对应的TF-IDF值,计算公式如下:
S202、将传染病患者个人数据进行文本特征向量化处理
S2021、分别计算每项传染病患者个人数据出现的频率,计算公式如下:
其中,TFm为在24小时之内第m项传染病患者个人数据出现的频率,Pm为在24小时之内第m项传染病患者个人数据被测量的次数,P为在24小时之内所有传染病疾病数据被测量的次数;
S2022、分别计算每项传染病患者个人数据对应的逆文档频率,计算公式如下:
其中,IDFm为第m项传染病患者个人数据的逆文档频率,Sm为数据库中所有数据总数,S为数据库中传染病患者个人数据总数;
S2023、分别计算每项传染病患者个人数据对应的TF-IDF值,计算公式如下:
S203、将传染病患者临床数据进行文本特征向量化处理
S2031、分别计算每项传染病患者临床数据出现的频率,计算公式如下:
其中,TFi为在24小时之内第i项传染病患者临床数据出现的频率,Qi为在24小时之内第i项传染病患者临床数据被测量的次数,Q为在24小时之内所有传染病患者临床数据被测量的次数;
S2032、分别计算每项传染病患者临床数据对应的逆文档频率,计算公式如下:
其中,IDFi 为第i项传染病患者临床数据的逆文档频率,Ei为数据库中所有数据总数,E为数据库中传染病患者临床数据总数;
S2033、分别计算每项传染病患者临床数据对应的TF-IDF值,计算公式如下:
步骤三、构建传染病流行风险预测模型;
S301、采用随机森林算法对所有数据对应的TF-IDF值即数字特征向量进行决策树构建;
S3011、训练集构建
分别对传染病疾病数据、传染病患者个人数据、传染病患者临床数据构建训练集;设定传染病疾病数据的总数为X、传染病患者个人数据的总数为Y、传染病患者临床数据的总数为Z,则对应的传染病疾病数据TF-IDF值的总数为X、传染病患者个人数据TF-IDF值的总数为Y、传染病患者临床数据TF-IDF值的总数为Z,则采用有放回地随机抽样方法在X个传染病疾病数据TF-IDF值中有放回地取样X次,在Y个传染病患者个人数据TF-IDF值中有放回地取样Y次,在Z个传染病患者临床数据TF-IDF值中有放回地取样Z次,将取样后的数据作为训练集;
S3012、测试集构建
在取样过程中未被取样的数据作为测试集;
S3013、采用训练集和测试集完成多棵决策树的构建;
S302、将多棵决策树合并融合在一起生成随机森林模型,即为传染病流行风险预测模型;
步骤四、运用Savitzy-Golay算法实现模型优化处理;
S401、将随机森林中的任意一棵决策树的所有节点分别设为a0、a1、a2…aj,则这一棵决策树所对应的拟合曲线方程为y=a0+a1x+a2x2+…ajxj;
S402、根据上述的拟合曲线方程将所有决策树上的所有节点分别用拟合曲线方程的形式来表示;
S403、以每j+1个节点为一组重复进行,每进行一次则去掉最左边的一个点,然后从最右边再增加一个点,如此重复进行,直到结束;
S404、利用卷积算法求出拟合曲线方程的多项式系数;
步骤五、风险预测;
根据优化后的传染病流行风险预测模型,输入目前的各等级传染病患者临床数据,输出传染病流行风险预测概率,完成传染病风险预测;
步骤六、风险预警;
根据传染病流行风险预测概率,通过网络或短信形式发出紧急程度预警或不进行预警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011123887.5A CN112365942B (zh) | 2020-10-20 | 2020-10-20 | 一种传染病流行风险预测分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011123887.5A CN112365942B (zh) | 2020-10-20 | 2020-10-20 | 一种传染病流行风险预测分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112365942A CN112365942A (zh) | 2021-02-12 |
CN112365942B true CN112365942B (zh) | 2022-05-31 |
Family
ID=74507409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011123887.5A Active CN112365942B (zh) | 2020-10-20 | 2020-10-20 | 一种传染病流行风险预测分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365942B (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615884B (zh) * | 2015-02-04 | 2017-07-28 | 中国科学院地理科学与资源研究所 | 一种基于病毒检出率的传染病重症、死亡风险预警系统及方法 |
CN106874663A (zh) * | 2017-01-26 | 2017-06-20 | 中电科软件信息服务有限公司 | 心脑血管疾病风险预测方法及系统 |
-
2020
- 2020-10-20 CN CN202011123887.5A patent/CN112365942B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112365942A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Flynn et al. | Measurement tools for mental health problems and mental well-being in people with severe or profound intellectual disabilities: A systematic review | |
Shoily et al. | Detection of stroke disease using machine learning algorithms | |
Do et al. | Classification of asthma severity and medication using TensorFlow and multilevel databases | |
Bartal et al. | Identifying women with postdelivery posttraumatic stress disorder using natural language processing of personal childbirth narratives | |
CN110046757B (zh) | 基于LightGBM算法的门诊量预测系统及预测方法 | |
JP6585869B1 (ja) | 将来の骨量を予測する方法、情報処理装置、及びコンピュータプログラム | |
CN112331340B (zh) | 育龄夫妇妊娠概率的智能预测方法及系统 | |
Tylman et al. | Real-time prediction of acute cardiovascular events using hardware-implemented Bayesian networks | |
Do et al. | Personalized prediction of asthma severity and asthma attack for a personalized treatment regimen | |
CN112382388A (zh) | 一种压疮不良事件的预警方法 | |
Yalch | Applying Bayesian statistics to research on psychological trauma: Introduction to the special section. | |
Marin et al. | Early detection of preeclampsia based on a machine learning approach | |
Lufkin et al. | A bayesian model to analyze the association of rheumatoid arthritis with risk factors and their interactions | |
CN112365942B (zh) | 一种传染病流行风险预测分析方法 | |
Güldoğan et al. | Performance evaluation of different artificial neural network models in the classification of type 2 diabetes mellitus | |
Chauhan et al. | Framework to predict health diseases using attribute selection mechanism | |
Kupkina et al. | The impact of overweight and obesity on the quality of life in children with bronchial asthma | |
WO2016203456A1 (en) | Device, system, and method of improved diagnosis, decision-support, and analysis of electroencephalograms | |
Wu et al. | A data mining analysis of the Parkinson’s disease | |
Chattopadhyay | MLMI: A machine learning model for estimating risk of myocardial infarction | |
Shen | A recursive bifurcation model for predicting the peak of COVID-19 virus spread in United States and Germany | |
Syage | A statistical and dynamical model for forecasting COVID-19 deaths based on a hybrid asymmetric gaussian and SEIR construct | |
Rabaey et al. | SynSUM--Synthetic Benchmark with Structured and Unstructured Medical Records | |
CN114613506B (zh) | 基于大数据的路径预测管控方法、装置及存储介质 | |
Birkás et al. | Get screened! The role of fear and disgust in the activation of behavioural harm avoidance in medical settings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |