CN112365942B - 一种传染病流行风险预测分析方法 - Google Patents

一种传染病流行风险预测分析方法 Download PDF

Info

Publication number
CN112365942B
CN112365942B CN202011123887.5A CN202011123887A CN112365942B CN 112365942 B CN112365942 B CN 112365942B CN 202011123887 A CN202011123887 A CN 202011123887A CN 112365942 B CN112365942 B CN 112365942B
Authority
CN
China
Prior art keywords
infectious disease
data
patient
model
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011123887.5A
Other languages
English (en)
Other versions
CN112365942A (zh
Inventor
朱莉
丛二勇
李欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University
Original Assignee
Harbin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University filed Critical Harbin University
Priority to CN202011123887.5A priority Critical patent/CN112365942B/zh
Publication of CN112365942A publication Critical patent/CN112365942A/zh
Application granted granted Critical
Publication of CN112365942B publication Critical patent/CN112365942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种传染病流行风险预测分析方法,属于传染病风险预测技术领域,通过信息采集、运用TF‑IDF算法实现文本特征向量化处理、构建传染病流行风险预测模型、运用Savitzy‑Golay算法实现模型优化处理、风险预测、风险预警等步骤实现对传染病流程风险预测及预警分析。首次使用TF‑IDF算法针对各项数据进行文本特征向量化的处理,将各类数据实现数字向量的统一,简化后续模型构建,为优化模型处理提供更加精准的基础数据,提高模型预测精准度。首次使用Savitzy‑Golay算法实现模型优化处理,将模型进行平滑滤波,减少模型中误差率的干扰,保证模型在数据计算和检测方面不会发生细微变化,提高模型预测精准度。

Description

一种传染病流行风险预测分析方法
技术领域
本发明属于传染病风险预测技术领域,具体涉及一种传染病流行风险预测分析方法。
背景技术
传染病是由各种病原体引起的能在人与人、动物与动物或人与动物之间相互传播的一类疾病。目前,我国针对新发传染病的控制措施主要是对确诊病例进行控制,同时对接触或易感人群进行隔离等,但是,不同传染病的传染方式不同,潜在的高危人群分布较为广泛,使得传染病的病源确定和流行风险预测十分困难。因此,对于传染病进行有效防控是十分必要的,能够防止在短时间内群体性发病情况的发生。
发明内容
本发明的目的是提供一种传染病流行风险预测分析方法,以实现对传染病的有效防控和流行风险预测。
本发明的一种传染病流行风险预测分析方法,包括以下步骤:
步骤一、信息采集;
步骤二、运用TF-IDF算法实现文本特征向量化处理;
步骤三、构建传染病流行风险预测模型;
步骤四、运用Savitzy-Golay算法实现模型优化处理;
步骤五、风险预测;
步骤六、风险预警。
作优选的实施方式,步骤一的具体实现过程如下:
S101、传染病等级分类
将传染病等级设定为轻症、重症、死亡三个等级;
S102、从疾控中心获取所有的传染病疾病数据和传染病患者个人数据,同时根据传染病等级分类情况将所有数据分类存储在数据库中;
S103、根据传染病等级分类情况对应采集各等级传染病患者临床数据,同时存储在数据库中。
作优选的实施方式,步骤二的具体实现过程如下:
S201、将传染病疾病数据进行文本特征向量化处理
S2011、分别计算每项传染病疾病数据出现的频率,计算公式如下:
Figure BDA0002732963330000021
其中,TFn为在24小时之内第n项传染病疾病数据出现的频率,Nn为在24小时之内第n项传染病疾病数据被测量的次数,N为在24小时之内所有传染病疾病数据被测量的次数;
S2012、分别计算每项传染病疾病数据对应的逆文档频率,计算公式如下:
Figure BDA0002732963330000022
其中,IDFn为第n项传染病疾病数据的逆文档频率,Mn为数据库中所有数据总数,M为数据库中传染病疾病数据总数;
S2013、分别计算每项传染病疾病数据对应的TF-IDF值,计算公式如下:
Figure BDA0002732963330000023
S202、将传染病患者个人数据进行文本特征向量化处理
S2021、分别计算每项传染病患者个人数据出现的频率,计算公式如下:
Figure BDA0002732963330000024
其中,TFm为在24小时之内第m项传染病患者个人数据出现的频率,Pm为在24小时之内第m项传染病患者个人数据被测量的次数,P为在24小时之内所有传染病疾病数据被测量的次数;
S2022、分别计算每项传染病患者个人数据对应的逆文档频率,计算公式如下:
Figure BDA0002732963330000031
其中,IDFm为第m项传染病患者个人数据的逆文档频率,Sm为数据库中所有数据总数,S为数据库中传染病患者个人数据总数;
S2023、分别计算每项传染病患者个人数据对应的TF-IDF值,计算公式如下:
Figure BDA0002732963330000032
S203、将传染病患者临床数据进行文本特征向量化处理
S2031、分别计算每项传染病患者临床数据出现的频率,计算公式如下:
Figure BDA0002732963330000033
其中,TFi为在24小时之内第i项传染病患者临床数据出现的频率,Qi为在24小时之内第i项传染病患者临床数据被测量的次数,Q为在24小时之内所有传染病患者临床数据被测量的次数;
S2032、分别计算每项传染病患者临床数据对应的逆文档频率,计算公式如下:
Figure BDA0002732963330000034
其中,IDFn为第i项传染病患者临床数据的逆文档频率,Ei为数据库中所有数据总数,E为数据库中传染病患者临床数据总数;
S2033、分别计算每项传染病患者临床数据对应的TF-IDF值,计算公式如下:
Figure BDA0002732963330000041
作优选的实施方式,步骤三的具体实现过程如下:
S301、采用随机森林算法对所有数据对应的TF-IDF值即数字特征向量进行决策树构建;
S3011、训练集构建
分别对传染病疾病数据、传染病患者个人数据、传染病患者临床数据构建训练集;设定传染病疾病数据的总数为X、传染病患者个人数据的总数为Y、传染病患者临床数据的总数为Z,则对应的传染病疾病数据TF-IDF值的总数为X、传染病患者个人数据TF-IDF值的总数为Y、传染病患者临床数据TF-IDF值的总数为Z,则采用有放回地随机抽样方法在X个传染病疾病数据TF-IDF值中有放回地取样X次,在Y个传染病患者个人数据TF-IDF值中有放回地取样Y次,在Z个传染病患者临床数据TF-IDF值中有放回地取样Z次,将取样后的数据作为训练集;
S3012、测试集构建
在取样过程中未被取样的数据作为测试集;
S3013、采用训练集和测试集完成多棵决策树的构建;
S302、将多棵决策树合并融合在一起生成随机森林模型,即为传染病流行风险预测模型。
作优选的实施方式,步骤四的具体实现过程如下:
S401、将随机森林中的任意一棵决策树的所有节点分别设为a0、a1、a2…aj,则这一棵决策树所对应的拟合曲线方程为y=a0+a1x+a2x2+…ajxj
S402、根据上述的拟合曲线方程将所有决策树上的所有节点分别用拟合曲线方程的形式来表示;
S403、以每j+1个节点为一组重复进行,每进行一次则去掉最左边的一个点,然后从最右边再增加一个点,如此重复进行,直到结束;
S404、利用卷积算法求出拟合曲线方程的多项式系数。
作优选的实施方式,步骤五的具体实现过程如下:
根据优化后的传染病流行风险预测模型,输入目前的各等级传染病患者临床数据,输出传染病流行风险预测概率,完成传染病风险预测。
作优选的实施方式,步骤六的具体实现过程如下:
根据传染病流行风险预测概率,通过网络或短信形式发出紧急程度预警或不进行预警。
本发明的有益效果是:
本发明的一种传染病流行风险预测分析方法,通过信息采集、运用TF-IDF算法实现文本特征向量化处理、构建传染病流行风险预测模型、运用Savitzy-Golay算法实现模型优化处理、风险预测、风险预警等步骤实现对传染病流程风险预测及预警分析。本发明首次使用TF-IDF算法针对传染病疾病数据、传染病患者个人数据、传染病患者临床数据进行文本特征向量化的处理,将各类数据实现数字向量的统一,可以极大的简化后续的模型构建过程,还能为优化模型处理提供更加精准的基础数据,同时间接的为提高模型预测精准度提供了有利支撑。本发明首次使用Savitzy-Golay算法实现模型优化处理,可以将模型进行平滑滤波,有效减少模型中误差率的干扰,能够保证模型在数据计算和检测方面不会发生细微变化,进一步提高模型预测精准度,为后续风险预测和预警提供有利支撑。
本发明的一种传染病流行风险预测分析方法,通过随机森林算法构建的传染病流行风险预测模型,具有传染病流行风险预测精度高、预测效果好的优点,通过通过Savitzy-Golay算法实现模型优化处理,又进一步提高了模型预测的精准度。
本发明的一种传染病流行风险预测分析方法,所依据的各项数据(传染病疾病数据、传染病患者个人数据、传染病患者临床数据)具有一定的可靠性,并且所依据的数据作为模型构建的基础数据,使得所构建的模型在预测精度上误差较小。
本发明的一种传染病流行风险预测分析方法,具有传染病流行风险预测精度高、预测效果好,并能够对监测区域内的传染病流行情况作出预测和预警,具有较强的实用性,能够为我国现有重点传染病区域早起的预测和预警起到有力支撑。
具体实施方式
本发明的一种传染病流行风险预测分析方法,主要包括以下步骤:
步骤一、信息采集:
S101、传染病等级分类
根据传染病患者临床检测数据,患者的情况可以分为轻症、重症和死亡三种情况,根据这种情况,本发明将传染病等级设定为轻症、重症、死亡三个等级。
S102、从疾控中心获取所有的传染病疾病数据和传染病患者个人数据,同时根据传染病等级分类情况将所有数据分类存储在数据库中;其中,传染病疾病数据主要包括:传染病医学定义的名称、初诊日期、确诊机构名称、确诊时间、诊断报告、发病原因、发病症状、常接触人群种类、常接触动物种类、近期接触人群种类、近期接触动物种类、既往病史。
其中,传染病患者个人数据主要包括:姓名、性别、年龄、出生日期、身高、体重、民族、婚姻状况、职业、家庭现住址、联系方式。
S103、根据传染病等级分类情况对应采集各等级传染病患者临床数据,同时存储在数据库中;其中,传染病患者临床数据主要为所确诊的传染病种类所对应的各项临床检测数据,一般会包括血常规、尿常规、体温等常规检测项目,最重要的是该传染病特定的检测项目,这些检测数据定义为本申请中的传染病患者临床数据。
步骤二、运用TF-IDF算法实现文本特征向量化处理:
S201、将传染病疾病数据进行文本特征向量化处理
S2011、分别计算每项传染病疾病数据出现的频率,计算公式如下:
Figure BDA0002732963330000071
其中,TFn为在24小时之内第n项传染病疾病数据出现的频率,Nn为在24小时之内第n项传染病疾病数据被测量的次数,N为在24小时之内所有传染病疾病数据被测量的次数;
S2012、分别计算每项传染病疾病数据对应的逆文档频率,计算公式如下:
Figure BDA0002732963330000072
其中,IDFn为第n项传染病疾病数据的逆文档频率,Mn为数据库中所有数据总数,M为数据库中传染病疾病数据总数;
S2013、分别计算每项传染病疾病数据对应的TF-IDF值,计算公式如下:
Figure BDA0002732963330000073
S202、将传染病患者个人数据进行文本特征向量化处理
S2021、分别计算每项传染病患者个人数据出现的频率,计算公式如下:
Figure BDA0002732963330000081
其中,TFm为在24小时之内第m项传染病患者个人数据出现的频率,Pm为在24小时之内第m项传染病患者个人数据被测量的次数,P为在24小时之内所有传染病疾病数据被测量的次数;
S2022、分别计算每项传染病患者个人数据对应的逆文档频率,计算公式如下:
Figure BDA0002732963330000082
其中,IDFm为第m项传染病患者个人数据的逆文档频率,Sm为数据库中所有数据总数,S为数据库中传染病患者个人数据总数;
S2023、分别计算每项传染病患者个人数据对应的TF-IDF值,计算公式如下:
Figure BDA0002732963330000083
S203、将传染病患者临床数据进行文本特征向量化处理
S2031、分别计算每项传染病患者临床数据出现的频率,计算公式如下:
Figure BDA0002732963330000084
其中,TFi为在24小时之内第i项传染病患者临床数据出现的频率,Qi为在24小时之内第i项传染病患者临床数据被测量的次数,Q为在24小时之内所有传染病患者临床数据被测量的次数;
S2032、分别计算每项传染病患者临床数据对应的逆文档频率,计算公式如下:
Figure BDA0002732963330000085
其中,IDFn为第i项传染病患者临床数据的逆文档频率,Ei为数据库中所有数据总数,E为数据库中传染病患者临床数据总数;
S2033、分别计算每项传染病患者临床数据对应的TF-IDF值,计算公式如下:
Figure BDA0002732963330000091
上述的运用TF-IDF算法实现文本特征向量化处理的结果如下表所示:
表1传染病疾病数据文本特征向量化处理结果
Figure BDA0002732963330000092
表2传染病患者个人数据文本特征向量化处理结果
Figure BDA0002732963330000093
Figure BDA0002732963330000101
表3传染病患者临床数据文本特征向量化处理结果
Figure BDA0002732963330000102
本发明首次使用TF-IDF算法针对传染病疾病数据、传染病患者个人数据、传染病患者临床数据进行文本特征向量化的处理,将各类数据实现数字向量的统一,可以极大的简化后续的模型构建过程,还能为优化模型处理提供更加精准的基础数据,同时间接的为提高模型预测精准度提供了有利支撑。
步骤三、构建传染病流行风险预测模型:
S301、采用随机森林算法对所有数据对应的TF-IDF值即数字特征向量进行决策树构建;
S3011、训练集构建
分别对传染病疾病数据、传染病患者个人数据、传染病患者临床数据构建训练集;设定传染病疾病数据的总数为X、传染病患者个人数据的总数为Y、传染病患者临床数据的总数为Z,则对应的传染病疾病数据TF-IDF值的总数为X、传染病患者个人数据TF-IDF值的总数为Y、传染病患者临床数据TF-IDF值的总数为Z,则采用有放回地随机抽样方法在X个传染病疾病数据TF-IDF值中有放回地取样X次,在Y个传染病患者个人数据TF-IDF值中有放回地取样Y次,在Z个传染病患者临床数据TF-IDF值中有放回地取样Z次,将取样后的数据作为训练集;
S3012、测试集构建
在取样过程中未被取样的数据作为测试集;
S3013、采用训练集和测试集完成多棵决策树的构建;
S302、将多棵决策树合并融合在一起生成随机森林模型,即为传染病流行风险预测模型。
步骤四、运用Savitzy-Golay算法实现模型优化处理:
S401、将随机森林中的任意一棵决策树的所有节点分别设为a0、a1、a2…aj,则这一棵决策树所对应的拟合曲线方程为y=a0+a1x+a2x2+…ajxj
S402、根据上述的拟合曲线方程将所有决策树上的所有节点分别用拟合曲线方程的形式来表示。
假设所构建的决策树有1000棵,则对应的拟合曲线方程也有1000个,即分别为y1=a0+a1x1+a2x1 2+…ajx1 j,y2=a0+a1x2+a2x2 2+…ajx2 j,……y1000=a0+a1x1000+a2x1000 2+…ajx1000 j
S403、以每j+1个节点为一组重复进行,每进行一次则去掉最左边的一个点,然后从最右边再增加一个点,如此重复进行,直到结束;
S404、利用卷积算法求出拟合曲线方程的多项式系数。
本发明首次使用Savitzy-Golay算法实现模型优化处理,可以将模型进行平滑滤波,有效减少模型中误差率的干扰,能够保证模型在数据计算和检测方面不会发生细微变化,进一步提高模型预测精准度,为后续风险预测和预警提供有利支撑。
步骤五、风险预测:
根据优化后的传染病流行风险预测模型,输入目前的各等级传染病患者临床数据,输出传染病流行风险预测概率,完成传染病风险预测。
步骤六、风险预警:
根据传染病流行风险预测概率,通过网络或短信形式发出紧急程度预警或不进行预警。
本发明公开了一种传染病流行风险预测分析方法,本领域技术人员可以借鉴本文内容,适当改进工艺参数实现。特别需要指出的是,所有类似的替换和改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明。本发明的产品已经通过较佳实施例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的产品进行改动或适当变更与组合,来实现和应用本发明技术。

Claims (1)

1.一种传染病流行风险预测分析方法,其特征在于,包括以下步骤:
步骤一、信息采集;
S101、传染病等级分类
将传染病等级设定为轻症、重症、死亡三个等级;
S102、从疾控中心获取所有的传染病疾病数据和传染病患者个人数据,同时根据传染病等级分类情况将所有数据分类存储在数据库中;
S103、根据传染病等级分类情况对应采集各等级传染病患者临床数据,同时存储在数据库中;
步骤二、运用TF-IDF算法实现文本特征向量化处理;
S201、将传染病疾病数据进行文本特征向量化处理
S2011、分别计算每项传染病疾病数据出现的频率,计算公式如下:
Figure FDA0003544417040000011
其中,TFn为在24小时之内第n项传染病疾病数据出现的频率,Nn为在24小时之内第n项传染病疾病数据被测量的次数,N为在24小时之内所有传染病疾病数据被测量的次数;
S2012、分别计算每项传染病疾病数据对应的逆文档频率,计算公式如下:
Figure FDA0003544417040000012
其中,IDFn为第n项传染病疾病数据的逆文档频率,Mn为数据库中所有数据总数,M为数据库中传染病疾病数据总数;
S2013、分别计算每项传染病疾病数据对应的TF-IDF值,计算公式如下:
Figure FDA0003544417040000013
S202、将传染病患者个人数据进行文本特征向量化处理
S2021、分别计算每项传染病患者个人数据出现的频率,计算公式如下:
Figure FDA0003544417040000021
其中,TFm为在24小时之内第m项传染病患者个人数据出现的频率,Pm为在24小时之内第m项传染病患者个人数据被测量的次数,P为在24小时之内所有传染病疾病数据被测量的次数;
S2022、分别计算每项传染病患者个人数据对应的逆文档频率,计算公式如下:
Figure FDA0003544417040000022
其中,IDFm为第m项传染病患者个人数据的逆文档频率,Sm为数据库中所有数据总数,S为数据库中传染病患者个人数据总数;
S2023、分别计算每项传染病患者个人数据对应的TF-IDF值,计算公式如下:
Figure FDA0003544417040000023
S203、将传染病患者临床数据进行文本特征向量化处理
S2031、分别计算每项传染病患者临床数据出现的频率,计算公式如下:
Figure FDA0003544417040000024
其中,TFi为在24小时之内第i项传染病患者临床数据出现的频率,Qi为在24小时之内第i项传染病患者临床数据被测量的次数,Q为在24小时之内所有传染病患者临床数据被测量的次数;
S2032、分别计算每项传染病患者临床数据对应的逆文档频率,计算公式如下:
Figure FDA0003544417040000025
其中,IDFi 为第i项传染病患者临床数据的逆文档频率,Ei为数据库中所有数据总数,E为数据库中传染病患者临床数据总数;
S2033、分别计算每项传染病患者临床数据对应的TF-IDF值,计算公式如下:
Figure FDA0003544417040000031
步骤三、构建传染病流行风险预测模型;
S301、采用随机森林算法对所有数据对应的TF-IDF值即数字特征向量进行决策树构建;
S3011、训练集构建
分别对传染病疾病数据、传染病患者个人数据、传染病患者临床数据构建训练集;设定传染病疾病数据的总数为X、传染病患者个人数据的总数为Y、传染病患者临床数据的总数为Z,则对应的传染病疾病数据TF-IDF值的总数为X、传染病患者个人数据TF-IDF值的总数为Y、传染病患者临床数据TF-IDF值的总数为Z,则采用有放回地随机抽样方法在X个传染病疾病数据TF-IDF值中有放回地取样X次,在Y个传染病患者个人数据TF-IDF值中有放回地取样Y次,在Z个传染病患者临床数据TF-IDF值中有放回地取样Z次,将取样后的数据作为训练集;
S3012、测试集构建
在取样过程中未被取样的数据作为测试集;
S3013、采用训练集和测试集完成多棵决策树的构建;
S302、将多棵决策树合并融合在一起生成随机森林模型,即为传染病流行风险预测模型;
步骤四、运用Savitzy-Golay算法实现模型优化处理;
S401、将随机森林中的任意一棵决策树的所有节点分别设为a0、a1、a2…aj,则这一棵决策树所对应的拟合曲线方程为y=a0+a1x+a2x2+…ajxj
S402、根据上述的拟合曲线方程将所有决策树上的所有节点分别用拟合曲线方程的形式来表示;
S403、以每j+1个节点为一组重复进行,每进行一次则去掉最左边的一个点,然后从最右边再增加一个点,如此重复进行,直到结束;
S404、利用卷积算法求出拟合曲线方程的多项式系数;
步骤五、风险预测;
根据优化后的传染病流行风险预测模型,输入目前的各等级传染病患者临床数据,输出传染病流行风险预测概率,完成传染病风险预测;
步骤六、风险预警;
根据传染病流行风险预测概率,通过网络或短信形式发出紧急程度预警或不进行预警。
CN202011123887.5A 2020-10-20 2020-10-20 一种传染病流行风险预测分析方法 Active CN112365942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011123887.5A CN112365942B (zh) 2020-10-20 2020-10-20 一种传染病流行风险预测分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011123887.5A CN112365942B (zh) 2020-10-20 2020-10-20 一种传染病流行风险预测分析方法

Publications (2)

Publication Number Publication Date
CN112365942A CN112365942A (zh) 2021-02-12
CN112365942B true CN112365942B (zh) 2022-05-31

Family

ID=74507409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011123887.5A Active CN112365942B (zh) 2020-10-20 2020-10-20 一种传染病流行风险预测分析方法

Country Status (1)

Country Link
CN (1) CN112365942B (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615884B (zh) * 2015-02-04 2017-07-28 中国科学院地理科学与资源研究所 一种基于病毒检出率的传染病重症、死亡风险预警系统及方法
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统

Also Published As

Publication number Publication date
CN112365942A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
Flynn et al. Measurement tools for mental health problems and mental well-being in people with severe or profound intellectual disabilities: A systematic review
Shoily et al. Detection of stroke disease using machine learning algorithms
Do et al. Classification of asthma severity and medication using TensorFlow and multilevel databases
Bartal et al. Identifying women with postdelivery posttraumatic stress disorder using natural language processing of personal childbirth narratives
CN110046757B (zh) 基于LightGBM算法的门诊量预测系统及预测方法
JP6585869B1 (ja) 将来の骨量を予測する方法、情報処理装置、及びコンピュータプログラム
CN112331340B (zh) 育龄夫妇妊娠概率的智能预测方法及系统
Tylman et al. Real-time prediction of acute cardiovascular events using hardware-implemented Bayesian networks
Do et al. Personalized prediction of asthma severity and asthma attack for a personalized treatment regimen
CN112382388A (zh) 一种压疮不良事件的预警方法
Yalch Applying Bayesian statistics to research on psychological trauma: Introduction to the special section.
Marin et al. Early detection of preeclampsia based on a machine learning approach
Lufkin et al. A bayesian model to analyze the association of rheumatoid arthritis with risk factors and their interactions
CN112365942B (zh) 一种传染病流行风险预测分析方法
Güldoğan et al. Performance evaluation of different artificial neural network models in the classification of type 2 diabetes mellitus
Chauhan et al. Framework to predict health diseases using attribute selection mechanism
Kupkina et al. The impact of overweight and obesity on the quality of life in children with bronchial asthma
WO2016203456A1 (en) Device, system, and method of improved diagnosis, decision-support, and analysis of electroencephalograms
Wu et al. A data mining analysis of the Parkinson’s disease
Chattopadhyay MLMI: A machine learning model for estimating risk of myocardial infarction
Shen A recursive bifurcation model for predicting the peak of COVID-19 virus spread in United States and Germany
Syage A statistical and dynamical model for forecasting COVID-19 deaths based on a hybrid asymmetric gaussian and SEIR construct
Rabaey et al. SynSUM--Synthetic Benchmark with Structured and Unstructured Medical Records
CN114613506B (zh) 基于大数据的路径预测管控方法、装置及存储介质
Birkás et al. Get screened! The role of fear and disgust in the activation of behavioural harm avoidance in medical settings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant