CN112365942B

CN112365942B - 一种传染病流行风险预测分析方法

Info

Publication number: CN112365942B
Application number: CN202011123887.5A
Authority: CN
Inventors: 朱莉; 丛二勇; 李欣
Original assignee: Harbin University
Current assignee: Harbin University
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2022-05-31
Anticipated expiration: 2040-10-20
Also published as: CN112365942A

Abstract

一种传染病流行风险预测分析方法，属于传染病风险预测技术领域，通过信息采集、运用TF‑IDF算法实现文本特征向量化处理、构建传染病流行风险预测模型、运用Savitzy‑Golay算法实现模型优化处理、风险预测、风险预警等步骤实现对传染病流程风险预测及预警分析。首次使用TF‑IDF算法针对各项数据进行文本特征向量化的处理，将各类数据实现数字向量的统一，简化后续模型构建，为优化模型处理提供更加精准的基础数据，提高模型预测精准度。首次使用Savitzy‑Golay算法实现模型优化处理，将模型进行平滑滤波，减少模型中误差率的干扰，保证模型在数据计算和检测方面不会发生细微变化，提高模型预测精准度。

Description

一种传染病流行风险预测分析方法

技术领域

本发明属于传染病风险预测技术领域，具体涉及一种传染病流行风险预测分析方法。

背景技术

传染病是由各种病原体引起的能在人与人、动物与动物或人与动物之间相互传播的一类疾病。目前，我国针对新发传染病的控制措施主要是对确诊病例进行控制，同时对接触或易感人群进行隔离等，但是，不同传染病的传染方式不同，潜在的高危人群分布较为广泛，使得传染病的病源确定和流行风险预测十分困难。因此，对于传染病进行有效防控是十分必要的，能够防止在短时间内群体性发病情况的发生。

发明内容

本发明的目的是提供一种传染病流行风险预测分析方法，以实现对传染病的有效防控和流行风险预测。

本发明的一种传染病流行风险预测分析方法，包括以下步骤：

步骤一、信息采集；

步骤二、运用TF-IDF算法实现文本特征向量化处理；

步骤三、构建传染病流行风险预测模型；

步骤四、运用Savitzy-Golay算法实现模型优化处理；

步骤五、风险预测；

步骤六、风险预警。

作优选的实施方式，步骤一的具体实现过程如下：

S101、传染病等级分类

将传染病等级设定为轻症、重症、死亡三个等级；

S102、从疾控中心获取所有的传染病疾病数据和传染病患者个人数据，同时根据传染病等级分类情况将所有数据分类存储在数据库中；

S103、根据传染病等级分类情况对应采集各等级传染病患者临床数据，同时存储在数据库中。

作优选的实施方式，步骤二的具体实现过程如下：

S201、将传染病疾病数据进行文本特征向量化处理

S2011、分别计算每项传染病疾病数据出现的频率，计算公式如下：

其中，TF_n为在24小时之内第n项传染病疾病数据出现的频率，N_n为在24小时之内第n项传染病疾病数据被测量的次数，N为在24小时之内所有传染病疾病数据被测量的次数；

S2012、分别计算每项传染病疾病数据对应的逆文档频率，计算公式如下：

其中，IDF_n为第n项传染病疾病数据的逆文档频率，M_n为数据库中所有数据总数，M为数据库中传染病疾病数据总数；

S2013、分别计算每项传染病疾病数据对应的TF-IDF值，计算公式如下：

S202、将传染病患者个人数据进行文本特征向量化处理

S2021、分别计算每项传染病患者个人数据出现的频率，计算公式如下：

其中，TF_m为在24小时之内第m项传染病患者个人数据出现的频率，P_m为在24小时之内第m项传染病患者个人数据被测量的次数，P为在24小时之内所有传染病疾病数据被测量的次数；

S2022、分别计算每项传染病患者个人数据对应的逆文档频率，计算公式如下：

其中，IDF_m为第m项传染病患者个人数据的逆文档频率，S_m为数据库中所有数据总数，S为数据库中传染病患者个人数据总数；

S2023、分别计算每项传染病患者个人数据对应的TF-IDF值，计算公式如下：

S203、将传染病患者临床数据进行文本特征向量化处理

S2031、分别计算每项传染病患者临床数据出现的频率，计算公式如下：

其中，TF_i为在24小时之内第i项传染病患者临床数据出现的频率，Q_i为在24小时之内第i项传染病患者临床数据被测量的次数，Q为在24小时之内所有传染病患者临床数据被测量的次数；

S2032、分别计算每项传染病患者临床数据对应的逆文档频率，计算公式如下：

其中，IDF_n为第i项传染病患者临床数据的逆文档频率，E_i为数据库中所有数据总数，E为数据库中传染病患者临床数据总数；

S2033、分别计算每项传染病患者临床数据对应的TF-IDF值，计算公式如下：

作优选的实施方式，步骤三的具体实现过程如下：

S301、采用随机森林算法对所有数据对应的TF-IDF值即数字特征向量进行决策树构建；

S3011、训练集构建

分别对传染病疾病数据、传染病患者个人数据、传染病患者临床数据构建训练集；设定传染病疾病数据的总数为X、传染病患者个人数据的总数为Y、传染病患者临床数据的总数为Z，则对应的传染病疾病数据TF-IDF值的总数为X、传染病患者个人数据TF-IDF值的总数为Y、传染病患者临床数据TF-IDF值的总数为Z，则采用有放回地随机抽样方法在X个传染病疾病数据TF-IDF值中有放回地取样X次，在Y个传染病患者个人数据TF-IDF值中有放回地取样Y次，在Z个传染病患者临床数据TF-IDF值中有放回地取样Z次，将取样后的数据作为训练集；

S3012、测试集构建

在取样过程中未被取样的数据作为测试集；

S3013、采用训练集和测试集完成多棵决策树的构建；

S302、将多棵决策树合并融合在一起生成随机森林模型，即为传染病流行风险预测模型。

作优选的实施方式，步骤四的具体实现过程如下：

S401、将随机森林中的任意一棵决策树的所有节点分别设为a₀、a₁、a₂…a_j，则这一棵决策树所对应的拟合曲线方程为y＝a₀+a₁x+a₂x²+…a_jx^j；

S402、根据上述的拟合曲线方程将所有决策树上的所有节点分别用拟合曲线方程的形式来表示；

S403、以每j+1个节点为一组重复进行，每进行一次则去掉最左边的一个点，然后从最右边再增加一个点，如此重复进行，直到结束；

S404、利用卷积算法求出拟合曲线方程的多项式系数。

作优选的实施方式，步骤五的具体实现过程如下：

根据优化后的传染病流行风险预测模型，输入目前的各等级传染病患者临床数据，输出传染病流行风险预测概率，完成传染病风险预测。

作优选的实施方式，步骤六的具体实现过程如下：

根据传染病流行风险预测概率，通过网络或短信形式发出紧急程度预警或不进行预警。

本发明的有益效果是：

本发明的一种传染病流行风险预测分析方法，通过信息采集、运用TF-IDF算法实现文本特征向量化处理、构建传染病流行风险预测模型、运用Savitzy-Golay算法实现模型优化处理、风险预测、风险预警等步骤实现对传染病流程风险预测及预警分析。本发明首次使用TF-IDF算法针对传染病疾病数据、传染病患者个人数据、传染病患者临床数据进行文本特征向量化的处理，将各类数据实现数字向量的统一，可以极大的简化后续的模型构建过程，还能为优化模型处理提供更加精准的基础数据，同时间接的为提高模型预测精准度提供了有利支撑。本发明首次使用Savitzy-Golay算法实现模型优化处理，可以将模型进行平滑滤波，有效减少模型中误差率的干扰，能够保证模型在数据计算和检测方面不会发生细微变化，进一步提高模型预测精准度，为后续风险预测和预警提供有利支撑。

本发明的一种传染病流行风险预测分析方法，通过随机森林算法构建的传染病流行风险预测模型，具有传染病流行风险预测精度高、预测效果好的优点，通过通过Savitzy-Golay算法实现模型优化处理，又进一步提高了模型预测的精准度。

本发明的一种传染病流行风险预测分析方法，所依据的各项数据(传染病疾病数据、传染病患者个人数据、传染病患者临床数据)具有一定的可靠性，并且所依据的数据作为模型构建的基础数据，使得所构建的模型在预测精度上误差较小。

本发明的一种传染病流行风险预测分析方法，具有传染病流行风险预测精度高、预测效果好，并能够对监测区域内的传染病流行情况作出预测和预警，具有较强的实用性，能够为我国现有重点传染病区域早起的预测和预警起到有力支撑。

具体实施方式

本发明的一种传染病流行风险预测分析方法，主要包括以下步骤：

步骤一、信息采集：

S101、传染病等级分类

根据传染病患者临床检测数据，患者的情况可以分为轻症、重症和死亡三种情况，根据这种情况，本发明将传染病等级设定为轻症、重症、死亡三个等级。

S102、从疾控中心获取所有的传染病疾病数据和传染病患者个人数据，同时根据传染病等级分类情况将所有数据分类存储在数据库中；其中，传染病疾病数据主要包括：传染病医学定义的名称、初诊日期、确诊机构名称、确诊时间、诊断报告、发病原因、发病症状、常接触人群种类、常接触动物种类、近期接触人群种类、近期接触动物种类、既往病史。

其中，传染病患者个人数据主要包括：姓名、性别、年龄、出生日期、身高、体重、民族、婚姻状况、职业、家庭现住址、联系方式。

S103、根据传染病等级分类情况对应采集各等级传染病患者临床数据，同时存储在数据库中；其中，传染病患者临床数据主要为所确诊的传染病种类所对应的各项临床检测数据，一般会包括血常规、尿常规、体温等常规检测项目，最重要的是该传染病特定的检测项目，这些检测数据定义为本申请中的传染病患者临床数据。

步骤二、运用TF-IDF算法实现文本特征向量化处理：

S201、将传染病疾病数据进行文本特征向量化处理

S202、将传染病患者个人数据进行文本特征向量化处理

S203、将传染病患者临床数据进行文本特征向量化处理

上述的运用TF-IDF算法实现文本特征向量化处理的结果如下表所示：

表1传染病疾病数据文本特征向量化处理结果

表2传染病患者个人数据文本特征向量化处理结果

表3传染病患者临床数据文本特征向量化处理结果

本发明首次使用TF-IDF算法针对传染病疾病数据、传染病患者个人数据、传染病患者临床数据进行文本特征向量化的处理，将各类数据实现数字向量的统一，可以极大的简化后续的模型构建过程，还能为优化模型处理提供更加精准的基础数据，同时间接的为提高模型预测精准度提供了有利支撑。

步骤三、构建传染病流行风险预测模型：

S3011、训练集构建

S3012、测试集构建

在取样过程中未被取样的数据作为测试集；

S3013、采用训练集和测试集完成多棵决策树的构建；

步骤四、运用Savitzy-Golay算法实现模型优化处理：

S402、根据上述的拟合曲线方程将所有决策树上的所有节点分别用拟合曲线方程的形式来表示。

假设所构建的决策树有1000棵，则对应的拟合曲线方程也有1000个，即分别为y₁＝a₀+a₁x₁+a₂x₁ ²+…a_jx₁ ^j，y₂＝a₀+a₁x₂+a₂x₂ ²+…a_jx₂ ^j，……y₁₀₀₀＝a₀+a₁x₁₀₀₀+a₂x₁₀₀₀ ²+…a_jx₁₀₀₀ ^j。

S404、利用卷积算法求出拟合曲线方程的多项式系数。

本发明首次使用Savitzy-Golay算法实现模型优化处理，可以将模型进行平滑滤波，有效减少模型中误差率的干扰，能够保证模型在数据计算和检测方面不会发生细微变化，进一步提高模型预测精准度，为后续风险预测和预警提供有利支撑。

步骤五、风险预测：

步骤六、风险预警：

本发明公开了一种传染病流行风险预测分析方法，本领域技术人员可以借鉴本文内容，适当改进工艺参数实现。特别需要指出的是，所有类似的替换和改动对本领域技术人员来说是显而易见的，它们都被视为包括在本发明。本发明的产品已经通过较佳实施例进行了描述，相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的产品进行改动或适当变更与组合，来实现和应用本发明技术。