CN113793693A - 传染病流行趋势预测方法及装置 - Google Patents

传染病流行趋势预测方法及装置 Download PDF

Info

Publication number
CN113793693A
CN113793693A CN202111096737.4A CN202111096737A CN113793693A CN 113793693 A CN113793693 A CN 113793693A CN 202111096737 A CN202111096737 A CN 202111096737A CN 113793693 A CN113793693 A CN 113793693A
Authority
CN
China
Prior art keywords
data
infectious disease
target
day
target characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111096737.4A
Other languages
English (en)
Inventor
王梦莹
计虹
孙震
胡可云
陈联忠
魏振豪
常凤香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiahesen Health Technology Co ltd
Peking University Third Hospital Peking University Third Clinical Medical College
Original Assignee
Beijing Jiahesen Health Technology Co ltd
Peking University Third Hospital Peking University Third Clinical Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiahesen Health Technology Co ltd, Peking University Third Hospital Peking University Third Clinical Medical College filed Critical Beijing Jiahesen Health Technology Co ltd
Priority to CN202111096737.4A priority Critical patent/CN113793693A/zh
Publication of CN113793693A publication Critical patent/CN113793693A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明是关于一种传染病流行趋势预测方法及装置,方法包括:从医疗数据库、知识库和气象数据库中获取历史第一预设时间段内每日的医疗数据、社会活动数据和气候数据;根据所述每日的医疗数据、社会活动数据和气候数据,确定目标特征数据;根据每日的目标特征数据构建基于时间的序列数据;利用所述序列数据和多维自回归神经网络模型进行训练,以得到传染病流行趋势预测模型;使用所述传染病流行趋势预测模型预测目标传染病在未来第二预设时间段内的流行趋势。通过该技术方案,能够帮助提高传染病诊断与鉴别诊断能力,并能够及时监控其流行趋势,及时遏制传染病扩散造成的损失。

Description

传染病流行趋势预测方法及装置
技术领域
本发明涉及传染病预测技术领域,尤其涉及一种传染病流行趋势预测方法及装置。
背景技术
在所有公共卫生突发事件中,传染病因其具有突发性和重大健康风险,是全球公共卫生重点关注的领域。近年来,随着新发重大传染病疫情的大范围传播,对人类的生命健康造成严重威胁。建立强有力的传染病监测、预警和报告体系,能够提前发现传染病发病苗头和流行趋势,为及时有效地采取防控措施,减少传染病危害提供支撑。
但是,目前尚未有直接应用在医院的传染病系统,目前临床每日门诊就诊量较大,一线医院人员很难快速分辨出传染病,需通过实验室检测等方法辅助确认,其确诊流程较长,导致失去了对病毒早期识别和控制的时间。另外经基于医院历史就诊数据的统计学分析,发现医院的确诊传染病发展趋势与整个省市的传染病发展趋势基本一致,但是因为医院内的传染病数较少,现有的传染病模型在医院数据的基础上预测效果较差。
发明内容
为克服相关技术中存在的问题,本发明提供一种传染病流行趋势预测方法及装置。
根据本发明实施例的第一方面,提供一种传染病流行趋势预测方法,方法包括:
从医疗数据库、知识库和气象数据库中获取历史第一预设时间段内每日的医疗数据、社会活动数据和气候数据;
根据所述每日的医疗数据、社会活动数据和气候数据,确定目标特征数据;
根据每日的目标特征数据构建基于时间的序列数据;
利用所述序列数据和多维自回归神经网络模型进行训练,以得到传染病流行趋势预测模型;
使用所述传染病流行趋势预测模型预测目标传染病在未来第二预设时间段内的流行趋势。
在一个实施例中,优选地,所述目标特征数据包括:目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态。
在一个实施例中,优选地,所述方法还包括:
当所述目标传染病的流行趋势超过预设值时,输出预警提示。
在一个实施例中,优选地,在确定所述传染病流行趋势预测模型之后,还包括:
采用均方根误差、平均绝对误差或均方误差对所述传染病流行趋势预测模型进行评价;
其中,所述均方根误差采用以下第一计算公式进行计算:
Figure RE-GDA0003326240530000021
MSE表示所述均方根误差,yi表示第i个目标特征数据对应的真实值, f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量;
所述平均绝对误差采用以下第二计算公式进行计算:
Figure RE-GDA0003326240530000031
RMSE表示所述平均绝对误差,yi表示第i个目标特征数据对应的真实值,f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量;
所述均方误差采用以下第三计算公式进行计算:
Figure RE-GDA0003326240530000032
MAE表示所述均方误差,yi表示第i个目标特征数据对应的真实值,f(xi) 表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量。
在一个实施例中,优选地,利用所述序列数据和多维自回归神经网络模型进行训练,以得到传染病流行趋势预测模型,包括:
以所述序列数据作为元数据集,所述元数据集中的每个元数据包括目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态的m*1向量,假设历史预设时间段内供包含D日,则全量数据为m*D矩阵;
利用尺寸为m*w的窗口在m*D的全量数据中向右滑动,每次滑动提取大小为m*w的片段数据作为输入数据,并以窗口外右侧第一列m*1向量中的目标传染病每日确诊病例数作为标签数据,以在滑动结束后最终获取D-w 个m*w的输入数据以及D-w个标签数据;
将取D-w个m*w的输入数据输入至所述多维自回归神经网络模型的 LSTM神经网络中,对每一个m*w的输入数据和与其对应的标签数据进行时序学习;
将每个m*w的输入数据一一维形式展开,与所述LSTM神经网络的输出结果进行横向拼接,再经由以Relu函数作为激活函数的前馈神经网络计算后输出目标传染病确诊病例数的预测结果。
在一个实施例中,优选地,根据所述每日的医疗数据、社会活动数据和气候数据,确定目标特征数据,包括:
分别对所述每日的医疗数据、社会活动数据和气候数据进行数据清洗、数据补全和数据融合处理,以确定目标特征数据。
根据本发明实施例的第二方面,提供一种传染病流行趋势预测装置,所述装置包括:
获取模块,用于从医疗数据库、知识库和气象数据库中获取历史第一预设时间段内每日的医疗数据、社会活动数据和气候数据;
确定模块,用于根据所述每日的医疗数据、社会活动数据和气候数据,确定目标特征数据,所述目标特征数据包括:目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态;
构建模块,用于根据每日的目标特征数据构建基于时间的序列数据;
训练模块,用于利用所述序列数据和多维自回归神经网络模型进行训练,以得到传染病流行趋势预测模型;
预测模块,用于使用所述传染病流行趋势预测模型预测目标传染病在未来第二预设时间段内的流行趋势。
在一个实施例中,优选地,所述装置还包括:
预警模块,用于当所述目标传染病的流行趋势超过预设值时,输出预警提示。
在一个实施例中,优选地,还包括:
评价模块,用于在确定所述传染病流行趋势预测模型之后,采用均方根误差、平均绝对误差或均方误差对所述传染病流行趋势预测模型进行评价;
其中,所述均方根误差采用以下第一计算公式进行计算:
Figure RE-GDA0003326240530000051
MSE表示所述均方根误差,yi表示第i个目标特征数据对应的真实值, f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量;
所述平均绝对误差采用以下第二计算公式进行计算:
Figure RE-GDA0003326240530000052
RMSE表示所述平均绝对误差,yi表示第i个目标特征数据对应的真实值,f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量;
所述均方误差采用以下第三计算公式进行计算:
Figure RE-GDA0003326240530000053
MAE表示所述均方误差,yi表示第i个目标特征数据对应的真实值,f(xi) 表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量。
在一个实施例中,优选地,所述训练模块用于:
以所述序列数据作为元数据集,所述元数据集中的每个元数据包括目标目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态的m*1 向量,假设历史预设时间段内包含D日,则全量数据为m*D矩阵;
利用尺寸为m*w的窗口在m*D的全量数据中向右滑动,每次滑动提取大小为m*w的片段数据作为输入数据,并以窗口外右侧第一列m*1向量中的目标传染病每日确诊病例数作为标签数据,以在滑动结束后最终获取D-w 个m*w的输入数据以及D-w个标签数据;
将取D-w个m*w的输入数据输入至所述多维自回归神经网络模型的 LSTM神经网络中,对每一个m*w的输入数据和与其对应的标签数据进行时序学习;
将每个m*w的输入数据一一维形式展开,与所述LSTM神经网络的输出结果进行横向拼接,再经由以Relu函数作为激活函数的前馈神经网络计算后输出目标传染病确诊病例数的预测结果。
在一个实施例中,优选地,所述确定模块用于:
分别对所述每日的医疗数据、社会活动数据和气候数据进行数据清洗、数据补全和数据融合处理,以确定目标特征数据。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项方法的步骤。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,根据目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态等影响因素和多维自回归神经网络模型训练得到传染病流行趋势预测模型,从而通过传染病流行趋势预测模型准确的预测传染病的流行趋势,能够帮助提高传染病诊断与鉴别诊断能力,并能够及时监控其流行趋势,及时遏制传染病扩散造成的损失。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种传染病流行趋势预测方法的流程图。
图2是根据一示例性实施例示出的一种传染病流行趋势预测方法的流程图。
图3A是根据一示例性实施例示出的一种传染病流行趋势预测方法中步骤S104的流程图。
图3B是根据一示例性实施例示出的滑动窗口示意图。
图4是根据一示例性实施例示出的一种传染病流行趋势预测方法的具体流程图。
图5a是根据一示例性实施例示出的流行性感冒真实趋势示意图。
图5b是根据一示例性实施例示出的流行性感冒预测趋势示意图。
图5c是根据一示例性实施例示出的手足口病真实趋势示意图。
图5d是根据一示例性实施例示出的手足口病预测趋势示意图。
图6是根据一示例性实施例示出的一种传染病流行趋势预测装置的框图。
图7是根据一示例性实施例示出的另一种传染病流行趋势预测装置的框图。
图8是根据一示例性实施例示出的又一种传染病流行趋势预测装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种传染病流行趋势预测方法的流程图,如图1所示,该方法包括:
步骤S101,从医疗数据库、知识库和气象数据库中获取历史第一预设时间段内每日的医疗数据、社会活动数据和气候数据;
数据构成分为两部分,一是国家疾控官方2012年-2017年每月公共卫生科学数据。二是2012年-2020年在医院住院和门诊病历每日数据,医院数据是在医院数据中心中统计获取,医院数据中心采用Hadoop大数据技术架构,集成HDFS分布式文件系统、HBase列式数据库、Hive数据仓库、Mahout 机器学习等,可方便地进行数据存储和分析计算。传染病学习数据在深入挖掘某三甲医院8年来积累的22万份传染病历史数据基础上,应用大数据技术对临床数据进行清洗和归集,集中存储和统一管理,为传染病预测模型训练应用提供了必备的数据基础。除了从数据中心中获取数据,由于部分传染病与气候因素联系密切,为使预测模型具备考虑气候因素对传染病流行趋势的影响的能力,本发明还从国家气象数据部门网站收集获取了每日温度、湿度、风力等气候数据。除上述传染病确诊数、环境影响因素以外,传染病的传播与人类活动密切相关,例如传染病更易在人类聚集性活动中广泛传染。所以也将此因素作为预测的数据特征,并在对部分传染病的研究中有所体现。
步骤S102,根据所述每日的医疗数据、社会活动数据和气候数据,确定目标特征数据;
在一个实施例中,优选地,所述目标特征数据包括:目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态。
步骤S103,根据每日的目标特征数据构建基于时间的序列数据;
步骤S104,利用所述序列数据和多维自回归神经网络模型进行训练,以得到传染病流行趋势预测模型;
步骤S105,使用所述传染病流行趋势预测模型预测目标传染病在未来第二预设时间段内的流行趋势。
在该实施例中,根据目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态等影响因素和多维自回归神经网络模型训练得到传染病流行趋势预测模型,从而通过传染病流行趋势预测模型准确的预测传染病的流行趋势,能够帮助提高传染病诊断与鉴别诊断能力,并能够及时监控其流行趋势,及时遏制传染病扩散造成的损失。
图2是根据一示例性实施例示出的一种传染病流行趋势预测方法的流程图。
如图2所示,在一个实施例中,优选地,所述方法还包括:
步骤S201,当所述目标传染病的流行趋势超过预设值时,输出预警提示。
当流行趋势出现增长较快的情况时,可以输出预警提示,从而及时给与预警。
在一个实施例中,优选地,在确定所述传染病流行趋势预测模型之后,还包括:
采用均方根误差、平均绝对误差或均方误差对所述传染病流行趋势预测模型进行评价;
其中,所述均方根误差采用以下第一计算公式进行计算:
Figure RE-GDA0003326240530000091
MSE表示所述均方根误差,yi表示第i个目标特征数据对应的真实值, f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量;
所述平均绝对误差采用以下第二计算公式进行计算:
Figure RE-GDA0003326240530000101
RMSE表示所述平均绝对误差,yi表示第i个目标特征数据对应的真实值,f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量;
所述均方误差采用以下第三计算公式进行计算:
Figure RE-GDA0003326240530000102
MAE表示所述均方误差,yi表示第i个目标特征数据对应的真实值,f(xi) 表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量。
图3A是根据一示例性实施例示出的一种传染病流行趋势预测方法中步骤S104的流程图。
如图3A所示,在一个实施例中,优选地,上述步骤S104包括:
步骤S301,以所述序列数据作为元数据集,所述元数据集中的每个元数据包括目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态的m*1向量,假设历史预设时间段内供包含D日,则全量数据为m*D矩阵;
步骤S302,利用尺寸为m*w的窗口在m*D的全量数据中向右滑动,每次滑动提取大小为m*w的片段数据作为输入数据,并以窗口外右侧第一列 m*1向量中的目标传染病每日确诊病例数作为标签数据,以在滑动结束后最终获取D-w个m*w的输入数据以及D-w个标签数据;其中,滑动窗口示意图如图3B所示。
步骤S303,将取D-w个m*w的输入数据输入至所述多维自回归神经网络模型的LSTM神经网络中,对每一个m*w的输入数据和与其对应的标签数据进行时序学习;
步骤S304,将每个m*w的输入数据一一维形式展开,与所述LSTM神经网络的输出结果进行横向拼接,再经由以Relu函数作为激活函数的前馈神经网络计算后输出目标传染病确诊病例数的预测结果。
在一个实施例中,优选地,根据所述每日的医疗数据、社会活动数据和气候数据,确定目标特征数据,包括:
分别对所述每日的医疗数据、社会活动数据和气候数据进行数据清洗、数据补全和数据融合处理,以确定目标特征数据。
由于数据来源广泛,因此存在数据格式不一致、存在缺失值等问题。所以在模型训练之前需对数据进行预处理。在处理中,首先对患者的诊断名称进行归一化,以法定40种传染病和其他传染病共计57类对病历数据进行筛选,对医院满足年200例以上数据进行预测,选取结核病、病毒性肝炎、梅毒、猩红热、其他感染性腹泻病(除霍乱、细菌性和阿米巴性痢疾、伤寒和副伤寒以外的感染性腹泻病)、流行性感冒、手足口病等医院常见传染病,统计生成各个传染病每日确诊数量的时间序列数据,并将多个渠道的数据进行合并。此外收集到的气候数据中存在部分日期的温度数据存在缺失,考虑气候数据在短时间天数内较小概率产生大幅变动,所以采用前后一段日期平均的方法进行插值处理,对气候数据缺失的日期,利用历史同期气候数据以及该日期前后一定窗口内气候数据的均值进行差值。
综上,本发明的方案如图4所示。本发明基于多维自回归神经网络作为预测模型,并进行细致的特征工程,最终应用于模型的训练。特征工程是针对数据的处理,目的是最大限度地从原始数据中提取有效特征以供算法和模型使用。下面以一个具体实施例进行详细说明。首先从医院数据中心统计 2012年1月1日至2019年12月31日的各传染病每日确诊病例数。之后根据日期,从中提取识别出当前的所处年份、月份以及季节。其中年份与月份以数值型作为特征,季节以独热编码形式进行表示。其次,将采集到的气候数据进行处理,计算出当日昼夜温差。最后,考虑到传染病与人类群体活动密切相关,另将社会因素纳入至训练数据的特征中。例如,手足口病在儿童、学生群体中属多发传染病,青少年的主要聚集性群体活动为在校学习,所以特征中加入当前是否处于假期状态的特征用以刻画社会性聚集活动。
具体的训练数据中包含特征有:目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及学生当前是否处于假期状态等特征,之后将上述特征构建为基于时间的序列数据。最后,为了多维自回归神经网络模型的训练以及对模型预测未来传染病流行趋势效果进行验证与评价,将2013年10月28日至2018年 12月31日数据,共1890条时序样本作为训练数据,占总时序样本数据82.7%;以2019年1月1日至2020年1月31日共395条时序样本作为测试数据,占总时序样本17.3%。
图5a至图5d为应用多维自回归深度学习模型训练模型对手足口病与流行性感冒的流行趋势预测的结果。图示多维自回归神经网络模型预测的传染病流行趋势与真实发展趋势基本吻合。在回归预测中使用平均绝对误差 (Mean Absolute Error,MAE)对结果进行评价。本发明中,手足口病与流行性感冒确诊病例数的数量级不同,多维自回归神经网络在二者的训练中,测试数据的MAE分别低至0.7688与3.3516,即表示模型预测的患病数在各时间与对应当天真实患病数之间的平均差值分别为0.7688例与3.3516例。
图6是根据一示例性实施例示出的一种传染病流行趋势预测装置的框图。
如图6所示,根据本发明实施例的第二方面,提供一种传染病流行趋势预测装置,所述装置包括:
获取模块61,用于从医疗数据库、知识库和气象数据库中获取历史第一预设时间段内每日的医疗数据、社会活动数据和气候数据;
确定模块62,用于根据所述每日的医疗数据、社会活动数据和气候数据,确定目标特征数据,所述目标特征数据包括:目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态;
构建模块63,用于根据每日的目标特征数据构建基于时间的序列数据;
训练模块64,用于利用所述序列数据和多维自回归神经网络模型进行训练,以得到传染病流行趋势预测模型;
预测模块65,用于使用所述传染病流行趋势预测模型预测目标传染病在未来第二预设时间段内的流行趋势。
图7是根据一示例性实施例示出的另一种传染病流行趋势预测装置的框图。
如图7所示,在一个实施例中,优选地,所述装置还包括:
预警模块71,用于当所述目标传染病的流行趋势超过预设值时,输出预警提示。
图8是根据一示例性实施例示出的又一种传染病流行趋势预测装置的框图。
如图8所示,在一个实施例中,优选地,还包括:
评价模块81,用于在确定所述传染病流行趋势预测模型之后,采用均方根误差、平均绝对误差或均方误差对所述传染病流行趋势预测模型进行评价;
其中,所述均方根误差采用以下第一计算公式进行计算:
Figure RE-GDA0003326240530000131
MSE表示所述均方根误差,yi表示第i个目标特征数据对应的真实值, f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量;
所述平均绝对误差采用以下第二计算公式进行计算:
Figure RE-GDA0003326240530000141
RMSE表示所述平均绝对误差,yi表示第i个目标特征数据对应的真实值,f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量;
所述均方误差采用以下第三计算公式进行计算:
Figure RE-GDA0003326240530000142
MAE表示所述均方误差,yi表示第i个目标特征数据对应的真实值,f(xi) 表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量。
在一个实施例中,优选地,所述训练模块64用于:
以所述序列数据作为元数据集,所述元数据集中的每个元数据包括目标目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态的m*1 向量,假设历史预设时间段内包含D日,则全量数据为m*D矩阵;
利用尺寸为m*w的窗口在m*D的全量数据中向右滑动,每次滑动提取大小为m*w的片段数据作为输入数据,并以窗口外右侧第一列m*1向量中的目标传染病每日确诊病例数作为标签数据,以在滑动结束后最终获取D-w 个m*w的输入数据以及D-w个标签数据;
将取D-w个m*w的输入数据输入至所述多维自回归神经网络模型的 LSTM神经网络中,对每一个m*w的输入数据和与其对应的标签数据进行时序学习;
将每个m*w的输入数据一一维形式展开,与所述LSTM神经网络的输出结果进行横向拼接,再经由以Relu函数作为激活函数的前馈神经网络计算后输出目标传染病确诊病例数的预测结果。
在一个实施例中,优选地,所述确定模块62用于:
分别对所述每日的医疗数据、社会活动数据和气候数据进行数据清洗、数据补全和数据融合处理,以确定目标特征数据。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项方法的步骤。
进一步可以理解的是,本发明中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种传染病流行趋势预测方法,其特征在于,所述方法包括:
从医疗数据库、知识库和气象数据库中获取历史第一预设时间段内每日的医疗数据、社会活动数据和气候数据;
根据所述每日的医疗数据、社会活动数据和气候数据,确定目标特征数据,所述目标特征数据包括:目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态;
根据每日的目标特征数据构建基于时间的序列数据;
利用所述序列数据和多维自回归神经网络模型进行训练,以得到传染病流行趋势预测模型;
使用所述传染病流行趋势预测模型预测目标传染病在未来第二预设时间段内的流行趋势。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述目标传染病的流行趋势超过预设值时,输出预警提示。
3.根据权利要求1所述的方法,其特征在于,在确定所述传染病流行趋势预测模型之后,还包括:
采用均方根误差、平均绝对误差或均方误差对所述传染病流行趋势预测模型进行评价;
其中,所述均方根误差采用以下第一计算公式进行计算:
Figure FDA0003269176360000011
MSE表示所述均方根误差,yi表示第i个目标特征数据对应的真实值,f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量;
所述平均绝对误差采用以下第二计算公式进行计算:
Figure FDA0003269176360000021
RMSE表示所述平均绝对误差,yi表示第i个目标特征数据对应的真实值,f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量;
所述均方误差采用以下第三计算公式进行计算:
Figure FDA0003269176360000022
MAE表示所述均方误差,yi表示第i个目标特征数据对应的真实值,f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量。
4.根据权利要求1所述的方法,其特征在于,利用所述序列数据和多维自回归神经网络模型进行训练,以得到传染病流行趋势预测模型,包括:
以所述序列数据作为元数据集,所述元数据集中的每个元数据包括目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态的m*1向量,假设历史预设时间段内供包含D日,则全量数据为m*D矩阵;
利用尺寸为m*w的窗口在m*D的全量数据中向右滑动,每次滑动提取大小为m*w的片段数据作为输入数据,并以窗口外右侧第一列m*1向量中的目标传染病每日确诊病例数作为标签数据,以在滑动结束后最终获取D-w个m*w的输入数据以及D-w个标签数据;
将取D-w个m*w的输入数据输入至所述多维自回归神经网络模型的LSTM神经网络中,对每一个m*w的输入数据和与其对应的标签数据进行时序学习;
将每个m*w的输入数据一一维形式展开,与所述LSTM神经网络的输出结果进行横向拼接,再经由以Relu函数作为激活函数的前馈神经网络计算后输出目标传染病确诊病例数的预测结果。
5.根据权利要求1所述的方法,其特征在于,根据所述每日的医疗数据、社会活动数据和气候数据,确定目标特征数据,包括:
分别对所述每日的医疗数据、社会活动数据和气候数据进行数据清洗、数据补全和数据融合处理,以确定目标特征数据。
6.一种传染病流行趋势预测装置,其特征在于,所述装置包括:
获取模块,用于从医疗数据库、知识库和气象数据库中获取历史第一预设时间段内每日的医疗数据、社会活动数据和气候数据;
确定模块,用于根据所述每日的医疗数据、社会活动数据和气候数据,确定目标特征数据,所述目标特征数据包括:目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态;
构建模块,用于根据每日的目标特征数据构建基于时间的序列数据;
训练模块,用于利用所述序列数据和多维自回归神经网络模型进行训练,以得到传染病流行趋势预测模型;
预测模块,用于使用所述传染病流行趋势预测模型预测目标传染病在未来第二预设时间段内的流行趋势。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
预警模块,用于当所述目标传染病的流行趋势超过预设值时,输出预警提示。
8.根据权利要求6所述的装置,其特征在于,还包括:
评价模块,用于在确定所述传染病流行趋势预测模型之后,采用均方根误差、平均绝对误差或均方误差对所述传染病流行趋势预测模型进行评价;
其中,所述均方根误差采用以下第一计算公式进行计算:
Figure FDA0003269176360000031
MSE表示所述均方根误差,yi表示第i个目标特征数据对应的真实值,f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量;
所述平均绝对误差采用以下第二计算公式进行计算:
Figure FDA0003269176360000041
RMSE表示所述平均绝对误差,yi表示第i个目标特征数据对应的真实值,f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量;
所述均方误差采用以下第三计算公式进行计算:
Figure FDA0003269176360000042
MAE表示所述均方误差,yi表示第i个目标特征数据对应的真实值,f(xi)表示第i个目标特征数据对应的预测值,N表示所述目标特征数据的总数量。
9.根据权利要求6所述的装置,其特征在于,所述训练模块用于:
以所述序列数据作为元数据集,所述元数据集中的每个元数据包括目标目标传染病每日确诊病例数、当前所处年份、当前所处月份、当前所处季节、当日最高温度、当日最低温度、当日温差以及当前是否处于假期状态的m*1向量,假设历史预设时间段内包含D日,则全量数据为m*D矩阵;
利用尺寸为m*w的窗口在m*D的全量数据中向右滑动,每次滑动提取大小为m*w的片段数据作为输入数据,并以窗口外右侧第一列m*1向量中的目标传染病每日确诊病例数作为标签数据,以在滑动结束后最终获取D-w个m*w的输入数据以及D-w个标签数据;
将取D-w个m*w的输入数据输入至所述多维自回归神经网络模型的LSTM神经网络中,对每一个m*w的输入数据和与其对应的标签数据进行时序学习;
将每个m*w的输入数据一一维形式展开,与所述LSTM神经网络的输出结果进行横向拼接,再经由以Relu函数作为激活函数的前馈神经网络计算后输出目标传染病确诊病例数的预测结果。
10.根据权利要求6所述的装置,其特征在于,所述确定模块用于:
分别对所述每日的医疗数据、社会活动数据和气候数据进行数据清洗、数据补全和数据融合处理,以确定目标特征数据。
CN202111096737.4A 2021-09-18 2021-09-18 传染病流行趋势预测方法及装置 Pending CN113793693A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111096737.4A CN113793693A (zh) 2021-09-18 2021-09-18 传染病流行趋势预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111096737.4A CN113793693A (zh) 2021-09-18 2021-09-18 传染病流行趋势预测方法及装置

Publications (1)

Publication Number Publication Date
CN113793693A true CN113793693A (zh) 2021-12-14

Family

ID=79184047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111096737.4A Pending CN113793693A (zh) 2021-09-18 2021-09-18 传染病流行趋势预测方法及装置

Country Status (1)

Country Link
CN (1) CN113793693A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115440390A (zh) * 2022-11-09 2022-12-06 山东大学 一种传染病病例数量预测方法、系统、设备及存储介质
CN115631869A (zh) * 2022-11-28 2023-01-20 北京理工大学 一种传染病预测模型的构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021044594A1 (en) * 2019-09-05 2021-03-11 Hitachi, Ltd. Method, system, and apparatus for health status prediction
CN112782050A (zh) * 2020-12-25 2021-05-11 杭州电子科技大学 基于长短期记忆神经网络的生物气溶胶浓度预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021044594A1 (en) * 2019-09-05 2021-03-11 Hitachi, Ltd. Method, system, and apparatus for health status prediction
CN112782050A (zh) * 2020-12-25 2021-05-11 杭州电子科技大学 基于长短期记忆神经网络的生物气溶胶浓度预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
乔贺倩等: "基于经验模态分解的我国布鲁菌病月发病率预测研究", 《中国全科医学》 *
陆敏等: "基于神经网络的流感大数据分析", 《中华医学图书情报杂志》 *
陈佳: "新疆喀什百日咳与气象因素的多元时间序列分析", 《职业与健康》 *
韩向午: "职业流行病学基本方法系列讲座――第十讲 尘肺流行病学调查研究(Ⅱ)", 《中国职业医学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115440390A (zh) * 2022-11-09 2022-12-06 山东大学 一种传染病病例数量预测方法、系统、设备及存储介质
CN115631869A (zh) * 2022-11-28 2023-01-20 北京理工大学 一种传染病预测模型的构建方法
CN115631869B (zh) * 2022-11-28 2023-05-05 北京理工大学 一种传染病预测模型的构建方法

Similar Documents

Publication Publication Date Title
Zipkin et al. Addressing data integration challenges to link ecological processes across scales
Lekone et al. Statistical inference in a stochastic epidemic SEIR model with control intervention: Ebola as a case study
Fusco et al. Spatial stochastic frontier models: controlling spatial global and local heterogeneity
CN108537544A (zh) 一种交易系统实时监控方法及其监控系统
CN113793693A (zh) 传染病流行趋势预测方法及装置
CN106909566A (zh) 一种数据建模方法及设备
CN111105628A (zh) 一种停车场画像构建方法和装置
Castanheira-Pinto et al. Modeling, assessment and design of an emergency department of a public hospital through discrete-event simulation
Buckeridge et al. Knowledge-based bioterrorism surveillance.
Carr et al. Incorporating the potential for human error in maintenance models
CN112151185A (zh) 一种儿童呼吸疾病与环境数据关联分析方法及系统
Yu et al. cvcrand: A Package for Covariate-constrained Randomization and the Clustered Permutation Test for Cluster Randomized Trials.
Wheadon Classification accuracy and consistency under item response theory models using the package classify
CN114330136A (zh) 基于水表用水生活状态监测方法、系统、装置及存储介质
Gross Efficient data collection for estimating growth rates of structured populations
CN112465277A (zh) 一种在校学生挂科学分预测方法、系统、装置及存储介质
Morris The epidemiological approach to animal health—building on strong foundations
Qi et al. Estimated total number of second children based on three sources: the case of the city of Chengdu, Sichuan, China, for the year 2018
CN111883247B (zh) 一种行为数据与医疗结局相关性的分析系统
CN115631868B (zh) 一种基于提示学习模型的传染病预警直报方法和系统
Bell et al. The IMAGE inventory: A user guide
RU2356092C1 (ru) Система обработки документов
WO2023115163A1 (en) Methods and systems for integrating multi-domain, multi-feature sets of spatio-temporal data
Rademaker Subpopulation process comparison for in-hospital treatment processes: a case study for sepsis treatment
CN116759087A (zh) 风险预警方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination