CN113628759A - 一种基于大数据的传染病疫情安全区域预测方法 - Google Patents

一种基于大数据的传染病疫情安全区域预测方法 Download PDF

Info

Publication number
CN113628759A
CN113628759A CN202110860666.4A CN202110860666A CN113628759A CN 113628759 A CN113628759 A CN 113628759A CN 202110860666 A CN202110860666 A CN 202110860666A CN 113628759 A CN113628759 A CN 113628759A
Authority
CN
China
Prior art keywords
time
denotes
gradient
neural network
epidemic situation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110860666.4A
Other languages
English (en)
Inventor
金龙
陈良铭
罗辛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Institute of Green and Intelligent Technology of CAS
Original Assignee
Chongqing Institute of Green and Intelligent Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Institute of Green and Intelligent Technology of CAS filed Critical Chongqing Institute of Green and Intelligent Technology of CAS
Priority to CN202110860666.4A priority Critical patent/CN113628759A/zh
Publication of CN113628759A publication Critical patent/CN113628759A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于大数据的传染病疫情安全区域预测方法,属于神经网络和大数据领域,包括如下步骤:步骤1:对疫情分布大数据进行收集和预处理,构建疫情多信息分布图像数据集;步骤2:计算安全性向量标签;步骤3:构建由采用RepVGG‑B3为主干网络的卷积模块和长短时记忆模块组成的神经网络;步骤4:通过映射梯度对损失曲面变形;步骤5:训练所构建的神经网络;步骤6:使用训练所得神经网络进行预测,并对网络输出的安全性向量进行处理。本发明能够通过梯度映射对损失曲面进行变形,缓解甚至避免神经网络训练中的梯度爆炸、梯度消失、鞍点和高原附近难以训练的问题,提升疫情安全区域预测的精度和自动化程度。

Description

一种基于大数据的传染病疫情安全区域预测方法
技术领域
本发明涉及一种基于大数据的传染病疫情安全区域预测方法,属于神经网络和大数据领域。
背景技术
传染病疫情的迅速扩散对国家和人民造成了巨大的损失。由于全国各地区交通发达程度以及人口流量和流向差异等因素,传染病疫情在各地的严重程度不尽相同。在人们选择出行时,往往需要提前规划和确定行程,然而未来的疫情安全区域的时空发展趋势却难以提前获知;另外这种发展趋势对国家和地方政府的交通收放政策的制定而言有重要参考作用。目前,随着疫情管理系统的不断完善,疫情大数据不断积累。这为基于大数据和人工智能的疫情安全区域预测方法提供了基础。
此外,考虑到神经网络在特征提取、自主学习等方面的突出表现,充分运用神经网络等前沿技术对传染病疫情进行时空预测至关重要。然而,目前的深度神经网络和卷积神经网络训练中还存在梯度爆炸、梯度消失、鞍点和高原附近难以训练的问题,制约了这类神经网络性能的进一步提升;而本发明提供的通过梯度映射对损失曲面变形的方法有助于解决上述问题。
中国专利文献号CN 111933295 A,公开/公告日2020年11月13日,发明名称为“一种基于大数据的潜伏期传染病区域预警方法”中公开了一种根据患者手机信号活跃区域手动构建预警模型的潜伏期传染病区域预警方法,但未使用机器学习模型,缺乏灵活性,且需要监测患者活动,数据获取困难;中国专利文献号CN 111462917 A,公开/公告日2020年07月28日,发明名称为“基于空间地理分析和机器学习的疫情预警方法及系统”中公开了一种基于机器学习的疫情预警系统,其根据相关性分析处理空间信息后使用机器学习模型进行训练,但其所用机器学习模型并未统一处理时空信息,且未能解决深度神经网络和卷积神经网络训练中梯度爆炸、梯度消失、鞍点和高原附近难以训练的问题;中国专利文献号CN111768873 A,公开/公告日2020年10月13日,发明名称为“一种COVID-19实时风险预测方法”中公开了一种针对COVID-19、利用动力学模型和熵值-层次分析模型等进行实时风险预测的方法,但并未使用机器学习模型自动分析,且预警时间跨度较短。
考虑到这些,亟需一种基于大数据、综合分析处理时空信息、具有较大时间跨度预测能力的自动化高精度传染病疫情安全区域预测方法。
发明内容
针对现有疫情预测技术和方法中存在未能基于神经网络协同考虑时空信息、缺乏针对安全区域的长时预测方法、预测精度有待提高等不足,本发明提供一种基于大数据的传染病疫情安全区域预测方法,旨在通过梯度映射对损失曲面进行变形,缓解甚至避免神经网络训练中的梯度爆炸、梯度消失、鞍点和高原附近难以训练的问题,提升疫情安全区域预测的精度和自动化程度。本发明首先对疫情分布地图数据进行预处理,然后将预处理后的图像作为输入,将疫情安全区域作为标签,以对一个由卷积模块、长短时记忆模块组成的神经网络进行训练,进行传染病疫情安全区域预测。
为达到上述目的,本发明提供如下技术方案。
步骤1:对疫情分布大数据进行收集和预处理,构建疫情多信息分布图像数据集。获取区域r和时刻t的传染病新增确诊人数γ1,r,t、累计确诊人数γ2,r,t、新增死亡人数γ3,r,t、累计死亡人数γ4,r,t、境外输入病例数γ5,r,t、气温γ6,r,t6个项目(统一记为γi,r,t,其中下标i=1,2,...,6表示第i个项目)的数据。去除数据中不需要的字段;采用自由边界的三次样条插值填充缺失数值,若无缺失则无需填充;去除异常值;进行格式内容清洗并整合。进行如上处理后,假设共有
Figure BSA0000247636770000021
个区域,
Figure BSA0000247636770000022
个总时刻。对于第i个项目,将γi,r,t线性地映射到0-255之间的灰度值,即:
Figure BSA0000247636770000023
其中,γ′i,r,t为所得灰度值,min(·)和max(·)分别表示取最小值和取最大值,
Figure BSA0000247636770000024
将各区域在时刻t关于第i个项目的灰度值填充至地图相应区域,得到6张单通道的分布图像。将这些单通道分布图像分别作为一个通道叠加后构成一张6通道的疫情多信息分布图像,并将其作为一个样本。按照时刻先后顺序,对总共
Figure BSA0000247636770000025
个时刻进行上述通道叠加处理,得到
Figure BSA0000247636770000026
个样本。根据所有样本建立张量
Figure BSA0000247636770000027
其中,
Figure BSA0000247636770000028
是输入通道数,
Figure BSA0000247636770000029
是输入图片高度,
Figure BSA00002476367700000210
是输入图片宽度。将输入张量映射到[0,1]区间:X′=(1/255)X,并将X′作为神经网络的输入张量。
步骤2:计算安全性向量标签。假设对总共
Figure BSA00002476367700000211
个区域进行安全性判定,则定义第r个区域在时刻t的安全性为:
Figure BSA00002476367700000212
其中,符号∏表示连乘,q表示时刻t之后的q个时刻,v代表感染人数,e为自然对数,β为敏感性系数,是一个手动设定的参数,默认取1。β越大安全性越容易接近0,但各区域的安全性排序结果保持不变。st,r的含义为:从时刻t开始,往后q个时刻内始终安全的程度。实际应用中,q的取值取决于需要在某区域停留的时刻数,默认取1。若q个时刻内数据已终止,则将空缺数据用最末一个已有数据填充。在此基础上,时刻t的安全性向量被定义为
Figure BSA00002476367700000213
神经网络在时刻t的标签被取为安全性向量的真实值。
步骤3:构建由采用RepVGG-B3为主干网络的卷积模块和长短时记忆模块组成的神经网络。构建卷积模块用于提取各时刻疫情分布空间特征。RepVGG-B3在全局平均池化和全连接层之后,由5个阶段(stage)组成,这些stage包含的层数从前往后依次为1、4、6、16、1;每个stage的第一层采用stride=2的3x3卷积进行降采样,并用1x1卷积进行跨层连接;其余每个层由stride=1的3x3卷积组成,并用1x1卷积和恒等连接作为跨层连接。RepVGG-B3在stage 1、2、3、4、5的宽度依次为64、192、384、768、2560。RepVGG-B3在stage 2的结构示意如图1所示,其余stage仅宽度和深度不同。使用下式表示2维卷积操作:
Figure BSA00002476367700000214
其中,
Figure BSA00002476367700000215
表示第l层在第t个时刻第c个通道的特征图,ReLU(·)表示ReLU函数,
Figure BSA00002476367700000216
表示第l-1层与第l层之间的卷积核,
Figure BSA0000247636770000031
表示第l层的输入通道数,★表示卷积运算,
Figure BSA0000247636770000032
表示偏置。经过卷积模块处理的疫情分布空间特征被输入到长短时记忆模块,以学习时序信息。长短时记忆模块遵循以下公式:
It=σ(WIIAt+BII+WHIHt-1+BHI), (4)
Ft=σ(WIFAt+BIF+WHFHt-1+BHF), (5)
Gt=tanh(WIGAt+BIG+WHGHt-1+BHG), (6)
Ot=σ(WIOAt+BIO+WHOHt-1+BHO), (7)
Ct=Ft⊙Ct-1+It⊙Gt, (8)
Ht=Ot⊙tanh(Ct), (9)
Yt=σ(WOOHt), (10)
其中,I表示输入门,σ(·)表示Sigmoid函数,W表示权重,A表示输入,B表示偏置,H表示隐藏状态,F表示遗忘门,G表示单元门,O表示输出门,C表示单元状态,Y表示输出,⊙表示哈达马积,下标t表示t时刻,下标II表示从输入到输入门,下标HI表示从隐藏状态到输入门,依此类推。假设有
Figure BSA0000247636770000033
个时刻的训练数据,若需得到
Figure BSA0000247636770000034
时刻的预测值,则将预测所得
Figure BSA0000247636770000035
时刻的值合并至输入以获得
Figure BSA0000247636770000036
时刻的值,以此类推获得
Figure BSA0000247636770000037
时刻的预测值。
步骤4:通过映射梯度对损失曲面变形。首先,定义梯度形变函数为
Figure BSA0000247636770000038
其中,g为损失函数对参数的梯度,a1,a2,a3>0为控制形变方式的可调超参数,sign(·)为取符号操作。梯度形变函数
Figure BSA0000247636770000039
的设计旨在通过控制损失曲面的形状,进而缓解深度神经网络和循环神经网络训练中常出现的梯度爆炸、梯度消失、鞍点和高原附近难以训练的问题。如图所示,a1越小,则
Figure BSA00002476367700000310
的值域越小,意味着损失曲面陡峭程度的上限越小,可缓解梯度爆炸问题;a2越大,则g较小的区域
Figure BSA00002476367700000311
越大,意味着将梯度绝对值较小的区域变得更陡峭,可缓解梯度消失、鞍点和高原问题;a3越大,则g=0的邻域内
Figure BSA00002476367700000312
的绝对值越大,避免了梯度极接近0而使训练接近停滞的情形,且增强了梯度下降后期的随机性,有助于泛化。
步骤5:训练所构建的神经网络。经过梯度映射后,带动量的梯度下降参数迭代公式为
Figure BSA00002476367700000313
Figure BSA00002476367700000314
Figure BSA00002476367700000315
θk+1=θkk, (15)
其中,g是
Figure BSA00002476367700000316
个样本的平均梯度,下标k代表第k步迭代,
Figure BSA00002476367700000317
代表在样本Xj上损失函数
Figure BSA00002476367700000318
对参数θ的梯度,μ为动量因子,η为学习率。θ表示神经网络中(包括卷积模块和长短时记忆模块)的任意可训练参数。利用公式(11)-(15)对所得神经网络进行训练。
步骤6:使用训练所得神经网络进行预测,并对网络输出的安全性向量进行处理。完成模型训练后,使用神经网络预测得到未来
Figure BSA00002476367700000319
个时刻的安全性向量
Figure BSA00002476367700000320
t时刻预测所得安全性向量st包含的是
Figure BSA00002476367700000321
个区域的安全性度量。按照构造标签时各个区域对应元素在st中的位置,可以得到特定区域的安全性度量值。对不同区域的安全性度量值进行排序以获取安全性序列。
与现有技术相比,本发明的有益效果在于:综合了卷积模块和长短时记忆模块协同提取时空特征,能缓解甚至避免神经网络训练中的梯度爆炸、梯度消失、鞍点和高原附近难以训练的问题,进而实现高精度且自动化的传染病疫情安全区域预测,可以为国家和地方政府的政策制定以及人民的出行规划提供参考。
附图说明
为了说明本发明的目的、技术方案,本发明提供如下附图说明:
图1为本发明的执行流程图;
图2为本发明的优选实施例的疫情多信息分布图像;
图3为本发明的优选实施例的神经网络结构图;
图4为本发明的优选实施例中RepVGG-B3卷积神经网络模块在第2个stage的结构图,其余stage仅深度和宽度不同;
图5为本发明的优选实施例中利用梯度对损失曲面变形的函数示意图,横坐标为原始梯度,纵坐标为变换后梯度;
图6为本发明的优选实施例中利用梯度对损失曲面变形前后示意图,横坐标为参数,纵坐标为损失函数。
具体实施方式
下面结合附图对本发明的优选实施例进行详细描述。本发明可以由下述所限定的和覆盖的多种不同方式实施。
步骤1:对全国34个省、自治区、直辖市疫情分布大数据进行收集和预处理,构建疫情多信息分布图像数据集。获取区域r和时刻t的传染病新增确诊人数γ1,r,t、累计确诊人数γ2,r,t、新增死亡人数γ3,r,t、累计死亡人数γ4,r,t、境外输入病例数γ5,r,t、气温γ6,r,t6个项目(统一记为γi,r,t,其中下标i=1,2,...,6表示第i个项目)的数据。去除数据中不需要的字段;采用自由边界的三次样条插值填充缺失数值,若无缺失则无需填充;去除异常值(如数值极大的离群点);进行格式内容清洗并整合为表格。进行如上处理后,共有
Figure BSA0000247636770000041
个区域,
Figure BSA0000247636770000042
个总时刻。对于第i个项目,将γi,r,t线性地映射到0-255之间的灰度值,即:
Figure BSA0000247636770000043
其中,γ′i,r,t为所得灰度值,min(·)和max(·)分别表示取最小值和取最大值,
Figure BSA0000247636770000044
将各区域在时刻t关于第i个项目的灰度值填充至中国地图相应区域,得到6张单通道的分布图像。将这些单通道分布图像分别作为一个通道叠加后构成一张6通道的疫情多信息分布图像,并将其作为一个样本,如图2所示。按照时刻先后顺序,对总共
Figure BSA0000247636770000045
个时刻进行上述通道叠加处理,得到
Figure BSA0000247636770000046
个样本。根据所有样本建立张量
Figure BSA0000247636770000047
其中,
Figure BSA0000247636770000048
是输入通道数,
Figure BSA0000247636770000049
是输入图片高度,
Figure BSA00002476367700000410
是输入图片宽度。将输入张量映射到[0,1]区间:X′=(1/255)X,并将X′作为神经网络的输入张量。
步骤2:计算安全性向量标签。假设对总共
Figure BSA00002476367700000411
个区域进行安全性判定,则第r个区域在时刻t的安全性被定义为:
Figure BSA0000247636770000051
其中,符号∏表示连乘,q表示时刻t之后的q个时刻,v代表感染人数,e为自然对数,β为敏感性系数,在此实施例中取1。β越大安全性越容易接近0,但各区域的安全性排序结果保持不变。st,r的含义为:从时刻t开始,往后q个时刻内始终安全的程度。实际应用中,q的取值取决于需要在某区域停留的时刻数,在此实施例中取1。若q个时刻内数据已终止,则将空缺数据用最末一个已有数据填充。在此基础上,时刻t的安全性向量被定义为
Figure BSA0000247636770000052
神经网络在时刻t的标签被取为安全性向量的真实值。
步骤3:构建由采用RepVGG-B3为主干网络的卷积模块和长短时记忆模块组成的神经网络。神经网络结构图如图3所示。卷积模块用于提取各时刻疫情分布空间特征。RepVGG-B3在全局平均池化和全连接层之后,由5个阶段(stage)组成,这些stage包含的层数从前往后依次为1、4、6、16、1;每个stage的第一层采用stride=2的3x3卷积进行降采样,并用1x1卷积进行跨层连接;其余每个层由stride=1的3x3卷积组成,并用1x1卷积和恒等连接作为跨层连接。RepVGG-B3在stage 1、2、3、4、5的宽度依次为64、192、384、768、2560。RepVGG-B3在stage 2的结构示意如图4所示,其余stage仅宽度和深度不同。使用下式表示2维卷积操作:
Figure BSA0000247636770000053
其中,
Figure BSA0000247636770000054
表示第l层在第t个时刻第c个通道的特征图,ReLU(·)表示ReLU函数,
Figure BSA0000247636770000055
表示第l-1层与第l层之间的卷积核,
Figure BSA0000247636770000056
表示第l层的输入通道数,★表示卷积运算,
Figure BSA0000247636770000057
表示偏置。经过卷积模块处理的疫情分布空间特征被输入到长短时记忆模块,以学习时序信息。长短时记忆模块遵循以下公式:
It=σ(WIIAt+BII+WHIHt-1+BHI), (19)
Ft=σ(WIFAt+BIF+WHFHt-1+BHF), (20)
Gt=tanh(WIGAt+BIG+WHGHt-1+BHG), (21)
Ot=σ(WIOAt+BIO+WHOHt-1+BHO), (22)
Ct=Ft⊙Ct-1+It⊙Gt, (23)
Ht=Ot⊙tanh(Ct), (24)
Yt=σ(WOOHt), (25)
其中,I表示输入门,σ(·)表示Sigmoid函数,W表示权重,A表示输入,B表示偏置,H表示隐藏状态,F表示遗忘门,G表示单元门,O表示输出门,C表示单元状态,Y表示输出,⊙表示哈达马积,下标t表示t时刻,下标II表示从输入到输入门,下标HI表示从隐藏状态到输入门,依此类推。假设有
Figure BSA0000247636770000058
个时刻的训练数据,若需得到
Figure BSA0000247636770000059
时刻的预测值,则将预测所得
Figure BSA00002476367700000510
时刻的值合并至输入以获得
Figure BSA00002476367700000511
时刻的值,以此类推获得
Figure BSA00002476367700000512
时刻的预测值。
步骤4:通过映射梯度对损失曲面变形。首先,定义梯度形变函数为
Figure BSA0000247636770000061
其中,g为损失函数对参数的梯度,a1,a2,a3>0为控制形变方式的可调超参数,sign(·)为取符号操作。梯度形变函数
Figure BSA0000247636770000062
的设计旨在通过控制损失曲面的形状,进而缓解深度神经网络和循环神经网络训练中常出现的梯度爆炸、梯度消失、鞍点和高原附近难以训练的问题。如图所示,a1越小,则
Figure BSA0000247636770000063
的值域越小,意味着损失曲面陡峭程度的上限越小,可缓解梯度爆炸问题;a2越大,则g较小的区域
Figure BSA0000247636770000064
越大,意味着将梯度绝对值较小的区域变得更陡峭,可缓解梯度消失、鞍点和高原问题;a3越大,则g=0的邻域内
Figure BSA0000247636770000065
的绝对值越大,避免了梯度极接近0而使训练接近停滞的情形,且增强了梯度下降后期的随机性,有助于泛化。在此实施例中,a1=1.5,a2=5,a3=0.1。
步骤5:基于PyTorch框架训练所构建的神经网络。经过梯度映射后,带动量的梯度下降参数迭代公式为
Figure BSA0000247636770000066
Figure BSA0000247636770000067
Figure BSA0000247636770000068
θk+1=θkk, (30)
其中,g是
Figure BSA0000247636770000069
个样本的平均梯度,下标k代表第k步迭代,
Figure BSA00002476367700000610
代表在样本Xj上损失函数
Figure BSA00002476367700000611
对参数θ的梯度,μ为动量因子,η为学习率。θ表示神经网络中(包括卷积模块和长短时记忆模块)的任意可训练参数。基于PyTorch框架,利用公式(11)-(15)对所得神经网络进行训练。
步骤6:使用训练所得神经网络进行预测,并对网络输出的安全性向量进行处理。完成模型训练后,使用神经网络预测得到未来
Figure BSA00002476367700000612
个时刻的安全性向量
Figure BSA00002476367700000613
t时刻预测所得安全性向量st包含的是全国34个省、自治区、直辖市的安全性度量。按照构造标签时各个区域对应元素在st中的位置,可以得到特定区域的安全性度量值。对不同区域的安全性度量值进行排序,可以为国家和地方政府的政策制定以及人民的出行规划提供参考。
以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其做出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (7)

1.一种基于大数据的传染病疫情安全区域预测方法,其特征在于,该方法包含以下步骤:
步骤1:对疫情分布大数据进行收集和预处理,构建疫情多信息分布图像数据集;
步骤2:计算安全性向量标签;
步骤3:构建由采用RepVGG-B3为主干网络的卷积模块和长短时记忆模块组成的神经网络;
步骤4:通过映射梯度对损失曲面变形;
步骤5:训练所构建的神经网络;
步骤6:使用训练所得神经网络进行预测,并对网络输出的安全性向量进行处理。
2.根据权利要求1所述的一种基于大数据的传染病疫情安全区域预测方法,其特征在于,所述的步骤1具体如下:
获取区域r和时刻t的传染病新增确诊人数γ1,r,t、累计确诊人数γ2,r,t、新增死亡人数γ3,r,t、累计死亡人数γ4,r,t、境外输入病例数γ5,r,t、气温γ6,r,t6个项目(统一记为γi,r,t,其中下标i=1,2,…,6表示第i个项目)的数据;去除数据中不需要的字段;采用自由边界的三次样条插值填充缺失数值,若无缺失则无需填充;去除异常值;进行格式内容清洗并整合;进行如上处理后,假设共有
Figure FSA0000247636760000011
个区域,
Figure FSA0000247636760000012
个总时刻;对于第i个项目,将γi,r,t线性地映射到0-255之间的灰度值,即:
Figure FSA0000247636760000013
其中,γ′i,r,t为所得灰度值,min(·)和max(·)分别表示取最小值和取最大值,
Figure FSA0000247636760000014
将各区域在时刻t关于第i个项目的灰度值填充至地图相应区域,得到6张单通道的分布图像;将这些单通道分布图像分别作为一个通道叠加后构成一张6通道的疫情多信息分布图像,并将其作为一个样本;按照时刻先后顺序,对总共
Figure FSA0000247636760000015
个时刻进行上述通道叠加处理,得到
Figure FSA0000247636760000016
个样本;根据所有样本建立张量
Figure FSA0000247636760000017
其中,
Figure FSA0000247636760000018
是输入通道数,
Figure FSA0000247636760000019
是输入图片高度,
Figure FSA00002476367600000110
是输入图片宽度;将输入张量映射到[0,1]区间:X′=(1/255)X,并将X′作为神经网络的输入张量。
3.根据权利要求1所述的一种基于大数据的传染病疫情安全区域预测方法,其特征在于,所述的步骤2具体如下:
假设对总共
Figure FSA00002476367600000111
个区域进行安全性判定,则定义第r个区域在时刻t的安全性为
Figure FSA0000247636760000021
其中,符号∏表示连乘,q表示时刻t之后的q个时刻,v代表感染人数,e为自然对数,β为敏感性系数,是一个手动设定的参数,默认取1;实际应用中,q的取值取决于需要在某区域停留的时刻数,默认取1;若q个时刻内数据已终止,则将空缺数据用最末一个已有数据填充;在此基础上,时刻t的安全性向量被定义为
Figure FSA0000247636760000022
神经网络在时刻t的标签被取为安全性向量的真实值。
4.根据权利要求1所述的一种基于大数据的传染病疫情安全区域预测方法,其特征在于,所述的步骤3具体如下:
构建卷积模块用于提取各时刻疫情分布空间特征;RepVGG-B3在全局平均池化和全连接层之后,由5个阶段(stage)组成,这些stage包含的层数从前往后依次为1、4、6、16、1;每个stage的第一层采用stride=2的3x3卷积进行降采样,并用1x1卷积进行跨层连接;其余每个层由stride=1的3x3卷积组成,并用1x1卷积和恒等连接作为跨层连接;RepVGG-B3在stage 1、2、3、4、5的宽度依次为64、192、384、768、2560;用下式表示2维卷积操作:
Figure FSA0000247636760000023
其中,
Figure FSA0000247636760000024
表示第l层在第t个时刻第c个通道的特征图,ReLU(·)表示ReLU函数,
Figure FSA0000247636760000025
表示第l-1层与第l层之间的卷积核,
Figure FSA0000247636760000026
表示第l层的输入通道数,★表示卷积运算,
Figure FSA0000247636760000027
表示偏置;经过卷积模块处理的疫情分布空间特征被输入到长短时记忆模块,以学习时序信息;长短时记忆模块遵循以下公式:
It=σ(WIIAt+BII+WHIHt-1+BHI), (4)
Ft=σ(WIFAt+BIF+WHFHt-1+BHF), (5)
Gt=tanh(WIGAt+BIG+WHGHt-1+BHG), (6)
Ot=σ(WIOAt+BIO+WHOHt-1+BHO), (7)
Ct=Ft⊙Ct-1+It⊙Gt, (8)
Ht=Ot⊙tanh(Ct), (9)
Yt=σ(WOOHt), (10)
其中,I表示输入门,σ(·)表示Sigmoid函数,W表示权重,A表示输入,B表示偏置,H表示隐藏状态,F表示遗忘门,G表示单元门,O表示输出门,C表示单元状态,Y表示输出,⊙表示哈达马积,下标t表示t时刻,下标∏表示从输入到输入门,下标HI表示从隐藏状态到输入门,依此类推;假设有
Figure FSA0000247636760000031
个时刻的训练数据,若需得到
Figure FSA0000247636760000032
时刻的预测值,则将预测所得
Figure FSA0000247636760000033
时刻的值合并至输入以获得
Figure FSA0000247636760000034
时刻的值,依此类推获得
Figure FSA0000247636760000035
时刻的预测值。
5.根据权利要求1所述的一种基于大数据的传染病疫情安全区域预测方法,其特征在于,所述的步骤4通过映射梯度对损失曲面进行变形,且梯度形变函数取为
Figure FSA0000247636760000036
其中,g为损失函数对参数的梯度,a1,a2,a3>0为控制形变方式的可调超参数,sign(·)为取符号操作。
6.根据权利要求1所述的一种基于大数据的传染病疫情安全区域预测方法,其特征在于,所述的步骤5具体如下:
经过梯度映射后,带动量的梯度下降参数迭代公式为
Figure FSA0000247636760000037
Figure FSA0000247636760000038
Figure FSA0000247636760000039
θk+1=θk+ρk, (15)
其中,g是
Figure FSA00002476367600000310
个样本的平均梯度,下标k代表第k步迭代,
Figure FSA00002476367600000311
代表在样本Xj上损失函数
Figure FSA00002476367600000312
对参数θ的梯度,μ为动量因子,η为学习率;θ表示神经网络中(包括卷积模块和长短时记忆模块)的任意可训练参数;利用公式(11)-(15)对所得神经网络进行训练。
7.根据权利要求1所述的一种基于大数据的传染病疫情安全区域预测方法,其特征在于,所述的步骤6具体如下:
完成模型训练后,使用神经网络预测得到未来
Figure FSA00002476367600000313
个时刻的安全性向量
Figure FSA00002476367600000314
t时刻预测所得安全性向量st包含的是
Figure FSA00002476367600000315
个区域的安全性度量;按照构造标签时各个区域对应元素在st中的位置,可以得到特定区域的安全性度量值;对不同区域的安全性度量值进行排序以获取安全性序列。
CN202110860666.4A 2021-07-22 2021-07-22 一种基于大数据的传染病疫情安全区域预测方法 Pending CN113628759A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110860666.4A CN113628759A (zh) 2021-07-22 2021-07-22 一种基于大数据的传染病疫情安全区域预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110860666.4A CN113628759A (zh) 2021-07-22 2021-07-22 一种基于大数据的传染病疫情安全区域预测方法

Publications (1)

Publication Number Publication Date
CN113628759A true CN113628759A (zh) 2021-11-09

Family

ID=78381389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110860666.4A Pending CN113628759A (zh) 2021-07-22 2021-07-22 一种基于大数据的传染病疫情安全区域预测方法

Country Status (1)

Country Link
CN (1) CN113628759A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205856A (zh) * 2023-02-01 2023-06-02 哈尔滨市科佳通用机电股份有限公司 基于深度学习的人力制动机轴链折断故障检测方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030158830A1 (en) * 2000-04-11 2003-08-21 Adam Kowalczyk Gradient based training method for a support vector machine
CN109522939A (zh) * 2018-10-26 2019-03-26 平安科技(深圳)有限公司 图像分类方法、终端设备及计算机可读存储介质
WO2019199307A1 (en) * 2018-04-12 2019-10-17 Siemens Aktiengesellschaft Second-order optimization methods for avoiding saddle points during the training of deep neural networks
CN110378239A (zh) * 2019-06-25 2019-10-25 江苏大学 一种基于深度学习的实时交通标志检测方法
KR20190123609A (ko) * 2018-04-24 2019-11-01 네이버 주식회사 딥 어텐션 네트워크를 이용하여 환자 의료 기록으로부터 질병 예후를 예측하는 방법 및 시스템
US20200143206A1 (en) * 2018-11-05 2020-05-07 Royal Bank Of Canada System and method for deep reinforcement learning
KR20200063364A (ko) * 2018-11-23 2020-06-05 네이버 주식회사 시계열 의료 데이터를 통한 질병 예후 예측을 위한 딥 뉴럴 네트워크의 분류 결과 시각화 방법 및 시스템
CN112163705A (zh) * 2020-09-29 2021-01-01 重庆邮电大学 基于cnn+seir和lstm的疫情预测预警方法
EP3786972A1 (en) * 2019-08-30 2021-03-03 Siemens Healthcare GmbH Improving performance of machine learning models for automatic quantification of coronary artery disease
WO2021139336A1 (zh) * 2020-09-28 2021-07-15 平安科技(深圳)有限公司 疫情防控效果预测方法、装置、服务器及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030158830A1 (en) * 2000-04-11 2003-08-21 Adam Kowalczyk Gradient based training method for a support vector machine
WO2019199307A1 (en) * 2018-04-12 2019-10-17 Siemens Aktiengesellschaft Second-order optimization methods for avoiding saddle points during the training of deep neural networks
KR20190123609A (ko) * 2018-04-24 2019-11-01 네이버 주식회사 딥 어텐션 네트워크를 이용하여 환자 의료 기록으로부터 질병 예후를 예측하는 방법 및 시스템
CN109522939A (zh) * 2018-10-26 2019-03-26 平安科技(深圳)有限公司 图像分类方法、终端设备及计算机可读存储介质
US20200143206A1 (en) * 2018-11-05 2020-05-07 Royal Bank Of Canada System and method for deep reinforcement learning
KR20200063364A (ko) * 2018-11-23 2020-06-05 네이버 주식회사 시계열 의료 데이터를 통한 질병 예후 예측을 위한 딥 뉴럴 네트워크의 분류 결과 시각화 방법 및 시스템
CN110378239A (zh) * 2019-06-25 2019-10-25 江苏大学 一种基于深度学习的实时交通标志检测方法
EP3786972A1 (en) * 2019-08-30 2021-03-03 Siemens Healthcare GmbH Improving performance of machine learning models for automatic quantification of coronary artery disease
WO2021139336A1 (zh) * 2020-09-28 2021-07-15 平安科技(深圳)有限公司 疫情防控效果预测方法、装置、服务器及存储介质
CN112163705A (zh) * 2020-09-29 2021-01-01 重庆邮电大学 基于cnn+seir和lstm的疫情预测预警方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAPPY: "RepVGG让你的CNN一卷到底", pages 1, Retrieved from the Internet <URL:《知乎https://zhuanlan.zhihu.com/p/343809865》> *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205856A (zh) * 2023-02-01 2023-06-02 哈尔滨市科佳通用机电股份有限公司 基于深度学习的人力制动机轴链折断故障检测方法及系统
CN116205856B (zh) * 2023-02-01 2023-09-08 哈尔滨市科佳通用机电股份有限公司 基于深度学习的人力制动机轴链折断故障检测方法及系统

Similar Documents

Publication Publication Date Title
CN107529651B (zh) 一种基于深度学习的城市交通客流预测方法和设备
CN105488456B (zh) 基于自适应阈值调整拒识子空间学习的人脸检测方法
CN108492271A (zh) 一种融合多尺度信息的自动图像增强系统及方法
CN111860459B (zh) 一种基于显微图像的禾本科植物叶片气孔指数测量方法
CN107622233A (zh) 一种表格识别方法、识别系统及计算机装置
CN110534195B (zh) 一种基于数据空间变换的阿尔兹海默症检测方法
CN111950437A (zh) 基于深度学习模型的步态识别方法、装置和计算机设备
CN109118487B (zh) 基于非下采样轮廓波变换和卷积神经网络的骨龄评估方法
CN112488234B (zh) 一种基于注意力池化的端到端组织病理图像分类方法
CN108875836B (zh) 一种基于深度多任务学习的简单-复杂活动协同识别方法
CN109948646A (zh) 一种时序数据相似度度量方法及度量系统
CN111415752A (zh) 一种融合气象因素和搜索指数的手足口病预测方法
CN114943324B (zh) 神经网络训练方法、人体运动识别方法及设备、存储介质
CN115797632B (zh) 一种基于多任务学习的图像分割方法
CN111259733A (zh) 一种基于点云图像的船舶识别方法及装置
CN113628759A (zh) 一种基于大数据的传染病疫情安全区域预测方法
CN116562414A (zh) 一种基于多源水文气象数据的陆地水储量变化预测方法
CN114495210A (zh) 一种基于注意力机制的姿态变化人脸识别方法
CN108009512A (zh) 一种基于卷积神经网络特征学习的人物再识别方法
CN114445356A (zh) 基于多分辨率的全视野病理切片图像肿瘤快速定位方法
CN116543165A (zh) 一种基于双通道复合深度网络的遥感图像果树分割方法
CN107194918B (zh) 数据分析方法及装置
CN115909086A (zh) 基于多级增强网络的sar目标检测识别方法
CN109558819A (zh) 一种用于遥感图像目标检测的深度网络轻量化方法
CN117152561B (zh) 一种洪涝灾害重置成本遥感样本集构建及更新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination