CN111798991A - 基于lstm的新冠肺炎疫情群体态势预测方法 - Google Patents

基于lstm的新冠肺炎疫情群体态势预测方法 Download PDF

Info

Publication number
CN111798991A
CN111798991A CN202010657929.7A CN202010657929A CN111798991A CN 111798991 A CN111798991 A CN 111798991A CN 202010657929 A CN202010657929 A CN 202010657929A CN 111798991 A CN111798991 A CN 111798991A
Authority
CN
China
Prior art keywords
data
newly
cases
epidemic situation
situation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010657929.7A
Other languages
English (en)
Other versions
CN111798991B (zh
Inventor
张学旺
李洋洋
黄胜
崔一辉
冯家琦
林金朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010657929.7A priority Critical patent/CN111798991B/zh
Publication of CN111798991A publication Critical patent/CN111798991A/zh
Application granted granted Critical
Publication of CN111798991B publication Critical patent/CN111798991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于LSTM的新冠肺炎疫情群体态势预测方法,属于深度学习技术领域。该方法包括以下步骤:S1:新冠肺炎疫情数据获取;S2:全国新冠肺炎疫情群体态势预测;S3:省、自治区和直辖市新冠肺炎疫情预测;S4:城市新冠肺炎疫情群体态势预测。深度学习目前在许多领域取得了优异的效果,LSTM在时间序列预测问题上表现较好,能够很好的挖掘数据的时间特征和规律,相比于传统的非参数模型效果要好。

Description

基于LSTM的新冠肺炎疫情群体态势预测方法
技术领域
本发明属于深度学习技术领域,涉及基于LSTM的新冠肺炎疫情群体态势预测方法。
背景技术
随着深度学习技术的不断发展,许多领域逐渐将目光转向深度学习。在处理非线性数据和多维数据上,深度学习展现出了优异的性能。循环神经网络(Recurrent NeuralNetwork,RNN)是神经网络的一种,循环神经网络适合于解决序列问题。传统的神经网络不同层之间是全连接的,而同一层内的神经元相互之间并无连接。而在序列处理的过程中,前一阶段的输出会对下一阶段的输出产生影响。而循环神经网络不仅仅能接受上一层的输入,并且能够接受上一时刻本层神经元的信息。因此循环神经网络可以有效解决之前神经网络解决序列问题时的缺陷,但也存在着当神经网络过深或者时序数过多时的“梯度爆炸”或者“梯度消失”的问题。
而长短期记忆(Long-Short Term Memory,LSTM)网络成功的克服了循环神经网络存在的“梯度爆炸”或“梯度消失”的问题,成为当前使用最多的RNN,它在语音和图片识别、自然语言处理、情感识别等多种领域中得到了广泛的应用。LSTM网络内除了包含短期输入信号状态h外还增加了一个单元状态c,用以存储长期的状态,网络内部使用两个门来控制单元状态c,其中一个是遗忘门,遗忘门的作用是确定保存多少之前时刻的ct-1到当前时刻的单元状态ct中,另一个是输入门,输入门的作用是确定保存多少当前时刻的输入xt到单元状态ct中。还有一个门是输出门,它的作用是确定把多少单元状态ct输出到LSTM的当前输出值ht中。LSTM网络内部结构如图1。
LSTM网络是通过神经元的传递来前向传播和计算信息,并且通过门机制来控制输入输出信息。遗忘门的计算表达式为:
ft=σ(Wf×[ht-1,xt]+bf) (1)
式中,ft表示遗忘门输出,σ是sigmoid函数,Wf表示遗忘门的权重矩阵,ht-1表示前一刻的输出值,xt为当前时刻的输入值,bf是遗忘门的偏置项,符号×表示矩阵的叉乘。输入门的计算表达式为:
it=σ(Wi×[ht-1,xt]+bi) (2)
式中,it是输入门输出,Wi是权重矩阵,bi是该门的偏置项。描述当前输入的单元状态c~t根据之前时刻的输出和当前输入来计算,计算表达式为:
Figure BDA0002577429980000021
式中,Wc表示单元状态的权重,bc为偏置项。下面是当前时刻的单元状态ct的计算。将ct-1
点乘ft,再用
Figure BDA0002577429980000023
点乘it,将两个的积求和即可得到单元状态ct,其计算表达式为:
Figure BDA0002577429980000022
式中,符号*表示矩阵的点乘。通过上式将LSTM关于当前一刻的记忆
Figure BDA0002577429980000024
和长期的记忆ct-1组合在了一起,变成了新的单元状态ct。因为遗忘门的存在,使得LSTM单元可以保存很久以前的信息,而又因为输入门的存在,LSTM单元又能避免将当前时刻无关紧要的内容记忆下来。把控长期记忆对当前时刻输出影响的门是输出门ot,公式为:
ot=σ(Wo×[ht-1,xt]+bo) (5)
式中,Wo表示输出门权重,bo表示偏置项。LSTM单元的最终输出由输出门ot和单元状态ct共同确定,其计算表达式为:
ht=ot*tanh(ct) (6)
式中,tanh为双曲正切函数。
传统的统计学习方法(如MCMC),采用概率统计的方式对提出的问题进行建模,公式推导和计算,而且预测的准确度往往取决于建模的好坏,所以无法确保其准确度。相比之下LSTM网络是数据驱动的算法,从数据中获得有效信息来预测,并且LSTM网络采用输入门、遗忘门和输出门的机制对输入输出数据进行控制,从而可以保留更长时间的信息及其影响,这为时间序列预测问题提供了更为准确的数据来源。这样使之前时刻对预测数据的影响考虑在内,从而大大提高了预测的准确度。
发明内容
有鉴于此,本发明的目的在于提供一种基于LSTM的新冠肺炎疫情群体态势预测方法,采用Python爬虫技术,利用Python中的requests库和urllib库对百度新冠肺炎疫情大数据平台网页展示的全国、各省(自治区、直辖市)和城市每天的新冠肺炎疫情数据进行爬取,生成csv格式的文件保存在本地主机。
为达到上述目的,本发明提供如下技术方案:
基于LSTM的新冠肺炎疫情群体态势预测方法,该方法包括以下步骤:
S1:新冠肺炎疫情数据获取;
S2:全国新冠肺炎疫情群体态势预测;
S3:省、自治区和直辖市新冠肺炎疫情预测;
S4:城市新冠肺炎疫情群体态势预测。
可选的,所述S1具体为:
S11:从百度新冠肺炎疫情大数据平台获取源代码;
S12:利用Python集成开发环境Pycharm,利用Python爬虫库requests、urllib以及JSON模块、lxml模块中的etree函数,通过编程语句xpath('//script[@type="application/json"]/text()')获取百度新冠肺炎疫情大数据平台源代码JSON格式文件,并筛选出中国的新冠肺炎疫情数据;
S13:将全国新冠肺炎疫情数据按新增确诊病例数据、新增境外输入病例、新增无症状感染者病例、新增重症病例、新增死亡病例、新增治愈病例和新增疑似病例数据和时间生成csv格式的文件并保存在本地主机。
可选的,所述S2具体为:
获取全国新冠肺炎疫情数据后,需要构建LSTM网络和对数据进行预处理和归一化处理,使输入数据符合LSTM网络的输入格式;
S21:将生成的csv格式的新冠肺炎疫情数据按n_lag天的数据构成数组作为输入数据,将之后28天的数据构成数组作为预测标签,形成预测数据集;
S22:将预测数据集按7:3比例划分为训练集和测试集;
S23:由于输入数据波动幅度较大,送入LSTM网络中训练效果不好,需要将数据进行归一化处理,将数据x映射x′到[0,1]之间;选取最大值max和最小值min,采用公式(7)进行归一化处理;
Figure BDA0002577429980000031
S24:构建LSTM模型,通过人工神经网络库Keras,利用Keras中包含的LSTM网络模块以及损失函数、层数和Dropout模块,将训练集数据输入到LSTM网络中进行训练,损失函数选取均方误差函数(MSE),优化器选取Adam,通过设置迭代次数epoch、批处理大小batch_size以及时间步长n_lag,不断优化LSTM网络,并使损失函数降到最低;
S25:将测试集数据送入到训练好的LSTM网络中,采用公式(8)均方根误差RMSE来评价真实值与预测值之间的偏差,并且根据测试集得出的RMSE值继续调整LSTM网络训练参数,通过增加迭代次数、修改时间步长n_lag使测试集RMSE值降到最低时,便可认定此时训练模型已是最优,然后保存模型参数;
Figure BDA0002577429980000041
S26:预测;将训练好的网络参数保存,将所要预测的时间的数据和时间步长n_lag的数据生成序列,并调整维度,然后输入到已训练好LSTM网络中,得出全国28天后的新冠肺炎疫情群体态势;
S27:重复以上步骤,对全国新增确诊病例数据、新增境外输入病例、新增无症状感染者病例、新增重症病例、新增死亡病例、新增治愈病例和新增疑似病例数据分别进行LSTM网络训练参数,得出不同病例的预测模型、参数和预测结果。
可选的,所述S3具体为:
通过Python爬虫从百度新冠肺炎疫情大数据平台获取各省、自治区和直辖市新冠肺炎疫情新增确诊病例,新增死亡病例以及新增治愈病例历史数据和实时数据,并将其生成csv格式的文件;预测各省、自治区和直辖市28天后新冠肺炎疫情群体态势;
S31:将生成的csv格式的新冠肺炎疫情数据按n_lag天的数据构成数组作为输入数据,将之后28天的新冠肺炎疫情数据构成数组作为预测标签,形成预测数据集;
S32:将预测数据集按7:3比例划分为训练集和测试集;
S33:由于输入数据波动幅度较大,送入LSTM网络中训练效果不好,因此需要将数据进行归一化处理,将数据x映射x′到[0,1]之间;选取最大值max和最小值min,采用公式(7)进行归一化处理;
S34:构建LSTM网络,通过人工神经网络库Keras,利用Keras中包含的LSTM网络模块以及损失函数、层数和Dropout模块,将训练集数据输入到LSTM网络中进行训练,损失函数选取均方误差函数MSE,优化器选取Adam,通过设置迭代次数epoch、批处理大小batch_size以及时间步长n_lag,不断优化LSTM网络,并使损失函数降到最低;
S35:将测试集数据送入到训练好的LSTM网络中,采用公式(8)均方根误差RMSE来评价真实值与预测值之间的偏差,并且根据测试集得出的RMSE值继续调整LSTM网络训练参数,通过增加迭代次数、修改时间步长n_lag使测试集RMSE值降到最低时,便可认定此时训练模型已是最优,然后保存模型参数;
步骤6:预测;将训练好的模型参数保存,将所要预测的时间的数据和时间步长n_lag的数据生成序列,并调整维度,然后输入到已训练好LSTM网络中,得出省、自治区和直辖市28天后的新冠肺炎疫情群体态势;
步骤7:重复以上步骤,对各省、自治区和直辖市新增确诊病例,新增死亡病例以及新增治愈病例分别进行LSTM网络训练参数,得出不同病例的预测模型、参数和预测结果。
可选的,所述S4具体为:
通过Python爬虫从百度新冠肺炎疫情大数据平台获取各主要城市新冠肺炎疫情新增确诊病例,新增死亡病例以及新增治愈病例历史数据和实时数据,并将其生成csv格式的文件;预测各城市28天后的新冠肺炎疫情群体态势;
S41:将生成的csv格式的文件新冠肺炎疫情数据按n_lag天的数据构成数组作为输入数据,将之后28天的数据构成数组作为预测标签,形成预测数据集;
S42:将预测数据集按7:3比例划分为训练集和测试集;
S43:由于输入数据波动幅度较大,送入LSTM网络中训练效果不好,需要将数据进行归一化处理,将数据x映射x′到[0,1]之间;选取最大值max和最小值min,采用公式(7)进行归一化处理;
S44:构建LSTM网络,通过人工神经网络库Keras,利用Keras中包含的LSTM网络模块以及损失函数、层数和Dropout模块,将训练集数据输入到LSTM网络中进行训练,损失函数选取均方误差函数MSE,优化器选取Adam,通过设置迭代次数epoch、批处理大小batch_size以及时间步长n_lag,不断优化LSTM模型,并使损失函数降到最低;
S45:将测试集数据送入到训练好的LSTM网络中,采用公式(8)均方根误差RMSE来评价真实值与预测值之间的偏差,并且根据测试集得出的RMSE值继续调整LSTM模型训练参数,通过增加迭代次数、修改时间步长n_lag使测试集RMSE值降到最低时,便可认定此时训练模型已是最优,然后保存模型参数;
S46:预测;将训练好的模型参数保存,将所要预测的时间的数据和时间步长n_lag的数据生成序列,并调整维度,然后输入到已训练好LSTM模型中,得出各城市28天后的新冠肺炎疫情群体态势;
S47:重复以上步骤,对各省、自治区和直辖市新增确诊病例,新增死亡病例以及新增治愈病例分别进行LSTM网络训练参数,得出不同病例的预测模型、参数和预测结果。
本发明的有益效果在于:
1、本发明利用LSTM网络对全国、各省(自治区、直辖市)和城市新冠肺炎疫情28天后的数据进行态势预测,利用LSTM网络处理时间序列数据的能力和学习能力,挖掘疫情传播的规律,与现有方法相比提高了预测的准确度。
2、现有的百度新冠肺炎疫情平台等新冠肺炎疫情平台无城市对全国影响力的预测和分析,孤立的展示疫情当前状态,信息具有延时性。本发明综合考虑疫情爆发城市对全国其他城市的影响,利用LSTM网络预测新冠肺炎疫情群体态势数据,能够为政府部门提供疫情数据,及时预警防范,从而减少疫情带来的各种损失。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1本发明的算法框图;
图2本发明使用的LSTM网络内部结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明利用LSTM网络对时间序列处理的能力,对全国、省(自治区、直辖市)和城市的新冠肺炎疫情群体态势预测,结合目前新冠肺炎疫情发展的趋势,通过LSTM网络训练学习新冠肺炎疫情的规律,提高新冠肺炎疫情群体态势预测的准确度。以下结合附图和具体实例对本发明的具体实施说明如下。
利用深度学习LSTM网络作为预测算法,与之前传统的机器学习算法(SVM)和统计学算法(MCMC)相比,克服了其复杂的建模过程,以及缺少先验分布的参数估计方法、灵活度低等缺点;另一方面,LSTM网络能够更好的发现疫情传播的规律以及病例人数变化的规律,易于建模,不需要之前新冠病毒的先验知识,具有很强的灵活性特点。并且,LSTM网络对于时间序列预测具有很好的性能,有效的简化了传统预测算法中建模困难、参数众多以及推导公式复杂等问题,而且LSTM网络应用广泛,采用数据驱动的方法,能够根据历史数据发现其中的变化规律和模式,进行有效、准确的预测。
作为深度学习中较好的处理时间序列预测问题的算法之一,与传统的循环神经网络(Reccurent Neural Network,RNN)相比,克服了其由于梯度下降导致的“梯度爆炸”和“梯度消失”问题,保证了其训练的稳定,从而保证预测的准确度。
根据之前全国每天的新冠肺炎疫情统计数据,通过LSTM网络训练模型,挖掘全国疫情发展的趋势,并根据当前数据和之前数据通过LSTM网络可以预测28天后全国新增确诊病例、新增境外输入病例、新增无症状感染者、新增重症患者等数据。
根据之前省(自治区、直辖市)统计的每天的新冠肺炎疫情数据,根据每天新增确诊病例、新增死亡病例和新增治愈病例的数据,分别通过LSTM网络进行训练得出其时间维度上的变化规律,根据当前数据和之前数据通过LSTM网络预测28天后各省(自治区、直辖市)新增确诊病例、新增死亡病例和新增治愈病例的数据。
根据之前全国各城市统计的每天的新冠肺炎疫情数据,根据每天新增确诊病例、新增死亡病例和新增治愈病例的数据,分别通过LSTM网络进行训练得出其时间维度上的变化规律,根据当前数据和之前数据通过LSTM网络预测28天后各城市新增确诊病例、新增死亡病例和新增治愈病例的数据。
一、算法框图
如图1所示算法框图,从百度新冠肺炎疫情大数据平台获取新冠肺炎疫情数据,经过数据处理分类成全国、省(自治区、直辖市)和城市数据,将新冠肺炎疫情数据输入到图2所示LSTM网络中,训练模型和参数,得出28天后新冠肺炎疫情群体态势数据。
二、基于LSTM网络的新冠肺炎疫情群体态势预测
本发明采用Python爬虫技术,利用Python中的requests库和urllib库对百度新冠肺炎疫情大数据平台展示的全国、各省(自治区、直辖市)和城市每天的新冠肺炎疫情数据进行爬取,生成csv格式的文件保存在本地主机。
(一)新冠肺炎疫情数据获取
步骤1:从百度新冠肺炎疫情大数据平台:https://voice.baidu.com/act/ newpneumonia/newpneumonia/获取源代码;
步骤2:利用Python集成开发环境Pycharm,利用Python爬虫库requests、urllib以及JSON模块、lxml模块中的etree函数,通过编程语句xpath('//script[@type="application/json"]/text()')获取百度新冠肺炎疫情大数据平台源代码JSON格式文件,并筛选出中国的新冠肺炎疫情数据;
步骤3:将全国新冠肺炎疫情数据按新增确诊病例数据、新增境外输入病例、新增无症状感染者病例、新增重症病例、新增死亡病例、新增治愈病例和新增疑似病例数据和时间生成csv格式的文件并保存在本地主机。
(二)全国新冠肺炎疫情群体态势预测
获取全国新冠肺炎疫情数据后,需要构建LSTM模型和对数据进行预处理和归一化处理,使输入数据符合LSTM网络的输入格式:
步骤1:将生成的csv格式的新冠肺炎疫情数据按14天的数据构成数组作为输入数据,将之后28天的数据构成数组作为预测标签,形成预测数据集;
步骤2:将预测数据集按7:3比例划分为训练集和测试集;
步骤3:通过Sklearn.preprocessing库中MinMaxScaler函数预测数据集进行归一化处理,将数据x映射x′到[0,1]之间。选取最大值max和最小值min,采用公式(7)进行归一化处理;
步骤4:构建LSTM网络,通过人工神经网络库Keras,利用Keras中包含的LSTM网络模块以及损失函数、层数和Dropout模块,将训练集数据输入到LSTM网络中进行训练,损失函数选取均方误差函数(MSE),优化器选取Adam,通过设置迭代次数epoch设置为3000、批处理大小batch_size设置为1;
步骤5:将测试集数据送入到设置好的LSTM网络中,采用公式(8)均方根误差RMSE来评价真实值与预测值之间的偏差,并且根据测试集得出的RMSE值调整LSTM网络训练参数;
步骤6:预测。将训练好的模型参数保存,将所要预测的时间的数据和之前14天的新冠肺炎疫情数据生成序列,并调整维度,然后输入到已训练好LSTM模型中,得出全国28天后的新冠肺炎疫情群体态势;
步骤7:重复以上步骤,对全国新增确诊病例数据、新增境外输入病例、新增无症状感染者病例、新增重症病例、新增死亡病例、新增治愈病例和新增疑似病例数据分别进行LSTM网络训练参数,得出不同病例的预测模型、参数和预测结果。
(三)省(自治区、直辖市)新冠肺炎疫情预测
通过Python爬虫从百度新冠肺炎疫情大数据平台获取各省(自治区、直辖市)新冠肺炎疫情新增确诊病例,新增死亡病例以及新增治愈病例历史数据和实时数据,并将其生成csv格式的文件。预测各省(自治区、直辖市)28天后新冠肺炎疫情群体态势。
步骤1:将生成的csv格式的新冠肺炎疫情数据文件按14天的数据构成数组作为输入数据,将之后28天的新冠肺炎疫情数据构成数组作为预测标签,形成预测数据集;
步骤2:将预测数据集按7:3比例划分为训练集和测试集;
步骤3:通过Sklearn.preprocessing库中MinMaxScaler函数预测数据集进行归一化处理,将数据x映射x′到[0,1]之间。选取最大值max和最小值min,采用公式(7)进行归一化处理;
步骤4:构建LSTM网络,通过人工神经网络库Keras,利用Keras中包含的LSTM网络模块以及损失函数、层数和Dropout模块,将训练集数据输入到LSTM网络中进行训练,损失函数选取均方误差函数(MSE),优化器选取Adam,通过设置迭代次数epoch设置为500、批处理大小batch_size设置为1;
步骤5:将测试集数据送入到训练好的LSTM网络中,采用公式(8)均方根误差RMSE来评价真实值与预测值之间的偏差,并且将训练完成的LSTM网络参数保存到本地文件;
步骤6:预测。将所要预测的14天的新冠肺炎疫情数据生成序列,并调整维度,然后输入到已训练好的LSTM网络中,得出省(自治区、直辖市)28天后的新冠肺炎疫情群体态势数据;
步骤7:重复以上步骤,对各省(自治区、直辖市)新增确诊病例,新增死亡病例以及新增治愈病例分别进行LSTM网络训练参数,得出不同病例的预测模型、参数和预测结果。
(四)城市新冠肺炎疫情群体态势预测
通过Python爬虫从百度新冠肺炎疫情大数据平台获取各主要城市新冠肺炎疫情新增确诊病例,新增死亡病例以及新增治愈病例历史数据和实时数据,并将其生成csv格式的文件。预测各城市28天后的新冠肺炎疫情群体态势。
步骤1:将生成的csv格式的新冠肺炎疫情数据按14天的数据构成数组作为输入数据,将之后28天的数据构成数组作为预测标签,形成预测数据集;
步骤2:将预测数据集按7:3比例划分为训练集和测试集;
步骤3:通过Sklearn.preprocessing库中MinMaxScaler函数预测数据集进行归一化处理,将数据x映射x′到[0,1]之间。选取最大值max和最小值min,采用公式(7)进行归一化处理;
步骤4:构建LSTM网络,通过人工神经网络库Keras,利用Keras中包含的LSTM网络模块以及损失函数、层数和Dropout模块,将训练集数据输入到LSTM网络中进行训练,损失函数选取均方误差函数(MSE),优化器选取Adam,通过设置迭代次数epoch设置为500、批处理大小batch_size设置为1;
步骤5:将测试集数据送入到训练好的LSTM模型中,采用公式(8)均方根误差RMSE来评价真实值与预测值之间的偏差,并且将训练完成的LSTM网络参数保存到本地文件;
步骤6:预测。将所要预测的14天的新冠肺炎疫情数据生成序列,并调整维度,然后输入到已训练好的LSTM网络中,得出省(自治区、直辖市)28天后的新冠肺炎疫情群体态势数据;
步骤7:重复以上步骤,对各省(自治区、直辖市)新增确诊病例,新增死亡病例以及新增治愈病例分别进行LSTM网络训练参数,得出不同病例的预测模型、参数和预测结果。
综上所述,本方案旨在利用LSTM网络良好的处理时间序列的优点,结合新冠肺炎疫情历史数据,通过对近期新冠肺炎疫情数据的训练,对28天后的全国、省(自治区、直辖市)和城市的新冠肺炎疫情群体态势预测,进一步得出新冠肺炎疫情发展和影响的规律,提高了预测的准确度。该方案可以利用近期数据进行训练,克服之前数据不稳定的影响,使LSTM网络更好的学习疫情的规律,从而提高预测的准确度。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.基于LSTM的新冠肺炎疫情群体态势预测方法,其特征在于:该方法包括以下步骤:
S1:新冠肺炎疫情数据获取;
S2:全国新冠肺炎疫情群体态势预测;
S3:省、自治区和直辖市新冠肺炎疫情预测;
S4:城市新冠肺炎疫情群体态势预测。
2.根据权利要求1所述的基于LSTM的新冠肺炎疫情群体态势预测方法,其特征在于:所述S1具体为:
S11:从百度新冠肺炎疫情大数据平台获取源代码;
S12:利用Python集成开发环境Pycharm,利用Python爬虫库requests、urllib以及JSON模块、lxml模块中的etree函数,通过编程语句xpath('//script[@type="application/json"]/text()')获取百度新冠肺炎疫情大数据平台源代码JSON格式文件,并筛选出中国的新冠肺炎疫情数据;
S13:将全国新冠肺炎疫情数据按新增确诊病例数据、新增境外输入病例、新增无症状感染者病例、新增重症病例、新增死亡病例、新增治愈病例和新增疑似病例数据和时间生成csv格式的文件并保存在本地主机。
3.根据权利要求1所述的基于LSTM的新冠肺炎疫情群体态势预测方法,其特征在于:所述S2具体为:
获取全国新冠肺炎疫情数据后,需要构建LSTM网络和对数据进行预处理和归一化处理,使输入数据符合LSTM网络的输入格式;
S21:将生成的csv格式的新冠肺炎疫情数据按n_lag天的数据构成数组作为输入数据,将之后28天的数据构成数组作为预测标签,形成预测数据集;
S22:将预测数据集按7:3比例划分为训练集和测试集;
S23:由于输入数据波动幅度较大,送入LSTM网络中训练效果不好,需要将数据进行归一化处理,将数据x映射x′到[0,1]之间;选取最大值max和最小值min,采用公式(7)进行归一化处理;
Figure FDA0002577429970000011
S24:构建LSTM模型,通过人工神经网络库Keras,利用Keras中包含的LSTM网络模块以及损失函数、层数和Dropout模块,将训练集数据输入到LSTM网络中进行训练,损失函数选取均方误差函数(MSE),优化器选取Adam,通过设置迭代次数epoch、批处理大小batch_size以及时间步长n_lag,不断优化LSTM网络,并使损失函数降到最低;
S25:将测试集数据送入到训练好的LSTM网络中,采用公式(8)均方根误差RMSE来评价真实值与预测值之间的偏差,并且根据测试集得出的RMSE值继续调整LSTM网络训练参数,通过增加迭代次数、修改时间步长n_lag使测试集RMSE值降到最低时,认定此时训练模型已是最优,然后保存模型参数;
Figure FDA0002577429970000021
S26:预测;将训练好的网络参数保存,将所要预测的时间的数据和时间步长n_lag的数据生成序列,并调整维度,然后输入到已训练好LSTM网络中,得出全国28天后的新冠肺炎疫情群体态势;
S27:重复以上步骤,对全国新增确诊病例数据、新增境外输入病例、新增无症状感染者病例、新增重症病例、新增死亡病例、新增治愈病例和新增疑似病例数据分别进行LSTM网络训练参数,得出不同病例的预测模型、参数和预测结果。
4.根据权利要求1所述的基于LSTM的新冠肺炎疫情群体态势预测方法,其特征在于:所述S3具体为:
通过Python爬虫从百度新冠肺炎疫情大数据平台获取各省、自治区和直辖市新冠肺炎疫情新增确诊病例,新增死亡病例以及新增治愈病例历史数据和实时数据,并将其生成csv格式的文件;预测各省、自治区和直辖市28天后新冠肺炎疫情群体态势;
S31:将生成的csv格式的新冠肺炎疫情数据按n_lag天的数据构成数组作为输入数据,将之后28天的新冠肺炎疫情数据构成数组作为预测标签,形成预测数据集;
S32:将预测数据集按7:3比例划分为训练集和测试集;
S33:由于输入数据波动幅度较大,送入LSTM网络中训练效果不好,因此需要将数据进行归一化处理,将数据x映射x′到[0,1]之间;选取最大值max和最小值min,采用公式(7)进行归一化处理;
S34:构建LSTM网络,通过人工神经网络库Keras,利用Keras中包含的LSTM网络模块以及损失函数、层数和Dropout模块,将训练集数据输入到LSTM网络中进行训练,损失函数选取均方误差函数MSE,优化器选取Adam,通过设置迭代次数epoch、批处理大小batch_size以及时间步长n_lag,不断优化LSTM网络,并使损失函数降到最低;
S35:将测试集数据送入到训练好的LSTM网络中,采用公式(8)均方根误差RMSE来评价真实值与预测值之间的偏差,并且根据测试集得出的RMSE值继续调整LSTM网络训练参数,通过增加迭代次数、修改时间步长n_lag使测试集RMSE值降到最低时,认定此时训练模型已是最优,然后保存模型参数;
步骤6:预测;将训练好的模型参数保存,将所要预测的时间的数据和时间步长n_lag的数据生成序列,并调整维度,然后输入到已训练好LSTM网络中,得出省、自治区和直辖市28天后的新冠肺炎疫情群体态势;
步骤7:重复以上步骤,对各省、自治区和直辖市新增确诊病例,新增死亡病例以及新增治愈病例分别进行LSTM网络训练参数,得出不同病例的预测模型、参数和预测结果。
5.根据权利要求1所述的基于LSTM的新冠肺炎疫情群体态势预测方法,其特征在于:所述S4具体为:
通过Python爬虫从百度新冠肺炎疫情大数据平台获取各主要城市新冠肺炎疫情新增确诊病例,新增死亡病例以及新增治愈病例历史数据和实时数据,并将其生成csv格式的文件;预测各城市28天后的新冠肺炎疫情群体态势;
S41:将生成的csv格式的文件新冠肺炎疫情数据按n_lag天的数据构成数组作为输入数据,将之后28天的数据构成数组作为预测标签,形成预测数据集;
S42:将预测数据集按7:3比例划分为训练集和测试集;
S43:由于输入数据波动幅度较大,送入LSTM网络中训练效果不好,需要将数据进行归一化处理,将数据x映射x′到[0,1]之间;选取最大值max和最小值min,采用公式(7)进行归一化处理;
S44:构建LSTM网络,通过人工神经网络库Keras,利用Keras中包含的LSTM网络模块以及损失函数、层数和Dropout模块,将训练集数据输入到LSTM网络中进行训练,损失函数选取均方误差函数MSE,优化器选取Adam,通过设置迭代次数epoch、批处理大小batch_size以及时间步长n_lag,不断优化LSTM模型,并使损失函数降到最低;
S45:将测试集数据送入到训练好的LSTM网络中,采用公式(8)均方根误差RMSE来评价真实值与预测值之间的偏差,并且根据测试集得出的RMSE值继续调整LSTM模型训练参数,通过增加迭代次数、修改时间步长n_lag使测试集RMSE值降到最低时,认定此时训练模型已是最优,然后保存模型参数;
S46:预测;将训练好的模型参数保存,将所要预测的时间的数据和时间步长n_lag的数据生成序列,并调整维度,然后输入到已训练好LSTM模型中,得出各城市28天后的新冠肺炎疫情群体态势;
S47:重复以上步骤,对各省、自治区和直辖市新增确诊病例,新增死亡病例以及新增治愈病例分别进行LSTM网络训练参数,得出不同病例的预测模型、参数和预测结果。
CN202010657929.7A 2020-07-09 2020-07-09 基于lstm的新冠肺炎疫情群体态势预测方法 Active CN111798991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010657929.7A CN111798991B (zh) 2020-07-09 2020-07-09 基于lstm的新冠肺炎疫情群体态势预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010657929.7A CN111798991B (zh) 2020-07-09 2020-07-09 基于lstm的新冠肺炎疫情群体态势预测方法

Publications (2)

Publication Number Publication Date
CN111798991A true CN111798991A (zh) 2020-10-20
CN111798991B CN111798991B (zh) 2022-09-02

Family

ID=72811434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010657929.7A Active CN111798991B (zh) 2020-07-09 2020-07-09 基于lstm的新冠肺炎疫情群体态势预测方法

Country Status (1)

Country Link
CN (1) CN111798991B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112582074A (zh) * 2020-11-02 2021-03-30 吉林大学 基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法
CN112786189A (zh) * 2021-01-05 2021-05-11 重庆邮电大学 一种基于深度学习的新冠肺炎智能诊断系统
CN112820414A (zh) * 2021-01-29 2021-05-18 南威软件股份有限公司 基于改进的三次指数平滑模型及lstm模型在新冠疫情的预警方法
CN113192640A (zh) * 2021-05-06 2021-07-30 浙江工业大学 基于迁移学习的新冠危险阶段评估方法和系统
CN113674870A (zh) * 2021-04-15 2021-11-19 辽宁石油化工大学 基于长短期记忆网络lstm模型的新冠病毒传播预测方法
CN113707338A (zh) * 2021-10-28 2021-11-26 南方科技大学 景区疫情风险预测与限流方法、装置、设备和存储介质
CN115238053A (zh) * 2022-07-19 2022-10-25 东北大学 基于bert模型的新冠知识智能问答系统及方法
WO2024031520A1 (zh) * 2022-08-09 2024-02-15 浙江大学 一种基于生成对抗网络的人群移动预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109656918A (zh) * 2019-01-04 2019-04-19 平安科技(深圳)有限公司 流行病发病指数的预测方法、装置、设备及可读存储介质
CN109859469A (zh) * 2019-02-15 2019-06-07 重庆邮电大学 一种基于集成lstm神经网络的车流量预测方法
CN110085327A (zh) * 2019-04-01 2019-08-02 东莞理工学院 基于注意力机制的多通道lstm神经网络流感疫情预测方法
CN110750852A (zh) * 2019-08-12 2020-02-04 青岛大学 一种超级电容器的剩余使用寿命预测方法、装置及电子设备
AU2020100564A4 (en) * 2020-04-14 2020-05-21 Phan, Hung Thanh Mr CORONAVIRUS IMPACT ON THE WORLD ECONOMY PROBLEMS SOLVING: I invent the equation for solving the forecast of number of COVID-19 cases in the future so to help a country can re open the business as early as possible in the minimizes of COVID-19

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109656918A (zh) * 2019-01-04 2019-04-19 平安科技(深圳)有限公司 流行病发病指数的预测方法、装置、设备及可读存储介质
CN109859469A (zh) * 2019-02-15 2019-06-07 重庆邮电大学 一种基于集成lstm神经网络的车流量预测方法
CN110085327A (zh) * 2019-04-01 2019-08-02 东莞理工学院 基于注意力机制的多通道lstm神经网络流感疫情预测方法
CN110750852A (zh) * 2019-08-12 2020-02-04 青岛大学 一种超级电容器的剩余使用寿命预测方法、装置及电子设备
AU2020100564A4 (en) * 2020-04-14 2020-05-21 Phan, Hung Thanh Mr CORONAVIRUS IMPACT ON THE WORLD ECONOMY PROBLEMS SOLVING: I invent the equation for solving the forecast of number of COVID-19 cases in the future so to help a country can re open the business as early as possible in the minimizes of COVID-19

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
武文韬等: ""广东省新型冠状病毒肺炎疫情流行趋势的初步预测"", 《暨南大学学报(自然科学与医学版)》 *
赵行健: ""基于深度学习的新型冠状病毒肺炎疫情的动态监测研究"", 《现代商贸工业》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112582074A (zh) * 2020-11-02 2021-03-30 吉林大学 基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法
CN112582074B (zh) * 2020-11-02 2022-10-18 吉林大学 基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法
CN112786189A (zh) * 2021-01-05 2021-05-11 重庆邮电大学 一种基于深度学习的新冠肺炎智能诊断系统
CN112786189B (zh) * 2021-01-05 2022-07-01 重庆邮电大学 一种基于深度学习的新冠肺炎智能诊断系统
CN112820414A (zh) * 2021-01-29 2021-05-18 南威软件股份有限公司 基于改进的三次指数平滑模型及lstm模型在新冠疫情的预警方法
CN112820414B (zh) * 2021-01-29 2021-11-09 南威软件股份有限公司 基于改进的三次指数平滑模型及lstm模型在新冠疫情的预警方法
WO2022160370A1 (zh) * 2021-01-29 2022-08-04 南威软件股份有限公司 基于改进的三次指数平滑模型及lstm模型在新冠疫情的预警方法
CN113674870A (zh) * 2021-04-15 2021-11-19 辽宁石油化工大学 基于长短期记忆网络lstm模型的新冠病毒传播预测方法
CN113192640A (zh) * 2021-05-06 2021-07-30 浙江工业大学 基于迁移学习的新冠危险阶段评估方法和系统
CN113707338A (zh) * 2021-10-28 2021-11-26 南方科技大学 景区疫情风险预测与限流方法、装置、设备和存储介质
CN115238053A (zh) * 2022-07-19 2022-10-25 东北大学 基于bert模型的新冠知识智能问答系统及方法
WO2024031520A1 (zh) * 2022-08-09 2024-02-15 浙江大学 一种基于生成对抗网络的人群移动预测方法

Also Published As

Publication number Publication date
CN111798991B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN111798991B (zh) 基于lstm的新冠肺炎疫情群体态势预测方法
CN110334354B (zh) 一种中文关系抽取方法
CN112883714B (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
CN109787821B (zh) 一种大规模移动客户流量消费智能预测方法
CN113420868A (zh) 一种基于深度强化学习的旅行商问题求解方法及求解系统
CN112766603A (zh) 一种交通流量预测方法、系统、计算机设备及存储介质
CN113935489A (zh) 基于量子神经网络的变分量子模型tfq-vqa及其两级优化方法
Yang et al. An ensemble prediction system based on artificial neural networks and deep learning methods for deterministic and probabilistic carbon price forecasting
CN113591971A (zh) 基于dpi时间序列词嵌入向量的用户个性行为预测方法
CN116402352A (zh) 一种企业风险预测方法、装置、电子设备及介质
CN117033602A (zh) 一种多模态的用户心智感知问答模型的构建方法
Anh et al. Effect of gradient descent optimizers and dropout technique on deep learning LSTM performance in rainfall-runoff modeling
CN114154622A (zh) 交通运行体系流量数据采集缺失补全的算法模型
CN108876038A (zh) 大数据、人工智能、超算协同的材料性能预测方法
CN111524348A (zh) 一种长短期交通流预测模型及方法
CN114357166B (zh) 一种基于深度学习的文本分类方法
CN116955638A (zh) 知识图谱构建方法、装置、计算机可读介质及电子设备
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统
CN114692615A (zh) 一种针对小语种的小样本意图识别方法
Elomiya et al. Enhanced prediction of parking occupancy through fusion of adaptive neuro-fuzzy inference system and deep learning models
CN110866607B (zh) 一种基于机器学习的渗透行为预测算法
CN113887471A (zh) 基于特征解耦和交叉对比的视频时序定位方法
CN111179070A (zh) 一种基于lstm的借贷风险时效性预测系统及方法
Bi et al. Multi-indicator Water Time Series Imputation with Autoregressive Generative Adversarial Networks
Sun et al. Remote supervision relation extraction method of power safety regulations knowledge graph based on ResPCNN-ATT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant