CN110993118A - 基于集成学习模型的疫情预测方法、装置、设备及介质 - Google Patents

基于集成学习模型的疫情预测方法、装置、设备及介质 Download PDF

Info

Publication number
CN110993118A
CN110993118A CN202010132341.XA CN202010132341A CN110993118A CN 110993118 A CN110993118 A CN 110993118A CN 202010132341 A CN202010132341 A CN 202010132341A CN 110993118 A CN110993118 A CN 110993118A
Authority
CN
China
Prior art keywords
epidemic situation
model
epidemic
learning model
ensemble learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010132341.XA
Other languages
English (en)
Inventor
孟丹
李宏宇
李晓林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongdun Holdings Co Ltd
Original Assignee
Tongdun Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongdun Holdings Co Ltd filed Critical Tongdun Holdings Co Ltd
Priority to CN202010132341.XA priority Critical patent/CN110993118A/zh
Publication of CN110993118A publication Critical patent/CN110993118A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于集成学习模型的疫情预测方法,涉及疫情预测技术领域,包括以下步骤:获取疫情数据;按照时间维度处理疫情数据,得到训练集M1和验证集M2;根据训练集M1训练集成学习模型;根据训练完成的集成学习模型对验证集M2计算,得到损失值,并选择数值最小的损失值对应的集成学习模型作为预测模型,根据预测模型对疫情趋势进行预测。该方法有效避免由于数据获取的时间差造成对疫情预测结果的影响,能够准确地对未来疫情趋势进行动态预测,模型适应性强,可以根据实时疫情数据进行快速微调。本发明还公开了一种基于集成学习模型的疫情预测装置、电子设备和计算机存储介质。

Description

基于集成学习模型的疫情预测方法、装置、设备及介质
技术领域
本发明涉及疫情预测技术领域,尤其涉及一种基于集成学习模型的疫情预测方法、装置、电子设备及存储介质。
背景技术
流行病的爆发和传播引起了全社会的广泛关注,如新型冠状病毒2019-nCoV来势汹汹,当前疫情防治形式依然严峻,未来疫情的走向更是牵动着亿万群众的心。现有方案大多根据已有的疫情数据,对单一的模型进行训练,进而预测疫情趋势。但是,采用单一模型获得的预测效果往往不够理想,并且,因为疫情存在潜伏期,从感染到疑似、确诊、治愈或死亡的准确判断都存在一定的时间差,获取的疫情数据没有办法与实际情况完全吻合,同样也会影响疫情预测结果的准确性。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于集成学习模型的疫情预测方法,其通过按照时间维度处理的疫情数据,训练包括logistic生长模型和神经网络模型的集成学习模型,进一步根据损失值自动选定预测模型,进而准确地预测疫情趋势。
本发明的目的之一采用以下技术方案实现:
获取疫情数据;
按照时间维度处理所述疫情数据,得到训练集M1和验证集M2;
根据所述训练集M1训练集成学习模型;
根据训练完成的所述集成学习模型对所述验证集M2计算,得到损失值,并选择数值最小的所述损失值对应的集成学习模型作为预测模型,根据所述预测模型对疫情趋势进行预测。
进一步地,所述疫情数据包括疫情天数t0,按照时间维度处理所述疫情数据,得到训练集M1和验证集M2,包括:
基于所述疫情天数t0和预设滑窗大小n,得到时间窗段数m;
基于所述疫情天数t0和所述时间窗段数m,得到分为m段时间窗的疫情时间序列T;
T=[T0,T1,...,Ti,...,Tm-1]= [[0,1,...,n-1],[1,2,...,n],...,[(m-1)*n, (m-1)*n+1, ..., t0]];
其中,i(i=0,...,m-1)表示时间窗的段数,m是时间窗段数,Ti= [i,i+1,...,i+n-1],Ti表示第i段时间窗,n是预设滑窗大小,t0是疫情天数;
所述疫情数据按照所述疫情时间序列T进行划分,获得分为m段时间窗对应的疫情数据序列X;
X=[X0,X1,...,Xi,...,Xm-1]=[[P0,P1,...,Pn-1],[P1,P2,...,Pn],...,[P(m-1)*n,P(m-1)*n+1, ..., Pt0]];
其中,i(i=0,...,m-1)表示时间窗的段数,m是时间窗段数,n是预设滑窗大小,t0是疫情天数,Xi为第i段时间窗对应的第i段疫情数据序列,Xi=[Pi,Pi+1,...,Pi+n-1],P0表示初始疫情数据,P1、...、Pt0表示第1天到第t0天对应的疫情数据;
所述疫情数据序列X分为所述训练集M1和所述验证集M2。
进一步地,所述集成学习模型包括按照预设权重相加的logistic生长模型和神经网络模型,根据所述训练集M1训练集成学习模型,包括:
根据所述训练集M1中的疫情数据序列,训练logistic生长模型,得到训练完成的logistic生长模型;
根据所述预设滑窗大小n,得到所述神经网络模型的个数V;
根据所述训练集M1中的疫情数据序列,训练V个神经网络模型,得到训练完成的V个神经网络模型。
进一步地,根据所述训练集M1中的疫情数据序列,训练logistic生长模型,包括:
所述训练集M1中的疫情数据序列记为X^M1,所述logistic生长模型记为P(t);
Figure 573010DEST_PATH_IMAGE001
其中,t是目标预测时间,m是所述疫情数据序列X^M1包含的时间窗个数,Ti(i=0,...,m-1)表示第i段时间窗,P(i)(·)为根据疫情数据序列X^M1中第i段时间窗Ti对应的第i段疫情数据序列
Figure 552467DEST_PATH_IMAGE002
拟合得到的第i个生长模型;
根据第i段疫情数据序列
Figure 895986DEST_PATH_IMAGE002
拟合得到第i个生长模型P(i)(·),包括:
根据目标预测时间t与第i段时间窗Ti,计算得到目标间隔天数j;
采用最小二乘法对所述第i段疫情数据序列
Figure 353512DEST_PATH_IMAGE002
进行拟合,得到第i个生长模型P(i)(j)的环境容量K(i)和增长速率r(i)
Figure 230201DEST_PATH_IMAGE003
其中,j是所述目标间隔天数,K(i)是第i个生长模型的环境容量,P0 (i)是第i段疫情数据序列
Figure 114981DEST_PATH_IMAGE004
中的初始疫情数据,r(i)为第i个生长模型的增长速率。
进一步地,根据所述训练集M1中的疫情数据序列,训练V个神经网络模型,包括:
所述训练集M1中的疫情数据序列记为X^M1,所述V个神经网络模型记为f(v)(t)(v∈V);
设置所述V个神经网络模型f(v)(t)(v∈V)中单层隐藏层的神经元个数;
所述疫情数据序列X^M1中的第i(i=0,...,m-1)段疫情数据序列
Figure 945796DEST_PATH_IMAGE005
(i=0,...,m-1)、第i+1(i=0,...,m-1)段疫情数据序列
Figure 207013DEST_PATH_IMAGE006
(i=0,...,m-1)中的初始疫情数据分别作为所述V个神经网络模型f(v)(t)(v∈V)的输入值、疫情标签值,训练所述V个神经网络模型f(v)(t)(v∈V),得到训练完成的V个神经网络模型f(v)(t)(v∈V)。
进一步地,根据训练完成的所述集成学习模型对所述验证集M2计算,得到损失值,并选择数值最小的所述损失值对应的集成学习模型作为预测模型,包括:
根据所述训练完成的V个神经网络模型和损失函数对所述验证集M2中的疫情数据序列计算,得到所述损失值;
选择数值最小的所述损失值对应的神经网络模型,所述选择的神经网络模型与所述训练完成的logistic生长模型按照预设权重相加,得到预测模型。
进一步地,还包括:
获取日更新疫情数据;
根据所述日更新疫情数据,动态更新所述预测模型的参数;
基于更新后的所述预测模型,预测疫情发展趋势。
本发明的目的之二在于提供一种基于集成学习模型的疫情预测装置,其通过按照时间维度处理的疫情数据,训练包括logistic生长模型和神经网络模型的集成学习模型,进一步根据损失值自动选定预测模型,进而准确地预测疫情趋势。
本发明的目的之二采用以下技术方案实现:
一种基于集成学习模型的疫情预测装置,其包括:
数据获取模块,用于获取疫情数据;
数据处理模块,用于按照时间维度处理所述疫情数据,得到训练集M1和验证集M2;
模型训练模块,用于根据所述训练集M1训练集成学习模型;
疫情预测模块,用于根据训练完成的所述集成学习模型对所述验证集M2计算,得到损失值,并选择数值最小的所述损失值对应的集成学习模型作为预测模型,根据所述预测模型对疫情趋势进行预测。
本发明的目的之三在于提供执行发明目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时本发明目的之一的基于集成学习模型的疫情预测方法。
本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明目的之一的基于集成学习模型的疫情预测方法。
相比现有技术,本发明的有益效果在于:
本发明按照时间维度对获取到的疫情数据进行处理,有效地避免了由于数据获取的时间差造成对疫情预测结果的影响;包括logistic生长模型和神经网络模型的集成学习模型适应性强,可以根据实时疫情数据进行快速微调;根据损失值自动选定预测模型,能够准确地对未来疫情趋势进行动态预测。
附图说明
图1为本发明实施例一的基于集成学习模型的疫情预测方法流程图;
图2为本发明实施例二的集成学习模型训练流程图;
图3为本发明实施例三的预测模型0222预测结果示意图;
图4为本发明实施例三的预测模型0223预测结果示意图;
图5为本发明实施例三的预测模型0224预测结果示意图;
图6为本发明实施例五的基于集成学习模型的疫情预测装置的结构框图;
图7为本发明实施例六的电子设备的结构框图。
具体实施方式
以下将结合附图,对本发明进行更为详细的描述,需要说明的是,以下参照附图对本发明进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。
实施例一
实施例一提供了一种基于集成学习模型的疫情预测方法,旨在通过按照时间维度处理的疫情数据,训练包括logistic生长模型和神经网络模型的集成学习模型,进一步根据损失值自动选定预测模型,进而准确地预测疫情趋势。该方法有效地避免了由于数据获取的时间差造成对疫情预测结果的影响,并且采用的集成学习模型适应性强,可以根据实时疫情数据进行快速微调,使得根据损失值自适应选定的预测模型能够准确地对未来疫情趋势进行动态预测,预测结果符合实际的疫情发展趋势。
请参照图1所示,一种基于集成学习模型的疫情预测方法,包括以下步骤:
S110、获取疫情数据。
疫情数据根据用户需要预测流行病目标数据收集得到,可以是全国或各省市的累计确诊人数、累计疑似病例数、累计治愈人数或累计死亡人数,不限于上述提到的目标数据种类。本实施例中,获取湖北省的新型冠状病毒确诊人数作为疫情数据,进而通过后续对病毒传播和感染情况进行预测及动态更新,实现对新型冠状病毒感染的肺炎疫情趋势预测。
疫情数据包括但不限于初始疫情数据、疫情发生的天数以及根据实际情况统计获得的每天的疫情数据。本实施例中,疫情数据包括初始疫情数据P0、疫情天数t0和第1天到第t0天对应的疫情数据P1、...、Pt0
S120、按照时间维度处理疫情数据,得到训练集M1和验证集M2。
根据疫情天数t0,得到原始疫情时间序列[0,1,...,t0]。对原始疫情时间序列通过时间滑窗分段,时间滑窗预设步长为h,预设滑窗大小n通常设置为疫情数据所属流行病潜伏期天数的一半。随着疫情发生时间的推移,可获取的疫情数据越来越多,可以增大预设滑窗大小,有利于后续训练获得准确的预测模型。本实施例中,预设步长为1,预设滑窗大小n设置为疫情数据所属流行病潜伏期天数的一半。
疫情天数t0除以预设滑窗大小n,对计算结果向上取整,得到时间窗段数m。根据时间窗段数m,将原始疫情时间序列分为m段时间窗的疫情时间序列T。
T=[T0,T1,...,Ti,...,Tm-1]= [[0,1,...,n-1],[1,2,...,n],...,[(m-1)*n, (m-1)*n+1, ..., t0]],其中,i(i=0,...,m-1)表示时间窗的段数,m是时间窗段数,Ti= [i,i+1,...,i+n-1],Ti表示第i段时间窗,n是预设滑窗大小,t0是疫情天数。
疫情数据按照疫情时间序列T进行划分,获得分为m段时间窗对应的疫情数据序列X。
X=[X0,X1,...,Xi,...,Xm-1]=[[P0,P1,...,Pn-1],[P1,P2,...,Pn],...,[P(m-1)*n,P(m-1)*n+1, ..., Pt0]],其中,i(i=0,...,m-1)表示时间窗的段数,m是时间窗段数,n是预设滑窗大小,t0是疫情天数,Xi为第i段时间窗对应的第i段疫情数据序列,Xi=[Pi,Pi+1,...,Pi+n-1],P0表示初始疫情数据,P1、...、Pt0表示第1天到第t0天对应的疫情数据,Pi表示第i天对应的疫情数据。
按照时间维度处理得到的疫情数据序列X,用于训练集后续训练集成学习模型,得到预测模型进而预测疫情趋势,能够有效避免由于数据获取的时间差造成对疫情预测结果的影响。
将疫情数据序列X分为训练集M1和验证集M2。通常,按照时间段,选取疫情数据序列X中前50%-90%的数据作为训练集M1,其它数据作为验证集。本实施例中,在疫情数据序列X中,选取前80%数据作为训练集,20%数据作为验证集。
在本实施例中,为了方便数据计算,加快建模速率,根据相同的预设滑窗大小n,得到训练集M1和验证集M2,进而训练和验证logistic生长模型和神经网络模型。logistic生长模型和神经网络模型也可以采用根据不同的预设滑窗大小得到的训练集。
S130、根据训练集M1训练集成学习模型。
集成学习模型包括按照预设权重相加的logistic生长模型和神经网络模型,使得集成学习模型适应性强,后期可以根据实时疫情数据进行快速微调。预设权重根据用户需求设置,神经网络模型与logistic生长模型在集成学习模型中所占的权重相加等于1。
logistic生长模型,又称为Logistic增长模型,是描述有限环境条件下生物种群S-型增长的最基本和最常用的动力学模型,因其可解释性和符合疫情发展规律而广泛地应用在传染病的疫情预测领域。集成学习模型包括的logistic生长模型在传统的基础logistic生长模型做了改进,使得集成学习模型实现能够动态更新的目的。
神经网络在图像、自然语言处理等方面展示了巨大潜力。集成学习模型中包括的神经网络模型包括输入层、单层隐藏层和输出层,利用了神经网络数据抽象能力方面的优势,是一种基于时序序列的自适应神经网络。
根据预设滑窗大小n,计算得到神经网络模型的个数V。每个神经网络模型包括输入层、单层隐藏层和输出层。V个神经网络模型的输入层和输出层相同,单层隐藏层的神经元个数不同。隐藏层的神经元个数有V种不同的可能性,V个神经网络模型中的隐藏层神经元个数分别为2至
Figure 938208DEST_PATH_IMAGE007
个,每个神经网络模型对应一种可能性的隐藏层神经元个数。
根据训练集M1中的疫情数据序列,记为X^M1,分别训练logistic生长模型和V个神经网络模型,得到训练完成的logistic生长模型和训练完成的V个神经网络模型,集成学习模型训练完成。
S140、根据训练完成的集成学习模型对验证集M2计算,得到损失值,并选择数值最小的损失值对应的集成学习模型作为预测模型,根据预测模型对疫情趋势进行预测。
验证集M2中的疫情数据序列通过训练完成的V个神经网络模型计算,得到V个预测值,V个预测值通过损失函数计算得到V个损失值。损失函数为不限于L1损失函数、L2损失函数、交叉熵损失函数中的一种,本实施例中使用L2损失函数。
在V个损失值中选择数值最小的损失值,将该最小损失值对应的神经网络模型作为训练完成的最优神经网络模型。将选择的这个最优神经网络模型与训练完成的logistic生长模型按照预设权重相加,得到的集成学习模型就作为预测模型。
根据损失值自动选定的预测模型,符合实际疫情发展的规律,能够对未来疫情的动态发展趋势进行准确地预测。该方法不仅能对全国和各省市累计确诊人数、累计疑似病例数、累计治愈人数、累计死亡人数等流行病目标数据进动态预报,还能对疫情拐点进行预测,方便每日跟踪观察所关心的地点和未来几周的疫情趋势。
优选地,基于集成学习模型的疫情预测方法还包括步骤S150:获取日更新疫情数据,根据日更新疫情数据动态更新预测模型的参数,基于更新后的预测模型,预测疫情发展趋势。
当有新统计的疫情数据更新时,可以快速微调神经网络模型的模型参数,使得预测模型进行动态更新,以更好地适应疫情趋势,从而得到更准确的预测结果。
实施例二
实施例二是在实施例一基础上进行的改进,请参照图2所示,根据训练集M1中的疫情数据序列X^M1,分别训练logistic生长模型和V个神经网络模型,得到训练完成的logistic生长模型和训练完成的V个神经网络模型,进而使集成学习模型综合了logistic生长模型的符合疫情发展规律的特性,以及神经网络模型在数据抽象能力方面的优势,从而更准确地预测疫情发展趋势。
S1301、根据训练集M1中的疫情数据序列X^M1,训练logistic生长模型。
疫情存在潜伏期,从感染到疑似、确诊、治愈或死亡的准确判断都存在一定的时间差,为了避免因时间差影响疫情预测结果的准确性,基于时间窗对传统的logistic生长模型进行改进,从而更好地进行疫情趋势的预测。
logistic生长模型记为P(t),根据疫情数据序列X^M1训练logistic生长模型P(t)中每段时间窗对应的生长模型。当想要预测的目标预测时间为t时,将目标预测时间t减去第i时间窗Ti中的数值最小的时间,也就是第i时间窗Ti中的第一个时间,即,j=t-min(Ti),计算得到目标间隔天数j。将目标间隔天数j输入第i时间窗Ti对应的第i个生长模型P(i)(·),就可以从第i时间窗Ti间隔j天,预测目标预测时间t时刻的数值,进而根据logistic生长模型P(t)预测目标预测时间t时刻的数值。
Figure 557671DEST_PATH_IMAGE008
其中,t是目标预测时间,m是疫情数据序列X^M1包含的时间窗个数,Ti(i=0,...,m-1)表示第i段时间窗,P(i)(·)为根据疫情数据序列X^M1中第i段时间窗Ti对应的第i段疫情数据序列
Figure 374317DEST_PATH_IMAGE009
拟合得到的第i个生长模型;
采用最小二乘法对第i段疫情数据序列
Figure 173646DEST_PATH_IMAGE009
进行拟合,得到第i个生长模型P(i)(j)的环境容量K(i)和增长速率r(i)。环境容量K(i)疫情发展到最后,第i个生长模型P(i)(j)能达到的极限,而增长速率r(i)越大则疫情数据增长越快,越快逼近环境容量K(i)
Figure 759348DEST_PATH_IMAGE010
其中,j是目标间隔天数,K(i)是第i个生长模型的环境容量,P0 (i)是第i段疫情数据序列
Figure 752974DEST_PATH_IMAGE011
中的初始疫情数据,其值等于疫情数据序列
Figure 56916DEST_PATH_IMAGE012
中的第一个疫情数据,r(i)为第i个生长模型的增长速率。
S1302、根据预设滑窗大小n,得到神经网络模型的个数V。
根据预设滑窗大小n,计算得到神经网络模型的个数V,
Figure 394357DEST_PATH_IMAGE013
,其中,V是神经网络模型的个数,n是预设滑窗大小。
每个神经网络模型包括输入层、单层隐藏层和输出层。V个神经网络模型记为f(v)(t)(v∈V),它们的输入层和输出层相同,单层隐藏层的神经元个数不同。
隐藏层的神经元个数有V种不同数值的可能性,V个神经网络模型f(v)(t)(v∈V)中的隐藏层神经元个数分别为2至
Figure 100145DEST_PATH_IMAGE014
个,每个神经网络模型对应一种可能性的隐藏层神经元个数。
S1303、根据训练集M1中的疫情数据序列X^M1,训练V个神经网络模型。
根据预设滑窗大小n,将输入层神经元个数设置为n,输出层神经元个数为1。根据疫情数据序列X^M1训练V个神经网络模型f(v)(t)(v∈V)。将疫情数据序列X^M1中的第i(i=0,...,m-1)段疫情数据序列
Figure 61410DEST_PATH_IMAGE015
(i=0,...,m-1)作为V个神经网络模型f(v)(t)(v∈V)的输入值,第i+1(i=0,...,m-1)段疫情数据序列
Figure 852648DEST_PATH_IMAGE016
(i=0,...,m-1)中的初始疫情数据作为V个神经网络模型f(v)(t)(v∈V)的疫情标签值,训练V个神经网络模型f(v)(t)(v∈V),得到训练完成的V个神经网络模型f(v)(t)(v∈V)。
基于时间窗疫情数据训练训练获得的V个神经网络模型f(v)(t)(v∈V),是一种基于时序序列的神经网络模型,用以通过计算验证集的预测值,获得每个神经网络模型的损失值,进而根据损失值自动选择最优的神经网络模型,这样自适应选择出的神经网络模型符合实际疫情发展规律,有利于准确地预测未来疫情发展。
S1303在步骤S1302之后进行,步骤S1302和步骤S1301可以同时开始,也可以不同时开始。本实施例中,步骤S1302和步骤S1301同时开始,以加快模型训练速度。
集成学习模型训练完成,后续根据损失值从训练完成的V个神经网络模型中,选定最优的神经网络模型,并与logistic生长模型按照预设的权重相加,就可以得到预测模型,能够准确地对未来疫情趋势进行动态预测,并且支持根据实时疫情数据进行快速微调,适应性强。
实施例三
实施例三是对应上述实施例一的具体应用实施例,本实施例采用2020年2月1日至2020年2月22日的2019nCov全国累计确诊人数,获得预测模型0222并对2020年2月25日至2020年3月2日的疫情发展趋势进行预测。2020年2月1日至2月22日的2019nCov全国累计确诊人数具体见下表。
表1、2020年2月1日至2020年2月22日的2019nCov全国累计确诊人数
日期 全国累计确诊人数
2月1日 11891
2月2日 14490
2月3日 17341
2月4日 20530
2月5日 24434
2月6日 28138
2月7日 31264
2月8日 34673
2月9日 37289
2月10日 40262
2月11日 42747
2月12日 44765
2月13日 59907
2月14日 63950
2月15日 66581
2月16日 68595
2月17日 70644
2月18日 72532
2月19日 74284
2月20日 74680
2月21日 75571
2月22日 76396
2月23日 77048
2月24日 77269
分别采用2020年2月23日、2020年2月24日的2019nCov全国累计确诊人数对预测模型0222进行动态更新,获得预测模型0223和预测模型0224,并分别对2020年2月25日至2020年3月2日的疫情发展趋势进行预测。预测模型0222、预测模型0223和预测模型0224的预测结果如图3、图4、图5所示。采用2020年2月25日至2020年2月26日的疫情数据,分别对预测模型0222、预测模型0223和预测模型0224的预测结果进行验证。
经过实验,本发明的可行性较高。从2020年2月25日至2020年2月26日的验证情况来看,预测模型0222、预测模型0223和预测模型0224均能准确地预测疫情发展,并且可以看出通过增加2月23日、2月24日的日更新疫情数据,对预测模型0222进行动态更新,能更好地适应疫情趋势,得到更准确的预测结果。
实施例四
实施例四是对应上述实施例一的具体应用实施例,本实施例采用全国(除湖北省外)以及疫情重点关注的省市2020年2月1日至2月23日的疫情数据,对各省市2月24日至2月27日累计确诊人数进行预测,如表2所示。
经过实验,本发明的可行性较高。从2月24日至2月26日的真实数据与预测值来看,全国(除湖北省外)大部分地区、沿海省市如广东省、浙江省、江苏省、上海市等地在2月下旬基本能够趋于平稳,预测结果与实际情况相符。
表2 、对各省市2月24日至2月27日累计确诊人数的预测结果
Figure 993779DEST_PATH_IMAGE017
实施例五
实施例五公开了一种对应上述实施例的一种基于集成学习模型的疫情预测装置,为上述实施例的虚拟装置结构,请参照图6所示,包括:
数据获取模块210,用于获取疫情数据;
数据处理模块220,用于按照时间维度处理所述疫情数据,得到训练集M1和验证集M2;
模型训练模块230,用于根据所述训练集M1训练集成学习模型;
疫情预测模块240,用于根据训练完成的所述集成学习模型对所述验证集M2计算,得到损失值,并选择数值最小的所述损失值对应的集成学习模型作为预测模型,根据所述预测模型对疫情趋势进行预测。
优选地,该装置还包括模型更新模块250,用于获取日更新疫情数据;根据所述日更新疫情数据,动态更新所述预测模型的参数;基于更新后的所述预测模型,预测疫情发展趋势。
实施例六
图7为本发明实施例六提供的一种电子设备的结构示意图,如图7所示,该电子设备包括处理器310、存储器320、输入装置330和输出装置340;计算机设备中处理器310的数量可以是一个或多个,图7中以一个处理器310为例;电子设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于集成学习模型的疫情预测方法对应的程序指令/模块(例如,基于集成学习模型的疫情预测装置中的数据获取模块210、数据处理模块220、模型训练模块230和疫情预测模块240)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述实施例一至实施例四的基于集成学习模型的疫情预测方法。
存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可用于接收疫情数据、日更新疫情数据等。输出装置340可包括显示屏等显示设备。
实施例七
本发明实施例七还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行基于集成学习模型的疫情预测方法,该方法包括:
获取疫情数据;
按照时间维度处理所述疫情数据,得到训练集M1和验证集M2;
根据所述训练集M1训练集成学习模型;
根据训练完成的所述集成学习模型对所述验证集M2计算,得到损失值,并选择数值最小的所述损失值对应的集成学习模型作为预测模型,根据所述预测模型对疫情趋势进行预测。
优选地,该方法还包括:
获取日更新疫情数据;
根据所述日更新疫情数据,动态更新所述预测模型的参数;
基于更新后的所述预测模型,预测疫情发展趋势。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于集成学习模型的疫情预测方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(RandomAccess Memory, RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述基于集成学习模型的疫情预测装置实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (10)

1.一种基于集成学习模型的疫情预测方法,其特征在于:包括以下步骤:
获取疫情数据;
按照时间维度处理所述疫情数据,得到训练集M1和验证集M2;
根据所述训练集M1训练集成学习模型;
根据训练完成的所述集成学习模型对所述验证集M2计算,得到损失值,并选择数值最小的所述损失值对应的集成学习模型作为预测模型,根据所述预测模型对疫情趋势进行预测。
2.如权利要求1所述的一种基于集成学习模型的疫情预测方法,其特征在于:所述疫情数据包括疫情天数t0,按照时间维度处理所述疫情数据,得到训练集M1和验证集M2,包括:
基于所述疫情天数t0和预设滑窗大小n,计算得到时间窗段数m;
基于所述疫情天数t0和所述时间窗段数m,得到分为m段时间窗的疫情时间序列T;
T=[T0,T1,...,Ti,...,Tm-1]= [[0,1,...,n-1],[1,2,...,n],...,[(m-1)*n, (m-1)*n+1, ..., t0]];
其中,i(i=0,...,m-1)表示时间窗的段数,m是时间窗段数,Ti= [i,i+1,...,i+n-1],Ti表示第i段时间窗,n是预设滑窗大小,t0是疫情天数;
所述疫情数据按照所述疫情时间序列T进行划分,获得分为m段时间窗对应的疫情数据序列X;
X=[X0,X1,...,Xi,...,Xm-1]=[[P0,P1,...,Pn-1],[P1,P2,...,Pn],...,[P(m-1)*n,P(m-1)*n+1, ..., Pt0]];
其中,i(i=0,...,m-1)表示时间窗的段数,m是时间窗段数,n是预设滑窗大小,t0是疫情天数,Xi为第i段时间窗对应的第i段疫情数据序列,Xi=[Pi,Pi+1,...,Pi+n-1],P0表示初始疫情数据,P1、...、Pt0表示第1天到第t0天对应的疫情数据;
所述疫情数据序列X分为所述训练集M1和所述验证集M2。
3.如权利要求2所述的一种基于集成学习模型的疫情预测方法,其特征在于:所述集成学习模型包括按照预设权重相加的logistic生长模型和神经网络模型,根据所述训练集M1训练集成学习模型,包括:
根据所述训练集M1中的疫情数据序列,训练logistic生长模型,得到训练完成的logistic生长模型;
根据所述预设滑窗大小n,得到所述神经网络模型的个数V;
根据所述训练集M1中的疫情数据序列,训练V个神经网络模型,得到训练完成的V个神经网络模型。
4.如权利要求3所述的一种基于集成学习模型的疫情预测方法,其特征在于:根据所述训练集M1中的疫情数据序列,训练logistic生长模型,包括:
所述训练集M1中的疫情数据序列记为X^M1,所述logistic生长模型记为P(t);
Figure 249142DEST_PATH_IMAGE001
其中,t是目标预测时间,m是所述疫情数据序列X^M1包含的时间窗个数,Ti(i=0,...,m-1)表示第i段时间窗,P(i)(·)为根据疫情数据序列X^M1中第i段时间窗Ti对应的第i段疫情数据序列
Figure 730064DEST_PATH_IMAGE002
拟合得到的第i个生长模型;
根据第i段疫情数据序列
Figure 572118DEST_PATH_IMAGE002
拟合得到第i个生长模型P(i)(·),包括:
根据目标预测时间t与第i段时间窗Ti,计算得到目标间隔天数j;
采用最小二乘法对所述第i段疫情数据序列
Figure 29644DEST_PATH_IMAGE002
进行拟合,得到第i个生长模型P(i)(j)的环境容量K(i)和增长速率r(i)
Figure 906333DEST_PATH_IMAGE003
其中,j是所述目标间隔天数,K(i)是第i个生长模型的环境容量,P0 (i)是第i段疫情数据序列
Figure 304296DEST_PATH_IMAGE002
中的初始疫情数据,r(i)为第i个生长模型的增长速率。
5.如权利要求3所述的一种基于集成学习模型的疫情预测方法,其特征在于:根据所述训练集M1中的疫情数据序列,训练V个神经网络模型,包括:
所述训练集M1中的疫情数据序列记为X^M1,所述V个神经网络模型记为f(v)(t)(v∈V);
设置所述V个神经网络模型f(v)(t)(v∈V)中单层隐藏层的神经元个数;
所述疫情数据序列X^M1中的第i(i=0,...,m-1)段疫情数据序列
Figure 633647DEST_PATH_IMAGE004
(i=0,...,m-1)、第i+1(i=0,...,m-1)段疫情数据序列
Figure 894864DEST_PATH_IMAGE005
(i=0,...,m-1)中的初始疫情数据分别作为所述V个神经网络模型f(v)(t)(v∈V)的输入值、疫情标签值,训练所述V个神经网络模型f(v)(t)(v∈V),得到训练完成的V个神经网络模型f(v)(t)(v∈V)。
6.如权利要求3所述的一种基于集成学习模型的疫情预测方法,其特征在于:根据训练完成的所述集成学习模型对所述验证集M2计算,得到损失值,并选择数值最小的所述损失值对应的集成学习模型作为预测模型,包括:
根据所述训练完成的V个神经网络模型和损失函数对所述验证集M2中的疫情数据序列计算,得到所述损失值;
选择数值最小的所述损失值对应的神经网络模型,所述选择的神经网络模型与所述训练完成的logistic生长模型按照预设权重相加,得到预测模型。
7.如权利要求1至6任一项所述的一种基于集成学习模型的疫情预测方法,其特征在于:还包括:
获取日更新疫情数据;
根据所述日更新疫情数据,动态更新所述预测模型的参数;
基于更新后的所述预测模型,预测疫情发展趋势。
8.一种基于集成学习模型的疫情预测装置,其特征在于,其包括:
数据获取模块,用于获取疫情数据;
数据处理模块,用于按照时间维度处理所述疫情数据,得到训练集M1和验证集M2;
模型训练模块,用于根据所述训练集M1训练集成学习模型;
疫情预测模块,用于根据训练完成的所述集成学习模型对所述验证集M2计算,得到损失值,并选择数值最小的所述损失值对应的集成学习模型作为预测模型,根据所述预测模型对疫情趋势进行预测。
9.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时执行权利要求1至7任一项所述的基于集成学习模型的疫情预测方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于集成学习模型的疫情预测方法。
CN202010132341.XA 2020-02-29 2020-02-29 基于集成学习模型的疫情预测方法、装置、设备及介质 Pending CN110993118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010132341.XA CN110993118A (zh) 2020-02-29 2020-02-29 基于集成学习模型的疫情预测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010132341.XA CN110993118A (zh) 2020-02-29 2020-02-29 基于集成学习模型的疫情预测方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN110993118A true CN110993118A (zh) 2020-04-10

Family

ID=70081537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010132341.XA Pending CN110993118A (zh) 2020-02-29 2020-02-29 基于集成学习模型的疫情预测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110993118A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524610A (zh) * 2020-04-24 2020-08-11 南方科技大学 预测传染病的确诊人数的方法、装置、设备和存储介质
CN111598328A (zh) * 2020-05-14 2020-08-28 国网河北省电力有限公司电力科学研究院 一种计及疫情事件的电力负荷预测方法
CN111599485A (zh) * 2020-05-26 2020-08-28 中南林业科技大学 传染病传播规律的预测方法、装置、设备及存储介质
CN111695048A (zh) * 2020-05-09 2020-09-22 珠海中科先进技术研究院有限公司 疫情溯源方法及介质
CN111739656A (zh) * 2020-07-17 2020-10-02 医渡云(北京)技术有限公司 基于无症状感染者预测传染病趋势的方法及装置
CN112164471A (zh) * 2020-09-17 2021-01-01 吉林大学 基于分类回归模型的新冠疫情综合评估方法
CN112652403A (zh) * 2020-12-25 2021-04-13 中国科学技术大学 疫情预测方法及装置
CN113380420A (zh) * 2020-10-13 2021-09-10 深圳云天励飞技术股份有限公司 一种疫情预测方法、装置、电子设备及存储介质
CN113707328A (zh) * 2020-05-20 2021-11-26 阿里巴巴集团控股有限公司 数据处理方法、装置及计算设备
CN113764106A (zh) * 2020-06-04 2021-12-07 深圳云天励飞技术有限公司 疫情防控效果预测方法及相关产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991506A (zh) * 2017-05-16 2017-07-28 深圳先进技术研究院 智能终端及其基于lstm的股票趋势预测方法
CN107168255A (zh) * 2017-05-16 2017-09-15 浙江工业大学 一种基于集成神经网络的聚丙烯熔融指数混合建模方法
CN108182634A (zh) * 2018-01-31 2018-06-19 国信优易数据有限公司 一种借贷预测模型的训练方法、借贷预测方法和装置
CN110136842A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 急性传染病的发病预测方法、装置及计算机可读存储介质
CN110659759A (zh) * 2018-06-29 2020-01-07 微软技术许可有限责任公司 基于神经网络的趋势预测

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991506A (zh) * 2017-05-16 2017-07-28 深圳先进技术研究院 智能终端及其基于lstm的股票趋势预测方法
CN107168255A (zh) * 2017-05-16 2017-09-15 浙江工业大学 一种基于集成神经网络的聚丙烯熔融指数混合建模方法
CN108182634A (zh) * 2018-01-31 2018-06-19 国信优易数据有限公司 一种借贷预测模型的训练方法、借贷预测方法和装置
CN110659759A (zh) * 2018-06-29 2020-01-07 微软技术许可有限责任公司 基于神经网络的趋势预测
CN110136842A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 急性传染病的发病预测方法、装置及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
蔡艳宁等: "《复杂系统支持向量机建模与故障预报》", 30 April 2015, 国防工业出版社 *
赵斌: "《生物数学简史》", 30 September 2015, 中国科学技术出版社 *
陈敏: "《认知计算导论》", 30 April 2017, 华中科技大学出版社 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524610A (zh) * 2020-04-24 2020-08-11 南方科技大学 预测传染病的确诊人数的方法、装置、设备和存储介质
CN111524610B (zh) * 2020-04-24 2022-10-21 南方科技大学 预测传染病的确诊人数的方法、装置、设备和存储介质
CN111695048B (zh) * 2020-05-09 2023-06-02 珠海中科先进技术研究院有限公司 疫情溯源方法及介质
CN111695048A (zh) * 2020-05-09 2020-09-22 珠海中科先进技术研究院有限公司 疫情溯源方法及介质
CN111598328A (zh) * 2020-05-14 2020-08-28 国网河北省电力有限公司电力科学研究院 一种计及疫情事件的电力负荷预测方法
CN113707328A (zh) * 2020-05-20 2021-11-26 阿里巴巴集团控股有限公司 数据处理方法、装置及计算设备
CN111599485A (zh) * 2020-05-26 2020-08-28 中南林业科技大学 传染病传播规律的预测方法、装置、设备及存储介质
CN113764106A (zh) * 2020-06-04 2021-12-07 深圳云天励飞技术有限公司 疫情防控效果预测方法及相关产品
CN113764106B (zh) * 2020-06-04 2024-06-07 深圳云天励飞技术有限公司 疫情防控效果预测方法及相关产品
CN111739656A (zh) * 2020-07-17 2020-10-02 医渡云(北京)技术有限公司 基于无症状感染者预测传染病趋势的方法及装置
CN112164471A (zh) * 2020-09-17 2021-01-01 吉林大学 基于分类回归模型的新冠疫情综合评估方法
CN112164471B (zh) * 2020-09-17 2022-05-24 吉林大学 基于分类回归模型的新冠疫情综合评估方法
CN113380420A (zh) * 2020-10-13 2021-09-10 深圳云天励飞技术股份有限公司 一种疫情预测方法、装置、电子设备及存储介质
CN113380420B (zh) * 2020-10-13 2023-10-17 深圳云天励飞技术股份有限公司 一种疫情预测方法、装置、电子设备及存储介质
CN112652403A (zh) * 2020-12-25 2021-04-13 中国科学技术大学 疫情预测方法及装置
CN112652403B (zh) * 2020-12-25 2023-07-14 中国科学技术大学 疫情预测方法及装置

Similar Documents

Publication Publication Date Title
CN110993118A (zh) 基于集成学习模型的疫情预测方法、装置、设备及介质
CN110298501B (zh) 基于长短时记忆神经网络的电负荷预测方法
CN109002904B (zh) 一种基于Prophet-ARMA的医院门诊就诊量预测方法
CN110858973B (zh) 小区网络流量预测方法及装置
WO2021004324A1 (zh) 资源数据的处理方法、装置、计算机设备和存储介质
CN112381673B (zh) 一种基于数字孪生的园区用电信息分析方法及装置
WO2017071369A1 (zh) 一种预测用户离网的方法和设备
CN106296434B (zh) 一种基于pso-lssvm算法的粮食产量预测方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN112884222A (zh) 一种面向时间段的lstm交通流密度预测方法
CN113161004A (zh) 一种疫情预测系统及方法
CN114925891A (zh) 基于小波分析与混合模型的用水量趋势预测方法和系统
CN109214610B (zh) 一种基于长短期记忆神经网络的饱和电力负荷预测方法
CN115018119A (zh) 用电负荷预测方法及系统
CN110322055A (zh) 一种提高数据风险模型评分稳定性的方法和系统
CN110009161A (zh) 供水预测方法及装置
CN110007371A (zh) 风速预测方法及装置
CN110740063B (zh) 基于信号分解和周期特性的网络流量特征指标预测方法
CN117787585A (zh) 一种数据驱动的充电桩数量的预测方法、装置
CN108134687B (zh) 一种基于马尔可夫链的灰色模型局域网峰值流量预测方法
CN115809346A (zh) 一种基于多视图语义增强的小样本知识图谱补全方法
WO2022222230A1 (zh) 基于机器学习的指标预测方法、装置、设备及存储介质
CN114154415A (zh) 设备寿命的预测方法及装置
CN113723660A (zh) 一种基于dnn-lstm融合模型的特定行为类型预测方法及系统
Diunugala et al. Modeling and predicting foreign tourist arrivals to Sri Lanka: A comparison of three different methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200410