CN113161004B - 一种疫情预测系统及方法 - Google Patents
一种疫情预测系统及方法 Download PDFInfo
- Publication number
- CN113161004B CN113161004B CN202010678069.5A CN202010678069A CN113161004B CN 113161004 B CN113161004 B CN 113161004B CN 202010678069 A CN202010678069 A CN 202010678069A CN 113161004 B CN113161004 B CN 113161004B
- Authority
- CN
- China
- Prior art keywords
- target area
- prediction
- data
- accumulated
- epidemic situation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000011161 development Methods 0.000 claims abstract description 32
- 238000010276 construction Methods 0.000 claims abstract description 25
- 208000015181 infectious disease Diseases 0.000 claims description 321
- 230000008859 change Effects 0.000 claims description 214
- 230000034994 death Effects 0.000 claims description 127
- 231100000517 death Toxicity 0.000 claims description 127
- 230000001186 cumulative effect Effects 0.000 claims description 100
- 239000011159 matrix material Substances 0.000 claims description 42
- 230000012010 growth Effects 0.000 claims description 33
- 238000011156 evaluation Methods 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 20
- 238000003745 diagnosis Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 11
- 230000005012 migration Effects 0.000 claims description 9
- 238000013508 migration Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 6
- 230000036962 time dependent Effects 0.000 claims description 6
- 238000004138 cluster model Methods 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 description 50
- 238000010586 diagram Methods 0.000 description 31
- 238000004458 analytical method Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 10
- 238000009826 distribution Methods 0.000 description 9
- 239000012678 infectious agent Substances 0.000 description 7
- 230000007774 longterm Effects 0.000 description 7
- 230000002354 daily effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000002458 infectious effect Effects 0.000 description 5
- 241001272567 Hominoidea Species 0.000 description 4
- 230000035876 healing Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 3
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 208000025721 COVID-19 Diseases 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005354 coacervation Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011534 incubation Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100074187 Caenorhabditis elegans lag-1 gene Proteins 0.000 description 1
- 101100510615 Caenorhabditis elegans lag-2 gene Proteins 0.000 description 1
- 206010051379 Systemic Inflammatory Response Syndrome Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及数据处理技术领域,尤其涉及一种疫情预测系统及方法,数据获取模块,用于从各个客户端获取目标区域的上一周期的疫情原始数据和与疫情相关的业务数据;数据构建模块,用于根据疫情原始数据,获得目标区域的上一周期的疫情特征数据,疫情特征数据用于表征目标区域的上一周期的疫情发展程度的信息;预测模块,用于将疫情原始数据、业务数据和疫情特征数据,输入已训练的预测模型,获得目标区域的下一周期的疫情预测结果,这样,结合疫情原始数据和业务数据对疫情进行预测,能够实现对疫情的预测,并提高疫情预测的准确度。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种疫情预测系统及方法。
背景技术
如果不对疫情作出有效的管控措施,会给整个社会造成很大的影响,因此,如何实现对疫情的预测,成为了一个亟待解决的问题。
现有技术中,可以通过SEIR模型对疫情进行预测,但是SEIR模型使用的是固定的参数值,并且SEIR模型中将死亡病例和治愈病例归为一类,而疫情传播性高、存在明显潜伏期和病死率变化等特点,因此,现有技术中的这种方法预测疫情时,得到的疫情预测结果不够准确。
发明内容
本申请实施例提供一种疫情预测系统及方法,以提高疫情预测的准确性。
本申请实施例提供的具体技术方案如下:
一种疫情预测系统,包括:
数据获取模块,用于从各个客户端获取目标区域的上一周期的疫情原始数据和与疫情相关的业务数据;
数据构建模块,用于根据所述疫情原始数据,获得所述目标区域的上一周期的疫情特征数据,所述疫情特征数据用于表征所述目标区域的上一周期的疫情发展程度的信息;
预测模块,用于将所述疫情原始数据、所述业务数据和所述疫情特征数据,输入已训练的预测模型,获得所述目标区域的下一周期的疫情预测结果,其中,所述预测模型为根据所述目标区域的一定时间段内至少一个采样周期的疫情原始数据样本集和业务数据样本集进行迭代训练获得的,所述疫情原始数据样本集中包括各个采样周期的疫情原始数据样本,所述业务数据样本集中包括所述目标区域各个采样周期的业务数据样本。
可选的,所述疫情原始数据包括截止上一周期结束现有感染人数、实际累计死亡人数和实际累计治愈人数,所述业务数据至少包括人口数据,则所述预测模块具体用于:
基于已训练的第一预测模型,以所述现有感染人数、所述实际累计死亡人数、所述实际累计治愈人数和所述人口数据为输入参数,分别确定所述目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
可选的,确定所述目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数时,所述预测模块具体用于:
根据所述现有感染人数、所述实际累计治愈人数和所述实际累计死亡人数,拟合获得现有易感人数、感染人数变化率、感染治愈人数变化率、死亡人数变化率、现有暴露人数、转化确诊人数变化率和暴露治愈人数变化率;
根据所述现有易感人数、所述感染人数变化率、所述人口数据和所述现有感染人数,确定现有易感人数变化率,其中,所述现有易感人数变化率表征所述现有易感人数随时间变化的变化率;
根据所述现有暴露人数、所述感染人数变化率、所述现有易感人数、所述现有感染人数、所述人口数据、所述转化确诊人数变化率和所述暴露治愈人数变化率,确定现有暴露人数变化率,其中,所述现有暴露人数变化率表征所述现有暴露人数随时间变化的变化率;
根据所述现有暴露人数、所述现有感染人数、所述转化确诊人数变化率、所述感染治愈人数变化率和所述死亡人数变化率,确定现有感染人数变化率,其中,所述现有感染人数变化率表征所述现有感染人数随时间变化的变化率;
根据所述暴露治愈人数变化率、所述现有暴露人数、所述感染治愈人数变化率和所述现有感染人数,确定累计治愈人数变化率,其中,所述累计治愈人数变化率表征所述累计治愈人数随时间变化的变化率;
通过确定所述死亡人数变化率和所述现有感染人数之间的乘积,获得累计死亡人数变化率,其中,所述累计死亡人数变化率表征所述累计死亡人数随时间变化的变化率;
根据所述现有易感人数变化率、所述现有暴露人数变化率、所述现有感染人数变化率、所述累计治愈人数变化率、所述累计死亡人数变化率、所述现有累计易感人数、所述现有累计暴露人数、所述现有累计感染人数、所述实际累计治愈人数和所述实际累计死亡人数,分别确定所述目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
可选的,所述第一预测模型为SEIRD模型。
可选的,若所述目标区域为多个,则所述疫情原始数据至少包括各个目标区域的上一周期的实际累计感染人数、实际累计治愈人数和实际累计死亡人数,所述业务数据至少包括所述各个目标区域的人口数据、医疗资源数据和地理位置数据;
则所述预测模块具体用于:
基于已训练的第二预测模型,以所述各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、人口数据、医疗资源数据和地理位置数据为输入参数,分别确定所述各个目标区域的下一周期的累计感染人数。
可选的,确定所述各个目标区域的下一周期的累计感染人数时,所述预测模块具体用于:
根据所述各个目标区域的地理位置数据,分别确定所述各个目标区域与其它目标区域之间的距离;
根据确定出的各个距离和预设的距离衰减参数,确定所述各个目标区域的空间权重矩阵;
分别将所述各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、医疗资源数据和人口数据作为自变量参数,生成对应的自变量矩阵;
根据所述空间权重矩阵,分别确定所述各个目标区域对应的自变量矩阵中各个自变量参数的回归系数,其中,所述回归系数用于使各个目标区域的误差平方和最小;
分别根据所述各个目标区域对应的自变量矩阵、对应的自变量矩阵中各个自变量参数的回归系数、所述各个目标区域的截距参数,分别确定所述各个目标区域的下一周期的累计感染人数。
可选的,所述第二预测模型为地理加权回归GWR模型。
可选的,所述疫情原始数据至少包括疫情中心区域的实际累计感染人数,所述业务数据至少包括疫情中心区域人口数据、从所述疫情中心区域迁入到所述目标区域的实际迁入人口数据;
则所述数据构建模块具体用于:
根据所述疫情中心区域的实际累计感染人数、所述疫情中心区域人口数据和所述实际迁入人口数据,确定所述目标区域的实际累计迁入预感染人数,其中,所述实际累计迁入预感染人数表征所述实际迁入人口数据中为感染者的预测人数。
可选的,所述疫情原始数据还包括所述目标区域的实际累计感染人数,则所述预测模块具体用于:
基于已训练的第三预测模型,以所述实际累计迁入预感染人数和所述目标区域的实际累计感染人数为输入参数,通过所述第三预测模型的输入层将所述实际累计迁入预感染人数和所述目标区域的实际累计感染人数,发送给所述第三预测模型的隐藏层,通过所述隐藏层确定所述目标区域的下一周期的累计感染人数对应的向量表示,通过所述第三预测模型的全连接层对累计感染人数对应的向量表示进行维度转换,并通过所述第三预测模型的输出层输出所述目标区域的下一周期的累计感染人数。
可选的,所述第三预测模型为长短期记忆网络LSTM模型。
可选的,若所述目标区域为多个,则所述疫情原始数据至少包括各个目标区域的实际累计感染人数、实际累计治愈人数和实际累计死亡人数,所述业务数据至少包括各个目标区域的人口数据;
则所述数据构建模块具体用于:
分别通过确定所述各个目标区域的实际累计感染人数和所述人口数据之间的比值,获得所述各个目标区域的感染率;
分别通过确定所述各个目标区域的实际累计治愈人数与实际累计感染人数之间的比值,确定所述各个目标区域的治愈率;
分别通过确定所述各个目标区域的实际累计死亡人数与实际累计感染人数之间的比值,获得所述各个目标区域的死亡率。
可选的,所述业务数据还包括所述各个目标区域的医疗资源数据;
则所述疫情预测系统还包括:
聚类模块,用于基于已训练的聚类模型,以所述各个目标区域的感染率、死亡率、治愈率和医疗资源数据为输入参数,对所述各个目标区域的疫情进行聚类分析,获得聚类后的各个类,并分别确定聚类获得的各个类的疫情严重程度类别。
可选的,所述聚类模块具体用于:
将当前获得的各个类中两两类进行预合并,根据各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别计算预合并后的类内部的距离值相对于对应预合并前的两个类内部的距离值之和的增加值,将最小的距离值增加值对应的预合并后的类,以及其它非最小的距离值增加值对应的预合并前的类,作为下一次获得的各个类,直至获得预设数目的类,将获得的预设数目的类作为最终聚类的各个类,其中,初始时获得的各个类为将每个目标区域作为一个类确定的;
根据聚类获得的各个类中的各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别确定所述各个类的疫情严重程度类别。
可选的,根据聚类获得的各个类中的各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别确定所述各个类的疫情严重程度类别时,所述聚类模块具体用于:
分别针对所述各个类,若确定一个类中的各个目标区域对应的平均死亡率、平均感染率均大于等于预设第一比率阈值,并平均医疗资源数据小于等于预设第一医疗资源阈值,则确定对应类的疫情严重程度类别为疫情高严重程度、医疗资源紧张;
分别针对所述各个类,若确定一个类中的各个目标区域对应的平均死亡率、平均感染率均小于预设第二比率阈值,并平均医疗资源数据小于等于预设第二医疗资源阈值,则确定对应类的疫情严重程度类别为疫情低严重程度、医疗资源紧张;
分别针对所述各个类,若确定一个类中的各个目标区域对应的平均死亡率小于预设第三比率阈值,并平均治愈率大于等于预设治愈率阈值,则确定对应类的疫情严重程度类别为疫情低严重程度、高治愈率。
可选的,所述聚类模型为层次法聚类模型。
可选的,所述疫情预测系统还包括:
模型评价模块,用于将下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定所述第一预测模型的第一预测误差,其中,所述下一周期的累计感染人数为根据所述下一周期的现有累计感染人数、累计治愈人数和累计死亡人数确定出的;或/和
模型评价模块,用于将所述第二预测模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定所述第二预测模型的第二预测误差;或/和
所述模型评价模块,用于将所述第三预测模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定所述第三预测模型的第三预测误差。
可选的,所述模型评价模块具体用于:
根据所述第一预测误差和所述第二预测误差,从所述第一预测模型和所述第二预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测;或,
根据所述第一预测误差和所述第三预测误差,从所述第一预测模型和所述第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测;或,
根据所述第二预测误差和所述第三预测误差,从所述第二预测模型和所述第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测;或,
根据所述第一预测误差、所述第二预测误差和所述第三预测误差,从所述第一预测模型、所述第二预测模型和所述第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测。
可选的,所述疫情预测系统还包括:
展示模块,用于通过预设展示方式将所述目标区域的疫情预测结果进行展示;
所述展示模块还用于:通过预设展示方式,展示所述目标区域的预设周期对应的治愈率和死亡率;
所述展示模块还用于:通过预设展示方式,展示所述目标区域的预设周期对应的迁入人口数据;
所述展示模块还用于:通过预设展示方式,分别展示所述第一预测误差、所述第二预测误差和所述第三预测误差。
可选的,所述疫情原始数据至少包括各个目标区域的截止当前周期结束实际累计感染人数、实际累计治愈人数和实际累计死亡人数,以及截止上一周期结束实际累计感染人数、实际累计治愈人数和实际累计死亡人数;
则所述数据构建模块具体用于:
根据确定所述各个目标区域的截止当前周期结束实际累计感染人数和截止上一周期结束实际累计感染人数之间的差值,获得所述各个目标区域的新增感染人数;
根据确定所述各个目标区域的截止当前周期结束实际累计治愈人数和截止上一周期结束实际累计治愈人数之间的差值,获得所述各个目标区域的新增治愈人数;
根据确定所述各个目标区域的截止当前周期结束实际累计死亡人数和截止上一周期结束实际累计治愈人数之间的差值,获得所述各个目标区域的新增死亡人数;
通过确定所述各个目标区域的新增感染人数和累计感染人数之间的比值,分别获得所述各个目标区域对应的感染增长率;
通过确定所述各个目标区域的新增治愈人数和累计治愈人数之间的比值,分别获得所述各个目标区域对应的治愈增长率;
通过确定所述各个目标区域的新增死亡人数和累计死亡人数,分别获得所述各个目标区域对应的死亡增长率;
则所述展示模块还用于:
通过预设展示方式,分别展示所述各个目标区域的累计感染人数、累计治愈人数、累计死亡人数、感染增长率、治愈增长率和死亡增长率。
一种疫情预测方法,包括:
从各个客户端获取目标区域的上一周期的疫情原始数据和与疫情相关的业务数据;
根据所述疫情原始数据,获得所述目标区域的上一周期的疫情特征数据,所述疫情特征数据用于表征所述目标区域的上一周期的疫情发展程度的信息;
预测模块,用于将所述疫情原始数据、所述业务数据和所述疫情特征数据,输入已训练的预测模型,获得所述目标区域的下一周期的疫情预测结果,其中,所述预测模型为根据所述目标区域的一定时间段内至少一个采样周期的疫情原始数据样本集和业务数据样本集进行迭代训练获得的,所述疫情原始数据样本集中包括各个采样周期的疫情原始数据样本,所述业务数据样本集中包括所述目标区域各个采样周期的业务数据样本;
将所述预测模型确定出的下一周期的疫情预测结果与实际获取到的下一周期的疫情预测结果进行比对,确定所述预测模型的预测误差;
通过预设展示方式将所述目标区域的疫情预测结果和/或预测模型的预测误差进行展示。
若所述预测模型为第一预测模型、第二预测模型、第三预测模型,则将所述预测模型确定出的下一周期的疫情预测结果与实际获取到的下一周期的疫情预测结果进行比对,确定所述预测模型的预测误差,具体包括:
根据所述第一预测误差和所述第二预测误差,从所述第一预测模型和所述第二预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测;或,
根据所述第一预测误差和所述第三预测误差,从所述第一预测模型和所述第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测;或,
根据所述第二预测误差和所述第三预测误差,从所述第二预测模型和所述第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测;或,
根据所述第一预测误差、所述第二预测误差和所述第三预测误差,从所述第一预测模型、所述第二预测模型和所述第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测。
可选的,所述疫情原始数据包括截止上一周期结束现有感染人数、实际累计死亡人数和实际累计治愈人数,所述业务数据至少包括人口数据,则将所述疫情原始数据、所述业务数据和所述疫情特征数据,输入已训练的预测模型,获得所述目标区域的下一周期的疫情预测结果,具体包括:
基于已训练的第一预测模型,以所述现有感染人数、所述实际累计死亡人数、所述实际累计治愈人数和所述人口数据为输入参数,分别确定所述目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
可选的,确定所述目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数,具体包括:
根据所述现有感染人数、所述实际累计治愈人数和所述实际累计死亡人数,拟合获得现有易感人数、感染人数变化率、感染治愈人数变化率、死亡人数变化率、现有暴露人数、转化确诊人数变化率和暴露治愈人数变化率;
根据所述现有易感人数、所述感染人数变化率、所述人口数据和所述现有感染人数,确定现有易感人数变化率,其中,所述现有易感人数变化率表征所述现有易感人数随时间变化的变化率;
根据所述现有暴露人数、所述感染人数变化率、所述现有易感人数、所述现有感染人数、所述人口数据、所述转化确诊人数变化率和所述暴露治愈人数变化率,确定现有暴露人数变化率,其中,所述现有暴露人数变化率表征所述现有暴露人数随时间变化的变化率;
根据所述现有暴露人数、所述现有感染人数、所述转化确诊人数变化率、所述感染治愈人数变化率和所述死亡人数变化率,确定现有感染人数变化率,其中,所述现有感染人数变化率表征所述现有感染人数随时间变化的变化率;
根据所述暴露治愈人数变化率、所述现有暴露人数、所述感染治愈人数变化率和所述现有感染人数,确定累计治愈人数变化率,其中,所述累计治愈人数变化率表征所述累计治愈人数随时间变化的变化率;
通过确定所述死亡人数变化率和所述现有感染人数之间的乘积,获得累计死亡人数变化率,其中,所述累计死亡人数变化率表征所述累计死亡人数随时间变化的变化率;
根据所述现有易感人数变化率、所述现有暴露人数变化率、所述现有感染人数变化率、所述累计治愈人数变化率、所述累计死亡人数变化率、所述现有累计易感人数、所述现有累计暴露人数、所述现有累计感染人数、所述实际累计治愈人数和所述实际累计死亡人数,分别确定所述目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
可选的,所述第一预测模型为SEIRD模型。
可选的,若所述目标区域为多个,则所述疫情原始数据至少包括各个目标区域的上一周期的实际累计感染人数、实际累计治愈人数和实际累计死亡人数,所述业务数据至少包括所述各个目标区域的人口数据、医疗资源数据和地理位置数据;
则将所述疫情原始数据、所述业务数据和所述疫情特征数据,输入已训练的预测模型,获得所述目标区域的下一周期的疫情预测结果,具体包括:
基于已训练的第二预测模型,以所述各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、人口数据、医疗资源数据和地理位置数据为输入参数,分别确定所述各个目标区域的下一周期的累计感染人数。
可选的,确定所述各个目标区域的下一周期的累计感染人数时,具体包括:
根据所述各个目标区域的地理位置数据,分别确定所述各个目标区域与其它目标区域之间的距离;
根据确定出的各个距离和预设的距离衰减参数,确定所述各个目标区域的空间权重矩阵;
分别将所述各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、医疗资源数据和人口数据作为自变量参数,生成对应的自变量矩阵;
根据所述空间权重矩阵,分别确定所述各个目标区域对应的自变量矩阵中各个自变量参数的回归系数,其中,所述回归系数用于使各个目标区域的误差平方和最小;
分别根据所述各个目标区域对应的自变量矩阵、对应的自变量矩阵中各个自变量参数的回归系数、所述各个目标区域的截距参数,分别确定所述各个目标区域的下一周期的累计感染人数。
可选的,所述第二预测模型为地理加权回归GWR模型。
可选的,所述疫情原始数据至少包括疫情中心区域的实际累计感染人数,所述业务数据至少包括疫情中心区域人口数据、从所述疫情中心区域迁入到所述目标区域的实际迁入人口数据;
则根据所述疫情原始数据,获得所述目标区域的上一周期的疫情特征数据,具体包括:
根据所述疫情中心区域的实际累计感染人数、所述疫情中心区域人口数据和所述实际迁入人口数据,确定所述目标区域的实际累计迁入预感染人数,其中,所述实际累计迁入预感染人数表征所述实际迁入人口数据中为感染者的预测人数。
可选的,所述疫情原始数据还包括所述目标区域的实际累计感染人数,则将所述疫情原始数据、所述业务数据和所述疫情特征数据,输入已训练的预测模型,获得所述目标区域的下一周期的疫情预测结果,具体包括:
基于已训练的第三预测模型,以所述实际累计迁入预感染人数和所述目标区域的实际累计感染人数为输入参数,通过所述第三预测模型的输入层将所述实际累计迁入预感染人数和所述目标区域的实际累计感染人数,发送给所述第三预测模型的隐藏层,通过所述隐藏层确定所述目标区域的下一周期的累计感染人数对应的向量表示,通过所述第三预测模型的全连接层对累计感染人数对应的向量表示进行维度转换,并通过所述第三预测模型的输出层输出所述目标区域的下一周期的累计感染人数。
可选的,所述第三预测模型为长短期记忆网络LSTM模型。
可选的,若所述目标区域为多个,则所述疫情原始数据至少包括各个目标区域的实际累计感染人数、实际累计治愈人数和实际累计死亡人数,所述业务数据至少包括各个目标区域的人口数据;
则根据所述疫情原始数据,获得所述目标区域的上一周期的疫情特征数据,具体包括:
分别通过确定所述各个目标区域的实际累计感染人数和所述人口数据之间的比值,获得所述各个目标区域的感染率;
分别通过确定所述各个目标区域的实际累计治愈人数与实际累计感染人数之间的比值,确定所述各个目标区域的治愈率;
分别通过确定所述各个目标区域的实际累计死亡人数与实际累计感染人数之间的比值,获得所述各个目标区域的死亡率。
可选的,所述业务数据至少包括所述各个目标区域的医疗资源数据,则进一步包括:
基于已训练的聚类模型,以所述各个目标区域的感染率、死亡率、治愈率和医疗资源数据为输入参数,对所述各个目标区域的疫情进行聚类分析,获得聚类后的各个类,并分别确定聚类获得的各个类的疫情严重程度类别。
可选的,基于已训练的聚类模型,以所述各个目标区域的感染率、死亡率、治愈率和医疗资源数据为输入参数,对所述各个目标区域的疫情进行聚类分析,获得聚类后的各个类,并分别确定聚类获得的各个类的疫情严重程度类别,具体包括:
将当前获得的各个类中两两类进行预合并,根据各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别计算预合并后的类内部的距离值相对于对应预合并前的两个类内部的距离值之和的增加值,将最小的距离值增加值对应的预合并后的类,以及其它非最小的距离值增加值对应的预合并前的类,作为下一次获得的各个类,直至获得预设数目的类,将获得的预设数目的类作为最终聚类的各个类,其中,初始时获得的各个类为将每个目标区域作为一个类确定的;
根据聚类获得的各个类中的各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别确定所述各个类的疫情严重程度类别。
可选的,根据聚类获得的各个类中的各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别确定所述各个类的疫情严重程度类别时,具体包括:
分别针对所述各个类,若确定一个类中的各个目标区域对应的平均死亡率、平均感染率均大于等于预设第一比率阈值,并平均医疗资源数据小于等于预设第一医疗资源阈值,则确定对应类的疫情严重程度类别为疫情高严重程度、医疗资源紧张;
分别针对所述各个类,若确定一个类中的各个目标区域对应的平均死亡率、平均感染率均小于预设第二比率阈值,并平均医疗资源数据小于等于预设第二医疗资源阈值,则确定对应类的疫情严重程度类别为疫情低严重程度、医疗资源紧张;
分别针对所述各个类,若确定一个类中的各个目标区域对应的平均死亡率小于预设第三比率阈值,并平均治愈率大于等于预设治愈率阈值,则确定对应类的疫情严重程度类别为疫情低严重程度、高治愈率。
可选的,所述聚类模型为层次法聚类模型。
可选的,将所述预测模型确定出的下一周期的疫情预测结果与实际获取到的下一周期的疫情预测结果进行比对,确定所述预测模型的预测误差,具体包括:
将所述第一预测模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定所述第一预测模型的第一预测误差;或/和
将所述第二预测模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定所述第二预测模型的第二预测误差;或/和
将所述第三预测模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定所述第三预测模型的第三预测误差。
可选的,通过预设展示方式将所述目标区域的疫情预测结果进行展示时,具体包括:通过预设展示方式,展示所述目标区域的预设周期对应的治愈率和死亡率;
或,通过预设展示方式将所述目标区域的疫情预测结果进行展示时,具体包括:通过预设展示方式,展示所述目标区域的预设周期对应的迁入人口数据;
或,通过预设展示方式将所述目标区域的疫情预测结果进行展示时,具体包括:通过预设展示方式,分别展示所述第一预测误差、所述第二预测误差和所述第三预测误差。
可选的,所述疫情原始数据至少包括各个目标区域的截止当前周期结束实际累计感染人数、实际累计治愈人数和实际累计死亡人数,以及截止上一周期结束实际累计感染人数、实际累计治愈人数和实际累计死亡人数;
则根据所述疫情原始数据,获得所述目标区域的上一周期的疫情特征数据,具体包括:
根据确定所述各个目标区域的截止当前周期结束实际累计感染人数和截止上一周期结束实际累计感染人数之间的差值,获得所述各个目标区域的新增感染人数;
根据确定所述各个目标区域的截止当前周期结束实际累计治愈人数和截止上一周期结束实际累计治愈人数之间的差值,获得所述各个目标区域的新增治愈人数;
根据确定所述各个目标区域的截止当前周期结束实际累计死亡人数和截止上一周期结束实际累计治愈人数之间的差值,获得所述各个目标区域的新增死亡人数;
通过确定所述各个目标区域的新增感染人数和累计感染人数之间的比值,分别获得所述各个目标区域对应的感染增长率;
通过确定所述各个目标区域的新增治愈人数和累计治愈人数之间的比值,分别获得所述各个目标区域对应的治愈增长率;
通过确定所述各个目标区域的新增死亡人数和累计死亡人数,分别获得所述各个目标区域对应的死亡增长率;
则通过预设展示方式将所述目标区域的疫情预测结果进行展示时,具体包括:
通过预设展示方式,分别展示所述各个目标区域的累计感染人数、累计治愈人数、累计死亡人数、感染增长率、治愈增长率和死亡增长率。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述疫情预测方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述疫情预测方法的步骤。
本申请实施例中,数据获取模块,用于从各个客户端获取目标区域的上一周期的疫情原始数据和与疫情相关的业务数据,数据构建模块,用于根据疫情原始数据,获得目标区域的上一周期的疫情特征数据,疫情特征数据用于表征目标区域的上一周期的疫情发展程度的信息,预测模块,用于将疫情原始数据、业务数据和疫情特征数据,输入已训练的预测模型,获得目标区域的下一周期的疫情预测结果,这样,通过数据获取模块和数据构建模块获得疫情原始数据、业务数据和疫情特征数据,并通过预测模块对疫情进行预测,能够实现对疫情的预测,以使相关工作人员根据疫情预测的结果对疫情作出有效的管控措施,并且,由于疫情具有传播性高、存在明显潜伏期和病死率变化幅度大等特点,因此,通过数据构建模块能够有效提取出疫情的疫情特征数据,进而再通过预测模块实现对疫情的预测,能够针对疫情的特点,对疫情进行预测,提高了疫情预测的准确度。
附图说明
图1为本申请实施例中一种疫情预测系统的结构图;
图2为本申请实施例中SEIRD模型人群变化示意图;
图3为本申请实施例中基于SEIRD模型预测疫情的流程图;
图4为本申请实施例中SEIRD模型长期疫情预测效果图;
图5为本申请实施例中SEIRD模型疫情预测效果图;
图6为本申请实施例中SEIRD模型实时累计感染人数模拟效果图;
图7为本申请实施例中不同参数下的SEIRD模型预测效果图;
图8为本申请实施例中基于GWR模型预测疫情的流程图;
图9为本申请实施例中回归系数的空间分布展示图;
图10为本申请实施例中LSTM模型预测的流程图;
图11为本申请实施例中LSTM模型神经元的结构示意图;
图12为本申请实施例中LSTM模型的结构示意图;
图13为本申请实施例中对某年2月3日的疫情预测效果图;
图14为本申请实施例中对某年2月14日的疫情预测效果图;
图15为本申请实施例中的聚类模型的流程图;
图16为本申请实施例中疫情高严重程度且医疗资源紧张的分类效果图;
图17为本申请实施例中疫情低严重程度且医疗资源紧张的效分类效果图;
图18为本申请实施例中疫情低严重程度且高治愈率的分类效果图;
图19为本申请实施例中疫情发展情况监控大屏的效果示意图;
图20为本申请实施例中另一种疫情预测系统的结构示意图;
图21为本申请实施例中一种疫情预测方法的流程图;
图22为本申请实施例中电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如果不能及时对疫情作出有效的管控措施,会给整个社会造成很大的影响,因此,提前预测疫情的发展趋势,能够给相关工作人员在对疫情作出有效的管控措施时提供有效的信息,因此,如何实现对疫情的预测,成为了一个亟待解决的问题。
现有技术中,可以通过SEIR模型对疫情进行预测,但是SEIR模型使用的是固定的参数值,并且SEIR模型中将死亡人数和治愈人数都归为治愈人数中,而由于疫情具有传播性高、存在明显潜伏期,病死率变化幅度大等特点,因此,通过现有技术中的这种方法在预测疫情时,得到的疫情预测结果不够准确。
本申请实施例中,提供了一种疫情预测系统,数据获取模块,用于从各个客户端获取目标区域的上一周期的疫情原始数据和与疫情相关的业务数据,数据构建模块,用于根据疫情原始数据,获得目标区域的上一周期的疫情特征数据,预测模块,用于将疫情原始数据、业务数据和疫情特征数据,输入已训练的预测模型,获得目标区域的下一周期的疫情预测结果,这样,通过数据获取模块和数据构建模块,能够获得疫情原始数据和与疫情相关的业务数据,并获得疫情特征数据,进而通过预测模块对疫情进行预测,能够实现对疫情的预测,并且,根据疫情原始数据,获得目标区域的上一周期的疫情特征数据,能够针对疫情的传播性高、存在明显潜伏期和病死率变化幅度大的特点,对疫情进行预测,提高了疫情预测的准确度,以使工作人员根据疫情预测结果对疫情作出有效的管控措施。
基于上述实施例,参阅图1所示,为本申请实施例中一种疫情预测系统的结构图,具体包括:
1、数据获取模块:用于从各个客户端获取目标区域的上一周期的疫情原始数据和与疫情相关的业务数据。
具体地,数据获取模块用于通过预设方式从各个客户端获取目标区域的上一周期的疫情原始数据和目标区域的与疫情相关的业务数据,还可以用于获取疫情中心的疫情原始数据和业务数据,本申请实施例中对此并不进行限制。
其中,目标区域为进行疫情预测的区域,例如,对A市进行疫情预测时,则将A市作为目标区域。
本申请实施例中,疫情原始数据表征与疫情直接有关的数据,例如可以为截止上一周期结束各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、现有感染人数、疫情中心区域的实际累计感染人数等。
业务数据表征与疫情相关的其它数据,例如可以为各个目标区域的医疗资源数据、人口数据、地理位置数据、从疫情中心区域迁入到目标区域的实际迁入人口数据,本申请实施例中对疫情原始数据和业务数据,并不进行限制。
其中,实际迁入人口数据可以通过百度迁徙网上项目获得,人口数据和医疗资源数据可以通过国家统计局出版的《城市统计年鉴》获得,本申请实施例中对业务数据的获得方式并不进行限制。
进一步地,在获取到各个目标区域的疫情原始数据和业务数据之后,还可以构建疫情数据库,并将获取到的各个目标区域的疫情原始数据和业务数据实时存储到疫情数据库中。
2、数据构建模块:用于根据疫情原始数据,获得目标区域的上一周期的疫情特征数据。
其中,疫情特征数据用于表征目标区域的上一周期的疫情发展程度的信息。
本申请实施例中,在获得目标区域的疫情原始数据之后,通过数据构建模块,获得疫情原始数据的疫情特征数据,例如,针对疫情,若疫情中心区域为A市,目标区域为B市,则在获取到A市的实际累计感染人数、人口数据,B市的实际迁入人口数据之后,根据A市的实际累计感染人数和人口数据,B市的实际迁入人口数据,确定B市的实际累计迁入预感染人数,本申请实施例中对此并不进行限制。
3、预测模块:用于将疫情原始数据、业务数据和疫情特征数据,输入已训练的预测模型,获得目标区域的下一周期的疫情预测结果。
其中,预测模型为根据目标区域的一定时间段内至少一个采样周期的疫情原始数据样本集和业务数据样本集进行迭代训练获得的,疫情原始数据样本集中包括各个采样周期的疫情原始数据样本,业务数据样本集中包括目标区域各个采样周期的业务数据样本。
本申请实施例中,在获得疫情特征数据之后,可以将目标区域的疫情原始数据、业务数据和疫情特征数据,输入已训练的预测模型,对目标区域的疫情进行预测,获得目标区域的下一周期的疫情预测结果。
其中,在对目标区域的疫情进行预测时,例如,可以通过SEIRD模型、长短期记忆网络(Long Short-Term Memory,LSTM)模型或地理加权回归(Geographically WeightedRegression,GWR)模型对疫情进行预测,本申请实施例中对此并不进行限制。
其中,S为易感(Susceptible)、E为暴露(Exposed)、I为感染(Infected)、R为治愈(Recovered)、D为死亡(Dead)。
下面分别以第一预测模型、第二预测模型和第三预测模型为例,对本申请实施例中的疫情预测进行详细阐述。
第一种模型:第一预测模型。
若疫情原始数据包括截止上一周期结束现有感染人数、实际累计死亡人数和实际累计治愈人数,业务数据至少包括人口数据,进而通过预测模块能够实现对目标区域的疫情进行预测,则本申请实施例中,预测模块具体用于:
基于已训练的第一预测模型,以现有感染人数、实际累计治愈人数、实际累计死亡人数和人口数据为输入参数,分别确定目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
其中,现有易感人数表征截止到上一周期结束处于易感状态人群的人数,易感者表征有一定几率转化为感染者或暴露者的人群,由于疫情的感染者和暴露者都具备传播病毒的能力,因此,易感者在接触到感染状态的感染者或暴露状态的暴露者之后,有一定的几率转化为感染者或暴露者。
本申请实施例中,将目标区域的上一周期的现有感染人数、实际累计治愈人数、实际累计死亡人数和人口数据,输入到已训练的第一预测模型中,输出目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
本申请实施例中,第一预测模型例如可以是SEIRD模型,目前,常见的动力学模型可以按照疾病的类型可分为SI、SIR、SIRS、SEIR模型,现有技术中,对于疫情的预测,通常是通过SEIR模型进行拟合,但是,SEIR模型最明显的缺点是使用固定的参数值,且将死亡人数和治愈人数都归为治愈人数,对于疫情具有传播性高、存在明显潜伏期以及病死率变化幅度大的特点,本申请实施例中,使用到的是SEIRD模型,SEIRD模型为流行病动力学模型,是一类基本数学模型,可以根据疫情的发生、传播以及有关的社会因素,来分析疫情的传播途径、空间范围、传播速度等问题,并且,还可以通过对疫情状况进行拟合,预测疫情发展趋势、揭示疫情流行规律,对疫情的防控手段有指导作用,并且,本申请实施例中的SEIRD模型,针对疫情的特点,考虑到感染人数,以及由感染者转化为治愈者的人数的变化,对输入参数进行适应性调节,能够使得SEIRD模型拟合效果更好,可以更精准的对疫情的发展趋势进行预测。
其中,参阅图2所示,为本申请实施例中SEIRD模型人群变化示意图,本申请实施例中的SEIRD模型中涉及到易感者(S)、暴露者(E)、感染者(I)、治愈者(R)和死亡者(D),这五类人群的变化如图2所示。
本申请实施例中,在确定目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数时,预测模块具体用于:
S1:根据现有感染人数、实际累计治愈人数和实际累计死亡人数,拟合获得现有易感人数、感染人数变化率、感染治愈人数变化率、死亡人数变化率、现有暴露人数、转化确诊人数变化率和暴露治愈人数变化率。
S2:根据现有易感人数、感染人数变化率、人口数据和现有感染人数,确定现有易感人数变化率。
其中,现有易感人数变化率表征现有易感人数随时间变化的变化率。
S3:根据现有暴露人数、感染人数变化率、现有易感人数、现有感染人数、人口数据、转化确诊人数变化率和暴露治愈人数变化率,确定现有暴露人数变化率。
其中,现有暴露人数变化率表征现有暴露人数随时间变化的变化率。
S4:根据现有暴露人数、现有感染人数、转化确诊人数变化率、感染治愈人数变化率和死亡人数变化率,确定现有感染人数变化率。
其中,现有感染人数变化率表征现有感染人数随时间变化的变化率。
S5:根据暴露治愈人数变化率、现有暴露人数、感染治愈人数变化率和现有感染人数,确定累计治愈人数变化率。
其中,累计治愈变化率表征累计治愈人数随时间变化的变化率。
并且,本申请实施例中的累积治愈人数与现有治愈人数是相同的。
S6:通过确定死亡人数变化率和现有感染人数之间的乘积,获得累计死亡人数变化率。
其中,累计死亡人数变化率表征累计死亡人数随时间变化的变化率。
并且,本申请实施例中的累积死亡人数与现有死亡人数是相同的。
进一步地,本申请实施例中,以疫情为例,在疫情的中后期,受到政府政策的积极影响,且救治手段逐渐增多,每日新增的感染人数明显降低,因此,在确定感染人数变化率时,设置了衰减因子,进而根据现有感染人数和设置的衰减因子,确定感染人数变化率,这样,能够实现对预测的现有感染人数曲线相对更好的拟合效果,从而提高预测的准确性。
其中,感染人数变化率表征感染人数随时间变化的变化率。
并且,为预测的累计治愈人数设置一个膨胀因子,进而根据现有感染人数、实际累计治愈人数和膨胀因子,确定感染治愈人数变化率。
其中,感染治愈人数变化率表征由感染者转化为治愈者的人数的变化率。
S7:根据现有易感人数变化率、现有暴露人数变化率、现有感染人数变化率、累计治愈人数变化率、累计死亡人数变化率、现有易感人数、现有暴露人数、现有感染人数、实际累计治愈人数和实际累计死亡人数,分别确定目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
本申请实施例中,执行步骤S7时,具体包括:
A1:根据现有易感人数变化率和现有易感人数,确定下一周期的现有易感人数。
A2:根据现有暴露人数变化率和现有暴露人数,确定下一周期的现有暴露人数。
A3:根据现有感染人数变化率和现有感染人数,确定下一周期的现有感染人数。
A4:根据累计治愈人数变化率和实际累计治愈人数,确定下一周期的累计治愈人数。
A5:根据累计死亡人数变化率和实际累计死亡人数,确定下一周期的累计死亡人数。
第二种模型:第二预测模型。
若目标区域为多个,则疫情原始数据至少包括各个目标区域的上一周期的实际累计感染人数、实际累计治愈人数和实际累计死亡人数,业务数据至少包括各个目标区域的人口数据、医疗资源数据和地理位置数据,则预测模块具体用于:
基于已训练的第二预测模型,以各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、人口数据、医疗资源数据和地理位置数据为输入参数,分别确定各个目标区域的下一周期的累计感染人数。
其中,地理位置数据表征目标区域的地理位置坐标,医疗资源数据可以包括每万人医院数全市、每万人医师数全市、每万人床位数全市等,本申请实施例中对此并不进行限制。
本申请实施例中,第二预测模型可以为GWR模型,GWR模型在线性回归模型基础上加入了空间分析,通过建立每个点的局部回归方程,研究空间尺度的驱动因素,并可以用于预测,由于考虑了局部效应,因此比线性回归提高了精度。
本申请实施例中,在确定各个目标区域的下一周期的累计感染人数时,具体包括:
S1:根据各个目标区域的地理位置数据,分别确定各个目标区域与其它目标区域之间的距离。
S2:根据确定出的各个距离和预设的距离衰减参数,确定各个目标区域的空间权重矩阵。
S3:分别将各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、医疗资源数据和人口数据作为自变量参数,生成对应的自变量矩阵。
S4:根据空间权重矩阵,分别确定各个目标区域对应的自变量矩阵中各个自变量参数的回归系数。
其中,回归系数用于使各个目标区域的误差平方和最小。
S5:分别根据各个目标区域对应的自变量矩阵、对应的自变量矩阵中各个自变量参数的回归系数、各个目标区域的截距参数,分别确定各个目标区域的下一周期的累计感染人数。
第三种模型:第三预测模型。
若疫情原始数据至少包括疫情中心区域的实际累计感染人数,业务数据包括疫情中心区域人口数据、从疫情中心区域迁入到目标区域的实际迁入人口数据,则数据构建模块具体用于:
根据疫情中心区域的实际累计感染人数、疫情中心区域人口数据和实际迁入人口数据,确定目标区域的实际累计迁入预感染人数。
其中,实际累计迁入预感染人数表征实际迁入人口数据中为感染者的预测人数。
在确定输入到第三预测模型的数据之后,若疫情原始数据还包括目标区域的实际累计感染人数,则预测模块具体用于:
基于已训练的第三预测模型,以实际累计迁入预感染人数和目标区域的实际累计感染人数为输入参数,通过第三预测模型的输入层将实际累计迁入预感染人数和目标区域的实际累计感染人数,发送给第三预测模型的隐藏层,通过隐藏层确定目标区域的下一周期的累计感染人数对应的向量表示,通过第三预测模型的全连接层对累计感染人数对应的向量表示进行维度转换,并通过第三预测模型的输出层输出目标区域的下一周期的累计感染人数。
本申请实施例中,由于疫情很大程度上受到疫情中心,即B市的迁出人口数据的影响,因此,本申请实施例中的第三预测模型不仅将疫情原始数据作为输入参数,还增加了目标区域的实际迁入人口数据,并根据目标区域的实际迁入人口数据、疫情中心区域的实际累计感染人数和疫情中心区域人口数据,确定输入到第三预测模型中的其中一个特征,即目标区域的数据累计迁入预感染人数。
其中,第三预测模型可以为LSTM模型,传统的神经网络模型只在层与层之间建立权连接,而循环神经网络(Recurrent Neural Network,RNN)在层之间的神经元也建立权连接,LSTM是RNN神经网络的变体,可以处理长期依赖信息,能够解决RNN梯度消失的问题。
本申请实施例中,通过上述三种不同类型的预测模型,能够实现对疫情的预测,并提高疫情预测的准确度。
进一步地,本申请实施例中,疫情预测系统还包括模型评价模块,具体用于:
将第一预测模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定第一预测模型的第一预测误差。
模型评价模块,还具体用于:将第二预测模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定第二预测模型的第二预测误差。
其中,下一周期的累计感染人数为根据下一周期的现有累计感染人数、累计治愈人数和累计死亡人数确定出的。
模型评价模块,还具体用于:将第三预测模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定第三预测模型的第三预测误差。
本申请实施例中,模型评价模块可单独对每一个预测模型进行预测误差分析,也可以将第一预测模型、第二预测模型和第三预测模型进行随机组合,并进行预测误差分析,例如,分别对每一个预测模型的预测误差进行计算,又例如,同时对第一预测模型和第二预测模型的预测误差进行计算。
本申请实施例中,通过第一预测模型、第二预测模型和第三预测模型分别对疫情发展进行预测分析后,分别整合各自对应的预测结果以及预测误差,进而进行各个预测模型间的效果对比,各个预测模型间的模型评价主要是通过绝对百分比误差(AbsolutePercentage Error,APE)进行多样分析来获得的,由于APE通常并不符合正态分布,因此本申请实施例中采用非参数检验,例如,首先使用Kruskal-Wallis方差分析法分别对第一预测模型、第二预测模型和第三预测模型的APE进行整体比较,然后进一步作两两比较,即,将第一预测模型与第二预测模型进行比较,将第一预测模型与第三预测模型进行比较,将第二预测模型与第三预测模型进行比较,可以使用或不使用Bonferroni法校正p值,然后用成组的Wilcoxon法或Mann-Whitney法进行检验。
其中,对于预测日期和目标区域都相同的预测模型,可以采用Wilcoxon法或Mann-Whitney法进行检验,对于预测日期和目标区域有所不同的预测模型,可以采用成组的Wilcoxon对误差率的绝对值主要进行单边检测,然后用p值是否小于0.05来判断比较的两种预测模型的预测结果是否有显著性差异,从而判断是否应该拒绝原假设,来达到预测模型间预测效果横向比较的目的,其中,原假设可以通过比较不同模型的平均绝对百分比误差(Mean Absolute Percent Error,MAPE)来确定。
其中,p值用于判断比较的两种预测模型的预测结果之间是否有显著性差异。
在获取到每个预测模型的效果评价之后,还可以根据每个预测模型的评价效果,从预测模型中选择预测误差最小的预测模型作为最优的预测模型,则模型评价模块具体用于:
根据所述第一预测误差和所述第二预测误差,从第一预测模型和第二预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于最优预测模型用于疫情预测。
模型评价模块还用于:根据第一预测误差和第三预测误差,从第一预测模型和第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于最优预测模型用于疫情预测。
模型评价模块还用于:根据第二预测误差和第三预测误差,从第二预测模型和第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于最优预测模型用于疫情预测。
模型评价模块还用于:根据第一预测误差、第二预测误差和第三预测误差,从第一预测模型、第二预测模型和第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于最优预测模型用于疫情预测。
本申请实施例中,在选取最优预测模型用于疫情预测时,若预测模型的数量为2个时,则从2个预测模型中选取预测误差最小的模型作为最优预测模型,若预测模型的数量为3个时,则从这个3个预测模型中选取预测误差最小的模型作为最优预测模型,本申请实施例中,对预测模型的数量,并不进行限制。
本申请实施例中,在每一阶段疫情预测之后,根据实际发展数据对每一个地区计算出预测误差、实际和预测增长率等来对预测效果进行分析和对比。之后整合各种模型的历史预测效果综合比较,选取最优预测模型的预测作为最终预测,这样,不断迭代更新预测使用到的预测模型,能够使用预测误差最小的预测模型实现对疫情的预测,从而能够提高疫情预测的准确度。
进一步地,本申请实施例中,当业务数据还包括各个目标区域的医疗资源数据时,则疫情预测系统还包括:
聚类模块,用于基于已训练的聚类模型,以各个目标区域的感染率、死亡率、治愈率和医疗资源数据为输入参数,对各个目标区域的疫情进行聚类分析,获得聚类后的各个类,并分别确定聚类获得的各个类的疫情严重程度类别。
本申请实施例中,在获得聚类后的各个类时,聚类模块具体用于:
S1:将当前获得的各个类中两两类进行预合并,根据各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别计算预合并后的类内部的距离值相对于对应预合并前的两个类内部的距离值之和的增加值,将最小的距离值增加值对应的预合并后的类,以及其它非最小的距离值增加值对应的预合并前的类,作为下一次获得的各个类,直至获得预设数目的类,将获得的预设数目的类作为最终聚类的各个类。
其中,初始时获得的各个类为将每个目标区域作为一个类确定的。
S2:根据聚类获得的各个类中的各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别确定各个类的疫情严重程度类别。
本申请实施例中,在执行步骤S2时,根据聚类获得的各个类中的各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别确定各个类的疫情严重程度类别时,聚类模块具体用于:
A1:分别针对各个类,若确定一个类中的各个目标区域对应的平均死亡率、平均感染率均大于等于预设第一比率阈值,并平均医疗资源数据小于等于预设第一医疗资源阈值,则确定对应类的疫情严重程度类别为疫情高严重程度、医疗资源紧张。
A2:分别针对各个类,若确定一个类中的各个目标区域对应的平均死亡率、平均感染率均小于预设第二比率阈值,并平均医疗资源数据小于等于预设第二医疗资源阈值,则确定对应类的疫情严重程度类别为疫情低严重程度、医疗资源紧张。
A3:分别针对各个类,若确定一个类中的各个目标区域对应的平均死亡率小于预设第三比率阈值,并平均治愈率大于等于预设治愈率阈值,则确定对应类的疫情严重程度类别为疫情低严重程度、高治愈率。
进一步地,本申请实施例中,疫情预测系统还包括展示模块,用于通过预设展示方式将目标区域的疫情预测结果进行展示。
展示模块还用于:通过预设展示方式,展示目标区域的预设周期对应的治愈率和死亡率。
展示模块还用于:通过预设展示方式,展示目标区域的预设周期对应的迁入人口数据。
展示模块还用于:通过预设展示方式,分别展示第一预测误差、第二预测误差和第三预测误差。
当疫情原始数据至少包括各个目标区域的截止当前周期结束实际累计感染人数、实际累计治愈人数和实际累计死亡人数,以及截止上一周期结束实际累计感染人数、实际累计治愈人数和实际累计死亡人数时,则数据构建模块具体用于:
S1:根据确定各个目标区域的截止当前周期结束实际累计感染人数和截止上一周期结束实际累计感染人数之间的差值,获得各个目标区域的新增感染人数。
S2:根据确定各个目标区域的截止当前周期结束实际累计治愈人数和截止上一周期结束实际累计治愈人数之间的差值,获得各个目标区域的新增治愈人数。
S3:根据确定各个目标区域的截止当前周期结束实际累计死亡人数和截止上一周期结束实际累计治愈人数之间的差值,获得各个目标区域的新增死亡人数。
S4:通过确定各个目标区域的新增感染人数和累计感染人数之间的比值,分别获得各个目标区域对应的感染增长率。
S5:通过确定各个目标区域的新增治愈人数和累计治愈人数之间的比值,分别获得各个目标区域对应的治愈增长率。
S6:通过确定各个目标区域的新增死亡人数和累计死亡人数,分别获得各个目标区域对应的死亡增长率。
当计算出各个目标区域的感染增长率、治愈增长率和死亡增长率之后,还可以对上述的感染增长率、治愈增长率和死亡增长率进行展示,则展示模块还用于:通过预设展示方式,分别展示各个目标区域的累计感染人数、累计治愈人数、累计死亡人数、感染增长率、治愈增长率和死亡增长率。
本申请实施例中,可以通过展示模块对疫情分析和预测系统进行多样化的结果进行展示,可以通过预设展示方式对疫情每日发展动态进行展示,例如,可以通过动态BI大屏呈现疫情每日的发展状况,对模型各自预测结果采取表格和静态图片相结合的方式,对于模型横向评价部分采取表格的形式。
进一步地,本申请实施例中,在对各个预测模型进行分析对比或对预测模型预测效果横向对比后,可以通过预设方式对疫情动态、分析效果和预测效果进行展示,例如,可以采用文字描述、图像、表格、商业智能(Business Intelligence,BI)大屏等方式来对疫情动态、分析效果和预测效果进行多样化的展示,又例如,对模型各自预测结果采取表格和静态图片相结合的方式,对于模型横向评价部分采取表格的形式,本申请实施例中对此并不进行限制。
本申请实施例中,数据获取模块用于获取疫情原始数据和业务数据,数据构建模块用于根据疫情原始数据,获得目标区域的上一周期的疫情特征数据,预测模块,用于将疫情原始数据、疫情特征数据和业务数据,输入至已训练的预测模型中,对疫情进行预测,并获得目标区域的下一周期的疫情预测结果,这样,能够针对疫情的特点,实现对疫情的预测,并提高疫情预测的准确度。
基于上述实施例,以第一预测模型为SEIRD模型为例,对本申请实施例中的疫情预测进行详细阐述,参阅图3所示,为本申请实施例中基于SEIRD模型预测疫情的流程图,具体包括:
步骤300:获取目标区域的截止上一周期结束现有感染人数、实际累计治愈人数、实际累计死亡人数和人口数据。
其中,现有感染人数表征截止上一周期结束现存的且仍然处于确诊状态的人群的人数,现有感染人数可以根据获取到的截止上一周期结束的实际累计感染人数、实际累计治愈人数和实际累计死亡人数进行计算。
本申请实施例中,可以通过从预设的疫情数据库中获取期望预测疫情的目标区域的上一周期的现有感染人数、实际累计治愈人数、实际累计死亡人数,并且,还可以从疫情数据库中获取到与目标区域有关的业务数据,即,目标区域的人口数据。
例如,若目标区域为X城市,假设需要预测X城市2月3日的疫情,则需要从疫情数据库中获取到X城市的2月2日的现有感染人数、实际累计治愈人数,并获取到X城市截止到2月2日的人口数据,本申请实施例中对此并不进行限制。
步骤310:基于已训练的第一预测模型,以现有感染人数、实际累计治愈人数、实际累计死亡人数和人口数据为输入参数,分别确定目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
本申请实施例中,将截止上一周期结束时的现有感染人数、实际累计治愈人数、实际累计死亡人数和人口数据,输入到已训练的SEIRD模型中,输出目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
其中,现有易感人数表征截止上一周期结束现存的仍然处于易感状态的人群的人数,现有暴露人数表征截止上一周期结束现存的仍然处于暴露状态的人群的人数。
以目标城市为X城市为例,例如,若需要预测2月3日的疫情,则基于已训练的SEIRD模型,以X城市2月2日的现有感染人数、实际累计治愈人数、实际累计死亡人数和人口数据为输入参数,分别确定X城市的2月3日的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数,本申请实施例中对此并不进行限制。
本申请实施例中,确定目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数时,具体包括:
S1:根据现有感染人数、实际累计治愈人数和实际累计死亡人数,拟合获得现有易感人数、感染人数变化率、感染治愈人数变化率、死亡人数变化率、现有暴露人数、转化确诊人数变化率和暴露治愈人数变化率。
S2:根据现有易感人数、感染人数变化率、人口数据和现有感染人数,确定现有易感人数变化率。
其中,现有易感人数变化率表征现有易感人数随时间变化的变化率。
现有易感人数为SERID模型根据现有感染人数、实际累计治愈人数和实际累计死亡人数进行拟合获得的,例如,可根据现有易感人数、现有暴露人数、现有感染人数、实际累计治愈人数和实际累计死亡人数之间的比例进而拟合获得。
感染人数变化率为SEIRD模型根据现有感染人数、实际累计治愈人数和实际累计死亡人数进行拟合获得的。
本申请实施例中,当易感者转化为感染者之后,易感者的人数减少,感染者的人数增多,因此,需要确定现有易感人数变化率,可以通过现有易感人数变化率公式来确定现有易感人数变化率,具体可以表示为:
其中,β(t)为感染人数变化率,S(t)为目标区域的现有易感人数,I(t)为目标区域的现有感染人数,N为目标区域的人口数据,t为周期。
S3:根据现有暴露人数、感染人数变化率、现有易感人数、现有感染人数、人口数据、转化确诊人数变化率和暴露治愈人数变化率,确定现有暴露人数变化率。
其中,现有暴露人数变化率表征现有暴露人数随时间变化的变化率。
本申请实施例中,现有暴露人数表示截止到上一周期结束现有正处于潜伏期的人数,暴露者可能在潜伏期后出现明显症状转为确诊,即可能由暴露者转化为感染者,或在自我免疫力的调节下痊愈,即由暴露者转化为治愈者,因此,在确定现有暴露人数变化率时,需要根据现有累计暴露人数、感染率、现有累计易感人数、现有累计感染人数、人口数据、感染人数变化率、转化确诊人数变化率和暴露治愈人数变化率来确定现有暴露人数变化率,具体可以表示为:
其中,β(t)为感染人数变化率感染率、S(t)为现有易感人数、I(t)为现有感染人数、N为人口数据、α为转化确诊人数变化率确诊率、γ1为暴露治愈人数变化率暴露治愈率、E(t)为现有暴露人数,t为周期。
则αE(t)表示暴露者受感染转化为感染者的人数的变化率,γ1E(t)表示处于潜伏期的暴露者直接转化为治愈者的人数的变化率。
S4:根据现有暴露人数、现有感染人数、转化确诊人数变化率、感染治愈人数变化率和死亡人数变化率,确定现有感染人数变化率。
其中,现有感染人数变化率表征现有感染人数随时间变化的变化率。
本申请实施例中,感染者的最终状态基本可以归为两类,第一类是经过救治后康复,即,由感染者转化为治愈者,第二类是病重后死亡,即,由感染者转化为死亡者,因此,在确定感染人数变化率时,需要根据现有暴露人数、现有感染人数、转化确诊人数变化率、感染治愈人数变化率和死亡人数变化率确诊率、感染治愈率和死亡率,进而确定现有感染人数变化率,具体可以表示为:
其中,α为转化确诊人数变化率,E(t)为现有暴露人数,I(t)为现有感染人数,γ2(t)为感染治愈人数变化率,k为死亡人数变化率。
则γ2(t)I(t)表示由感染者转化为治愈者的人数,kI(t)表示由感染者转化为死亡者的人数。
S5:根据暴露治愈人数变化率、现有暴露人数、感染治愈人数变化率和现有感染人数,确定累计治愈人数变化率。
其中,累计治愈变化率表征累计治愈人数随时间变化的变化率。
本申请实施例中,治愈者有可能是由感染者转化而来的,也有可能是由暴露者转化而来的,因此,累计治愈人数变化率具体可以表示为:
其中,R(t)为实际累计治愈人数,E(t)为现有暴露人数,I(t)为现有感染人数,γ1为暴露治愈人数变化率,γ2(t)为感染治愈人数变化率。
S6:通过确定死亡人数变化率和现有感染人数之间的乘积,获得累计死亡人数变化率。
其中,累计死亡人数变化率表征累计死亡人数随时间变化的变化率。
本申请实施例中,死亡者由感染者转化,因此,可以根据死亡率和现有感染人数,确定累计死亡人数变化率,具体可以表示为:
其中,k为死亡人数变化率,I(t)为现有感染人数。
本申请实施例中,进行疫情预测时,对于各个目标区域的疫情发展情况,调整并确定上述各个公式中α、γ1、γ2、β、k、desc和asc的值,并代入SEIRD模型的上述各个公式中,预测下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
进一步地,由于到疫情中后期,受到政府政策的积极影响,且救治手段逐渐增多,每日新增的感染人数明显降低,因此,在确定感染人数变化率时,设置了衰减因子,具体可以表示为:
其中,β(t)为感染人数变化率,desc为衰减因子。
其中,感染人数变化率表征截止上一周期结束由易感者转化为暴露者的人数的比率。
在计算感染治愈人数变化率时,设置了一个膨胀因子,根据感染治愈人数变化率和膨胀因子,进而确定感染治愈人数变化率,具体可以表示为:
其中,γ2(t)为感染治愈人数变化率,asc为膨胀因子。
本申请实施例中,通过SEIRD模型,将实际累计治愈人数和实际累计死亡人数分开计算,能够实现对疫情的预测,并设置衰减因子和膨胀因子,用以更好地拟合SEIRD模型,提高模型预测的准确度。
S7:根据现有易感人数变化率、现有暴露人数变化率、现有感染人数变化率、累计死亡人数变化率、现有易感人数、现有暴露人数、现有感染人数、实际累计治愈人数、实际累计死亡人数,分别确定目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
具体地,在执行步骤S7时,具体包括:
A1:根据现有易感人数变化率和现有易感人数,确定目标区域的下一周期的现有易感人数。
本申请实施例中,根据SEIRD模型拟合获得的现有易感人数变化率和截止到上一周期结束时的现有易感人数,预测目标区域的下一周期的现有易感人数的变化人数,然后将下一周期的现有易感人数的变化人数与现有易感人数相加,确定目标区域的下一周期的现有易感人数。
例如,假设某年3月31日的现有易感人数为1000人,周期为1天,通过SEIRD模型预测获得某年3月31日的现有易感人数变化率为0.1,则预测目标区域某年3月31日的现有易感人数的变化人数为100,然后将现有易感人数的变化人数与现有易感人数相加,预测目标区域某年2月1日的现有易感人数为1100。
A2:根据现有暴露人数变化率和现有暴露人数,确定目标区域的下一周期的现有暴露人数。
本申请实施例中,根据SEIRD模型拟合获得的现有暴露人数变化率和截止到上一周期结束时的现有暴露人数,预测目标区域的下一周期的现有暴露人数的变化人数,然后将下一周期的现有暴露人数变化人数与现有暴露人数相加,确定目标区域的下一周期的现有暴露人数。
A3:根据现有感染人数变化率和现有感染人数,确定目标区域的下一周期的现有感染人数。
本申请实施例中,根据SEIRD模型拟合获得的现有感染人数变化率和截止到上一周期结束时的现有感染人数,预测目标区域的下一周期的现有感染人数的变化人数,然后将下一周期的现有感染人数的变化人数与现有累计感染人数相加,确定目标区域的下一周期的现有感染人数。
A4:根据累计死亡人数变化率和实际累计死亡人数,确定目标区域的下一周期的累计死亡人数。
本申请实施例中,根据SEIRD模型拟合获得的累计死亡人数变化率和截止到上一周期结束时的实际累计死亡人数,预测目标区域的下一周期的累计死亡人数的变化人数,然后将下一周期的累计死亡人数的变化人数与实际累计死亡人数相加,确定目标区域的下一周期的累计死亡人数。
A5:根据累计治愈人数变化率和实际累计治愈人数,确定目标区域的下一周期的累计治愈人数。
本申请实施例中,根据SEIRD模型拟合或的累计治愈人数变化率和截止到上一周期结束时的实际累计治愈人数,预测目标区域的下一周期的累计治愈人数的变化人数,然后将下一周期的累计治愈人数的变化人数与实际累计治愈人数相加,确定目标区域的下一周期的累计治愈人数。
进一步地,本申请实施例中,还可以根据确定出的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数获得长期的预测结果,例如,假设预设的周期为一天,则将第一日的疫情发展情况输入到SEIRD模型中,能够预测第二日的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数,并将预测获得的第二日的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数输入到SEIRD模型中,作为输入参数,进而预测第三日的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数,以此类推,进而能够获得长期的预测结果。
又例如,还可以将预设的周期设置较长一些,例如,将预设的周期设置为30天,则将前30天的疫情发展情况输入到SEIRD模型中,能够预测下一个30天的疫情发展情况,进而实现长期预测。
例如,参阅图4所示,为本申请实施例中SEIRD模型长期疫情预测效果图,本申请实施例中,SEIRD模型使用的是某年3月5日调整后的疫情原始数据和人口数据,根据参数调整预测了A国、B省和C市的下一日现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数的疫情的长期趋势,在各种社会非药物干预下,不考虑从国外的外来输入型病例,预计到疫情结束时,A国的现有感染人数将达到约83000,死亡人数估计约为3500,预计B省的现有感染人数约为70000,C市的现有感染人数约为50000。
步骤320:将SEIRD模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定SEIRD模型的预测误差,并获得预测结果。
其中,下一周期的累计感染人数为根据下一周期的现有累计感染人数、累计治愈人数和累计死亡人数确定出的,实际获取到的下一周期累计感染人数为实际获取到的截止下一周期结束时实际累计感染人数。
本申请实施例中,通过SEIRD模型对A国的省级行政单位以及B市下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数进行预测,根据每日更新的疫情原始数据和业务数据,在SEIRD模型中每天调整对应的参数,并使用以下公式计算误差百分比:(预测数-实际数)/实际数×100%。
例如,参阅图5所示,为本申请实施例中SEIRD模型疫情预测效果图,图5显示了通过改进的SEIRD动力学模型对A国、B省、C市和D市的COVID-19下一日现有感染人数的预测结果,随着现有感染人数的增加,所有四个地区的百分比误差趋于减少,2月下旬的总体百分比误差<±0.5%,对某年2月25日的疫情预测表明,A国的现有感染人数预测的百分比误差为<±0.1%,大多数省份的误差百分比均<±0.1%,其中,C市的误差百分比<±0.1%,而B省的误差小于0.1%,并且,对于预测的下一日累计治愈人数,C市和B省的百分比误差分别为-6.0%和-3.1%,A国的下一日累计治愈人数预测与实际情况一致,误差百分比为-2.5%,B省的预测的下一日累计死亡人数比实际的累计死亡人数少1.4%(预测值为2599,而实际值为2563)。
参阅图6所示,为本申请实施例中SEIRD模型实时现有感染人数模拟效果图,本申请实施例中,SEIRD模型在A国、B省和C市的现有感染人数的实际和预测数据如图6所示(由于B省和C市于2月13日调整了诊断标准,因此,B省和C市的现有感染人数于2月13日当天增加了约10000,为使突发变化更加平滑,B省和C市在2月12日之前的现有感染人数按新规则等比例增加),如图6所示,A国、B省和C市这三个目标区域的实际的现有感染人数和模型预测的现有感染人数较为接近,因此,可以表明SEIRD模型模拟的疫情情况与疫情发展的实际情况基本相符。
其中,拐点定义为活动感染次数具有最大斜率的日期,根据SEIRD模型,所有省份的拐点通常在2月份出现,而具体时间因地区而异,通过SEIRD模型的仿真结果可以得出,C市和B省的拐点出现在2月初,A国拐点出现在2月上半月,基本与COVID-19在A国的传播相符。
在对疫情进行预测后,进一步地,还可以调整不同参数研究政策对疫情的影响,参阅图7所示,为本申请实施例中,不同参数下的SEIRD模型预测效果图,在其它条件相同的情况下,感染率的降低将促进整个流行阶段的现有感染人数减少,如图7可知,A国、B省和C市的现有感染人数的曲线形状基本没有变化,但是,由于随着感染人数变化率本身的增加和流行的时间增加,因此,A国、B省和C市的现有感染人数明显增加,并且,随着感染人数变化率的增加,实时感染的高峰期被推迟,当感染人数变化率增加到125%时,疫情的规模会增加一倍,实时感染高峰会延迟大约10天。
此外,如图7所示,由于增加感染人数变化率的衰减因子可能导致疫情传播速率明显下降,因此,现有感染人数曲线的形状也会随之发生变化,最初,衰减因子的增长使累计感染人数的变化幅度不大,但由于现有感染人数随时间发生了巨大的变化,因此,疫情的高峰随着衰减因子的增加而向前移动,疫情的时间也相应地增加,并且,根据感染人数变化率β本身的变化与β的衰减因子的变化相结合,可以反映出管控措施的效果,如及时隔离感染者或暴露者,并减少人员移动,再加上社区遏制措施,能够大大减少感染者和暴露者与外界的接触,以及感染者和易感者的数量,从而能够有效控制疫情流行程度,并且,C市本身在全市范围内的隔离措施也可能会导致感染率的降低,如图6所示,每天新增感染人数的减少表明相应的政策有效地阻止了疫情的传播。
并且,在疫情流行的早期阶段,由于感染者的数量较少,因此,感染治愈率的变化对疫情几乎没有影响,但随着时间的推移,感染治愈率的增长可以显着增加治愈者的数量,从而提高实时现有感染人数的高峰时间,当感染治愈率从75%提高到125%时,A国、B省、C市和D市可以提前约6-15天达到实时现有感染人数数量最大的时间,因此,疫情规模可能也会相应减小,这些和实际情况也是吻合的。
本申请实施例中,通过SEIRD模型,能够实现对疫情的预测,并且,SEIRD模型中,将治愈者与死亡者分开计算,能够提高疫情预测的准确性,另外,SEIRD模型中,考虑到A国基本现状和政策实施的影响,设置了衰减因子和膨胀因子,可以实现对下一周期的现有感染人数和累计治愈人数曲线相对更好的拟合效果,从而能够提高疫情预测的准确性。
基于上述实施例,参阅图8所示,为本申请实施例中基于GWR模型预测疫情的流程图,具体包括:
步骤800:获取各个目标区域的上一周期的实际累计感染人数、各个目标区域的人口数据、医疗资源数据和地理位置数据。
步骤810:基于已训练的第二预测模型,以各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、人口数据、医疗资源数据和地理位置数据为输入参数,分别确定各个目标区域的下一周期的累计感染人数。
具体地,疫情情况和不同地理情况下的医疗资源可能对疫情的发展产生不同程度的影响。在这种情况下,可能无法使用用于回归的普通最小二乘拟合方法。地理加权回归模型扩展了普通线性回归模型并将地理位置数据嵌入到回归参数中,然后通过地理加权回归模型对疫情进行预测。
本申请实施例中,在分别确定各个目标区域的下一周期的累计感染人数时,具体包括:
S1:根据各个目标区域的地理位置数据,分别确定各个目标区域与其它目标区域之间的距离。
本申请实施例中,在获取到各个目标区域的地理位置数据后,分别确定各个目标区域与其它目标区域之间的距离,例如,目标区域分别为A市、B市、C市,则分别确定A市与B市之间的距离、A市与C市之间的距离、B市与C市之间的距离,本申请实施例中,并不对此进行限制。
S2:根据确定出的各个距离和预设的距离衰减参数,确定各个目标区域的空间权重矩阵。
本申请实施例中,在确定出各个距离之后,根据确定出的各个距离和预设的距离衰减参数,确定各个目标区域的空间权重矩阵,例如,可以使用bi-squre核函数表示空间权重矩阵,具体可以表示为:
wij=(1-(dij/b)2)2
其中,b为距离衰减参数,即为带宽,dij为目标区域与其它目标区域之间的距离,i为其中一个目标区域,j为其它目标区域,如果dij<b,否则wij=0。
本申请实施例中,地理加权回归分析对特定权函数的带宽的选择非常重要,带宽过大,则会导致回归参数的偏差过大,带宽过小,则会导致回归参数估计的方差过大,那么,在地理加权回归分析中,带宽的选择非常重要,例如,可以通过优化交叉验证的均方根预测误差来计算带宽或最小信息量准则(an information criterion,AIC)法计算带宽。
S3:分别将各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、医疗资源数据和人口数据作为自变量参数,生成对应的自变量矩阵。
本申请实施例中,分别将各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、医疗资源数据和人口数据作为自变量参数,生成对应的自变量矩阵,例如,医疗资源数据包括每万人医院数全市、每万人医师数全市和每万人床位数全市,人口数据包括年末户籍人口百万人全市,则根据目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、年末户籍人口百万人全市、每万人医院数全市、每万人医师数全市和每万人床位数全市,生成对应的自变量矩阵。
进一步地,为了提高第二预测模型的准确性,还可以增加自变量参数的个数,例如,分别根据各个目标区域的上一周期累计感染人数、累计治愈人数、累计死亡人数、上两个周期累计感染人数、累计治愈人数、累计死亡人数、医疗资源数据和人口数据生成自变量矩阵,并不对此进行限制。
S4:根据空间权重矩阵,分别确定各个目标区域对应的自变量矩阵中各个自变量参数的回归系数。
其中,回归系数用于使各个目标区域的误差平方和最小。
本申请实施例中,在获得空间权重矩阵和各个目标区域对应的自变量矩阵之后,根据空间权重矩阵,分别确定各个目标区域对应的自变量矩阵中各个自变量参数的回归系数。
S5:分别根据各个目标区域对应的自变量矩阵、对应的自变量矩阵中各个自变量参数的回归系数、各个目标区域的截距参数,分别确定各个目标区域的下一周期的累计感染人数。
本申请实施例中,分别根据各个目标区域对应的自变量矩阵、对应的自变量矩阵中各个自变量参数的回归系数、各个目标区域的截距参数,分别确定各个目标区域的下一周期的累计感染人数,具体可以表示为:
其中,yi为第i个因变量参数,xik为位置i处第k个自变量参数,p为自变量参数的个数,βi0是位置i处的截距参数,截距参数的含义为其它β参数均为0时,y因变量的值,βik是位置i处第k个自变量参数的回归系数,随地理位置变化而变化,εi为位置i中的误差项,但误差项在实际应用中可以不考虑。
下面采用一个具体的例子对本申请实施例中的GWR模型对疫情进行预测,进行详细阐述。
本申请实施例中,将某年2月2日有确诊病例的29个省和220个城市的疫情原始数据和业务数据,即,每个城市的人口数据、每万人医院数、每万人的医师数、每万人床位数,当日的实际累计感染人数、上一日的实际累计感染人数,当日的实际累计治愈人数、上一日的实际累计治愈人数、当日的实际累计死亡人数和上一日的实际累计死亡人数,生成自变量矩阵,并将自变量矩阵输入到已训练的GWR模型中,用于预测2月3日的下一日的累计感染人数,因此,在使用某年2月2日的疫情原始数据和业务数据对GWR模型进行了拟合后,进一步能够实现对某年2月3日的累计感染人数进行预测。
表1为GWR模型回归系数的描述性统计分析,对本申请实施例中通过GWR模型获得的回归系数的整体展示如表1所示。
其中,lag1和lag2分别表示当日和上一日。
步骤820:将GWR模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定GWR模型的预测误差,并获得预测结果。
本申请实施例中,还可以根据拟合程度来确定GWR模型的预测效果,并实时调整GWR模型的参数,例如,某年2月2日GWR模型回归的R2为99.98%,对2月3日数据预测的R2为97.95%,则表明GWR模型的预测效果较好,不同城市的拟合和预测误差百分比有所不同:A市的分别为11.67%和3.95%;B市的分别为2.24%和-5.88%,C省D市的分别为-1.27%和1.70%,E省F市的为0.00%和14.57%。
其中,R2表征真实值与预测值之间的相似程度,用于反映GWR模型的预测效果。
进一步地,为了了解系数的空间分布,根据某年2月2日GWR模型中的四个参数的系数,以评估其系数在空间中的异质性,参阅图9所示,为本申请实施例中回归系数的空间分布展示图。
其中,如图9中的图A可知,每万人医院数与下一日的累计感染人数之间存在很强的负相关性,可以得出,医院隔离感染者能够防止疫情的传染,从回归系数的空间分布角度来看,回归系数具有从东北到西南和西北逐渐下降的趋势,影响最大的地区集中在A国的东北,而受影响最小的地区在A国的西南和西北。
如图9中的图B可知,每万人医生数与下一日的累计感染人数之间呈负相关,从回归系数的空间分布角度来看,回归系数具有从东北和西北到南方的逐渐减少的趋势,影响最大的地区集中在A国的东北和西北,而受影响最小的地区在南部。
如图9中的图C可知,下一日的累计感染人数与当日的实际累计感染人数之间存在正相关关系,从而可以得知,当日的实际累计感染人数越多,下一日的累计感染人数就会越多,有效的管控措施可用于预防疫情的大流行,从回归系数的空间分布角度来看,回归系数具有从东北到西南和西北逐渐下降的趋势,但这种趋势并不明显,这表明A国各地都有普遍的特征。
如图9中的图D可知,下一日的累计治愈人数与当日的实际累计感染人数之间存在正相关关系,从回归系数的空间分布角度来看,回归系数具有从A国东北和西北到南方的逐渐减少的趋势,东北和西北地区受影响最大,而南部受影响最小。
本申请实施例中,通过GWR模型,能够实现对疫情的预测,并且,使用人口数据、医疗资源数据和疫情原始数据分析影响疫情发展各因素的空间一致性,并得出下一日疫情的预测结果,还能够提高疫情预测的准确性。
基于上述实施例,下面以第三预测模型为LSTM模型为例,对本申请实施例中的疫情预测进行详细阐述,参阅图10所示,为本申请实施例中LSTM模型预测的流程图,具体包括:
步骤1000:获取疫情中心区域的实际累计感染人数、疫情中心区域人口数据、从疫情中心区域迁入到目标区域的实际迁入人口数据和目标区域的实际累计感染人数。
步骤1010:根据疫情中心区域的实际累计感染人数、疫情中心区域人口数据和实际迁入人口数据,确定目标区域的实际累计迁入预感染人数。
其中,实际累计迁入预感染人数表征实际迁入人口数据中为感染者的预测人数。
本申请实施例中,在使用LSTM模型对下一周期的累计感染人数进行预测时,首先需要选取特征,由于LSTM模型有记忆功能,因此,选取的特征中需要包括实际累计感染人数,另外,由于疫情中心的实际迁入人口数据也对目标区域的疫情存在影响,因此,还需要选取疫情中心的实际迁入人口数据作为输入到LSTM模型中的特征。
并且,由于疫情的病毒有潜伏期,从疫情中心迁入到目标区域中的人数有一定概率存在感染者,这个概率需要根据B市的累计感染人数进而确定,因此,在初期选取的特征是:目标区域的实际累计感染人数、目标区域的实际迁入人口数据、疫情中心的实际累计感染人数,并且,在选取特征时,可以使用网格搜索进行优化。
进而,将选取的特征输入到LSTM模型之前,还需要对选取的特征进行进一步处理,以使选取的特征能够更加契合LSTM模型,并提高LSTM模型对于疫情预测的准确度,例如,对于疫情,由于某年1月1日前,只有B市有一些确诊病例,而A国其他城市无确诊病例,因此,得出第二个特征的计算公式为:St*Pt/T,即目标区域的实际累计迁入预感染人数,该实际累计迁入预感染人数在疫情发展初期就是目标区域的种子数。
其中,B市t天累计感染人数为St,B市的人口数据为T,实际迁入人口数据为Pt。
因此,最终LSTM模型的输入参数为实际累计感染人数和实际累计迁入预感染人数。
步骤1020:基于已训练的第三预测模型,以实际累计迁入预感染人数和目标区域的实际累计感染人数为输入参数,通过第三预测模型的输入层将实际累计迁入预感染人数和目标区域的实际累计感染人数,发送给第三预测模型的隐藏层,通过隐藏层确定目标区域的下一周期的累计感染人数对应的向量表示,通过第三预测模型的全连接层对累计感染人数对应的向量表示进行维度转换,并通过第三预测模型的输出层输出目标区域的下一周期的累计感染人数。
本申请实施例中,用于递归神经网络的LSTM(长期短期记忆)架构于1997年首次提出,参阅图11所示,为本申请实施例中LSTM模型神经元的结构示意图,LSTM模型具有三个门,分别为输入门、遗忘门和输出门,还包括一个输入和一个输出,输出循环连接到块的输入。
其中,LSTM层前向通过的矢量公式如下所示:
zt=ReLU(Wz[xt,ht-1]+bz) (block input)
it=σ(Wi[xt,ht-1]+bi) (input gate)
ft=σ(Wf[xt,ht-1]+bf) (forget gate)
ct=it⊙zt+ft⊙ct-1 (cell state)
ot=σ(Wo[xt,ht-1]+bo) (output gate)
ht=ot⊙ReLU(ct) (block output)
其中,xt表示在时间t处的输入向量,⊙是两个向量的逐点乘法运算符,Wz、Wi、Wf、Wo是输入权重矩阵,bz、bi、bf、bo是偏差向量,Logistic Sigmoid(σ(x)=1/(1+e^(-x)))被用作门的激活函数,而ReLU被用作输入和输出的激活函数。
参阅图12所示,为本申请实施例中LSTM模型的结构示意图,利用Keras进行包括LSTM模型在内的神经网络建模,LSTM的网络结构可以分为4层:输入层(Input layer)、LSTM层(隐藏层)(LSTM hidden layer)、全连接层(Fully-connected layer)和输出(Output),其中,每个LSTM神经元都有10个隐藏特征,ReLU为激活功能,MSE为损失函数,Adam为优化器,使用网格搜索方法为不同区域的数据设置不同的超参数。
进而,本申请实施例中,使用疫情数据库中的疫情原始数据对LSTM模型进行训练,最后,通过已训练的LSTM模型对下一日累计感染人数进行预测,参阅图13所示,为本申请实施例中对某年2月3日的疫情预测效果图,参阅图14所示,为本申请实施例中对某年2月14日的疫情预测效果图。
步骤1030:将LSTM模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定LSTM模型的预测误差,并获得预测结果。
本申请实施例中,可以通过将LSTM模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对进而确定出的LSTM模型的百分比误差,进而确定LSTM模型的预测误差。
例如,LSTM模型的百分比误差的计算公式可以为:(预测数-实际数)/实际数×100%,参阅表2所示,为本申请实施例中,对某年2月3日的疫情预测误差效果。
表2.
如表2可知,预测百分比误差在某年2月3日的所有预测中均<±5.1%。在2月14日的所有预测中均<±0.63%。
参阅表3所示,为本申请实施例中,对某年2月14日的疫情预测误差效果。
表3.
如表3可知,预测百分比误差在某年2月14日的所有预测中均<±0.63%。
根据表2和表3可知,通过本申请实施例中的LSTM模型对疫情进行预测,预测效果较好。
本申请实施例中,通过LSTM模型对疫情进行预测,能够实现对疫情的预测,并且,LSTM模型的输入参数结合了交通大数据,对目标区域外的其它省级行政单位的疫情发展进行预测,可以有效提高预测性能,并提高疫情预测的准确度。
基于上述实施例,下面对本申请实施例中的聚类模型进行详细阐述,参阅图15所示,为本申请实施例中的聚类模型的流程图,具体包括:
步骤1500:获取各个目标区域的上一周期的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、人口数据和医疗资源数据。
本申请实施例中,若目标区域为多个,则疫情原始数据至少包括各个目标区域的上一周期的实际累计感染人数、实际累计治愈人数和实际累计死亡人数,业务数据至少包括各个目标区域的人口数据和医疗资源数据,则获取到各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、人口数据和医疗资源数据。
步骤1510:分别通过确定各个目标区域的实际累计感染人数和人口数据之间的比值,获得各个目标区域的感染率。
步骤1520:分别通过确定各个目标区域的实际累计治愈人数与实际累计感染人数之间的比值,获得各个目标区域的治愈率。
步骤1530:分别通过确定各个目标区域的实际累计死亡人数与实际累计感染人数之间的比值,获得各个目标区域的死亡率。
步骤1540:基于已训练的聚类模型,以各个目标区域的感染率、死亡率、治愈率和医疗资源数据为输入参数,对各个目标区域的疫情进行聚类分析,获得聚类后的各个类,并分别确定聚类获得的各个类的疫情严重程度类别。
本申请实施例中,可以通过凝聚法实现层次聚类,使用欧式距离计算数据点之间的距离,然后将数据按照层次进行聚类。
本申请实施例中,执行步骤1540时,具体包括:
S1:将当前获得的各个类中两两类进行预合并,根据各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别计算预合并后的类内部的距离值相对于对应预合并前的两个类内部的距离值之和的增加值,将最小的距离值增加值对应的预合并后的类,以及其它非最小的距离值增加值对应的预合并前的类,作为下一次获得的各个类,直至获得预设数目的类,将获得的预设数目的类作为最终聚类的各个类。
其中,初始时获得的各个类为将每个目标区域作为一个类确定的。
本申请实施例中,首先,将当前获得的各个类中两两类进行预合并,获得各个预合并之后的类,然后,根据各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别计算预合并后的类内部的距离值,并计算对应预合并前的两个类内部的距离值之和,并分别将预合并后的类内部的距离值与对应预合并前的两个类内部的距离值之和相减,获得预合并后的类内部的距离值相对于对应预合并前的两个类内部的距离值之和的增加值,然后将最小的距离值增加值对应的预合并后的类,以及其它非最小的距离值增加值对应的预合并前的类,作为下一次获得的各个类,继续计算距离值增加值,直至获得预设数目的类,并将获得的预设数目的类作为最终聚类的各个类。
下面对本申请实施例中使用凝聚法层次聚类进行详细阐述,可以使用欧式距离计算数据点之间的距离,使用Ward法计算类之间的距离,具体可以表示为:
通过计算的最小值进行凝聚法聚类。
其中,TD表示每一类内部的距离,D表示欧式距离,ci和cj表示不同的类,μ表示类的质心,通过计算合并后的距离增加最小来进行聚类。
S2:根据聚类获得的各个类中的各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别确定各个类的疫情严重程度类别。
本申请实施例中,执行步骤S2时,具体包括:
A1:分别针对各个类,若确定一个类中的各个目标区域对应的平均死亡率、平均感染率均大于等于预设第一比率阈值,并平均医疗资源数据小于等于预设第一医疗资源阈值,则确定对应类的疫情严重程度类别为疫情高严重程度、医疗资源紧张。
本申请实施例中,分别针对各个类,若确定一个类中的各个目标区域对应的平均死亡率大于预设死亡率阈值,平均感染率大于预设感染率阈值,平均医疗资源数据小于等于预设第一医疗资源阈值,则确定对应类的疫情严重程度类别为疫情高严重程度、医疗资源紧张。
其中,预设第一比例阈值和第一医疗资源阈值可以根据实际应用进行设置,对应类的类别可以根据实际应用进行设置,对此并不进行限制。
A2:分别针对各个类,若确定一个类中的各个目标区域对应的平均死亡率、平均感染率均小于预设第二比率阈值,并平均医疗资源数据小于等于预设第二医疗资源阈值,则确定对应类的疫情严重程度类别为疫情低严重程度、医疗资源紧张。
A3:分别针对各个类,若确定一个类中的各个目标区域对应的平均死亡率小于预设第三比率阈值,并平均治愈率大于等于预设治愈率阈值,则确定对应类的疫情严重程度类别为疫情低严重程度、高治愈率。
下面采用一个具体的例子,来详细阐述本申请实施例中的疫情救治资源分析,主要应用层次法聚类模型来展示疫情救治资源分析,使用的是某年2月3日的疫情原始数据和业务数据,对累计感染人数超过30人的疫情原始数据和业务数据对所有城市的样本进行聚类分析,一共分为17类,由粗实线分割,并根据不同类的特征分为三类,分别为疫情高严重程度且医疗资源紧张、疫情低严重程度且医疗资源紧张、疫情低严重程度且高治愈率。
参阅图16所示,为本申请实施例中,疫情高严重程度且医疗资源紧张的分类效果图,如图16所示,展示了疫情高严重程度、医疗资源紧张类的情况,该类感染率、死亡率高,每万人医院、床位、医师数少。感染率死亡率高且每万人医院、床位、医师数少表明医疗资源紧张,上述省市疫情严重、救治资源紧张,需重点加大医疗资源投入。
参阅图17所示,为本申请实施例中,疫情低严重程度且医疗资源紧张的效分类效果图,如图17所示,展示了疫情低严重程度、医疗资源紧张类的情况,感染率、死亡率低(约等于0),每万人医院、床位、医师数少,部分城市目前感染率、死亡率虽较低,但其拥有的医疗资源较少;应根据疫情发展和预测情况,关注该类城市医疗资源使用情况,提前做好医疗资源支持准备。
参阅图18所示,为本申请实施例中,疫情低严重程度且高治愈率的分类效果图,如图18所示,展示了疫情低严重程度、高治愈率类的情况,在该类中,高治愈率,死亡率低,较好的治愈效果,上述省市治愈率较高,可总结经验。
本申请实施例中,通过层次法聚类模型能够获得不同城市的聚类结果,根据疫情原始数据和医疗资源数据对不同城市情况进行分类,能够更清晰体现不同城市所处的医疗资源和疫情类别,使用聚类结果分析不同城市所处类别,对不同类别城市总结其所处类别,对不同类别城市总结其所处情况分析原因,可为管控疫情提供支持。
基于上述实施例,下面对本申请实施例中的模型比对进行详细阐述,参阅表4所示,为本申请实施例中不同模型的APE的比较。
表4.
目标区域 | 日期 | SEIRD模型 | LSTM模型 | GWR模型 |
A市 | 2/3 | 3.01% | - | 14.57% |
B市 | 2/3 | 4.25% | 4.25% | 3.95% |
C市 | 2/3 | 1.48% | 4.93% | 5.88% |
D省 | 2/3 | 2.76% | 5.10% | - |
E省 | 2/3 | 2.07% | 0.14% | - |
A市 | 2/14 | 3.00% | - | 1.00% |
B市 | 2/14 | 3.03% | 0.00% | 3.62% |
C市 | 2/14 | 1.61% | 0.63% | 1.17% |
D省 | 2/14 | 1.89% | 0.48% | - |
E省 | 2/14 | 2.14% | 0.35% | - |
A市 | 2/25 | 0.12% | - | 0.14% |
B市 | 2/25 | 0.00% | 0.25% | 0.04% |
SEIRD模型、GWR模型和LSTM模型内部依据实际的疫情原始数据对各个预测模型的预测效果进行评价之后,本申请实施例中整合了SEIRD模型、GWR模型和LSTM模型的预测误差进行预测模型间的比较评价,如表4所示,B市,C市,D省和E省,在这四个目标区域中,LSTM模型具有良好的预测效果,2月14日,四个选定省市的平均预测误差百分比在±1.0%以内,在目标区域中,SEIRD模型、LSTM模型和GWR模型的MAPE分别为1.70%,1.51%,3.44%,为了比较这三种预测模型的APE,可以对表4中的成对观测值进行Wilcoxon符号秩检验,对于以下假设:GWR的APE>LSTM的APE,GWR的APE GWR>SEIRD的GWR和SEIRD的APE>LSTM的APE,p值分别为0.173、0.187和0.459,因此在0.05的水平上不显着,但是,总体而言,根据MAPE和p值,GWR模型的预测效果不如SEIRD和LSTM模型的预测效果,LSTM模型的MAPE值最小,表明效果最好,则在进行疫情预测时,选择效果最好的模型进行预测,并不断迭代更新预测模型,能够提高疫情预测准确度。
基于上述实施例,下面对疫情结果动态展示进行详细阐述,参阅图19所示,为本申请实施例中疫情发展情况监控大屏的效果示意图。
对于疫情发展情况,本申请实施例中,采取动态BI大屏的形式进行呈现。可以采用包含折线图、条形图、环状图、文本表、气泡图、地图等的监控大屏来多角度的展示疫情发展情况,综合表现出全国疫情发展情况;治愈率和死亡率变化;感染人数、治愈人数和死亡人数增长率;以及各地区疫情状况等。
除此之外,本申请实施例中,还采用人员流动轨迹图、动态柱状图和地图的结合图来表现封城管制措施前后疫情传播情况。
基于上述实施例,参阅图20所示,为本申请实施例中另一种疫情预测系统的结构示意图,具体包括:
数据获取模块:用于通过官方渠道获取目标区域的上一周期的疫情原始数据。
数据获取模块还用于获取与疫情相关的业务数据,例如,各个目标区域的地理位置数据、各个目标区域的医疗资源数据、各个目标区域的人口数据等。
数据获取模块还用于构建疫情数据库,并将获取到的各个目标区域的疫情原始数据和业务数据实时存储到疫情数据库中。
例如,每日更新的COVID-19相关疫情原始数据来源于各种官方渠道、并将收集到的疫情原始数据存储到疫情数据库中,并收集整理影响疫情的业务数据。
数据构建模块,用于根据疫情原始数据,获得目标区域的上一周期的疫情特征数据。
数据构建模块还用于构建其它特征数据,例如,各个目标区域的空间分布、各个目标区域的医疗资源分布、各个目标区域的交通特征数据、各个目标区域的死亡率等。
模型构建模块,用于根据目标区域的一定时间段内至少一个采样周期的疫情原始数据样本集和业务数据样本集对预测模型进行迭代训练,获得训练完成的预测模型。
其中,预测模型例如可以是SEIRD模型、GWR模型、LSTM模型。
模型构建模块还用于根据目标区域的一定时间段内至少一个采样周期的疫情原始数据样本集和业务数据样本集对聚类模型进行迭代训练,获得训练完成的聚类模型。
其中,聚类模型例如可以是层次法聚类模型。
模型构建模块还用于根据预测效果和疫情发展动态调整模型的参数。
预测模块,用于将疫情原始数据、业务数据和疫情特征数据,输入已训练的预测模型,获得目标区域的下一周期的疫情预测结果。
例如,对于SEIRD模型、LSTM模型和GWR模型,每一轮数据更新后,使用训练所得的新参数进行下一轮的疫情预测,获得目标区域的下一周期的疫情预测结果,疫情预测结果至少包括下一周期的累计感染人数、累计治愈人数和累计死亡人数。
预测模块还用于调整预测模型的参数分析不同目标区域的疫情发展的趋势和特征。
模型评价模块,用于将预测模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定预测模型的预测误差。
模型评价模块具体用于:
根据第一预测误差和第二预测误差,从第一预测模型和第二预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于最优预测模型用于疫情预测;或,
根据第一预测误差和第三预测误差,从第一预测模型和第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于最优预测模型用于疫情预测;或,
根据第二预测误差和第三预测误差,从第二预测模型和第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于最优预测模型用于疫情预测;或,
根据第一预测误差、第二预测误差和第三预测误差,从第一预测模型、第二预测模型和第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于最优预测模型用于疫情预测。
例如,在每一阶段疫情预测之后,根据实际发展数据对每一个目标区域计算出预测误差、实际和预测增长率等来对预测效果进行分析和对比,之后整合各个预测模型的历史预测效果,并进行综合比较,选取最优预测模型作为最终预测。
展示模块,用于通过预设展示方式将目标区域的疫情预测结果进行展示。
展示模块还用于:通过预设展示方式,展示目标区域的预设周期对应的治愈率和死亡率。
展示模块还用于:通过预设展示方式,展示目标区域的预设周期对应的迁入人口数据。
展示模块还用于:通过预设展示方式,分别展示第一预测误差、第二预测误差和第三预测误差。
例如,在每种预测模型分析对比以及预测模型预测效果横向对比之后,采用文字描述、图像、表格、BI大屏等方式来对疫情动态、分析效果和预测效果进行多样化的展示。
基于上述实施例,参阅图21所示为本申请实施例中一种疫情预测方法的流程图,具体包括:
步骤2100:从各个客户端获取目标区域的上一周期的疫情原始数据和与疫情相关的业务数据。
步骤2110:根据疫情原始数据,获得目标区域的上一周期的疫情特征数据,疫情特征数据用于表征目标区域的上一周期的疫情发展程度的信息。
步骤2120:将疫情原始数据、业务数据和疫情特征数据,输入已训练的预测模型,获得目标区域的下一周期的疫情预测结果。
其中,预测模型为根据目标区域的一定时间段内至少一个采样周期的疫情原始数据样本集和业务数据样本集进行迭代训练获得的,疫情原始数据样本集中包括各个采样周期的疫情原始数据样本,业务数据样本集中包括目标区域各个采样周期的业务数据样本。
步骤2130:将预测模型确定出的下一周期的疫情预测结果与实际获取到的下一周期的疫情预测结果进行比对,确定预测模型的预测误差。
本申请实施例中,若预测模型为第一预测模型、第二预测模型、第三预测模型,则将预测模型确定出的下一周期的疫情预测结果与实际获取到的下一周期的疫情预测结果进行比对,确定预测模型的预测误差,具体可以分为以下四种:
第一种:
根据第一预测误差和第二预测误差,从第一预测模型和第二预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于最优预测模型用于疫情预测。
第二种:
根据第一预测误差和第三预测误差,从第一预测模型和第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于最优预测模型用于疫情预测。
第三种:
根据第二预测误差和第三预测误差,从第二预测模型和第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于最优预测模型用于疫情预测。
第四种:
根据第一预测误差、第二预测误差和第三预测误差,从第一预测模型、第二预测模型和第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于最优预测模型用于疫情预测。
步骤2140:通过预设展示方式将目标区域的疫情预测结果和/或预测模型的预测误差进行展示。
本申请实施例中,获取目标区域的疫情原始数据和业务数据,并根据疫情原始数据,获得目标区域的上一周期的疫情特征数据,进而将疫情原始数据、疫情特征数据和业务数据输入已训练的预测模型中,对目标区域的疫情进行预测,获得目标区域的下一周期的疫情预测结果,并将预测模型确定出的下一周期的疫情预测结果与实际获取到的下一周期的疫情预测结果进行比对,确定预测模型的预测误差,然后通过预设展示方式将目标区域的疫情预测结果和预测模型的预测误差进行展示,这样,通过根据疫情原始数据获得疫情特征数据,能够针对本次疫情所具有的特点,对疫情进行预测,可以提高疫情预测的准确度。
基于上述实施例,参阅图22所示为本申请实施例中电子设备的结构示意图。
本申请实施例提供了一种电子设备,该电子设备可以包括处理器2210(CenterProcessing Unit,CPU)、存储器2220、输入设备2230和输出设备2240等,输入设备2230可以包括键盘、鼠标、触摸屏等,输出设备2240可以包括显示设备,如液晶显示器(LiquidCrystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器2220可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器2210提供存储器2220中存储的程序指令和数据。在本申请实施例中,存储器2220可以用于存储本申请实施例中任一种疫情预测方法的程序。
处理器2210通过调用存储器2220存储的程序指令,处理器2210用于按照获得的程序指令执行本申请实施例中任一种疫情预测方法。
基于上述实施例,本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的疫情预测方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (21)
1.一种疫情预测系统,其特征在于,包括:
数据获取模块,用于从各个客户端获取目标区域的上一周期的疫情原始数据和与疫情相关的业务数据;
数据构建模块,用于根据所述疫情原始数据,获得所述目标区域的上一周期的疫情特征数据,所述疫情特征数据用于表征所述目标区域的上一周期的疫情发展程度的信息;
预测模块,用于将所述疫情原始数据、所述业务数据和所述疫情特征数据,输入已训练的预测模型,获得所述目标区域的下一周期的疫情预测结果,其中,所述预测模型为根据所述目标区域的一定时间段内至少一个采样周期的疫情原始数据样本集和业务数据样本集进行迭代训练获得的,所述疫情原始数据样本集中包括各个采样周期的疫情原始数据样本,所述业务数据样本集中包括所述目标区域各个采样周期的业务数据样本;
聚类模块,用于在所述目标区域为多个时,基于已训练的聚类模型,将当前获得的各个类中两两类进行预合并,根据各个目标区域的感染率、死亡率、治愈率,和业务数据中的各个目标区域的医疗资源数据,分别计算预合并后的类内部的距离值相对于对应预合并前的两个类内部的距离值之和的增加值,将最小的距离值增加值对应的预合并后的类,以及其它非最小的距离值增加值对应的预合并前的类,作为下一次获得的各个类,直至获得预设数目的类,将获得的预设数目的类作为最终聚类的各个类,其中,初始时获得的各个类为将每个目标区域作为一个类确定的;所述各个目标区域的感染率、治愈率与死亡率是所述数据构建模块基于所述疫情原始数据,以及业务数据中的各个目标区域的人口数据得到的,所述疫情原始数据至少包括所述各个目标区域的实际累计感染人数、实际累计治愈人数和实际累计死亡人数;
根据聚类获得的各个类中的各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别确定所述各个类的疫情严重程度类别;基于所述各个类的疫情严重程度类别对对应的各个类中的各个目标区域进行疫情救治资源分析。
2.如权利要求1所述的系统,其特征在于,所述疫情原始数据包括截止上一周期结束现有感染人数、实际累计死亡人数和实际累计治愈人数,所述业务数据至少包括人口数据,则所述预测模块具体用于:
基于已训练的第一预测模型,以所述现有感染人数、所述实际累计死亡人数、所述实际累计治愈人数和所述人口数据为输入参数,分别确定所述目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
3.如权利要求2所述的系统,其特征在于,确定所述目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数时,所述预测模块具体用于:
根据所述现有感染人数、所述实际累计治愈人数和所述实际累计死亡人数,拟合获得现有易感人数、感染人数变化率、感染治愈人数变化率、死亡人数变化率、现有暴露人数、转化确诊人数变化率和暴露治愈人数变化率;
根据所述现有易感人数、所述感染人数变化率、所述人口数据和所述现有感染人数,确定现有易感人数变化率,其中,所述现有易感人数变化率表征所述现有易感人数随时间变化的变化率;
根据所述现有暴露人数、所述感染人数变化率、所述现有易感人数、所述现有感染人数、所述人口数据、所述转化确诊人数变化率和所述暴露治愈人数变化率,确定现有暴露人数变化率,其中,所述现有暴露人数变化率表征所述现有暴露人数随时间变化的变化率;
根据所述现有暴露人数、所述现有感染人数、所述转化确诊人数变化率、所述感染治愈人数变化率和所述死亡人数变化率,确定现有感染人数变化率,其中,所述现有感染人数变化率表征所述现有感染人数随时间变化的变化率;
根据所述暴露治愈人数变化率、所述现有暴露人数、所述感染治愈人数变化率和所述现有感染人数,确定累计治愈人数变化率,其中,所述累计治愈人数变化率表征所述累计治愈人数随时间变化的变化率;
通过确定所述死亡人数变化率和所述现有感染人数之间的乘积,获得累计死亡人数变化率,其中,所述累计死亡人数变化率表征所述累计死亡人数随时间变化的变化率;
根据所述现有易感人数变化率、所述现有暴露人数变化率、所述现有感染人数变化率、所述累计治愈人数变化率、所述累计死亡人数变化率、现有累计易感人数、现有累计暴露人数、现有累计感染人数、实际累计治愈人数和实际累计死亡人数,分别确定所述目标区域的下一周期的现有易感人数、现有暴露人数、现有感染人数、累计治愈人数和累计死亡人数。
4.如权利要求2或3所述的系统,其特征在于,所述第一预测模型为SEIRD模型。
5.如权利要求1所述的系统,其特征在于,若所述目标区域为多个,则所述疫情原始数据至少包括各个目标区域的上一周期的实际累计感染人数、实际累计治愈人数和实际累计死亡人数,所述业务数据至少包括所述各个目标区域的人口数据、医疗资源数据和地理位置数据;
则所述预测模块具体用于:
基于已训练的第二预测模型,以所述各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、人口数据、医疗资源数据和地理位置数据为输入参数,分别确定所述各个目标区域的下一周期的累计感染人数。
6.如权利要求5所述的系统,其特征在于,确定所述各个目标区域的下一周期的累计感染人数时,所述预测模块具体用于:
根据所述各个目标区域的地理位置数据,分别确定所述各个目标区域与其它目标区域之间的距离;
根据确定出的各个距离和预设的距离衰减参数,确定所述各个目标区域的空间权重矩阵;
分别将所述各个目标区域的实际累计感染人数、实际累计治愈人数、实际累计死亡人数、医疗资源数据和人口数据作为自变量参数,生成对应的自变量矩阵;
根据所述空间权重矩阵,分别确定所述各个目标区域对应的自变量矩阵中各个自变量参数的回归系数,其中,所述回归系数用于使各个目标区域的误差平方和最小;
分别根据所述各个目标区域对应的自变量矩阵、对应的自变量矩阵中各个自变量参数的回归系数、所述各个目标区域的截距参数,分别确定所述各个目标区域的下一周期的累计感染人数。
7.如权利要求5或6所述的系统,其特征在于,所述第二预测模型为地理加权回归GWR模型。
8.如权利要求1所述的系统,其特征在于,所述疫情原始数据至少包括疫情中心区域的实际累计感染人数,所述业务数据至少包括疫情中心区域人口数据、从所述疫情中心区域迁入到所述目标区域的实际迁入人口数据;
则所述数据构建模块具体用于:
根据所述疫情中心区域的实际累计感染人数、所述疫情中心区域人口数据和所述实际迁入人口数据,确定所述目标区域的实际累计迁入预感染人数,其中,所述实际累计迁入预感染人数表征所述实际迁入人口数据中为感染者的预测人数。
9.如权利要求8所述的系统,其特征在于,所述疫情原始数据还包括所述目标区域的实际累计感染人数,则所述预测模块具体用于:
基于已训练的第三预测模型,以所述实际累计迁入预感染人数和所述目标区域的实际累计感染人数为输入参数,通过所述第三预测模型的输入层将所述实际累计迁入预感染人数和所述目标区域的实际累计感染人数,发送给所述第三预测模型的隐藏层,通过所述隐藏层确定所述目标区域的下一周期的累计感染人数对应的向量表示,通过所述第三预测模型的全连接层对累计感染人数对应的向量表示进行维度转换,并通过所述第三预测模型的输出层输出所述目标区域的下一周期的累计感染人数。
10.如权利要求9所述的系统,其特征在于,所述第三预测模型为长短期记忆网络LSTM模型。
11.如权利要求1所述的系统,其特征在于,若所述目标区域为多个,所述数据构建模块具体用于:
分别通过确定所述各个目标区域的实际累计感染人数和所述人口数据之间的比值,获得所述各个目标区域的感染率;
分别通过确定所述各个目标区域的实际累计治愈人数与实际累计感染人数之间的比值,确定所述各个目标区域的治愈率;
分别通过确定所述各个目标区域的实际累计死亡人数与实际累计感染人数之间的比值,获得所述各个目标区域的死亡率。
12.如权利要求1所述的系统,其特征在于,根据聚类获得的各个类中的各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别确定所述各个类的疫情严重程度类别时,所述聚类模块具体用于:
分别针对所述各个类,若确定一个类中的各个目标区域对应的平均死亡率、平均感染率均大于等于预设第一比率阈值,并平均医疗资源数据小于等于预设第一医疗资源阈值,则确定对应类的疫情严重程度类别为疫情高严重程度、医疗资源紧张;
分别针对所述各个类,若确定一个类中的各个目标区域对应的平均死亡率、平均感染率均小于预设第二比率阈值,并平均医疗资源数据小于等于预设第二医疗资源阈值,则确定对应类的疫情严重程度类别为疫情低严重程度、医疗资源紧张;
分别针对所述各个类,若确定一个类中的各个目标区域对应的平均死亡率小于预设第三比率阈值,并平均治愈率大于等于预设治愈率阈值,则确定对应类的疫情严重程度类别为疫情低严重程度、高治愈率。
13.如权利要求12所述的系统,其特征在于,所述聚类模型为层次法聚类模型。
14.如权利要求2、5、9任一项所述的系统,其特征在于,所述疫情预测系统还包括:
模型评价模块,用于将下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定第一预测模型的第一预测误差,其中,所述下一周期的累计感染人数为根据所述下一周期的现有累计感染人数、累计治愈人数和累计死亡人数确定出的;或/和
模型评价模块,用于将第二预测模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定所述第二预测模型的第二预测误差;或/和
所述模型评价模块,用于将第三预测模型确定出的下一周期的累计感染人数与实际获取到的下一周期的实际累计感染人数进行比对,确定所述第三预测模型的第三预测误差。
15.如权利要求14所述的系统,其特征在于,所述模型评价模块具体用于:
根据所述第一预测误差和所述第二预测误差,从所述第一预测模型和所述第二预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测;或,
根据所述第一预测误差和所述第三预测误差,从所述第一预测模型和所述第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测;或,
根据所述第二预测误差和所述第三预测误差,从所述第二预测模型和所述第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测;或,
根据所述第一预测误差、所述第二预测误差和所述第三预测误差,从所述第一预测模型、所述第二预测模型和所述第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测。
16.如权利要求1或8所述的系统,其特征在于,所述疫情预测系统还包括:
展示模块,用于通过预设展示方式将所述目标区域的疫情预测结果进行展示;
所述展示模块还用于:通过预设展示方式,展示所述目标区域的预设周期对应的治愈率和死亡率;
所述展示模块还用于:通过预设展示方式,展示所述目标区域的预设周期对应的迁入人口数据;
所述展示模块还用于:通过预设展示方式,分别展示第一预测误差、第二预测误差和第三预测误差。
17.如权利要求1所述的系统,其特征在于,所述疫情原始数据至少包括各个目标区域的截止当前周期结束实际累计感染人数、实际累计治愈人数和实际累计死亡人数,以及截止上一周期结束实际累计感染人数、实际累计治愈人数和实际累计死亡人数;
则所述数据构建模块具体用于:
根据确定所述各个目标区域的截止当前周期结束实际累计感染人数和截止上一周期结束实际累计感染人数之间的差值,获得所述各个目标区域的新增感染人数;
根据确定所述各个目标区域的截止当前周期结束实际累计治愈人数和截止上一周期结束实际累计治愈人数之间的差值,获得所述各个目标区域的新增治愈人数;
根据确定所述各个目标区域的截止当前周期结束实际累计死亡人数和截止上一周期结束实际累计治愈人数之间的差值,获得所述各个目标区域的新增死亡人数;
通过确定所述各个目标区域的新增感染人数和累计感染人数之间的比值,分别获得所述各个目标区域对应的感染增长率;
通过确定所述各个目标区域的新增治愈人数和累计治愈人数之间的比值,分别获得所述各个目标区域对应的治愈增长率;
通过确定所述各个目标区域的新增死亡人数和累计死亡人数,分别获得所述各个目标区域对应的死亡增长率;
则展示模块还用于:
通过预设展示方式,分别展示所述各个目标区域的累计感染人数、累计治愈人数、累计死亡人数、感染增长率、治愈增长率和死亡增长率。
18.一种疫情预测方法,其特征在于,包括:
从各个客户端获取目标区域的上一周期的疫情原始数据和与疫情相关的业务数据;
根据所述疫情原始数据,获得所述目标区域的上一周期的疫情特征数据,所述疫情特征数据用于表征所述目标区域的上一周期的疫情发展程度的信息;
将所述疫情原始数据、所述业务数据和所述疫情特征数据,输入已训练的预测模型,获得所述目标区域的下一周期的疫情预测结果,其中,所述预测模型为根据所述目标区域的一定时间段内至少一个采样周期的疫情原始数据样本集和业务数据样本集进行迭代训练获得的,所述疫情原始数据样本集中包括各个采样周期的疫情原始数据样本,所述业务数据样本集中包括所述目标区域各个采样周期的业务数据样本;
在所述目标区域为多个时,基于已训练的聚类模型,将当前获得的各个类中两两类进行预合并,根据各个目标区域的感染率、死亡率、治愈率,和业务数据中的各个目标区域的医疗资源数据,分别计算预合并后的类内部的距离值相对于对应预合并前的两个类内部的距离值之和的增加值,将最小的距离值增加值对应的预合并后的类,以及其它非最小的距离值增加值对应的预合并前的类,作为下一次获得的各个类,直至获得预设数目的类,将获得的预设数目的类作为最终聚类的各个类,其中,初始时获得的各个类为将每个目标区域作为一个类确定的;所述各个目标区域的感染率、治愈率与死亡率是基于所述疫情原始数据,以及业务数据中的各个目标区域的人口数据得到的,所述疫情原始数据至少包括所述各个目标区域的实际累计感染人数、实际累计治愈人数和实际累计死亡人数;
根据聚类获得的各个类中的各个目标区域的感染率、死亡率、治愈率和医疗资源数据,分别确定所述各个类的疫情严重程度类别;基于所述各个类的疫情严重程度类别对对应的各个类中的各个目标区域进行疫情救治资源分析;
将所述预测模型确定出的下一周期的疫情预测结果与实际获取到的下一周期的疫情预测结果进行比对,确定所述预测模型的预测误差;
通过预设展示方式将所述目标区域的疫情预测结果和/或预测模型的预测误差进行展示。
19.如权利要求18所述的方法,其特征在于,若所述预测模型为第一预测模型、第二预测模型、第三预测模型,则将所述预测模型确定出的下一周期的疫情预测结果与实际获取到的下一周期的疫情预测结果进行比对,确定所述预测模型的预测误差,具体包括:
根据第一预测误差和第二预测误差,从所述第一预测模型和所述第二预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测;或,
根据所述第一预测误差和第三预测误差,从所述第一预测模型和所述第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测;或,
根据所述第二预测误差和所述第三预测误差,从所述第二预测模型和所述第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测;或,
根据所述第一预测误差、所述第二预测误差和所述第三预测误差,从所述第一预测模型、所述第二预测模型和所述第三预测模型中,选取预测误差最小的预测模型作为最优预测模型,以基于所述最优预测模型用于疫情预测。
20.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求18-19任一所述方法的步骤。
21.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求18-19任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010678069.5A CN113161004B (zh) | 2020-07-15 | 2020-07-15 | 一种疫情预测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010678069.5A CN113161004B (zh) | 2020-07-15 | 2020-07-15 | 一种疫情预测系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113161004A CN113161004A (zh) | 2021-07-23 |
CN113161004B true CN113161004B (zh) | 2023-11-10 |
Family
ID=76882229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010678069.5A Active CN113161004B (zh) | 2020-07-15 | 2020-07-15 | 一种疫情预测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113161004B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673711A (zh) * | 2021-08-25 | 2021-11-19 | 深圳前海微众银行股份有限公司 | 多智能体模型的训练方法、装置、电子设备及存储介质 |
CN114049968A (zh) * | 2021-10-21 | 2022-02-15 | 北京北明数科信息技术有限公司 | 传染病发展趋势预测方法、系统、装置及存储介质 |
CN114334172B (zh) * | 2021-12-13 | 2022-09-02 | 北京融信数联科技有限公司 | 一种疫情风险评估方法、系统及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1881227A (zh) * | 2006-05-16 | 2006-12-20 | 中国人民解放军第三军医大学 | 传染病疫情诊断及危害度分类智能分析模型技术 |
CN101794342A (zh) * | 2009-09-30 | 2010-08-04 | 中国人民解放军防化指挥工程学院 | 基于非线性、变系数预测模型的传染病疫情预测分析方法 |
CN108172301A (zh) * | 2018-01-31 | 2018-06-15 | 中国科学院软件研究所 | 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统 |
RU2017124795A (ru) * | 2017-07-11 | 2019-01-11 | Федеральное государственное бюджетное образовательное учреждение высшего образования Санкт-Петербургская государственная академия ветеринарной медицины (ФГБОУ ВПО СПбГ АВМ) | Способ оценки и приоритизации региональных эпизоотических рисков |
CN110085327A (zh) * | 2019-04-01 | 2019-08-02 | 东莞理工学院 | 基于注意力机制的多通道lstm神经网络流感疫情预测方法 |
CN110993119A (zh) * | 2020-03-04 | 2020-04-10 | 同盾控股有限公司 | 基于人口迁移的疫情预测方法、装置、电子设备及介质 |
-
2020
- 2020-07-15 CN CN202010678069.5A patent/CN113161004B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1881227A (zh) * | 2006-05-16 | 2006-12-20 | 中国人民解放军第三军医大学 | 传染病疫情诊断及危害度分类智能分析模型技术 |
CN101794342A (zh) * | 2009-09-30 | 2010-08-04 | 中国人民解放军防化指挥工程学院 | 基于非线性、变系数预测模型的传染病疫情预测分析方法 |
RU2017124795A (ru) * | 2017-07-11 | 2019-01-11 | Федеральное государственное бюджетное образовательное учреждение высшего образования Санкт-Петербургская государственная академия ветеринарной медицины (ФГБОУ ВПО СПбГ АВМ) | Способ оценки и приоритизации региональных эпизоотических рисков |
CN108172301A (zh) * | 2018-01-31 | 2018-06-15 | 中国科学院软件研究所 | 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统 |
CN110085327A (zh) * | 2019-04-01 | 2019-08-02 | 东莞理工学院 | 基于注意力机制的多通道lstm神经网络流感疫情预测方法 |
CN110993119A (zh) * | 2020-03-04 | 2020-04-10 | 同盾控股有限公司 | 基于人口迁移的疫情预测方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113161004A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113161004B (zh) | 一种疫情预测系统及方法 | |
Lin et al. | Stationary distribution of a stochastic SIS epidemic model with vaccination | |
Khana et al. | A Bayesian spatial and temporal modeling approach to mapping geographic variation in mortality rates for subnational areas with R-INLA | |
Labib et al. | Estimating multiple greenspace exposure types and their associations with neighbourhood premature mortality: A socioecological study | |
Chen et al. | Efficient social distancing during the COVID-19 pandemic: Integrating economic and public health considerations | |
Shook et al. | A communication-aware framework for parallel spatially explicit agent-based models | |
Lawson et al. | Bayesian disease mapping for public health | |
CN108182231A (zh) | 一种基于灰色关联度的可拓聚类方法及系统 | |
Cui et al. | Fast multilevel functional principal component analysis | |
Shi | A geocomputational process for characterizing the spatial pattern of lung cancer incidence in New Hampshire | |
Huang et al. | The analysis of isolation measures for epidemic control of COVID-19 | |
Amara | Multilevel modelling of individual fertility decisions in Tunisia: Household and regional contextual effects | |
Lee et al. | Spatio-temporal nearest neighbor index for measuring space-time clustering among geographic events | |
Watkins et al. | Using GIS to create synthetic disease outbreaks | |
Ntirampeba et al. | Modelling spatial patterns of misaligned disease data: An application on measles incidence in Namibia | |
Liang et al. | Learning Bayesian networks for discrete data | |
Kang et al. | An investigation of the impact of various geographical scales for the specification of spatial dependence | |
Liao et al. | A comparison of methods for spatial relative risk mapping of human neural tube defects | |
Kim et al. | Spatial non-stationarity in opioid prescribing rates: evidence from older medicare part D beneficiaries | |
Elliott | A simple method to generate equal-sized homogenous strata or clusters for population-based sampling | |
Karanika et al. | Optimized analytics query allocation at the edge of the network | |
Bao et al. | Estimating hiv epidemics for subnational areas | |
Hu et al. | Spatial-cluster signal detection in medical devices using likelihood ratio test method | |
Chen et al. | Visual method of analyzing COVID-19 case information using spatio-temporal objects with multi-granularity | |
Bullen et al. | Correcting for multiple testing during diagnostic accuracy studies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |