CN113192647A - 一种基于多特征分层时空表征的新冠确诊人数预测方法和系统 - Google Patents
一种基于多特征分层时空表征的新冠确诊人数预测方法和系统 Download PDFInfo
- Publication number
- CN113192647A CN113192647A CN202110492154.7A CN202110492154A CN113192647A CN 113192647 A CN113192647 A CN 113192647A CN 202110492154 A CN202110492154 A CN 202110492154A CN 113192647 A CN113192647 A CN 113192647A
- Authority
- CN
- China
- Prior art keywords
- data
- confirmed
- provincial
- feature
- covid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012512 characterization method Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000003745 diagnosis Methods 0.000 title claims abstract description 31
- 241001354243 Corona Species 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000002776 aggregation Effects 0.000 claims abstract description 7
- 238000004220 aggregation Methods 0.000 claims abstract description 7
- 238000007405 data analysis Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 58
- 208000025721 COVID-19 Diseases 0.000 claims description 52
- 230000008859 change Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 238000011161 development Methods 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 11
- 230000000903 blocking effect Effects 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 10
- 238000002203 pretreatment Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 241000711573 Coronaviridae Species 0.000 claims description 8
- 230000004083 survival effect Effects 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 6
- 208000015181 infectious disease Diseases 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 230000036541 health Effects 0.000 claims description 5
- 238000011084 recovery Methods 0.000 claims description 5
- 230000007480 spreading Effects 0.000 claims description 5
- 238000003892 spreading Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005541 medical transmission Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Biophysics (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Entrepreneurship & Innovation (AREA)
Abstract
一种基于多特征分层时空表征的新冠确诊人数预测方法,包括:1)多源数据分析与数据预处理:对新冠有关的多源数据按照所在层面进行分类,分为省层面的新冠数据和国家层面的新冠数据,同类数据按照其最大值进行归一化处理;2)省级多特征时空表征:构建省网,利用图卷积把握其空间特性,在使用长短时记忆网络把握其时间特性,得到省级表征;3)国家级多特征时间表征,重点引入网络搜索数据,加上基本确诊数,通过门控循环网络把握其时间特性,得到国家级表征;4)表征结果经过聚合用来预测新冠确诊病例数;5)模型参数调优;6)预测新冠确诊人数。本发明还包括基于多特征分层时空表征的新冠确诊人数预测系统。
Description
技术领域
本发明涉及新冠确诊人数预测方法和系统,主要功能是对新冠多源异构数据 进行分析,从而得到新冠确诊人数的预测,对于了解新冠发展趋势以及疫情下的 社会管理具有重要意义。
背景技术
一方面,如果没有科学的指导方式,盲目停工,停产将会对整个国家的经济 和发展产生不利的影响;另一方面,在疫情仍具有风险阶段,为了利益,盲目的 复工,复产,将会在更长远的周期上,进一步增加疫情聚集性发生的风险,导致 疫情朝着更为严重的方向发展,最终产生社会经济和生命的巨大损失。同时,了 解到未来新冠人口数量的发展趋势,能够提前指导各类社会资源的调度,特别是 医疗物资,以及医务人员准备,还能指导相关医疗企业的生产工作,在未来需求 量暴增的时候,额外增加工作量以提高生产量,在未来需求量有所减少的时候, 合理控制加班加点,防止生产过度的医疗物资,造成社会资源的浪费。
但是目前的新冠确诊病例预测方法存在以下缺点:一是传统的传染病传播模 型没有结合多源的新冠相关的数据;二是新冠的爆发体现出其强烈的时空特征, 但一般对疫情分析,都没有考虑到其时空特征。这些问题的存在大大的降低了确 诊病例预测的准确性。
发明内容
本发明要克服现有技术的上述缺点,提出一种新冠确诊数据预测算法和系统。 本发明基于多源新冠数据,进一步分析数据的时空特征,分层的得到省层次和国 家层次的新冠多特征表征;表征结果进行融合得到相应的新冠确诊人数预测结果。
本发明通过以下技术方案达到上述目的:一种基于多特征分层时空表征的新 冠确诊人数预测方法,包括以下步骤:
(1)分析多源数据与预处理数据:对新冠有关的多源数据按照所在层面进 行分类,分为省层面的新冠数据和国家层面的新冠数据,同类数据按照其最大值 进行归一化处理;具体包括:
新冠多源数据分为两类,一类是省层面的数据,另一类是国家层面的数据。
进一步细分,省层面的基本的数据,分别为确诊数、恢复数和死亡数,这三 个指标与未来的新冠确诊量具有最直接的关系。天气类型的数据,在许多科学研 究中被认为其与疫情的传播有重要的关系,就新冠问题来说,由于新冠属于冠状 病毒,环境温度的变化对其在环境中的生存时间有重要的影响。在冬天,环境温 度比较低的时候,疫情的发展将会更加迅速。其他的风速,降雨量也会有一定的 影响。地理数据在一些科学研究中也被证明对新冠传播有影响。兴趣点数据,体 现了一个地区的整体程度以及医疗卫生水平。人口数据展示人口情况,不同年纪 和不同密度的人口在新冠传播过程中体现出了不同的特性。政策数据体现了城市 的封锁情况,一般等级越高国家的封锁程度越强,新冠疫情传播的机会越少。
国家层面的数据分两种,一种是最基本的确诊量,另一种是新冠疫情在网络 上的搜索热度。在得到搜索量之后,把它映射到1-100%区间,新冠确诊人数的 发展随着网上的搜索热度的变化而变化。这一特性将在新冠确诊人数预测起到关 键的作用。
当然所有的数据都经过各自数据类的最大值标准化之后,输入模型进行预测。
(2)时空表征省级多特征;具体包括:
在得到省级的数据之后,分析省级数据的时空特性。
根据疫情爆发的特点,观察得到疫情的发展在空间上有显著的空间特性。由 疫情高危区域向周围扩散开来,每日新增的确诊人数也基本符合这一规律。 COVID-19确诊人数的动态改变还受过去感染病例的变化趋势的影响。
为了把握省级数据之间的空间特性,引出如下定义:
定义1:省网G。使用无权图G=(V,E)去描述区域的拓扑结构,把每一个 省作为一个节点,V代表一系列的路网节点,V={v1,v2,v3,…vN},N代表节点的 数量,E代表一组边。用邻接矩阵A表示区域之间的连接,邻接矩阵 仅包含0和1元素。如果两个省之间没有链接,则元素为0,而1表示存在链 接。
定义2:特征矩阵XN×P。将每个省份与疫情有关的特征(例如:环境温度、 社会隔离程度、经纬度、人口基数、人口密度、年龄分布等)作为节点的属性 特征,P代表属性特征的个数。
传统的卷积神经网络(CNN)可以获得局部空间特征,但只能用于欧氏空间, 如图像、规则网格等。但是实际中,各个区域的连接是复杂的,不是二维网格, 这意味着CNN模型不能反映疫情爆发区域的复杂拓扑结构,不能准确掌握其空 间依赖。GCN模型在很多应用中都得到了成功的应用,包括文档分类,无监督 学习等。给定邻接矩阵A和特征矩阵X,GCN模型在傅里叶域构造一个滤波器。 滤波器作用于图的节点,通过节点的一阶邻域获取节点之间的空间特征,然后通 过叠加多个卷积层构建GCN模型,可以表示为
在省层面获取时空依赖的时空细胞构建,先使用两层的图卷积去获取其空间 特性。
其中是预处理阶段,代表从输入到隐藏节点的权重矩阵,代表从隐藏节点到输出的权重矩阵,ReLU()是线性整流函数。 代表经过两层卷积后输出的结果,用两层的GCN同时应用于多 特征输入,学习COVID-19数据的空间依赖,然后在输入LSTM中获取其时间 依赖。
⊙代表哈达玛积。经过上面的一系列计算之后,取最后一个Ht作为省层面的多 特征表征。
(3)时间表征国家级多特征;具体包括:
在国家层面,把网络搜索量和每日确诊量结合为 然后输入到GRU中,用网络搜索量的趋势结合历史COVID-19确诊 数的发展趋势,进一步的把握COVID-19确诊数的未来趋势,对预测下一时刻的 COVID-19走势做到更加精准的预测。
ht为国家多特征表征结果。
(4)表征结果经过聚合用来预测新冠确诊病例数,具体包括:
即为最终的预测结果。训练过程的目标是最小化预测COVID-19确诊数量与真实数量的误差。使用Yt和分别代表预测值与真实值。损失函数用以下公式所示。 前半部分最小化真实值与预测值之间的错误。后半部分Lreg为L2正则化项用来 避免函数的过拟合,λ是一个超参数。
(5)调优模型参数;具体包括:
COVID-19预测的超参数包括:batch大小、学习速率、训练次数、LSTM和 GRU隐藏单元数、GCN隐藏单元数、LSTM和GCN层数。手动调整batch大小 为32,学习速率为0.001,训练次数为2500。
LSTM和GRU隐藏单元和层数以及GCN隐藏单元数是COVID-19预测的 重要参数,不同的隐藏单元数对预测精度影响很大。测试各种数字,并通过比较 预测精度来选择最佳值。
从[8,16,32,64,128]中选择LSTM和GRU隐藏单元的数量,分析COVID- 19预测精度的变化。同样,选取[1,2,3,4,5]中的LSTM和GRU层数,选取[8, 16,32,64,100,128]中的GCN隐藏单元,再次分析预测精度的变化。
在COVID-19确诊病例预测中,使用70%的韩国数据集作为训练集,15%作 为验证集,其余15%作为测试集。
(6)利用步骤(5)获得的模型预测新冠确诊人数。
实施前述的一种基于多特征分层时空表征的新冠确诊人数预测方法的系统, 包括依次连接的多源数据分析与数据预处理模块、省级多特征时空表征模块、国 家级多特征时间表征模块、表征结果聚合模块、模型参数调优模块、新冠确诊人 数预测模块。
本发明的优点是:1.通过分析新冠相关的多源数据,掌握每种数据对新冠未 来发展趋势的影响,融合研究,从而做到更加准确的新冠预测。
2.通过分析新冠爆发的时空特征,分别从时间维度与空间维度对新冠发展进 行研究,从而做到更加准确的新冠预测。
附图说明
图1是本发明的整体流程图。
图2是本发明的互联网新冠搜索热度统计结果示意图。
图3(a)是本发明的新冠爆发的空间特性即韩国在2020年2月25日累计 新冠确诊量的全国地理分布,图3(b)是本发明的对图3(a)的空间特性进行 网络的构建,按照省为节点,是否相交为边构建的省网。
图4是本发明的空细胞结构图。
图5是本发明的LSTM与GRU隐藏节点个数与实验结果示意图。
图6是LSTM与GRU层数与实验结果展示图。
图7是GCNs隐藏单元个数与实验结果示意图。
图8是本发明实例中本发明与其他方法在两个评估指标下的效果对比图。
图9是本发明实例中本发明与其他方法的实际效果展示图。
具体实施方案
下面结合附图对本发明的技术方案做进一步说明。
下面结合韩国新冠多源数据与韩国的新冠确诊数预测的实例对本发明进行 进一步描述。
本实例中的新冠确诊数预测方法整体方法如图1所示,具体包括以下步骤:
(1)分析多源数据与预处理数据:
我们首先对韩国的新冠多源数据进行分析。如下表所示:
表1
从表格中我们可以看到与新冠有关的数据有很多,从大的层面上可以分为两 类,一类是省层面的数据,另一类是国家层面的数据。
进一步细分,省层面的基本的数据,分别为确诊数、恢复数和死亡数,这三 个指标与未来的新冠确诊量具有最直接的关系。天气类型的数据,在许多科学研 究中被认为其与疫情的传播有重要的关系,就新冠问题来说,由于新冠属于冠状 病毒,环境温度的变化对其在环境中的生存时间有重要的影响。一般我们认为, 在冬天,环境温度比较低的时候,疫情的发展将会更加迅速。其他的风速,降雨 量也会有一定的影响。地理数据在一些科学研究中也被证明对新冠传播有影响。 兴趣点数据,体现了一个地区的整体程度以及医疗卫生水平。人口数据展示人口 情况,不同年纪和不同密度的人口在新冠传播过程中体现出了不同的特性。政策 数据体现了城市的封锁情况,一般等级越高国家的封锁程度越强,新冠疫情传播 的机会越少。
国家层面的数据我这里主要总到两种,一种就是最基本的确诊量,另一种是 新冠疫情在网络上的搜索热度。在图2中,我们特地从韩国本土的一个受欢迎的 搜索引擎Naver上收集到的有关新冠的搜索量,在得到搜索量之后,我们把它映 射到1-100%区间,从图中,我们能够清楚的看到,新冠确诊人数的发展随着网 上的搜索热度的变化而变化。这一特性将在新冠确诊人数预测起到关键的作用。
当然所有的数据都经过各自数据类的最大值标准化之后,输入模型进行预测。
(2)时空表征省级多特征:
在得到省级的数据之后,我们来分析省级数据的时空特性。
根据疫情爆发的特点,我们可以观察得到疫情的发展在空间上有显著的空间 特性。如图3(a)所示,一般是由疫情高危区域向周围扩散开来,每日新增的确 诊人数也基本符合这一规律。COVID-19确诊人数的动态改变还受过去感染病例 的趋势。正如图1所示,黑色虚线表示COVID-19确诊病例在特定时间范围内有 变化趋势。故COVID-19确诊人口的数量往往与之前几天的变化趋势有关系。
为了把握省级数据之间的空间特性,特地引出一下定义。
定义1:省网G。我们使用无权图G=(V,E)去描述区域的拓扑结构,我们 把每一个省作为一个节点,V代表一系列的路网节点,V={v1,v2,v3,…vN},N代 表节点的数量,E代表一组边。用邻接矩阵A表示区域之间的连接,邻接矩阵仅包含0和1元素。如果两个省之间没有链接,则元素为0,而1表示 存在链接。
定义2:特征矩阵XN×P。我们将每个省份与疫情有关的特征(例如:环境温 度、社会隔离程度、经纬度、人口基数、人口密度、年龄分布等)作为节点的 属性特征,P代表属性特征的个数。
韩国总共17个省份,17*17的邻接矩阵A描述省之间的空间关系,每一行 代表一个省份,矩阵中的值代表省份之间的连通性。特征矩阵描述了所有特征随 时间的变化,每17行表示17个省的一天,每行表示有24个特征数。
传统的卷积神经网络(CNN)可以获得局部空间特征,但只能用于欧氏空间, 如图像、规则网格等。但是实际中,各个区域的连接是复杂的,不是二维网格, 这意味着CNN模型不能反映疫情爆发区域的复杂拓扑结构,不能准确掌握其空 间依赖。GCN模型在很多应用中都得到了成功的应用,包括文档分类,无监督 学习等。给定邻接矩阵A和特征矩阵X,GCN模型在傅里叶域构造一个滤波器。 滤波器作用于图的节点,通过节点的一阶邻域获取节点之间的空间特征,然后通 过叠加多个卷积层构建GCN模型,可以表示为
本发明在省层面获取时空依赖的时空细胞构建如图4所示。先使用两层的图 卷积去获取其空间特性。
其中是预处理阶段,代表从输入到隐藏节点的权重矩阵,代表从隐藏节点到输出的权重矩阵,ReLU()是线性整流函数。 代表经过两层卷积后输出的结果,在这里我们用两层的GCN同 时应用于多特征输入,学习COVID-19数据的空间依赖,然后在输入LSTM中 获取其时间依赖。
⊙代表哈达玛积。经过上面的一系列计算之后,取最后一个Ht作为省层面的多 特征表征。
(3)时间表征国家级多特征:
在国家层面,我们把网络搜索量和每日确诊量结合为然后输入到GRU中,用网络搜索量的趋势结合历史COVID-19确诊 数的发展趋势,进一步的把握COVID-19确诊数的未来趋势,对预测下一时刻的 COVID-19走势做到更加精准的预测。
ht为国家多特征表征结果。
(4)表征结果经过聚合用来预测新冠确诊病例数:
在我们的训练过程中,我们的目标是最小化预测COVID-19确诊数量与真实 数量的误差。我们使用Yt和分别代表预测值与真实值。损失函数用以下公式所 示。前半部分最小化真实值与预测值之间的错误。后半部分Lreg为L2正则化项 用来避免函数的过拟合,λ是一个超参数。
(5)调优实验参数与展示结果:
COVID-19预测的主要超参数包括:batch大小、学习速率、训练次数、LSTM 和GRU隐藏单元数、GCN隐藏单元数、LSTM和GCN层数。在本实验中,我 们手动调整batch大小为32,学习速率为0.001,训练次数为2500。
LSTM和GRU隐藏单元和层数以及GCN隐藏单元数是COVID-19预测的 重要参数,不同的隐藏单元数对预测精度影响很大。我们测试各种数字,并通过 比较预测精度来选择最佳值。
在我们的实验中,我们从[8,16,32,64,128]中选择LSTM和GRU隐藏单元 的数量,分析COVID-19预测精度的变化。在图5中,左边纵轴表示均方根误差 结果的变化,右边纵轴表示平均误差结果的变化,横轴表示隐藏单元的数量。可 以看出,有16个隐藏单位时,结果最好;随着隐藏单位数量的增加,误差指标先 下降,然后上升。这主要是因为隐藏单元数量的增加大大增加了模型的复杂性和 计算难度,对训练数据产生过拟合。因此,我们将隐藏单位的数量设置为16。
同样,我们选取[1,2,3,4,5]中的LSTM和GRU层数,选取[8,16,32,64,100, 128]中的GCN隐藏单元,再次分析预测精度的变化。根据图6和图7结果分析, 我们将GCN隐藏单位设置为100,LSTM和GRU层数设置为3。
(6)利用步骤(5)获得的模型预测新冠确诊人数。
在COVID-19确诊病例预测中,使用70%的韩国数据集作为训练集,15%作 为验证集,其余15%作为测试集。
我们将确诊病例的预测与以下基线方法进行比较:历史平均模型(HA),它使 用COVID-19确诊病例的历史平均值作为预测;LSTM;GRU;T-GCN;单特征 分层时空表示模型(GCN+LSTM+LSTM,GCN+LSTM+GRU),该模型使用 了我们的多特征分层表征预测中的单个特征。从图8中我们可以看出本发明在均 方根误差和平均绝对误差这两个指标上相较于其它方法具有一定的优势。图9的 实际效果展示也能看出本发明在预测上存在优势。
实施前述的一种基于多特征分层时空表征的新冠确诊人数预测方法的系统, 包括依次连接的多源数据分析与数据预处理模块、省级多特征时空表征模块、国 家级多特征时间表征模块、表征结果聚合模块、模型参数调优模块、新冠确诊人 数预测模块;
其中,所述的多源数据分析与数据预处理模块具体包括:
新冠多源数据分为两类,一类是省层面的数据,另一类是国家层面的数据。
进一步细分,省层面的基本的数据,分别为确诊数、恢复数和死亡数,这三 个指标与未来的新冠确诊量具有最直接的关系。天气类型的数据,在许多科学研 究中被认为其与疫情的传播有重要的关系,就新冠问题来说,由于新冠属于冠状 病毒,环境温度的变化对其在环境中的生存时间有重要的影响。在冬天,环境温 度比较低的时候,疫情的发展将会更加迅速。其他的风速,降雨量也会有一定的 影响。地理数据在一些科学研究中也被证明对新冠传播有影响。兴趣点数据,体 现了一个地区的整体程度以及医疗卫生水平。人口数据展示人口情况,不同年纪 和不同密度的人口在新冠传播过程中体现出了不同的特性。政策数据体现了城市 的封锁情况,一般等级越高国家的封锁程度越强,新冠疫情传播的机会越少。
国家层面的数据分两种,一种是最基本的确诊量,另一种是新冠疫情在网络 上的搜索热度。在得到搜索量之后,把它映射到1-100%区间,新冠确诊人数的 发展随着网上的搜索热度的变化而变化。这一特性将在新冠确诊人数预测起到关 键的作用。
当然所有的数据都经过各自数据类的最大值标准化之后,输入模型进行预测。
其中,所述的省级多特征时空表征模块具体包括:
在得到省级的数据之后,分析省级数据的时空特性。
根据疫情爆发的特点,观察得到疫情的发展在空间上有显著的空间特性。由 疫情高危区域向周围扩散开来,每日新增的确诊人数也基本符合这一规律。 COVID-19确诊人数的动态改变还受过去感染病例的变化趋势的影响。
为了把握省级数据之间的空间特性,引出如下定义:
定义1:省网G。使用无权图G=(V,E)去描述区域的拓扑结构,把每一个 省作为一个节点,V代表一系列的路网节点,V={v1,v2,v3,…vN},N代表节点的 数量,E代表一组边。用邻接矩阵A表示区域之间的连接,邻接矩阵 仅包含0和1元素。如果两个省之间没有链接,则元素为0,而1表示存在链 接。
定义2:特征矩阵XN×P。将每个省份与疫情有关的特征(例如:环境温度、 社会隔离程度、经纬度、人口基数、人口密度、年龄分布等)作为节点的属性 特征,P代表属性特征的个数。
传统的卷积神经网络(CNN)可以获得局部空间特征,但只能用于欧氏空间, 如图像、规则网格等。但是实际中,各个区域的连接是复杂的,不是二维网格, 这意味着CNN模型不能反映疫情爆发区域的复杂拓扑结构,不能准确掌握其空 间依赖。GCN模型在很多应用中都得到了成功的应用,包括文档分类,无监督 学习等。给定邻接矩阵A和特征矩阵X,GCN模型在傅里叶域构造一个滤波器。 滤波器作用于图的节点,通过节点的一阶邻域获取节点之间的空间特征,然后通 过叠加多个卷积层构建GCN模型,可以表示为
在省层面获取时空依赖的时空细胞构建,先使用两层的图卷积去获取其空间 特性。
其中是预处理阶段,代表从输入到隐藏节点的权重矩阵,代表从隐藏节点到输出的权重矩阵,ReLU()是线性整流函数。 代表经过两层卷积后输出的结果,用两层的GCN同时应用于多 特征输入,学习COVID-19数据的空间依赖,然后在输入LSTM中获取其时间 依赖。
⊙代表哈达玛积。经过上面的一系列计算之后,取最后一个Ht作为省层面的多 特征表征。
其中,所述的国家级多特征时间表征模块具体包括:
在国家层面,把网络搜索量和每日确诊量结合为 然后输入到GRU中,用网络搜索量的趋势结合历史COVID-19确诊 数的发展趋势,进一步的把握COVID-19确诊数的未来趋势,对预测下一时刻的 COVID-19走势做到更加精准的预测。
ht为国家多特征表征结果。
其中,所述的表征结果聚合模块具体包括:
即为最终的预测结果。训练过程的目标是最小化预测COVID-19确诊数量与真实数量的误差。使用Yt和分别代表预测值与真实值。损失函数用以下公式所示。 前半部分最小化真实值与预测值之间的错误。后半部分Lreg为L2正则化项用来 避免函数的过拟合,λ是一个超参数。
其中,所述的模型参数调优模块具体包括:
COVID-19预测的超参数包括:batch大小、学习速率、训练次数、LSTM和 GRU隐藏单元数、GCN隐藏单元数、LSTM和GCN层数。手动调整batch大小 为32,学习速率为0.001,训练次数为2500。
LSTM和GRU隐藏单元和层数以及GCN隐藏单元数是COVID-19预测的 重要参数,不同的隐藏单元数对预测精度影响很大。测试各种数字,并通过比较 预测精度来选择最佳值。
从[8,16,32,64,128]中选择LSTM和GRU隐藏单元的数量,分析COVID- 19预测精度的变化。同样,选取[1,2,3,4,5]中的LSTM和GRU层数,选取[8, 16,32,64,100,128]中的GCN隐藏单元,再次分析预测精度的变化。
在COVID-19确诊病例预测中,使用70%的韩国数据集作为训练集,15%作 为验证集,其余15%作为测试集。
所述的新冠确诊人数预测模块利用模型参数调优模块获得的模型预测新冠 确诊人数。
Claims (2)
1.一种基于多特征分层时空表征的新冠确诊人数预测方法,包括以下步骤:
(1)分析多源数据与预处理数据:对新冠有关的多源数据按照所在层面进行分类,分为省层面的新冠数据和国家层面的新冠数据,同类数据按照其最大值进行归一化处理;具体包括:
新冠多源数据分为两类,一类是省层面的数据,另一类是国家层面的数据。
进一步细分,省层面的基本的数据,分别为确诊数、恢复数和死亡数,这三个指标与未来的新冠确诊量具有最直接的关系。天气类型的数据,在许多科学研究中被认为其与疫情的传播有重要的关系,就新冠问题来说,由于新冠属于冠状病毒,环境温度的变化对其在环境中的生存时间有重要的影响。在冬天,环境温度比较低的时候,疫情的发展将会更加迅速。其他的风速,降雨量也会有一定的影响。地理数据在一些科学研究中也被证明对新冠传播有影响。兴趣点数据,体现了一个地区的整体程度以及医疗卫生水平。人口数据展示人口情况,不同年纪和不同密度的人口在新冠传播过程中体现出了不同的特性。政策数据体现了城市的封锁情况,一般等级越高国家的封锁程度越强,新冠疫情传播的机会越少。
国家层面的数据分两种,一种是最基本的确诊量,另一种是新冠疫情在网络上的搜索热度。在得到搜索量之后,把它映射到1-100%区间,新冠确诊人数的发展随着网上的搜索热度的变化而变化。这一特性将在新冠确诊人数预测起到关键的作用。
当然所有的数据都经过各自数据类的最大值标准化之后,输入模型进行预测。
(2)时空表征省级多特征,具体包括:
在得到省级的数据之后,分析省级数据的时空特性。
根据疫情爆发的特点,观察得到疫情的发展在空间上有显著的空间特性。由疫情高危区域向周围扩散开来,每日新增的确诊人数也基本符合这一规律。COVID-19确诊人数的动态改变还受过去感染病例的变化趋势的影响。
为了把握省级数据之间的空间特性,引出如下定义:
定义1:省网G。使用无权图G=(V,E)去描述区域的拓扑结构,把每一个省作为一个节点,V代表一系列的路网节点,V={v1,v2,v3,…vN},N代表节点的数量,E代表一组边。用邻接矩阵A表示区域之间的连接,邻接矩阵仅包含0和1元素。如果两个省之间没有链接,则元素为0,而1表示存在链接。
定义2:特征矩阵XN×P。将每个省份与疫情有关的特征(例如:环境温度、社会隔离程度、经纬度、人口基数、人口密度、年龄分布等)作为节点的属性特征,P代表属性特征的个数。
传统的卷积神经网络(CNN)可以获得局部空间特征,但只能用于欧氏空间,如图像、规则网格等。但是实际中,各个区域的连接是复杂的,不是二维网格,这意味着CNN模型不能反映疫情爆发区域的复杂拓扑结构,不能准确掌握其空间依赖。GCN模型在很多应用中都得到了成功的应用,包括文档分类,无监督学习等。给定邻接矩阵A和特征矩阵X,GCN模型在傅里叶域构造一个滤波器。滤波器作用于图的节点,通过节点的一阶邻域获取节点之间的空间特征,然后通过叠加多个卷积层构建GCN模型,可以表示为
在省层面获取时空依赖的时空细胞构建,先使用两层的图卷积去获取其空间特性。
其中是预处理阶段,代表从输入到隐藏节点的权重矩阵,代表从隐藏节点到输出的权重矩阵,ReLU()是线性整流函数。代表经过两层卷积后输出的结果,用两层的GCN同时应用于多特征输入,学习COVID-19数据的空间依赖,然后在输入LSTM中获取其时间依赖。
⊙代表哈达玛积。经过上面的一系列计算之后,取最后一个Ht作为省层面的多特征表征。
(3)时间表征国家级多特征,具体包括:
在国家层面,把网络搜索量和每日确诊量结合为然后输入到GRU中,用网络搜索量的趋势结合历史COVID-19确诊数的发展趋势,进一步的把握COVID-19确诊数的未来趋势,对预测下一时刻的COVID-19走势做到更加精准的预测。
ht为国家多特征表征结果。
(4)表征结果经过聚合用来预测新冠确诊病例数;具体包括:
即为最终的预测结果。训练过程的目标是最小化预测COVID-19确诊数量与真实数量的误差。使用Yt和分别代表预测值与真实值。损失函数用以下公式所示。前半部分最小化真实值与预测值之间的错误。后半部分Lreg为L2正则化项用来避免函数的过拟合,λ是一个超参数。
(5)调优模型参数,具体包括:
COVID-19预测的超参数包括:batch大小、学习速率、训练次数、LSTM和GRU隐藏单元数、GCN隐藏单元数、LSTM和GCN层数。手动调整batch大小为32,学习速率为0.001,训练次数为2500。
LSTM和GRU隐藏单元和层数以及GCN隐藏单元数是COVID-19预测的重要参数,不同的隐藏单元数对预测精度影响很大。测试各种数字,并通过比较预测精度来选择最佳值。
从[8,16,32,64,128]中选择LSTM和GRU隐藏单元的数量,分析COVID-19预测精度的变化。同样,选取[1,2,3,4,5]中的LSTM和GRU层数,选取[8,16,32,64,100,128]中的GCN隐藏单元,再次分析预测精度的变化。
在COVID-19确诊病例预测中,使用70%的韩国数据集作为训练集,15%作为验证集,其余15%作为测试集。
(6)利用步骤(5)获得的模型预测新冠确诊人数。
2.实施权利要求1所述的一种基于多特征分层时空表征的新冠确诊人数预测方法的系统,其特征在于:包括依次连接的多源数据分析与数据预处理模块、省级多特征时空表征模块、国家级多特征时间表征模块、表征结果聚合模块、模型参数调优模块、新冠确诊人数预测模块;
其中,所述的多源数据分析与数据预处理模块具体包括:
新冠多源数据分为两类,一类是省层面的数据,另一类是国家层面的数据。
进一步细分,省层面的基本的数据,分别为确诊数、恢复数和死亡数,这三个指标与未来的新冠确诊量具有最直接的关系。天气类型的数据,在许多科学研究中被认为其与疫情的传播有重要的关系,就新冠问题来说,由于新冠属于冠状病毒,环境温度的变化对其在环境中的生存时间有重要的影响。在冬天,环境温度比较低的时候,疫情的发展将会更加迅速。其他的风速,降雨量也会有一定的影响。地理数据在一些科学研究中也被证明对新冠传播有影响。兴趣点数据,体现了一个地区的整体程度以及医疗卫生水平。人口数据展示人口情况,不同年纪和不同密度的人口在新冠传播过程中体现出了不同的特性。政策数据体现了城市的封锁情况,一般等级越高国家的封锁程度越强,新冠疫情传播的机会越少。
国家层面的数据分两种,一种是最基本的确诊量,另一种是新冠疫情在网络上的搜索热度。在得到搜索量之后,把它映射到1-100%区间,新冠确诊人数的发展随着网上的搜索热度的变化而变化。这一特性将在新冠确诊人数预测起到关键的作用。
当然所有的数据都经过各自数据类的最大值标准化之后,输入模型进行预测。
其中,所述的省级多特征时空表征模块具体包括:
在得到省级的数据之后,分析省级数据的时空特性。
根据疫情爆发的特点,观察得到疫情的发展在空间上有显著的空间特性。由疫情高危区域向周围扩散开来,每日新增的确诊人数也基本符合这一规律。COVID-19确诊人数的动态改变还受过去感染病例的变化趋势的影响。
为了把握省级数据之间的空间特性,引出如下定义:
定义1:省网G。使用无权图G=(V,E)去描述区域的拓扑结构,把每一个省作为一个节点,V代表一系列的路网节点,V={v1,v2,v3,…vN},N代表节点的数量,E代表一组边。用邻接矩阵A表示区域之间的连接,邻接矩阵仅包含0和1元素。如果两个省之间没有链接,则元素为0,而1表示存在链接。
定义2:特征矩阵XN×P。将每个省份与疫情有关的特征(例如:环境温度、社会隔离程度、经纬度、人口基数、人口密度、年龄分布等)作为节点的属性特征,P代表属性特征的个数。
传统的卷积神经网络(CNN)可以获得局部空间特征,但只能用于欧氏空间,如图像、规则网格等。但是实际中,各个区域的连接是复杂的,不是二维网格,这意味着CNN模型不能反映疫情爆发区域的复杂拓扑结构,不能准确掌握其空间依赖。GCN模型在很多应用中都得到了成功的应用,包括文档分类,无监督学习等。给定邻接矩阵A和特征矩阵X,GCN模型在傅里叶域构造一个滤波器。滤波器作用于图的节点,通过节点的一阶邻域获取节点之间的空间特征,然后通过叠加多个卷积层构建GCN模型,可以表示为
在省层面获取时空依赖的时空细胞构建,先使用两层的图卷积去获取其空间特性。
其中是预处理阶段,代表从输入到隐藏节点的权重矩阵,代表从隐藏节点到输出的权重矩阵,ReLU()是线性整流函数。代表经过两层卷积后输出的结果,用两层的GCN同时应用于多特征输入,学习COVID-19数据的空间依赖,然后在输入LSTM中获取其时间依赖。
⊙代表哈达玛积。经过上面的一系列计算之后,取最后一个Ht作为省层面的多特征表征。
其中,所述的国家级多特征时间表征模块具体包括:
在国家层面,把网络搜索量和每日确诊量结合为然后输入到GRU中,用网络搜索量的趋势结合历史COVID-19确诊数的发展趋势,进一步的把握COVID-19确诊数的未来趋势,对预测下一时刻的COVID-19走势做到更加精准的预测。
ht为国家多特征表征结果。
其中,所述的表征结果聚合模块具体包括:
即为最终的预测结果。训练过程的目标是最小化预测COVID-19确诊数量与真实数量的误差。使用Yt和分别代表预测值与真实值。损失函数用以下公式所示。前半部分最小化真实值与预测值之间的错误。后半部分Lreg为L2正则化项用来避免函数的过拟合,λ是一个超参数。
其中,所述的模型参数调优模块具体包括:
COVID-19预测的超参数包括:batch大小、学习速率、训练次数、LSTM和GRU隐藏单元数、GCN隐藏单元数、LSTM和GCN层数。手动调整batch大小为32,学习速率为0.001,训练次数为2500。
LSTM和GRU隐藏单元和层数以及GCN隐藏单元数是COVID-19预测的重要参数,不同的隐藏单元数对预测精度影响很大。测试各种数字,并通过比较预测精度来选择最佳值。
从[8,16,32,64,128]中选择LSTM和GRU隐藏单元的数量,分析COVID-19预测精度的变化。同样,选取[1,2,3,4,5]中的LSTM和GRU层数,选取[8,16,32,64,100,128]中的GCN隐藏单元,再次分析预测精度的变化。
在COVID-19确诊病例预测中,使用70%的韩国数据集作为训练集,15%作为验证集,其余15%作为测试集。
所述的新冠确诊人数预测模块利用模型参数调优模块获得的模型预测新冠确诊人数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110492154.7A CN113192647A (zh) | 2021-05-06 | 2021-05-06 | 一种基于多特征分层时空表征的新冠确诊人数预测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110492154.7A CN113192647A (zh) | 2021-05-06 | 2021-05-06 | 一种基于多特征分层时空表征的新冠确诊人数预测方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113192647A true CN113192647A (zh) | 2021-07-30 |
Family
ID=76983965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110492154.7A Pending CN113192647A (zh) | 2021-05-06 | 2021-05-06 | 一种基于多特征分层时空表征的新冠确诊人数预测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113192647A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724792A (zh) * | 2021-08-01 | 2021-11-30 | 北京工业大学 | 一种基于相关性分析的病毒扩散与气候因素关系分析方法 |
CN113838582A (zh) * | 2021-11-29 | 2021-12-24 | 中国人民解放军军事科学院军事医学研究院 | 一种基于区域相似度的传染病趋势预测方法和系统 |
CN114496198A (zh) * | 2022-04-06 | 2022-05-13 | 成都秦川物联网科技股份有限公司 | 一种基于物联网的智慧城市疫苗调度方法和系统 |
-
2021
- 2021-05-06 CN CN202110492154.7A patent/CN113192647A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724792A (zh) * | 2021-08-01 | 2021-11-30 | 北京工业大学 | 一种基于相关性分析的病毒扩散与气候因素关系分析方法 |
CN113724792B (zh) * | 2021-08-01 | 2024-04-09 | 北京工业大学 | 一种基于相关性分析的病毒扩散与气候因素关系分析方法 |
CN113838582A (zh) * | 2021-11-29 | 2021-12-24 | 中国人民解放军军事科学院军事医学研究院 | 一种基于区域相似度的传染病趋势预测方法和系统 |
CN113838582B (zh) * | 2021-11-29 | 2022-04-05 | 中国人民解放军军事科学院军事医学研究院 | 一种基于区域相似度的传染病趋势预测方法和系统 |
CN114496198A (zh) * | 2022-04-06 | 2022-05-13 | 成都秦川物联网科技股份有限公司 | 一种基于物联网的智慧城市疫苗调度方法和系统 |
US11756678B1 (en) | 2022-04-06 | 2023-09-12 | Chengdu Qinchuan Iot Technology Co., Ltd. | Methods and systems for scheduling vaccines in smart cities based on internet of things (IoT) |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492822B (zh) | 空气污染物浓度时空域关联预测方法 | |
CN109508360B (zh) | 一种基于元胞自动机的地理多元流数据时空自相关分析方法 | |
CN113192647A (zh) | 一种基于多特征分层时空表征的新冠确诊人数预测方法和系统 | |
CN108491970A (zh) | 一种基于rbf神经网络的大气污染物浓度预测方法 | |
CN110138595A (zh) | 动态加权网络的时间链路预测方法、装置、设备及介质 | |
CN113190654A (zh) | 一种基于实体联合嵌入和概率模型的知识图谱补全方法 | |
CN114944053A (zh) | 一种基于时空超图神经网络的交通流预测方法 | |
CN111639243A (zh) | 时空数据渐进式多维模式提取与异常检测可视分析方法 | |
Tong et al. | Detection of urban sprawl using a genetic algorithm-evolved artificial neural network classification in remote sensing: a case study in Jiading and Putuo districts of Shanghai, China | |
CN115376317B (zh) | 一种基于动态图卷积和时序卷积网络的交通流预测方法 | |
Handoyo et al. | The developing of fuzzy system for multiple time series forecasting with generated rule bases and optimized consequence part | |
CN114118269A (zh) | 基于典型业务场景下的能源大数据聚合分析方法 | |
CN115629160A (zh) | 一种基于时空图的空气污染物浓度预测方法及系统 | |
CN112749791A (zh) | 一种基于图神经网络和胶囊网络的链路预测方法 | |
CN116205508A (zh) | 一种分布式光伏发电异常诊断方法和系统 | |
CN116206158A (zh) | 基于双超图神经网络的场景图像分类方法及系统 | |
Wasesa et al. | Predicting electricity consumption in microgrid-based educational building using google trends, google mobility, and covid-19 data in the context of covid-19 pandemic | |
Han et al. | A deep learning model based on multi-source data for daily tourist volume forecasting | |
Qu et al. | Short-term wind farm cluster power prediction based on dual feature extraction and quadratic decomposition aggregation | |
Chen et al. | Short-term Wind Speed Forecasting Based on Singular Spectrum Analysis, Fuzzy C-Means Clustering, and Improved POABP | |
CN116777539A (zh) | 基于层次区域结构图的毛鸡品种毛利趋势预测系统及方法 | |
Gao et al. | Short-term traffic flow prediction based on time-Space characteristics | |
CN114818681B (zh) | 一种实体识别方法及系统、计算机可读存储介质及终端 | |
CN113537607B (zh) | 停电预测方法 | |
CN112862070A (zh) | 一种利用图神经网络和胶囊网络的链路预测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210730 |