CN113192647A

CN113192647A - 一种基于多特征分层时空表征的新冠确诊人数预测方法和系统

Info

Publication number: CN113192647A
Application number: CN202110492154.7A
Authority: CN
Inventors: 孔祥杰; 李宁; 郦鹏飞; 沈国江
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-07-30

Abstract

一种基于多特征分层时空表征的新冠确诊人数预测方法，包括：1)多源数据分析与数据预处理：对新冠有关的多源数据按照所在层面进行分类，分为省层面的新冠数据和国家层面的新冠数据，同类数据按照其最大值进行归一化处理；2)省级多特征时空表征：构建省网，利用图卷积把握其空间特性，在使用长短时记忆网络把握其时间特性，得到省级表征；3)国家级多特征时间表征，重点引入网络搜索数据，加上基本确诊数，通过门控循环网络把握其时间特性，得到国家级表征；4)表征结果经过聚合用来预测新冠确诊病例数；5)模型参数调优；6)预测新冠确诊人数。本发明还包括基于多特征分层时空表征的新冠确诊人数预测系统。

Description

一种基于多特征分层时空表征的新冠确诊人数预测方法和系统

技术领域

本发明涉及新冠确诊人数预测方法和系统，主要功能是对新冠多源异构数据进行分析，从而得到新冠确诊人数的预测，对于了解新冠发展趋势以及疫情下的社会管理具有重要意义。

背景技术

一方面，如果没有科学的指导方式，盲目停工，停产将会对整个国家的经济和发展产生不利的影响；另一方面，在疫情仍具有风险阶段，为了利益，盲目的复工，复产，将会在更长远的周期上，进一步增加疫情聚集性发生的风险，导致疫情朝着更为严重的方向发展，最终产生社会经济和生命的巨大损失。同时，了解到未来新冠人口数量的发展趋势，能够提前指导各类社会资源的调度，特别是医疗物资，以及医务人员准备，还能指导相关医疗企业的生产工作，在未来需求量暴增的时候，额外增加工作量以提高生产量，在未来需求量有所减少的时候，合理控制加班加点，防止生产过度的医疗物资，造成社会资源的浪费。

但是目前的新冠确诊病例预测方法存在以下缺点：一是传统的传染病传播模型没有结合多源的新冠相关的数据；二是新冠的爆发体现出其强烈的时空特征，但一般对疫情分析，都没有考虑到其时空特征。这些问题的存在大大的降低了确诊病例预测的准确性。

发明内容

本发明要克服现有技术的上述缺点，提出一种新冠确诊数据预测算法和系统。本发明基于多源新冠数据，进一步分析数据的时空特征，分层的得到省层次和国家层次的新冠多特征表征；表征结果进行融合得到相应的新冠确诊人数预测结果。

本发明通过以下技术方案达到上述目的：一种基于多特征分层时空表征的新冠确诊人数预测方法，包括以下步骤：

(1)分析多源数据与预处理数据：对新冠有关的多源数据按照所在层面进行分类，分为省层面的新冠数据和国家层面的新冠数据，同类数据按照其最大值进行归一化处理；具体包括：

新冠多源数据分为两类，一类是省层面的数据，另一类是国家层面的数据。

进一步细分，省层面的基本的数据，分别为确诊数、恢复数和死亡数，这三个指标与未来的新冠确诊量具有最直接的关系。天气类型的数据，在许多科学研究中被认为其与疫情的传播有重要的关系，就新冠问题来说，由于新冠属于冠状病毒，环境温度的变化对其在环境中的生存时间有重要的影响。在冬天，环境温度比较低的时候，疫情的发展将会更加迅速。其他的风速，降雨量也会有一定的影响。地理数据在一些科学研究中也被证明对新冠传播有影响。兴趣点数据，体现了一个地区的整体程度以及医疗卫生水平。人口数据展示人口情况，不同年纪和不同密度的人口在新冠传播过程中体现出了不同的特性。政策数据体现了城市的封锁情况，一般等级越高国家的封锁程度越强，新冠疫情传播的机会越少。

国家层面的数据分两种，一种是最基本的确诊量，另一种是新冠疫情在网络上的搜索热度。在得到搜索量之后，把它映射到1-100％区间，新冠确诊人数的发展随着网上的搜索热度的变化而变化。这一特性将在新冠确诊人数预测起到关键的作用。

当然所有的数据都经过各自数据类的最大值标准化之后，输入模型进行预测。

(2)时空表征省级多特征；具体包括：

在得到省级的数据之后，分析省级数据的时空特性。

根据疫情爆发的特点，观察得到疫情的发展在空间上有显著的空间特性。由疫情高危区域向周围扩散开来，每日新增的确诊人数也基本符合这一规律。 COVID-19确诊人数的动态改变还受过去感染病例的变化趋势的影响。

为了把握省级数据之间的空间特性，引出如下定义：

定义1：省网G。使用无权图G＝(V,E)去描述区域的拓扑结构，把每一个省作为一个节点，V代表一系列的路网节点，V＝{v₁,v₂,v₃,…v_N}，N代表节点的数量，E代表一组边。用邻接矩阵A表示区域之间的连接，

邻接矩阵仅包含0和1元素。如果两个省之间没有链接，则元素为0，而1表示存在链接。

定义2：特征矩阵X^N×P。将每个省份与疫情有关的特征(例如：环境温度、社会隔离程度、经纬度、人口基数、人口密度、年龄分布等)作为节点的属性特征，P代表属性特征的个数。

传统的卷积神经网络(CNN)可以获得局部空间特征，但只能用于欧氏空间，如图像、规则网格等。但是实际中，各个区域的连接是复杂的，不是二维网格，这意味着CNN模型不能反映疫情爆发区域的复杂拓扑结构，不能准确掌握其空间依赖。GCN模型在很多应用中都得到了成功的应用，包括文档分类，无监督学习等。给定邻接矩阵A和特征矩阵X,GCN模型在傅里叶域构造一个滤波器。滤波器作用于图的节点，通过节点的一阶邻域获取节点之间的空间特征，然后通过叠加多个卷积层构建GCN模型，可以表示为

是附加自连接的矩阵，I_N是单位矩阵，

是度矩阵，

X^(l)是输入同时作为l层的输出，W^(l)代表权重矩阵，σ(·)代表sigmoid激活函数。

在省层面获取时空依赖的时空细胞构建，先使用两层的图卷积去获取其空间特性。

其中

是预处理阶段，

代表从输入到隐藏节点的权重矩阵，

代表从隐藏节点到输出的权重矩阵，ReLU()是线性整流函数。

代表经过两层卷积后输出的结果，用两层的GCN同时应用于多特征输入，学习COVID-19数据的空间依赖，然后在输入LSTM中获取其时间依赖。

⊙代表哈达玛积。经过上面的一系列计算之后，取最后一个H_t作为省层面的多特征表征。

(3)时间表征国家级多特征；具体包括：

在国家层面，把网络搜索量

和每日确诊量

结合为

然后输入到GRU中，用网络搜索量的趋势结合历史COVID-19确诊数的发展趋势，进一步的把握COVID-19确诊数的未来趋势，对预测下一时刻的 COVID-19走势做到更加精准的预测。

h_t为国家多特征表征结果。

(4)表征结果经过聚合用来预测新冠确诊病例数，具体包括：

即为最终的预测结果。训练过程的目标是最小化预测COVID-19确诊数量与真实数量的误差。使用Y_t和

分别代表预测值与真实值。损失函数用以下公式所示。前半部分最小化真实值与预测值之间的错误。后半部分L_reg为L2正则化项用来避免函数的过拟合，λ是一个超参数。

(5)调优模型参数；具体包括：

COVID-19预测的超参数包括：batch大小、学习速率、训练次数、LSTM和 GRU隐藏单元数、GCN隐藏单元数、LSTM和GCN层数。手动调整batch大小为32，学习速率为0.001，训练次数为2500。

LSTM和GRU隐藏单元和层数以及GCN隐藏单元数是COVID-19预测的重要参数，不同的隐藏单元数对预测精度影响很大。测试各种数字，并通过比较预测精度来选择最佳值。

从[8,16,32,64,128]中选择LSTM和GRU隐藏单元的数量，分析COVID- 19预测精度的变化。同样，选取[1,2,3,4,5]中的LSTM和GRU层数，选取[8, 16,32,64,100,128]中的GCN隐藏单元，再次分析预测精度的变化。

在COVID-19确诊病例预测中，使用70％的韩国数据集作为训练集，15％作为验证集，其余15％作为测试集。

(6)利用步骤(5)获得的模型预测新冠确诊人数。

实施前述的一种基于多特征分层时空表征的新冠确诊人数预测方法的系统，包括依次连接的多源数据分析与数据预处理模块、省级多特征时空表征模块、国家级多特征时间表征模块、表征结果聚合模块、模型参数调优模块、新冠确诊人数预测模块。

本发明的优点是：1.通过分析新冠相关的多源数据，掌握每种数据对新冠未来发展趋势的影响，融合研究，从而做到更加准确的新冠预测。

2.通过分析新冠爆发的时空特征，分别从时间维度与空间维度对新冠发展进行研究，从而做到更加准确的新冠预测。

附图说明

图1是本发明的整体流程图。

图2是本发明的互联网新冠搜索热度统计结果示意图。

图3(a)是本发明的新冠爆发的空间特性即韩国在2020年2月25日累计新冠确诊量的全国地理分布，图3(b)是本发明的对图3(a)的空间特性进行网络的构建，按照省为节点，是否相交为边构建的省网。

图4是本发明的空细胞结构图。

图5是本发明的LSTM与GRU隐藏节点个数与实验结果示意图。

图6是LSTM与GRU层数与实验结果展示图。

图7是GCNs隐藏单元个数与实验结果示意图。

图8是本发明实例中本发明与其他方法在两个评估指标下的效果对比图。

图9是本发明实例中本发明与其他方法的实际效果展示图。

具体实施方案

下面结合附图对本发明的技术方案做进一步说明。

下面结合韩国新冠多源数据与韩国的新冠确诊数预测的实例对本发明进行进一步描述。

本实例中的新冠确诊数预测方法整体方法如图1所示，具体包括以下步骤：

(1)分析多源数据与预处理数据：

我们首先对韩国的新冠多源数据进行分析。如下表所示：

表1

从表格中我们可以看到与新冠有关的数据有很多，从大的层面上可以分为两类，一类是省层面的数据，另一类是国家层面的数据。

进一步细分，省层面的基本的数据，分别为确诊数、恢复数和死亡数，这三个指标与未来的新冠确诊量具有最直接的关系。天气类型的数据，在许多科学研究中被认为其与疫情的传播有重要的关系，就新冠问题来说，由于新冠属于冠状病毒，环境温度的变化对其在环境中的生存时间有重要的影响。一般我们认为，在冬天，环境温度比较低的时候，疫情的发展将会更加迅速。其他的风速，降雨量也会有一定的影响。地理数据在一些科学研究中也被证明对新冠传播有影响。兴趣点数据，体现了一个地区的整体程度以及医疗卫生水平。人口数据展示人口情况，不同年纪和不同密度的人口在新冠传播过程中体现出了不同的特性。政策数据体现了城市的封锁情况，一般等级越高国家的封锁程度越强，新冠疫情传播的机会越少。

国家层面的数据我这里主要总到两种，一种就是最基本的确诊量，另一种是新冠疫情在网络上的搜索热度。在图2中，我们特地从韩国本土的一个受欢迎的搜索引擎Naver上收集到的有关新冠的搜索量，在得到搜索量之后，我们把它映射到1-100％区间，从图中，我们能够清楚的看到，新冠确诊人数的发展随着网上的搜索热度的变化而变化。这一特性将在新冠确诊人数预测起到关键的作用。

(2)时空表征省级多特征：

在得到省级的数据之后，我们来分析省级数据的时空特性。

根据疫情爆发的特点，我们可以观察得到疫情的发展在空间上有显著的空间特性。如图3(a)所示，一般是由疫情高危区域向周围扩散开来，每日新增的确诊人数也基本符合这一规律。COVID-19确诊人数的动态改变还受过去感染病例的趋势。正如图1所示，黑色虚线表示COVID-19确诊病例在特定时间范围内有变化趋势。故COVID-19确诊人口的数量往往与之前几天的变化趋势有关系。

为了把握省级数据之间的空间特性，特地引出一下定义。

定义1：省网G。我们使用无权图G＝(V,E)去描述区域的拓扑结构，我们把每一个省作为一个节点，V代表一系列的路网节点，V＝{v₁,v₂,v₃,…v_N}，N代表节点的数量，E代表一组边。用邻接矩阵A表示区域之间的连接，

定义2：特征矩阵X^N×P。我们将每个省份与疫情有关的特征(例如：环境温度、社会隔离程度、经纬度、人口基数、人口密度、年龄分布等)作为节点的属性特征，P代表属性特征的个数。

韩国总共17个省份，17*17的邻接矩阵A描述省之间的空间关系，每一行代表一个省份，矩阵中的值代表省份之间的连通性。特征矩阵描述了所有特征随时间的变化，每17行表示17个省的一天，每行表示有24个特征数。

传统的卷积神经网络(CNN)可以获得局部空间特征，但只能用于欧氏空间，如图像、规则网格等。但是实际中，各个区域的连接是复杂的，不是二维网格，这意味着CNN模型不能反映疫情爆发区域的复杂拓扑结构，不能准确掌握其空间依赖。GCN模型在很多应用中都得到了成功的应用，包括文档分类，无监督学习等。给定邻接矩阵A和特征矩阵X，GCN模型在傅里叶域构造一个滤波器。滤波器作用于图的节点，通过节点的一阶邻域获取节点之间的空间特征，然后通过叠加多个卷积层构建GCN模型，可以表示为

是附加自连接的矩阵，I_N是单位矩阵，

是度矩阵，

本发明在省层面获取时空依赖的时空细胞构建如图4所示。先使用两层的图卷积去获取其空间特性。

其中

是预处理阶段，

代表从输入到隐藏节点的权重矩阵，

代表从隐藏节点到输出的权重矩阵，ReLU()是线性整流函数。

代表经过两层卷积后输出的结果，在这里我们用两层的GCN同时应用于多特征输入，学习COVID-19数据的空间依赖，然后在输入LSTM中获取其时间依赖。

(3)时间表征国家级多特征：

在国家层面，我们把网络搜索量

和每日确诊量

结合为

h_t为国家多特征表征结果。

(4)表征结果经过聚合用来预测新冠确诊病例数：

即为最终的预测结果。

在我们的训练过程中，我们的目标是最小化预测COVID-19确诊数量与真实数量的误差。我们使用Y_t和

(5)调优实验参数与展示结果：

COVID-19预测的主要超参数包括：batch大小、学习速率、训练次数、LSTM 和GRU隐藏单元数、GCN隐藏单元数、LSTM和GCN层数。在本实验中，我们手动调整batch大小为32，学习速率为0.001，训练次数为2500。

LSTM和GRU隐藏单元和层数以及GCN隐藏单元数是COVID-19预测的重要参数，不同的隐藏单元数对预测精度影响很大。我们测试各种数字，并通过比较预测精度来选择最佳值。

在我们的实验中，我们从[8,16,32,64,128]中选择LSTM和GRU隐藏单元的数量，分析COVID-19预测精度的变化。在图5中，左边纵轴表示均方根误差结果的变化，右边纵轴表示平均误差结果的变化，横轴表示隐藏单元的数量。可以看出，有16个隐藏单位时，结果最好；随着隐藏单位数量的增加，误差指标先下降，然后上升。这主要是因为隐藏单元数量的增加大大增加了模型的复杂性和计算难度，对训练数据产生过拟合。因此，我们将隐藏单位的数量设置为16。

同样，我们选取[1,2,3,4,5]中的LSTM和GRU层数，选取[8,16,32,64,100, 128]中的GCN隐藏单元，再次分析预测精度的变化。根据图6和图7结果分析，我们将GCN隐藏单位设置为100，LSTM和GRU层数设置为3。

(6)利用步骤(5)获得的模型预测新冠确诊人数。

我们将确诊病例的预测与以下基线方法进行比较：历史平均模型(HA)，它使用COVID-19确诊病例的历史平均值作为预测；LSTM；GRU；T-GCN；单特征分层时空表示模型(GCN+LSTM+LSTM，GCN+LSTM+GRU)，该模型使用了我们的多特征分层表征预测中的单个特征。从图8中我们可以看出本发明在均方根误差和平均绝对误差这两个指标上相较于其它方法具有一定的优势。图9的实际效果展示也能看出本发明在预测上存在优势。

实施前述的一种基于多特征分层时空表征的新冠确诊人数预测方法的系统，包括依次连接的多源数据分析与数据预处理模块、省级多特征时空表征模块、国家级多特征时间表征模块、表征结果聚合模块、模型参数调优模块、新冠确诊人数预测模块；

其中，所述的多源数据分析与数据预处理模块具体包括：

其中，所述的省级多特征时空表征模块具体包括：

在得到省级的数据之后，分析省级数据的时空特性。

为了把握省级数据之间的空间特性，引出如下定义：

是附加自连接的矩阵，I_N是单位矩阵，

是度矩阵，

其中

是预处理阶段，

代表从输入到隐藏节点的权重矩阵，

代表从隐藏节点到输出的权重矩阵，ReLU()是线性整流函数。

其中，所述的国家级多特征时间表征模块具体包括：

在国家层面，把网络搜索量

和每日确诊量

结合为

h_t为国家多特征表征结果。

其中，所述的表征结果聚合模块具体包括：

其中，所述的模型参数调优模块具体包括：

COVID-19预测的超参数包括:batch大小、学习速率、训练次数、LSTM和 GRU隐藏单元数、GCN隐藏单元数、LSTM和GCN层数。手动调整batch大小为32，学习速率为0.001，训练次数为2500。

所述的新冠确诊人数预测模块利用模型参数调优模块获得的模型预测新冠确诊人数。