CN113784292A

CN113784292A - 一种基于手机信令数据的城市疫情风险评估方法

Info

Publication number: CN113784292A
Application number: CN202110974920.3A
Authority: CN
Inventors: 李健; 甘田
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-12-10
Anticipated expiration: 2041-08-24
Also published as: CN113784292B

Abstract

本发明涉及一种基于手机信令数据的城市内部流行病传播风险评估方法。首先，通过手机信令数据提取手机用户的多日活动链，根据历史活动地点识别潜在高风险人员；其次，在对研究区域进行栅格化的基础上，以栅格为单位对各类人口分布特征和人口流动特征进行集计，从而构建每日的人员流动网络；最后，将城市疫情风险划分为内部暴露风险和对外传播风险，基于聚类分析和社会网络分析理论提出两类风险的量化方法，并利用时间序列分析方法反映疫情风险的时变特性及规律。与现有技术相比，本发明具有提高城市疫情风险评估分析结果的准确性和稳定性等优点。

Description

一种基于手机信令数据的城市疫情风险评估方法

技术领域

本发明涉及时空数据挖掘与城市应急管理领域，尤其是涉及一种基于手机信令数据的城市疫情风险评估方法。

背景技术

自2019年12月以来，新型冠状病毒肺炎(Corona Virus Disease 2019，COVID-19)在全球范围内迅速传播。截至2020年9月30日，全球确诊病例达到33563030例，死亡病例达到1005218例。作为一次重大突发卫生事件，新型冠状病毒肺炎的爆发对社会、经济和环境等方面造成了极大的损失和破坏。在疫情爆发时期，相关研究主要关注于新型冠状病毒肺炎的流行病学特征和临床特征，通过传染病动力学模型和机器学习方法对病毒传播进行模拟和预测。随着疫情防控进入常态化阶段，研究者开始反思如何提高公共卫生体系的应急能力，利用多源时空大数据从不同尺度对新型冠状病毒肺炎传播的时空模式进行分析，挖掘影响传播的潜在因素。然而，现有研究较少利用高精度手机信令数据，提出城市尺度的疫情风险分析方法。更重要的是，由于如新型冠状病毒肺炎的全球性大流行病在爆发初期以输入性病例为主，控制输入的高风险人员能够有效遏制病毒在城市内部的传播扩散，但是现有研究中并没有形成一个针对疫情爆发初期的城市疫情风险评估方法。

人口流动性一直是影响流行病传播的关键因素之一。在经典流行病动力学模型中，人群被划分为易感者和感染者等不同群体。其中，感染率与感染者比例和易感者比例的乘积成正比。由于仓室模型没有考虑地理空间异质性，因此研究者引入了生态学的复合种群模型，以反映人口在不同地理空间之间的移动。此外，研究者从以下两个角度对人口流动性与流行病传播之间的关系进行了更深入的探究。第一类研究针对传播过程构建理论模型，关注于多样的网络拓扑结构和传播动力学特征，例如节点异质性、传播过程中的随机环境扰动、交叉扩散引起的图灵不稳定性、以及个体网络中的双向运动等。第二类研究基于交通出行数据挖掘出行特征，结合流行病传播的时空特征分析交通管控措施对流行病传播的影响。所使用的数据包括居民出行调查数据、民航和铁路出行数据、大规模移动位置数据(出租车浮动车数据和手机数据)等。

一方面，人群聚集可能增加易感者与感染者之间的接触概率，从而提高暴露风险；另一方面，感染者的出行活动可能加速病毒的传播扩散。因此，在进行风险评估时，需要从暴露和传播两个角度进行分析。并且，在现有研究的基础上，需要一个一般化的城市疫情风险评估框架，以在未来面对全球性大流行病时快速形成防控应急预案。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于手机信令数据的城市疫情风险评估方法，提取不同人群的空间分布和出行特征，实现对城市疫情风险的评估分析，提高城市疫情风险评估评估分析结果的准确性和稳定性。

本发明的目的可以通过以下技术方案来实现：

一种基于手机信令数据的城市疫情风险评估方法，具体包括以下步骤：

S1、获取目标区域中用户的手机信令数据，根据用户的手机信令数据提取用户的驻留点的位置信息和移动轨迹，并根据预设的高风险地区的位置信息和病毒潜伏期的长度，将在病毒潜伏期内驻留点与高风险地区重合的用户标记为高风险人员，其余为正常人员；

S2、根据用户的驻留点的位置信息，计算目标区域形成的各栅格内的当日平均活动人口数量，包括当日活动时段内在栅格内驻留的高风险人员和正常人员的平均数量，从而形成每日的出行流量矩阵，进而建立反映人员流动的空间交互网络；

S3、针对目标区域的每个栅格，将城市疫情风险划分为内部暴露风险和对外传播风险，对于内部暴露风险，根据经典仓室模型理论，通过高风险人员和正常人员的数量关系确定栅格的暴露风险等级；对于对外传播风险，基于人口流动网络，计算栅格与其他栅格之间的联系强度，从而确定传播风险指数；

S4、针对对外传播风险，以栅格为基本单元，根据风险时变规律进行分区；在对风险时变特性相似的栅格进行聚类的基础上，对各分区时间序列类簇中心的结构性变点进行识别，从而生成城市疫情风险评估结果。

所述步骤S1具体包括以下步骤：

S11、获取目标区域中用户的手机信令数据，并对其中包含的无效数据进行清洗；

S12、基于预处理后的手机信令数据，检测同一用户在同一地点停留是否超过最小时间阈值，若是则判定其产生一次驻留或活动，从而将手机信令数据中的短时间停留记录转换为用户的活动数据，并计算每次活动的开始时间和结束时间；

S13、根据预设的高风险地区位置信息和病毒潜伏期长度，将在由当日起回溯至病毒潜伏期内，用户活动数据中驻留点经纬度坐标与高风险地区位置信息发生重合的用户标记为高风险人员，其余为正常人员。

进一步地，所述步骤S11中的无效数据包括在数据采集和传输过程中产生的重复数据、缺失数据、乒乓数据、漂移数据等噪声数据。

所述步骤S2具体包括以下步骤：

S21、将目标区域划分为等尺寸栅格单元，在活动时段内按小时分别统计各栅格的实时人口数量，计算每个栅格的每小时平均人口数量作为当日平均活动人口数量，再分别计算活动时段内各栅格高风险人员和正常人员的每小时平均人口数量；

S22、针对同一用户，根据活动数据判断其在相邻的两个时间点时是否位于不同的栅格内，若是则判定用户完成一次出行，从而对栅格之间的出行次数进行求和，得到目前区域的每日出行流量矩阵；

S23、根据每日出行流量矩阵，将每个栅格视作一个节点，根据栅格之间的出行联系和出行流量大小生成无向加权图，构建出目标区域的每日人员流动网络。

进一步地，所述活动时段为每天的早上6点到晚上9点。

所述步骤S3具体包括以下步骤：

S31、根据经典仓室模型，以栅格作为基本单元，将活动时段内各栅格的高风险人员和正常人员的每小时平均人口数量作为特征，使用K-means进行聚类，确定栅格的暴露风险等级；

S32、基于以栅格为节点的人员流动网络，计算各栅格的接近中心性，将接近中心性作为栅格向外输出高风险人员的概率，结合活动时段内栅格的高风险人员每小时平均人口数量，计算栅格的对外传播风险指数。

进一步地，所述步骤S31中K-means聚类采用的k值为最佳k值，最佳k值的筛选过程包括：根据预设的k值取值区间进行多次实验，在每次聚类后计算各样本与其所属类簇中心的距离总和；根据k值和对应总距离绘制散点图并进行拟合，计算出曲率最大的点所对应的k，即为最优k值。

进一步地，所述接近中心性的计算公式如下所示：

其中，C(v)为节点v的亲密度中心性，n为人口流动网络的节点数量，sd(v,u)为节点v和u之间的最短路距离。

进一步地，所述节点v和u之间的最短路距离根据无向加权图中节点之间的连边的长度进行相加后得到，两个节点之间的连边的长度如下所示：

其中，d(i)为节点s和t之间连边e(i)的长度，w(i)为连边e(i)的权重，即出行流量。

进一步地，所述每个节点的对外传播风险指数的计算公式如下所示：

R(v)＝HHG(v)×C(v)

其中，R(v)为节点v的对外传播风险，HHG(v)为节点v内当日处于活动状态的高风险人员平均数量。

所述步骤S4具体包括以下步骤：

S41、对每个栅格，将连续多日的对外传播风险指数构建为一个时间序列，通过动态时间规整方法衡量任意两个时间序列之间的相似性，基于相似性使用K-means对时间序列进行聚类，实现对栅格的分区；

S42、针对分区后每类栅格的对外传播风险指数时间序列的类簇中心，使用迭代累积平方和算法对时间序列中存在的结构性方差变点进行识别。

进一步地，所述基于动态时间规整算法的时间序列相似性D(A_i,B_j)的计算公式如下所示：

其中，A_i表示序列<a₁,…,a_i>，B_j表示序列<b₁,…,b_j>，δ(a_i,b_j)表示a_i和b_j之间的距离。

进一步地，用于所述类簇中心的中心化SUSUM-SQ统计量D_k的计算公式如下所示：

其中，T为序列长度，k＝1,2,3……，T，C_k为迭代残差序列的平方和。

与现有技术相比，本发明具有以下有益效果：

本发明通过用户的手机信令数据来生成用户活动数据，根据用户历史活动点的位置信息区分高风险人员和正常人员，建立城市内部的人员流动网络；从暴露和传播两个角度，基于聚类分析和社会网络分析理论计算疫情风险指数；基于时间序列分析方法挖掘疫情风险的时变特性及规律；充分利用了居民在城市内部活动时所附带的手机信令数据，有效提高了城市疫情风险评估分析结果的准确性和稳定性。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

如图1所示，一种基于手机信令数据的城市疫情风险评估方法，具体包括以下步骤：

步骤S1具体包括以下步骤：

步骤S11中的无效数据包括在数据采集和传输过程中产生的重复数据、缺失数据、乒乓数据、漂移数据等噪声数据。

本实施例中，时间阈值为30min。

步骤S2具体包括以下步骤：

活动时段为每天的早上6点到晚上9点。

步骤S3具体包括以下步骤：

步骤S31中K-means聚类采用的k值为最佳k值，最佳k值的筛选过程包括：根据预设的k值取值区间进行多次实验，在每次聚类后计算各样本与其所属类簇中心的距离总和；根据k值和对应总距离绘制散点图并进行拟合，计算出曲率最大的点所对应的k，即为最优k值。

接近中心性的计算公式如下所示：

节点v和u之间的最短路距离根据无向加权图中节点之间的连边的长度进行相加后得到，两个节点之间的连边的长度如下所示：

每个节点的对外传播风险指数的计算公式如下所示：

R(v)＝HHG(v)×C(v)

步骤S4具体包括以下步骤：

基于动态时间规整算法的时间序列相似性D(A_i,B_j)的计算公式如下所示：

用于类簇中心的中心化SUSUM-SQ统计量D_k的计算公式如下所示：

此外，需要说明的是，本说明书中所描述的具体实施例，所取名称可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化，均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于手机信令数据的城市疫情风险评估方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种基于手机信令数据的城市内部流行病传播风险评估方法，其特征在于，所述步骤S1具体包括以下步骤：

S13、根据预设的高风险地区的位置信息和病毒潜伏期的长度，将在由当日起回溯至病毒潜伏期内，用户活动数据中驻留点经纬度坐标与高风险地区位置信息发生重合的用户标记为高风险人员，其余为正常人员。

3.根据权利要求2所述的一种基于手机信令数据的城市疫情风险评估方法，其特征在于，所述步骤S11中的无效数据包括在数据采集和传输过程中产生的重复数据、缺失数据、乒乓数据、漂移数据等噪声数据。

4.根据权利要求1所述的一种基于手机信令数据的城市疫情风险评估方法，其特征在于，所述步骤S2具体包括以下步骤：

5.根据权利要求1所述的一种基于手机信令数据的城市疫情风险评估方法，其特征在于，所述步骤S3具体包括以下步骤：

6.根据权利要求5所述的一种基于手机信令数据的城市疫情风险评估方法，其特征在于，所述步骤S31中K-means聚类采用的k值为最佳k值，最佳k值的筛选过程包括：根据预设的k值取值区间进行多次实验，在每次聚类后计算各样本与其所属类簇中心的距离总和；根据k值和对应总距离绘制散点图并进行拟合，计算出曲率最大的点所对应的k，即为最优k值。

7.根据权利要求5所述的一种基于手机信令数据的城市疫情风险评估方法，其特征在于，所述接近中心性的计算公式如下所示：

其中，C(v)为节点v的亲密度中心性，n为人口流动网络的节点数量，sd(v，u)为节点v和u之间的最短路距离；

所述节点v和u之间的最短路距离根据无向加权图中节点之间的连边的长度进行相加后得到，两个节点之间的连边的长度如下所示：

其中，d(i)为节点s和t之间连边e(i)的长度，w(i)为连边e(i)的权重，即出行流量；

所述每个节点的对外传播风险指数的计算公式如下所示：

R(v)＝HHG(v)×C(v)

8.根据权利要求1所述的一种基于手机信令数据的城市疫情风险评估方法，其特征在于，所述步骤S4具体包括以下步骤：

9.根据权利要求8所述的一种基于手机信令数据的城市疫情风险评估方法，其特征在于，所述基于动态时间规整算法的时间序列相似性D(A_i，B_j)的计算公式如下所示：

其中，A_i表示序列<a₁，...，a_i>，B_j表示序列<b_i，...，b_j>，δ(a_i，b_j)表示a_i和b_j之间的距离。

10.根据权利要求8所述的一种基于手机信令数据的城市疫情风险评估方法，其特征在于，用于所述类簇中心的中心化SUSUM-SQ统计量D_k的计算公式如下所示：

其中，T为序列长度，k＝1，2，3......，T，C_k为迭代残差序列的平方和。