CN113658718B

CN113658718B - 一种个体疫情防控方法及系统

Info

Publication number: CN113658718B
Application number: CN202110961659.3A
Authority: CN
Inventors: 李勇; 冯涛; 夏彤; 金德鹏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2024-02-27
Anticipated expiration: 2041-08-20
Also published as: CN113658718A

Abstract

本发明提供一种个体疫情防控方法及系统，该方法包括：获取目标城市中用户终端个体在预设时间间隔内预设时段的状态信息和地区访问历史记录信息；将状态信息和地区访问历史记录信息输入到训练好的疫情防控模型，获取目标城市中每个用户终端个体的疫情干预动作；其中，训练好的疫情防控模型是根据样本状态信息、样本地区访问历史记录信息和样本干预动作，对图神经网络和强化学习模型进行训练得到的；根据疫情干预动作，获取用户终端个体的疫情干预策略，以对用户终端个体进行干预。本发明通过图神经网络获取用户终端个体间的接触联系，通过强化学习模型获取最优疫情防控策略，提高了疫情防控成效。

Description

一种个体疫情防控方法及系统

技术领域

本发明涉及个体疫情防控技术领域，尤其涉及一种个体疫情防控方法及系统。

背景技术

个体疫情防控(Individual Epidemic Prevention and Control)是指通过个体的历史轨迹来追踪个体间的接触，并结合个体自身的特征对一些高风险人群进行不同力度的隔离措施，从而达到疫情防控的效果。而现有的实际应用往往只采取一些粗糙的防控手段，这些方式虽然能够对疫情的传播进行一定的限制，但是会严重影响人们的出行与交通，从而造成巨大的经济损失。

目前针对个体疫情防控的方法，主要有通过移动支付终端收集到的用户温度信息进行分析，对体温异常的用户的交易数据进行追踪，从而得知体温异常用户的出行轨迹，可以有效地协助疫情防控平台对传染性疾病的防控；有的通过获取车辆图片中的车辆是否经过或去过疫区，对存在去过或经过疫区的车辆的情况进行预警，为行政部门对疫情防控提供数据基础；有的通过设置每日信息上报问卷模块、返校申请问卷模块、返校行程备案问卷模块、返校个人承诺书备案问卷模块、返校出发问卷模块和返校国内换乘点打卡问卷模块，获取学生的日常位置信息和返校行程数据，根据所述日常位置信息和返校行程数据进行分析，并将分析结果发送至中心服务器以提供疫情数据支持。

然而，现有的个体疫情防控中，虽然能够有效利用个体的信息进行长远的防控，但是往往忽略了个体间的接触以及联系对疫情防控的影响。因此，现在亟需一种个体疫情防控方法及系统来解决上述问题。

发明内容

针对现有技术存在的问题，本发明提供一种个体疫情防控方法及系统。

本发明提供一种个体疫情防控方法，包括：

获取目标城市中用户终端个体在预设时间间隔内预设时段的状态信息和地区访问历史记录信息，所述状态信息包括健康状态、干预状态和感染概率；

将所述状态信息和所述地区访问历史记录信息输入到训练好的疫情防控模型，获取所述目标城市中每个用户终端个体的疫情干预动作；其中，所述训练好的疫情防控模型是由样本状态信息、样本地区访问历史记录信息和样本干预动作，对图神经网络和强化学习模型进行训练得到的；

根据所述疫情干预动作，获取所述用户终端个体的疫情干预策略，以对所述用户终端个体进行干预。

根据本发明提供的一种个体疫情防控方法，所述训练好的疫情防控模型通过以下步骤训练得到的：

根据用户终端个体在历史阶段预设时段的样本状态信息和样本地区访问历史记录信息，构建样本训练集；

将所述样本训练集输入到图神经网络中，输出得到样本干预动作概率阈值，所述图神经网络是基于GraphSage构建得到的；

将所述样本干预动作概率阈值和样本感染概率输入到强化学习模型中，得到预测干预动作；

根据所述预测干预动作和样本干预动作，基于近端优化策略，对所述强化学习模型进行训练；

在所述图神经网络和所述强化学习模型的训练结果满足预设训练条件的情况下，得到训练好的疫情防控模型。

根据本发明提供的一种个体疫情防控方法，所述将所述样本训练集输入到图神经网络中，输出得到样本干预动作概率阈值，包括：

根据所述样本状态信息和所述样本地区访问历史记录信息，基于干预动作概率阈值公式，得到样本干预动作概率阈值；

其中，所述干预动作概率阈值公式为：

其中，表示地区在第k-1个时间步的访问历史记录信息，/>表示根据访问历史记录信息获取到的地区访问者的特征，/>表示第k-1层GNN网络的地区节点特征，表示第k层GNN网络的用户终端个体节点特征，所述用户终端个体节点特征包括干预动作概率阈值，W^k-1、B^k-1、W^k和B^k表示可学习的参数。

根据本发明提供的一种个体疫情防控方法，所述感染概率通过以下步骤得到：

根据目标城市中用户终端个体在预设时间间隔内的地区访问历史记录信息，获取所述用户终端个体的健康概率、显性感染者状态人数和影响人数，所述影响人数为所述用户终端个体在同一时间及同一地区影响到的人数；

根据第一预设感染概率、所述显性感染者状态人数和所述影响人数，对所述用户终端个体的健康概率进行更新，获取第一健康概率，其中，所述第一健康概率为用户终端个体在与陌生人接触后的健康概率；所述第一预设感染概率是根据所述目标城市的疫情风险程度，对用户终端个体与陌生人之间的接触感染概率进行预设得到的；

根据第二预设感染概率，对所述第一健康概率进行更新，获取第二健康概率，所述第二预设感染概率是根据所述目标城市的疫情风险程度，对用户终端个体与熟人之间的接触感染概率进行预设得到的；所述第二健康概率为用户终端个体与陌生人以及熟人接触后的健康概率；

根据所述第二健康概率和感染概率计算公式，获取所述用户终端个体的感染概率。

根据本发明提供的一种个体疫情防控方法，所述感染概率计算公式为：

其中，表示第i个用户终端个体在第t-1天的健康概率，/>表示第i个用户终端个体在第t天与陌生人接触后的健康概率，p_s表示用户终端个体与陌生人接触的感染概率，/>表示第t-1天处于显性感染者状态的感染者人数，/>表示第t-1天与第i个人同一时间在同一地区的总人数，/>表示第i个用户终端个体在第T天的健康概率，/>表示第i个用户终端个体在第T天与熟人和陌生人接触后的健康概率，p_c表示用户终端个体与熟人接触的感染概率，/>表示第i个人的感染概率。

根据本发明提供的一种个体疫情防控方法，所述将所述样本干预动作概率阈值和样本感染概率输入到强化学习模型中，得到预测干预动作，包括：

以最少感染人数和最低出现干预为预设优化目标，构建强化学习模型；

将所述样本干预动作概率阈值输入强化学习模型中，获取用户终端个体的样本感染风险概率阈值；

根据所述样本感染风险概率阈值，基于所述样本感染概率进行感染区间划分，获取不同感染区间对应的用户终端个体的预测干预动作。

根据本发明提供的一种个体疫情防控方法，所述预设优化目标的奖励公式为：

其中，r表示奖励函数，ΔI表示每日新增的感染人数，ΔQ表示当天的出行干预，θ_I表示感染总人数，θ_Q表示出行总干预。

本发明还提供一种个体疫情防控系统，包括：

信息获取模块，用于获取目标城市中用户终端个体在预设时间间隔内预设时段的状态信息和地区访问历史记录信息，所述状态信息包括健康状态、干预状态和感染概率；

干预动作获取模块，用于将所述状态信息和所述地区访问历史记录信息输入到训练好的疫情防控模型，获取所述目标城市中每个用户终端个体的疫情干预动作；其中，所述训练好的疫情防控模型是由样本状态信息、样本地区访问历史记录信息和样本干预动作，对图神经网络和强化学习模型进行训练得到的；

防控措施获取模块，用于根据所述疫情干预动作，获取所述用户终端个体的疫情干预策略，以对所述用户终端个体进行干预。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述个体疫情防控方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述个体疫情防控方法的步骤。

本发明提供的个体疫情防控方法及系统，通过用户终端个体的历史轨迹来追踪用户终端个体间的接触，利用图神经网络建模用户终端个体间的接触联系，从而加强用户终端个体的状态特征；通过强化学习模型获取最优疫情防控策略，对高风险人群进行不同力度的精准出行干预，提高了疫情防控成效。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的个体疫情防控方法的流程示意图；

图2为本发明提供的疫情传播与防控的示意图；

图3为本发明提供的个体疫情防控方法的原理示意图；

图4为本发明提供的个体疫情防控系统的结构示意图；

图5为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前个体疫情防控的方法主要有基于疫情预测的，基于启发式算法的，以及基于强化学习的。基于图的方法，往往是将个体视为节点，个体之间的边表示个体之间的接触与联系，通过图的相关拓扑知识找到接触感染风险较高的个体进行隔离，但是这类方法难以有效利用个体的特征进行疫情防控，从而难以进行个体的精准防控；基于疫情预测的方法常是在GBDT(Gradient Boosting Decision Tree)或者LSTM(Long Short-Term Memory)等算法进行个体健康状态预测的基础上，对潜在的感染个体进行隔离，但是这些方法没法考虑当前措施的长期影响，因此往往会陷入局部最优。基于启发式算法的方法虽然能够有效利用个体的信息进行疫情防控，但是也同样无法考虑防控措施的长期影响；目前基于强化学习的方法虽然能够有效利用个体的信息进行长远的防控，但是往往忽略了个体间的接触以及联系对疫情防控的影响。现有的疫情防控方法主要存在以下几方面的局限问题：一、难以有效利用个体的特征进行疫情防控，从而导致在实际应用过程中容易造成许多不必要的干预成本以及资源浪费；二、在考虑疫情防控时，没有很好地考虑疫情防控所带来的出行干预成本，这在实际过程中会很大影响疫情地区的经济发展；三、对个体间的接触与联系缺乏系统性的建模，而在实际过程中个体间的接触与联系是造成疫情传播的关键因素。

本发明采用深度强化学习的框架，首先对个体的实时特征属性进行编码，并利用图神经网络建模个体间的接触联系从而进一步加强个体的特征表示，并将感染人数与出现干预的双目标建模成强化学习的奖励函数，利用强化学习的方法探索到一个最优的疫情防控策略。

图1为本发明提供的个体疫情防控方法的流程示意图，如图1所示，本发明提供了一种个体疫情防控方法，包括：

步骤101，获取目标城市中用户终端个体在预设时间间隔内预设时段的状态信息和地区访问历史记录信息，所述状态信息包括健康状态、干预状态和感染概率。

在本发明中，状态信息和地区访问历史记录信息可以通过用户所使用的移动终端设备进行采集，采集用户终端个体在预设时间间隔内预设时段的健康状态、干预状态、感染概率和访问不同地区的历史记录信息。需要说明的是，预设时段可以是每日10小时内或12小时内的相关记录信息(例如，将白天时段作为预设时段)，本发明以预设时段设置为每日24小时进行说明。

可选地，目标城市内中每个个体的健康状态可以是Susceptible(易受感染，表示该个体暂未受到感染)，Asymptomatic(隐性感染)，Symptomatic(显性感染)和Recovered(已康复状态)。

步骤102，将所述状态信息和所述地区访问历史记录信息输入到训练好的疫情防控模型，获取所述目标城市中每个用户终端个体的疫情干预动作；其中，所述训练好的疫情防控模型是由样本状态信息、样本地区访问历史记录信息和样本干预动作，对图神经网络和强化学习模型进行训练得到的；

步骤103，根据所述疫情干预动作，获取所述用户终端个体的疫情干预策略，以对所述用户终端个体进行干预。

在本发明中，将串联后的用户终端个体的状态信息以及地区的访问历史记录信息输入到训练好的疫情防控模型中，获取目标城市中每个用户终端个体的疫情干预动作。

具体地，根据样本状态信息、样本地区访问历史记录信息和样本干预动作，对疫情防控模型进行训练，其中，样本干预动作为样本状态信息和样本地区访问历史记录信息对应的实际干预动作。疫情防控模型包括图神经网络和强化学习模型，通过图神经网络建模个体与个体间的接触联系，通过强化学习模型探索得到最优的疫情防控措施。

进一步地，通过疫情干预动作，获取疫情干预策略，对用户终端个体进行干预，例如对用户终端个体采取隔离措施，被隔离的用户终端个体在一段时间后，其个体状态和地点信息都会发生相应的变化，从而进行后续的干预预测。

可选地，疫情防控动作措施包括四种类型：No Intervention(无干预)、Confine(与居住处外的人无联系)、Quarantine(与陌生人无联系)以及Isolate(与任何人都无联系)。

在本发明中，针对目标城市中拥有M数量的人口以及N个地区分块，通过个体的历史轨迹来追踪个体间的接触，并结合个体自身的特征对一些高风险人群进行不同力度的精准出行干预，从而使得感染人数与出行干预都最少。考虑不同个体的特征差异性，能够更精准有效的进行疫情防控，并且能够减少不必要的出行干预。在模型训练阶段，考虑并建模个体间的接触与联系特征，能够建模疫情的传播情况，从而进一步完善个体的特征。基于深度强化学习模型实现，能够考虑当前的疫情防控措施的长远影响，并且能综合考虑感染人数最少与出行干预最低的双目标优化。

图2为本发明提供的疫情传播与防控的示意图，如图2所示，由于在同一时段去往同一个地方的人们有一定的几率接触甚至感染，感染后他们的健康状态将会从Susceptible转变为Asymptomatic，Asymptomatic状态的个体在潜伏期后将变成Symptomatic状态。Symptomatic状态的个体会被马上送往医院，并在康复期后变成Recovered状态。由于无法通过非药物方法发现个体Susceptible与Asymptomatic的状态差别，因此，本发明提供的基于强化学习的个体疫情防控方法，目标是使状态为Susceptible或Asymptomatic的个体选取对应的防控措施，使得感染人数与出行干预都能最低。通过用户终端个体的健康状态信息和地区访问历史记录信息，制定相对应的疫情防控策略，例如将感染者送往医院治疗，将存在感染风险的隐性感染者送往CDC进行隔离，并根据不同严重程度的感染概率实施Confine(与居住处外的人无联系)、Quarantine(与陌生人无联系)或者Isolate(与任何人都无联系)隔离措施。

进一步地，本发明提供的基于强化学习的个体疫情防控方法的目标是同时减少感染人数和降低出行干预。然而，一旦感染人数超过某一阈值，医疗系统就会被击穿，从而导致社会成本的飞速上升。另一方面，当对人们的出行限制高于某一阈值，经济系统也会瘫痪，从而也导致社会成本飞速上升。因此，为了同时减少感染人数与降低出行干预两个目标上的总成本，本发明设定了指标Score来衡量疫情防控策略，Score越低，疫情防控策略的效果越好。Score的具体定义如下：

Q＝λ_h*N_h+λ_i*N_i+λ_q*N_q+λ_c*N_c；

其中，I表示疫情防控期间总的感染人数，Q表示疫情防控期间总计的出行干预，N_h表示疫情防控期间总的Hospitalized(住院)人数,N_i表示总的Isolated(与任何人都无联系)人数，N_q表示总的Quarantined(与陌生人无联系)人数，N_c表示总的Confined(与居住处外的人无联系)人数，θ_I表示医疗系统容量，θ_Q表示经济系统容忍量阈值，λ_h、λ_i、λ_q、λ_c表示相关系数。

本发明提供的个体疫情防控方法，通过用户终端个体的历史轨迹来追踪用户终端个体间的接触，利用图神经网络建模用户终端个体间的接触联系，从而加强用户终端个体的状态特征；通过强化学习模型获取最优疫情防控策略，对高风险人群进行不同力度的精准出行干预，提高了疫情防控成效。

在上述实施例的基础上，所述训练好的疫情防控模型通过以下步骤训练得到的：

在本发明中，处于Asymptomatic(隐性感染)状态的个体是无法通过非药物的方式辨别的，因此不易追踪这些隐性感染者造成的接触与感染。并且，由于交通的庞大性以及社交网络的复杂性，使得估计个体的感染风险更具挑战。为了解决这一挑战，本发明提出了一种图神经网络(Graph Neural Networks，简称GNN)，也称为Individual Contact GNN，GNN把个体与城市中的地区看作是两类节点，可以通过个体-地区-个体的接触联系来建模个体-个体间的接触联系，从而估计每个个体的感染风险。

优选地，图神经网络是基于GraphSAGE(Graph Sample and aggregate)构建得到的。GNN节点信息的输入包括了所有个体每一天的健康状态、干预状态以及感染概率，边信息的输入是每一天的地区访问历史。

进一步地，将样本干预动作概率阈值和样本感染概率输入到强化学习模型中，得到预测干预动作；根据预测干预动作和样本干预动作，然后基于上述实施例提及的近端优化策略，对强化学习模型进行训练。每次将样本状态信息和样本地区访问历史记录信息输入到疫情防控模型中，都会输出对应的实际样本干预动作。当图神经网络和强化学习模型满足预设训练收敛条件时，即得到训练好的疫情防控模型。

在上述实施例的基础上，所述将所述样本训练集输入到图神经网络中，输出得到样本干预动作概率阈值，包括：

根据所述样本状态信息和所述样本地区访问历史记录信息，基于干预动作概率阈值公式，得到样本干预动作概率阈值。

在本发明中，根据所述样本状态信息和所述样本地区访问历史记录信息构建样本训练集，将样本训练集输入到图神经网络中。具体地，表示第k层GNN网络的地区节点的特征，/>表示第k层GNN网络的个体节点的特征，详细的GNN神经网络层的计算如下：

进一步地，根据上述GNN神经网络层的计算公式，即干预动作概率阈值的公式，可得到样本干预动作概率阈值。具体地，将访问历史记录信息作为边，根据访问历史记录信息获取到地区访问者的特征，然后通过带权重的地区访问者的特征来计算地区节点特征，通过带权重的用户终端个体曾经访问过的地区特征来计算用户终端个体节点的特征。根据边与节点构建得到图神经网络，便于通过个体-地区-个体的接触联系状态，提取个体与个体节点间的接触联系状态特征。根据个体与个体节点间的接触联系状态特征，得到样本干预动作概率阈值。

进一步地，通过样本干预动作概率阈值、样本感染概率和样本干预动作，对强化学习模型进行训练，该强化学习模型使用近端优化策略(Proximal Policy Optimization，简称PPO)的深度强化学习框架来解决疫情防控问题，PPO采用的actor-critic框架。critic网络是用来衡量当前的疫情防控动作的长期价值，而actor网络是来找到实现双目标优化的最优动作策略。可选地，actor网络和critic网络可以是GNN神经网络。

进一步地，根据训练好的图神经网络和训练好的强化学习模型，得到疫情防控模型。通过该疫情防控模型可以得到个体间的接触联系状态特征，获取最优的疫情防控策略。

在上述实施例的基础上，所述感染概率通过以下步骤得到：

根据目标城市中用户终端个体在预设时间间隔内的地区访问历史记录信息，获取所述用户终端个体的健康概率、显性感染者状态人数和影响人数，所述影响人数为所述用户终端在同一时间及同一地区影响到的人数；

在本发明中，根据目标城市中用户终端个体在预设时间间隔内的地区访问历史记录信息，得到目标城市中用户终端个体在每一天的健康概率、显性感染者状态人数和影响人数。进一步地，根据第一预设感染概率、显性感染者状态人数和影响人数，更新用户终端个体的健康概率，得到用户终端个体在与陌生人接触后的健康概率；进一步地，根据第二预设感染概率，更新用户终端个体在与陌生人接触后的健康概率，得到用户终端个体与陌生人以及熟人接触后的健康概率，从而进一步得到用户终端个体的感染概率。

其中，影响人数为目标城市中的用户终端个体在同一时间处于显性感染者所覆盖地区时影响到的总人数；第一预设感染概率是根据目标城市的疫情低风险、中风险和高风险程度，估算用户终端个体在与陌生人接触后的感染概率；第二预设感染概率是根据目标城市的疫情低风险、中风险和高风险程度，估算用户终端个体在与熟人接触后的感染概率。

在一个实施例中，由于疫情防控的难点在于如何找到隐性感染者并且采取有效及时的措施。为了更高效地利用个体的信息，本发明提供了基于个体历史轨迹的感染概率估计方法来估计个体感染的概率。通过对城市内的个体进行编号1，2，…，M，定义第i个人的感染概率为第i个人的健康概率是/>估计个体感染的概率具体的工作流程如下：

步骤201，追溯所有用户终端个体在过去T天内地区访问历史；

步骤202，对于第i个用户终端个体，定义其在第t天的健康概率为如果用户终端个体i的健康状态不是infected(被感染的)，那么将/>初始化为1，更新用户终端个体与陌生人接触后的健康概率，更新该健康概率的计算公式为：

其中，表示第i个用户终端个体在第t-1天的健康概率，/>表示第i个用户终端个体在第t天与陌生人接触后的健康概率，p_s表示用户终端个体与陌生人接触的感染概率，/>表示第t-1天处于Symptomatic状态的感染者人数，/>表示第t-1天与第i个人同一时间在同一地区的总人数；

步骤203，如果用户终端个体与熟人接触后，则更新用户终端个体的健康概率，更新该健康概率的计算公式为：

其中，表示第i个用户终端个体在第T天的健康概率，/>表示第i个用户终端个体在第T天与熟人接触后的健康概率，p_c表示用户终端个体与熟人接触的感染概率；

步骤204，获取用户终端个体的感染概率，该感染概率的计算公式为：

其中，表示第i个人的感染概率。

需要说明的是，根据上述步骤得到估计的用户终端个体的感染概率，可用于更新用户终端个体状态信息，也可以为用户终端个体防控措施的筛选提供帮助。

在上述实施例的基础上，将所述样本干预动作概率阈值和样本感染概率输入到强化学习模型中，得到预测干预动作，包括：

在本发明中，基于深度强化学习的框架来探索最优的动态防控策略，通过采用单智能体的方法来解决一个城市内所有个体的疫情防控问题。该单智能体使用近端优化策略(Proximal Policy Optimization，简称PPO)的深度强化学习框架来解决疫情防控问题，PPO采用的actor-critic框架。critic网络是用来衡量当前的疫情防控动作的长期价值，而actor网络是来找到实现双目标优化的最优动作策略，其中，actor网络和critic网络采用的均为GNN神经网络。为了使得强化学习(Reinforcement Learning，简称RL)模型在学习过程中能够充分探索，可以在损失函数loss中增加动作的熵奖励。

在PPO设定下的单智能体，状态、动作以及奖励函数的设计如下：

State：系统的状态是每个用户终端个体特征信息的串联，这个状态是从疫情防控的第一天开始得到的。对于每个用户终端个体，状态包括用户终端个体的健康状态，干预状态以及上述实施例提及的用户终端个体感染概率。

Action：对于整个单智能体而言，每一天的动作是对每个个体确定对应的防控动作措施。该防控动作措施包括No Intervention(无干预)、Confine(与居住处外的人无联系)、Quarantine(与陌生人无联系)和Isolate(与任何人都无联系)。

Reward：本发明的预设优化目标是要同时最小化总的感染人数与出行干预。考虑到这是一个双目标优化问题，定义了以下的奖励函数reward r：

本发明通过将感染人数与出现干预的双目标建模成强化学习的奖励函数，利用强化学习的方法使得对不同的用户终端个体输出具体的防控动作措施，获取最优的疫情防控策略。

进一步地，基于个体的疫情防控由于需要对每个个体输出防控动作，因此对于动作空间存在着巨大的挑战，不便于疫情策略的探索。为了解决这个问题，本发明提出基于个体感染概率的动作剪枝方法，可以根据上述实施例中计算得到的个体感染概率作为先验知识，以实现对动作空间的探索进行剪枝。

具体地，根据样本干预动作概率阈值输入到强化学习模型中，获取用户终端个体的感染风险概率阈值。定义用户终端个体i，强化学习模型中的actor网络对于用户终端个体的输出是<p_i,1，p_i,2，p_i,3，p_i,4>，其中，i＝1，2，3，…，M，且p_i,1、p_i,2、p_i,3和p_i,4均表示干预动作概率阈值。由于输出的整体联合动作较多，且组合级别动作呈指数增长，对动作空间产生限制，导致深度强化学习效率低，为了解决此问题，将四个输出的值转化成三个阈值，使得三个阈值分布在0～1之间，且P_i,1、P_i,2和P_i,3呈大小递增，具体计算公式如下：

其中，P_i,1、P_i,2和P_i,3表示不同的感染风险概率阈值，且0≤P_i,1≤P_i,2≤P_i,3。

可以理解的是，该感染风险概率衡量了个体感染的概率以及个体潜在感染他人的潜力。更高感染风险的个体应该受到更严格的防控措施，可以将感染风险水平阈值进一步作为上述实施例提及的感染概率的阈值，目的是希望更高感染概率的人会被认定为有更高的感染风险，从而也就将受到更严格的防控措施。通过这样的方式，感染概率高的个体不会被视为低风险，从而能够一定程度减少策略空间的探索。

进一步地，根据感染风险概率阈值和上述实施例计算得到的用户终端个体的感染概率通过定义动作剪枝规则对感染概率进行感染区间划分，从而得到不同感染区间对应的用户终端个体的预测干预动作。具体的动作剪枝规则表如表1所示：

表1动作剪枝规则表

根据上表内容可知，用户终端个体的感染概率区间按照从低到高的顺序排列，从低到高排列的不同感染概率区间分别对应的防控动作也会变得越来越严格。对于不同的用户终端个体有不同的风险阈值，这充分考虑了不同用户终端个体状态特征的差异性。

图3为本发明提供的个体疫情防控方法的原理示意图，如图3所示，本发明建立了一个PPO的强化学习框架来获取最优的疫情防控策略，PPO采用的actor-critic框架。具体地，该方法以天为最小的策略实施间隔时间单位，先将采集到的用户终端个体的健康状态、干预状态和感染概率等特征状态信息串联起来，以及地区访问历史记录信息作为输入，以地区访问历史记录信息为边，个体状态信息为节点，通过个体-地区-个体的接触联系关系建模个体与个体之间的接触联系，从而构建得到图神经网络。经过图神经网络层的计算，得到每个用户终端个体的干预动作概率阈值。根据干预动作概率阈值和用户终端个体的感染概率，得到不同感染概率的用户终端个体对应的干预动作。同时，通过actor-critic框架输出状态价值(V-value)，critic网络对当前状态价值进行估计，并根据奖励函数reward进行策略调整，调整目标为训练一个强化学习网络，使得能够每一天对不同的个体输出具体的防控措施，最终使整个疫情防控期间的Score最小，从而获取到最优疫情防控策略。

在一实施例中，在模型训练的部分，需要先通过手机等移动通讯设备，采集一段时间待部署城市用户的出行轨迹，并对待部署城市分块。通过个体的出行轨迹可以建模得到地区访问历史，以及遗迹个体-个体的亲疏关系；通过真实疫情的参数构建对应SEIR(Susceptible Exposed Infectious Recovered)模型，并结合个体的移动建模构建疫情模拟器。在疫情模拟器上训练疫情防控模型，并将训练好的疫情防控模型部署在中心服务器上。在模型部署和使用部分，需要采集用户的历史移动与健康、干预状态到中心服务器，并输入在中心服务器的部署的强化学习(Reinforcement Learning，简称RL)模型中，得到每个用户对应的防控措施，并通过移动端发送给每个用户以此来达到防控的效果。

优选地，疫情防控模型可以适用于城市内不同时期、不同疫情的个体防控。具体地，在模型训练阶段，在基于城市用户的移动数据得到个体的地区访问历史、个体-个体关系的基础上，对于不同时期的疫情，可以通过设定模拟器中不同疫情感染人数生成的方式来适应不同的场景。比如对于疫情初期，外来接触人口导致感染的情况比较多，因此可以在模拟器上设定某一段时间有随机的外来接触感染以此适应该场景；而对于疫情中期，模型是基于城市内已经有了一定的感染人口的基础上进行的疫情防控，因此可以在模拟器初始感染人口的设定上设置一定的人数来满足该场景的需求。而对于不同的疫情，可以通过已有研究、报告中对该疫情SEIR模型的设定来对模拟器的参数进行改造，从而适应不同的疫情设定。

图4为本发明提供的个体疫情防控系统的结构示意图，如图4所示，本发明提供了一种个体疫情防控系统，该系统包括信息获取模块401、干预动作获取模块402和防控措施获取模块403，其中，信息获取模块401用于获取目标城市中用户终端个体在预设时间间隔内预设时段的状态信息和地区访问历史记录信息，所述状态信息包括健康状态、干预状态和感染概率；干预动作获取模块402用于将所述状态信息和所述地区访问历史记录信息输入到训练好的疫情防控模型，获取所述目标城市中每个用户终端个体的疫情干预动作；其中，所述训练好的疫情防控模型包括图神经网络和强化学习模型，所述训练好的疫情防控模型是根据样本状态信息、样本地区访问历史记录信息和样本干预动作，对图神经网络和强化学习模型进行训练得到的；防控措施获取模块403用于根据所述疫情干预动作，获取所述用户终端个体的疫情干预策略，以对所述用户终端个体进行干预。

本发明提供的个体疫情防控系统，过用户终端个体的历史轨迹来追踪用户终端个体间的接触，利用图神经网络建模用户终端个体间的接触联系，从而加强用户终端个体的状态特征；通过强化学习模型获取最优疫情防控策略，对高风险人群进行不同力度的精准出行干预，提高了疫情防控成效。

在上述实施例的基础上，所述系统还包括样本训练集构建模块、图神经网络训练模块、预测干预动作获取模块、强化学习模型训练模块和疫情防控模型获取模型，其中，样本训练集构建模块用于根据用户终端个体在历史阶段预设时段的样本状态信息和样本地区访问历史记录信息，构建样本训练集；图神经网络训练模块用于将所述样本训练集输入到图神经网络中，输出得到样本干预动作概率阈值，所述图神经网络是基于GraphSage构建得到的；预测干预动作获取模块用于将所述样本干预动作概率阈值和样本感染概率输入到强化学习模型中，得到预测干预动作；强化学习模型训练模块用于根据所述预测干预动作和样本干预动作，基于近端优化策略，对所述强化学习模型进行训练；所述疫情防控模型获取模型用于在所述图神经网络和所述强化学习模型的训练结果满足预设训练条件的情况下，得到训练好的疫情防控模型。

本发明提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图5为本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行个体疫情防控方法，该方法包括：获取目标城市中用户终端个体在预设时间间隔内预设时段的状态信息和地区访问历史记录信息，所述状态信息包括健康状态、干预状态和感染概率；将所述状态信息和所述地区访问历史记录信息输入到训练好的疫情防控模型，获取所述目标城市中每个用户终端个体的疫情干预动作；其中，所述训练好的疫情防控模型是由样本状态信息、样本地区访问历史记录信息和样本干预动作，对图神经网络和强化学习模型进行训练得到的；根据所述疫情干预动作，获取所述用户终端个体的疫情干预策略，以对所述用户终端个体进行干预。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的个体疫情防控方法，该方法包括：获取目标城市中用户终端个体在预设时间间隔内预设时段的状态信息和地区访问历史记录信息，所述状态信息包括健康状态、干预状态和感染概率；将所述状态信息和所述地区访问历史记录信息输入到训练好的疫情防控模型，获取所述目标城市中每个用户终端个体的疫情干预动作；其中，所述训练好的疫情防控模型是由样本状态信息、样本地区访问历史记录信息和样本干预动作，对图神经网络和强化学习模型进行训练得到的；根据所述疫情干预动作，获取所述用户终端个体的疫情干预策略，以对所述用户终端个体进行干预。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的个体疫情防控方法，该方法包括：获取目标城市中用户终端个体在预设时间间隔内预设时段的状态信息和地区访问历史记录信息，所述状态信息包括健康状态、干预状态和感染概率；将所述状态信息和所述地区访问历史记录信息输入到训练好的疫情防控模型，获取所述目标城市中每个用户终端个体的疫情干预动作；其中，所述训练好的疫情防控模型是由样本状态信息、样本地区访问历史记录信息和样本干预动作，对图神经网络和强化学习模型进行训练得到的；根据所述疫情干预动作，获取所述用户终端个体的疫情干预策略，以对所述用户终端个体进行干预。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种个体疫情防控方法，其特征在于，包括：

根据所述疫情干预动作，获取所述用户终端个体的疫情干预策略，以对所述用户终端个体进行干预；

所述训练好的疫情防控模型通过以下步骤训练得到的：

在所述图神经网络和所述强化学习模型的训练结果满足预设训练条件的情况下，得到训练好的疫情防控模型；

所述将所述样本训练集输入到图神经网络中，输出得到样本干预动作概率阈值，包括：

其中，所述干预动作概率阈值公式为：

其中，表示地区在第k-1个时间步的访问历史记录信息，/>表示根据访问历史记录信息获取到的地区访问者的特征，/>表示第k-1层GNN网络的地区节点特征，/>表示第k层GNN网络的用户终端个体节点特征，所述用户终端个体节点特征包括干预动作概率阈值，W^k-1、B^k-1、W^k和B^k表示可学习的参数；

所述感染概率通过以下步骤得到：

根据所述第二健康概率和感染概率计算公式，获取所述用户终端个体的感染概率；

所述感染概率计算公式为：

其中，表示第i个用户终端个体在第t-1天的健康概率，/>表示第i个用户终端个体在第t天与陌生人接触后的健康概率，p_s表示用户终端个体与陌生人接触的感染概率，表示第t-1天处于显性感染者状态的感染者人数，/>表示第t-1天与第i个人同一时间在同一地区的总人数，/>表示第i个用户终端个体在第T天的健康概率，/>表示第i个用户终端个体在第T天与熟人和陌生人接触后的健康概率，p_c表示用户终端个体与熟人接触的感染概率，/>表示第i个人的感染概率；

所述将所述样本干预动作概率阈值和样本感染概率输入到强化学习模型中，得到预测干预动作，包括：

根据所述样本感染风险概率阈值，基于所述样本感染概率进行感染区间划分，获取不同感染区间对应的用户终端个体的预测干预动作；

所述预设优化目标的奖励公式为：

2.一种个体疫情防控系统，其特征在于，用于实施如权利要求1所述的个体疫情防控方法，包括：

3.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1所述个体疫情防控方法的步骤。

4.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1所述个体疫情防控方法的步骤。