CN115910376A

CN115910376A - 基于联邦强化学习的密接检测系统及检测方法

Info

Publication number: CN115910376A
Application number: CN202211510066.6A
Authority: CN
Inventors: 钟红建; 骆冰清; 夏彬
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-04-04

Abstract

本发明属于接触检测技术领域，具体地说，是一种基于联邦强化学习的密接检测系统及检测方法，系统具体分为边缘用户终端及中心云服务端两部分，方法包括密接检测系统训练和密接检测系统使用两部分，本发明能够做到在联邦学习环境下，用户之间通过蓝牙信号传输的接触数据始终保存在边缘用户终端，保护了用户数据及隐私安全；通过利用循环神经网络学习蓝牙密接信号与距离之间的关联性，学习得到密接时间推断模型，通过输入蓝牙信号序列数据得到不同距离区间下的密接时间；本发明基于强化学习的参数融合方法通过使用多agent强化学习方法，学习在联邦学习环境参数融合过程中边缘用户终端的权重选择，保证了在不同训练场景下能得到最大的模型精度。

Description

基于联邦强化学习的密接检测系统及检测方法

技术领域

本发明属于接触检测技术领域，涉及到深度学习、强化学习、分布式学习等技术，具体地说，是一种基于联邦强化学习的密接检测系统及检测方法，可以有效保护用户隐私同时实现人员密接检测。

背景技术

蓝牙(Bluetooth)技术是一种无线数据与语音通信的开放性全球规范，它是低成本、短距离的无线个人网络传输(Wireless PersonalAreaNetwork)应用。2010年以后，蓝牙推出4.0版本的低功耗版本(Bluetooth Low-energy，BLE)，能在移动设备上以低耗电方式待机，使它能长时间处于可连接状态；它不需要像Wi-Fi一样消耗大量电力、也不需要像3G一样消耗大量数据，也能随时与外部设备连接。现今处于互联网时代下，手机应用无处不在，人人都有一部手机，而手机上都配备了蓝牙模块。我们可以天然的通过使用手机蓝牙来发送与接收用户之间的数据信息。

互联网时代下应用的百花齐放给人们的生活带来了极大的便利，但是用户数据的泄露也遭受着极大的风险。例如2021年4月，某黑客论坛曝光了脸书5.33亿用户的个人数据，涉及106个国家和地区用户的脸书ID、真实姓名、位置、电话号码、电子邮件等信息。国内外越来越重视用户的数据隐私安全，也颁布了相关的法律法规。例如2017年颁布的《中国网络安全法》和《民法通则》要求互联网企业不得泄露或篡改其收集的个人信息，并且在与第三方进行数据交易时，他们需要确保拟议合同遵守法律数据保护义务。2018年5月25日，联合国发布了《通用数据保护条例》(GDPR)。GDPR旨在保护用户的个人隐私并提供数据安全。

现有文献中的密接检测方法中大多只涉及人员接触的判断，对于密接距离及时间的诊断方法很少。

发明内容

本发明旨在提出一种具有隐私保护的利用蓝牙信号序列数据进行密接检测的系统及方法，该系统及方法采用联邦学习环境保护用户隐私，利用循环神经网络能够学习长期依赖性的特点来学习蓝牙信号序列与距离变化之间的相关性以进行密接检测，同时使用多agent强化学习方法学习联邦学习环境下参数融合过程的权重以提高密接检测准确率。

本发明采用的具体技术方案为一种基于联邦强化学习的密接检测系统及检测方法：为保护用户隐私使用了联邦学习环境，密接检测系统分为边缘用户终端和中心服务云端两部分。边缘用户终端作为联邦学习的参与方，利用本地数据协同的进行密接时间推断模型的训练，同时利用权重选择模型在不同的训练状态下选择权重，让本地数据训练的密接时间推断模型更好的参与到全局训练中；中心服务云端通过构建密接网确定用户接触关系，并据此构建训练及推断用户集，利用参数融合达到保护用户隐私的同时进行数据共享的目的，最后利用参数融合的反馈信息进行强化学习模型训练得到边缘用户终端的权重选择模型。

本发明披露的基于联邦强化学习的密接检测方法的具体实施步骤如下：

密接检测系统训练过程：

步骤1：边缘用户终端在接收到其他边缘用户终端广播的蓝牙信号后生成密接标识对并立即上传到中心服务云端构建密接网；

步骤2：中心服务云端选择参与本轮训练的边缘用户终端；

步骤3：边缘用户终端利用本地数据训练密接时间推断模型，同时根据权重选择模型选择权重，训练完成后使用同态加密算法对密接时间推断模型的参数进行加密，并将加密后的参数及权重信息上传到中心服务云端；

步骤4：中心服务云端接收到边缘用户终端上传的加密参数及权重信息后，对参数进行参数融合过程，并将融合后的全局共享参数分发给参与训练的边缘用户终端；

步骤5：边缘用户终端利用融合后的全局共享参数更新密接时间推断模型，同时使用本地测试数据集对更新后的密接时间推断模型进行测试，并将本地测试的密接时间推断模型精度上传到中心服务云端；

步骤6：中心服务云端接收到所有参与训练的边缘用户终端的密接时间推断模型测试精度后形成全局奖励，强化学习模型训练模块利用全局奖励对权重选择模型进行训练，并将训练后的权重选择模型参数分发给参与训练的边缘用户终端。

密接检测系统使用过程：

步骤1：中心云服务端根据密接网确定患者及其接触人员，并将密接时间推断指令发送给相关边缘用户终端；

步骤2：边缘用户终端根据密接时间推断指令确定用户关系，利用密接时间推断模型得到不同距离区间的密接时间推断结果，并将结果上传至中心服务云端；

步骤3：中心服务云端根据密接网的密接标识对的对应关系对上传的密接时间推断结果进行平均操作，并将平均后的结果分发至对应的边缘用户终端。

在上述技术方案中，密接时间推断模型有两个部分，分别是循环神经网络和Softmax函数，循环神经网络的公式表现形式为：

其中，Δt为接收蓝牙信号数据的持续时间段，

与

分别是Δt时间内接收的数据中第i-1及i个输入数据的输出，

为Δt时间内接收的数据中的第i个输入数据，θ为循环神经网络的参数。边缘用户终端储存有持续接收的蓝牙信号数据，可以利用Δt持续时间段内的数据得到蓝牙信号数据与距离及时间的联系。循环神经网络的输入X^Δt可以设置为持续一段时间内的蓝牙信号接收数据，即：

其中，Δt为接收蓝牙信号数据的持续时间段，n为Δt时间内接收蓝牙信号数据的数据量大小，

为Δt时间内接收的蓝牙信号数据的第i个输入数据。

为二维向量，其中s为蓝牙信号的大小，v为接收第i-1条数据与接收第i条数据的时间差。

循环神经网络的输出Y^Δt为密接概率向量，即：

其中，Δt为接收蓝牙信号数据的持续时间段，m为距离区间数量，

为距离区间i下的密接概率。这个距离区间可以根据防疫相关要求而定，例如：(0,2)(2,5)(5,9)(9,+∞)(单位m)，此时m＝4，(0,2)对应距离区间1，(2,5)对应距离区间2，以此类推。

当进行密接时间推断模型训练时，边缘用户终端可以通过接收的蓝牙信号数据获得Δt时间内的总接触时间T^Δt，在边缘用户终端接收到其他边缘用户终端的蓝牙信号的同时测定边缘用户终端之间的距离值可以得到总接触时间T^Δt内处于不同距离区间i下的接触时间

最终可得到密接时间推断模型的训练标签

即：

当通过密接时间推断模型推断密接时间时，针对循环神经网络的输出概率值和不为1的情况，使用Softmax函数对循环神经网络的输出进行控制，使得输出概率值和为1。Softmax函数的数学运算如下：

即为密接时间推断模型得到的在距离区间i下的密接概率。边缘用户终端可以通过蓝牙信号数据获得Δt时间内的总接触时间T^Δt。当通过Softmax函数输出不同距离区间的密接概率

后，将

乘以总接触时间T^Δt可以得到不同距离区间下的密接时间

即：

在本发明中，联邦学习环境中，边缘用户终端使用本地数据参与密接时间推断模型训练的过程最终是通过模型参数融合的方式得以体现。参数融合是对边缘用户终端上传的密接时间推断模型的参数进行加权求和的过程。参数融合过程中权重的大小反映了边缘用户终端的参与程度，权重的设置会影响模型训练的收敛速度和模型精度。本方法利用强化学习的动态选择性，在联邦学习环境下，针对不同边缘用户终端的局部和全局训练过程状态，选择边缘用户终端的权重。

本方法具体使用多agent强化学习方法V值分解网络(VDN)。通过各个边缘用户终端执行权重选择动作后得到的全局奖励，可以迭代的对边缘用户终端的权重选择模型进行训练。

在本强化学习环境中，具体设置如下：

状态：每个边缘用户终端的状态由五个部分组成：探测损失，全局模型精度，本地数据量大小，全局数据量大小，本地训练轮次。设

表示边缘用户终端i在第t轮训练的探测损失，即边缘用户终端利用本地数据进行训练得到的损失。探测损失表现了边缘用户终端数据之间的差异性；全局模型精度M表现了边缘用户终端选择权重进行参数融合后的模型精度效果，同时也反映了训练的进度，精度高表示到了训练后期；本地数据量大小k_i与全局数据量大小K潜在反映了局部与整体的数量关系，为加权提供依据；本地训练轮次P_i是指边缘用户终端在一次训练过程中本地训练的次数，训练次数越多，更有理由认为应该增加权重；边缘用户终端i在第t轮训练状态向量

状态信息的设置反映了局部与全局的训练状态。

动作：每次训练过程，边缘用户终端i根据状态信息选择参数融合的权重大小。动作空间设置为

范围内值对应一个权值。

奖励：为了尽快达到精度目标，将每次迭代的奖励信号设置为全局模型精度U^t减去一个设定的精度值u。全局模型精度

为第t轮训练的边缘用户终端i的密接时间推断模型测试精度，n为第t轮参与训练的边缘用户终端的数量，最大化累积奖励对应于找到最大化的模型精度。第t轮训练奖励r^t＝U^t-u。

具体来说，每个边缘用户终端的权重选择模型使用一个深度Q网络(DQN)来推断其动作，即使用了一个深度神经网络(DNN)来实现Q函数Q^θ _n(s,a)＝E[R_t|s^t _n＝s,a^t _n＝a]，其中θ是DNN的参数，

是在第t轮训练时接收到的总的全局折扣奖励。边缘用户终端n为了在本地使用DQN进行训练需要使用重放缓冲区保存状态转换元组<s^t _n，a^t _n，s^t+1 _n，r^t>。强化学习模型训练模块对联合Q函数

进行更新过程。在本强化学习环境中，边缘用户终端的状态表示具有全局性，所以各个边缘用户终端共享Q网络参数。边缘用户终端的Q网络可以在中心云服务端上通过最小化损失L＝E_{st,at,rt,st+1}[y_t-Q_tot(s_t,a_t)]²递归的进行训练，其中

θ为目标网络的参数并在训练过程中周期性的对θ进行复制。

在强化学习模型训练完成后，各个边缘用户终端可以利用训练后的权重选择模型根据环境当前状态，动态的选择对应的权重参与参数融合过程使得全局测试精度最大。同时由于强化学习的动态选择性会降低数据质量差的边缘用户终端的权重，可以有效遏制数据投毒攻击。在本方法中，每次参与参数融合的边缘用户终端的数量可以是不同的，因为边缘用户终端的状态包含了全局与局部的信息，各个边缘用户终端都可以根据该状态信息来选择最优权重。

考虑密接检测系统训练过程有n个边缘用户终端，设u_i为第i个边缘用户终端，

为第t轮训练u_i的密接时间推断模型的参数，u_i在第t轮训练通过权重选择模型选择的权重为

参数融合后的全局共享参数为θ^t+1，则参数融合过程可以表示为

参数融合后的全局共享参数θ^t+1后续将分发给n个边缘用户终端以进行密接时间推断模型精度测试。

本发明的有益效果：

1、在联邦学习环境下，用户之间通过蓝牙信号传输的接触数据始终保存在边缘用户终端，保护了用户数据及隐私安全；

2、通过利用循环神经网络学习蓝牙密接信号与距离之间的关联性，学习得到密接时间推断模型，通过输入蓝牙信号序列数据得到不同距离区间下的密接时间；

3、基于强化学习的参数融合方法通过使用多agent强化学习方法，学习在联邦学习环境参数融合过程中边缘用户终端的权重选择，保证了在不同训练环境下能得到最大的模型精度。

附图说明

图1是本发明的框架图。

具体实施方式

为了加深对本发明的理解，下面将结合附图和实施例对本发明做进一步详细描述，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

一种基于联邦强化学习的密接检测系统，在本系统中，具体分为两个部分，分别是边缘用户终端及中心云服务端，结构如图1所示。在每个边缘用户终端中存在两个深度学习模型，一个是基于循环神经网络的密接时间推断模型，另一个是参数融合过程中的权重选择模型。密接时间推断模型的目标是利用边缘用户终端的本地数据对用户在不同距离区间下的接触时间做出推断。权重选择模型的目标是在边缘用户终端的密接时间推断模型一次训练完成后，选择合适的权重值参与到中心云服务端的参数融合过程。中心服务云端包括三个模块，分别是密接网构建模块、参数融合模块和强化学习模型训练模块。密接网构建模块根据用户上传的密接标识对构建密接网，以确定用户接触人员。参数融合模块对边缘用户终端上传的模型参数进行加权求和得到新的全局共享参数。强化学习模型训练模块利用全局奖励迭代的更新边缘用户终端的权重选择模型的参数。

一种基于联邦强化学习的密接检测方法，具体包括以下步骤：

密接检测系统训练过程：

1、边缘用户终端在接收到其他边缘用户终端广播的蓝牙信号后生成密接标识对并立即上传到中心服务云端构建密接网；

2、中心服务云端选择参与本轮训练的边缘用户终端；

3、边缘用户终端利用本地数据训练密接时间推断模型，同时根据权重选择模型选择权重，训练完成后使用同态加密算法对密接时间推断模型的参数进行加密，并将加密后的参数及权重信息上传到中心服务云端；

4、中心服务云端接收到边缘用户终端上传的加密参数及权重信息后，对参数进行参数融合过程，并将融合后的全局共享参数分发给参与训练的边缘用户终端；

5、边缘用户终端利用融合后的全局共享参数更新密接时间推断模型，同时使用本地测试数据集对更新后的密接时间推断模型进行测试，并将本地测试的密接时间推断模型精度上传到中心服务云端；

6、中心服务云端接收到所有参与训练的边缘用户终端的密接时间推断模型测试精度后形成全局奖励，强化学习模型训练模块利用全局奖励对权重选择模型进行训练，并将训练后的权重选择模型参数分发给参与训练的边缘用户终端。

密接检测系统使用过程：

1、中心云服务端根据密接网确定患者及其接触人员，并将密接时间推断指令发送给相关边缘用户终端；

2、边缘用户终端根据密接时间推断指令确定用户关系，利用密接时间推断模型得到不同距离区间的密接时间推断结果，并将结果上传至中心服务云端；

3、中心服务云端根据密接网的密接标识对的对应关系对上传的密接时间推断结果进行平均操作，并将平均后的结果分发至对应的边缘用户终端。

在上述系统中，密接时间推断模型有两个部分，分别是循环神经网络和Softmax函数，循环神经网络的公式表现形式为：

其中，Δt为接收蓝牙信号数据的持续时间段，

与

分别是Δt时间内接收的数据中第i-1及i个输入数据的输出，

其中Δt为接收蓝牙信号数据的持续时间段，n为Δt时间内接收蓝牙信号数据的数据量大小，

为Δt时间内接收的蓝牙信号数据的第i个输入数据。

循环神经网络的输出Y^Δt为密接概率向量，即：

最终可得到密接时间推断模型的训练标签

即：

后，将

乘以总接触时间T^Δt可以得到不同距离区间下的密接时间

即：

本检测方法利用强化学习的动态选择性，在联邦学习环境下，针对不同边缘用户终端的局部和全局训练过程状态，选择边缘用户终端的权重，使用多agent强化学习方法V值分解网络(VDN)。通过各个边缘用户终端执行权重选择动作后得到的全局奖励，可以迭代的对边缘用户终端的权重选择模型进行训练。

具体设置如下：

状态信息的设置反映了局部与全局的训练状态。

动作：每次训练过程，边缘用户终端i根据状态信息选择参数融合的权重大小。动作空间设置为a^t _n∈{1,2,3,4,5,6,7,8,9,10}，范围内值对应一个权值。

具体来说，每个边缘用户终端的权重选择模型使用一个深度Q网络(DQN)来推断其动作。即使用了一个深度神经网络(DNN)来实现Q函数Q^θ _n(s,a)＝E[R_t|s^t _n＝s,a^t _n＝a]，其中θ是DNN的参数，

θ为目标网络的参数并在训练过程中周期性的对θ进行复制。

参数融合后的全局共享参数为θ^t+1，则参数融合过程可以表示为：

以上所述为本发明的示例性实施例，并非因此限制本发明专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于联邦强化学习的密接检测系统，其特征在于，该系统分为两个部分，边缘用户终端及中心云服务端，在每个所述边缘用户终端中设置两个深度学习模型，一个是基于循环神经网络的密接时间推断模型，另一个是参数融合过程中的权重选择模型；所述中心服务云端包括三个模块，分别是密接网构建模块、参数融合模块和强化学习模型训练模块。

2.根据权利要求1所述的基于联邦强化学习的密接检测系统，其特征在于，所述密接时间推断模型有两个部分，分别是循环神经网络和Softmax函数，循环神经网络的公式表现形式为：

其中，Δt为接收蓝牙信号数据的持续时间段，

与

分别是Δt时间内接收的数据中第i-1及i个输入数据的输出，

为Δt时间内接收的数据中的第i个输入数据，θ为循环神经网络的参数。

3.根据权利要求2所述的基于联邦强化学习的密接检测系统，其特征在于，所述边缘用户终端储存有持续接收的蓝牙信号数据，利用Δt持续时间段内的数据得到蓝牙信号数据与距离及时间的联系，所述循环神经网络的输入X^Δt设置为持续一段时间内的蓝牙信号接收数据，即：

为Δt时间内接收的蓝牙信号数据的第i个输入数据，

4.根据权利要求3所述的基于联邦强化学习的密接检测系统，其特征在于，所述循环神经网络的输出Y^Δt为密接概率向量，即：

为距离区间i下的密接概率。

5.一种基于联邦强化学习的密接检测方法，使用如权利要求4所述的基于联邦强化学习的密接检测系统，其特征在于，包括密接检测系统训练和密接检测系统使用两部分，所述密接检测系统训练过程具体包括以下步骤：

步骤1、边缘用户终端在接收到其他边缘用户终端广播的蓝牙信号后生成密接标识对并立即上传到中心服务云端构建密接网；

步骤2、中心服务云端选择参与本轮训练的边缘用户终端；

步骤3、边缘用户终端利用本地数据训练密接时间推断模型，同时根据权重选择模型选择权重，训练完成后使用同态加密算法对密接时间推断模型的参数进行加密，并将加密后的参数及权重信息上传到中心服务云端；

步骤4、中心服务云端接收到边缘用户终端上传的加密参数及权重信息后，对参数进行参数融合过程，并将融合后的全局共享参数分发给参与训练的边缘用户终端；

步骤5、边缘用户终端利用融合后的全局共享参数更新密接时间推断模型，同时使用本地测试数据集对更新后的密接时间推断模型进行测试，并将本地测试的密接时间推断模型精度上传到中心服务云端；

步骤6、中心服务云端接收到所有参与训练的边缘用户终端的密接时间推断模型测试精度后形成全局奖励，强化学习模型训练模块利用全局奖励对权重选择模型进行训练，并将训练后的权重选择模型参数分发给参与训练的边缘用户终端；

所述密接检测系统使用过程具体包括以下步骤：

步骤1、中心云服务端根据密接网确定患者及其接触人员，并将密接时间推断指令发送给相关边缘用户终端；

步骤2、边缘用户终端根据密接时间推断指令确定用户关系，利用密接时间推断模型得到不同距离区间的密接时间推断结果，并将结果上传至中心服务云端；

步骤3、中心服务云端根据密接网的密接标识对的对应关系对上传的密接时间推断结果进行平均操作，并将平均后的结果分发至对应的边缘用户终端。

6.根据权利要求5所述的基于联邦强化学习的密接检测方法，其特征在于，在所述密接检测系统训练过程中，当进行密接时间推断模型训练时，边缘用户终端通过接收的蓝牙信号数据获得Δt时间内的总接触时间T^Δt，在边缘用户终端接收到其他边缘用户终端的蓝牙信号的同时测定边缘用户终端之间的距离值得到总接触时间T^Δt内处于不同距离区间i下的接触时间

最终可得到密接时间推断模型的训练标签

即：

当通过密接时间推断模型推断密接时间时，针对循环神经网络的输出概率值和不为1的情况，使用Softmax函数对循环神经网络的输出进行控制，使得输出概率值和为1，Softmax函数的数学运算如下：

即为密接时间推断模型得到的在距离区间i下的密接概率，边缘用户终端通过蓝牙信号数据获得Δt时间内的总接触时间T^Δt，当通过Softmax函数输出不同距离区间的密接概率

后，将

乘以总接触时间T^Δt可以得到不同距离区间下的密接时间

即：

7.根据权利要求5或6所述的基于联邦强化学习的密接检测方法，其特征在于，该检测方法利用强化学习的动态选择性，在联邦学习环境下，针对不同边缘用户终端的局部和全局训练过程状态，选择边缘用户终端的权重，使用多agent强化学习方法V值分解网络，通过各个边缘用户终端执行权重选择动作后得到的全局奖励，以迭代的对边缘用户终端的权重选择模型进行训练。

8.根据权利要求7所述的基于联邦强化学习的密接检测方法，其特征在于，该检测方法中的联邦学习环境具体设置如下：

状态：每个边缘用户终端的状态由五个部分组成：探测损失、全局模型精度、本地数据量大小、全局数据量大小、本地训练轮次，设

表示边缘用户终端i在第t轮训练的探测损失，即边缘用户终端利用本地数据进行训练得到的损失，探测损失表现了边缘用户终端数据之间的差异性，全局模型精度M表现了边缘用户终端选择权重进行参数融合后的模型精度效果，同时也反映了训练的进度，精度高表示到了训练后期，本地数据量大小k_i与全局数据量大小K潜在反映了局部与整体的数量关系，为加权提供依据，本地训练轮次P_i是指边缘用户终端在一次训练过程中本地训练的次数，训练次数越多，增加权重，边缘用户终端i在第t轮训练状态向量

状态信息的设置反映了局部与全局的训练状态；

动作：每次训练过程，边缘用户终端i根据状态信息选择参数融合的权重大小，动作空间设置为

范围内值对应一个权值；

奖励：为了尽快达到精度目标，将每次迭代的奖励信号设置为全局模型精度U^t减去一个设定的精度值u，全局模型精度

为第t轮训练的边缘用户终端i的密接时间推断模型测试精度，n为第t轮参与训练的边缘用户终端的数量，最大化累积奖励对应于找到最大化的模型精度，第t轮训练奖励r^t＝U^t-u。