CN113345597B

CN113345597B - 传染病概率预测模型的联邦学习方法、装置及相关设备

Info

Publication number: CN113345597B
Application number: CN202110801132.4A
Authority: CN
Inventors: 刘广
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-11-16
Anticipated expiration: 2041-07-15
Also published as: CN113345597A

Abstract

本发明公开了一种传染病概率预测模型的联邦学习方法、装置及相关设备，应用于人工智能技术领域，用于解决传染病概率预测模型的训练样本孤岛、用户样本数据保密性差的技术问题。本发明提供的方法包括：根据当前移动终端的用户数据得到本端用户特征，根据从中心服务器获取的在先梯度损失表进行训练并加密，得到当前移动终端的加密梯度和损失，接收在先移动终端发送的在先梯度损失表，当先梯度损失表不包括掩码区域时，将该先梯度损失表发送至中心服务器，新建并更新梯度损失表，当该先梯度损失表包括掩码区域时，对在先梯度损失表进行更新，通过循环对在后移动终端中的先梯度损失表进行判断、训练和更新，直到该传染病概率预测模型的损失函数收敛。

Description

传染病概率预测模型的联邦学习方法、装置及相关设备

技术领域

本发明涉及人工智能技术领域，尤其涉及传染病概率预测模型的联邦学习方法、装置、设备及存储介质。

背景技术

进入冬季以来，新冠病毒如今又在国内的各个城市零星散发，不管是居家的人们还是每天出入工作的人们都不能得以心安，临近过节，人们想回家团圆都需要受到各种限制。

目前对于人们的健康管理办法一方面是根据用户提供的行程码，另一方面是要求人们主动做核酸检测，根据核酸检测结果判断某用户是否感染新冠病毒，并根据感染者的行程轨迹对对应的位置点进行消杀，对去过该位置点的用户进行逐一排查。

这种管理办法的缺陷在于：一方面根据已经确诊的病人再去人工的对其它未确诊的人们进行排查消耗的人力资源比较多，排查效率也很低，另一方面对于途径某一地点或乘坐过那一趟车的用户，可能对自己去过哪个具体的地点及车牌记得并不清楚，用户自己记忆不清使得有关部门在对去过风险地段的用户进行排查时更容易漏排，再加上有些用户对自己的行程轨迹或身体状况进行隐瞒，这无疑给新冠病毒的传播带来了更大的隐患。

现亟待研发出一种既能够对用户得传染病的概率进行预测，又能够保护用户的隐私数据不被泄露的方法。

发明内容

本发明实施例提供一种传染病概率预测模型的联邦学习方法、装置、计算机设备及存储介质，以解决传染病概率预测模型的训练样本孤岛、用户样本数据保密性差的技术问题。

一种传染病概率预测模型的联邦学习方法，所述方法包括：

获取存储在所述当前移动终端的用户数据，根据所述用户数据得到本端用户特征；

从中心服务器获取携带有在先梯度和损失的在先梯度损失表；

将所述本端用户特征作为训练样本，结合所述在先梯度和损失对传染病概率预测模型进行训练，获取训练后的当前梯度和损失；

通过所述中心服务器下发的公钥对所述当前梯度和损失进行加密，得到当前移动终端的加密梯度和损失；

接收在先移动终端发送的在先梯度损失表，判断所述在先梯度损失表是否包括有掩码区域，所述在先梯度损失表记载了包括所述在先移动终端的梯度损失在内的历史用户的加密梯度损失；

当所述在先梯度损失表不包括所述掩码区域时，将所述在先梯度损失表发送至所述中心服务器，供所述中心服务器根据与各历史用户对应预设的私钥对对应掩码区域的加密梯度和损失进行解密，并对解密得到的各梯度和损失进行求和，得到所述携带有在先梯度和损失的在先梯度损失表；

当所述在先梯度损失表不包括所述掩码区域时，创建梯度损失表，将所述当前移动终端的加密梯度和损失保存在创建的梯度损失表中，对创建的梯度损失表中空白区域添加掩码，得到包括有所述掩码区域的更新的在先梯度损失表；

当所述在先梯度损失表包括有掩码区域时，将所述当前移动终端的加密梯度和损失保存在所述掩码区域，得到更新的在先梯度损失表；

将所述更新的在先梯度损失表发送至在后移动终端，将所述在后移动终端作为所述当前移动终端，循环所述判断所述在先梯度损失表是否包括所述有掩码区域至所述结合所述在先梯度和损失对传染病概率预测模型进行训练的步骤，直到所述传染病概率预测模型的损失函数收敛。

一种传染病概率预测模型的联邦学习装置，所述装置包括：

特征获取模块，用于获取存储在所述当前移动终端的用户数据，根据所述用户数据得到本端用户特征；

表获取模块，用于从中心服务器获取携带有在先梯度和损失的在先梯度损失表；

训练模块，用于将所述本端用户特征作为训练样本，结合所述在先梯度和损失对传染病概率预测模型进行训练，获取训练后的当前梯度和损失；

加密模块，用于通过所述中心服务器下发的公钥对所述当前梯度和损失进行加密，得到当前移动终端的加密梯度和损失；

表接收模块，用于接收在先移动终端发送的在先梯度损失表，判断所述在先梯度损失表是否包括有掩码区域，所述在先梯度损失表记载了包括所述在先移动终端的梯度损失在内的历史用户的加密梯度损失；

表发送模块，用于当所述在先梯度损失表不包括所述掩码区域时，将所述在先梯度损失表发送至所述中心服务器，供所述中心服务器根据与各历史用户对应预设的私钥对对应掩码区域的加密梯度和损失进行解密，并对解密得到的各梯度和损失进行求和，得到所述携带有在先梯度和损失的在先梯度损失表；

表创建模块，用于当所述在先梯度损失表不包括所述掩码区域时，创建梯度损失表，将所述当前移动终端的加密梯度和损失保存在创建的梯度损失表中，对创建的梯度损失表中空白区域添加掩码，得到包括有所述掩码区域的更新的在先梯度损失表；

更新模块，用于当所述在先梯度损失表包括有掩码区域时，将所述当前移动终端的加密梯度和损失保存在所述掩码区域，得到更新的在先梯度损失表；

循环模块，用于将所述更新的在先梯度损失表发送至在后移动终端，将所述在后移动终端作为所述当前移动终端，循环所述判断所述在先梯度损失表是否包括所述有掩码区域至所述结合所述在先梯度和损失对传染病概率预测模型进行训练的步骤，直到所述传染病概率预测模型的损失函数收敛。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述传染病概率预测模型的联邦学习方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述传染病概率预测模型的联邦学习方法的步骤。

本发明提出的传染病概率预测模型的联邦学习方法、装置、计算机设备及存储介质，可以解决传染病概率预测模型在训练的过程可以适用的训练样本为数据孤岛的问题，同时通过对当前移动终端对梯度和损失进行加密，并通过中心服务器对加密的梯度和损失进行解密并合并，使得各个终端设备接收到的梯度和损失是合并后的梯度和损失，即使知道了具体的梯度值和损失值，也不知道其中间传递的数据，可以保护用户的隐私数据不被泄露，本发明通过联邦学习可以保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习，最终训练得到的传染病概率预测模型可以加载在用户自己的手机上，用户可以通过训练好的传染病概率预测模型对自身得传染病的概率进行预测，当预测为感染者的概率较高时，可以提示用户自行去医院进行确认检测，也可以将预测结果发送至有关部门，以对高风险用户进行居家检测。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中传染病概率预测模型的联邦学习方法的一应用环境示意图；

图2是本发明一实施例中传染病概率预测模型的联邦学习方法的一流程图；

图3是本发明一实施例中对用户数据进行分箱的一流程图；

图4是本发明另一实施例中对用户数据进行分箱的一流程图；

图5是本发明又一实施例中对用户数据进行分箱的一流程图；

图6是本发明一实施例中传染病概率预测模型的联邦学习装置的结构示意图；

图7是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的传染病概率预测模型的联邦学习方法，可应用在如图1的应用环境中，具体可应用在图1的当前移动终端中，其中，各移动终端通过网络与中心服务器进行通信。该移动终端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。该中心服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种传染病概率预测模型的联邦学习方法，以该方法应用在图1中的当前移动终端为例进行说明，包括如下步骤S101至S109：

S101、获取存储在所述当前移动终端的用户数据，根据所述用户数据得到本端用户特征。

在其中一个实施例中，所述用户数据包括但不限于所述用户在预设时间段内乘坐公交的次数、乘坐地铁的次数、去医院的次数、与确诊者在预设时差内相距的最短距离、该用户的职业、该用户的行业等等。

可以理解的是，该本端用户特征是对用户数据进行量化的产物，例如，当用户数据包括用户的行业或者职业时，可以先将不同的行业与二进制编码创建映射关系，根据该用户的行业或者职业获取相映射的二进制编码，从而对用户的行业或者职业进行量化。也可以将用户数据中用户去过的地址进行量化，量化的方式例如预先将各个城市与地址编码建立映射关系，根据该映射关系，查询用户数据中用户去过的地址对应的地址编码和时间，建立时间-地址编码的序列表。

在其中一个实施例中，所述根据所述用户数据得到本端用户特征的步骤包括：

根据所述当前移动终端的用户数据得到与每个所述用户数据相对应的用户特征；

计算每个所述用户特征的方差膨胀系数；

当计算的所述方差膨胀系数大于预设值时，将对应的用户特征从所述本端用户特征中移除。

可以理解的是，方差膨胀系数(variance inflation factor，VIF)是衡量多元线性回归模型中复(多重)共线性严重程度的一种度量。它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。具体可以通过以下公式计算该方差膨胀系数：

其中，VIF表示所述方差膨胀系数，R_i表示自变量对其余自变量作回归分析的负相关系数。方差膨胀系数VIF越大，说明自变量之间存在共线性的可能性越大。一般来讲，如果方差膨胀因子超过10，则回归模型存在严重的多重共线性，需要从特征列表中移除。

对所述用户数据进行分箱；

根据每箱中包括的风险特征和非风险特征的占比计算各箱的权重；

根据计算得到的各箱的权重计算各箱对应类别的用户数据的信息值；

当所述信息值小于预设值时，将对应类别的用户数据移除。

在其中一个实施例中，风险特征表示与得传染病相关性较高的特征，例如用户数据中的是否在特定时间内去过高风险地区、是否乘坐过与确诊者的同一班列车或者航班、是否与确诊者密切接触的记录、用户的职业是否为高风险职业等等。非风险特征表示与得传染病不相关的特征，例如用户的通话记录、生活习惯等。

本实施例通过将信息值小于预设值对应类别的用户数据移除，可以提高用于训练所述传染病概率预测模型的特征包含的有效信息更多，便于减少对传染病概率预测模型的训练次数，提高该传染病概率预测模型的损失函数的收敛效率。

在其中一个实施例中，通过以下公式(1)计算各箱的权重：

其中，i表示箱数，p_good表示所述非风险特征的占比，p_bad表示风险特征的占比。

在其中一个实施例中，通过以下公式(2)计算各箱对应类别的用户数据的信息值：

IV＝∑_iIV_i＝∑_i(p_good-p_bad)WOE_i (2)

其中，IV表示所述信息值，i表示箱数，p_good表示所述非风险特征的占比，p_bad表示风险特征的占比。

图3是本发明一实施例中对用户数据进行分箱的一流程图，在其中一个实施例中，当所述用户数据为字符型数据时，如图3所示，所述对所述用户数据进行分箱的步骤包括以下步骤S301和S302：

S301、判断所述字符型数据所属的类别；

S302、根据所述类别对所述用户数据进行分箱。

根据本实施例的一个使用场景例如，可以将用户行程轨迹中不同的地点归为同一类，将该用户去过的医院名称归为同一类，将该用户乘坐过的出租车的车牌归为同一类。

图4是本发明另一实施例中对用户数据进行分箱的一流程图，在其中一个实施例中，如图4所示，所述根据所述类别对所述用户数据进行分箱的步骤包括以下步骤S401～S403：

S401、判断所述用户数据包括的类别的数量；

S402、当所述类别的数量在数量预设值以内时，根据所述用户数据的类别对所述用户数据进行分箱；

S403、当所述类别的数量大于所述预设值时，对所述用户数据的类别进行降基处理，直至所述类别的数量在所述数量预设值以内时，根据所述用户数据降基处理得到的类别对所述用户数据进行分箱。

该类别的预设值例如为5，根据本实施例的一个使用场景例如：类别数在5个以下，可以直接根据类别来分箱，类别数在5个以上，对所述用户数据的类别进行降基处理，再根据降基后的类别做分箱。

可以理解的是，降基处理是根据该类别所属的上位类别进行划分的过程，当用户数据包括的类别的数量过多时，可以将用户的职业降基至该用户所述的行业这一类。

本实施例通过对所述用户数据的类别进行降基处理，可以减少用于训练的该传染病概率预测模型的数据量，同时不压缩该用户数据中包含的信息值，利于提高该传染病概率预测模型的训练速度。

图5是本发明又一实施例中对用户数据进行分箱的一流程图，在其中一个实施例中，当所述用户数据为数值型数据时，如图5所示，所述对所述用户数据进行分箱的步骤包括以下步骤S501和S502：

S501、获取预先设置的数值区间；

S502、将属于同一数值区间内的数值型数据对应的用户数据分为同一箱。

在其中一个实施例中，该数值区间例如该用户与确诊者在预设时差内相距的最短距离，其中，该确诊者在该预设时差内的行程轨迹可以从数据库中获取得到。

根据本实施例的一个使用场景例如：可以将该用户与确诊者在预设时差内相距的最短距离在200米以内的划分为同一个箱，将该用户与确诊者在预设时差内相距的最短距离在200～500米以内的划分为同一个箱，将该用户与确诊者在预设时差内相距的最短距离在500米以上的划分为同一个箱。

在其他实施例中，该数值型数据包括数值型数据和连续型数值特征。对于离散型数值特征(特征value的变动幅度较小)，若特征value的非重复计数在5个以下，可以直接根据非重复计数值来分箱，若特征value的非重复计数在5个以上，可以根据业务解释或者数据分布做自定义分箱。对于连续型数值特征，由于连续型数值特征value的变动幅度较大，可以用卡方分箱或自定义分箱。

S102、从中心服务器获取携带有在先梯度和损失的在先梯度损失表。

可以理解的是，该中心服务器中存储的携带有在先梯度和损失的在先梯度损失表根据各个终端设备发送的加密梯度和损失得到。具体地，该中心服务器通过根于预先设定的与各个历史用户对应预设的私钥对对应的加密梯度和损失，得到移动终端通过每个用户样本进行训练后的梯度和损失，然后将得到的各梯度和损失进行累加，得到该携带有在先梯度和损失的在先梯度损失表。

S103、将所述本端用户特征作为训练样本，结合所述在先梯度和损失对传染病概率预测模型进行训练，获取训练后的当前梯度和损失。

可以理解的是，该当前梯度和损失与该作为训练样本的本端用户具有对应关系，训练样本的用户特征作为该传染病概率预测模型的x值，训练样本是否已被传染病传染作为该传染病概率预测模型的y值。

可以理解的是同一用户在不同时间段的用户特征及是否已被传染病传染可以作为不同的训练样本，以该传染病为新冠病毒为例，例如用户张三在一月份的核酸检测结果为阴性，在一月份的用户特征为特征集M，该用户张三在二月份的核酸检测结果为阳性，在一月份的用户特征为特征集N，则该用户张三可以作为两个不同的训练样本对该传染病概率预测模型进行训练。

S104、通过所述中心服务器下发的公钥对所述当前梯度和损失进行加密，得到当前移动终端的加密梯度和损失。

在其中一个实施例中，中心服务器在向本端发送该公钥时，具有对通过该公钥对该加密梯度和损失进行解密的私钥。可以理解的是，该私钥与该当前移动终端呈对应关系，且该中心服务器具有用于对其他终端设备的加密梯度和损失进行解密的私钥，该私钥与该终端设备的历史用户呈对应关系。

S105、接收在先移动终端发送的在先梯度损失表，判断所述在先梯度损失表是否包括有掩码区域，所述在先梯度损失表记载了包括所述在先移动终端的梯度损失在内的历史用户的加密梯度损失。

可以理解的是，对于通过各个终端设备处理得到的加密梯度和损失在不同的移动终端的传递过程中逐渐完善。在先移动终端发送的在先梯度损失表中记载了各个在先移动终端通过历史用户样本训练得到的梯度损失。

S106、当所述在先梯度损失表不包括所述掩码区域时，将所述在先梯度损失表发送至所述中心服务器，供所述中心服务器根据与各历史用户对应预设的私钥对对应掩码区域的加密梯度和损失进行解密，并对解密得到的各梯度和损失进行求和，得到所述携带有在先梯度和损失的在先梯度损失表。

可以理解的是，当所述在先梯度损失表不包括所述掩码区域时表示该在先梯度损失表已经填满，可以将该在先梯度损失表发送至所述中心服务器，中心服务器根据与各历史用户对应预设的私钥对对应掩码区域的加密梯度和损失进行解密，对解密得到的各梯度和损失进行求和，得到所述携带有在先梯度和损失的在先梯度损失表，循环至上述步骤S102中。

S107、当所述在先梯度损失表不包括所述掩码区域时，创建梯度损失表，将所述当前移动终端的加密梯度和损失保存在创建的梯度损失表中，对创建的梯度损失表中空白区域添加掩码，得到包括有所述掩码区域的更新的在先梯度损失表。

可以理解的是，当所述在先梯度损失表不包括所述掩码区域时表示该在先梯度损失表已经填满，需要创建新的梯度损失表，并将当前移动终端的加密梯度和损失保存在该所述梯度损失表中，通过对所述梯度损失表中空白区域添加掩码得到掩码区域，在执行以下步骤S109之后，使得在后移动终端可以将所述在后移动终端的加密梯度和损失保存在该掩码区域中。

S108、当所述在先梯度损失表包括有掩码区域时，将所述当前移动终端的加密梯度和损失保存在所述掩码区域，得到更新的在先梯度损失表。

可以理解的是，当所述在先梯度损失表包括有掩码区域时，表示该在先梯度损失表还没有填满，前移动终端可以将本端训练得到的加密梯度和损失保存在该掩码区域，执行以下步骤S109。

在其中一个实施例中，所述将所述当前移动终端的加密梯度和损失保存在所述掩码区域，得到更新的在先梯度损失表的步骤包括：

判断所述当前移动终端的加密梯度和损失的维度与所述掩码区域预留的维度是否相同；

当所述当前移动终端的加密梯度和损失的维度与所述掩码区域预留的维度不相同时，将所述当前移动终端的加密梯度和损失的维度与所述掩码区域进行对齐。

在其中一个实施例中，所述将所述当前移动终端的加密梯度和损失的维度与所述掩码区域进行对齐的步骤包括：

将所述当前移动终端的加密梯度和损失从所述掩码区域的起始位置开始填入，并将填入后空白的位置补0。

S109、将所述更新的在先梯度损失表发送至在后移动终端，将所述在后移动终端作为所述当前移动终端，循环所述判断所述在先梯度损失表是否包括有掩码区域至所述结合所述在先梯度和损失对传染病概率预测模型进行训练的步骤，直到所述传染病概率预测模型的损失函数收敛。

在其中一个实施例中，当训练出损失函数收敛的传染病概率预测模型，可以通过将该传染病概率预测模型中各参数共享的方式使得各个终端设备都能获得训练好的传染病概率预测模型，使得用户可以通过该传染病概率预测模型对用户自身的健康状态进行自行预测。

可以理解的是，本实施例提出的传染病概率预测模型的联邦学习方法包括两个循环的过程。其一是在训练过程中，循环地对在先梯度损失表中的加密梯度和损失进行保存、新建，保存满了再新建，并将已保存满的在先梯度损失表发送至中心服务器，以对中心服务器中的在先梯度损失表进行更新；其二是训练的过程，传染病概率预测模型在通过不断更新的先梯度损失及当前终端设备的用户特征进行训练，直至该传染病概率预测模型的损失函数收敛。训练得到的传染病概率预测模型可以加载在用户自己的手机上，用户可以通过训练好的传染病概率预测模型对自身得传染病的概率进行预测，当预测为感染者的概率较高时，可以提示用户自行去医院进行确认检测，也可以将预测结果发送至相关部门，以对高风险用户进行居家检测和隔离。

本实施例提出的传染病概率预测模型的联邦学习方法可以解决传染病概率预测模型在训练的过程可以适用的训练样本为数据孤岛的场景，同时通过对当前移动终端对梯度和损失进行加密，并通过中心服务器对加密的梯度和损失进行解密并合并，使得各个终端设备接收到的梯度和损失是合并后的梯度和损失，即使知道了具体的梯度值和损失值，也不知道其中间传递的数据，可以保护用户的隐私数据不被泄露。通过联邦学习可以保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林，逻辑回归等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。数据开放和隐私安全并非悖论，运用联邦学习技术的数据隔离特性和加密机制，能够有效解决不同公司间数据共享和联合建模问题，解决隐私泄露风险。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种传染病概率预测模型的联邦学习装置，该传染病概率预测模型的联邦学习装置与上述实施例中传染病概率预测模型的联邦学习方法一一对应。如图6所示，该传染病概率预测模型的联邦学习装置100包括特征获取模块11、表获取模块12、训练模块13、加密模块14、表接收模块15、表发送模块16、表创建模块17、更新模块18和循环模块19。各功能模块详细说明如下：

特征获取模块11，用于获取存储在该当前移动终端的用户数据，根据该用户数据得到本端用户特征；

表获取模块12，用于从中心服务器获取携带有在先梯度和损失的在先梯度损失表；

训练模块13，用于将该本端用户特征作为训练样本，结合该在先梯度和损失对传染病概率预测模型进行训练，获取训练后的当前梯度和损失；

加密模块14，用于通过该中心服务器下发的公钥对该当前梯度和损失进行加密，得到当前移动终端的加密梯度和损失；

表接收模块15，用于接收在先移动终端发送的在先梯度损失表，判断该在先梯度损失表是否包括有掩码区域，该在先梯度损失表记载了包括该在先移动终端的梯度损失在内的历史用户的加密梯度损失；

表发送模块16，用于当该在先梯度损失表不包括该掩码区域时，将该在先梯度损失表发送至该中心服务器，供该中心服务器根据与各历史用户对应预设的私钥对对应掩码区域的加密梯度和损失进行解密，并对解密得到的各梯度和损失进行求和，得到该携带有在先梯度和损失的在先梯度损失表；

表创建模块17，用于当该在先梯度损失表不包括该掩码区域时，创建梯度损失表，将该当前移动终端的加密梯度和损失保存在创建的梯度损失表中，对创建的梯度损失表中空白区域添加掩码，得到包括有该掩码区域的更新的在先梯度损失表；

更新模块18，用于当该在先梯度损失表包括有掩码区域时，将该当前移动终端的加密梯度和损失保存在该掩码区域，得到更新的在先梯度损失表；

循环模块19，用于将该更新的在先梯度损失表发送至在后移动终端，将该在后移动终端作为该当前移动终端，循环该判断该在先梯度损失表是否包括该有掩码区域至该结合该在先梯度和损失对传染病概率预测模型进行训练的步骤，直到该传染病概率预测模型的损失函数收敛。

在其中一个实施例中，所述更新模块18还包括：

判断单元，用于判断所述当前移动终端的加密梯度和损失的维度与所述掩码区域预留的维度是否相同；

对齐单元，用于当所述当前移动终端的加密梯度和损失的维度与所述掩码区域预留的维度不相同时，将所述当前移动终端的加密梯度和损失的维度与所述掩码区域进行对齐。

进一步地，该对齐单元具体用于将所述当前移动终端的加密梯度和损失从所述掩码区域的起始位置开始填入，并将填入后空白的位置补0。

在其中一个实施例中，所述特征获取模块11具体包括：

用户特征获取单元，用于根据该当前移动终端的用户数据得到与每个该用户数据相对应的用户特征；

第一计算单元，用于计算每个该用户特征的方差膨胀系数；

第一移除单元，用于当计算的该方差膨胀系数大于预设值时，将对应的用户特征从该本端用户特征中移除。

进一步地，通过以下公式计算该用户特征的方差膨胀系数：

在其中一个实施例中，所述特征获取模块11还包括：

分箱单元，用于对该用户数据进行分箱；

权重计算单元，用于根据每箱中包括的风险特征和非风险特征的占比计算各箱的权重；

信息值计算单元，用于根据计算得到的各箱的权重计算各箱对应类别的用户数据的信息值；

第二移除单元，用于当该信息值小于预设值时，将对应类别的用户数据移除。

在其中一个实施例中，所述权重计算单元具体用于通过以下公式(1)计算各箱的权重：

在其中一个实施例中，该信息值计算单元具体用于通过以下公式(2)计算各箱对应类别的用户数据的信息值：

IV＝∑_i IV_i＝∑_i(p_good-p_bad)WOE_i (2)

在其中一个实施例中，当该用户数据为字符型数据时，该分箱单元具体用于：判断该字符型数据所属的类别，根据该类别对该用户数据进行分箱。

在其中一个实施例中，该分箱单元还用于：判断该用户数据包括的类别的数量；当该类别的数量在数量预设值以内时，根据该用户数据的类别对该用户数据进行分箱；当该类别的数量大于该预设值时，对该用户数据的类别进行降基处理，直至该类别的数量在该数量预设值以内时，根据该用户数据降基处理得到的类别对该用户数据进行分箱。

在其中一个实施例中，当该用户数据为数值型数据时，该分箱单元还用于：获取预先设置的数值区间；将属于同一数值区间内的数值型数据对应的用户数据分为同一箱。

通过本实施例提出的传染病概率预测模型的联邦学习装置训练得到的传染病概率预测模型可以加载在用户自己的手机上，用户可以通过训练好的传染病概率预测模型对自身得传染病的概率进行预测，当预测为感染者的概率较高时，可以提示用户自行去医院进行确认检测，也可以将预测结果发送至相关部门，以对高风险用户进行居家检测。对传染病概率预测模型进行训练的过程可以适用的训练样本为数据孤岛的场景，同时通过对当前移动终端对梯度和损失进行加密，并通过中心服务器对加密的梯度和损失进行解密并合并，使得各个终端设备接收到的梯度和损失是合并后的梯度和损失，即使知道了具体的梯度值和损失值，也不知道其中间传递的数据，可以保护用户的隐私数据不被泄露。通过联邦学习可以保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习，运用联邦学习技术的数据隔离特性和加密机制，能够有效解决不同公司间数据共享和联合建模问题，解决隐私泄露风险。

其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于传染病概率预测模型的联邦学习装置的具体限定可以参见上文中对于传染病概率预测模型的联邦学习方法的限定，在此不再赘述。上述传染病概率预测模型的联邦学习装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是移动终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部中心服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种传染病概率预测模型的联邦学习方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中传染病概率预测模型的联邦学习方法的步骤，例如图2所示的步骤101至步骤109及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中传染病概率预测模型的联邦学习装置的各模块/单元的功能，例如图6所示模块11至模块19的功能。为避免重复，这里不再赘述。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中传染病概率预测模型的联邦学习方法的步骤，例如图2所示的步骤101至步骤109及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中传染病概率预测模型的联邦学习装置的各模块/单元的功能，例如图6所示模块11至模块19的功能。为避免重复，这里不再赘述。

本实施例提出的传染病概率预测模型的联邦学习方法、装置、计算机设备及存储介质，可以解决传染病概率预测模型在训练的过程可以适用的训练样本为数据孤岛的问题，同时通过对当前移动终端对梯度和损失进行加密，并通过中心服务器对加密的梯度和损失进行解密并合并，使得各个终端设备接收到的梯度和损失是合并后的梯度和损失，即使知道了具体的梯度值和损失值，也不知道其中间传递的数据，可以保护用户的隐私数据不被泄露，本发明通过联邦学习可以保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习，最终训练得到的传染病概率预测模型可以加载在用户自己的手机上，用户可以通过训练好的传染病概率预测模型对自身得传染病的概率进行预测，当预测为感染者的概率较高时，可以提示用户自行去医院进行确认检测，也可以将预测结果发送至有关部门，以对高风险用户进行居家检测。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种传染病概率预测模型的联邦学习方法，其特征在于，所述方法包括：

获取存储在当前移动终端的用户数据，根据所述用户数据得到本端用户特征，所述用户数据包括用户的职业；

接收在先移动终端发送的在先梯度损失表，判断所述在先梯度损失表是否包括掩码区域，所述在先梯度损失表记载了包括所述在先移动终端的梯度损失在内的历史用户的加密梯度损失；

将所述更新的在先梯度损失表发送至在后移动终端，将所述在后移动终端作为所述当前移动终端，循环所述判断所述在先梯度损失表是否包括掩码区域至所述结合所述在先梯度和损失对传染病概率预测模型进行训练的步骤，直到所述传染病概率预测模型的损失函数收敛。

2.根据权利要求1所述的传染病概率预测模型的联邦学习方法，其特征在于，所述根据所述用户数据得到本端用户特征的步骤包括：

计算每个所述用户特征的方差膨胀系数；

3.根据权利要求1所述的传染病概率预测模型的联邦学习方法，其特征在于，所述根据所述用户数据得到本端用户特征的步骤包括：

对所述用户数据进行分箱；

当所述信息值小于预设值时，将对应类别的用户数据移除。

4.根据权利要求3所述的传染病概率预测模型的联邦学习方法，其特征在于，通过以下公式计算各箱的权重：

其中，i表示箱数，p_good表示所述非风险特征的占比，p_bad表示风险特征的占比；

通过以下公式计算各箱对应类别的用户数据的信息值：

IV＝∑_iIV_i＝∑_i(p_good-p_bad)WOE_i

5.根据权利要求3所述的传染病概率预测模型的联邦学习方法，其特征在于，当所述用户数据为字符型数据时，所述对所述用户数据进行分箱的步骤包括：

判断所述字符型数据所属的类别；

根据所述类别对所述用户数据进行分箱。

6.根据权利要求3所述的传染病概率预测模型的联邦学习方法，其特征在于，所述对所述用户数据进行分箱的步骤包括：

判断所述用户数据包括的类别的数量；

当所述类别的数量在数量预设值以内时，根据所述用户数据的类别对所述用户数据进行分箱；

当所述类别的数量大于所述预设值时，对所述用户数据的类别进行降基处理，直至所述类别的数量在所述数量预设值以内时，根据所述用户数据降基处理得到的类别对所述用户数据进行分箱。

7.根据权利要求3至6任一项所述的传染病概率预测模型的联邦学习方法，其特征在于，当所述用户数据为数值型数据时，所述对所述用户数据进行分箱的步骤包括：

获取预先设置的数值区间；

将属于同一数值区间内的数值型数据对应的用户数据分为同一箱。

8.一种传染病概率预测模型的联邦学习装置，其特征在于，所述装置包括：

特征获取模块，用于获取存储在当前移动终端的用户数据，根据所述用户数据得到本端用户特征，所述用户数据包括用户的职业；

表接收模块，用于接收在先移动终端发送的在先梯度损失表，判断所述在先梯度损失表是否包括掩码区域，所述在先梯度损失表记载了包括所述在先移动终端的梯度损失在内的历史用户的加密梯度损失；

循环模块，用于将所述更新的在先梯度损失表发送至在后移动终端，将所述在后移动终端作为所述当前移动终端，循环所述判断所述在先梯度损失表是否包括掩码区域至所述结合所述在先梯度和损失对传染病概率预测模型进行训练的步骤，直到所述传染病概率预测模型的损失函数收敛。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述传染病概率预测模型的联邦学习方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述传染病概率预测模型的联邦学习方法的步骤。