CN116720209A

CN116720209A - 一种基于联邦学习的反非法诱导方法、系统及模型介质

Info

Publication number: CN116720209A
Application number: CN202310857736.XA
Authority: CN
Inventors: 高磊; 李祖发
Original assignee: Shenzhen Secxun Technology Co ltd
Current assignee: Shenzhen Secxun Technology Co ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-09-08

Abstract

本发明公开了一种基于联邦学习的反非法诱导方法、系统及模型介质，其中方法通过联邦学习，用户侧和系统侧的原始数据得到保护，不需要直接共享数据，从而提高了数据隐私和安全性；其次，用户侧终端和系统侧终端能够利用各自的数据进行本地模型的训练和更新，而不需要将数据发送到中央服务器，减少了数据传输和存储的风险；同时，通过多方安全计算技术，用户侧终端和系统侧终端可以对梯度进行同态加密，确保了梯度的隐私保护；另外，聚合侧终端能够将用户侧和系统侧的模型参数进行聚合，生成全局模型，综合了各方的信息，提高了模型的准确性和泛化能力。

Description

一种基于联邦学习的反非法诱导方法、系统及模型介质

技术领域

本发明涉及反非法诱导技术领域，尤其涉及的是一种基于联邦学习的反非法诱导方法、系统及模型介质。

背景技术

非法诱导行为是一种具有欺骗性和不诚信性质的行为，其目的是通过误导他人来获取不当利益；这类行为对个人、企业和社会造成严重危害，包括财务损失、个人信息泄露、声誉受损等；因此，反非法诱导成为保护个人、企业和社会免受这种危害的重要任务。反非法诱导系统可以实时监测网络数据、交易记录、通信信息等，并利用先进的算法和模型对数据进行分析和比对，以识别出可疑的非法诱导行为。

申请号为2021114160222的发明专利申请公开了一种应对非法诱导占有活动的反诈系统、反诈方法及存储介质，其中系统包括：数据处置平台、反非法活动业务平台及互联网侧平台；所述数据处置平台包括：数据接入设备、数据检测设备及模型分析研判服务器，所述数据接入设备用于接收网络数据、非法诱导占有活动历史资源数据及基础电信流数据，所述数据检测设备用于对所述数据接入设备接收的数据进行非法诱导占有活动特征提炼；所述模型分析研判服务器用于根据数据检测设备的数据提炼结果构建多维度融合分析模型，并实时检测涉嫌非法诱导数据；所述反非法活动业务平台用于根据涉嫌非法诱导数据进行电信非法诱导占有事件预警及拦截反制，所述互联网侧平台用于构建涉嫌非法诱导数据库并根据涉嫌非法诱导数据对涉嫌非法诱导网址及涉嫌非法诱导账号进行预警及拦截反制。

该发明专利旨在通过多维度数据进行基础电信流数据的深度挖掘，检测涉嫌非法诱导账号及准受害者账号，以进行欺诈行为识别，解决传统技术针对单一维度反非法诱导识别效果较差的问题。但由于涉及多方数据，比如反非法诱导部门的历史资源数据及通信企业的基础电信流数据，所以容易出现用户隐私泄露的问题。

申请号为2021114136219的发明专利申请公开了一种综合反诈平台，其包括：分类模型构建系统、模型训练系统、数据采集系统、资源存储系统及反诈业务系统；所述分类模型构建系统用于根据话单数据、通缉令非法诱导占有行为数据集、银行卡非法诱导占有行为数据集及网络贷款非法诱导占有行为数据集，分别构建第一通缉令非法诱导占有识别模型、第一银行卡非法诱导占有识别模型及第一网络贷款非法诱导占有识别模型；以及，用于根据非法诱导占有活动在互联网上留存的行为数据集，分别构建第二网络贷款非法诱导占有识别模型、第一刷单非法诱导占有识别模型、第一冒充好友非法诱导占有识别模型、第一网购订单非法诱导占有识别模型、第一投资非法诱导占有识别模型及第一游戏充值非法诱导占有识别模型；所述模型训练系统用于通过机器学习技术对分类模型构建系统构建的模型进行训练，并分别得到第二通缉令非法诱导占有识别模型、第二银行卡非法诱导占有识别模型及第三网络贷款非法诱导占有识别模型、第四网络贷款非法诱导占有识别模型、第二刷单非法诱导占有识别模型、第二冒充好友非法诱导占有识别模型、第二网购订单非法诱导占有识别模型、第二投资非法诱导占有识别模型及第二游戏充值非法诱导占有识别模型；所述数据采集系统用于通过网络爬虫技术采集第一网络数据、接收话单数据及网络服务提供商提供的第二网络数据，并利用模型训练系统训练得到的模型进行各类非法诱导占有行为识别，并提取非法诱导占有活动数据；所述资源存储系统包括：黑库资源池，所述黑库资源池包括：社交软件账号黑库、手机号码黑库、IP黑库及URL黑库，分别用于存储非法诱导占有活动数据中的涉诈社交软件账号、涉诈手机号码、涉诈IP及涉诈URL；所述反诈业务系统包括：预警中心、回访中心、反制中心及打击中心，所述预警中心用于根据非法诱导占有活动数据对受害人进行防诈提示，所述回访中心用于对非法诱导占有事件的结果进行回访上报，所述反制中心用于对非法诱导占有活动渠道进行封禁，所述打击中心用于识别非法诱导占有活动分子身份。

该发明专利申请旨在利用多种非法诱导占有识别模型针对性的识别对应类型的非法诱导占有行为，解决传统技术进行统一数据处理及分析带来的精准度较差的问题。但该发明专利申请同样涉及多方数据，亦同样容易出现用户隐私泄露的问题。

可见，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于联邦学习的反非法诱导方法、系统及模型介质，旨在解决现有非法诱导识别技术容易出现用户隐私泄露的问题。

本发明的技术方案如下：

一种基于联邦学习的反非法诱导方法，其包括：

S1、用户侧终端对用户侧数据进行预处理及特征提取，生成用于训练的用户侧特征；系统侧终端对系统侧数据进行预处理及特征提取，生成用于训练的系统侧特征；

S2、聚合侧终端将用户侧特征和系统侧特征进行对齐操作，得到两侧特征的交集，用于后续的模型训练；

S3、用户侧终端及系统侧终端分别对特征交集所涉及的用户侧特征及系统侧特征进行预处理，包括：将类别型变量转换为独热编码和对数值型特征进行标准化处理；

S4、聚合侧终端利用多方安全计算技术，配合用户侧终端及系统侧终端将预处理后的用户侧特征及系统侧特征进行安全聚合，生成联合特征；

S5、用户侧终端及系统侧终端分别计算已构建的本地局部模型的梯度，并对梯度进行同态加密后发送至聚合侧终端；

S6、聚合侧终端解密并聚合用户侧模型梯度及系统侧模型梯度，计算参数变化量，并将计算结果加密后发送至用户侧终端及系统侧终端；

S7、用户侧终端及系统侧终端根据解密后获取的参数变化量更新本地局部模型；

S8、反复执行S5至S7，直至更新后的本地局部模型达到预设条件；

S9、聚合侧终端将满足预设条件的用户侧局部模型及系统侧局部模型进行融合，生成全局模型；

S10、用户侧终端和系统侧终端中具有数据标签的一方使用全局模型对新的联合特征进行预测，用于判断是否存在非法诱导行为。

上述方案的效果在于：第一、本发明在数据隐私保护方面，不共享原始数据，用户侧和系统侧在本地进行预处理和特征提取，保护了用户隐私；第二、通过对齐操作和仅保留交集特征，避免了信息泄露，加强了数据隐私保护；第三、在预处理过程中，采用独热编码和标准化处理，保持了数据特征完整性，同时不暴露敏感信息；第四、利用多方安全计算技术在不知晓原始数据的情况下安全聚合特征，确保了数据隐私；第五、采用同态加密技术进行梯度计算和参数更新，确保数据传输过程中的隐私安全；第六、本地局部模型更新后满足条件才进行模型融合，避免泄露用户个体信息；最后，通过全局模型对新的联合特征进行预测，判断非法诱导行为，继续保护用户数据隐私；总体而言，本发明无论是在数据处理阶段，还是在特征及其他信息传输阶段，亦或是模型构建及训练阶段，甚至是最终非法诱导行为识别阶段，都不会泄露个体数据信息，在精准识别非法诱导行为的基础上，充分保证了各方数据的安全性。

在进一步地优选方案中，所述S5与S6之间还包括步骤：用户侧终端及系统侧终端根据所述联合特征，使用逻辑回归模型构建本地局部模型，使用逻辑回归的损失函数计算各自本地数据上的损失值，并在本地局部模型未达到预设条件之前，根据所计算的损失值计算模型参数的梯度，根据所计算的梯度更新本地局部模型。

上述方案的效果在于：本发明通过逻辑回归模型的构建和优化，可以提高模型的准确性和性能；而特征工程操作可以对数据进行预处理，使得模型能更好地利用数据特征进行训练；联合特征的使用则可以反映两方数据的共同信息，增强模型的综合性能；逻辑回归的损失函数计算本地数据的损失值，可以帮助评估模型在训练数据上的拟合程度；另外，通过计算损失值并利用梯度下降等优化算法进行模型更新，可以逐步改进模型的性能，使其更准确地预测目标类别。因此，本发明实现了联邦学习中的隐私保护和数据协同训练，同时提高了模型的准确性和可用性。

在进一步地优选方案中，所述损失值的计算过程具体包括：

对初始损失函数loss(x)＝log(1+exp(-yw^Tx))进行一阶泰勒展开，展开后的公式为：

对一阶泰勒展开后的公式进行同态加密，并进行梯度计算：得到损失函数的二阶梯度公式为

使用拟牛顿法对损失函数的二阶梯度公式进行求解。

上述方案的效果在于：本发明通过对初始损失函数进行一阶泰勒展开，得到一个近似的损失函数表达式，而该近似损失函数可以进行同态加密，保护了数据的隐私性。此外，通过计算近似损失函数的梯度，可以获得关于参数的一阶导数信息，提供了有关模型参数更新方向的指导；通过计算梯度的二阶矩阵，可以获得损失函数的二阶导数信息，提供了有关模型参数更新速率的信息；通过利用这些导数信息，特别是二阶导数信息，可以更准确地优化模型参数，加快模型收敛速度，提高模型的训练效果；因此，通过计算损失函数的一阶和二阶导数，可以在本地局部模型中有效地更新模型参数，进一步提升联合学习的效果。另外，利用拟牛顿法对损失函数的二阶梯度公式进行求解，可以找到损失函数的最小值，从而优化模型的性能。因此，本发明在联合学习中保护数据隐私的基础上，有效地计算并优化了损失函数，从而实现了更准确的模型训练和预测效果。

在进一步地优选方案中，所述S5具体包括：

数据提供方将自己的模型参数w_A ^Tx和(w_A ^Tx)²经过同态加密为[[w_A ^Tx]]和[[(w_A ^Tx)²]]后传送给标签拥有方；

标签拥有方根据自身数据计算自己的模型参数w_B ^Tx，并将两方的模型参数合并计算得到[[w^Tx]]＝[[w_A ^Tx]]+[[w_B ^Tx]]；

标签拥有方根据拥有的标签数据以及计算得到的模型参数w^Tx代入loss(x)，将得到的进行同态加密后发送给聚合侧终端；

标签拥有方计算中间变量并将计算结果同态加密后发送至数据提供方；

数据提供方得到中间变量后，利用该中间变量和自身的数据x_A计算出自己的模型参数的梯度[[Δloss(x)_A]]＝[[d]]x_A，并在同态加密后发送至聚合侧终端。

上述方案的效果在于：在本发明中，数据提供方需要将模型参数传送给标签拥有方，但不会直接共享原始参数，以此来保护隐私数据的安全性；而在标签拥有方将自身模型参数与数据提供方的参数合并过程中，为了保护计算过程的安全性和隐私性，标签拥有方计算了中间变量，而不是直接共享原始参数，可以有效避免直接暴露数据和模型参数，减少了隐私泄露的风险；通过计算中间变量并进行同态加密后传输，标签拥有方在保护数据隐私的同时与数据提供方进行协同计算和模型参数更新，确保了联合训练的效果，提高了全局模型的非法诱导行为识别精准性。

在进一步地优选方案中，所述S6具体包括：

聚合侧终端获取并解密用户侧梯度g_a和系统侧梯度g_b；

聚合侧终端根据解密后的梯度g_a和g_b进行聚合，计算参数变化量和

聚合侧终端分别对参数变化量和进行加密，并将加密后的结果发送回用户侧终端和系统侧终端。

上述方案的效果在于：聚合侧终端获取并解密来自用户侧和系统侧的梯度信息，保证了梯度的可读性和完整性；而后，聚合侧终端根据预设的聚合算法(如加权平均、加法等)，对解密后的梯度进行聚合，得到了用户侧和系统侧各自需要更新的参数变化量，综合了各方的贡献，实现了安全的模型聚合和较佳的全局训练效果。

在进一步地优选方案中，所述S7具体为：用户侧终端根据解密后获取的参数变化量以及更新规则更新用户侧局部模型，系统侧终端根据解密后获取的参数变化量以及更新规则更新系统侧局部模型；其中w_A'及w_B'分别表示更新后的用户侧局部模型参数及更新后的系统侧局部模型参数。

上述方案的效果在于：本发明进一步限定了用户侧局部模型和系统侧局部模型的更新规则，为联邦学习提供了有效的参与和协作方式，使得用户侧局部模型和系统侧局部模型能够通过合理的参数更新，进而逐步完成优化和改进，以达到更好的模型性能和全局训练效果。

在进一步地优选方案中，参数变化量和的计算方法包括：

根据给定的迭代范围计算两个迭代段的参数平均值，包括：第k-L+1次迭代到第k次迭代的参数平均值，计算公式为：以及第k-L+1次迭代到第k次迭代的参数平均值，计算公式为并计算两个迭代段参数平均值的差值

计算所对应的子采样海塞矩阵值的近似值

将计算所得到的近似值与两个迭代段参数平均值的差值相乘得到

计算参数平均值差s_t与数据x的乘积之和其中，x表示数据，及分别表示参数平均值差s_t在用户侧和系统侧的转置，x^A和x^B则分别用户侧和系统侧的数据，其中由系统侧终端进行计算并发送至用户侧终端，及h由用户侧终端根据计算；

对v_t进行同态加密得到

根据v_t及s_t计算逆海塞矩阵H的初始点：

在每L次迭代后，将v_t及s_t存储至长度为M的队列中，并使用连续计算公式计算逆海塞矩阵H，其中

根据公式分别计算参数变化量及

上述方案的效果在于：上述方案实现了隐私保护的联合学习，允许参与方在不共享原始数据的情况下进行模型更新；具体地，通过计算参数的平均值和差值，并使用加密技术对敏感信息进行保护，参与方能够在保护数据隐私的同时进行模型参数更新，确保了数据的隐私性，同时实现了模型的联合训练，从而提高了合作方之间的合作效率和模型性能。

在进一步地优选方案中，所述S9具体为：聚合侧终端利用历史预警数据及历史回访数据作为标签，将满足预设条件的用户侧局部模型及系统侧局部模型进行融合，生成全局模型，所述全局模型为二分类模型。

上述方案的效果在于：本发明利用历史预警数据及历史回访数据作为标签所生成的二分类模型具有更广泛的泛化能力，能够对新的联合特征进行准确的预测和判断是否存在非法诱导行为；通过融合局部模型，全局模型能够综合利用用户侧和系统侧的信息，提高模型的准确性和鲁棒性，使得系统能够更好地保护用户隐私并提供有效的非法诱导行为判断，为个人、企业和社会提供了更高的安全保障。

一种用于实现基于联邦学习的反非法诱导方法的系统，其包括存储器及处理器，所述存储器用于存储基于联邦学习的反非法诱导程序，所述处理器用于运行所述基于联邦学习的反非法诱导程序以实现如上述的基于联邦学习的反非法诱导方法。

一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于联邦学习的反非法诱导方法的步骤。所述存储介质包括上述基于联邦学习的反非法诱导方法的所有技术特征，因此也具有上述基于联邦学习的反非法诱导方法的所有技术效果，此处不再赘述。

与现有技术相比，本发明所提供的基于联邦学习的反非法诱导方法通过联邦学习，用户侧和系统侧的原始数据得到保护，不需要直接共享数据，从而提高了数据隐私和安全性；其次，用户侧终端和系统侧终端能够利用各自的数据进行本地模型的训练和更新，而不需要将数据发送到中央服务器，减少了数据传输和存储的风险；同时，通过多方安全计算技术，用户侧终端和系统侧终端可以对梯度进行同态加密，确保了梯度的隐私保护；另外，聚合侧终端能够将用户侧和系统侧的模型参数进行聚合，生成全局模型，综合了各方的信息，提高了模型的准确性和泛化能力。

附图说明

图1是本发明提供一种基于联邦学习的反非法诱导方法的流程图。

具体实施方式

本发明提供一种基于联邦学习的反非法诱导方法、系统及模型介质，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实例对本发明进一步地详细说明。应当理解的是，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于联邦学习的反非法诱导方法，如图1所示，其包括：

S1、用户侧终端对用户侧数据进行预处理及特征提取，生成用于训练的用户侧特征；系统侧终端对系统侧数据进行预处理及特征提取，生成用于训练的系统侧特征。

用户侧数据可以包括：用户画像相关隐私数据、用户访问的网址和apk隐私数据、用户接收的电话号码隐私数据及用户访问时间等；系统侧数据可以包括：黑灰网址数据、网址类别样本库、恶意apk样本库以及恶意类别、黑名单号码样本库以及号码类别。

如何对数据进行预处理以便于特征提取属于现有技术，本发明对此不做具体限定，以下说明仅用于解释说明。对于用户侧数据来说，预处理可以包括数据清洗、去除噪声和异常值处理等步骤；比如：用户画像相关隐私数据可能包含年龄、性别、地区等信息，预处理时可以进行数据标准化或归一化，确保数据在一定的范围内；用户访问的网址和apk隐私数据可能需要进行文本处理，如分词、去停用词等，以提取关键词或构建文本特征；用户接收的电话号码隐私数据可能需要进行号码格式验证和清洗，确保数据的正确性和一致性；用户访问时间可能需要转换为时间戳或提取出小时、日期等时间特征。对于系统侧数据，预处理可能涉及数据清洗、数据匹配等操作；例如，黑灰网址数据可能需要进行去重和验证，确保数据的准确性；网址类别样本库和恶意apk样本库可能需要进行特征提取，如提取网址的域名、URL结构等特征，或者提取恶意apk的权限信息、代码结构等特征；黑名单号码样本库可能需要进行号码格式验证和匹配操作，确保数据的正确性和一致性。

而在特征提取过程中，可以采用各种机器学习和特征工程技术，如TF-IDF、词袋模型、one-hot编码、标准化等方法，具体的特征提取方式会根据数据类型和任务需求而定，而这亦属于现有技术，并非本发明的主要发明点，本发明不做具体限定。

S2、聚合侧终端将用户侧特征和系统侧特征进行对齐操作，得到两侧特征的交集，用于后续的模型训练。对齐操作的目的是将两侧的特征按照一定的规则进行匹配和对应，确保它们具有相同的特征空间和维度，使它们可以在后续的模型训练中进行有效的融合。

具体来说，对于用户侧特征和系统侧特征的对齐操作，可以根据数据的共同属性或标识进行匹配，本发明将对此进行举例说明：

假设用户侧特征包括以下两个样本：

用户1：用户画像(年龄：30岁，性别：男，地区：上海)，访问的网址(网址1、网址2、网址3)，接收的电话号码(电话号码1、电话号码2)，访问时间(2023-07-0510:00:00)；

用户2：用户画像(年龄：25岁，性别：女，地区：北京)，访问的网址(网址2、网址3、网址4)，接收的电话号码(电话号码1、电话号码3)，访问时间(2023-07-0514:30:00)。

而系统侧特征包括以下两个样本：

网址特征库：

网址1：网址类别A；

网址2：网址类别B；

网址3：网址类别A；

网址4：网址类别C；

号码特征库：

电话号码1：号码类别X；

电话号码2：号码类别Y；

电话号码3：号码类别X。

在对齐操作中，根据网址和电话号码进行匹配；对于用户1，根据其访问的网址和接收的电话号码，可以得到对应的特征：

网址特征：网址1(网址类别A)、网址2(网址类别B)、网址3(网址类别A)；

号码特征：电话号码1(号码类别X)、电话号码2(号码类别Y)；

对于用户2，同样根据其访问的网址和接收的电话号码，得到对应的特征：

网址特征：网址2(网址类别B)、网址3(网址类别A)；

号码特征：电话号码1(号码类别X)、电话号码3(号码类别X)；

通过对齐操作，可以得到两侧特征的交集：

网址特征：网址2(网址类别B)、网址3(网址类别A)；

号码特征：电话号码1(号码类别X)；

至此，即得到了用户侧特征和系统侧特征的对齐结果。

通过S2步骤的对齐操作，本发明将用户侧特征和系统侧特征进行匹配和对应，确保它们具有相同的特征空间和维度，为后续的模型训练提供了一致的数据输入，以便有效地融合用户侧和系统侧的信息，提高模型的性能和准确性。

S3、用户侧终端及系统侧终端分别对特征交集所涉及的用户侧特征及系统侧特征进行预处理，包括：将类别型变量转换为独热编码和对数值型特征进行标准化处理。

类别型变量是指具有离散取值的特征，如网址类别、号码类别等；独热编码是一种将类别型变量转换为二进制向量表示的方法，其中每个类别对应一个维度，维度上取值为1表示该样本属于该类别，为0表示不属于；转换的目的是消除类别之间的序关系，并提供更有效的特征表示；例如，将网址类别特征转换为独热编码后，网址类别A可以表示为[1，0，0]，网址类别B可以表示为[0，1，0]，网址类别C可以表示为[0，0，1]。

数值型特征是指具有连续取值的特征，如用户年龄、访问时间等；标准化处理旨在将数值型特征转换为均值为0、方差为1的标准正态分布，以消除不同特征之间的尺度差异；常见的标准化方法是使用Z-score标准化，通过减去均值并除以标准差来实现；例如，对年龄特征进行标准化处理后，30岁可以转换为标准化后的值，访问时间也可以转换为标准化后的值。

为了更清楚的解释该步骤，本发明将进行举例说明(仅用于解释说明)：

假设特征交集中包括以下两个特征：

网址特征：网址类别(网址类别A、网址类别B、网址类别C)；

年龄特征：用户年龄(25岁、30岁、35岁)；

对于网址类别特征，可以使用独热编码进行转换，得到以下结果：

网址类别A：[1，0，0]；

网址类别B：[1，0，0]；

网址类别C：[1，0，0]；

而对于年龄特征，则可以进行标准化处理，假设计算得到均值为30岁、标准差为5岁，则年龄特征可以转换为：

25岁：(-1)；

30岁：(0)；

35岁：(1)；

通过预处理，本发明将特征数据转换为独热编码和标准化后的形式，为后续的模型训练提供了一致的数据输入，使得模型能够更好地学习和理解特征之间的关系。

S4、聚合侧终端利用多方安全计算技术，配合用户侧终端及系统侧终端将预处理后的用户侧特征及系统侧特征进行安全聚合，生成联合特征。

多方安全计算是一种加密和协议技术，它允许多个参与方在不暴露各自私密数据的情况下，对这些数据进行计算和合作；本发明利用多方安全计算技术确保了数据的隐私和安全性，防止数据泄露和未授权访问。

安全聚合是指在多方安全计算的框架下，对参与方的数据进行加密和计算操作，以生成聚合结果。

为了详细的说明本发明实现的具体过程，现举例说明如下(仅用于解释说明)：

假设用户侧终端拥有特征A([1，2，3])和特征B([4，5，6])，系统侧终端拥有特征C([7，8，9])和特征D([10，11，12])。

用户侧终端将特征A及特征B加密分别得到加密后的特征A_enc及B_enc；

系统侧终端将特征C及特征D加密分别得到加密后的特征C_enc及D_enc。

用户侧终端及系统侧终端会将特征A_enc、B_enc、C_enc及D_enc发送至聚合侧终端，而聚合侧终端使用多方安全计算协议(比如安全多方计算(Secure Multi-PartyComputation，MPC))来对加密的特征进行聚合操作(需要注意的是，聚合侧终端将直接对加密特征进行聚合，并不需要解密，以此来保证各方特征的安全性)。

以同态加法运算为例，聚合侧终端将加密后的特征A_enc和特征C_enc进行同态加法运算，得到加密后的聚合特征AC_enc；将加密后的特征B_enc和特征D_enc进行同态加法运算，得到加密后的聚合特征BD_enc。

而后，聚合侧终端将加密后的聚合特征AC_enc和BD_enc解密，并将解密后的结果发送给用户侧终端和系统侧终端。

本发明通过多方安全计算，使得各参与方能够在保证安全性的情况下，对各自拥有的特征进行安全聚合，确保了数据隐私的同时得到联合特征，为后续的模型训练和预测提供输入，保护了数据隐私，并促进了合作方之间的联合分析和决策。

S5、用户侧终端及系统侧终端分别计算已构建的本地局部模型的梯度，并对梯度进行同态加密后发送至聚合侧终端。

在具体实施时，所述S5具体包括(假设数据提供方有数据样本x_A＝[1，2，3]，以及与数据样本x_A对应的模型参数w_A＝[0.5，0.7，0.9]；标签拥有方有数据样本x_B＝[4，5，6]，以及与数据样本x_B对应的模型参数w_B＝[0.3，0.6，0.8])：

数据提供方将自己的模型参数w_A ^Tx和(w_A ^Tx)²经过同态加密为[[w_A ^Tx]]和[[(w_A ^Tx)²]]后传送给标签拥有方；假设同态加密后的[[w_A ^Tx]＝[0.2]，同态加密后的[[(w_A ^Tx)²]]＝[0.04]。

标签拥有方根据自身数据计算自己的模型参数w_B ^Tx，并将两方的模型参数合并计算得到[[w^Tx]]＝[[w_A ^Tx]]+[[w_B ^Tx]]；在这个例子中，[[w^Tx]]＝[0.2]+[0.3，0.6，0.8]＝[0.5，0.8，1.0]。

标签拥有方根据拥有的标签数据以及计算得到的模型参数w^Tx代入loss(x)，将得到的进行同态加密后发送给聚合侧终端；本例中假设y＝0.5，代入上述公式后将得到

标签拥有方计算中间变量并将计算结果同态加密后发送至数据提供方；代入上述数值，得到[[d]]＝1/4*([0.2]+[0.5，0.8，1.0]+[-0.25])＝[-0.0125，-0.005，-0.0025]。

数据提供方得到中间变量后，利用该中间变量和自身的数据x_A计算出自己的模型参数的梯度[[Δloss(x)_A]]＝[[d]]x_A，并在同态加密后发送至聚合侧终端。代入上述公式后[[Δloss(x)_A]]＝[-0.0125，-0.01，-0.0075]。

在本发明进一步地较佳实施例中，所述S5与S6之间还包括步骤：用户侧终端及系统侧终端根据所述联合特征，使用逻辑回归模型构建本地局部模型，使用逻辑回归的损失函数计算各自本地数据上的损失值，并在本地局部模型未达到预设条件之前，根据所计算的损失值计算模型参数的梯度，根据所计算的梯度更新本地局部模型。

其中，所述损失值的计算过程具体包括(假设样本数据x＝[2，3]，模型参数w＝[0.5，0.7]，标签y＝1；以此数据为例，进行损失值的计算解释说明如下)：

计算初始损失函数：loss(x)＝log(1+exp(-yw^Tx)＝log(1+exp(-(1)(0.52+0.73)))＝log(1+exp(-2.1))≈0.124；

进行一阶泰勒展开：

梯度计算：

而后得到损失函数的二阶梯度公式：

使用拟牛顿法对损失函数的二阶梯度公式进行求解(该步骤本发明将在下文对求解方法之一海塞矩阵进行详细描述，此处不再单独描述)。

S6、聚合侧终端解密并聚合用户侧模型梯度及系统侧模型梯度，计算参数变化量，并将计算结果加密后发送至用户侧终端及系统侧终端。

在具体实施时，所述S6具体包括(下述数据仅为举例说明，是随机列举的)：

聚合侧终端获取并解密用户侧梯度g_a和系统侧梯度g_b；假设聚合侧终端收到的g_a＝[-0.025，-0.05，-0.075]，g_b＝[0.01，0.02，0.03]。

优选，所述参数变化量和的计算方法包括步骤(假设迭代次数L为2)：

根据给定的迭代范围计算两个迭代段的参数平均值，包括：第k-L+1次迭代到第k次迭代的参数平均值，计算公式为：以及第k-L+1次迭代到第k次迭代的参数平均值，计算公式为并计算两个迭代段参数平均值的差值代入上述数值，计算得到 s_t＝-0.0625-(-0.0375)＝-0.025。

计算所对应的子采样海塞矩阵值的近似值假设参数的维度为3，那么近似值为

将计算所得到的近似值与两个迭代段参数平均值的差值相乘得到代入数值，计算得到vt＝[1，4，9]*(-0.025)＝[-0.025，-0.1，-0.225]。

计算参数平均值差s_t与数据x的乘积之和其中，x表示数据，及分别表示参数平均值差s_t在用户侧和系统侧的转置，x^A和x^B则分别用户侧和系统侧的数据，其中由系统侧终端进行计算并发送至用户侧终端，及h由用户侧终端根据计算；假设用户侧数据x^A＝[1，2，3]，系统侧数据x^B＝[4，5，6]，据此计算得到的h＝(-0.025*1)+(-0.1*2)+(-0.225*3)＝-0.875。

对v_t进行同态加密得到对v_t进行同态加密得到[[v_t]]＝[[-0.875]]。

根据v_t及s_t计算逆海塞矩阵H的初始点：假设参数的维度为3，那么逆海塞矩阵H的初始点为：H＝(-0.875)/(-0.875)*I＝I。

根据公式分别计算参数变化量及代入数值，计算得到：

由于H会根据迭代次数的不同而不同，本发明在此处不再展开描述，对于本领域技术人员而言，该数值的计算过程是清楚明了的。

S7、用户侧终端及系统侧终端根据解密后获取的参数变化量更新本地局部模型。在具体实施时，所述S7具体为：用户侧终端根据解密后获取的参数变化量以及更新规则更新用户侧局部模型，系统侧终端根据解密后获取的参数变化量以及更新规则更新系统侧局部模型；其中w_A′及w_B′分别表示更新后的用户侧局部模型参数及更新后的系统侧局部模型参数。

对于该步骤，理解及实现并不存在任何技术难度，在原有模型参数的基础上，根据预设的更新规则比如减去参数变化量得到新的模型参数即可，本领域技术人员完全可以在本发明公开内容的基础上直接且毫无疑义得知具体的实现过程；而且，可以理解的是，本发明所列举的更新规则并不是唯一对模型参数进行更新的方式，本领域技术人员对此可以进行适应性调整及选择。

S8、反复执行S5至S7，直至更新后的本地局部模型达到预设条件。

S9、聚合侧终端将满足预设条件的用户侧局部模型及系统侧局部模型进行融合，生成全局模型。

在具体实施时，所述S9具体为：聚合侧终端利用历史预警数据及历史回访数据作为标签，将满足预设条件的用户侧局部模型及系统侧局部模型进行融合，生成全局模型，所述全局模型为二分类模型。

本发明还提供了一种用于实现基于联邦学习的反非法诱导方法的系统，其包括存储器及处理器，所述存储器用于存储用于数据分析的模型处理程序，所述处理器用于运行所述用于数据分析的模型处理程序以实现上述基于联邦学习的反非法诱导方法。

本发明还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于联邦学习的反非法诱导方法的步骤。所述存储介质包括上述基于联邦学习的反非法诱导方法的所有技术特征，因此也具有上述基于联邦学习的反非法诱导方法的所有技术效果，不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyNchliNk)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种基于联邦学习的反非法诱导方法，其特征在于，包括：

2.根据权利要求1所述的基于联邦学习的反非法诱导方法，其特征在于，所述S5与S6之间还包括步骤：用户侧终端及系统侧终端根据所述联合特征，使用逻辑回归模型构建本地局部模型，使用逻辑回归的损失函数计算各自本地数据上的损失值，并在本地局部模型未达到预设条件之前，根据所计算的损失值计算模型参数的梯度，根据所计算的梯度更新本地局部模型。

3.根据权利要求2所述的基于联邦学习的反非法诱导方法，其特征在于，所述损失值的计算过程具体包括：

使用拟牛顿法对损失函数的二阶梯度公式进行求解。

4.根据权利要求3所述的基于联邦学习的反非法诱导方法，其特征在于，所述S5具体包括：

5.根据权利要求4所述的基于联邦学习的反非法诱导方法，其特征在于，所述S6具体包括：

聚合侧终端获取并解密用户侧梯度g_a和系统侧梯度g_b；

6.根据权利要求5所述的基于联邦学习的反非法诱导方法，其特征在于，所述S7具体为：用户侧终端根据解密后获取的参数变化量以及更新规则更新用户侧局部模型，系统侧终端根据解密后获取的参数变化量以及更新规则更新系统侧局部模型；其中w_A'及w_B'分别表示更新后的用户侧局部模型参数及更新后的系统侧局部模型参数。

7.根据权利要求5所述的基于联邦学习的反非法诱导方法，其特征在于，参数变化量和的计算方法包括：

计算所对应的子采样海塞矩阵值的近似值

对v_t进行同态加密得到

根据v_t及s_t计算逆海塞矩阵H的初始点：

根据公式分别计算参数变化量及

8.根据权利要求1所述的基于联邦学习的反非法诱导方法，其特征在于，所述S9具体为：聚合侧终端利用历史预警数据及历史回访数据作为标签，将满足预设条件的用户侧局部模型及系统侧局部模型进行融合，生成全局模型，所述全局模型为二分类模型。

9.一种用于实现基于联邦学习的反非法诱导方法的系统，其特征在于，包括存储器及处理器，所述存储器用于存储基于联邦学习的反非法诱导程序，所述处理器用于运行所述基于联邦学习的反非法诱导程序以实现如权利要求1至8中任意一项所述的基于联邦学习的反非法诱导方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的基于联邦学习的反非法诱导方法的步骤。