CN116882571A

CN116882571A - 一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法

Info

Publication number: CN116882571A
Application number: CN202310852340.6A
Authority: CN
Inventors: 张海涛; 刘苏杭; 叶春; 陈鋆; 刘海峰; 蒋慧祥; 朱少楠; 张尹舰; 乐梓怡
Original assignee: Nanjing Shengjing Tuyun Technology Co ltd; Nanjing University of Posts and Telecommunications
Current assignee: Nanjing Shengjing Tuyun Technology Co ltd; Nanjing University of Posts and Telecommunications
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-10-13
Anticipated expiration: 2043-07-12
Also published as: CN116882571B

Abstract

本发明属于隐私计算技术研究领域，公开了一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法，包括：步骤1、数据预处理：通信运营商与烟草公司将标识信息加密并发送半可信第三方，第三方执行匹配并返还，计算得到对齐数据；步骤2、安全纵向联邦回归模型训练：第三方生成同态加密公私钥对并分发通信运营商与烟草公司，第三方计算并发送加密梯度给通信运营商，烟草公司解密并发送更新模型；步骤3、基于安全联邦纵向回归模型的预测：烟草公司对预测数据与通信运营商预测数据进行匹配烟草公司计算并发送加密纵向联邦回归预测，烟草公司解密预测值并返还。本发明具有更强的隐私保护性，可以保证烟草销售违规信息预测的准确性更高。

Description

一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法

技术领域

本发明属于隐私计算技术研究领域，具体的说是涉及一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法。

背景技术

烟草行业是我国财政收入的重要来源。2022年烟草行业实现工商税利总额14413亿元，同比增长6.12％；实现财政总额14416亿元，同比增长15.86％。近年来我国烟草私自销售和假烟问题较为突出，造成国家财政收入的大量流失。

随着信息技术的发展，利用大数据挖掘、深度学习等人工智能技术，对烟草销售公司积累的大量数据进行综合分析发现违规案件，成为打击烟草私自销售和假烟问题的重要手段。2014年朱卫东等人在文献《销售假烟行为的预警模型研究》中提出基于后向传播神经网络预测卷烟销售违规行为的方法。同年，xiao等人在文献《Anomaly detection ofcigarette sales using ARI-MA on lunar calendar》中提出利用大量历史销售记录，通过基于自回归差分移动平均模型的卷烟销售预测模型进行卷烟销售量和平均价格异常检测的方法。2023年肖霄等人在文献《基于时序预测与异常检测的烟草违规销售预警》中提出通过构建基于深度自回归网络和季节性自回归差分移动平均模型的混合预测模型进行销量异常检测的方法。这些方法存在的共性问题是：卷烟销售违规行为分析所使用的数据通常仅局限于烟草销售管理公司的内部业务数据，缺乏考虑卷烟销售商户的外部特征数据，因此预测分析的精度通常较低。直接的解决方法是将多个行业应用的烟草销售商户相关数据与烟草销售专题数据进行集成、关联以及数据挖掘分析。但是，随着人们对于用户隐私和数据保安全关注度的提高，直接基于数据中心集成分析的方式变得很难实施。

发明内容

为了解决上述技术问题,本发明提供了一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法，该方法具有更强的隐私保护性，可以保证烟草销售违规信息预测的准确性更高。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法，烟草销售违规信息预测方法包括三个用户角色：烟草公司、通信运营商以及半可信第三方，所述烟草公司为联邦回归模型训练的发起方，通信运营商为联邦回归模型训练的响应方，半可信第三方负责烟草公司和通信运营商的数据通信和同态加解密计算，所述烟草公司、通信运营商以及半可信第三方之间相互协作完成安全纵向联邦回归模型的训练和基于安全纵向联邦回归模型的烟草销售违规信息预测，具体的所述烟草销售违规信息预测方法包括如下步骤：

步骤1、数据预处理：通信运营商与烟草公司将标识信息加密并发送半可信第三方，半可信第三方执行匹配并返还，根据匹配结果计算得到对齐数据；

步骤2、安全纵向联邦回归模型训练：半可信第三方生成同态加密公私钥对并分发给通信运营商与烟草公司，烟草公司、通信运营商以及半可信第三方交换加密中间结果，半可信第三方计算并发送加密梯度给通信运营商，烟草公司解密并发送更新模型；

步骤3、基于安全联邦纵向回归模型的预测：烟草公司对预测数据与通信运营商预测数据进行ID匹配并将匹配数据特征返还，烟草公司计算并发送加密纵向联邦回归预测，烟草公司解密预测值并返还。

进一步的，所述步骤1的数据预处理具体包括如下步骤：

步骤1-1、通信运营商与烟草公司分别将拥有数据的标识信息进行Hash加密并发送给半可信第三方；

烟草公司T拥有的数据为D_T＝{t₁,t₂,…,t_n},t_i＝{tID,tA¹,tA²,…,tA^m,L}，1≤i≤n，其中，t_i表示D_T中的第i个样本数据，tID表示t_i的标识，tA^j表示t_i中第j个属性特征，1≤j≤m，L表示t_i的标签，商户tID有违规记录L＝1，否则，L＝0；

通信运营商C拥有的数据为D_C＝{c₁,c₂,…,c_n},c_i＝{cID,cA¹,cA²,…,cA^m}，1≤i≤n，其中，c_i表示D_C中的第i个样本数据，cID表示c_i的标识，cA^j表示c_i中第j个属性特征，1≤j≤m。

步骤1-2、半可信第三方基于加密标识集合执行匹配计算并将结果发送给通信运营商与烟草公司；

步骤1-3、通信运营商与烟草公司依据匹配结果过滤计算得到对齐数据；

给定烟草公司数据D_T＝{t₁,t₂,…,t_n1}和通信运营商数据D_C＝{c₁,c₂,…,c_n2}，以及两者样本数据标识的加密集合PIDs_t＝{PtID₁,PtID₂,…,PtID_n1}和PIDs_c＝{PcID₁,PcID₂,…,PcID_n2}，其中，PIDs_t·PtID_i＝Hash(D_T·tID_i)，1≤i≤n1，PIDs_c·PcID_j＝Hash(D_C·cID_j)，1≤j≤n2，则隐私保护对齐后的标识集合为AliIDs＝{AliID₁,AliID₂,…,AliID_n}，其中，1≤n≤min(n1,n2)，(AliID_s∈PIDs_t)∧(AliID_s∈PIDs_c)，1≤s≤n，利用AliIDs分别对D_T和D_C的标识进行过滤得到对应的对齐数据和通信运营商的对齐数据/>

步骤1-4、通信运营商与烟草公司将对齐数据分别进行中心化处理，具体包括如下步骤：

给定烟草公司的对齐数据和通信运营商的对齐数据/>则烟草公司的对齐数据AliD_T中心化处理公式为：

通信运营商的AliD_C的中心化处理公式为：

进一步得到烟草公司的中心化处理数据通信运营商的AliD_C的中心化处理数据/>

进一步的，所述步骤2的安全纵向联邦回归模型训练具体包括如下步骤：

步骤2-1、半可信第三方生成同态加密公私钥对并将公钥发送给通信运营商以及烟草公司；

步骤2-2、烟草公司生成同态加密梯度中间结果并发送给通信运营商；

步骤2-3、通信运营商生成同态加密梯度并将其发送给半可信第三方；

步骤2-4、半可信第三方解密通信运营商生成的同态加密梯度并将其发送给通信运营商；

步骤2-5、通信运营商基于半可信第三方的解密梯度和随机掩码得到真实梯度并基于设定学习的步长进行模型参数更新；

步骤2-6、通信运营商生成同态加密梯度中间结果并将其发送给烟草公司；

步骤2-7、烟草公司生成同态加密梯度并将其发送给半可信第三方；

步骤2-8、半可信第三方解密烟草公司生成的同态加密梯度并将其发送给烟草公司；

步骤2-9、烟草公司基于半可信第三方解密梯度和随机生成掩码得到真实梯度并基于设定学习步长进行模型参数更新；

步骤2-10、烟草公司和通信运营商循环进行梯度更新并基于设定的迭代次数或者梯度更新阈值停止更新得到训练模型。

进一步的，所述步骤3基于安全联邦纵向回归模型的预测具体包括如下步骤：

步骤3-1、烟草公司对预测数据进行中心化处理并与通信运营商预测数据进行ID匹配；

步骤3-2、通信运营商对匹配数据特征执行进行中心化处理并将中间预测结果同态加密发送给烟草公司；

步骤3-3、烟草公司执行同态加密纵向联邦回归预测；

步骤3-4、半可信第三方接收烟草公司发送的加密预测值后执行解密计算；

步骤3-5、烟草公司接收半可信第三方发送的解密预测值消除掩码得到真实的预测值。

本发明的有益效果是：(1)隐私保护性更强：提出基于纵向联邦回归模型的烟草销售违规信息预测方法，通过在数据预处理阶段采用基于Hash加密进行样本数据的隐私保护对齐、模型训练阶段采用基于同态解密和随机掩码进行梯度参数交互更新以及在模型预测阶段采用基于同态解密和随机掩码进行模型参数交互集成等，可以保证提出方法具有更强的隐私保护性。

(2)预测准确性更高：提出联合烟草公司与通信运营商的纵向联邦回归模型学习和预测方法，由于通信运营商的数据具有时空覆盖范围大、精度高的优势，烟草公司中烟草销售用户数据的特征与通信运营商中用户通信数据的特征具有很强关联性，联合两类数据特征训练的纵向联邦回归模型具有更好的预测性能，可以保证烟草销售违规信息预测的准确性更高。

附图说明

图1是本发明方法实施的交互流程图。

图2是本发明数据预处理阶段的交互流程图。

图3是本发明模型训练阶段的交互流程图。

图4是本发明模型预测阶段的交互流程图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

本发明提供了一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法，包括三个用户角色：烟草公司、通信运营商以及半可信第三方。烟草公司是联邦回归模型训练的发起方，通信运营商是联邦回归模型训练的响应方，半可信第三方负责烟草公司和通信运营商的数据通信和同态加解密计算。半可信第三方(以下简称第三方)在协议的执行过程中，完全按照协议的要求完成协议的各个步骤，但同时可能将自己的输入、输出及中间结果泄露给攻击者，也即是半可信第三方可能会与烟草公司和通信运营商之间存在串通攻击。三个用户角色之间相互协作完成安全纵向联邦回归模型的训练和基于安全纵向联邦回归模型的烟草销售违规信息预测，基本流程如图1所示。其中，包含的数据预处理即加密实体对齐、加密模型训练和加密模型预测三个子阶段的详细交互流程分贝如图2、3、4所示。

首先给出几个基本定义：

定义1：烟草公司数据，烟草公司T拥有的数据为D_T＝{t₁,t₂,…,t_n},t_i＝{tID,tA¹,tA²,…,tA^m,L}，1≤i≤n，其中，t_i表示D_T中的第i个样本数据，tID表示t_i的标识，tA^j表示t_i中第j个属性特征，1≤j≤m，L表示t_i的标签，商户tID有违规记录L＝1，否则，L＝0。

定义2：通信运营商数据，通信运营商C拥有的数据为D_C＝{c₁,c₂,…,c_n},c_i＝{cID,cA¹,cA²,…,cA^m}，1≤i≤n，其中，c_i表示D_C中的第i个样本数据，cID表示c_i的标识，cA^j,(1≤j≤m)表示c_i中第j个属性特征。

定义3：隐私保护对齐数据，给定烟草公司数据D_T＝{t₁,t₂,…,t_n1}和通信运营商数据D_C＝{c₁,c₂,…,c_n2}，以及两者样本数据标识的加密集合PIDs_t＝{PtID₁,PtID₂,…,PtID_n1}和PIDs_c＝{PcID₁,PcID₂,…,PcID_n2}，其中，PIDs_t·PtID_i＝Hash(D_T·tID_i)，1≤i≤n1，PIDs_c·PcID_j＝Hash(D_C·cID_j)，1≤j≤n2，则隐私保护对齐后的标识集合为AliIDs＝{AliID₁,AliID₂,…,AliID_n}，其中，1≤n≤min(n1,n2)，(AliID_s∈PIDs_t)∧(AliID_s∈PIDs_c)，1≤s≤n。进一步，利用AliIDs分别对D_T和D_C的标识进行过滤得到对应的对齐数据和/>

定义4：隐私保护对齐数据的中心化处理，给定烟草公司的对齐数据和通信运营商的对齐数据/>则烟草公司的对齐数据AliD_T中心化处理公式为：

通信运营商的AliD_C的中心化处理公式为：

进一步得到，烟草公司的中心化处理数据通信运营商的AliD_C的中心化处理数据/>

定义5：纵向联邦回归模型，给定烟草公司中心化处理数据CAliD_T中的任意样本数据1≤i≤n，以及通信运营商中心化处理数据CAliD_C中的对应数据样本数据中的/>其对应的纵向联邦回归模型为：

其中，表示模型预测的标签值，tθ_j表示对应属性特征tA^j的模型参数，cθ_j表示对应属性特征cA^j的模型参数。

进一步，依据判断AliID_i商户是否具有违规风险的计算公式为：

其中，Ris_AliID＝1表示AliID_i商户具有违规风险，Ris_AliID＝0表示AliID_i商户不具有违规风险，表示烟草公司中心化处理数据CAliD_T的标签的均值。

定义6：纵向联邦回归损失函数，给定烟草公司中心化处理数据以及通信运营商中心化处理数据其对应的纵向联邦回归损失函数为：

其中，表示模型对样本数据/>标签的预测值，/>是样本数据/>标签的真实值，tθ_j表示对应属性特征tA_j的模型参数，cθ_j表示对应属性特征cA_j的模型参数，λ是正则化参数。

进一步，纵向联邦回归模型的目标优化函数定义为：

定义7：通信运营商模型训练的参数梯度，给定烟草公司和通信运营商的纵向联邦回归损失函数以及烟草公司中心化处理数据以及通信运营商中心化处理数据则属性特征cA^j，1≤j≤m2，对应模型参数cθ_j的梯度为：

其中，表示求偏导函数。

定义8：烟草公司模型训练的参数梯度，给定烟草公司和通信运营商的纵向联邦回归损失函数

以及烟草公司中心化处理数据/>以及通信运营商中心化处理数据/>则属性特征tA^j，1≤j≤m1，对应模型参数tθ_j的梯度为：

其中，表示求偏导函数。

定义9同态加密加运算，给定同态加密的公私钥对<pk,sk>以及采用同一公钥pk加密的两个密文c₁＝Encrypt(o₁,pk)、c₂＝Encrypt(o₂,pk)，o₁和o₂为对应的明文，则同态加密加运算结果为：

其中，表示密文相加，Decrypt(c,sk)＝Decrypt(c₁,sk)+Decrypt(c₂,sk)＝o₁+o₂。

定义10同态加密标量乘运算，给定同态加密的公私钥对<pk,sk>，采用公钥pk加密的密文c₁＝Encrypt(m₁,pk)以及标量a，o₁为对应c₁的明文，c₁与a的标量乘运算结果为：

其中，表示密文与标量相乘，Decrypt(c,sk)＝Decrypt(c₁,sk)*a＝o₁*a。

定义11：通信运营商同态加密模型训练的参数梯度，给定同态加密的公私钥对

<pk,sk>，以及随机生成的掩码R_c，通信运营商同态加密计算属性特征cA^j对应模型参数cθ_j的梯度计算公式为：

其中，表示密文与标量相乘，/>表示密文相加，随机掩码R_c与密文的加法被映射为密文的加法操作，且/>

定义12：烟草公司方同态加密模型训练的参数梯度，给定同态加密的公私钥对

<pk,sk>，以及随机生成的掩码R_t，烟草公司同态加密计算属性特征tA^j对应模型参数tθ_j的梯度计算公式为：

其中，表示密文与标量相乘，/>表示密文相加，随机掩码R_t与密文的加法被映射为密文的加法操作，且/>

定义13：同态加密纵向联邦回归模型，给定同态加密的公私钥对<pk,sk>，随机生成的掩码R_p，烟草公司预测数据preT＝{ID,tA¹,tA²,…,tA^m1}以及通信运营商的对应数据preC＝{ID,cA¹,cA²,…,cA^m2}，则基于同态加密的纵向联邦回归模型为：

其中，EncL表示模型预测的标签值，表示密文相加，tθ_i表示对应属性特征tAⁱ的训练模型参数，cθ_i表示对应属性特征cAⁱ的训练模型参数，随机掩码R_p与密文的加法被映射为密文的加法操作，且满足条件：

下面通过一个具体的模型训练实例来进一步详细阐述方法实施的过程

阶段一、数据预处理

步骤(1)通信运营商与烟草公司分别将拥有数据的标识信息进行Hash加密并发送给第三方。

本实例中，烟草公司T拥有10个样本数据D_T＝{t₁，t₂，...，t₁₀}，为简化方法后续执行过程的计算量，设定每条样本数据都包含一个属性特征和一个标签值，也即，t_i＝{tID，tA¹，L}，1≤i≤10，其中，tID表示t_i的标识，tA¹表示t_i的1个属性特征，表示商户tID每月的烟草平均销量(单位，千条)，L表示t_i的标签，L＝1表示商户tID违规记录，L＝0表示商户tID违规记录。依据定义1的数据格式化表达为：

通信运营商C也拥有10个样本数据D_c＝{c₁，c，...，c₁₀}，每个样本数据也都包含一个属性特征，也即，c_i＝{cID，cA¹}，1≤i≤10，其中，cID表示c_i的标识，cA¹表示c_i的1个属性特征，表示用户tID每天的平均通话量(单位，10次)。依据定义2的数据格式化表达为：

烟草公司T和通信运营商C约定使用md5函数对各自标识信息进行加密，分别得到对应样本标识的加密集合：

最后，烟草公司T和通信运营商C将各自样本标识加密集合发送给第三方。

步骤(2)第三方基于加密标识集合执行匹配计算并将结果发送给通信运营商与烟草公司

本实例中，第三方接收烟草公司T和通信运营商C发送的样本标识加密集合PIDs_T、PIDs_c，依据定义3对PIDs_T和PIDs_c中元素逐项执行加密标识的匹配计算，得到隐私保护的匹配标识集合：

步骤(3)通信运营商与烟草公司依据匹配结果过滤计算得到对齐数据

烟草公司T和通信运营商C接收第三方发送的隐私保护的匹配标识集合，依据依照定义3，双方各自进行过滤计算得到对应的对齐数据。

本实例中，烟草公司T利用AliIDs对D_T标识进行过滤得到对应的对齐数据：

通信运营商方C利用AliIDs对D_C标识进行过滤得到对应的对齐数据：

步骤(4)通信运营商与烟草公司将对齐数据分别进行中心化处理

烟草公司T和通信运营商C，依据定义4将对齐数据AliD_T、AliD_C分别进行中心化处理。

本实例中，烟草公司方T依据公式将对齐数据AliD_T进行中心化处理后得到：

通信运营商C依据公式将对齐数据AliD_C进行中心化处理后得到：

阶段二、安全纵向联邦回归模型训练

步骤(1)第三方生成同态加密公私钥对并将公钥发送给通信运营商以及烟草公司

本实例中，第三方采用Paillier算法生成了公私钥对

<pk＝<PaillierPublicKey 1abe625878>,sk＝<PaillierPrivateKeyef3b200623>>，并将公钥<PaillierPublicKey 1abe625878>发送给通信运营商以及烟草公司。

步骤(2)烟草公司生成同态加密梯度中间结果并发送给通信运营商

烟草公司设定初始化模型参数，基于本地中心化处理数据和公钥生成同态加密梯度中间结果，并将中间结果发送给通信运营商。

本实例中，烟草公司设定初始化模型参数tθ₁＝0，基于中心化处理数据CAliD_T和公钥<PaillierPublicKey 1abe625878>，生成同态加密中间结果，对应5个样本数据的加密结果分别是：

/>

步骤(3)通信运营商生成同态加密梯度并将其发送给第三方

通信运营商设定初始化模型参数、随机掩码以及正则化系数。基于中心化处理数据、随机掩码和公钥生成同态加密梯度中间结果，并联合从烟草公司发送的同态加密中间结果，依据定义11生成同态加密梯度。最后，将同态加密梯度发送给第三方。

本实例中，具体执行过程包括以下步骤：

步骤2-3-1、通信运营商设定初始化模型参数cθ₁＝0，随机掩码R_c＝0.94122249，正则化系数λ＝30。

步骤2-3-2、基于接收的烟草公司生成同态加密中间结果、中心化处理数据CAliD_C以及公钥<PaillierPublicKey 1abe625878>生成的同态加密值：

/>

步骤2-3-3、基于中心化处理数据CAliD_C和公钥<PaillierPublicKey 1abe625878>生成同态加密中间结果

步骤2-3-4、依据定义11生成同态加密梯度

步骤2-3-5、通信运营商将同态加密梯度

发送给第三方。

步骤(4)第三方解密通信运营商生成的同态加密梯度并将其发送给通信运营商

第三方解密通信运营商生成的同态加密梯度，并将其发送给通信运营商。

本实例中，第三方采用私钥<PaillierPrivateKey ef3b200623>，解密通信运营商发送的同态加密梯度并将其发送回通信运营商。

步骤(5)通信运营商基于第三方的解密梯度和随机掩码得到真实梯度并基于设定学习的步长进行模型参数更新

通信运营商接收第三方解密同态加密梯度，并通过得到通信运营商真实梯度/>设定学习步长并依据公式/>进行模型参数tθ₁更新。

本实例中，通信运营商接收第三方解密同态加密梯度

除去掩码得到真实梯度，

通信运营商设定梯度更新步长cα₁＝0.01，依据公式得到更新后的模型参数cθ₁＝0-0.01*(-0.42)＝0+0.01*0.42＝0.042。

步骤(6)通信运营商生成同态加密梯度中间结果并将其发送给烟草公司

通信运营商设定初始化模型参数，基于中心化处理数据和公钥，生成同态加密中间结果，并将中间结果发送给烟草公司。

本实例中，通信运营商初始化模型参数cθ₁＝0，基于对齐数据CAliD_C和公钥<PaillierPublicKey 1abe625878>，生成同态加密中间结果，对应5个样本数据生成的加密中间结果分别是：

/>

步骤(7)烟草公司生成同态加密梯度并将其发送给第三方

烟草公司设定初始化模型参数、随机生成掩码、正则化系数，并基于中心化处理数据、随机掩码和公钥生成同态加密梯度中间结果，并联合从通信运营商发送的同态加密梯度中间结果，依据定义12生成同态加密梯度。最后，将同态加密梯度发送给第三方。

本实例中，具体执行过程包括以下步骤：

步骤2-7-1、烟草公司设定初始化模型参数tθ₁＝0，随机生成掩码R_t＝0.11449649，正则化系数λ＝30。

步骤2-7-2、烟草公司基于接收的通信运营商方生成同态加密梯度中间结果、本地中心化处理数据CAliD_T以及公钥<PaillierPublicKey 1abe625878>生成的同态加密值：

/>

步骤2-7-3、基于中心化处理数据CAliD_T和公钥<PaillierPublicKey 1abe625878>生成同态加密梯度中间结果

步骤2-7-4、依据定义11生成同态加密梯度

步骤2-7-5、烟草公司将同态加密梯度发送给第三方。

步骤(8)第三方解密烟草公司生成的同态加密梯度并将其发送给烟草公司

本实例中，第三方采用私钥<PaillierPrivateKey ef3b200623>，解密烟草公司发送的同态加密梯度：

并将解密梯度发回给烟草公司。

步骤(9)烟草公司基于第三方解密梯度和随机生成掩码得到真实梯度并基于设定学习步长进行模型参数更新

烟草公司接收第三方解密同态加密梯度，通过得到烟草公司真实梯度/>进一步设定学习步长并进行模型参数更新。

本实例中，通信运营商接收第三方解密同态加密梯度除去掩码得到真实梯度，

烟草公司设定梯度更新更新步长tα₁＝0.01，依据公式得到更新后的模型参数tθ₁＝0.072。

步骤(10)烟草公司和通信运营商循环进行梯度更新并基于设定的迭代次数或者梯度更新阈值停止更新得到训练模型

烟草公司和与通信运营商，重复步骤(2)-(9)，基于设定的迭代次数或者梯度更新阈值得到满足条件的模型参数。

本实例中，设定烟草公司模型参数tθ₁的梯度更新阈值为τtθ₁＝1E-05和动通信公司模型参数cθ₁的梯度更新阈值τcθ₁＝1E-05，也即经过30次迭代更新得到模型参数tθ₁＝0.09547212，cθ₁＝0.15294219。最终，得到训练模型为：

L＝0.09547212(t·tA¹)+0.15294219cθ_i(c·cA¹)

阶段三、基于安全联邦纵向回归模型的预测

步骤(1)烟草公司对预测数据进行中心化操作并与通信运营商预测数据进行ID匹配

烟草公司将预测数据的ID发送给通信运营商进行匹配查找，如果匹配成功，对该预测数据进行中心化操作，然后执行步骤(2)，否则直接返回预测失败。

本实例中，预测数据preT＝{228530,12}，预测数据的ID存在于通信运营商的数据，匹配成功。烟草公司对于预测数据依据定义4进行中心化处理，得到结果：CpreT＝{228530,7.6}。

步骤(2)通信运营商对匹配数据特征执行进行中心化处理并将中间预测结果同态加密发送给烟草公司

通信运营商依据定义4对匹配数据进行中心化处理，依据定义13计算中间预测结果的同态加密值，并将加密结果发送给烟草公司。

本实例中，通信运营商匹配预测数据的记录为preC＝{228530,5}，依据定义4进行中心化处理得到CpreC＝{228530,-0.4}。进一步，依据定义12计算中间预测结果的同态加密值：

Encrypt(cθ₁(preC·cA¹),<PaillierPublicKey 1abe625878>)

＝Encrypt(0.15294219*(-0.4),<PaillierPublicKey 1abe625878>)

＝Encrypt(-0.03818884,<PaillierPublicKey 1abe625878>)＝

<phe.paillier.EncryptedNumber object at 0x000001C8F4877DC0>

最后，将该加密结果发送给烟草公司。

步骤(3)烟草公司执行同态加密纵向联邦回归预测

烟草公司随机生成的掩码并得到对应的同态加密值，基于本地预测数据中心化结果计算中间预测结果的同态加密值，并联合从通信运营商发送的中间预测结果，依据定义12得到同态加密纵向联邦回归预测值。

本实例中，具体执行过程包括以下步骤：

1)烟草公司随机生成掩码R_p＝3.145。

2)烟草公司基于本地预测数据中心化结果CpreT＝{228530,7.6}计算中间预测结果的同态加密值

Encrypt(tθ₁(CpreT·tA¹),<PaillierPublicKey 1abe625878>)

＝Encrypt(0.09547212*(7.6),<PaillierPublicKey 1abe625878>)

＝Encrypt(1.16236064,<PaillierPublicKey 1abe625878>)＝

<phe.paillier.EncryptedNumber object at 0x000001C8F4B31600>

3)烟草公司联合通信运营商发送的中间预测结果以及随机掩码的加密值，依据定义12得到同态加密纵向联邦回归预测值

4)烟草公司将EncL发送给第三方。

步骤(4)第三方接收烟草公司发送的加密预测值后执行解密计算

第三方接收烟草公司发送的加密预测值后，执行解密计算并将结果发送给烟草公司。

本实例中，第三方接收烟草公司发送的加密预测值EncL后执行解密计算Decrypt(EncL,PaillierPrivateKey ef3b200623)＝4.2641718，并将结果发送给烟草公司。

步骤(5)烟草公司接收第三方发送的解密预测值消除掩码得到真实的预测值

烟草公司接收从第三方发送的解密预测值消除掩码得到真实的预测值，并进一步依据定义5通过与烟草公司标签中心化均值的比较判断对应商户是否具有销售违规的风险。

本实例中，烟草公司对从第三方发送的解密预测值执行消除掩码得到真实的预测值：

Decrypt(EncL,PaillierPrivateKey)-R_p＝4.2641718-3.14＝1.1241718

进一步，计算烟草公司标签中心化的均值0.6+(-0.4)/2＝0.1，判断Decrypt(EncL,PaillierPrivateKey)-R_p＝1.1241718>0.1，依据定义5得到Ris₂₂₈₅₃₀＝1，判定该商户具有销售违规的风险。

该方法具有更强的隐私保护性，可以保证烟草销售违规信息预测的准确性更高。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法，其特征在于：所述烟草销售违规信息预测方法包括三个用户角色：烟草公司、通信运营商以及半可信第三方，所述烟草公司为联邦回归模型训练的发起方，通信运营商为联邦回归模型训练的响应方，半可信第三方负责烟草公司和通信运营商的数据通信和同态加解密计算，所述烟草公司、通信运营商以及半可信第三方之间相互协作完成安全纵向联邦回归模型的训练和基于安全纵向联邦回归模型的烟草销售违规信息预测，具体的所述烟草销售违规信息预测方法包括如下步骤：

2.根据权利要求1所述的一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法，其特征在于：所述步骤1的数据预处理具体包括如下步骤：

步骤1-4、通信运营商与烟草公司将对齐数据分别进行中心化处理。

3.根据权利要求2所述的一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法，其特征在于：步骤1-1中：

4.根据权利要求3所述的一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法，其特征在于：所述步骤1-3通信运营商与烟草公司依据匹配结果过滤计算得到对齐数据具体为：给定烟草公司数据D_T＝{t₁,t₂,…,t_n1}和通信运营商数据D_C＝{c₁,c₂,…,c_n2}，以及两者样本数据标识的加密集合PIDs_t＝{PtID₁,PtID₂,…,PtID_n1}和PIDs_c＝{PcID₁,PcID₂,…,PcID_n2}，其中，PIDs_t·PtID_i＝Hash(D_T·tID_i)，1≤i≤n1，PIDs_c·PcID_j＝Hash(D_C·cID_j)，1≤j≤n2，则隐私保护对齐后的标识集合为AliIDs＝{AliID₁,AliID₂,…,AliID_n}，其中，1≤n≤min(n1,n2)，(AliID_s∈PIDs_t)∧(AliID_s∈PIDs_c)，1≤s≤n，利用AliIDs分别对D_T和D_C的标识进行过滤得到对应的对齐数据和通信运营商的对齐数据/>

5.根据权利要求4所述的一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法，其特征在于：所述步骤1-4、通信运营商与烟草公司将对齐数据分别进行中心化处理，具体包括如下步骤：

给定烟草公司的对齐数据和通信运营商的对齐数据则烟草公司的对齐数据AliD_T中心化处理公式为：

通信运营商的AliD_C的中心化处理公式为：

6.根据权利要求1所述的一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法，其特征在于：所述步骤2的安全纵向联邦回归模型训练具体包括如下步骤：

7.根据权利要求1所述的一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法，其特征在于：所述步骤3基于安全联邦纵向回归模型的预测具体包括如下步骤：

步骤3-3、烟草公司执行同态加密纵向联邦回归预测；