CN116882571B - 一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法 - Google Patents

一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法 Download PDF

Info

Publication number
CN116882571B
CN116882571B CN202310852340.6A CN202310852340A CN116882571B CN 116882571 B CN116882571 B CN 116882571B CN 202310852340 A CN202310852340 A CN 202310852340A CN 116882571 B CN116882571 B CN 116882571B
Authority
CN
China
Prior art keywords
data
tobacco company
tobacco
communication carrier
party
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310852340.6A
Other languages
English (en)
Other versions
CN116882571A (zh
Inventor
张海涛
刘苏杭
叶春
陈鋆
刘海峰
蒋慧祥
朱少楠
张尹舰
乐梓怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Shengjing Tuyun Technology Co ltd
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Shengjing Tuyun Technology Co ltd
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Shengjing Tuyun Technology Co ltd, Nanjing University of Posts and Telecommunications filed Critical Nanjing Shengjing Tuyun Technology Co ltd
Priority to CN202310852340.6A priority Critical patent/CN116882571B/zh
Publication of CN116882571A publication Critical patent/CN116882571A/zh
Application granted granted Critical
Publication of CN116882571B publication Critical patent/CN116882571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明属于隐私计算技术研究领域,公开了一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法,包括:步骤1、数据预处理:通信运营商与烟草公司将标识信息加密并发送半可信第三方,第三方执行匹配并返还,计算得到对齐数据;步骤2、安全纵向联邦回归模型训练:第三方生成同态加密公私钥对并分发通信运营商与烟草公司,第三方计算并发送加密梯度给通信运营商,烟草公司解密并发送更新模型;步骤3、基于安全联邦纵向回归模型的预测:烟草公司对预测数据与通信运营商预测数据进行匹配烟草公司计算并发送加密纵向联邦回归预测,烟草公司解密预测值并返还。本发明具有更强的隐私保护性,可以保证烟草销售违规信息预测的准确性更高。

Description

一种基于安全纵向联邦回归模型的烟草销售违规信息预测 方法
技术领域
本发明属于隐私计算技术研究领域,具体的说是涉及一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法。
背景技术
随着信息技术的发展,利用大数据挖掘、深度学习等人工智能技术,对烟草销售公司积累的大量数据进行综合分析发现违规案件,成为打击烟草私自销售和假烟问题的重要手段。2014年朱卫东等人在文献《销售假烟行为的预警模型研究》中提出基于后向传播神经网络预测卷烟销售违规行为的方法。同年,xiao等人在文献《Anomaly detection ofcigarette sales using ARI-MA on lunar calendar》中提出利用大量历史销售记录,通过基于自回归差分移动平均模型的卷烟销售预测模型进行卷烟销售量和平均价格异常检测的方法。2023年肖霄等人在文献《基于时序预测与异常检测的烟草违规销售预警》中提出通过构建基于深度自回归网络和季节性自回归差分移动平均模型的混合预测模型进行销量异常检测的方法。这些方法存在的共性问题是:卷烟销售违规行为分析所使用的数据通常仅局限于烟草销售管理公司的内部业务数据,缺乏考虑卷烟销售商户的外部特征数据,因此预测分析的精度通常较低。直接的解决方法是将多个行业应用的烟草销售商户相关数据与烟草销售专题数据进行集成、关联以及数据挖掘分析。但是,随着人们对于用户隐私和数据保安全关注度的提高,直接基于数据中心集成分析的方式变得很难实施。
发明内容
为了解决上述技术问题,本发明提供了一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法,该方法具有更强的隐私保护性,可以保证烟草销售违规信息预测的准确性更高。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法,烟草销售违规信息预测方法包括三个用户角色:烟草公司、通信运营商以及半可信第三方,所述烟草公司为联邦回归模型训练的发起方,通信运营商为联邦回归模型训练的响应方,半可信第三方负责烟草公司和通信运营商的数据通信和同态加解密计算,所述烟草公司、通信运营商以及半可信第三方之间相互协作完成安全纵向联邦回归模型的训练和基于安全纵向联邦回归模型的烟草销售违规信息预测,具体的所述烟草销售违规信息预测方法包括如下步骤:
步骤1、数据预处理:通信运营商与烟草公司将标识信息加密并发送半可信第三方,半可信第三方执行匹配并返还,根据匹配结果计算得到对齐数据;
步骤2、安全纵向联邦回归模型训练:半可信第三方生成同态加密公私钥对并分发给通信运营商与烟草公司,烟草公司、通信运营商以及半可信第三方交换加密中间结果,半可信第三方计算并发送加密梯度给通信运营商,烟草公司解密并发送更新模型;
步骤3、基于安全联邦纵向回归模型的预测:烟草公司对预测数据与通信运营商预测数据进行ID匹配并将匹配数据特征返还,烟草公司计算并发送加密纵向联邦回归预测,烟草公司解密预测值并返还。
进一步的,所述步骤1的数据预处理具体包括如下步骤:
步骤1-1、通信运营商与烟草公司分别将拥有数据的标识信息进行Hash加密并发送给半可信第三方;
烟草公司T拥有的数据为DT={t1,t2,…,tn},ti={tID,tA1,tA2,…,tAm,L},1≤i≤n,其中,ti表示DT中的第i个样本数据,tID表示ti的标识,tAj表示ti中第j个属性特征,1≤j≤m,L表示ti的标签,商户tID有违规记录L=1,否则,L=0;
通信运营商C拥有的数据为DC={c1,c2,…,cn},ci={cID,cA1,cA2,…,cAm},1≤i≤n,其中,ci表示DC中的第i个样本数据,cID表示ci的标识,cAj表示ci中第j个属性特征,1≤j≤m。
步骤1-2、半可信第三方基于加密标识集合执行匹配计算并将结果发送给通信运营商与烟草公司;
步骤1-3、通信运营商与烟草公司依据匹配结果过滤计算得到对齐数据;
给定烟草公司数据DT={t1,t2,…,tn1}和通信运营商数据DC={c1,c2,…,cn2},以及两者样本数据标识的加密集合PIDst={PtID1,PtID2,…,PtIDn1}和PIDsc={PcID1,PcID2,…,PcIDn2},其中,PIDst·PtIDi=Hash(DT·tIDi),1≤i≤n1,PIDsc·PcIDj=Hash(DC·cIDj),1≤j≤n2,则隐私保护对齐后的标识集合为AliIDs={AliID1,AliID2,…,AliIDn},其中,1≤n≤min(n1,n2),(AliIDs∈PIDst)∧(AliIDs∈PIDsc),1≤s≤n,利用AliIDs分别对DT和DC的标识进行过滤得到对应的对齐数据和通信运营商的对齐数据
步骤1-4、通信运营商与烟草公司将对齐数据分别进行中心化处理,具体包括如下步骤:
给定烟草公司的对齐数据和通信运营商的对齐数据则烟草公司的对齐数据AliDT中心化处理公式为:
通信运营商的AliDC的中心化处理公式为:
进一步得到烟草公司的中心化处理数据通信运营商的AliDC的中心化处理数据
进一步的,所述步骤2的安全纵向联邦回归模型训练具体包括如下步骤:
步骤2-1、半可信第三方生成同态加密公私钥对并将公钥发送给通信运营商以及烟草公司;
步骤2-2、烟草公司生成同态加密梯度中间结果并发送给通信运营商;
步骤2-3、通信运营商生成同态加密梯度并将其发送给半可信第三方;
步骤2-4、半可信第三方解密通信运营商生成的同态加密梯度并将其发送给通信运营商;
步骤2-5、通信运营商基于半可信第三方的解密梯度和随机掩码得到真实梯度并基于设定学习的步长进行模型参数更新;
步骤2-6、通信运营商生成同态加密梯度中间结果并将其发送给烟草公司;
步骤2-7、烟草公司生成同态加密梯度并将其发送给半可信第三方;
步骤2-8、半可信第三方解密烟草公司生成的同态加密梯度并将其发送给烟草公司;
步骤2-9、烟草公司基于半可信第三方解密梯度和随机生成掩码得到真实梯度并基于设定学习步长进行模型参数更新;
步骤2-10、烟草公司和通信运营商循环进行梯度更新并基于设定的迭代次数或者梯度更新阈值停止更新得到训练模型。
进一步的,所述步骤3基于安全联邦纵向回归模型的预测具体包括如下步骤:
步骤3-1、烟草公司对预测数据进行中心化处理并与通信运营商预测数据进行ID匹配;
步骤3-2、通信运营商对匹配数据特征执行进行中心化处理并将中间预测结果同态加密发送给烟草公司;
步骤3-3、烟草公司执行同态加密纵向联邦回归预测;
步骤3-4、半可信第三方接收烟草公司发送的加密预测值后执行解密计算;
步骤3-5、烟草公司接收半可信第三方发送的解密预测值消除掩码得到真实的预测值。
本发明的有益效果是:(1)隐私保护性更强:提出基于纵向联邦回归模型的烟草销售违规信息预测方法,通过在数据预处理阶段采用基于Hash加密进行样本数据的隐私保护对齐、模型训练阶段采用基于同态解密和随机掩码进行梯度参数交互更新以及在模型预测阶段采用基于同态解密和随机掩码进行模型参数交互集成等,可以保证提出方法具有更强的隐私保护性。
(2)预测准确性更高:提出联合烟草公司与通信运营商的纵向联邦回归模型学习和预测方法,由于通信运营商的数据具有时空覆盖范围大、精度高的优势,烟草公司中烟草销售用户数据的特征与通信运营商中用户通信数据的特征具有很强关联性,联合两类数据特征训练的纵向联邦回归模型具有更好的预测性能,可以保证烟草销售违规信息预测的准确性更高。
附图说明
图1是本发明方法实施的交互流程图。
图2是本发明数据预处理阶段的交互流程图。
图3是本发明模型训练阶段的交互流程图。
图4是本发明模型预测阶段的交互流程图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
本发明提供了一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法,包括三个用户角色:烟草公司、通信运营商以及半可信第三方。烟草公司是联邦回归模型训练的发起方,通信运营商是联邦回归模型训练的响应方,半可信第三方负责烟草公司和通信运营商的数据通信和同态加解密计算。半可信第三方(以下简称第三方)在协议的执行过程中,完全按照协议的要求完成协议的各个步骤,但同时可能将自己的输入、输出及中间结果泄露给攻击者,也即是半可信第三方可能会与烟草公司和通信运营商之间存在串通攻击。三个用户角色之间相互协作完成安全纵向联邦回归模型的训练和基于安全纵向联邦回归模型的烟草销售违规信息预测,基本流程如图1所示。其中,包含的数据预处理即加密实体对齐、加密模型训练和加密模型预测三个子阶段的详细交互流程分贝如图2、3、4所示。
首先给出几个基本定义:
定义1:烟草公司数据,烟草公司T拥有的数据为DT={t1,t2,…,tn},ti={tID,tA1,tA2,…,tAm,L},1≤i≤n,其中,ti表示DT中的第i个样本数据,tID表示ti的标识,tAj表示ti中第j个属性特征,1≤j≤m,L表示ti的标签,商户tID有违规记录L=1,否则,L=0。
定义2:通信运营商数据,通信运营商C拥有的数据为DC={c1,c2,…,cn},ci={cID,cA1,cA2,…,cAm},1≤i≤n,其中,ci表示DC中的第i个样本数据,cID表示ci的标识,cAj,(1≤j≤m)表示ci中第j个属性特征。
定义3:隐私保护对齐数据,给定烟草公司数据DT={t1,t2,…,tn1}和通信运营商数据DC={c1,c2,…,cn2},以及两者样本数据标识的加密集合PIDst={PtID1,PtID2,…,PtIDn1}和PIDsc={PcID1,PcID2,…,PcIDn2},其中,PIDst·PtIDi=Hash(DT·tIDi),1≤i≤n1,PIDsc·PcIDj=Hash(DC*cIDj),1≤j≤n2,则隐私保护对齐后的标识集合为AliIDs={AliID1,AliID2,…,AliIDn},其中,1≤n≤min(n1,n2),(AliIDs∈PIDst)∧(AliIDs∈PIDsc),1≤s≤n。进一步,利用AliIDs分别对DT和DC的标识进行过滤得到对应的对齐数据
定义4:隐私保护对齐数据的中心化处理,给定烟草公司的对齐数据AliDT
和通信运营商的对齐数据则烟草公司的对齐数据AliDT中心化处理公式为:
通信运营商的AliDC的中心化处理公式为:
进一步得到,烟草公司的中心化处理数据通信运营商的AliDC的中心化处理数据
定义5:纵向联邦回归模型,给定烟草公司中心化处理数据CAliDT中的任意样本数据以及通信运营商中心化处理数据CAliDC中的对应数据样本数据中的其对应的纵向联邦回归模型为:
其中,表示模型预测的标签值,tθj表示对应属性特征tAj的模型参数,cθj表示对应属性特征cAj的模型参数。
进一步,依据判断AliIDi商户是否具有违规风险的计算公式为:
其中,RisAliID=1表示AliIDi商户具有违规风险,RisAliID=0表示AliIDi商户不具有违规风险,表示烟草公司中心化处理数据CAliDT的标签的均值。
定义6:纵向联邦回归损失函数,给定烟草公司中心化处理数据以及通信运营商中心化处理数据其对应的纵向联邦回归损失函数为:
其中,表示模型对样本数据标签的预测值,是样本数据标签的真实值,tθj表示对应属性特征tAj的模型参数,cθj表示对应属性特征cAj的模型参数,λ是正则化参数。
进一步,纵向联邦回归模型的目标优化函数定义为:
定义7:通信运营商模型训练的参数梯度,给定烟草公司和通信运营商的纵向联邦回归损失函数 以及烟草公司中心化处理数据以及通信运营商中心化处理数据则属性特征cAj,1≤j≤m2,对应模型参数cθj的梯度为:
其中,表示求偏导函数。
定义8:烟草公司模型训练的参数梯度,给定烟草公司和通信运营商的纵向联邦回归损失函数
以及烟草公司中心化处理数据以及通信运营商中心化处理数据则属性特征tAj,1≤j≤m1,对应模型参数tθj的梯度为:
其中,表示求偏导函数。
定义9同态加密加运算,给定同态加密的公私钥对<pk,sk>以及采用同一公钥pk加密的两个密文c1=Encrypt(o1,pk)、c2=Encrypt(o2,pk),o1和o2为对应的明文,则同态加密加运算结果为:
其中,表示密文相加,Decrypt(c,sk)=Decrypt(c1,sk)+Decrypt(c2,sk)=o1+o2
定义10同态加密标量乘运算,给定同态加密的公私钥对<pk,sk>,采用公钥pk加密的密文c1=Encrypt(m1,pk)以及标量a,o1为对应c1的明文,c1与a的标量乘运算结果为:
其中,表示密文与标量相乘,Decrypt(c,sk)=Decrypt(c1,sk)*a=o1*a。
定义11:通信运营商同态加密模型训练的参数梯度,给定同态加密的公私钥对
<pk,sk>,以及随机生成的掩码Rc,通信运营商同态加密计算属性特征cAj对应模型参数cθj的梯度计算公式为:
其中,表示密文与标量相乘,表示密文相加,随机掩码Rc与密文的加法被映射为密文的加法操作,且
定义12:烟草公司方同态加密模型训练的参数梯度,给定同态加密的公私钥对
<pk,sk>,以及随机生成的掩码Rt,烟草公司同态加密计算属性特征tAj对应模型参数tθj的梯度计算公式为:
其中,表示密文与标量相乘,表示密文相加,随机掩码Rt与密文的加法被映射为密文的加法操作,且
定义13:同态加密纵向联邦回归模型,给定同态加密的公私钥对<pk,sk>,随机生成的掩码Rp,烟草公司预测数据preT={ID,tA1,tA2,…,tAm1}以及通信运营商的对应数据preC={ID,cA1,cA2,…,cAm2},则基于同态加密的纵向联邦回归模型为:
其中,EncL表示模型预测的标签值,表示密文相加,tθi表示对应属性特征tAi的训练模型参数,cθi表示对应属性特征cAi的训练模型参数,随机掩码Rp与密文的加法被映射为密文的加法操作,且满足条件:
下面通过一个具体的模型训练实例来进一步详细阐述方法实施的过程
阶段一、数据预处理
步骤(1)通信运营商与烟草公司分别将拥有数据的标识信息进行Hash加密并发送给第三方。
本实例中,烟草公司T拥有10个样本数据DT={t1,t2,…,t10},为简化方法后续执行过程的计算量,设定每条样本数据都包含一个属性特征和一个标签值,也即,ti={tID,tA1,L},1≤i≤10,其中,tID表示ti的标识,tA1表示ti的1个属性特征,表示商户tID每月的烟草平均销量(单位,千条),L表示ti的标签,L=1表示商户tID违规记录,L=0表示商户tID违规记录。依据定义1的数据格式化表达为:
通信运营商C也拥有10个样本数据Dc={c1,c,…,c10},每个样本数据也都包含一个属性特征,也即,ci={cID,cA1},1≤i≤10,其中,cID表示ci的标识,cA1表示ci的1个属性特征,表示用户tID每天的平均通话量(单位,10次)。依据定义2的数据格式化表达为:
烟草公司T和通信运营商C约定使用md5函数对各自标识信息进行加密,分别得到对应样本标识的加密集合:
最后,烟草公司T和通信运营商C将各自样本标识加密集合发送给第三方。
步骤(2)第三方基于加密标识集合执行匹配计算并将结果发送给通信运营商与烟草公司
本实例中,第三方接收烟草公司T和通信运营商C发送的样本标识加密集合PIDsT、PIDsc,依据定义3对PIDsT和PIDsc中元素逐项执行加密标识的匹配计算,得到隐私保护的匹配标识集合:
步骤(3)通信运营商与烟草公司依据匹配结果过滤计算得到对齐数据
烟草公司T和通信运营商C接收第三方发送的隐私保护的匹配标识集合,依据依照定义3,双方各自进行过滤计算得到对应的对齐数据。
本实例中,烟草公司T利用AliIDs对DT标识进行过滤得到对应的对齐数据:
通信运营商方C利用AliIDs对DC标识进行过滤得到对应的对齐数据:
步骤(4)通信运营商与烟草公司将对齐数据分别进行中心化处理
烟草公司T和通信运营商C,依据定义4将对齐数据AliDT、AliDC分别进行中心化处理。
本实例中,烟草公司方T依据公式将对齐数据AliDT进行中心化处理后得到:
通信运营商C依据公式将对齐数据AliDC进行中心化处理后得到:
阶段二、安全纵向联邦回归模型训练
步骤(1)第三方生成同态加密公私钥对并将公钥发送给通信运营商以及烟草公司
本实例中,第三方采用Paillier算法生成了公私钥对<pk=<PaillierPublicKey1abe625878>,sk=<PaillierPrivateKey ef3b200623>>,并将公钥<PaillierPublicKey1abe625878>发送给通信运营商以及烟草公司。
步骤(2)烟草公司生成同态加密梯度中间结果并发送给通信运营商
烟草公司设定初始化模型参数,基于本地中心化处理数据和公钥生成同态加密梯度中间结果,并将中间结果发送给通信运营商。
本实例中,烟草公司设定初始化模型参数tθ1=0,基于中心化处理数据CAliDT和公钥<PaillierPublicKey 1abe625878>,生成同态加密中间结果,对应5个样本数据的加密结果分别是:
步骤(3)通信运营商生成同态加密梯度并将其发送给第三方
通信运营商设定初始化模型参数、随机掩码以及正则化系数。基于中心化处理数据、随机掩码和公钥生成同态加密梯度中间结果,并联合从烟草公司发送的同态加密中间结果,依据定义11生成同态加密梯度。最后,将同态加密梯度发送给第三方。
本实例中,具体执行过程包括以下步骤:
步骤2-3-1、通信运营商设定初始化模型参数cθ1=0,随机掩码Rc=0.94122249,正则化系数λ=30。
步骤2-3-2、基于接收的烟草公司生成同态加密中间结果、中心化处理数据CAliDC以及公钥<PaillierPublicKey 1abe625878>生成的同态加密值:
步骤2-3-3、基于中心化处理数据CAliDC和公钥<PaillierPublicKey 1abe625878>生成同态加密中间结果
步骤2-3-4、依据定义11生成同态加密梯度
步骤2-3-5、通信运营商将同态加密梯度发送给第三方。
步骤(4)第三方解密通信运营商生成的同态加密梯度并将其发送给通信运营商
第三方解密通信运营商生成的同态加密梯度,并将其发送给通信运营商。
本实例中,第三方采用私钥<PaillierPrivateKey ef3b200623>,解密通信运营商发送的同态加密梯度 并将其发送回通信运营商。
步骤(5)通信运营商基于第三方的解密梯度和随机掩码得到真实梯度并基于设定学习的步长进行模型参数更新
通信运营商接收第三方解密同态加密梯度,并通过得到通信运营商真实梯度设定学习步长并依据公式进行模型参数tθ1更新。
本实例中,通信运营商接收第三方解密同态加密梯度 除去掩码得到真实梯度,
通信运营商设定梯度更新步长cα1=0.01,依据公式得到更新后的模型参数cθ1=0-0.01*(-0.42)=0+0.01*0.42=0.042。
步骤(6)通信运营商生成同态加密梯度中间结果并将其发送给烟草公司
通信运营商设定初始化模型参数,基于中心化处理数据和公钥,生成同态加密中间结果,并将中间结果发送给烟草公司。
本实例中,通信运营商初始化模型参数cθ1=0,基于对齐数据CAliDC和公钥<PaillierPublicKey 1abe625878>,生成同态加密中间结果,对应5个样本数据生成的加密中间结果分别是:
步骤(7)烟草公司生成同态加密梯度并将其发送给第三方
烟草公司设定初始化模型参数、随机生成掩码、正则化系数,并基于中心化处理数据、随机掩码和公钥生成同态加密梯度中间结果,并联合从通信运营商发送的同态加密梯度中间结果,依据定义12生成同态加密梯度。最后,将同态加密梯度发送给第三方。
本实例中,具体执行过程包括以下步骤:
步骤2-7-1、烟草公司设定初始化模型参数tθ1=0,随机生成掩码Rt=0.11449649,正则化系数λ=30。
步骤2-7-2、烟草公司基于接收的通信运营商方生成同态加密梯度中间结果、本地中心化处理数据CAliDT以及公钥<PaillierPublicKey 1abe625878>生成的同态加密值:
步骤2-7-3、基于中心化处理数据CAliDT和公钥<PaillierPublicKey 1abe625878>生成同态加密梯度中间结果
步骤2-7-4、依据定义11生成同态加密梯度
步骤2-7-5、烟草公司将同态加密梯度发送给第三方。
步骤(8)第三方解密烟草公司生成的同态加密梯度并将其发送给烟草公司
本实例中,第三方采用私钥<PaillierPrivateKey ef3b200623>,解密烟草公司发送的同态加密梯度:
并将解密梯度发回给烟草公司。
步骤(9)烟草公司基于第三方解密梯度和随机生成掩码得到真实梯度并基于设定学习步长进行模型参数更新
烟草公司接收第三方解密同态加密梯度,通过得到烟草公司真实梯度进一步设定学习步长并进行模型参数更新。
本实例中,通信运营商接收第三方解密同态加密梯度 除去掩码得到真实梯度,
烟草公司设定梯度更新更新步长tα1=0.01,依据公式 得到更新后的模型参数tθ1=0.072。
步骤(10)烟草公司和通信运营商循环进行梯度更新并基于设定的迭代次数或者梯度更新阈值停止更新得到训练模型
烟草公司和与通信运营商,重复步骤(2)-(9),基于设定的迭代次数或者梯度更新阈值得到满足条件的模型参数。
本实例中,设定烟草公司模型参数tθ1的梯度更新阈值为τtθ1=1E-05和动通信公司模型参数cθ1的梯度更新阈值τcθ1=1E-05,也即经过30次迭代更新得到模型参数tθ1=0.09547212,cθ1=0.15294219。最终,得到训练模型为:
L=0.09547212(t·tA1)+0.15294219cθi(c·cA1)
阶段三、基于安全联邦纵向回归模型的预测
步骤(1)烟草公司对预测数据进行中心化操作并与通信运营商预测数据进行ID匹配
烟草公司将预测数据的ID发送给通信运营商进行匹配查找,如果匹配成功,对该预测数据进行中心化操作,然后执行步骤(2),否则直接返回预测失败。
本实例中,预测数据preT={228530,12},预测数据的ID存在于通信运营商的数据,匹配成功。烟草公司对于预测数据依据定义4进行中心化处理,得到结果:CpreT={228530,7.6}。
步骤(2)通信运营商对匹配数据特征执行进行中心化处理并将中间预测结果同态加密发送给烟草公司
通信运营商依据定义4对匹配数据进行中心化处理,依据定义13计算中间预测结果的同态加密值,并将加密结果发送给烟草公司。
本实例中,通信运营商匹配预测数据的记录为preC={228530,5},依据定义4进行中心化处理得到CpreC={228530,-0.4}。进一步,依据定义12计算中间预测结果的同态加密值:
Encrypt(cθ1(preC·cA1),<PaillierPublicKey 1abe625878>)
=Encrypt(0.15294219*(-0.4),<PaillierPublicKey 1abe625878>)
=Encrypt(-0.03818884,<PaillierPublicKey 1abe625878>)=<phe.paillier.EncryptedNumber object at 0x000001C8F4877DC0>
最后,将该加密结果发送给烟草公司。
步骤(3)烟草公司执行同态加密纵向联邦回归预测
烟草公司随机生成的掩码并得到对应的同态加密值,基于本地预测数据中心化结果计算中间预测结果的同态加密值,并联合从通信运营商发送的中间预测结果,依据定义12得到同态加密纵向联邦回归预测值。
本实例中,具体执行过程包括以下步骤:
1)烟草公司随机生成掩码Rp=3.145。
2)烟草公司基于本地预测数据中心化结果CpreT={228530,7.6}计算中间预测结果的同态加密值
Encrypt(tθ1(CpreT·tA1),<PaillierPublicKey 1abe625878>)
=Encrypt(0.09547212*(7.6),<PaillierPublicKey 1abe625878>)
=Encrypt(1.16236064,<PaillierPublicKey 1abe625878>)=<phe.paillier.EncryptedNumber object at 0x000001C8F4B31600>
3)烟草公司联合通信运营商发送的中间预测结果以及随机掩码的加密值,依据定义12得到同态加密纵向联邦回归预测值
4)烟草公司将EncL发送给第三方。
步骤(4)第三方接收烟草公司发送的加密预测值后执行解密计算
第三方接收烟草公司发送的加密预测值后,执行解密计算并将结果发送给烟草公司。本实例中,第三方接收烟草公司发送的加密预测值EncL后执行解密计算Decrypt(EncL,PaillierPrivateKey ef3b200623)=4.2641718,并将结果发送给烟草公司。
步骤(5)烟草公司接收第三方发送的解密预测值消除掩码得到真实的预测值
烟草公司接收从第三方发送的解密预测值消除掩码得到真实的预测值,并进一步依据定义5通过与烟草公司标签中心化均值的比较判断对应商户是否具有销售违规的风险。
本实例中,烟草公司对从第三方发送的解密预测值执行消除掩码得到真实的预测值:
Decrypt(EncL,PaillierPrivateKey)-Rp=4.2641718-3.14=1.1241718
进一步,计算烟草公司标签中心化的均值0.6+(-0.4)/2=0.1,判断Decrypt(EncL,PaillierPrivateKey)-Rp=1.1241718>0.1,依据定义5得到Ris228530=1,判定该商户具有销售违规的风险。
该方法具有更强的隐私保护性,可以保证烟草销售违规信息预测的准确性更高。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

Claims (6)

1.一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法,其特征在于:所述烟草销售违规信息预测方法包括三个用户角色:烟草公司、通信运营商以及半可信第三方,所述烟草公司为联邦回归模型训练的发起方,通信运营商为联邦回归模型训练的响应方,半可信第三方负责烟草公司和通信运营商的数据通信和同态加解密计算,所述烟草公司、通信运营商以及半可信第三方之间相互协作完成安全纵向联邦回归模型的训练和基于安全纵向联邦回归模型的烟草销售违规信息预测,具体的所述烟草销售违规信息预测方法包括如下步骤:
步骤1、数据预处理:通信运营商与烟草公司将标识信息加密并发送半可信第三方,半可信第三方执行匹配并返还,根据匹配结果计算得到对齐数据;
步骤2、安全纵向联邦回归模型训练:半可信第三方生成同态加密公私钥对并分发给通信运营商与烟草公司,烟草公司、通信运营商以及半可信第三方交换加密中间结果,半可信第三方计算并发送加密梯度给通信运营商,烟草公司解密并发送更新模型;
步骤3、基于安全联邦纵向回归模型的预测:烟草公司对预测数据与通信运营商预测数据进行ID匹配并将匹配数据特征返还,烟草公司计算并发送加密纵向联邦回归预测,烟草公司解密预测值并返还,其中:
所述步骤2的安全纵向联邦回归模型训练具体包括如下步骤:
步骤2-1、半可信第三方生成同态加密公私钥对并将公钥发送给通信运营商以及烟草公司;
步骤2-2、烟草公司生成同态加密梯度中间结果并发送给通信运营商;
步骤2-3、通信运营商生成同态加密梯度并将其发送给半可信第三方;
步骤2-4、半可信第三方解密通信运营商生成的同态加密梯度并将其发送给通信运营商;
步骤2-5、通信运营商基于半可信第三方的解密梯度和随机掩码得到真实梯度并基于设定学习的步长进行模型参数更新;
步骤2-6、通信运营商生成同态加密梯度中间结果并将其发送给烟草公司;
步骤2-7、烟草公司生成同态加密梯度并将其发送给半可信第三方;
步骤2-8、半可信第三方解密烟草公司生成的同态加密梯度并将其发送给烟草公司;
步骤2-9、烟草公司基于半可信第三方解密梯度和随机生成掩码得到真实梯度并基于设定学习步长进行模型参数更新;
步骤2-10、烟草公司和通信运营商循环进行梯度更新并基于设定的迭代次数或者梯度更新阈值停止更新得到安全纵向联邦回归模型;
所述安全纵向联邦回归模型为:
其中,EncL表示模型预测的标签值,Encrypt表示同态加密计算,表示密文相加,tθi表示对应属性特征tAi的训练模型参数,preT表示烟草公司预测数据,m1表示烟草公司拥有数据的属性特征的数量,cθi表示对应属性特征cAi的训练模型参数,preC表示通信运营商的对应数据,m2表示通信运营商拥有数据的属性特征的数量,i表示属性特征的编号,pk表示公钥,Rp表示随机掩码,Rp与密文的加法被映射为密文的加法操作,且满足条件:
其中,Decrypt表示同态加密计算,sk表示私钥。
2.根据权利要求1所述的一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法,其特征在于:所述步骤1的数据预处理具体包括如下步骤:
步骤1-1、通信运营商与烟草公司分别将拥有数据的标识信息进行Hash加密并发送给半可信第三方;
步骤1-2、半可信第三方基于加密标识集合执行匹配计算并将结果发送给通信运营商与烟草公司;
步骤1-3、通信运营商与烟草公司依据匹配结果过滤计算得到对齐数据;
步骤1-4、通信运营商与烟草公司将对齐数据分别进行中心化处理。
3.根据权利要求2所述的一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法,其特征在于:步骤1-1中:
烟草公司T拥有的数据为DT={t1,t2,…,tn},ti={tID,tA1,tA2,…,tAm,L},1≤i≤n,其中,ti表示DT中的第i个样本数据,tID表示ti的标识,tAj表示ti中第j个属性特征,1≤j≤m,L表示ti的标签,商户tID有违规记录L=1,否则,L=0;
通信运营商C拥有的数据为DC={c1,c2,…,cn},ci={cID,cA1,cA2,…,cAm},1≤i≤n,其中,ci表示DC中的第i个样本数据,cID表示ci的标识,cAj表示ci中第j个属性特征,1≤j≤m。
4.根据权利要求3所述的一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法,其特征在于:所述步骤1-3通信运营商与烟草公司依据匹配结果过滤计算得到对齐数据具体为:给定烟草公司数据DT={t1,t2,…,tn1}和通信运营商数据DC={c1,c2,…,cn2},以及两者样本数据标识的加密集合PIDst={PtID1,PtID2,…,PtIDn1}和PIDsc={PcID1,PcID2,…,PcIDn2},其中,PIDst·PtIDi=Hash(DT·tIDi),1≤i≤n1,PIDsc·PcIDj=Hash(DC·cIDj),1≤j≤n2,则隐私保护对齐后的标识集合为AliIDs={AliID1,AliID2,…,AliIDn},其中,1≤n≤min(n1,n2),(AliIDs∈PIDst)∧(AliIDs∈PIDsc),1≤s≤n,利用AliIDs分别对DT和DC的标识进行过滤得到对应的对齐数据和通信运营商的对齐数据
5.根据权利要求4所述的一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法,其特征在于:所述步骤1-4、通信运营商与烟草公司将对齐数据分别进行中心化处理,具体包括如下步骤:
给定烟草公司的对齐数据和通信运营商的对齐数据则烟草公司的对齐数据AliDT中心化处理公式为:
通信运营商的AliDC的中心化处理公式为:
进一步得到烟草公司的中心化处理数据通信运营商的AliDC的中心化处理数据
6.根据权利要求1所述的一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法,其特征在于:所述步骤3基于安全联邦纵向回归模型的预测具体包括如下步骤:
步骤3-1、烟草公司对预测数据进行中心化处理并与通信运营商预测数据进行ID匹配;
步骤3-2、通信运营商对匹配数据特征执行进行中心化处理并将中间预测结果同态加密发送给烟草公司;
步骤3-3、烟草公司执行同态加密纵向联邦回归预测;
步骤3-4、半可信第三方接收烟草公司发送的加密预测值后执行解密计算;
步骤3-5、烟草公司接收半可信第三方发送的解密预测值消除掩码得到真实的预测值。
CN202310852340.6A 2023-07-12 2023-07-12 一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法 Active CN116882571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310852340.6A CN116882571B (zh) 2023-07-12 2023-07-12 一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310852340.6A CN116882571B (zh) 2023-07-12 2023-07-12 一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法

Publications (2)

Publication Number Publication Date
CN116882571A CN116882571A (zh) 2023-10-13
CN116882571B true CN116882571B (zh) 2023-12-12

Family

ID=88261629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310852340.6A Active CN116882571B (zh) 2023-07-12 2023-07-12 一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法

Country Status (1)

Country Link
CN (1) CN116882571B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091414A (zh) * 2019-11-28 2020-05-01 公安部第三研究所 基于孤立森林模型实现烟草销售异常行为检测的方法
CN112906912A (zh) * 2021-04-01 2021-06-04 深圳市洞见智慧科技有限公司 纵向联邦学习中无可信第三方的回归模型训练方法及系统
CN114445155A (zh) * 2022-04-08 2022-05-06 广东烟草佛山市有限责任公司 一种烟草大数据预测方法及系统
CN114547643A (zh) * 2022-01-20 2022-05-27 华东师范大学 一种基于同态加密的线性回归纵向联邦学习方法
CN114707720A (zh) * 2022-03-30 2022-07-05 中国民航大学 一种基于纵向联邦学习的航班延误预测方法及系统
CN115330432A (zh) * 2022-07-07 2022-11-11 浙江中烟工业有限责任公司 一种烟草销量预测方法及装置
CN115423488A (zh) * 2022-08-19 2022-12-02 浪潮通信信息系统有限公司 烟草销售串烟风险预测方法、装置、电子设备及存储介质
CN116070709A (zh) * 2021-11-02 2023-05-05 京东科技控股股份有限公司 纵向联邦学习中逻辑回归模型的训练方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033828B (zh) * 2021-04-29 2022-03-22 江苏超流信息技术有限公司 模型训练方法、使用方法、系统、可信节点及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091414A (zh) * 2019-11-28 2020-05-01 公安部第三研究所 基于孤立森林模型实现烟草销售异常行为检测的方法
CN112906912A (zh) * 2021-04-01 2021-06-04 深圳市洞见智慧科技有限公司 纵向联邦学习中无可信第三方的回归模型训练方法及系统
CN116070709A (zh) * 2021-11-02 2023-05-05 京东科技控股股份有限公司 纵向联邦学习中逻辑回归模型的训练方法及系统
CN114547643A (zh) * 2022-01-20 2022-05-27 华东师范大学 一种基于同态加密的线性回归纵向联邦学习方法
CN114707720A (zh) * 2022-03-30 2022-07-05 中国民航大学 一种基于纵向联邦学习的航班延误预测方法及系统
CN114445155A (zh) * 2022-04-08 2022-05-06 广东烟草佛山市有限责任公司 一种烟草大数据预测方法及系统
CN115330432A (zh) * 2022-07-07 2022-11-11 浙江中烟工业有限责任公司 一种烟草销量预测方法及装置
CN115423488A (zh) * 2022-08-19 2022-12-02 浪潮通信信息系统有限公司 烟草销售串烟风险预测方法、装置、电子设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Feature Inference Attack on Model Predictions in Vertical Federated Learning;Xinjian Luo 等;《2021 IEEE 37th International Conference on Data Engineering (ICDE)》;第181-192页 *
Spatial-temporal patterns and drivers of illicit tobacco trade in Changsha county, China;Jiaojiao Wang 等;《2016 IEEE Conference on Intelligence and Security Informatics (ISI)》;第127-132页 *
基于BP神经网络的卷烟销售违规预测研究;杜承勇;《中国优秀硕士学位论文全文数据库 信息科技辑》(第S1期);第I140-89页 *
基于BP神经网络的零售户销售假烟行为的预警模型;郭军 等;《电子技术与软件工程》(第21期);第165-166页 *
基于时序预测与异常检测的烟草违法销售预警;肖霄 等;《贵州师范大学学报(自然科学版)》;第41卷(第3期);第119-124页 *
基于纵向联邦学习的航班延误预测;李国 等;《计算机工程与设计》;第44卷(第5期);第1594-1601页 *

Also Published As

Publication number Publication date
CN116882571A (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN110189192B (zh) 一种信息推荐模型的生成方法及装置
Hao et al. Towards efficient and privacy-preserving federated deep learning
Monreale et al. Privacy-by-design in big data analytics and social mining
Alani Applications of machine learning in cryptography: a survey
CN113095946B (zh) 基于联邦标签传播的保险客户推荐方法及系统
Pillai et al. Privacy-Preserving Network Traffic Analysis Using Homomorphic Encryption
CN115065458B (zh) 一种数据加密传输的电子商务交易系统
CN113949531A (zh) 一种恶意加密流量检测方法及装置
Zhou et al. Securing federated learning enabled NWDAF architecture with partial homomorphic encryption
Han et al. Data valuation for vertical federated learning: An information-theoretic approach
Li et al. Privacy-preserving distributed expectation maximization for gaussian mixture model using subspace perturbation
Yang et al. Vertical federated learning
CN116882571B (zh) 一种基于安全纵向联邦回归模型的烟草销售违规信息预测方法
CN116070709A (zh) 纵向联邦学习中逻辑回归模型的训练方法及系统
Kong et al. Can Membership Inferencing be Refuted?
Lyu et al. BCFDPS: A Blockchain‐Based Click Fraud Detection and Prevention Scheme for Online Advertising
CN111914281B (zh) 基于区块链和同态加密的贝叶斯模型训练方法及装置
CN115906162B (zh) 一种基于异质表示和联邦因子分解机的隐私保护方法
CN109784918A (zh) 基于区块链的信息监督方法、装置、设备和存储介质
Rao et al. Secure two-party feature selection
CN112380404A (zh) 数据过滤方法、装置及系统
Priya et al. Privacy preserving data security model for cloud computing technology
Kadhe et al. Privacy-Preserving Federated Learning over Vertically and Horizontally Partitioned Data for Financial Anomaly Detection
Segal et al. Privacy-Preserving Lawful Contact Chaining: [Preliminary Report]
Guo et al. Privacy-Preserving Multi-Label Propagation Based on Federated Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant