CN114003960A - 一种神经网络模型的训练方法 - Google Patents

一种神经网络模型的训练方法 Download PDF

Info

Publication number
CN114003960A
CN114003960A CN202111424891.XA CN202111424891A CN114003960A CN 114003960 A CN114003960 A CN 114003960A CN 202111424891 A CN202111424891 A CN 202111424891A CN 114003960 A CN114003960 A CN 114003960A
Authority
CN
China
Prior art keywords
matrix
privacy
node
data
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111424891.XA
Other languages
English (en)
Inventor
刘峰
杨成意
齐佳音
周爱民
李志斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University Of International Business And Economics
East China Normal University
Original Assignee
Shanghai University Of International Business And Economics
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University Of International Business And Economics, East China Normal University filed Critical Shanghai University Of International Business And Economics
Priority to CN202111424891.XA priority Critical patent/CN114003960A/zh
Publication of CN114003960A publication Critical patent/CN114003960A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种神经网络模型的训练方法,属于计算机网络领域。该方法包括:获取原始用户数据,并确定原始用户数据中的节点数据以及第一邻接矩阵,第一邻接矩阵用于表征节点数据之间的关系;基于拉普拉斯噪声机制对邻接矩阵进行差分隐私处理,获得第二邻接矩阵;基于高斯噪声机制对节点数据的第一节点特征矩阵进行差分隐私处理,获得第二节点特征矩阵;基于第二邻接矩阵和第二节点特征矩阵构建图卷积神经网络预测模型,并对图卷积神经网络预测模型进行模型训练。该方案输出的扰动数据表现出无规律和对抗攻击的高鲁棒性的特征,可以提高隐私保护的效率。

Description

一种神经网络模型的训练方法
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种神经网络模型的训练方法。
背景技术
随着图神经网络理论在社交网络关系和推荐系统中的深入发展,人们逐渐开始关注节点信息的隐私保护。在大数据的支持下,极易通过用户数据的节点信息获取到用户的隐私信息。
相关技术中,主要通过差分隐私的算法对原始用户数据进行扰动,并通过加入噪声来混淆数据窃取者,以使数据窃取者无法分辨窃取到的数据中是否包含隐私信息。
然而现有技术中,由于数据窃取者可以通过噪声滤波、大数据和机器学习以及统计测量分析的方法推断数据的敏感信息,因此在收集者获取到大量原始用户数据后,很容易获取到用户隐私。
发明内容
本申请实施例提供了一种神经网络模型的训练方法,解决了现有技术中无法有效对原始用户数据进行隐私保护,避免数据泄露后用户隐私被窃取的情况。所述技术方案如下:
获取原始用户数据,并确定所述原始用户数据中的节点数据以及第一邻接矩阵,所述第一邻接矩阵用于表征节点数据之间的关系;
基于拉普拉斯噪声机制对所述邻接矩阵进行差分隐私处理,获得第二邻接矩阵,所述第二邻接矩阵为加入拉普拉斯噪声扰动后的邻接矩阵;
基于高斯噪声机制对所述节点数据的第一节点特征矩阵进行差分隐私处理,获得第二节点特征矩阵,所述第二节点特征矩阵是加入高斯噪声扰动后的节点特征矩阵;
基于所述第二邻接矩阵和所述第二节点特征矩阵构建图卷积神经网络预测模型,并对所述图卷积神经网络预测模型进行模型训练。
具体的,所述方法还包括:通过查询函数计算至少两个相邻数据集的查询结果,并根据查询结果的最大范数距离确定数据集的敏感度;
其中,所述敏感度用于表征两个相邻数据集查询结果的变化范围,且两个相邻数据集中只相差一个元素,所述数据集包括所述第一邻接矩阵和所述第一节点特征矩阵,所述第一邻接矩阵为N×N阶矩阵,所述第一节点特征矩阵为N×M阶矩阵,N为所述原始用户数据中节点数据个数,M为节点中最大特征个数。
所述基于拉普拉斯噪声机制对所述邻接矩阵进行差分隐私处理,获得第二邻接矩阵,包括:
根据所述数据集、差分隐私的加噪声算法以及隐私损失函数确定加入拉普拉斯噪声扰动下的第一隐私分配比例,所述第一隐私分配比例用于确定所述拉普拉斯噪声机制的差分隐私权重;
其中,所述拉普拉斯噪声机制下的第一隐私损失小于第二隐私预算,所述第二隐私预算是所述第一隐私分配比例和第一隐私预算的乘积,所述第一隐私预算提供了差分隐私损失的程度;
根据所述第一邻接矩阵和拉普拉斯噪声扰动之和确定所述第二邻接矩阵。
具体的,所述基于高斯噪声机制对所述节点数据的第一节点特征矩阵进行差分隐私处理,获得第二节点特征矩阵,包括:
根据所述第一隐私分配比例确定第二隐私分配比例以及第三隐私预算,所述第三隐私预算是所述第二隐私分配比例和第一隐私预算的乘积,所述第二隐私分配比例用于确定所述高斯噪声机制的差分隐私权重,所述第一隐私分配比例和所述第二隐私分配比例之和为1;
根据所述第三隐私预算比例和所述高斯噪声机制下的第二隐私损失确定高斯分布标准差的参数估计值,所述参数估计值用于确定所述高斯噪声机制的方差分布条件;
根据所述第一节点特征矩阵和高斯噪声扰动之和确定所述第二节点特征矩阵。
具体的,所述基于所述第二邻接矩阵和所述第二节点特征矩阵构建图卷积神经网络预测模型,并对所述图卷积神经网络预测模型进行模型训练,包括:
基于所述第二邻接矩阵、所述第二节点特征矩阵以及所述数据集构建所述图卷积神经网络预测模型;
以所述原始用户数据作为输入样本,所述节点分类信息矩阵为监督,训练所述图卷积神经网络预测模型,所述节点分类信息矩阵用于在半监督节点分类任务中,将邻居节点的信息和自身的信息进行聚合后预测节点标签。
具体的,所述以所述原始用户数据作为输入样本,所述节点分类信息矩阵为监督,训练所述图卷积神经网络预测模型,包括:
基于所述原始用户数据的样本节点个数以及所述数据集的第二邻接矩阵确定对应的度矩阵;
基于所述度矩阵、所述第二邻接矩阵、第二节点特征矩阵以及图神经网络层数,对所述第二节点特征矩阵进行迭代训练,并通过归一化函数处理得到所述节点分类信息矩阵。
具体的,所述拉普拉斯噪声扰动下采用查询函数查询时,每次消耗的尺度参数为敏感度和第二隐私预算的比值;所述高斯噪声扰动下采用查询函数查询时,每次消耗的所述尺度参数为敏感度和第三隐私预算的比值。
具体的,所述方法还包括:
基于所述图卷积神经网络预测模型对所述原始用户数据进行差分隐私处理,获得用户扰动数据。
上述技术方案带来的有益效果至少包括:通过采用拉普拉斯噪声机制对原始用户数据中的第一邻接矩阵进行扰动,实现对节点关系信息的保护,同时还采用高斯噪声机制采用高斯噪声机制对原始用户数据中的第一节点特征矩阵进行扰动,实现对节点特征信息的保护。而且,通过对建立的图卷积神经网络预测模型进行迭代训练,确保图卷积神经网络预测模型进行差分隐私处理的扰动数据不易被解析,表现出无规律和了对抗攻击的高鲁棒性的特征,即使数据被上传中区块链共享的情况下,搜集者也无法通过查询函数和机器学习的方式精准提取到用户隐私数据,可以提高隐私保护的效率。
附图说明
图1是本申请一个示例性实施例提供的差分隐私处理的原理图;
图2是本申请实施例提供的神经网络模型的训练方法流程图;
图3a是本申请实施例提供的采用高斯机制保护节点特行信息进行迭代训练过程的验证对比图;
图3b是采用拉普拉斯机制保护节点关系信息进行迭代训练过程的验证对比图;
图4是采用双重隐私保护机制下进行迭代训练过程的验证对比图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在相关技术中,原始用户数据经过单一的差分隐私算法进行差分隐私处理后,获得扰动数据,但当搜集者窃取到扰动数据后,可以通过多种手段对扰动数据进行数据分析,从而窃取用户隐私。如图1所示,假设原始用户数据由数据A、数据B、数据C、数据D、数据E和数据F。在经过隐私处理且泄露后,数据A和数据B被搜集者A获取;数据C被搜集者B获取;数据D和数据E被搜集者C获取;数据F被搜集者D获取。由于在区块链和大数据的加持在用户数据容易被上传共享,因此区块链中任意区块之间的数据处于共享状态,所以途径2和途径3过程都能获取到数据A至数据E内容,由于单一差分隐私算法安全性不高,因此可以通过行为学习和Top-k查询的方式对用户数据进行标签预测,从而窃取用户隐私。对于未上传区块链的搜集者D来说,只能通过途径1对数据F进行统计和预测。
本申请实施例中,在隐私处理环节,采用双重差分隐私处理方式,采用拉普拉斯噪声机制对原始用户数据中的第一邻接矩阵进行扰动,实现对节点关系信息的保护,同时还采用高斯噪声机制采用高斯噪声机制对原始用户数据中的第一节点特征矩阵进行扰动,实现对节点特征信息的保护。而且,通过对建立的图卷积神经网络预测模型进行迭代训练,确保图卷积神经网络预测模型进行差分隐私处理的扰动数据不易被解析,即使数据被上传中区块链共享的情况下,搜集者也无法通过查询函数和机器学习的方式精准提取到用户隐私数据。
图2是本申请实施例提供的神经网络模型的训练方法流程图,用于处理原始用户数据的计算机设备或终端,具体包括如下步骤:
步骤201,获取原始用户数据,并确定原始用户数据中的节点数据以及第一邻接矩阵,第一邻接矩阵用于表征节点数据之间的关系。
原始用户数据可以是用户通过终端、计算机设备、服务器以及工作站等设备产生的数据,原始用户数据中包含有节点数据以及第一邻接矩阵,节点数据用于构成无向图,通过无向图分析和标签预测可以将多个节点的信息聚合来预测节点标签,进而根据节点标签提取到用户的隐私信息。
步骤202,通过查询函数计算至少两个相邻数据集的查询结果,并根据查询结果的最大范数距离确定数据集的敏感度。
在对原始用户数据进行差分隐私处理前,需要提前确定出构成节点数据的数据集,数据集由第一节点特征矩阵和第一邻接矩阵构成,且对于两个相邻数据集只相差一个元素。第一邻接矩阵是N×N矩阵,N表示原始用户数据中节点数据个数;第一节点特征矩阵是N×M阶矩阵,M表示节点中最大特征个数。
在进行差分隐私处理过程中,需要根据在原始用户数据中加入噪声扰动,但加入噪声扰动前,需要先确定各个数据集的敏感度。可以通过相邻两个数据集对应查询函数之间的最大范数距离来表示,具体定义为:
Figure BDA0003377907070000051
其中,Δfp表示敏感度,f是查询函数,表示一个数据集向d维实数空间的映射,即D→Rd,d表示查询结果的项数。D和D′表示两个相邻数据集。相邻数据集通过查询函数的查询结果的范数值距离用Lp表示,公式如下:
Figure BDA0003377907070000052
查询函数可以是基于任意查询算法的查询方式,如使用Top-k查询方式进行查询等,本实施例对此不作限定。
步骤203,根据数据集、差分隐私的加噪声算法以及隐私损失函数,确定加入拉普拉斯噪声扰动下的第一隐私分配比例。
对于任意数据集D,添加噪声扰动机制就是在查询结果的基础上加上不确定的随机噪声,添加噪声扰动的目的是希望攻击者难以区分查询到的结果是否包含敏感信息,或者难以区分相邻数据集查询结果的异同。可以理解成攻击者无法判断某用户的数据是否包含在查询到的统计信息中,因而攻击者也就无法通过两次以上查询进而采用差分推断的方式获得敏感信息。噪声分布机制表示如下:
Figure BDA0003377907070000061
其中,r表示加入的随机噪声,输出函数
Figure BDA0003377907070000062
表示加入噪声后的查询结果。本申请通过将引入拉普拉斯噪声,以确保对于至少仅相差一条数据或元素好数据集D和D′,数据收集者无法分辨输出的
Figure BDA0003377907070000063
Figure BDA0003377907070000064
之间的区别,无法进行后续的数据统计。
在引入拉普拉斯噪声扰动时,同时还要确保扰动造成的隐私损失,对于一个随机算法M,隐私损失可以表示如下:
Figure BDA0003377907070000065
其中,该算法M在
Figure BDA0003377907070000066
的条件下取得,Pr表示联合概率的取值。在(∈,0)-差分隐私的条件表明,
Figure BDA0003377907070000067
Figure BDA0003377907070000068
这两个用统计分布表示出现可能的结果之间,在理论上其概率密度的比值要小于eε,通过隐私损失的定义可知Loss(o)小于∈。ε表示第一隐私预算。在
Figure BDA0003377907070000069
-差分隐私,对于任意两个只相差一条记录的数据集D和
Figure BDA00033779070700000610
输出结果的取值空间为集合
Figure BDA00033779070700000611
而且,对于任意一种噪声算法,以下公式都成立:
Figure BDA00033779070700000612
第一隐私预算提供了对差分隐私的程度,且隐私保护程度随着第一隐私预算值的减小而升高,但训练结果的可用性随着第一隐私预算的减小而降低。δ是加入的松弛项,表明可以容忍的不满足差分隐私的距离。特别地,当δ=0时,表明不能容忍任何不满足差分隐私的距离,称为(∈,0)-差分隐私或严格差分隐私。
采用双重差分隐私机制的需要预先确定第一隐私预算的分配问题,即将总量限定的第一隐私预算合理地分配给拉普拉斯噪声机制和高斯噪声机制。引入拉普拉斯噪声机制的输出函数结果可以表示为:
Figure BDA00033779070700000613
其中,
Figure BDA0003377907070000071
表示加入拉普拉斯噪声扰动后输出的结果。λ1表示加入拉普拉斯噪声扰动下的第一隐私分配比例,用于确定拉普拉斯噪声机制的差分隐私权重。由于在设计拉普拉斯机制时并不知晓λ1的具体数值,因此需要先确定出数值,然后才能确定在双重差分扰动中的权重。
由拉普拉斯概率密度函数可知,在满足无松弛项的(λ1∈,0)-差分隐私的条件下查询得到概率密度函数的比值不超过
Figure BDA0003377907070000072
使得拉普拉斯机制下的第一隐私损失小于第二隐私预算,第二隐私预算是第一隐私分配比例和第一隐私预算的乘积,即LossL(o)≤λ1∈。其证明过程如下:
Figure BDA0003377907070000073
通过上述证明过程可知,在已知数据集、差分隐私的加噪声算法以及隐私损失函数的前提下,根据LossL(o)和λ1∈的对应关系即可确定λ1的值。
步骤204,根据第一邻接矩阵和拉普拉斯噪声扰动之和确定第二邻接矩阵。
在确定出λ1后,即可通过第一邻接矩阵和拉普拉斯噪声扰动确定第二邻接矩阵,第二邻接矩阵是添加拉普拉斯噪声扰动后的邻接矩阵,表示如下:
Figure BDA0003377907070000074
其中,A表示第一邻接矩阵,IN表示N阶单位矩阵,
Figure BDA0003377907070000075
表示加入拉普拉斯噪声扰动后的第二邻接矩阵。由于第二邻接矩阵是加入噪声扰动后的邻接矩阵,因此可以实现对节点关系信息的保护。
步骤205,根据第一隐私分配比例确定第二隐私分配比例以及第三隐私预算。
由于第一隐私分配比例λ1和第二隐私分配比例λ2满足公式:λ12=1,因此,在确定出第一隐私分配比例后,即可确定第二隐私分配比例,同时第三隐私预算λ2∈也相应确定。
步骤206,根据第三隐私预算和高斯噪声机制下的第二隐私损失确定高斯分布标准差的参数估计值。
采用高斯机制的前提是验证引入高斯噪声后的第二隐私损失LossG(o)小于第三隐私预算λ2∈,即LossG(o)≤λ2∈。该证明过程如下:
Figure BDA0003377907070000081
其中
Figure BDA0003377907070000082
表示采用高斯噪声的输出函数,ri=1,…,k,代表第i次高斯机制下输出的查询结果,且都是服从高斯分布的随机变量,并且满足
Figure BDA0003377907070000083
由敏感度的定义可知,高斯机制下的敏感度满足条件
Figure BDA0003377907070000084
因此上式可以继续转换为:
Figure BDA0003377907070000085
特别地,当且仅当查询次数为1,即k=1时,为使得高斯机制下第二隐私损失控制在第三隐私预算范围内,即LossG(o)≤λ2∈,r的取值需要满足下式:
Figure BDA0003377907070000086
在高斯机制下经过推导可以证实这一机制无法确定地满足(∈,0)-差分隐私条件,因而需要引入加入松弛项的(∈,δ)-差分隐私。δ在高斯机制下表示可以容忍的不满足差分隐私的距离,根据上式和松弛项的定义可以得出如下表公式:
Figure BDA0003377907070000091
根据Chernoff界理论,均值为零的高斯随机变量
Figure BDA0003377907070000092
的双边长尾上界为:
Figure BDA0003377907070000093
当α的取值为
Figure BDA0003377907070000094
时,则可以得到:
Figure BDA0003377907070000095
令松弛项δ的值等于双边长尾上界的值,可得:
Figure BDA0003377907070000096
则可以得到满足(∈,δ)-差分隐私的高斯分布方差的条件为:
Figure BDA0003377907070000097
经整理后可以得到高斯分布标准差的参数估计值为:
Figure BDA0003377907070000098
步骤207,根据第一节点特征矩阵和高斯噪声扰动之和确定第二节点特征矩阵。
确定出高斯分布标准差的参数估计值,即可设计出高斯噪声机制,并通过第一节点特征矩阵和加入的高斯噪声扰动获得第二节点特征矩阵,第二节点特征矩阵表示如下:
Figure BDA0003377907070000101
其中,X0表示第一节点特征矩阵,X1表示加入高斯噪声扰动后的第二节点特征矩阵。
步骤208,基于第二邻接矩阵、第二节点特征矩阵以及数据集构建图卷积神经网络预测模型。
在确定出第二节点特征矩阵后即可根据第二邻接矩阵、第二节点特征矩阵以及数据集构建图卷积神经网络预测模型。同时考虑了图模型的结构信息和节点信息。采用拉普拉斯机制对结构信息进行差分隐私保护,通过高斯机制对节点上的特征信息进行隐私保护,实现数据信息的全面保护。
步骤209,以原始用户数据作为输入样本,节点分类信息矩阵为监督,训练图卷积神经网络预测模型,节点分类信息矩阵用于在半监督节点分类任务中,将邻居节点的信息和自身的信息进行聚合后预测节点标签。
对于一个给定的隐私预算∈,第一邻接矩阵和第一节点特征都作为输入的数据集
Figure BDA0003377907070000102
在对图卷积神经网络预测模型进行迭代训练时,需要设计模型的图神经网络层数Lmax以及非线性激活函数σ。
在确定出拉普拉斯噪声机制的第二隐私预算后,根据数据集的敏感度计算出拉普拉斯噪声扰动下采用查询函数查询时,每次消耗的尺度参数表示为敏感度和第二隐私预算的比值;同理,根据数据集的敏感度计算出高斯噪声扰动下采用查询函数查询时,每次消耗的尺度参数表示为敏感度和第三隐私预算的比值。分别表示为:
Figure BDA0003377907070000103
Figure BDA0003377907070000104
在根据拉普拉斯噪声扰动获得第二邻接矩阵
Figure BDA0003377907070000105
后,还需要进一步根据原始用户数据的样本节点个数以及数据集的第二邻接矩阵,确定对应的度矩阵
Figure BDA0003377907070000106
度矩阵表示如下:
Figure BDA0003377907070000107
其中,i取值范围为1至N的正整数,N表示输入原始用户数据中样本节点个数。确定度矩阵的目的是用于后续获取节点分类信息矩阵。
在基于度矩阵、第二邻接矩阵、第二节点特征矩阵对图卷积神经网络预测模型进行迭代训练时,需要进行Lmax–1次迭代训练。迭代公式如下:
Figure BDA0003377907070000111
Xl+1←σ(Zl)
其中,Zl表示第i次节点分类信息矩阵,l的取值为1至Lmax–1,表示进行Lmax–1次迭代训练过程,Xl表示采用高斯噪声扰动获得的第二节点特征矩阵(经过l次噪声扰动),Θ表示可训练参数矩阵,σ为激活函数。经过Lmax–1次迭代训练后,输出层输出的节点分类信息矩阵表示为:
Figure BDA0003377907070000112
其中,softmax为分类函数,用于分类任务的最后输出。带自环的含噪声邻接矩阵
Figure BDA0003377907070000113
仍然是一个聚合算子,添加自环相当于将当前节点和邻居节点特征同时参与卷积运算,能够增强邻接矩阵对自身节点信息的聚合效应,在通常的半监督节点分类任务中,能够将邻居节点的信息和自身的信息聚合起来预测节点的标签。
在训练完成图卷积神经网络预测模型后,基于图卷积神经网络预测模型对原始用户数据进行差分隐私处理,获得输出的用户扰动数据。
本申请实施例中,通过采用拉普拉斯噪声机制对原始用户数据中的第一邻接矩阵进行扰动,实现对节点关系信息的保护,同时还采用高斯噪声机制采用高斯噪声机制对原始用户数据中的第一节点特征矩阵进行扰动,实现对节点特征信息的保护。而且,通过对建立的图卷积神经网络预测模型进行迭代训练,确保图卷积神经网络预测模型进行差分隐私处理的扰动数据不易被解析,表现出无规律和了对抗攻击的高鲁棒性的特征,即使数据被上传中区块链共享的情况下,搜集者也无法通过查询函数和机器学习的方式精准提取到用户隐私数据,可以提高隐私保护的效率。
图3a是采用高斯机制保护节点特征信息进行迭代训练过程的验证对比图,图3b是采用拉普拉斯机制保护节点关系信息进行迭代训练过程的验证对比图。
通过对验证集和数据集进行200次迭代训练,并记录准确率。由于原始用户数据中的第一邻接矩阵中的元素只在极小的样本空间{0,1}内取值,容易遭受统计推断的差分攻击,因而需要采用较强的隐私保护机制。拉普拉斯机制更容易取到极端值,能够更好地保护节点之间关系信息的安全性。高斯机制相较之下取值更集中,取极端值的概率更小使得数据可用性更高,符合节点特征的隐私保护需求。
从图3a中可知,在只采用高斯机制保护节点特征信息的情况下,在前50个训练回合内呈现出快速提升的特征,在之后的训练回合准确率存在一次快速下降,但在第75个训练回合中很快恢复到了正常水平,无论是验证集还是测试集,验证的准确率都稳定在80%以上,相对来说容易窃取隐私。
从图3b中可知,只采用拉普拉斯机制保护节点关系信息的情况下,模型训练过程较为平稳,与不采用隐私保护机制的训练过程并没有显著差异,训练集和验证集准确率快速提升至100%和80%附近后一直保持稳定,也不能有效的放置隐私窃取。
图4是同时采用双重隐私保护机制下进行迭代训练过程的验证对比图。
实验采用的图卷积神经网络模型设置了两个卷积层,其中第一图卷积层的神经元个数分别为16,采用ReLU作为非线性激活函数。第二个图卷积层含7个神经元,不使用非线性激活函数而是将卷积运算的结果计算Softmax值作为分类的依据。总训练次数设为200次。
从训练的稳定性上来看,整个训练过程中的准确率曲线波动较大,无法维持稳定,测试集和验证集在第60个训练回合的准确率迅速降低至20%,在第160个训练回合同样出现波动下降。从训练的收敛速度看,双重差分隐私机制下的训练过程的收敛速度较慢,即使在第125个回合到150个回合之间稳定了较长时间,也会在地160个训练回合左右掉到了40%以下的准确率。训练集相较于验证集的准确率曲线有更大的标准差。这主要是因为这两种不同的噪声扰动使得损失函数变得更加不平滑,对梯度下降训练过程的稳定性造成了影响,因而在训练过程中存在了更多的误导信息,使得梯度方向更难以到达更低的损失函数值。最终表现是曲线没有稳步提升而是经过了多次大幅上升和下降。
综合图3a、图3b以及图4可知,采用双重差分隐私机制的图卷积神经网络训练模型输出的扰动数据呈现出不稳定的准确率,曲线无规律可循,而只采用高斯机制和拉普拉斯机制的准确率曲线仍然能够呈现出稳定提升的特征,攻击者更加容易从梯度算子推断或还原出原始用户数据的隐私信息。而加入拉普拉斯噪声和高斯噪声后的扰动数据,窃取者即使通过去中心化的区块链获取到部分扰动数据,但也不能确保能够提取到准确的隐私信息,因此有更高的隐私保护效率和更强的抗鲁棒性。
以上对本发明的较佳实施例进行了描述;需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容;因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (8)

1.一种神经网络模型的训练方法,其特征在于,所述方法包括:
获取原始用户数据,并确定所述原始用户数据中的节点数据以及第一邻接矩阵,所述第一邻接矩阵用于表征节点数据之间的关系;
基于拉普拉斯噪声机制对所述邻接矩阵进行差分隐私处理,获得第二邻接矩阵,所述第二邻接矩阵为加入拉普拉斯噪声扰动后的邻接矩阵;
基于高斯噪声机制对所述节点数据的第一节点特征矩阵进行差分隐私处理,获得第二节点特征矩阵,所述第二节点特征矩阵是加入高斯噪声扰动后的节点特征矩阵;
基于所述第二邻接矩阵和所述第二节点特征矩阵构建图卷积神经网络预测模型,并对所述图卷积神经网络预测模型进行模型训练。
2.根据权利要求1所述的方法,其特征在于,所述确定所述原始用户数据中的节点数据以及第一邻接矩阵后,所述方法还包括:
通过查询函数计算至少两个相邻数据集的查询结果,并根据查询结果的最大范数距离确定数据集的敏感度;
其中,所述敏感度用于表征两个相邻数据集查询结果的变化范围,且两个相邻数据集中只相差一个元素,所述数据集包括所述第一邻接矩阵和所述第一节点特征矩阵,所述第一邻接矩阵为N×N阶矩阵,所述第一节点特征矩阵为N×M阶矩阵,N为所述原始用户数据中节点数据个数,M为节点中最大特征个数。
3.根据权利要求2所述的方法,其特征在于,所述基于拉普拉斯噪声机制对所述邻接矩阵进行差分隐私处理,获得第二邻接矩阵,包括:
根据所述数据集、差分隐私的加噪声算法以及隐私损失函数,确定加入拉普拉斯噪声扰动下的第一隐私分配比例,所述第一隐私分配比例用于确定所述拉普拉斯噪声机制的差分隐私权重;
其中,所述拉普拉斯噪声机制下的第一隐私损失小于第二隐私预算,所述第二隐私预算是所述第一隐私分配比例和第一隐私预算的乘积,所述第一隐私预算提供了差分隐私损失的程度;
根据所述第一邻接矩阵和拉普拉斯噪声扰动之和确定所述第二邻接矩阵。
4.根据权利要求3所述的方法,其特征在于,所述基于高斯噪声机制对所述节点数据的第一节点特征矩阵进行差分隐私处理,获得第二节点特征矩阵,包括:
根据所述第一隐私分配比例确定第二隐私分配比例以及第三隐私预算,所述第三隐私预算是所述第二隐私分配比例和第一隐私预算的乘积,所述第二隐私分配比例用于确定所述高斯噪声机制的差分隐私权重,所述第一隐私分配比例和所述第二隐私分配比例之和为1;
根据所述第三隐私预算和所述高斯噪声机制下的第二隐私损失确定高斯分布标准差的参数估计值,所述参数估计值用于确定所述高斯噪声机制的方差分布条件;
根据所述第一节点特征矩阵和高斯噪声扰动之和确定所述第二节点特征矩阵。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二邻接矩阵和所述第二节点特征矩阵构建图卷积神经网络预测模型,并对所述图卷积神经网络预测模型进行模型训练,包括:
基于所述第二邻接矩阵、所述第二节点特征矩阵以及所述数据集构建所述图卷积神经网络预测模型;
以所述原始用户数据作为输入样本,所述节点分类信息矩阵为监督,训练所述图卷积神经网络预测模型,所述节点分类信息矩阵用于在半监督节点分类任务中,将邻居节点的信息和自身的信息进行聚合后预测节点标签。
6.根据权利要求5所述的方法,其特征在于,所述以所述原始用户数据作为输入样本,所述节点分类信息矩阵为监督,训练所述图卷积神经网络预测模型,包括:
基于所述原始用户数据的样本节点个数以及所述数据集的第二邻接矩阵,确定对应的度矩阵;
基于所述度矩阵、所述第二邻接矩阵、第二节点特征矩阵以及图神经网络层数,对所述第二节点特征矩阵进行迭代训练,并通过归一化函数处理得到所述节点分类信息矩阵。
7.根据权利要求1至5任一所述的方法,其特征在于,所述拉普拉斯噪声扰动下采用查询函数查询时,每次消耗的尺度参数为敏感度和第二隐私预算的比值;所述高斯噪声扰动下采用查询函数查询时,每次消耗的所述尺度参数为敏感度和第三隐私预算的比值。
8.根据权利要求7所述的方法,其特征在于,所述构建图卷积神经网络预测模型后,所述方法还包括:
基于所述图卷积神经网络预测模型对所述原始用户数据进行差分隐私处理,获得用户扰动数据。
CN202111424891.XA 2021-11-26 2021-11-26 一种神经网络模型的训练方法 Pending CN114003960A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111424891.XA CN114003960A (zh) 2021-11-26 2021-11-26 一种神经网络模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111424891.XA CN114003960A (zh) 2021-11-26 2021-11-26 一种神经网络模型的训练方法

Publications (1)

Publication Number Publication Date
CN114003960A true CN114003960A (zh) 2022-02-01

Family

ID=79930515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111424891.XA Pending CN114003960A (zh) 2021-11-26 2021-11-26 一种神经网络模型的训练方法

Country Status (1)

Country Link
CN (1) CN114003960A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364372A (zh) * 2020-10-27 2021-02-12 重庆大学 一种有监督矩阵补全的隐私保护方法
CN117910046A (zh) * 2024-03-18 2024-04-19 青岛他坦科技服务有限公司 基于差分隐私保护的电力大数据发布方法
CN117910046B (zh) * 2024-03-18 2024-06-07 国网河南省电力公司经济技术研究院 基于差分隐私保护的电力大数据发布方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364372A (zh) * 2020-10-27 2021-02-12 重庆大学 一种有监督矩阵补全的隐私保护方法
CN117910046A (zh) * 2024-03-18 2024-04-19 青岛他坦科技服务有限公司 基于差分隐私保护的电力大数据发布方法
CN117910046B (zh) * 2024-03-18 2024-06-07 国网河南省电力公司经济技术研究院 基于差分隐私保护的电力大数据发布方法

Similar Documents

Publication Publication Date Title
US20200210610A1 (en) Differentially Private Processing and Database Storage
Zhang et al. Scalable detection of statistically significant communities and hierarchies, using message passing for modularity
Singh et al. Energy theft detection for AMI using principal component analysis based reconstructed data
CN111539769A (zh) 基于差分隐私的异常检测模型的训练方法及装置
Zhao et al. A machine learning based trust evaluation framework for online social networks
US20190138743A1 (en) Differentially Private Processing and Database Storage
Selvarajan et al. Mining of intrusion attack in SCADA network using clustering and genetically seeded flora‐based optimal classification algorithm
CN111125517B (zh) 一种基于差分隐私和时间感知的隐式矩阵分解推荐方法
Chang et al. Anomaly detection for industrial control systems using k-means and convolutional autoencoder
Huang Network intrusion detection based on an improved long-short-term memory model in combination with multiple spatiotemporal structures
Yang et al. Detection of shilling attack based on bayesian model and user embedding
Lawrence et al. Explaining neural matrix factorization with gradient rollback
CN114003960A (zh) 一种神经网络模型的训练方法
An et al. A new intrusion detection method based on SVM with minimum within‐class scatter
Hussain et al. Electric theft detection in advanced metering infrastructure using Jaya optimized combined Kernel‐Tree boosting classifier—A novel sequentially executed supervised machine learning approach
Yang et al. A differential privacy framework for collaborative filtering
CN113746780B (zh) 基于主机画像的异常主机检测方法、装置、介质和设备
Zolotukhin et al. Online anomaly detection by using N-gram model and growing hierarchical self-organizing maps
Wang et al. Supervised prototypical variational autoencoder for shilling attack detection in recommender systems
Gnecco et al. Matrix completion of world trade: An analysis of interpretability through Shapley values
Moreira et al. Prototype Generation Using Self‐Organizing Maps for Informativeness‐Based Classifier
Li et al. Genetic algorithm and graph theory based matrix factorization method for online friend recommendation
Cai et al. KC-GCN: a semi-supervised detection model against various group shilling attacks in recommender systems
Hao et al. Detecting shilling profiles in collaborative recommender systems via multidimensional profile temporal features
Alves et al. An empirical study of the discreteness prior in low-rank matrix completion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination