CN113259369B - 一种基于机器学习成员推断攻击的数据集认证方法及系统 - Google Patents

一种基于机器学习成员推断攻击的数据集认证方法及系统 Download PDF

Info

Publication number
CN113259369B
CN113259369B CN202110614017.6A CN202110614017A CN113259369B CN 113259369 B CN113259369 B CN 113259369B CN 202110614017 A CN202110614017 A CN 202110614017A CN 113259369 B CN113259369 B CN 113259369B
Authority
CN
China
Prior art keywords
data set
model
data
prediction
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110614017.6A
Other languages
English (en)
Other versions
CN113259369A (zh
Inventor
王琛
刘高扬
徐天龙
彭凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110614017.6A priority Critical patent/CN113259369B/zh
Publication of CN113259369A publication Critical patent/CN113259369A/zh
Application granted granted Critical
Publication of CN113259369B publication Critical patent/CN113259369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y30/00IoT infrastructure
    • G16Y30/10Security thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan

Abstract

本发明公开了一种基于机器学习成员推断攻击的数据集认证方法及系统,属于物联网数据保护领域,方法包括:在获取目标数据集和辅助数据集后,选取多种机器学习模型,分别构建基于两种数据集的参考模型群;利用两类参考模型群对目标数据集进行预测,得到成员预测集和非成员预测集;以成员预测集和非成员预测集作为特征,以相应的成员属性作为标签,训练得到认证模型;利用认证模型对成员预测集中所有数据进行成员推断攻击,并从目标数据集中筛选得到成员指纹数据;基于认证模型,得到成员指纹数据为可疑模型的成员数据的概率,由此判定可疑模型是否由物联网数据集训练得到。如此,本发明能够有效保护数据所有者的利益和隐私。

Description

一种基于机器学习成员推断攻击的数据集认证方法及系统
技术领域
本发明属于物联网数据保护领域,更具体地,涉及一种基于机器学习成员推断攻击的数据集认证方法及系统。
背景技术
近年来,物联网数据的爆炸式增长推动了机器学习在从自然语言处理到计算机视觉等各个领域的应用。然而,从原始数据中获取可用于训练机器学习模型的数据是一项非常重要的任务,特别是在工业级别。具体地说,收集数据需要消耗大量的成本和专业的技术,包括数据收集、数据注释和数据预处理。此外,从隐私的角度来看,数据可能包含一些与数据提供者有关的敏感记录,数据集所有者对《一般数据保护条例》中提到的其本人所持有的数据保护负有责任;此外,数据本身也是一种资产,保护数据所有权,是大数据发展非常重要的一个前提,数据所有权应该归产生新价值的一方所有,在法律上也受到保护,其中,数据所有权指数据所有者拥有对相关数据的支配、处置和获益等财产的权力。因此,为了保护数据所有者的利益和数据提供者的隐私,有必要对数据进行保护,并对外核实数据的所有权。
目前,攻击者可以通过多种先进技术非法获取数据集。随着技术壁垒的降低,他们可以利用窃取的数据训练机器学习模型实现非法获利。例如,移动应用程序制造商可以获得一个包含用户点击历史的数据集,然后在这个数据集上训练一个广告推荐模型,以推荐应用内购买。目前对于数据集的保护,主要体现在数据出版领域,其主要利用差分隐私等技术,将隐私数据模糊化,这确实很大程度上保护了部分隐私数据,但是无法验证数据集是否被用于训练特定模型。在实践中,机器学习模型通常被部署为黑盒,其中对可疑模型的访问仅限于在给定输入上输出模型预测的黑盒接口,另外,不同模型的预测能力差异较大,模型-数据的间接关系也难以被验证。因此,如何能在可疑模型的黑盒场景中,实现认证目标数据集已成为大数据和人工智能时代下一大难题。
发明内容
针对上述问题,本发明的目的在于提供一种基于机器学习成员推断攻击的数据集认证方法及系统,以认证物联网数据集与机器学习模型的关系来保护数据所有者的利益和数据提供者的隐私。
为实现上述目的,本发明提供了一种基于机器学习成员推断攻击的数据集认证方法,包括以下步骤:S1:根据可疑模型的预测功能,对物联网数据集进行特征和标签的提取,得到目标数据集;利用数据扩增技术,构造基于所述目标数据集的辅助数据集;S2:选取多种机器学习模型构建参考模型群,分别以所述目标数据集和辅助数据集训练所述参考模型群,得到目标参考模型群和辅助参考模型群;S3:分别利用所述目标参考模型群和辅助参考模型群中每个模型对所述目标数据集进行预测,得到成员预测集和非成员预测集,并对所述成员预测集和非成员预测集进行成员属性标记;以所述成员预测集和非成员预测集作为新的特征,以相应的成员属性作为新的标签,构建新的训练集;并利用所述新的训练集训练任一二分类模型得到认证模型;S4:利用所述认证模型对所述成员预测集中所有数据进行成员推断攻击,并从所述目标数据集中筛选得到成员指纹数据;S5:基于所述认证模型,得到所述成员指纹数据为所述可疑模型的成员数据的概率,由此判定所述可疑模型是否由所述物联网数据集训练得到。
进一步地,所述S1中,根据可疑模型的预测功能,对物联网数据集进行特征和标签的提取,得到目标数据集,包括:
根据可疑模型的预测功能和输入输出维度,结合物联网数据集中所有数据列的意义,提取出特征和标签;
对所述特征和标签中非数值类数据,通过独热编码进行稀疏化处理;对所述特征和标签中数值类数据,采用归一化缩放处理;从而得到目标数据集。
进一步地,所述S1中,利用自编码器的数据扩增技术,构造基于所述目标数据集的辅助数据集,包括:
构建包含编码器和解码器的变分自编码器,所述自编码器输入输出维度与所述目标数据集的特征数量一致;
将解码器对所述目标数据集中每一样本的输出与所述每一样本对应的标签的2范数距离,作为损失函数优化所述编码器和解码器的模型参数;
将所述目标数据集每一样本的特征输入优化后的编码器,得到的特征映射加入高斯白噪声后再输入优化后的解码器,结合所述优化后的解码器输出的重构样本与所述目标数据集每一样本的标签,得到辅助数据集。
进一步地,所述S2中,多种机器学习模型包括以下至少两种:
决策树模型、神经网络模型、支持向量机模型、随机森林模型、Xgboost模型、K近邻模型和朴素贝叶斯模型。
进一步地,所述S3中,对所述成员预测集和非成员预测集进行成员属性标记,包括:
标记所述成员预测集中每一条数据为成员,标记所述非成员预测集中每一条数据为非成员。
进一步地,所述S3中,利用所述新的训练集训练得到认证模型,包括:
选取任一二分类模型进行初始化,利用所述新的训练集训练得到认证模型,所述认证模型输出为所述新的训练集中任一数据来自所述成员预测集或非成员预测集的概率。
进一步地,所述S4包括:
利用所述认证模型对所述成员预测集进行预测,得到所述目标数据集中每一数据的推断结果,所述推断结果为成员或非成员;
遍历所述目标参考模型群下所述目标数据集中每一数据的推断结果,并从所述目标数据集中筛选出在所述目标参考模型群下推断结果均为成员的数据,作为成员指纹数据。
进一步地,所述S5包括:
以所述成员指纹数据作为所述可疑模型的输入,得到第一输出集合;
以所述第一输出集合作为所述认证模型的输入,得到所述成员指纹数据为所述可疑模型的成员数据的概率集合,作为第一概率集合;
当所述第一概率集合中所有概率的期望值大于期望阈值时,判定所述可疑模型由所述物联网数据集训练得到。
进一步地,所述期望阈值通过以下方式确定:
以所述辅助数据集作为所述可疑模型的输入,得到第二输出集合;
以所述第二输出集合作为所述认证模型的输入,得到所述辅助数据集为所述可疑模型的成员数据的概率集合,作为第二概率集合;
利用高斯核处理所述第一概率集合和第二概率集合的分布,绘制处理后的第一概率集合和第二概率集合的概率分布曲线,选取两条曲线的交点对应的横坐标值为期望阈值。
为实现上述目的,本发明还提供了一种基于机器学习成员推断攻击的数据集认证系统,包括:
目标数据集与辅助数据集获取模块,用于根据可疑模型的预测功能,对物联网数据集进行特征和标签的提取,得到目标数据集;利用数据扩增技术,构造基于所述目标数据集的辅助数据集;
目标参考模型群和辅助参考模型群构建模块,用于选取多种机器学习模型构建参考模型群,分别以所述目标数据集和辅助数据集训练所述参考模型群,得到目标参考模型群和辅助参考模型群;
认证模型构建模块,用于分别利用所述目标参考模型群和辅助参考模型群中每个模型对所述目标数据集进行预测,得到成员预测集和非成员预测集,并对所述成员预测集和非成员预测集进行成员属性标记;以所述成员预测集和非成员预测集作为新的特征,以相应的成员属性作为新的标签,构建新的训练集;并利用所述新的训练集训练任一二分类模型得到认证模型;
成员指纹数据筛选模块,用于利用所述认证模型对所述成员预测集中所有数据进行成员推断攻击,并从所述目标数据集中筛选得到成员指纹数据;
数据集认证模块,用于基于所述认证模型,得到所述成员指纹数据为所述可疑模型的成员数据的概率,由此判定所述可疑模型是否由所述物联网数据集训练得到。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
本发明在获取目标数据集和辅助数据集后,选取多种机器学习模型,分别构建基于两种数据集的参考模型群;利用两类参考模型群对目标数据集进行预测,得到成员预测集和非成员预测集,并对两个预测集进行成员属性标;以成员预测集和非成员预测集作为新的特征,以相应的成员属性作为新的标签,构建新的训练集,并训练得到认证模型;利用认证模型对成员预测集中所有数据进行成员推断攻击,并从目标数据集中筛选得到成员指纹数据;基于认证模型,得到成员指纹数据为可疑模型的成员数据的概率,由此判定可疑模型是否由物联网数据集训练得到。如此,本发明采用了多种类参考模型算法来模拟基于特定数据集训练所有种类的模型,有效地解决了基于未知数据集训练的可疑模型为黑盒模型而导致的认证难题,同时利用了成员推断攻击技术,复现了可疑模型和目标数据集的成员关系,从而保护物联网数据所有者的利益和数据提供者的隐私。
附图说明
图1为本发明实施例提供的基于机器学习成员推断攻击的数据集认证方法的流程图。
图2为本发明实施例提供的基于自编码器的数据扩增技术流程图。
图3为本发明实施例提供的参考模型训练及预测部分的架构示意图。
图4为本发明实施例提供的基于机器学习成员推断攻击的数据集认证系统的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
图1为本发明实施例提供的基于机器学习成员推断攻击的数据集认证方法的流程图。参阅图1,结合图2-图3,对本实施例中基于机器学习成员推断攻击的数据集认证方法进行详细说明。该数据集认证方法包括操作S1-操作S5。
操作S1:根据可疑模型的预测功能,对物联网数据集进行特征和标签的提取,得到目标数据集;利用数据扩增技术,构造基于所述目标数据集的辅助数据集。
其中,物联网数据集是指在物联网中通过传感器等设备收集到的众多数据整合成的数据集。
需要说明的是,本实施例中,可疑模型和物联网数据集由终端用户输入,例如,可疑模型为图像识别模型,相应地,在物联网数据集中提取表示图像的数据为特征,提取表示图像名称的数据为标签。
具体的,S1包括:
S11:根据可疑模型的预测功能和输入输出维度,结合物联网数据集中所有数据列的意义,判断并划分出特征和标签;
S12:首先判断物联网数据集中每一特征的数据类型,筛选特征列和标签列中非数值类数据特征,即文本类特征,通过独热编码将其稀疏化;对于数值类特征,采用归一化技术缩放至合理区间。从而,得到处理后的数据集可表示为
Figure 611950DEST_PATH_IMAGE001
,其中,每一项
Figure 388145DEST_PATH_IMAGE002
作为一个样本,X为某一数据的特征矢量,
Figure 230199DEST_PATH_IMAGE003
为标签,m为数据集中数据项总数量,c为标签总类别的数量,处理后得到的目标数据集标记为
Figure 189190DEST_PATH_IMAGE004
S13:为构造和目标数据集相似分布但包含不同数据项的辅助数据集,设计一个包含编码器和解码器的变分自编码器AE,要求其输入输出维度与目标数据集的特征数量一致,编码器与解码器的网络层数介于3层到7层之间,每一层采用卷积网络;
S14:基于目标数据集训练上一步构建的自编码器,将解码器对所述目标数据集中每一样本的输出与所述每一样本对应的标签的2范数距离,作为损失函数优化所述编码器和解码器的模型参数;
S15:将目标数据集每一样本的特征X输入自编码器的编码器,得到的特征映射Z加入高斯白噪声,得到Z*,将Z*输入解码器,得到解码器输出的重构样本X*,整合所有重构样本,并结合原样本的类别标签,得到辅助数据集
Figure 800300DEST_PATH_IMAGE005
操作S2:选取多种机器学习模型构建参考模型群,分别以所述目标数据集和辅助数据集训练所述参考模型群,得到目标参考模型群和辅助参考模型群。
具体的,S2包括:
S21:选取多种广泛使用、性能较好的机器学习模型(例如决策树模型、神经网络模型、支持向量机模型、随机森林模型、Xgboost模型、K近邻模型和朴素贝叶斯模型等)构建参考模型群,且最好满足模型之间实现预测的原理不同;通过贪婪算法或网格调参,调整并选取每一种参考模型的超参数,确保该种模型在此超参数设置下具有良好性能,并初始化参考模型内部参数;
S22:随机同步打乱目标数据集
Figure 481817DEST_PATH_IMAGE006
和辅助数据集
Figure 811167DEST_PATH_IMAGE007
,且分别用来训练参考模型群,从而得到目标参考模型群
Figure 573849DEST_PATH_IMAGE008
和辅助参考模型群
Figure 305045DEST_PATH_IMAGE009
操作S3:分别利用所述目标参考模型群和辅助参考模型群中每个模型对所述目标数据集进行预测,得到成员预测集和非成员预测集,并对所述成员预测集和非成员预测集进行成员属性标记;以所述成员预测集和非成员预测集作为新的特征,以相应的成员属性作为新的标签,构建新的训练集;并利用所述新的训练集训练得到认证模型。
具体的,S3包括:
S31:由S22中两类参考模型群
Figure 891884DEST_PATH_IMAGE010
Figure 209995DEST_PATH_IMAGE011
中每一个参考模型,依次对目标数据集所有数据做预测输出,分别得到成员预测集
Figure 9324DEST_PATH_IMAGE012
和非成员预测集
Figure 329447DEST_PATH_IMAGE013
,其中,
Figure 821608DEST_PATH_IMAGE014
,y表示某一参考模型对某一条数据的预测输出矢量,维度为c;
S32:分别对两类预测集进行成员属性的标记,标记成员预测集
Figure 627015DEST_PATH_IMAGE015
中每一条数据为“成员”(代表
Figure 964456DEST_PATH_IMAGE016
类参考模型对目标数据集预测输出的成员预测集),非成员预测集
Figure 466981DEST_PATH_IMAGE017
中每一条数据为“非成员”(代表
Figure 864464DEST_PATH_IMAGE018
类参考模型对目标数据集预测输出的非成员数预测集),将两类参考模型的预测集作为新的特征,将成员属性作为标签,聚合整理为一个数据集,作为认证模型的训练集
Figure 157168DEST_PATH_IMAGE019
S33:选择目前在二分类任务性能较好模型作为验证成员关系的认证模型A,例如决策树模型、支持向量机、随机森林等,但不仅限于以上三种模型,配置认证模型的超参数,并初始化模型参数;
S34:随机打乱训练集
Figure 298299DEST_PATH_IMAGE020
的顺序,以此训练认证模型A,认证模型输入为c维,输出为一概率值,所述概率值表示A认定某一数据来自成员预测集或非成员预测集的可能性。
操作S4:利用所述认证模型对所述成员预测集中所有数据进行成员推断攻击,并从所述目标数据集中筛选得到成员指纹数据。
说明说明的是,根据成员推断攻击原理,若可疑模型基于目标数据集训练,则其表现会接近目标数据集参考模型群。
具体的,S4包括:
S41:利用认证模型A对成员预测集进行预测,得到每一个参考模型对目标数据集中每一数据的推断结果,所述推断结果为成员或非成员;
S42:遍历目标参考模型群下目标数据集中每一数据的推断结果,并从目标数据集中筛选出在目标参考模型群下推断结果均为成员的数据,作为成员指纹数据,汇总成
Figure 858593DEST_PATH_IMAGE021
操作S5:基于所述认证模型,得到所述成员指纹数据为所述可疑模型的成员数据的概率,由此判定所述可疑模型是否由所述物联网数据集训练得到。
需要说明的是,可疑模型是我们需要验证是否盗用了目标数据集的模型,其为黑盒查询机制,即给定输入,返回每一类别的概率,黑盒模型的结构、内部参数等模型细节均为未知。
具体的,S5包括:
S51:将S42筛选得到的成员指纹数据
Figure 426978DEST_PATH_IMAGE022
作为可疑模型S的输入,得到输出集合
Figure 917961DEST_PATH_IMAGE023
S52:计算认证模型对成员指纹数据
Figure 862783DEST_PATH_IMAGE024
在可疑模型输出上的推断分数
Figure 277584DEST_PATH_IMAGE025
,其中,
Figure 580651DEST_PATH_IMAGE026
表示认证模型A认定X是可疑模型S的成员数据的概率;若推断分数大于阈值
Figure 80903DEST_PATH_IMAGE027
,则判定目标数据集被盗取用于训练可疑模型,最终返回结果为目标数据集所有者对目标数据集的所有权是否被侵犯;
其中,阈值
Figure 563837DEST_PATH_IMAGE028
为一常量,其是通过大量在不同数据集下实验确定的普遍适用的阈值,为保证判定的准确,其可以通过以下方法确定:求可疑模型S在成员指纹数据
Figure 833144DEST_PATH_IMAGE029
和辅助数据集
Figure 510375DEST_PATH_IMAGE030
下预测概率
Figure 497923DEST_PATH_IMAGE031
Figure 784548DEST_PATH_IMAGE032
,利用高斯核处理两集合的分布,绘制两集合处理后的概率分布曲线,观察两条分布曲线,找到一个可以将两曲线有效分开的概率,即为阈值
Figure 705099DEST_PATH_IMAGE033
;通常,选取两条曲线的交点对应的横坐标值为阈值
Figure 553232DEST_PATH_IMAGE034
图4为本发明实施例提供的基于机器学习成员推断攻击的数据集认证系统的框图。参阅图4,该基于机器学习成员推断攻击的数据集认证系统400包括目标数据集与辅助数据集获取模块410、目标参考模型群和辅助参考模型群构建模块420、认证模型构建模块430、成员指纹数据筛选模块440、数据集认证模块450。
目标数据集与辅助数据集获取模块410例如执行操作S1,用于根据可疑模型的预测功能,对物联网数据集进行特征和标签的提取,得到目标数据集;利用数据扩增技术,构造基于所述目标数据集的辅助数据集;
目标参考模型群和辅助参考模型群构建模块420例如执行操作S2,用于选取多种机器学习模型构建参考模型群,分别以所述目标数据集和辅助数据集训练所述参考模型群,得到目标参考模型群和辅助参考模型群;
认证模型构建模块430例如执行操作S3,用于分别利用所述目标参考模型群和辅助参考模型群中每个模型对所述目标数据集进行预测,得到成员预测集和非成员预测集,并对所述成员预测集和非成员预测集进行成员属性标记;以所述成员预测集和非成员预测集作为新的特征,以相应的成员属性作为新的标签,构建新的训练集;并利用所述新的训练集训练任一二分类模型得到认证模型;
成员指纹数据筛选模块440例如执行操作S4,用于利用所述认证模型对所述成员预测集中所有数据进行成员推断攻击,并从所述目标数据集中筛选得到成员指纹数据;
数据集认证模块450例如执行操作S5,用于基于所述认证模型,得到所述成员指纹数据为所述可疑模型的成员数据的概率,由此判定所述可疑模型是否由所述物联网数据集训练得到。
基于机器学习成员推断攻击的数据集认证系统400用于执行上述图1-图3所示实施例中的基于机器学习成员推断攻击的数据集认证方法。本实施例未尽之细节,请参阅前述图1-图3所示实施例中的基于机器学习成员推断攻击的数据集认证方法,此处不再赘述。
下面通过实验结果进一步说明本发明认证数据-模型成员关系的效果:本发明采用MNIST手写数据集进行测试。通过仿真测试,得到本发明方法在不同种类的可疑模型下的认证精确率和召回率如表1所示,基线为二元随机猜测的概率。
Figure 559234DEST_PATH_IMAGE036
经对比发现,本发明提供的认证方法整体平均的精确率(100%)和召回率(94.29%)远高于基线水平(50%),能有效认证可疑模型和目标数据集的成员关系,从而维护目标数据集所有者对目标数据集的所有权。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于机器学习成员推断攻击的数据集认证方法,其特征在于,包括以下步骤:
S1:根据可疑模型的预测功能,对物联网数据集进行特征和标签的提取,得到目标数据集;利用数据扩增技术,构造基于所述目标数据集的辅助数据集;
S2:选取多种机器学习模型构建参考模型群,分别以所述目标数据集和辅助数据集训练所述参考模型群,得到目标参考模型群和辅助参考模型群;
S3:分别利用所述目标参考模型群和辅助参考模型群中每个模型对所述目标数据集进行预测,得到成员预测集和非成员预测集,并对所述成员预测集和非成员预测集进行成员属性标记;以所述成员预测集和非成员预测集作为新的特征,以相应的成员属性作为新的标签,构建新的训练集;并利用所述新的训练集训练任一二分类模型得到认证模型;
S4:利用所述认证模型对所述成员预测集中所有数据进行成员推断攻击,并从所述目标数据集中筛选得到成员指纹数据;
S5:基于所述认证模型,得到所述成员指纹数据为所述可疑模型的成员数据的概率,由此判定所述可疑模型是否由所述物联网数据集训练得到。
2.根据权利要求1所述的基于机器学习成员推断攻击的数据集认证方法,其特征在于,所述S1中,根据可疑模型的预测功能,对物联网数据集进行特征和标签的提取,得到目标数据集,包括:
根据可疑模型的预测功能和输入输出维度,结合物联网数据集中所有数据列的意义,提取出特征和标签;
对所述特征和标签中非数值类数据,通过独热编码进行稀疏化处理;对所述特征和标签中数值类数据,采用归一化缩放处理;从而得到目标数据集。
3.根据权利要求1或2所述的基于机器学习成员推断攻击的数据集认证方法,其特征在于,所述S1中,利用自编码器的数据扩增技术,构造基于所述目标数据集的辅助数据集,包括:
构建包含编码器和解码器的变分自编码器,所述自编码器输入输出维度与所述目标数据集的特征数量一致;
将解码器对所述目标数据集中每一样本的输出与所述每一样本对应的标签的2范数距离,作为损失函数优化所述编码器和解码器的模型参数;
将所述目标数据集每一样本的特征输入优化后的编码器,得到的特征映射加入高斯白噪声后再输入优化后的解码器,结合所述优化后的解码器输出的重构样本与所述目标数据集每一样本的标签,得到辅助数据集。
4.根据权利要求1所述的基于机器学习成员推断攻击的数据集认证方法,其特征在于,所述S2中,多种机器学习模型包括以下至少两种:
决策树模型、神经网络模型、支持向量机模型、随机森林模型、Xgboost模型、K近邻模型和朴素贝叶斯模型。
5.根据权利要求1所述的基于机器学习成员推断攻击的数据集认证方法,其特征在于,所述S3中,对所述成员预测集和非成员预测集进行成员属性标记,包括:
标记所述成员预测集中每一条数据为成员,标记所述非成员预测集中每一条数据为非成员。
6.根据权利要求1所述的基于机器学习成员推断攻击的数据集认证方法,其特征在于,所述S3中,利用所述新的训练集训练得到认证模型,包括:
选取任一二分类模型进行初始化,利用所述新的训练集训练得到认证模型,所述认证模型输出为所述新的训练集中任一数据来自所述成员预测集或非成员预测集的概率。
7.根据权利要求1所述的基于机器学习成员推断攻击的数据集认证方法,其特征在于,所述S4包括:
利用所述认证模型对所述成员预测集进行预测,得到所述目标数据集中每一数据的推断结果,所述推断结果为成员或非成员;
遍历所述目标参考模型群下所述目标数据集中每一数据的推断结果,并从所述目标数据集中筛选出在所述目标参考模型群下推断结果均为成员的数据,作为成员指纹数据。
8.根据权利要求1所述的基于机器学习成员推断攻击的数据集认证方法,其特征在于,所述S5包括:
以所述成员指纹数据作为所述可疑模型的输入,得到第一输出集合;
以所述第一输出集合作为所述认证模型的输入,得到所述成员指纹数据为所述可疑模型的成员数据的概率集合,作为第一概率集合;
当所述第一概率集合中所有概率的期望值大于期望阈值时,判定所述可疑模型由所述物联网数据集训练得到。
9.根据权利要求8所述的基于机器学习成员推断攻击的数据集认证方法,其特征在于,所述期望阈值通过以下方式确定:
以所述辅助数据集作为所述可疑模型的输入,得到第二输出集合;
以所述第二输出集合作为所述认证模型的输入,得到所述辅助数据集为所述可疑模型的成员数据的概率集合,作为第二概率集合;
利用高斯核处理所述第一概率集合和第二概率集合的分布,绘制处理后的第一概率集合和第二概率集合的概率分布曲线,选取两条曲线的交点对应的横坐标值为期望阈值。
10.一种基于机器学习成员推断攻击的数据集认证系统,其特征在于,包括:
目标数据集与辅助数据集获取模块,用于根据可疑模型的预测功能,对物联网数据集进行特征和标签的提取,得到目标数据集;利用数据扩增技术,构造基于所述目标数据集的辅助数据集;
目标参考模型群和辅助参考模型群构建模块,用于选取多种机器学习模型构建参考模型群,分别以所述目标数据集和辅助数据集训练所述参考模型群,得到目标参考模型群和辅助参考模型群;
认证模型构建模块,用于分别利用所述目标参考模型群和辅助参考模型群中每个模型对所述目标数据集进行预测,得到成员预测集和非成员预测集,并对所述成员预测集和非成员预测集进行成员属性标记;以所述成员预测集和非成员预测集作为新的特征,以相应的成员属性作为新的标签,构建新的训练集;并利用所述新的训练集训练任一二分类模型得到认证模型;
成员指纹数据筛选模块,用于利用所述认证模型对所述成员预测集中所有数据进行成员推断攻击,并从所述目标数据集中筛选得到成员指纹数据;
数据集认证模块,用于基于所述认证模型,得到所述成员指纹数据为所述可疑模型的成员数据的概率,由此判定所述可疑模型是否由所述物联网数据集训练得到。
CN202110614017.6A 2021-06-02 2021-06-02 一种基于机器学习成员推断攻击的数据集认证方法及系统 Active CN113259369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110614017.6A CN113259369B (zh) 2021-06-02 2021-06-02 一种基于机器学习成员推断攻击的数据集认证方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110614017.6A CN113259369B (zh) 2021-06-02 2021-06-02 一种基于机器学习成员推断攻击的数据集认证方法及系统

Publications (2)

Publication Number Publication Date
CN113259369A CN113259369A (zh) 2021-08-13
CN113259369B true CN113259369B (zh) 2021-09-07

Family

ID=77186022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110614017.6A Active CN113259369B (zh) 2021-06-02 2021-06-02 一种基于机器学习成员推断攻击的数据集认证方法及系统

Country Status (1)

Country Link
CN (1) CN113259369B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023135682A1 (ja) * 2022-01-12 2023-07-20 日本電信電話株式会社 認証装置、通信システム、認証方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912500A (zh) * 2016-03-30 2016-08-31 百度在线网络技术(北京)有限公司 机器学习模型生成方法和装置
CN106445710A (zh) * 2016-10-26 2017-02-22 腾讯科技(深圳)有限公司 一种交互式对象确定的方法及相关设备
CN108023876A (zh) * 2017-11-20 2018-05-11 西安电子科技大学 基于可持续性集成学习的入侵检测方法及入侵检测系统
EP3528460A1 (en) * 2018-02-20 2019-08-21 Darktrace Limited Artificial intelligence privacy protection for cybersecurity analysis
CN111639688A (zh) * 2020-05-19 2020-09-08 华中科技大学 一种基于线性核svm的物联网智能模型的局部解释方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912500A (zh) * 2016-03-30 2016-08-31 百度在线网络技术(北京)有限公司 机器学习模型生成方法和装置
CN106445710A (zh) * 2016-10-26 2017-02-22 腾讯科技(深圳)有限公司 一种交互式对象确定的方法及相关设备
CN108023876A (zh) * 2017-11-20 2018-05-11 西安电子科技大学 基于可持续性集成学习的入侵检测方法及入侵检测系统
EP3528460A1 (en) * 2018-02-20 2019-08-21 Darktrace Limited Artificial intelligence privacy protection for cybersecurity analysis
CN111639688A (zh) * 2020-05-19 2020-09-08 华中科技大学 一种基于线性核svm的物联网智能模型的局部解释方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Comprehensive Privacy Analysis of Deep Learning》;Milad Nasr,et.al;《2019 IEEE Symposium on Security and Privacy》;20191231;全文 *
《Membership Inference Attacks Against Machine Learning Models》;Reza Shokri,et.al;《arXiv》;20170331;全文 *
《黑盒机器学习模型的成员推断攻击研究》;刘高扬等;《信息安全学报》;20210531;全文 *

Also Published As

Publication number Publication date
CN113259369A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN109302410B (zh) 一种内部用户异常行为检测方法、系统及计算机存储介质
CN107577945B (zh) Url攻击检测方法、装置以及电子设备
US9727821B2 (en) Sequential anomaly detection
CN110135157B (zh) 恶意软件同源性分析方法、系统、电子设备及存储介质
Zhu et al. Android malware detection based on multi-head squeeze-and-excitation residual network
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
Rafique et al. Deep fake detection and classification using error-level analysis and deep learning
Xue et al. Homology analysis of malware based on ensemble learning and multifeatures
CN116467710A (zh) 一种面向不平衡网络的恶意软件检测方法
Suman et al. Authorship attribution of microtext using capsule networks
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN113259369B (zh) 一种基于机器学习成员推断攻击的数据集认证方法及系统
CN111784360B (zh) 一种基于网络链接回溯的反欺诈预测方法及系统
Saaudi et al. Insider threats detection using CNN-LSTM model
CN112364198A (zh) 一种跨模态哈希检索方法、终端设备及存储介质
Bhoj et al. LSTM powered identification of clickbait content on entertainment and news websites
CN115567224A (zh) 一种用于检测区块链交易异常的方法及相关产品
CN112733645B (zh) 手写签名校验方法、装置、计算机设备及存储介质
Bashier et al. RANCC: Rationalizing neural networks via concept clustering
CN113469816A (zh) 基于多组学技术的数字货币识别方法、系统和存储介质
Yang et al. Understanding and monitoring human trafficking via social sensors: a sociological approach
Kissner Hacking neural networks: A short introduction
KR20210023690A (ko) 컨텐츠 기여도 측정 방법 및 장치
Saini et al. A Hybrid LSTM-BERT and Glove-based Deep Learning Approach for the Detection of Fake News
Asha et al. Evaluation of adversarial machine learning tools for securing AI systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant