CN112269987A - 一种智能模型信息泄漏程度评估方法、系统、介质、设备 - Google Patents

一种智能模型信息泄漏程度评估方法、系统、介质、设备 Download PDF

Info

Publication number
CN112269987A
CN112269987A CN202011030537.4A CN202011030537A CN112269987A CN 112269987 A CN112269987 A CN 112269987A CN 202011030537 A CN202011030537 A CN 202011030537A CN 112269987 A CN112269987 A CN 112269987A
Authority
CN
China
Prior art keywords
information
query
model
data set
information leakage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011030537.4A
Other languages
English (en)
Other versions
CN112269987B (zh
Inventor
李晖
王瑞
李效光
闫皓楠
王靖仁
萧明炽
赵兴文
李凤华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202011030537.4A priority Critical patent/CN112269987B/zh
Publication of CN112269987A publication Critical patent/CN112269987A/zh
Application granted granted Critical
Publication of CN112269987B publication Critical patent/CN112269987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于网络安全技术领域,公开了一种智能模型信息泄漏程度评估方法、系统、介质、设备,定义代表特定数据集中包含的信息量的指标;利用信息论中的链式法则将指标展开后计算;定义查询向量拼接收到的攻击查询和模型回复;将向量添加到查询矩阵;计算单次查询从训练数据集窃取到的信息量;计算模型信息泄漏程度。本发明设计了一种用于评估模型信息量泄漏程度的计算方法,能够实时准确地计算出当前模型遭受攻击时的信息泄漏程度。同时也可用于两类数据集之间共同信息量的评估。本发明定义了用于评估模型信息量泄漏程度的指标,该指标不受待评定模型种类、复杂度和信息泄漏方式的影响,能够应用于所有智能模型和数据集。

Description

一种智能模型信息泄漏程度评估方法、系统、介质、设备
技术领域
本发明属于网络安全技术领域,尤其涉及一种智能模型信息泄漏程度评估方法、系统、介质、设备。
背景技术
目前:信息时代,数据量呈指数型爆炸增长,大数据技术的快速发展给人工智能技术带来了长足进步和广泛应用,大量智能模型被应用到了自然语言处理、图像识别、推荐系统等领域,为这些生产领域带来便利的同时也放大了模型自身存在的安全问题。大量针对模型的攻击如模型提取攻击、投毒攻击、推断攻击等在对模型造成破坏的同时,也带来了严重的模型信息泄漏问题,攻击者通常利用所泄漏的信息来窃取模型中包含的关键参数,借此来复制,逃避安全模型的检测,在除破坏模型之外给其他业务也带来了巨大的威胁。同时机器学习也依赖于大量数据集进行学习训练,数据安全是国家网络安全的重要组成部分,有效评估刻画数据集的信息泄漏程度对于防止数据泄漏,保护数据安全和保障信息安全具有非常重要的作用。然而现有的用于评估模型信息泄漏和数据集信息泄漏程度的相关技术极少,仅有的一些评估方案也过分依赖于数据所处的具体场景,需要结合其它技术进行判断,缺乏统一通用有效的刻画方案。
现有方法一提出了一种基于代理模型状态的模型信息泄漏程度评估方案。该方法预先构建和现有模型等价的代理模型(通常采用决策树模型),通过持续衡量攻击请求对代理模型的提取程度的方式来判断当前模型的信息泄漏程度。该方法难以为较复杂的模型构建等价代理模型,适用范围小,且需要保证攻击分布和代理模型训练数据集保持相同的分布,要求较高。
现有方法二提出了一种基于查询分布的模型信息泄漏程度评估方案。该方法根据正常查询生成了通用分布,当发现查询产生的分布和正常分布产生差异时即认为该查询为恶意攻击。该方法同样能够适用的模型非常少(目前仅应用到了DNN模型),且能检测的攻击类型也很局限,同时对泄漏程度刻画不够精确和及时,在实际使用中不利于推广。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有方法难以为较复杂的模型构建等价代理模型,适用范围小,且需要保证攻击分布和代理模型训练数据集保持相同的分布,要求较高。
(2)现有方法能够适用的模型非常少(目前仅应用到了DNN模型),且能检测的攻击类型也很局限,同时对泄漏程度刻画不够精确和及时,在实际使用中不利于推广。
解决以上问题及缺陷的难度为:目前的检测方案大多依赖于代理模型或分布,没有从模型根本上直接解决问题,检测结果不能准确反映模型的信息泄漏程度,无法准确判断攻击和帮助模型进行防御。同时智能模型的结构复杂性和不可解释性,导致其决策逻辑、判断依据和方式都很难直接被理解,这导致检测方案的构造无法从根本上进行设计和实现,进一步增加了智能模型信息泄漏检测的难度。
解决以上问题及缺陷的意义为:机器学习模型应用的大规模普及和发展需要很强的安全性保证,而精确刻画智能模型的信息泄漏程度,能够帮助我们有效检测出模型遭到的窃取等攻击,提高智能服务系统的安全性和可靠性。同时由于智能模型是由大量包含用户隐私的数据训练而成,提高模型的隐私信息泄漏评估能力,能够及早预防模型中机密信息泄漏问题的出现,确保隐私侵犯问题在人工智能应用中的发生。
发明内容
针对现有技术存在的问题,本发明提供了一种智能模型信息泄漏程度评估方法、系统、介质、设备。
本发明是这样实现的,一种智能模型信息泄漏程度评估方法,所述智能模型信息泄漏程度评估方法包括:
定义代表特定数据集中包含的信息量的指标;
利用信息论中的链式法则将指标展开后计算;
定义查询向量拼接收到的攻击查询和模型回复;
将向量添加到查询矩阵;
计算单次查询从训练数据集窃取到的信息量;
计算模型信息泄漏程度。
进一步,定义指标IM,用来代表特定数据集M中包含的信息量,M是一个n×m的矩阵,代表该数据集中包含有m条数据,每条数据具有n维特征,使用信息论中的信息熵H来计算该指标:
IM=H(X1,X2,...,Xn);
其中Xi(1≤i≤n)代表该数据集中第i维特征空间。
进一步,利用信息论中的链式法则将指标展开后计算即可求得:
Figure BDA0002703478280000031
进一步,定义查询向量u,用来拼接收到的攻击查询q和模型回复z如下:
u=q|z;
该向量由特征组q和标签z构成,其中特征组q由多个特征x组成。
进一步,将向量添加到查询矩阵QA,查询矩阵由模型收到的查询向量不断添加构成,目的是存储模型的输入输出,其具体结构如下:
Figure BDA0002703478280000032
进一步,计算单次查询从训练数据集窃取到的信息量,查询窃取到的信息量为信息相关程度与训练数据集包含信息量的乘积;使用皮尔逊积矩相关系数PCC和模型训练数据集D的信息相关程度;PCC主要度量两个变量之间的线性相关程度;训练数据集D为训练样本组成的集合,训练样本是机器学习模型算法在执行学习任务中使用到的数据;
减去查询与查询矩阵之间的重复信息量,最终计算方法如下:
Figure BDA0002703478280000041
其中ID代表训练数据集所包含的信息量,
Figure BDA0002703478280000042
代表模型累计收到的查询矩阵所包含的信息量。
进一步,计算模型信息泄漏程度,训练数据集由属于不同分类的数据构成,设定训练数据集共有k种不同类数据C,每一类数据C的信息泄漏量可以通过将查询u遍历其特征空间后求得,而该类的信息泄漏程度即为信息泄漏量与自身包含信息量的比值;
不同类别数据在训练数据集中占有不同比例,设定第k类数据占数据集的比例为pk,最终数据集整体信息泄漏程度可由每类数据集的泄漏程度加权和求得,最终具体的计算方法如下:
Figure BDA0002703478280000043
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
定义代表特定数据集中包含的信息量的指标;
利用信息论中的链式法则将指标展开后计算;
定义查询向量拼接收到的攻击查询和模型回复;
将向量添加到查询矩阵;
计算单次查询从训练数据集窃取到的信息量;
计算模型信息泄漏程度。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
定义代表特定数据集中包含的信息量的指标;
利用信息论中的链式法则将指标展开后计算;
定义查询向量拼接收到的攻击查询和模型回复;
将向量添加到查询矩阵;
计算单次查询从训练数据集窃取到的信息量;
计算模型信息泄漏程度。
本发明的另一目的在于提供一种实施所述智能模型信息泄漏程度评估方法的智能模型信息泄漏程度评估系统,所述智能模型信息泄漏程度评估系统包括:
指标定义模块,用于定义代表特定数据集中包含的信息量的指标;
指标计算模块,用于利用信息论中的链式法则将指标展开后计算;
查询和回复模块,用于定义查询向量拼接收到的攻击查询和模型回复;
向量添加模块,用于将向量添加到查询矩阵;
信息量计算模块,用于计算单次查询从训练数据集窃取到的信息量;
信息泄露程度计算模块,用于计算模型信息泄漏程度。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:改善目前模型信息泄漏程度评估方法缺少的情形,在数据安全要求较高的场景中对于模型泄漏程度进行有效提醒,如在线机器学习服务等。同时该方案也可应用于刻画不同模型的训练数据集之间的相似程度。
本发明将模型信息泄漏问题转化为模型数据集信息泄漏问题。本发明从智能模型训练数据集出发,考虑到良好的模型需要充足的数据来进行训练,故模型具备的知识来自于其训练数据集所包含的自有信息,因此区别于其它直接对模型或模型输入输出进行评估的方案。
本发明定义了查询请求/数据集包含信息量指标,用来判断模型被攻击时收到的敌手请求、模型训练数据集的信息量。设计了一种用于评估模型信息量泄漏程度的计算方法,能够实时准确地计算出当前模型遭受攻击时的信息泄漏程度。同时也可用于两类数据集之间共同信息量的评估。
本发明定义了用于评估模型信息量泄漏程度的指标,该指标不受待评定模型种类、复杂度和信息泄漏方式的影响,能够应用于所有智能模型和数据集,除此之外,其具有评估精度高,反馈迅速,无需额外辅助部署等优点。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的智能模型信息泄漏程度评估方法流程图。
图2是本发明实施例提供的智能模型信息泄漏程度评估系统的结构示意图;
图2中:1、指标定义模块;2、指标计算模块;3、查询和回复模块;4、向量添加模块;5、信息量计算模块;6、信息泄露程度计算模块。
图3是本发明实施例提供的现有方法Warning评估效果图。
图4是本发明实施例提供的所提方案的评估效果实验对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种智能模型信息泄漏程度评估方法、系统、介质、设备,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供的智能模型信息泄漏程度评估方法包括以下步骤:
S101:定义代表特定数据集中包含的信息量的指标;
S102:利用信息论中的链式法则将指标展开后计算;
S103:定义查询向量拼接收到的攻击查询和模型回复;
S104:将向量添加到查询矩阵;
S105:计算单次查询从训练数据集窃取到的信息量;
S106:计算模型信息泄漏程度。
本发明提供的智能模型信息泄漏程度评估方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的智能模型信息泄漏程度评估方法仅仅是一个具体实施例而已。
如图2所示,本发明提供的智能模型信息泄漏程度评估系统包括:
指标定义模块1,用于定义代表特定数据集中包含的信息量的指标;
指标计算模块2,用于利用信息论中的链式法则将指标展开后计算;
查询和回复模块3,用于定义查询向量拼接收到的攻击查询和模型回复;
向量添加模块4,用于将向量添加到查询矩阵;
信息量计算模块5,用于计算单次查询从训练数据集窃取到的信息量;
信息泄露程度计算模块6,用于计算模型信息泄漏程度。
本发明提供的智能模型信息泄漏程度评估方法具体包括以下步骤:
(1)定义指标IM,用来代表特定数据集M中包含的信息量。M是一个n×m的矩阵,代表该数据集中包含有m条数据,每条数据具有n维特征。本发明使用信息论中的信息熵H来计算该指标:
IM=H(X1,X2,...,Xn)
其中Xi(1≤i≤n)代表该数据集中第i维特征空间。
(2)利用信息论中的链式法则将指标展开后计算即可求得:
Figure BDA0002703478280000071
(3)定义查询向量u,用来拼接收到的攻击查询q和模型回复z如下:
u=q|z
该向量由特征组q和标签z构成(与查询、回复一一对应),其中特征组q由多个特征x组成。
(4)将向量添加到查询矩阵QA。查询矩阵由模型收到的查询向量不断添加构成,目的是存储模型的输入输出,其具体结构如下:
Figure BDA0002703478280000081
(5)计算单次查询从训练数据集窃取到的信息量。
查询窃取到的信息量为信息相关程度与训练数据集包含信息量的乘积。信息量可由步骤(1)、(2)求得。本发明使用皮尔逊积矩相关系数(PCC)和模型训练数据集D的信息相关程度。
PCC主要度量两个变量之间的线性相关程度,在统计学中被应用于各个领域,非常普适且有效。训练数据集D为训练样本组成的集合,训练样本是机器学习模型算法在执行学习任务中使用到的数据(如步骤(4)所示,D的结构和查询矩阵是一致的)。
同时考虑到查询之间可能会有重复获取到的信息量,因此需要减去查询与查询矩阵之间的重复信息量。最终计算方法如下:
Figure BDA0002703478280000082
其中ID代表训练数据集所包含的信息量,
Figure BDA0002703478280000083
代表模型累计收到的查询矩阵所包含的信息量(使用步骤(1)、(2)即可计算求得)。
(6)计算模型信息泄漏程度。
模型拥有的信息都包含在其训练数据集中,故本发明将评估模型信息泄漏问题转化到了评估训练数据集信息泄漏问题。
训练数据集由属于不同分类的数据构成,设定训练数据集共有k种不同类数据C。每一类数据C的信息泄漏量可以通过将查询u遍历其特征空间后求得。而该类的信息泄漏程度即为信息泄漏量与自身包含信息量的比值。
不同类别数据在训练数据集中占有不同比例,设定第k类数据占数据集的比例为pk。所以最终数据集整体信息泄漏程度可由每类数据集的泄漏程度加权和求得,最终具体的计算方法如下:
Figure BDA0002703478280000091
下面结合实验对本发明的技术效果作详细的描述。
在实施所提方案之前先构建了本发明被应用到的实际场景。收集了四种不同类型、适用于不同场景的数据集,如表1。
表1
数据集 实例 特征维度
SocialAds 401 5
Titanic 1310 28
EmailSpam 4601 46
Mushrooms 8124 112
其中SocialAds是用来在社交网络中发布广告,需要模型来判断是否有客户因此愿意购买产品;Titanic是需要模型来判断船上的乘客是否能获救;EmailSpam被模型用来判别邮件是否为垃圾邮件;Mushrooms需要被判断蘑菇是否可食用。这四种数据集的特征维度各不相同。
然后复现了现有的评估方案(Warning),其评估效果如图3所示。其中自变量r代表了模型受到的攻击次数,因变量代表了不同评估方法的的评估效果。从实验结果可以看出,当针对模型的攻击达到Opt_r次时即可提取到模型信息的60%,而现有方案需要Alarm次才会响应。
最后将其与本发明的所提方案(Monitor)进行了对比实验。实验效果如图4所示。1-Rtest代表此时模型信息泄漏的真实程度。下表为选出的在EmailSpam数据集上的评估效果对比为表2:
表2
信息泄漏程度 本发明所提方案 现有评估方案
r=17 69.90% 60.74% 29.47%
r=36 89.94% 82.38% 60.04%
如图3所示,在4个不同类型的数据集上分别训练逻辑回归模型(模型算法一致,参数各不相同,符合实际情况),其中纵坐标均代表逻辑回归模型的被提取程度即信息泄漏程度,横坐标r均代表攻击者发送的攻击查询次数。当针对模型的攻击达到Opt_r次时即可提取到模型信息的60%,而现有的模型隐私信息泄漏检测方案Warning需要Alarm次才会响应,而此时模型实际信息泄漏程度达到了80%以上。
如图4所示,在4个不同类型的数据集上分别训练逻辑回归模型(模型算法一致,参数各不相同,符合实际情况),其中纵坐标均代表逻辑回归模型的被提取程度,横坐标r均代表攻击者发送的攻击查询次数。相比于目前常用的模型隐私信息泄漏检测方案Warning,本发明所提方案Monitor能够准确检测出逻辑回归模型的信息泄漏程度,且程度描述与模型实际泄漏程度1-Rtest非常贴切。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种智能模型信息泄漏程度评估方法,其特征在于,所述智能模型信息泄漏程度评估方法包括:
定义代表特定数据集中包含的信息量的指标;
利用信息论中的链式法则将指标展开后计算;
定义查询向量拼接收到的攻击查询和模型回复;
将向量添加到查询矩阵;
计算单次查询从训练数据集窃取到的信息量;
计算模型信息泄漏程度。
2.如权利要求1所述的智能模型信息泄漏程度评估方法,其特征在于,定义指标IM,用来代表特定数据集M中包含的信息量,M是一个n×m的矩阵,代表该数据集中包含有m条数据,每条数据具有n维特征,使用信息论中的信息熵H来计算该指标:
IM=H(X1,X2,...,Xn);
其中Xi(1≤i≤n)代表该数据集中第i维特征空间。
3.如权利要求1所述的智能模型信息泄漏程度评估方法,其特征在于,利用信息论中的链式法则将指标展开后计算即可求得:
Figure FDA0002703478270000011
4.如权利要求1所述的智能模型信息泄漏程度评估方法,其特征在于,定义查询向量u,用来拼接收到的攻击查询q和模型回复z如下:
u=q|z;
该向量由特征组q和标签z构成,其中特征组q由多个特征x组成。
5.如权利要求1所述的智能模型信息泄漏程度评估方法,其特征在于,将向量添加到查询矩阵QA,查询矩阵由模型收到的查询向量不断添加构成,目的是存储模型的输入输出,其具体结构如下:
Figure FDA0002703478270000021
6.如权利要求1所述的智能模型信息泄漏程度评估方法,其特征在于,计算单次查询从训练数据集窃取到的信息量,查询窃取到的信息量为信息相关程度与训练数据集包含信息量的乘积;使用皮尔逊积矩相关系数PCC和模型训练数据集D的信息相关程度;PCC主要度量两个变量之间的线性相关程度;训练数据集D为训练样本组成的集合,训练样本是机器学习模型算法在执行学习任务中使用到的数据;
减去查询与查询矩阵之间的重复信息量,最终计算方法如下:
Figure FDA0002703478270000022
其中ID代表训练数据集所包含的信息量,
Figure FDA0002703478270000023
代表模型累计收到的查询矩阵所包含的信息量。
7.如权利要求1所述的智能模型信息泄漏程度评估方法,其特征在于,计算模型信息泄漏程度,训练数据集由属于不同分类的数据构成,设定训练数据集共有k种不同类数据C,每一类数据C的信息泄漏量可以通过将查询u遍历其特征空间后求得,而该类的信息泄漏程度即为信息泄漏量与自身包含信息量的比值;
不同类别数据在训练数据集中占有不同比例,设定第k类数据占数据集的比例为pk,最终数据集整体信息泄漏程度可由每类数据集的泄漏程度加权和求得,最终具体的计算方法如下:
Figure FDA0002703478270000024
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
定义代表特定数据集中包含的信息量的指标;
利用信息论中的链式法则将指标展开后计算;
定义查询向量拼接收到的攻击查询和模型回复;
将向量添加到查询矩阵;
计算单次查询从训练数据集窃取到的信息量;
计算模型信息泄漏程度。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
定义代表特定数据集中包含的信息量的指标;
利用信息论中的链式法则将指标展开后计算;
定义查询向量拼接收到的攻击查询和模型回复;
将向量添加到查询矩阵;
计算单次查询从训练数据集窃取到的信息量;
计算模型信息泄漏程度。
10.一种实施权利要求1~7任意一项所述智能模型信息泄漏程度评估方法的智能模型信息泄漏程度评估系统,其特征在于,所述智能模型信息泄漏程度评估系统包括:
指标定义模块,用于定义代表特定数据集中包含的信息量的指标;
指标计算模块,用于利用信息论中的链式法则将指标展开后计算;
查询和回复模块,用于定义查询向量拼接收到的攻击查询和模型回复;
向量添加模块,用于将向量添加到查询矩阵;
信息量计算模块,用于计算单次查询从训练数据集窃取到的信息量;
信息泄露程度计算模块,用于计算模型信息泄漏程度。
CN202011030537.4A 2020-09-27 2020-09-27 一种智能模型信息泄漏程度评估方法、系统、介质、设备 Active CN112269987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011030537.4A CN112269987B (zh) 2020-09-27 2020-09-27 一种智能模型信息泄漏程度评估方法、系统、介质、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011030537.4A CN112269987B (zh) 2020-09-27 2020-09-27 一种智能模型信息泄漏程度评估方法、系统、介质、设备

Publications (2)

Publication Number Publication Date
CN112269987A true CN112269987A (zh) 2021-01-26
CN112269987B CN112269987B (zh) 2023-01-24

Family

ID=74348640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011030537.4A Active CN112269987B (zh) 2020-09-27 2020-09-27 一种智能模型信息泄漏程度评估方法、系统、介质、设备

Country Status (1)

Country Link
CN (1) CN112269987B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106817248A (zh) * 2016-12-19 2017-06-09 西安电子科技大学 一种apt攻击检测方法
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN108763954A (zh) * 2018-05-17 2018-11-06 西安电子科技大学 线性回归模型多维高斯差分隐私保护方法、信息安全系统
US20190095629A1 (en) * 2017-09-25 2019-03-28 International Business Machines Corporation Protecting Cognitive Systems from Model Stealing Attacks
CN109583227A (zh) * 2018-10-30 2019-04-05 中国科学院信息工程研究所 一种隐私信息保护方法、装置及系统
CN109934004A (zh) * 2019-03-14 2019-06-25 中国科学技术大学 一种机器学习服务系统中保护隐私的方法
CN110084365A (zh) * 2019-03-13 2019-08-02 西安电子科技大学 一种基于深度学习的服务提供系统及方法
US20200234184A1 (en) * 2019-01-23 2020-07-23 International Business Machines Corporation Adversarial treatment to machine learning model adversary

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106817248A (zh) * 2016-12-19 2017-06-09 西安电子科技大学 一种apt攻击检测方法
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
US20190095629A1 (en) * 2017-09-25 2019-03-28 International Business Machines Corporation Protecting Cognitive Systems from Model Stealing Attacks
CN108763954A (zh) * 2018-05-17 2018-11-06 西安电子科技大学 线性回归模型多维高斯差分隐私保护方法、信息安全系统
CN109583227A (zh) * 2018-10-30 2019-04-05 中国科学院信息工程研究所 一种隐私信息保护方法、装置及系统
US20200234184A1 (en) * 2019-01-23 2020-07-23 International Business Machines Corporation Adversarial treatment to machine learning model adversary
CN110084365A (zh) * 2019-03-13 2019-08-02 西安电子科技大学 一种基于深度学习的服务提供系统及方法
CN109934004A (zh) * 2019-03-14 2019-06-25 中国科学技术大学 一种机器学习服务系统中保护隐私的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
F. TRAMÈR等: "Stealing machine learning models via prediction APIs", 《PROC. 25TH USENIX CONF. SECUR. SYMP》 *
刘睿瑄等: "机器学习中的隐私攻击与防御", 《软件学报》 *
李效光等: "差分隐私综述", 《信息安全学报》 *
马永东等: "一种用户连续查询中隐私风险评估的方法", 《智能计算机与应用》 *

Also Published As

Publication number Publication date
CN112269987B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
Fang et al. Evading anti-malware engines with deep reinforcement learning
CN109922069B (zh) 高级持续性威胁的多维关联分析方法及系统
CN110958220A (zh) 一种基于异构图嵌入的网络空间安全威胁检测方法及系统
Alhajjar et al. Survival analysis for insider threat: Detecting insider threat incidents using survival analysis techniques
Lagraa et al. Real-time attack detection on robot cameras: A self-driving car application
Luo et al. A novel intrusion detection method based on threshold modification using receiver operating characteristic curve
CN116015703A (zh) 模型训练方法、攻击检测方法及相关装置
Peng et al. Detecting adversarial examples for network intrusion detection system with gan
Hegazy Tag Eldien, AS; Tantawy, MM; Fouda, MM; TagElDien, HA Real-time locational detection of stealthy false data injection attack in smart grid: Using multivariate-based multi-label classification approach
CN116633682B (zh) 一种基于安全产品风险威胁的智能识别方法及系统
Chen et al. An Enhanced Artificial Bee Colony‐Based Support Vector Machine for Image‐Based Fault Detection
Song et al. Generating fake cyber threat intelligence using the gpt-neo model
CN112269987B (zh) 一种智能模型信息泄漏程度评估方法、系统、介质、设备
Rashid et al. Malprotect: Stateful defense against adversarial query attacks in ml-based malware detection
US20230306106A1 (en) Computer Security Systems and Methods Using Self-Supervised Consensus-Building Machine Learning
Luo et al. Focal loss based two-stage training for class imbalance network intrusion detection
Gao et al. A novel intrusion detection system based on extreme machine learning and multi-voting technology
Minjie et al. Abnormal Traffic Detection Technology of Power IOT Terminal Based on PCA and OCSVM
CN114021136A (zh) 针对人工智能模型的后门攻击防御系统
CN113536299A (zh) 一种基于贝叶斯神经网络的入侵检测系统的设计方法
Kotenko et al. Attacks against machine learning systems: Analysis and GAN-based approach to protection
Adharsh et al. Prevention of Data Breach by Machine Learning Techniques
Enem et al. Malware detection and classification using embedded convolutional neural network and long short-term memory technique
Ali et al. Detecting Conventional and Adversarial Attacks Using Deep Learning Techniques: A Systematic Review
Patidar et al. Leveraging LSTM-RNN combined with SVM for Network Intrusion Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant