CN117290879A - 一种模型特征的风险评估方法、装置及设备 - Google Patents
一种模型特征的风险评估方法、装置及设备 Download PDFInfo
- Publication number
- CN117290879A CN117290879A CN202311140596.0A CN202311140596A CN117290879A CN 117290879 A CN117290879 A CN 117290879A CN 202311140596 A CN202311140596 A CN 202311140596A CN 117290879 A CN117290879 A CN 117290879A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- feature
- query data
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012502 risk assessment Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000009826 distribution Methods 0.000 claims abstract description 66
- 238000013507 mapping Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 230000002265 prevention Effects 0.000 claims description 15
- 238000011217 control strategy Methods 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 description 308
- 238000010801 machine learning Methods 0.000 description 28
- 238000003860 storage Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种模型特征的风险评估方法、装置及设备,该方法包括:基于目标模型对应的模型特征生成模型查询数据,并将模型查询数据输入到目标模型中,得到模型查询数据对应的预测标签信息;基于模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于该分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组;获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,该风险信息用于表征模型特征是否存在泄露风险;基于每个模型特征对应的风险信息,确定目标模型对应的模型特征的风险评估结果。
Description
技术领域
本文件涉及计算机技术领域,尤其涉及一种模型特征的风险评估方法、装置及设备。
背景技术
随着人工智能和大数据产业的快速发展,机器学习模型被越来越广泛地应用在各种场景中。为了节约成本等,机器学习即服务MLaaS(Machine Learning as a Service)应运而生,它可以使产品的消费者直接享受机器学习模型服务,而无需消费者对该机器学习模型进行训练。目前用户数据的隐私保护备受重视,当前也推出了一系列数据安全和隐私保护的相关法律法规,因此在对外部消费者提供机器学习模型服务之前,保护好模型本身的隐私数据,对隐私泄露的风险进行评估至关重要。针对MLaaS中机器学习模型隐私泄漏的安全性评估,目前的研究主要集中在评估模型本身的结构、参数以及训练数据集的安全性,而对模型特征的安全性评估仍然是空白。为此,需要提供一种模型特征泄漏评估框架,评估不同模型特征被外部用户推断的风险概率,进而保护内部敏感特征。
发明内容
本说明书实施例的目的是提供一种模型特征泄漏评估框架,评估不同模型特征被外部用户推断的风险概率,进而保护内部敏感特征。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种模型特征的风险评估方法,所述方法包括:基于目标模型对应的模型特征生成模型查询数据,并将所述模型查询数据输入到所述目标模型中,得到所述模型查询数据对应的预测标签信息。基于所述模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于所述分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,所述风险信息用于表征所述模型特征是否存在泄露风险。基于所述每个模型特征对应的风险信息,确定所述目标模型对应的模型特征的风险评估结果。
本说明书实施例提供的一种模型特征的风险评估装置,所述装置包括:模型预测模块,基于目标模型对应的模型特征生成模型查询数据,并将所述模型查询数据输入到所述目标模型中,得到所述模型查询数据对应的预测标签信息。数据分组模块,基于所述模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于所述分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。风险确定模块,获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,所述风险信息用于表征所述模型特征是否存在泄露风险。风险评估模块,基于所述每个模型特征对应的风险信息,确定所述目标模型对应的模型特征的风险评估结果。
本说明书实施例提供的一种模型特征的风险评估设备,所述模型特征的风险评估设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:基于目标模型对应的模型特征生成模型查询数据,并将所述模型查询数据输入到所述目标模型中,得到所述模型查询数据对应的预测标签信息。基于所述模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于所述分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,所述风险信息用于表征所述模型特征是否存在泄露风险。基于所述每个模型特征对应的风险信息,确定所述目标模型对应的模型特征的风险评估结果。
本说明书实施例还提供了一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:基于目标模型对应的模型特征生成模型查询数据,并将所述模型查询数据输入到所述目标模型中,得到所述模型查询数据对应的预测标签信息。基于所述模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于所述分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,所述风险信息用于表征所述模型特征是否存在泄露风险。基于所述每个模型特征对应的风险信息,确定所述目标模型对应的模型特征的风险评估结果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1为本说明书一种模型特征的风险评估方法实施例;
图2为本说明书一种数据分布的示意图;
图3为本说明书一种模型特征的风险评估过程的示意图;
图4为本说明书另一种模型特征的风险评估方法实施例;
图5为本说明书又一种模型特征的风险评估方法实施例;
图6为本说明书一种模型特征的风险评估装置实施例;
图7为本说明书一种模型特征的风险评估设备实施例。
具体实施方式
本说明书实施例提供一种模型特征的风险评估方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
随着人工智能和大数据产业的快速发展,机器学习模型被越来越广泛地应用在各种场景中。对于中小公司或者个人来说,从头训练一个机器学习模型可能会遇到数据采集困难、模型参数巨大、模型结构复杂、计算成本高昂等多种问题,因此MLaaS应运而生,通过训练机器学习模型并将其嵌入产品中出售,可以使产品的消费者直接享受机器学习模型服务,而无需消费者对该机器学习模型进行训练。然而,由于机器学习模型本身的记忆性和不可解释性,产品提供方在提供机器学习模型服务时,存在数据安全隐患:即模型本身可能被消费者推断,例如模型窃取攻击;训练数据集可能被消费者推断,例如成员推断攻击;机器学习模型使用的特征可能被消费者推断。目前用户数据的隐私保护备受重视,当前也推出了一系列数据安全和隐私保护的相关法律法规,因此在对外部消费者提供机器学习模型服务之前,保护好模型本身的隐私数据,对隐私泄露的风险进行评估至关重要。针对MLaaS中机器学习模型隐私泄漏的安全性评估,目前的研究主要集中在评估模型本身的结构、参数以及训练数据集的安全性,而对模型特征的安全性评估仍然是空白。特征推断是指机器学习模型消费者通过查询等操作推断出模型训练阶段使用的特征集合。特征推断可能造成严重的隐私泄漏风险和合规风险:一方面,特征泄漏之后攻击者可以进一步实施模型窃取攻击和数据窃取攻击,导致模型和数据泄漏;另一方面,某些模型特征可能属于机构的机密数据,泄漏之后会造成机构的战略损失。为了填补该场景的研究空白,本实施例提供一种基于区间相关性的特征泄漏评估框架,评估不同数据量级下特征被外部用户推断的风险概率,助力保护内部敏感特征。具体处理可以参见下述实施例中的具体内容。
实施例一
本实施例是针对MLaaS中的机器学习模型,对于MLaaS的安全评估可以有以下方案:
首先,成员推断攻击:通过获取机器学习模型的输出结果,判定一个样本是否在机器学习模型的训练数据集中。该方式通常使用训练影子模型的的方法达到目标。其次,模型窃取攻击:通过在本地训练替代模型,使其输出尽可能逼近MLaaS中的机器学习模型,从而在本地复制一个功能相同的模型以获利。该方式通常训练影子模型,再用影子模型的输出结果训练本地的替代模型。
虽然以上两种方式均能够在一定程度上评估机器学习模型的安全性,但是它们都没有涉及对模型特征安全性的评估。此外,两种方式均有一个隐含假设,即已知模型的特征集合,才能够在此基础上进一步评估数据集和模型结构的安全性。
针对模型特征的安全性评估,还有一种直观的方式:即特征推断攻击:直接将单个特征与模型的输出标签进行相关性分析,如果相关系数高于阈值,则说明该特征与模型输出之前互信息高,可认定该特征被目标模型使用。该方式在特征数量较多时会失效,因为在计算单个特征与模型输出标签的相关性时,需要排除掉其他特征对计算结果的影响。特征数量较多时,特征之间相互影响的程度较高,单个特征与输出标签之间的关系不易显现,导致计算出的相关系数均显著低于阈值,产出错误的评估结果。
如图1所示,本说明书实施例提供一种模型特征的风险评估方法,该方法的执行主体可以为终端设备或服务器等,其中的终端设备可以如手机、平板电脑等移动终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以为IoT设备(具体如智能手表、车载设备等)等,其中的服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。本实施例中以执行主体为服务器为例进行详细说明,对于执行主体为终端设备的情况,可以参见下述服务器的情况处理,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S102中,基于目标模型对应的模型特征生成模型查询数据,并将模型查询数据输入到目标模型中,得到模型查询数据对应的预测标签信息。
其中,目标模型可以是任意模型,此外,目标模型可以是MLaaS中的机器学习模型,目标模型可以是通过多种不同的算法构建,例如,目标模型可以通过神经网络算法构建,或者,目标模型可以通过随机森铃算法构建等,具体可以根据实际清苦设定,本说明书实施例对此不做限定。在实际应用中,目标模型可以应用于指定的业务中,不同的业务中可以设定不同功能的目标模型,例如,目标模型可以为风险防控模型,用于对指定的业务进行风险防控,目标模型也可以为身份认证模型,可以用于对用户的身份进行识别处理,目标模型还可以为信息推荐模型,可以用于向不同的用户推荐指定的信息等,具体可以根据实际情况设定,本说明书实施例对此不做限定。模型查询数据可以是能够作为目标模型的输入数据的数据,具体可以根据目标模型的不同用途而设置模型查询数据,例如,模型查询数据可以是用户交易行为数据,也可以是用户的历史购物信息等,具体可以根据实际清苦设定,本说明书实施例对此不做限定。
在实施中,如图2所示,MLaaS在发布机器学习模型服务之前,需要评估其模型特征的泄漏风险,通常情况下,消费者(即使用发布的机器学习模型的用户或机构)对于MLaaS的机器学习模型仅有黑盒权限,即通过向模型输入数据,获取模型的预测结果,模型预测的所有过程对消费者不可见。评估特征泄漏风险,需要站在消费者的角度上,评估黑盒权限下消费者能够推断出多少比例的模型特征。假设模型特征的集合为真实特征集合A,消费者虽不知道集合A,但是可以根据自己的先验经验构造出一个特征集合B,则集合A与集合B之间的交集C则是消费者能够获取到的模型特征。集合C中的特征具有较大的泄漏风险,因此,针对模型特征的安全性评估关键在于评估集合C的大小。模型特征的风险评估具体如下:
可以根据实际情况预先设定消费者可以获取的数据量级,此外,可以获取目标模型对应的模型特征,可以基于获取的模型特征和数据量级生成所需的数据(即模型查询数据),生成的模型查询数据的数量满足上述数据量级。然后,可以将模型查询数据输入到目标模型中,得到模型查询数据对应的预测标签信息,其中,如果模型查询数据中包括多条不同的数据,则最终可以得到每条数据对应的预测标签信息。
在步骤S104中,基于模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于该分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。
在实施中,如图3所示,可以对单个模型特征进行风险评估,即对于每一个模型特征,评估其是否可以被消费者推断,具体地,可以根据上述步骤S102中获取的模型查询数据,统计上述模型特征对应的模型查询数据的分布信息,具体为,可以统计上述模型特征所有可能的数据取值,并获取每一个数据取值所对应的模型查询数据的数量等。
可以根据每个模型特征对应的模型查询数据的分布信息将每个模型特征所有可能的数据取值划分区间,从而得到一个或多个不同的数据分组,具体地,可以对上述得到的分布信息进行分析,基于得到的分析结果,并可以结合统计得到的上述模型特征所有可能的数据取值和获取的每一个数据取值所对应的模型查询数据的数量,可以对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组,具体如,可以将每个模型特征对应的模型查询数据作为一个数据分组,从而得到每个模型特征对应的数据分组,或者,可以根据每一个数据取值所对应的模型查询数据的数量和模型特征所有可能的数据取值,平均划分每个模型特征对应的模型查询数据,得到指定数量的数据分组,且每个数据分组中包含的模型查询数据的数量相同等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S106中,获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,该风险信息用于表征该模型特征是否存在泄露风险。
在实施中,可以根据实际情况预先设定相关系数算法,该相关系数算法可以包括多种,相关系数算法可以用于确定每个数据分组对应的模型特征与相应的预测标签信息之间相互联系的紧密程度,可以通过该相关系数算法计算每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,如果得到的相关系数越高,则说明该模型特征与相应的预测标签信息联系更紧密,通过预测标签信息可以反推相应的模型特征的概率越高。可以将获取的相关系数与预设的阈值进行比较,如果获取的相关系数超过预设的阈值,则表明该模型特征有被消费者推断出来的风险,如果获取的相关系数未超过预设的阈值,则表明该模型特征不会被消费者推断出来。
在步骤S108中,基于每个模型特征对应的风险信息,确定目标模型对应的模型特征的风险评估结果。
在实施中,可以对目标模型对应的模型特征进行风险评估后,对评估结果进行统计,即可以对目标模型对应的模型特征对应的风险信息进行统计,得到模型特征在不同条件下的整体泄漏风险的情况,进而可以确定具有泄漏风险的模型特征占目标模型对应的模型特征的比例等,从而确定目标模型对应的模型特征的风险评估结果,例如,如果通过上述方式得到的比例大于预设比例阈值,则确定目标模型对应的模型特征的风险评估结果为存在泄露风险,如果通过上述方式得到的比例不大于预设比例阈值,则确定目标模型对应的模型特征的风险评估结果为不存在泄露风险。
需要说明的是,目标模型对应的模型特征的风险评估结果可能与以下因素有关:用户数量:也即步骤S102中设定的消费者可以获取的模型查询数据的数量,该数量越多,模型特征与预测标签信息之间的关系数据就越完备,则越能够准确判断出该模型特征是否具有被推断的风险;预测标签信息的精度:标签信息的精度越高,则输出的预测标签信息包含更多信息,越能够准确判断出模型特征是否具有被推断的风险。
此外,通过上述方式确定目标模型对应的模型特征的风险评估结果后,还可以将得到的风险评估结果提供给技术人员,技术人员可以基于风险评估结果设置相应的风险防控策略以防止某些模型特征被消费者推断出来。
本说明书实施例提供一种模型特征的风险评估方法,通过基于目标模型对应的模型特征生成模型查询数据,并将模型查询数据输入到目标模型中,得到模型查询数据对应的预测标签信息,然后,可以基于模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于该分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组,之后,可以获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,该风险信息用于表征模型特征是否存在泄露风险,最终,可以基于每个模型特征对应的风险信息,确定目标模型对应的模型特征的风险评估结果,这样,通过设计评估模型特征泄漏风险的框架,填补了模型特征泄漏风险评估方面的空白,通过对模型特征对应的模型查询数据进行分组,减轻了在计算与预测标签信息相关系数过程中其他特征和噪声对最终结果的影响,能够使模型特征的泄漏风险更加清晰,更加容易被发现,有效解决特征数量较多时维度爆炸的问题。
实施例二
如图4所示,本说明书实施例提供一种模型特征的风险评估方法,该方法的执行主体可以为终端设备或服务器等,其中的终端设备可以如手机、平板电脑等移动终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以为IoT设备(具体如智能手表、车载设备等)等,其中的服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。本实施例中以执行主体为服务器为例进行详细说明,对于执行主体为终端设备的情况,可以参见下述服务器的情况处理,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S402中,基于目标模型对应的模型特征生成模型查询数据,并将该模型查询数据输入到目标模型中,得到该模型查询数据对应的预测标签信息。
在步骤S404中,基于上述模型查询数据,确定每个模型特征对应的模型查询数据的分布信息。
在实际应用中,上述模型特征可以为离散型特征,也可以为连续型特征,则对于上述步骤S104中的基于该分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组的具体处理,可以包括多种不同的实现方式,以下提供一种可选的处理方式,具体可以包括:对于上述模型特征为离散型特征的情况,可以参见下述步骤S406和步骤S408的处理。
在步骤S406中,基于每个模型特征对应的模型查询数据,确定每个模型特征对应的数据取值。
在实施中,对于某一个模型特征,在该模型特征对应的模型查询数据可能会包含多种可能的数据取值,例如,某模型特征为A商品的日销售量,则在该模型特征对应的模型查询数据中可能会包括多种不同的A商品的日销售量的数据取值,具体如2件、10件、20件、100件等,即针对模型特征为A商品的日销售量,其对应的数据取值包括2件、10件、20件、100件等。
在步骤S408中,基于上述分布信息,以每个模型特征对应的数据取值中每个数据取值为分组依据,对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。
在实施中,对于离散型特征,该模型特征会包含多种不同的离散型的数据取值,可以以每个模型特征对应的数据取值中每个数据取值为分组依据,统计每个数据取值对应的模型查询数据,每个数据取值对应的模型查询数据作为一个数据分组,例如,某模型特征对应的数据取值包括10和100,则统计数据取值为10对应的模型查询数据,如模型查询数据1、模型查询数据2、模型查询数据3、模型查询数据4,统计数据取值为100对应的模型查询数据,如模型查询数据10、模型查询数据11,可以将模型查询数据1、模型查询数据2、模型查询数据3、模型查询数据4划分为一个数据分组,将模型查询数据10、模型查询数据11划分为另一个数据分组等,通过上述方式,可以以每个模型特征对应的数据取值中每个数据取值为分组依据,对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。
对于上述模型特征为连续型特征的情况,可以参见下述步骤S410~步骤S414的处理或步骤S416~步骤S420的处理。
在步骤S410中,基于每个模型特征对应的模型查询数据,确定每个模型特征对应的数据取值。
步骤S410的具体处理过程可以参见上述步骤S406的具体内容,在此不再赘述。
在步骤S412中,基于上述分布信息,将每个模型特征对应的模型查询数据以上述数据取值的大小进行排序。
在实施中,可以对上述分布信息进行分析,并可以对每个模型特征对应的模型查询数据以其对应的数据取值进行从小到大(或从大到小)排序,得到每个模型特征对应的排序后的模型查询数据(或排序后的数据序列)。
在步骤S414中,基于每个模型特征对应的排序后的模型查询数据和每个模型特征对应的模型查询数据的数量,以每个数据分组中包含的模型查询数据的数量相同为分组目标,对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。
在实施中,得到每个模型特征对应的排序后的模型查询数据后,可以依据每个模型特征对应的模型查询数据的数量,将上述排序后的数据序列进行N等份,最终对数据取值范围划分数据分组,保证每一个数据分组内包含的模型查询数据的数量相同,通过上述方式,可以对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。
在对连续特征划分区间时,可能会遇到数据倾斜的情况,即大部分模型查询数据对应的数据取值相同,仅有少部分模型查询数据对应的数据取值有差异,具体如80%的模型查询数据在该模型特征上的数据取值为0,剩余的模型查询数据(即剩余的20%的模型查询数据)在该模型特征上的数据取值为1~100,数据倾斜会导致划分数据分组时数据分组被少部分数据取值主导,数据分组无法有效表征数据分布,为此,可以通过下述步骤S416~步骤S420来解决数据倾斜的情况。
在步骤S416中,如果每个模型特征对应的数据取值中存在一个或多个不同的第一数据取值对应的模型查询数据的数量超过预设数量阈值,则以每个第一数据取值为分组依据,对一个或多个不同的第一数据取值对应的模型查询数据进行分组,得到一个或多个不同的数据分组。
其中,预设数量阈值可以根据实际情况设定,具体如可以为总数量的30%或总数量的20%等。
在实施中,如果每个模型特征对应的数据取值中存在一个或多个不同的第一数据取值对应的模型查询数据的数量超过预设数量阈值,则以将上述第一数据取值认定为极端值,可以将该极端值对应的模型查询数据单独划分为一个数据分组,即以每个第一数据取值为分组依据,对一个或多个不同的第一数据取值对应的模型查询数据进行分组,得到一个或多个不同的数据分组,即可以将每个第一数据取值对应的模型查询数据划分为一个数据分组,或者,也可以将存在的一个或多个不同的第一数据取值对应的模型查询数据划分为一个数据分组,或者,还可以将存在的一个或多个不同的第一数据取值对应的模型查询数据划分为多个不同的数据分组等,具体可以根据实际情况设定。
在步骤S418中,对于每个模型特征对应的数据取值中除所述第一数据取值外的其它数据取值对应的模型查询数据,基于其它数据取值对应的模型查询数据的分布信息,将其它数据取值对应的模型查询数据以相应的数据取值的大小进行排序。
在步骤S420中,基于排序后的模型查询数据和其它数据取值对应的模型查询数据的数量,以每个数据分组中包含的模型查询数据的数量相同为分组目标,对其它数据取值对应的模型查询数据进行分组,得到一个或多个不同的数据分组。
上述步骤S418和步骤S420的具体处理过程可以参见前述相关内容,在此不再赘述。
需要说明的是,针对上述步骤S416~步骤S420的情况,上述步骤S412中的基于上述分布信息,将每个模型特征对应的模型查询数据以上述数据取值的大小进行排序的具体处理包括:如果每个模型特征对应的数据取值中不存在对应的模型查询数据的数量超过预设数量阈值的数据取值,则基于上述分布信息,将每个模型特征对应的模型查询数据以该数据取值的大小进行排序。
在步骤S422中,获取每个数据分组对应的映射值。
在实施中,每个数据分组对应的映射值可以通过多种方式确定,例如,可以计算某个数据分组中包含的数据取值的中值或平均值等,可以将计算得到的中值或平均值等数值作为该数据分组对应的映射值,通过上述方式,可以得到每个数据分组对应的映射值。
在步骤S424中,将每个数据分组中包含的模型查询数据的数据取值替换为该数据分组对应的映射值,得到每个替换后的数据分组。
在实施中,对于每一条模型查询数据,如果该模型查询数据对应的模型特征的数据取值落在数据分组A中,则将该模型查询数据对应的模型特征的数据取值替换为数据分组A对应的映射值(如数据分组A对应的中值或平均值等),从而得到一个替换后的数据分组,这样,落在数据分组A的模型查询数据都被转为数据分组A对应的映射值,用数据分组A对应的映射值代表该数据分组A中的模型查询数据,则可完成对模型查询数据的分组。相应的,落在数据分组A的模型查询数据,它们的预测标签信息也可以使用平均值等方式来代替。通过上述方式,可以将每个数据分组中包含的模型查询数据的数据取值替换为该数据分组对应的映射值,得到每个替换后的数据分组。
在步骤S426中,获取每个替换后的数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,该风险信息用于表征该模型特征是否存在泄露风险。
在步骤S428中,基于每个模型特征对应的风险信息,确定目标模型对应的模型特征的风险评估结果。
上述步骤S426和步骤S428的具体处理过程可以参见前述相关内容,在此不再赘述。
在步骤S430中,基于目标模型对应的模型特征的风险评估结果,生成针对该风险评估结果的特征保护策略,该特征保护策略包括差分隐私保护策略、用户量级控制策略和访问频率控制策略中的一种或多种,用户量级控制策略用于控制开放给用户的数据的数量,访问频率控制策略用于控制目标模型输出预测结果的时间。
在实施中,根据上述的模型特征的风险评估结果,输出相应的模型特征保护建议,可以设置如下模型特征保护措施:差分隐私保护策略:差分隐私通过向预测标签信息中添加噪声(如随机噪声等),可以隐藏个体信息,从而保护引入噪音前具体的目标模型的输出数据;用户量级控制策略:通过控制开放给消费者的数据量级,降低特征被推断的概率;访问频率控制策略:推断模型特征需要不断查询目标模型,并获取目标模型的输出数据,通过延长目标模型输出预测结果的时间可以降低消费者的访问频率,增加特征推断所需要的时间,从而提高模型特征泄漏所需要的成本。
本说明书实施例提供一种模型特征的风险评估方法,通过基于目标模型对应的模型特征生成模型查询数据,并将模型查询数据输入到目标模型中,得到模型查询数据对应的预测标签信息,然后,可以基于模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于该分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组,之后,可以获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,该风险信息用于表征模型特征是否存在泄露风险,最终,可以基于每个模型特征对应的风险信息,确定目标模型对应的模型特征的风险评估结果,这样,通过设计评估模型特征泄漏风险的框架,填补了模型特征泄漏风险评估方面的空白,通过对模型特征对应的模型查询数据进行分组,减轻了在计算与预测标签信息相关系数过程中其他特征和噪声对最终结果的影响,能够使模型特征的泄漏风险更加清晰,更加容易被发现,有效解决特征数量较多时维度爆炸的问题。
实施例三
本说明书实施例提供的一种模型特征的风险评估方法,可以应用于多种不同的场景,例如在线交易业务的风险防控场景、信息推荐场景、身份认证场景等,相应的,目标模型可以为风险防控模型,上述模型查询数据为在线交易业务中的用户交易数据,或者,目标模型为身份认证模型,该模型查询数据为用于证明用户身份的数据,或者,目标模型为信息推荐模型,该模型查询数据包括在线购物业务中用户的历史购物信息、用户的浏览信息、用户的偏好信息中的一项或多项。
以下结合具体的在线交易业务的风险防控场景对本说明书实施例提供一种模型特征的风险评估方法进行详细说明,其中的目标模型可以为风险防控模型,上述模型查询数据为在线交易业务中的用户交易数据。对于其它场景的具体处理方式,可以参见在线交易业务的风险防控场景执行,在此不再赘述。
如图5所示,本说明书实施例提供一种模型特征的风险评估方法,该方法的执行主体可以为终端设备或服务器等,其中的终端设备可以如手机、平板电脑等移动终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以为IoT设备(具体如智能手表、车载设备等)等,其中的服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。本实施例中以执行主体为服务器为例进行详细说明,对于执行主体为终端设备的情况,可以参见下述服务器的情况处理,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S502中,基于风险防控模型对应的模型特征生成在线交易业务中的用户交易数据,并将该用户交易数据输入到风险防控模型中,得到该用户交易数据对应的预测标签信息。
在步骤S504中,基于上述用户交易数据,确定每个模型特征对应的用户交易数据的分布信息。
在实际应用中,上述模型特征可以为离散型特征,也可以为连续型特征,对于上述模型特征为离散型特征的情况,可以参见下述步骤S506和步骤S508的处理。
在步骤S506中,基于每个模型特征对应的用户交易数据,确定每个模型特征对应的数据取值。
在步骤S508中,基于上述分布信息,以每个模型特征对应的数据取值中每个数据取值为分组依据,对每个模型特征对应的用户交易数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。
对于上述模型特征为连续型特征的情况,可以参见下述步骤S510~步骤S514的处理或步骤S516~步骤S520的处理。
在步骤S510中,基于每个模型特征对应的用户交易数据,确定每个模型特征对应的数据取值。
在步骤S512中,基于上述分布信息,将每个模型特征对应的用户交易数据以上述数据取值的大小进行排序。
在步骤S514中,基于每个模型特征对应的排序后的用户交易数据和每个模型特征对应的用户交易数据的数量,以每个数据分组中包含的用户交易数据的数量相同为分组目标,对每个模型特征对应的用户交易数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。
在对连续特征划分区间时,可能会遇到数据倾斜的情况,为此,可以通过下述步骤S516~步骤S520来解决数据倾斜的情况。
在步骤S516中,如果每个模型特征对应的数据取值中存在一个或多个不同的第一数据取值对应的用户交易数据的数量超过总数量的30%,则以每个第一数据取值为分组依据,对一个或多个不同的第一数据取值对应的用户交易数据进行分组,得到一个或多个不同的数据分组。
在步骤S518中,对于每个模型特征对应的数据取值中除所述第一数据取值外的其它数据取值对应的用户交易数据,基于其它数据取值对应的用户交易数据的分布信息,将其它数据取值对应的用户交易数据以相应的数据取值的大小进行排序。
在步骤S520中,基于排序后的用户交易数据和其它数据取值对应的用户交易数据的数量,以每个数据分组中包含的用户交易数据的数量相同为分组目标,对其它数据取值对应的用户交易数据进行分组,得到一个或多个不同的数据分组。
需要说明的是,针对上述步骤S516~步骤S520的情况,上述基于上述分布信息,将每个模型特征对应的用户交易数据以上述数据取值的大小进行排序的具体处理包括:如果每个模型特征对应的数据取值中不存在对应的用户交易数据的数量超过总数量的30%的数据取值,则基于上述分布信息,将每个模型特征对应的用户交易数据以该数据取值的大小进行排序。
在步骤S522中,获取每个数据分组对应的映射值。
在步骤S524中,将每个数据分组中包含的用户交易数据的数据取值替换为该数据分组对应的映射值,得到每个替换后的数据分组。
在步骤S526中,获取每个替换后的数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,该风险信息用于表征该模型特征是否存在泄露风险。
在步骤S528中,基于每个模型特征对应的风险信息,确定风险防控模型对应的模型特征的风险评估结果。
在步骤S530中,基于风险防控模型对应的模型特征的风险评估结果,生成针对该风险评估结果的特征保护策略,该特征保护策略包括差分隐私保护策略、用户量级控制策略和访问频率控制策略中的一种或多种,用户量级控制策略用于控制开放给用户的数据的数量,访问频率控制策略用于控制风险防控模型输出预测结果的时间。
本说明书实施例提供一种模型特征的风险评估方法,通过基于目标模型对应的模型特征生成模型查询数据,并将模型查询数据输入到目标模型中,得到模型查询数据对应的预测标签信息,然后,可以基于模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于该分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组,之后,可以获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,该风险信息用于表征模型特征是否存在泄露风险,最终,可以基于每个模型特征对应的风险信息,确定目标模型对应的模型特征的风险评估结果,这样,通过设计评估模型特征泄漏风险的框架,填补了模型特征泄漏风险评估方面的空白,通过对模型特征对应的模型查询数据进行分组,减轻了在计算与预测标签信息相关系数过程中其他特征和噪声对最终结果的影响,能够使模型特征的泄漏风险更加清晰,更加容易被发现,有效解决特征数量较多时维度爆炸的问题。
实施例四
以上为本说明书实施例提供的模型特征的风险评估方法,基于同样的思路,本说明书实施例还提供一种模型特征的风险评估装置,如图6所示。
该模型特征的风险评估装置包括:模型预测模块601、数据分组模块602、风险确定模块603和风险评估模块604,其中:
模型预测模块601,基于目标模型对应的模型特征生成模型查询数据,并将所述模型查询数据输入到所述目标模型中,得到所述模型查询数据对应的预测标签信息;
数据分组模块602,基于所述模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于所述分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组;
风险确定模块603,获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,所述风险信息用于表征所述模型特征是否存在泄露风险;
风险评估模块604,基于所述每个模型特征对应的风险信息,确定所述目标模型对应的模型特征的风险评估结果。
本说明书实施例中,所述装置还包括:
特征保护模块,基于所述目标模型对应的模型特征的风险评估结果,生成针对所述风险评估结果的特征保护策略,所述特征保护策略包括差分隐私保护策略、用户量级控制策略和访问频率控制策略中的一种或多种,所述用户量级控制策略用于控制开放给用户的数据的数量,所述访问频率控制策略用于控制所述目标模型输出预测结果的时间。
本说明书实施例中,所述模型特征为离散型特征,所述数据分组模块602,包括:
第一取值确定单元,基于每个模型特征对应的模型查询数据,确定每个模型特征对应的数据取值;
第一分组单元,基于所述分布信息,以每个模型特征对应的数据取值中每个数据取值为分组依据,对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。
本说明书实施例中,所述模型特征为连续型特征,所述数据分组模块602,包括:
第二取值确定单元,基于每个模型特征对应的模型查询数据,确定每个模型特征对应的数据取值;
排序单元,基于所述分布信息,将每个模型特征对应的模型查询数据以所述数据取值的大小进行排序;
第二分组单元,基于每个模型特征对应的排序后的模型查询数据和每个模型特征对应的模型查询数据的数量,以每个数据分组中包含的模型查询数据的数量相同为分组目标,对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。
本说明书实施例中,所述排序单元,如果每个模型特征对应的数据取值中不存在对应的模型查询数据的数量超过预设数量阈值的数据取值,则基于所述分布信息,将每个模型特征对应的模型查询数据以所述数据取值的大小进行排序。
本说明书实施例中,所述装置还包括:
第一分组模块,如果每个模型特征对应的数据取值中存在一个或多个不同的第一数据取值对应的模型查询数据的数量超过预设数量阈值,则以每个所述第一数据取值为分组依据,对一个或多个不同的第一数据取值对应的模型查询数据进行分组,得到一个或多个不同的数据分组;
对于每个模型特征对应的数据取值中除所述第一数据取值外的其它数据取值对应的模型查询数据,执行下述处理:
排序模块,基于所述其它数据取值对应的模型查询数据的分布信息,将所述其它数据取值对应的模型查询数据以所述数据取值的大小进行排序;
第二分组模块,基于排序后的模型查询数据和所述其它数据取值对应的模型查询数据的数量,以每个数据分组中包含的模型查询数据的数量相同为分组目标,对所述其它数据取值对应的模型查询数据进行分组,得到一个或多个不同的数据分组。
本说明书实施例中,所述装置还包括:
映射值获取模块,获取每个所述数据分组对应的映射值;
替换模块,将每个所述数据分组中包含的模型查询数据的数据取值替换为所述数据分组对应的映射值,得到每个替换后的数据分组;
所述风险确定模块603,获取每个替换后的数据分组对应的模型特征与相应的预测标签信息之间的相关系数。
本说明书实施例中,所述目标模型为风险防控模型,所述模型查询数据为在线交易业务中的用户交易数据,或者,所述目标模型为身份认证模型,所述模型查询数据为用于证明用户身份的数据,或者,所述目标模型为信息推荐模型,所述模型查询数据包括在线购物业务中用户的历史购物信息、用户的浏览信息、用户的偏好信息中的一项或多项。
本说明书实施例提供一种模型特征的风险评估装置,通过基于目标模型对应的模型特征生成模型查询数据,并将模型查询数据输入到目标模型中,得到模型查询数据对应的预测标签信息,然后,可以基于模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于该分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组,之后,可以获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,该风险信息用于表征模型特征是否存在泄露风险,最终,可以基于每个模型特征对应的风险信息,确定目标模型对应的模型特征的风险评估结果,这样,通过设计评估模型特征泄漏风险的框架,填补了模型特征泄漏风险评估方面的空白,通过对模型特征对应的模型查询数据进行分组,减轻了在计算与预测标签信息相关系数过程中其他特征和噪声对最终结果的影响,能够使模型特征的泄漏风险更加清晰,更加容易被发现,有效解决特征数量较多时维度爆炸的问题。
实施例五
以上为本说明书实施例提供的模型特征的风险评估装置,基于同样的思路,本说明书实施例还提供一种模型特征的风险评估设备,如图7所示。
所述模型特征的风险评估设备可以为上述实施例提供终端设备或服务器等。
模型特征的风险评估设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器701和存储器702,存储器702中可以存储有一个或一个以上存储应用程序或数据。其中,存储器702可以是短暂存储或持久存储。存储在存储器702的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对模型特征的风险评估设备中的一系列计算机可执行指令。更进一步地,处理器701可以设置为与存储器702通信,在模型特征的风险评估设备上执行存储器702中的一系列计算机可执行指令。模型特征的风险评估设备还可以包括一个或一个以上电源703,一个或一个以上有线或无线网络接口704,一个或一个以上输入输出接口705,一个或一个以上键盘706。
具体在本实施例中,模型特征的风险评估设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对模型特征的风险评估设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
基于目标模型对应的模型特征生成模型查询数据,并将所述模型查询数据输入到所述目标模型中,得到所述模型查询数据对应的预测标签信息;
基于所述模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于所述分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组;
获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,所述风险信息用于表征所述模型特征是否存在泄露风险;
基于所述每个模型特征对应的风险信息,确定所述目标模型对应的模型特征的风险评估结果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于模型特征的风险评估设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供一种模型特征的风险评估设备,通过基于目标模型对应的模型特征生成模型查询数据,并将模型查询数据输入到目标模型中,得到模型查询数据对应的预测标签信息,然后,可以基于模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于该分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组,之后,可以获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,该风险信息用于表征模型特征是否存在泄露风险,最终,可以基于每个模型特征对应的风险信息,确定目标模型对应的模型特征的风险评估结果,这样,通过设计评估模型特征泄漏风险的框架,填补了模型特征泄漏风险评估方面的空白,通过对模型特征对应的模型查询数据进行分组,减轻了在计算与预测标签信息相关系数过程中其他特征和噪声对最终结果的影响,能够使模型特征的泄漏风险更加清晰,更加容易被发现,有效解决特征数量较多时维度爆炸的问题。
实施例六
进一步地,基于上述图1到图5所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
基于目标模型对应的模型特征生成模型查询数据,并将所述模型查询数据输入到所述目标模型中,得到所述模型查询数据对应的预测标签信息;
基于所述模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于所述分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组;
获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,所述风险信息用于表征所述模型特征是否存在泄露风险;
基于所述每个模型特征对应的风险信息,确定所述目标模型对应的模型特征的风险评估结果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于上述一种存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供一种存储介质,通过基于目标模型对应的模型特征生成模型查询数据,并将模型查询数据输入到目标模型中,得到模型查询数据对应的预测标签信息,然后,可以基于模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于该分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组,之后,可以获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,该风险信息用于表征模型特征是否存在泄露风险,最终,可以基于每个模型特征对应的风险信息,确定目标模型对应的模型特征的风险评估结果,这样,通过设计评估模型特征泄漏风险的框架,填补了模型特征泄漏风险评估方面的空白,通过对模型特征对应的模型查询数据进行分组,减轻了在计算与预测标签信息相关系数过程中其他特征和噪声对最终结果的影响,能够使模型特征的泄漏风险更加清晰,更加容易被发现,有效解决特征数量较多时维度爆炸的问题。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (10)
1.一种模型特征的风险评估方法,所述方法包括:
基于目标模型对应的模型特征生成模型查询数据,并将所述模型查询数据输入到所述目标模型中,得到所述模型查询数据对应的预测标签信息;
基于所述模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于所述分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组;
获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,所述风险信息用于表征所述模型特征是否存在泄露风险;
基于所述每个模型特征对应的风险信息,确定所述目标模型对应的模型特征的风险评估结果。
2.根据权利要求1所述的方法,所述方法还包括:
基于所述目标模型对应的模型特征的风险评估结果,生成针对所述风险评估结果的特征保护策略,所述特征保护策略包括差分隐私保护策略、用户量级控制策略和访问频率控制策略中的一种或多种,所述用户量级控制策略用于控制开放给用户的数据的数量,所述访问频率控制策略用于控制所述目标模型输出预测结果的时间。
3.根据权利要求1所述的方法,所述模型特征为离散型特征,所述基于所述分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组,包括:
基于每个模型特征对应的模型查询数据,确定每个模型特征对应的数据取值;
基于所述分布信息,以每个模型特征对应的数据取值中每个数据取值为分组依据,对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。
4.根据权利要求1所述的方法,所述模型特征为连续型特征,所述基于所述分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组,包括:
基于每个模型特征对应的模型查询数据,确定每个模型特征对应的数据取值;
基于所述分布信息,将每个模型特征对应的模型查询数据以所述数据取值的大小进行排序;
基于每个模型特征对应的排序后的模型查询数据和每个模型特征对应的模型查询数据的数量,以每个数据分组中包含的模型查询数据的数量相同为分组目标,对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组。
5.根据权利要求4所述的方法,所述基于所述分布信息,将每个模型特征对应的模型查询数据以所述数据取值的大小进行排序,包括:
如果每个模型特征对应的数据取值中不存在对应的模型查询数据的数量超过预设数量阈值的数据取值,则基于所述分布信息,将每个模型特征对应的模型查询数据以所述数据取值的大小进行排序。
6.根据权利要求5所述的方法,所述方法还包括:
如果每个模型特征对应的数据取值中存在一个或多个不同的第一数据取值对应的模型查询数据的数量超过预设数量阈值,则以每个所述第一数据取值为分组依据,对一个或多个不同的第一数据取值对应的模型查询数据进行分组,得到一个或多个不同的数据分组;
对于每个模型特征对应的数据取值中除所述第一数据取值外的其它数据取值对应的模型查询数据,执行下述处理:
基于所述其它数据取值对应的模型查询数据的分布信息,将所述其它数据取值对应的模型查询数据以所述数据取值的大小进行排序;
基于排序后的模型查询数据和所述其它数据取值对应的模型查询数据的数量,以每个数据分组中包含的模型查询数据的数量相同为分组目标,对所述其它数据取值对应的模型查询数据进行分组,得到一个或多个不同的数据分组。
7.根据权利要求1-6中任一项所述的方法,所述方法还包括:
获取每个所述数据分组对应的映射值;
将每个所述数据分组中包含的模型查询数据的数据取值替换为所述数据分组对应的映射值,得到每个替换后的数据分组;
所述获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,包括:
获取每个替换后的数据分组对应的模型特征与相应的预测标签信息之间的相关系数。
8.根据权利要求7所述的方法,所述目标模型为风险防控模型,所述模型查询数据为在线交易业务中的用户交易数据,或者,所述目标模型为身份认证模型,所述模型查询数据为用于证明用户身份的数据,或者,所述目标模型为信息推荐模型,所述模型查询数据包括在线购物业务中用户的历史购物信息、用户的浏览信息、用户的偏好信息中的一项或多项。
9.一种模型特征的风险评估装置,所述装置包括:
模型预测模块,基于目标模型对应的模型特征生成模型查询数据,并将所述模型查询数据输入到所述目标模型中,得到所述模型查询数据对应的预测标签信息;
数据分组模块,基于所述模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于所述分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组;
风险确定模块,获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,所述风险信息用于表征所述模型特征是否存在泄露风险;
风险评估模块,基于所述每个模型特征对应的风险信息,确定所述目标模型对应的模型特征的风险评估结果。
10.一种模型特征的风险评估设备,所述模型特征的风险评估设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
基于目标模型对应的模型特征生成模型查询数据,并将所述模型查询数据输入到所述目标模型中,得到所述模型查询数据对应的预测标签信息;
基于所述模型查询数据,确定每个模型特征对应的模型查询数据的分布信息,并基于所述分布信息对每个模型特征对应的模型查询数据进行分组,得到每个模型特征对应的一个或多个不同的数据分组;
获取每个数据分组对应的模型特征与相应的预测标签信息之间的相关系数,并基于获取的相关系数,确定每个模型特征对应的风险信息,所述风险信息用于表征所述模型特征是否存在泄露风险;
基于所述每个模型特征对应的风险信息,确定所述目标模型对应的模型特征的风险评估结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311140596.0A CN117290879A (zh) | 2023-09-05 | 2023-09-05 | 一种模型特征的风险评估方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311140596.0A CN117290879A (zh) | 2023-09-05 | 2023-09-05 | 一种模型特征的风险评估方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117290879A true CN117290879A (zh) | 2023-12-26 |
Family
ID=89250907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311140596.0A Pending CN117290879A (zh) | 2023-09-05 | 2023-09-05 | 一种模型特征的风险评估方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117290879A (zh) |
-
2023
- 2023-09-05 CN CN202311140596.0A patent/CN117290879A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Veale et al. | Algorithms that remember: model inversion attacks and data protection law | |
CN110020938B (zh) | 交易信息处理方法、装置、设备及存储介质 | |
CN108665143B (zh) | 风控模型的评估方法及装置 | |
CN110322349B (zh) | 一种数据的处理方法、装置及设备 | |
CN111400705B (zh) | 一种应用程序的检测方法、装置及设备 | |
CN113312667B (zh) | 一种风险防控方法、装置及设备 | |
CN108596410B (zh) | 一种风控事件自动处理方法及装置 | |
CN110633989B (zh) | 一种风险行为生成模型的确定方法及装置 | |
CN110020427B (zh) | 策略确定方法和装置 | |
CN111538869B (zh) | 一种交易异常群组的检测方法、装置及设备 | |
CN108665277A (zh) | 一种信息处理方法及装置 | |
CN113516480A (zh) | 一种支付风险识别方法、装置及设备 | |
CN112966113A (zh) | 一种数据的风险防控方法、装置及设备 | |
CN110634030A (zh) | 应用的业务指标挖掘方法、装置及设备 | |
CN114429222A (zh) | 一种模型的训练方法、装置及设备 | |
CN114417411A (zh) | 一种端云开发系统、模型的处理方法、装置及设备 | |
CN110263817B (zh) | 一种基于用户账号的风险等级划分方法及装置 | |
CN115712866A (zh) | 数据处理方法、装置及设备 | |
CN113221717B (zh) | 一种基于隐私保护的模型构建方法、装置及设备 | |
TW202038217A (zh) | 資料標籤產生、模型訓練、事件識別方法和裝置 | |
CN112819156A (zh) | 一种数据处理方法、装置及设备 | |
CN115408449B (zh) | 一种用户行为的处理方法、装置及设备 | |
CN116051118B (zh) | 行为时序模型的分析方法及装置 | |
CN115456801B (zh) | 个人信用的人工智能大数据风控系统、方法和存储介质 | |
CN113992429B (zh) | 一种事件的处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |