CN112100623A

CN112100623A - 机器学习模型的风险评估方法、装置、设备及存储介质

Info

Publication number: CN112100623A
Application number: CN202010851765.1A
Authority: CN
Inventors: 徐坤; 洪爵; 蒋精华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-18
Anticipated expiration: 2040-08-21
Also published as: CN112100623B

Abstract

本申请公开了一种机器学习模型的风险评估方法、装置、设备及存储介质，涉及人工智能技术领域。具体实现方案为：获取机器学习模型的自身信息泄露的风险值；获取所述机器学习模型泄露训练数据的风险值；基于所述机器学习模型的自身信息泄露的风险值和所述机器学习模型泄露训练数据的风险值，评估所述机器学习模型的风险值，与现有技术相比，能够提供一种机器学习模型的有效的风险评估方案，实现对机器学习模型的隐私泄露风险进行准确地评估。

Description

机器学习模型的风险评估方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术，尤其涉及人工智能技术领域，具体涉及一种机器学习模型的风险评估方法、装置、设备及存储介质。

背景技术

机器学习技术正在得到越来越多的应用。基于大规模数据并经过一定时间和计算成本训练得到的机器学习模型是机器学习技术得到真正应用的关键。比如，机器学习即服务(Machine Learning as a Service；MLaaS)的模式使得机器学习模型能够给诸如金融、医疗、销售等诸多领域方便地提供各种服务。

然而，机器学习模型在提供服务的同时，也面临着各种各样的威胁和攻击，存在着隐私泄露的风险。一旦发生隐私泄露，势必给企业和个人带来危害。因此，作为机器学习模型提供和改进服务时的重要参考，评估机器学习模型的隐私泄露风险是亟需的重要需求。现有技术中并没有针对机器学习模型隐私泄露进行系统化地评估，多是从攻击和测试的角度对机器学习模型进行漏洞或风险利用，以此证明机器学习模型存在着隐私泄露风险。因此，亟需提供一种机器学习模型的风险评估方案，以评估机器学习模型的隐私泄露风险。

发明内容

为了弥补现有技术的不足，本申请提供了一种机器学习模型的风险评估方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种机器学习模型的风险评估方法，其中，所述方法包括如下步骤：

获取机器学习模型的自身信息泄露的风险值；

获取所述机器学习模型泄露训练数据的风险值；

基于所述机器学习模型的自身信息泄露的风险值和所述机器学习模型泄露训练数据的风险值，评估所述机器学习模型的风险值。

根据本申请的另一方面，提供了一种机器学习模型的风险评估装置，其中，所述装置包括：

第一获取模块，用于获取机器学习模型的自身信息泄露的风险值；

第二获取模块，用于获取所述机器学习模型泄露训练数据的风险值；

评估模块，用于基于所述机器学习模型的自身信息泄露的风险值和所述机器学习模型泄露训练数据的风险值，评估所述机器学习模型的风险值。

根据本申请的再一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本申请的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本申请的技术，能够提供一种机器学习模型的有效的风险评估方案，实现对机器学习模型的隐私泄露风险进行准确地评估。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是根据本申请第三实施例的示意图；

图4是根据本申请第四实施例的示意图；

图5是用来实现本申请实施例的机器学习模型的风险评估方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请第一实施例的示意图；如图1所示，本实施例提供一种机器学习模型的风险评估方法，具体可以包括如下步骤：

S101、获取机器学习模型的自身信息泄露的风险值；

S102、获取机器学习模型泄露训练数据的风险值；

S103、基于机器学习模型的自身信息泄露的风险值和机器学习模型泄露训练数据的风险值，评估机器学习模型的风险值。

本实施例的机器学习模型的风险评估方法的执行主体为机器学习模型的风险评估装置，该机器学习模型的风险评估装置可以为一电子实体或者也可以为软件集成的应用，使用时运行在计算机设备上，实现对机器学习模型的风险进行评估。

本实施例的机器学习模型的风险评估方法，基于如下两方面来对机器学习模型进行风险评估：

(1)机器学习模型的自身信息泄露；机器学习模型的自身信息泄露包括用来提供服务的机器学习模型的模型结构泄露、模型算法泄露和模型参数泄露等。这类自身信息泄露的检测方法多采用各种模型提取攻击方法，通过访问提供服务的机器学习模型，提取或训练出与原始模型功能类似或一致的模型，造成机器学习模型的自身信息泄露。

(2)机器学习模型的训练数据的泄露；由于机器学习模型的训练需要大量用户数据，因此在使用机器学习模型提供服务的时候，可能会泄露用于训练模型的原始用户数据信息，造成训练数据的泄露。这类信息泄露的检测方法主要采用成员推理攻击方法或属性推理攻击方法，在对机器学习模型的访问中获取训练数据集的信息，造成训练数据的泄露。

但是，现有技术并没有针对机器学习模型的隐私泄露的风险进行系统化地评估的方案，本实施例的技术方案，可以系统化地评估机器学习模型的泄露的风险，并同时可以对评估的风险进行量化，以更加有效地来评估机器学习模型的风险。

基于以上所述，为了综合评估机器学习模型的风险值，本实施例中，可以采用模型提取攻击方法，通过访问机器学习模型，提取或训练出与原始模型功能类似或一致的模型，进而获取机器学习模型的自身信息泄露的风险值，然后再采用成员推理攻击方法或属性推理攻击方法，在对机器学习模型的访问中获取机器学习模型的训练数据的信息，进而获取机器学习模型泄露训练数据的风险值；最后，基于得到的机器学习模型的自身信息泄露的风险值和机器学习模型泄露训练数据的风险值，综合评估机器学习模型的风险值；本实施例得到的机器学习模型的风险值为一个量化的风险值，能够准确地表征机器学习模型的风险信息。

本实施例的机器学习模型的风险评估方法，通过获取机器学习模型的自身信息泄露的风险值和机器学习模型泄露训练数据的风险值，进而基于机器学习模型的自身信息泄露的风险值和机器学习模型泄露训练数据的风险值，综合评估机器学习模型的风险值，与现有技术相比，能够提供一种机器学习模型的有效的风险评估方案，实现对机器学习模型的隐私泄露风险进行准确地评估。

图2是根据本申请第二实施例的示意图；本实施例的机器学习模型的风险评估方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。如图2所示，本实施例的机器学习模型的风险评估方法，具体可以包括如下步骤：

S201、获取机器学习模型的综合成本；

S202、获取机器学习模型的提取攻击风险值；

S203、基于机器学习模型的综合成本和机器学习模型的提取攻击风险值，配置机器学习模型的自身信息泄露的风险值；

可选地，步骤S201在实现时，可以从机器学习模型的算法成本、结构成本、参数成本、训练时间成本、空间成本以及其他成本等各个角度来综合表征该机器学习模型的综合成本。例如，具体可以包括如下步骤：

(a1)获取预先为机器学习模型配置的算法成本、结构成本、参数成本、训练时间成本、空间成本以及其他成本中的至少一个；

(b1)基于机器学习模型的算法成本、结构成本、参数成本、训练时间成本、空间成本以及其他成本中的至少一个，配置机器学习模型的综合成本。

具体地，该步骤(a1)和(b1)用于实现机器学习模型的成本量化，可以包括对机器学习模型本身训练成本和机器学习模型的价值的量化。不同的机器学习模型，由于其采用的模型训练算法不同、模型结构不同、模型参数及参数规模不同、训练所需的时间和存储空间不同，所以也将会有不同的价值成本。比如，训练一个用于人脸识别的模型和一个用于车辆自动驾驶的模型肯定具有不同的成本。本实施例中，通过将算法成本、结构成本、参数成本、训练时间成本、空间成本以及其他成本进行量化，以进一步配置机器学习模型的综合成本。具体地各成本的量化可以由模型服务提供方根据该机器学习模型的具体情况配置得到的。例如，具体可以采用如下方式，对机器学习模型M的综合成本Cost进行量化：

Cost＝f_cost(AL_M+ST_M+PA_M+TI_M+SP_M+O_M) (1)

其中，AL_M表示机器学习模型的算法(Algorithm)成本，用于衡量模型训练算法的难易度；ST_M表示机器学习模型的结构(Structure)成本，用于衡量模型的结构的复杂度；PA_M表示机器学习模型的参数(Parameter)成本，用于衡量模型参数的规模；TI_M表示机器学习模型的训练的时间(Time)成本，用于衡量模型训练花费的时间长短；SP_M表示机器学习模型的训练的空间(Space)成本，用于衡量模型训练花费的存储空间大小；O_M表示机器学习模型的其他(Other)成本，用于代表其他需要考虑的成本。上述各个成本的取值范围在[1，10]的区间内。模型服务提供方可以根据自己的模型作出评估，在取值范围内取值越大，表示成本越高；反之取值越小，标识成本越低。f_cost表示一个将非负输入映射到(0，1)范围的单调递增函数，用来将综合成本Cost收敛到(0，1)范围内；比如f_cost可以是一个双曲正切函数，即

Cost值越大，说明机器学习模型成本越高。实际应用中，该f_cost还可以采用其他单调递增函数来实现，在此不再一一举例赘述。

采用上述方式，可以得到一个量化后的机器学习模型的综合成本，能够准确地综合表征该机器学习模型的成本。

进一步可选地，步骤S202在实现时，具体可以包括如下步骤：

(a2)获取机器学习模型在多次提取攻击测试中提取攻击的准确度；

(b2)获取机器学习模型在多次提取攻击测试中提取攻击的保真度；

(c2)基于机器学习模型在多次提取攻击测试中，各次提取攻击测试下提取攻击的准确度和保真度，配置机器学习模型的提取攻击风险值。

本实施例中，机器学习模型的提取攻击风险值指的是机器学习模型面对模型提取攻击的风险大小。模型提取攻击MEA(ModelExtraction Attack)是时下机器学习攻防研究的一个热点，已经有众多成功有效的模型提取攻击方法被提出。MEA指的是攻击者通过正常用户的身份访问机器学习模型提供的服务时，通过构造特定的查询数据或根据模型返回的预测数据，得到一个和原始模型功能类似或一致的模型。模型提取攻击严重威胁着模型数据隐私的安全，是造成机器学习隐私泄露的重要因素。因此，需要对机器学习模型面对模型提取攻击的风险值进行量化，以评估机器学习模型的提取攻击风险。

首先，采用模型提取攻击优势进行量化，该模型提取攻击优势MEA_adv可以采用如下方式计算：

其中，Acc_adv表示模型提取攻击的准确度(Accuracy)优势，Fid表示模型提取攻击的保真度(Fidelity)。模型提取攻击优势MEA_adv为t次模型提取攻击测试下，Acc_adv和Fid乘积的期望；这里的期望可以理解为平均值，即t次模型提取攻击测试下，Acc_adv和Fid乘积的平均值。Acc_adv指的是攻击提取到的模型M′的预测准确性相比原始机器学习模型M预测准确性的优势，表征提取攻击测试中提取攻击的准确度，可以采用如下方式计算：

Fid指的是对于给定输入数据，攻击提取到的模型M′和原始机器学习模型M输出结果一致的概率，表征提取攻击测试中提取攻击的保真度，可以采用如下方式计算：

其中，D表示多次提取攻击测试中输入攻击提取到的模型M′和原始机器学习模型M的测试数据集，|D|表示测试数据集中包括的测试数据的数量；n_D表示多次提取攻击测试中，攻击提取到的模型M′和原始机器学习模型M输出结果一致的记录的数量。

根据以上定义，原始机器学习模型M面对模型提取攻击的风险值R_MEA可量化为模型提取攻击优势MEA_adv，即：

R_MEA＝MEA_adv (5)

采用上述方式，可以得到一个量化后的机器学习模型的提取攻击风险值，能够准确地综合表征该机器学习模型的提取攻击风险。

上述步骤S201-S203为上述图1所示实施例的步骤S101的一种实现方式，该种实现方式中结合机器学习模型的综合成本和提取攻击风险值来评估机器学习模型的结构泄露的风险值。实际应用中，也可以仅参考机器学习模型的综合成本，或者仅参考提取攻击风险值来评估机器学习模型的结构泄露的风险值，或者还可以参考机器学习模型的其他参数如机器学习模型的危险性等等来实现机器学习模型的自身信息泄露的风险值的评估，在此不再一一举例赘述。

此时，对应地基于步骤S203，可以在量化后的机器学习模型的综合成本和机器学习模型的提取攻击风险值的基础上，评估机器学习模型的自身信息泄露的风险值，例如机器学习模型的自身信息泄露的风险值R_{model_leak}，可以按照如下公式(6)直接取机器学习模型的综合成本和机器学习模型的提取攻击风险值的乘积：

R_{model_leak}＝Cost·R_MEA (6)

该公式表示模型成本越大，模型提取攻击的风险值越高，则模型泄露的风险越高。实际应用中，机器学习模型的自身信息泄露的风险值R_{model_leak}还可以采用机器学习模型的综合成本和机器学习模型的提取攻击风险值的其他数学运算来实现，例如，可以取两者的相加、加权相加或者其他数学运算。

S204、获取机器学习模型的敏感度信息；

S205、获取机器学习模型面对成员关系推理攻击的风险值；

S206、获取机器学习模型面对属性推理攻击的风险值；

S207、基于机器学习模型的敏感度信息、机器学习模型面对成员关系推理攻击的风险值以及机器学习模型面对属性推理攻击的风险值，配置机器学习模型泄露训练数据的风险值；

S208、基于机器学习模型的自身信息泄露的风险值和机器学习模型泄露训练数据的风险值，评估机器学习模型的风险值。

在实际应用中，机器学习模型的训练需要大量的用户数据，其中很可能包含很多敏感的用户数据。对于训练数据的拥有者来说，这些数据是他们的重要隐私，需要保证机器学习模型在使用时，不会泄露训练数据相关信息，保护数据提供者的隐私。因此，机器学习模型训练数据泄露的风险同样需要进行评估量化。

机器学习任务所属领域不同，训练机器学习模型所使用的数据种类相应也会不同。显然，不同种类的训练数据具有不同的敏感程度。比如，动物识别模型训练数据的敏感度显然大大低于人脸识别模型。在此情况下，一旦对上述两个模型成功发起诸如成员关系推理攻击或属性推理攻击，造成的隐私泄露危害程度也明显不同，也就是说，上述两个模型实际上是具有不同程度的隐私泄露风险。然而，当前并没有对面向不同任务的机器学习模型的敏感度的划分和定级，而模型的敏感度和模型隐私泄露风险却有着非常紧密的相关性。为此，本实施例中，可以将对机器学习模型的敏感度进行量化。

机器学习模型敏感度的量化基于训练模型所使用数据的敏感度，而训练数据的敏感度与该训练数据所关联的用户信息相关。具体地，从用户信息的种类出发，可以将训练数据的敏感度划分为三个维度：个人属性敏感度、社会属性敏感度和自然属性敏感度。此时对应地，步骤S204在具体实现时，可以包括如下步骤：

(a3)获取机器学习模型的训练数据的个人属性敏感度；

(b3)获取机器学习模型的训练数据的社会属性敏感度；

(c3)获取机器学习模型的训练数据的自然属性敏感度；

(d3)基于个人属性敏感度、社会属性敏感度和自然属性敏感度，配置机器学习模型的敏感度信息。

其中个人属性敏感度I是指训练数据包含可以直接定位到用户个体或从用户个体提取出的相关信息的敏感度。比如，个人属性敏感度I可以定义为集合{ID，PHY，PSY}，ID表示身份信息，如身份证；PHY表示生理信息，如体重；PSY表示心理信息，如偏好。根据以上三种信息的包含与否以及包含程度，分别在[0，1]范围内取值，具体所取数值可以基于模型提供方基于训练数据的具体情况来配置。然后基于ID、PHY、PSY的取值，采用如下公式计算个人属性敏感度I：I＝ID+PHY+PSY。

其中社会属性敏感度S是指训练数据包含的用户个体在从事社会活动时的相关信息的敏感度。比如，社会属性敏感度S可以定义为集合{OCC，PRO，REL}。OCC表示职业信息；PRO表示财产相关信息，如收入；REL表示人际信息，如婚否。根据以上三种信息的包含与否以及包含程度，分别在[0，1]范围内取值，具体所取数值可以基于模型提供方基于训练数据的具体情况来配置。然后基于OCC，PRO，REL的取值，采用如下公式计算社会属性敏感度S：计算S＝OCC+PRO+REL。

其中自然属性敏感度N是指训练数据包含的用户个体在自然地理上的相关信息的敏感度。比如，自然属性敏感度N可以定义为集合{LOC，ACT}。LOC表示位置信息，如实时位置；ACT表示活动信息，如打篮球。根据以上两种信息的包含与否以及包含程度，分别在[0，1]范围内取值，具体所取数值可以基于模型提供方基于训练数据的具体情况来配置。然后基于LOC、ACT，采用如下公式计算自然属性敏感度N：N＝LOC+ACT。

基于以上三个维度的敏感度，对于机器学习模型的敏感度信息Sensitivity进行量化，可采用如下方式计算：

Sensitivity＝f_sensitivity(I+S+N) (7)

其中f_sensitivity表示一个将非负输入映射到(0，1)范围的单调递增函数，用来将Sensitivity收敛到(0，1)范围内，比如f_sensitivity可以是一个双曲正切函数，即

Sensitivity值越大，说明机器学习模型的敏感度越高。实际应用中，也可以基于以上三个维度的敏感度，采用其他单调递增函数来实现，在此不再一一举例赘述。

可选地，本实施例在配置机器学习模型的敏感度信息时也可以仅基于个人属性敏感度、社会属性敏感度和自然属性敏感度中的任意一种或者两种来实现，实现原理相同。

通过采用上述方式，可以对机器学习模型的敏感度信息进行量化，实现对机器学习模型的敏感度信息进行准确评估。

进一步地，成员关系推理攻击风险值指的是机器学习模型面对成员关系推理攻击的风险大小。成员关系推理攻击MIA(Membership Inference Attack)指的是攻击者通过正常用户的身份访问机器学习模型提供的服务时，通过一定的攻击手段，能够判断出指定的数据是否是模型训练数据集的成员。当训练集包含用户敏感信息的时候，该攻击将造成用户敏感数据的隐私泄露。因此，需要对机器学习模型面对成员关系推理攻击的风险值进行量化。对应地，步骤S205在具体实现时，可以包括如下步骤：

(a4)获取机器学习模型在多次成员关系推理攻击测试中的攻击到训练数据的真正例；

(b4)获取机器学习模型在多次成员关系推理攻击测试中的攻击到非训练数据的假正例；

(c4)基于机器学习模型在多次成员关系推理攻击测试中，攻击到训练数据的真正例和攻击到非训练数据的假正例，配置机器学习模型面对成员关系推理攻击的风险值。

可选地，本实施例中，配置机器学习模型面对成员关系推理攻击的风险值的时候，也可以仅基于机器学习模型在多次成员关系推理攻击测试中，攻击到训练数据的真正例，或者也可以仅基于机器学习模型在多次成员关系推理攻击测试中，攻击到非训练数据的假正例来实现配置。

该步骤(a4)-(c4)用于对成员关系推理攻击优势进行量化，例如，成员关系推理攻击优势MIA_adv，可以采用如下方式计算：

MIA_adv＝TP_n-FP_n (8)

其中，n表示对机器学习模型进行MIA攻击测试的次数，TP_n表示这n次攻击测试的真正例(True Positive Rate)，FP_n表示这n次攻击的假正例(False Positive Rate，即n次攻击结果中，攻击者认为是攻击到训练集成员，但是实际攻击到的是非训练集成员的数量，占所有非成员数据攻击测试的比例。所以，MIA_adv量化为n次攻击中TP_n和FP_n之差，n越大，量化结果的MIA_adv越准确。

根据以上定义，机器学习原始模型M面对成员关系推理攻击的风险值R_MIA可量化为成员关系推理攻击优势MIA_adv，即：

R_MIA＝MIA_adv (9)

举例来说，若对机器学习模型进行了100次MIA，真实情况为前50次target data为member，即训练集成员，后50次为non-member，即非训练集成员。攻击测试得到的结果为前70次target data为member，后30次为non-member。在这种情况下，

所以R_MIA＝1.0-0.4＝0.6。

进一步地，属性推理攻击风险值指的是机器学习模型面对属性推理攻击的风险大小。属性推理攻击PIA(Property Inference Attack)指的是攻击者通过正常用户的身份访问机器学习模型提供的服务时，通过一定的攻击手段，能够恢复出训练数据的某些属性。当攻击恢复出训练数据的敏感属性时，该攻击将造成用户敏感数据的隐私泄露。因此，需要对机器学习模型面对属性推理攻击的风险值进行量化。对应地，步骤S206在具体实现时，可以包括如下步骤：

(a5)获取机器学习模型在各次属性推理攻击中攻击到训练数据的数个敏感属性的召回率；

(b5)获取机器学习模型在各次属性推理攻击中攻击到训练数据的数个敏感属性的假正例；

(c5)基于机器学习模型在多次属性推理攻击测试中，攻击到训练数据的数个敏感属性的召回率和攻击到训练数据的数个敏感属性的假正例，配置机器学习模型面对属性推理攻击的风险值。

可选地，配置机器学习模型面对属性推理攻击的风险值的时候也可以仅基于机器学习模型在多次属性推理攻击测试中，攻击到训练数据的数个敏感属性的召回率，或者也可以仅基于机器学习模型在多次属性推理攻击测试中，攻击到训练数据的数个敏感属性的假正例来实现。

该步骤(a5)-(c5)用于对采用属性推理攻击优势进行量化，例如，属性推理攻击优势PIA_adv采用如下方式计算：

其中s表示被攻击模型的训练数据中的敏感属性的数量，可通过特征提取算法或人工评估得到，RC_s表示一次PIA的攻击测试的结果在s个敏感属性上的召回率RecallRate，FP_s表示一次PIA的攻击测试的结果在s个敏感属性上的假正例(False PositiveRate)，即一次PIA的攻击测试的攻击结果中，攻击者认为属于s个敏感属性、实际上不属于s个敏感属性的数量，占s个敏感属性的比例。所以，PIA_adv量化为n次PIA的攻击测试结果在s个敏感属性上的RC_s和FP_s之差的期望；这里的期望仍为平均值的意思，即PIA_adv表示n次PIA的攻击测试结果中，RC_s和FP_s之差的平均值。其中n越大，量化结果中的属性推理攻击优势PIA_adv越准确。

根据以上定义，机器学习模型M面对属性推理攻击的风险值R_PIA可量化为属性推理攻击优势PIA_adv，即：

R_PIA＝PIA_adv (11)

举例来说，若对训练样本的属性维度为256的机器学习模型进行一次PIA，其中256个属性维度中，前100个属性为敏感属性。攻击测试得到的PIA结果中，前70个属性为敏感属性，后186个属性为非敏感属性。在这种情况下，

所以

在经过上述步骤S204机器学习模型的敏感度信息的量化、经过步骤S205机器学习模型的成员关系推理攻击的量化、以及经过步骤S206机器学习模型的属性推理攻击的风险值量化的基础上，机器学习模型泄露训练数据的风险值R_{data_leak}可以量化为机器学习模型的敏感度信息和两种推理攻击风险值之和(即面对成员关系推理攻击的风险值以及面对属性推理攻击的风险值之和)的乘积。模型敏感度越大，成员关系推理攻击和属性推理攻击的风险值越高，则训练数据泄露的风险越高。可以采用如下方式计算：

R_{data_leak}＝Sensitivity·(R_MIA+R_PIA) (12)

当然实际应用中，还可以采用其他数学方式来表示，如两种推理攻击风险值之和可以采用两种推理攻击风险值的加权和等其他数学运算方式。其中的乘积也可以采用一定系数的乘积或者其他数学运算方式来实现，在此不再一一举例赘述。

上述步骤S204-S207为上述图1所示实施例的步骤S102的一种实现方式，该种实现方式中结合机器学习模型的敏感度信息、面对属性推理攻击的风险值以及面对属性推理攻击的风险值，来评估机器学习模型的泄露训练数据的风险值。实际应用中，也可以仅参考机器学习模型的敏感度信息、面对属性推理攻击的风险值以及面对属性推理攻击的风险值中的任意一种或者两种来评估机器学习模型的泄露训练数据的风险值。或者也可以参考机器学习模型的其他参数如机器学习模型的训练数据的安全性等参数来实现，在此不再一一举例赘述。

基于前两个阶段量化的机器学习模型的自身信息泄露的风险值和机器学习模型泄露训练数据的风险值，可以综合评估得到机器学习模型的风险值R，该机器学习模型的风险值R为一个量化的机器学习模型的全局隐私泄露风险值，可以通过如下方式计算得到：

R＝f_R(α·R_{model_leak}+β·R_{data_leak}) (13)

其中，α和β分别表示系统参数，用于调节机器学习模型的自身信息泄露风险值和机器学习模型泄露训练数据的风险值在全局风险中所占比例，f_R表示一个将非负输入映射到(0，1)范围的单调递增函数，用来将R收敛到(0，1)范围内，比如f_R可以是一个双曲正切函数，即

R值越大，说明机器学习模型的隐私泄露风险越高。同理，实际应用中，f_R也可以采用其他单调递增函数来实现，在此不再一一举例赘述。

本实施例的机器学习模型的风险评估方法，通过采用上述技术方案，创新性地提出了一种系统化地、量化机器学习模型的隐私泄露风险的方案，通过量化机器学习模型的风险，使得机器学习模型的隐私泄露风险能够被更加直观地呈现，也能够为机器学习模型的服务提供商提供更有价值的参考。而且，本实施例的技术方案，同时考虑了机器学习模型的自身信息泄露的风险值和机器学习模型泄露训练数据的风险值，使得评估出的风险能够更加全面、真实的反映机器学习模型在现实中面临的风险，结果更具意义。再者，本实施例的技术方案，有效利用了现有各种前沿有效的攻击测试的方法，不仅从工程上验证了模型隐私泄露风险的存在，也从理论上利用了这些攻击来更加准确地量化模型隐私泄露风险。

图3是根据本申请第三实施例的示意图；如图3所示，本实施例提供一种机器学习模型的风险评估装置300，包括：

第一获取模块301，用于获取机器学习模型的自身信息泄露的风险值；

第二获取模块302，用于获取机器学习模型泄露训练数据的风险值；

评估模块303，用于基于机器学习模型的自身信息泄露的风险值和机器学习模型泄露训练数据的风险值，评估机器学习模型的风险值。

本实施例的机器学习模型的风险评估装置300，通过采用上述模块实现机器学习模型的风险评估的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图4是根据本申请第四实施例的示意图；如图4所示，本实施例的机器学习模型的风险评估装置300，在上述图3所述实施例的技术方案的基础上，进一步更加详细地介绍本申请的技术方案。

如图4所示，本实施例的机器学习模型的风险评估装置300中，第一获取模块301，包括：

综合成本获取单元3011，用于获取机器学习模型的综合成本；

提取攻击风险获取单元3012，用于获取机器学习模型的提取攻击风险值；

第一配置单元3013，用于基于机器学习模型的综合成本和机器学习模型的提取攻击风险值，评估机器学习模型的自身信息泄露的风险值。

进一步可选地，其中综合成本获取单元3011，用于：

获取预先为机器学习模型配置的算法成本、结构成本、参数成本、训练时间成本、空间成本以及其他成本中的至少一个；

基于机器学习模型的算法成本、结构成本、参数成本、训练时间成本、空间成本以及其他成本中的至少一个，配置机器学习模型的综合成本。

进一步可选地，其中，提取攻击风险获取单元3012，用于：

获取机器学习模型在多次提取攻击测试中提取攻击的准确度；

获取机器学习模型在多次提取攻击测试中提取攻击的保真度；

基于机器学习模型在多次提取攻击测试中，各次提取攻击测试下提取攻击的准确度和保真度，配置机器学习模型的提取攻击风险值。

进一步可选地，如图4所示，本实施例的机器学习模型的风险评估装置300中，第二获取模块302，包括：

敏感度获取单元3021，用于获取机器学习模型的敏感度信息；

成员关系风险获取单元3022，用于获取机器学习模型面对成员关系推理攻击的风险值；

属性风险获取单元3023，用于获取机器学习模型面对属性推理攻击的风险值；

第二配置单元3024，用于基于机器学习模型的敏感度信息、机器学习模型面对成员关系推理攻击的风险值以及机器学习模型面对属性推理攻击的风险值，配置机器学习模型泄露训练数据的风险值。

进一步可选地，其中，敏感度获取单元3021，用于：

获取机器学习模型的训练数据的个人属性敏感度；

获取机器学习模型的训练数据的社会属性敏感度；

获取机器学习模型的训练数据的自然属性敏感度；

基于个人属性敏感度、社会属性敏感度和自然属性敏感度，配置机器学习模型的敏感度信息。

进一步可选地，其中，成员关系风险获取单元3022，用于：

获取机器学习模型在多次成员关系推理攻击测试中的攻击到训练数据的真正例；

获取机器学习模型在多次成员关系推理攻击测试中的攻击到非训练数据的假正例；

基于机器学习模型在多次成员关系推理攻击测试中，攻击到训练数据的真正例和攻击到非训练数据的假正例，配置机器学习模型面对成员关系推理攻击的风险值。

进一步可选地，其中，属性风险获取单元3023，用于：

获取机器学习模型在各次属性推理攻击中攻击到训练数据的数个敏感属性的召回率；

获取机器学习模型在各次属性推理攻击中攻击到训练数据的数个敏感属性的假正例；

基于机器学习模型在多次属性推理攻击测试中，攻击到训练数据的数个敏感属性的召回率和攻击到训练数据的数个敏感属性的假正例，配置机器学习模型面对属性推理攻击的风险值。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是本申请实施例的实现机器学习模型的风险评估方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的机器学习模型的风险评估方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的机器学习模型的风险评估方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的机器学习模型的风险评估方法对应的程序指令/模块(例如，附图3和附图4所示的相关模块)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的机器学习模型的风险评估方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据实现机器学习模型的风险评估方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至实现机器学习模型的风险评估方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现机器学习模型的风险评估方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与实现机器学习模型的风险评估方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过获取机器学习模型的自身信息泄露的风险值和机器学习模型泄露训练数据的风险值，进而基于机器学习模型的自身信息泄露的风险值和机器学习模型泄露训练数据的风险值，综合评估机器学习模型的风险值，与现有技术相比，能够提供一种机器学习模型的有效的风险评估方案，实现对机器学习模型的隐私泄露风险进行准确地评估。

根据本申请实施例的技术方案，通过采用上述技术方案，创新性地提出了一种系统化地、量化机器学习模型的隐私泄露风险的方案，通过量化机器学习模型的风险，使得机器学习模型的隐私泄露风险能够被更加直观地呈现，也能够为机器学习模型的服务提供商提供更有价值的参考。而且，本实施例的技术方案，同时考虑了机器学习模型的自身信息泄露的风险值和机器学习模型泄露训练数据的风险值，使得评估出的风险能够更加全面、真实的反映机器学习模型在现实中面临的风险，结果更具意义。再者，本实施例的技术方案，有效利用了现有各种前沿有效的攻击测试的方法，不仅从工程上验证了模型隐私泄露风险的存在，也从理论上利用了这些攻击来更加准确地量化模型隐私泄露风险。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种机器学习模型的风险评估方法，其中，所述方法包括如下步骤：

获取机器学习模型的自身信息泄露的风险值；

获取所述机器学习模型泄露训练数据的风险值；

2.根据权利要求1所述的方法，其中，获取机器学习模型的自身信息泄露的风险值，包括：

获取所述机器学习模型的综合成本；

获取所述机器学习模型的提取攻击风险值；

基于所述机器学习模型的综合成本和所述机器学习模型的提取攻击风险值，配置所述机器学习模型的自身信息泄露的风险值。

3.根据权利要求2所述的方法，其中，获取所述机器学习模型的综合成本，包括：

获取预先为所述机器学习模型配置的算法成本、结构成本、参数成本、训练时间成本、空间成本以及其他成本中的至少一个；

基于所述机器学习模型的算法成本、结构成本、参数成本、训练时间成本、空间成本以及其他成本中的至少一个，配置所述机器学习模型的综合成本。

4.根据权利要求2所述的方法，其中，获取所述机器学习模型的提取攻击风险值，包括：

获取所述机器学习模型在多次提取攻击测试中提取攻击的准确度；

获取所述机器学习模型在多次提取攻击测试中提取攻击的保真度；

基于所述机器学习模型在多次提取攻击测试中，各次提取攻击测试下提取攻击的准确度和保真度，配置所述机器学习模型的提取攻击风险值。

5.根据权利要求1所述的方法，其中，获取所述机器学习模型泄露训练数据的风险值，包括：

获取所述机器学习模型的敏感度信息；

获取所述机器学习模型面对成员关系推理攻击的风险值；

获取所述机器学习模型面对属性推理攻击的风险值；

基于所述机器学习模型的敏感度信息、所述机器学习模型面对成员关系推理攻击的风险值以及所述机器学习模型面对属性推理攻击的风险值，配置所述机器学习模型泄露训练数据的风险值。

6.根据权利要求5所述的方法，其中，获取所述机器学习模型的敏感度信息，包括：

获取所述机器学习模型的训练数据的个人属性敏感度；

获取所述机器学习模型的训练数据的社会属性敏感度；

获取所述机器学习模型的训练数据的自然属性敏感度；

基于所述个人属性敏感度、所述社会属性敏感度和所述自然属性敏感度，配置所述机器学习模型的敏感度信息。

7.根据权利要求5所述的方法，其中，获取所述机器学习模型面对成员关系推理攻击的风险值，包括：

获取所述机器学习模型在多次成员关系推理攻击测试中的攻击到训练数据的真正例；

获取所述机器学习模型在多次成员关系推理攻击测试中的攻击到非训练数据的假正例；

基于所述机器学习模型在多次成员关系推理攻击测试中，攻击到训练数据的真正例和攻击到非训练数据的假正例，配置所述机器学习模型面对成员关系推理攻击的风险值。

8.根据权利要求5所述的方法，其中，获取所述机器学习模型面对属性推理攻击的风险值，包括：

获取所述机器学习模型在各次属性推理攻击中攻击到训练数据的数个敏感属性的召回率；

获取所述机器学习模型在各次属性推理攻击中攻击到训练数据的数个敏感属性的假正例；

基于所述机器学习模型在多次属性推理攻击测试中，攻击到训练数据的数个敏感属性的召回率和攻击到训练数据的数个敏感属性的假正例，配置所述机器学习模型面对属性推理攻击的风险值。

9.一种机器学习模型的风险评估装置，其中，所述装置包括：

10.根据权利要求9所述的装置，其中，所述第一获取模块，包括：

综合成本获取单元，用于获取所述机器学习模型的综合成本；

提取攻击风险获取单元，用于获取所述机器学习模型的提取攻击风险值；

第一配置单元，用于基于所述机器学习模型的综合成本和所述机器学习模型的提取攻击风险值，配置所述机器学习模型的自身信息泄露的风险值。

11.根据权利要求10所述的装置，其中，所述综合成本获取单元，用于：

12.根据权利要求10所述的装置，其中，提取攻击风险获取单元，用于：

13.根据权利要求9所述的装置，其中，所述第二获取模块，包括：

敏感度获取单元，用于获取所述机器学习模型的敏感度信息；

成员关系风险获取单元，用于获取所述机器学习模型面对成员关系推理攻击的风险值；

属性风险获取单元，用于获取所述机器学习模型面对属性推理攻击的风险值；

第二配置单元，用于基于所述机器学习模型的敏感度信息、所述机器学习模型面对成员关系推理攻击的风险值以及所述机器学习模型面对属性推理攻击的风险值，配置所述机器学习模型泄露训练数据的风险值。

14.根据权利要求13所述的装置，其中，所述敏感度获取单元，用于：

获取所述机器学习模型的训练数据的个人属性敏感度；

获取所述机器学习模型的训练数据的社会属性敏感度；

获取所述机器学习模型的训练数据的自然属性敏感度；

15.根据权利要求13所述的装置，其中，所述成员关系风险获取单元，用于：

16.根据权利要求13所述的装置，其中，所述属性风险获取单元，用于：

17.一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。