CN116097285A

CN116097285A - 评价方法、评价装置、以及评价程序

Info

Publication number: CN116097285A
Application number: CN202080105036.XA
Authority: CN
Inventors: 清水俊也; 樋口裕二
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-10-08
Filing date: 2020-10-08
Publication date: 2023-05-09
Also published as: US20230222385A1; JPWO2022074796A1; WO2022074796A1; EP4227864A4; EP4227864A1

Abstract

在对于中毒攻击的机械学习模型的以往的耐性评价方法中有评价需要庞大的时间这样的问题、数据的准备困难的问题。计算机执行基于表示机械学习模型的推理精度的相对于第一训练数据的变化而言的降低的程度的信息，生成使推理精度降低的第二训练数据，使用第二训练数据对机械学习模型进行训练，并进行训练后的机械学习模型的评价的处理。由此，在一个侧面，能够更高效地进行机械学习模型对使机械学习模型的推理精度降低的训练数据的耐性评价。

Description

评价方法、评价装置、以及评价程序

技术领域

本发明涉及评价方法、评价装置、以及评价程序。

背景技术

作为机械学习固有的安全问题之一的中毒攻击，是通过使异常数据混入机械学习模型的训练数据，来有意地改变机械学习模型，使其推理精度显著降低的攻击。

因此，预先评价机械学习模型由于中毒攻击而污染到何种程度、推理精度降低至何种程度较重要。作为机械学习模型针的对中毒攻击的耐性评价，例如有实际对机械学习模型实施中毒攻击，使推理精度降低，并评价降低程度的方法。另外，作为其它的评价方法，有使用将各个训练数据给予机械学习模型的推理的影响量化的影响函数，评价基于中毒攻击的异常数据的影响程度的方法。

非专利文献1：“Towards Poisoning of Deep Learning Algorithms withBackgradient Optimization”,L.Munoz-Gonzalez,B.Biggio,A.Demontis,A.Paudice,V.Wongrassamee,E.C.Lupu,and F.Roli

非专利文献2：“Understanding Black-box Predictions via InfluenceFunctions”,K.W.Pang,L.Percy

然而，实际实施中毒攻击的评价方法需要使用大量的异常数据重复机械学习模型的训练和推理精度的降低程度的评价，有需要庞大的时间这样的问题。另外，使用影响函数的评价方法中，虽然需要具体地准备用于评价影响程度的训练数据，但在数据的输入空间较大的情况下有特别难以进行数据的准备的问题。

发明内容

在一个侧面，目的在于提供能够更高效地进行机械学习模型针对使机械学习模型的推理精度降低的训练数据的耐性评价的评价方法、评价装置、以及评价程序。

在第一方案中，计算机执行基于表示相对于第一训练数据的变化而言的机械学习模型的推理精度的降低的程度的信息，生成使推理精度降低的第二训练数据，使用第二训练数据对机械学习模型进行训练，并进行训练后的机械学习模型的评价的处理。

在一个侧面，能够更高效地进行机械学习模型对使机械学习模型的推理精度降低的训练数据的耐性评价。

附图说明

图1是表示实施例1所涉及的评价装置10的功能构成的功能框图。

图2是表示实施例1所涉及的训练数据空间的例子的图。

图3是表示实施例1所涉及的机械学习模型的耐性评价处理的流程的流程图。

图4是表示实施例1所涉及的训练数据的更新处理的流程的流程图。

图5是表示实施例2所涉及的机械学习模型的耐性评价处理的流程的流程图。

图6是说明评价装置10的硬件构成例的图。

具体实施方式

以下，基于附图对本申请公开的评价方法、评价装置、以及评价程序的实施例进行详细说明。此外，并不通过该实施例对该发明进行限定。另外，各实施例能够在不矛盾的范围内适当地组合。

实施例1

[评价装置10的功能构成]

首先，对成为本申请公开的评价方法的执行主体的评价装置10的功能构成进行说明。图1是表示实施例1所涉及的评价装置10的功能构成的功能框图。如图1所示，评价装置10具有通信部20、存储部30、以及控制部40。

通信部20是控制与其它的装置之间的通信的处理部，例如是通信接口。

存储部30是存储各种数据、控制部40执行的程序的存储装置的一个例子，例如是存储器、硬盘等。存储部30例如也能够存储用于构建机械学习模型的模型参数、用于机械学习模型的训练数据。此外，在存储部30中，除了上述具体例以外也能够存储各种数据。

控制部40是管理评价装置10整体的处理部，例如是处理器等。控制部40具有生成部41、训练部42、评价部43、以及计算部44。此外，各处理部是处理器具有的电子电路的一个例子或者是处理器执行的进程的一个例子。

生成部41基于表示机械学习模型的推理精度的相对于训练数据的变化而言的降低的程度的信息，生成使推理精度降低的训练数据，以进行机械学习模型的针对中毒数据的耐性评价。通过针对机械学习模型的训练所使用的训练数据，生成使机械学习模型的推理精度降低的中毒数据，并在训练所使用的训练数据中追加中毒数据，来生成使推理精度降低的训练数据。

对中毒数据生成进行说明。图2是表示实施例1所涉及的训练数据空间的例子的图。在图2的例子中，以在训练数据空间有标签1～3这三个标签为例进行说明。首先，生成部41从机械学习模型的训练所使用的训练数据的全部的标签的集群中随机地选择数据作为初始点。在图2的例子中，分别随机地选择(数据A，标签1)、(数据B，标签2)、(数据C，标签3)来作为来自标签1～3的集群的初始点。此外，初始点，例如是成为用于使用梯度上升法搜索污染度更高的数据的基础的数据和标签的组合。基于初始点搜索出的数据和标签的组合最终成为中毒数据。

另外，生成部41将对从各集群中选择的各数据赋予一个或者多个与原始标签不同的标签而得到的数据追加为初始点。若使用图2进行说明，则例如由于数据A的原始标签为标签1，所以将对数据A赋予了与原始标签不同的标签亦即标签2、标签3而得到的数据追加为初始点。在图2的例子中，对赋予了原始标签的数据的三点赋予不同的标签而得到的数据有三点×不同的标签的两点的共计六点，所以在该时刻，最多生成九点的初始点。

并且，生成部41将使标签不同的数据彼此配对得到的数据追加为初始点。这里，配对是指数据转换，是使用两个数据生成一个数据的转换。例如，在训练数据中有数据x_1、x_2，各自的标签为y_1、y_2的情况下，能够通过下式计算数据(x_1，y_1)与(x_2，y_2)的配对。此外，通过配对，能够根据标签不同的一组的数据生成两个数据。第一个配对将数据x_1以及x_2作为数值或者向量值，且各个数值取a～b的范围，使λ为0～1的实数，配对1＝(λ(b－x_1)+(1－λ)(x_2－a)，y_1)，第二个配对能够使用配对2＝(λ(x_1－a)+(1－λ)(b－x_2)，y_2)计算。另外，在图2的例子中，由于标签有三个，所以不同的标签的组合有标签1－标签2、标签2－标签3、标签3－标签1这三个，能够分别对它们生成两点的配对数据。因此，通过配对，进一步追加不同的标签的组合三个×配对数据两点共计六点作为初始点。

如以上那样生成的初始点例如通过计算部44使用梯度上升法更新为污染度更高的数据。而且，重复数据的更新，直至满足规定条件为止，计算使机械学习模型的推理精度进一步降低的中毒数据。此外，针对各初始点，计算中毒数据，生成部41通过对机械学习模型的训练所使用的训练数据追加各中毒数据，生成使推理精度降低的多个训练数据。

训练部42为了进行机械学习模型的针对中毒数据的耐性评价，使用通过生成部41生成的使推理精度降低的训练数据对机械学习模型进行训练。此外，如上述那样，通过生成部41生成多个训练数据，为了评价使用各个训练数据进行训练的情况下的机械学习模型的推理精度，使用多个训练数据的每一个对机械学习模型进行训练。即，生成多个训练完毕机械学习模型。

评价部43进行通过训练部42使用使推理精度降低的训练数据进行了训练的机械学习模型的针对中毒数据的耐性评价。该评价也对多个训练完毕机械学习模型的每一个进行。另外，通过使用预先为了评价用而生成的训练数据，并使用损失函数计算使用评价用的训练数据进行了训练的机械学习模型与通过训练部42进行了训练的机械学习模型的推理精度的精度差，来进行该评价。即，计算通过训练部42使用使推理精度降低的训练数据进行了训练的机械学习模型的推理精度相对于使用评价用的训练数据进行了训练的机械学习模型降低了多少来作为精度差，进行评价。

计算部44使用梯度上升法更新通过生成部41生成的初始点，计算使机械学习模型的推理精度进一步降低的中毒数据。此外，也通过计算部44计算梯度上升法所使用的函数。该函数能够使用现有技术，或者能够通过实施训练来计算，是用于计算与对训练数据X_t追加了(数据x，标签y)时的损失函数的变化量Δ的数据x相关的梯度的函数dΔ/dx(X_v，y)。

这里，X_v是评价部43的说明时的“预先为了评价生成的训练数据”，是成为用于对机械学习模型的推理精度相对于中毒数据降低了多少进行评价的基准的数据。另外，损失函数的变化量Δ是使用评价用的训练数据X_t进行了训练的机械学习模型与使用对训练数据X_t追加了(数据x，标签y)后的训练数据X_t∪{(x，y)}进行了训练的机械学习模型之间的推理精度的精度差。若将使用评价用的训练数据X_t进行了训练的机械学习模型设为M，将使用训练数据X_t∪{(x，y)}进行了训练的机械学习模型设为M’，并将损失函数设为L，则计算部44能够根据Δ＝L(M’，X_v)－L(M，X_v)这个式子计算损失函数L的变化量。即，函数dΔ/dx(X_v，y)是测量数据x相对于损失函数L的变化量Δ而言的梯度的函数，由此，能够测量如何对标签y更新数据x，则机械学习模型的推理精度变好或者变差。

另外，虽然使用图4下文详细描述，但计算部44计算使用了使推理精度降低的训练数据的训练前后的机械学习模型的推理精度的精度差。

[处理的流程]

接下来，根据处理的流程对机械学习模型的耐性评价处理进行说明。图3是表示实施例1所涉及的机械学习模型的耐性评价处理的流程的流程图。在执行耐性评价处理时，预先生成成为用于对相对于中毒数据机械学习模型的推理精度降低了多少进行评价的基准的评价用的训练数据X_v。另外，也可以使用评价数据X_v，并使用损失函数预先计算成为对象的机械学习模型的推理精度。

首先，如图3所示，评价装置10使用训练数据X_t以及评价数据X_v计算函数dΔ/dx(X_v，y)(步骤S101)。

接下来，评价装置10从训练数据X_t的全部标签的集群选择数据作为初始点(步骤S102)。例如，随机地进行从各集群的数据选择。

接下来，评价装置10将对在步骤S102选择的数据赋予了与原始标签不同的标签后的数据追加为初始点(步骤S103)。此外，不同的标签的赋予既可以对与原始标签不同的全部的标签进行，也可以对不同的一部分的标签进行。

接下来，评价装置10将使标签不同的数据彼此配对的数据追加为初始点(步骤S104)。配对数据如上述那样，最大生成不同的标签的组合的数目×两点，并追加为初始点。此外，步骤S103以及S104的执行顺序也可以相反。

接下来，评价装置10使用固定了标签时的函数dΔ/dx(X_v，y)，更新在步骤S102～S104生成的各初始点，计算多个中毒数据(步骤S105)。例如，使用梯度上升法进行初始点的更新。更具体而言，例如若将更新前的数据设为(数据x_i，标签y)，并将更新后的数据设为(数据x_i+1，标签y)，则能够根据x _i+1＝x_i+εdΔ/dx(X_v，y)这个式子计算更新后的数据x_i+1。由于标签y固定，所以标签y不变更。i是将0作为初始值在每次更新时计数增加的数值。因此，x₀表示初始点的数据。另外，ε是被称为学习率的表示移动数据x的量的参数，例如设定较小的正数。使用这样的式子，重复进行初始点的各数据的更新，直至在固定了标签的状态下满足规定条件为止，来计算污染度更高的中毒数据。这里，规定条件例如是更新处理的执行次数达到规定的阈值、更新前后的数据之差消除而更新停止、更新后的数据相对于初始点的数据离开既定程度以上等。

接下来，评价装置10使用追加了在步骤S105计算出的中毒数据的训练数据X_t，对机械学习模型进行训练(步骤S106)。此外，由于在步骤S105中计算多个中毒数据，所以使用计算出的各中毒数据对机械学习模型进行训练，生成多个训练完毕的机械学习模型。

然后，评价装置10评价在步骤S106中使用追加了中毒数据的训练数据X_t进行了训练的机械学习模型(步骤S107)。这里，由于在步骤S106中，生成多个训练完毕的机械学习模型，所以也对训练完毕的各机械学习模型进行评价。具体而言，通过使用损失函数，计算在步骤S106生成的训练完毕的各机械学习模型与使用评价数据X_v进行了训练的机械学习模型之间的推理精度的精度差，来评价对象的机械学习模型。计算出的精度差越大，越是表示对象的机械学习模型被中毒数据污染，对中毒数据的耐性越低。在S107的执行后，图3所示的机械学习模型的耐性评价处理结束。

接下来，根据处理的流程对训练数据的更新处理进行说明。图4是表示实施例1所涉及的训练数据的更新处理的流程的流程图。在本处理中，为了使多个中毒数据的影响更近似，每当使用了中毒数据的训练前后的机械学习模型的推理精度的精度差在既定以上，则使用中毒数据更新函数dΔ/dx(X_v，y)，并重复图3的耐性评价处理。因此，在图3所示的机械学习模型的耐性评价处理的步骤S106的执行后执行本处理。

首先，如图4所示，评价装置10使用评价数据X_v、用追加了中毒数据的训练数据X_t进行了训练的机械学习模型M’、以及计算损失函数的变化量的函数Δ来计算第一精度差(步骤S201)。在将表示相对于不包含中毒数据的训练数据而言的评价数据X_v中的损失函数的值的变化量的函数设为Δ的情况下，将包含中毒数据的训练数据设为X_t，能够根据Δ(X_t，X_v)的式子计算第一精度差。

接下来，评价装置10计算使用训练数据X_t进行了训练的机械学习模型M与在步骤S106中使用追加了中毒数据的训练数据X_t进行了训练的机械学习模型M’之间的第二精度差(步骤S202)。与第一精度差相同，也能够使用损失函数L，根据L(M’，X_v)－L(M，X_v)这个式子计算第二精度差。

接下来，评价装置10计算在步骤S201计算出的第一精度差与在步骤S202计算出的第二精度差之差(步骤S203)。在两精度差之差在规定的阈值以上的情况下(步骤S204：是)，评价装置10将训练数据X_t置换为追加了中毒数据的训练数据X_t∪{(x，y)}，并从步骤S101开始重复处理(步骤S205)。

另一方面，在两精度差之差不在规定的阈值以上的情况下(步骤S204：否)，评价装置10不进行训练数据X_t的更新，并从步骤S102重复处理(步骤S206)。在S205或者S206的执行后，图4所示的训练数据的更新处理结束。

实施例2

另外，除了使用图3进行了说明的实施例1之外，机械学习模型的耐性评价处理也能够采用作为实施例2示出的以下那样的处理。图5是表示实施例2所涉及的机械学习模型的耐性评价处理的流程的流程图。与实施例1所涉及的耐性评价处理不同，在实施例2所涉及的耐性评价处理中，不仅对数据x进行相对于损失的变化量Δ的梯度，也对标签y进行相对于损失的变化量Δ的梯度。而且，在实施例2所涉及的耐性评价处理中，进一步通过梯度上升法更新数据以及标签双方，对于进行了最佳化的数据以及标签，进一步通过梯度上升法更新数据x来计算中毒数据。

首先，如图5所示，评价装置10使用训练数据X_t以及评价数据X_v，计算用于计算对X_t追加了(数据x，标签y)时的损失函数的变化量Δ的与x和y相关的梯度的函数dΔ/dx(X_v)以及dΔ/dy(X_v)(步骤S301)。用于计算与y相关的梯度的函数dΔ/dy(X_v)是测量数据y相对于损失函数L的变化量Δ而言的梯度的函数，若能够测量如何更新数据y，则机械学习模型的推理精度变好或者变差。与函数dΔ/dx(X_v)相同，函数dΔ/dy(X_v)也能够使用现有技术计算。

步骤S302～S304与实施例1的步骤S102～S104相同。然而，在步骤S303中将赋予了不同的标签的数据追加为初始点时，不是针对与原始标签不同的全部的标签进行，而是针对不同的一部分的标签进行。

接下来，评价装置10使用函数dΔ/dx(X_v)以及dΔ/dy(X_v)，更新在步骤S302～S304生成的各初始点(步骤S305)。例如，使用梯度上升法进行初始点的更新。更具体而言，例如若将更新前的数据设为(数据x_i，标签y_i)，将更新后的数据设为(数据x_i+1，标签y_i+1)，则能够根据x_i+1＝x_i+εdΔ/dx(X_v)这个式子计算更新后的数据x_i+1，能够根据y_i+1＝x_i+εdΔ/dy(X_v)这个式子计算更新后的数据y_i+1。i是将0作为初始值且每当更新都进行计数增加的数值。因此，x₀和y₀表示初始点的数据。另外，ε是被称为学习率的表示移动数据x的量的参数，例如设定较小的正数。使用这样的式子，重复初始点的各数据的更新，直至满足规定条件为止。这里，规定条件例如是更新处理的执行次数达到规定的阈值、更新前后的数据之差消除而更新停止、更新后的数据相对于初始点的数据离开既定程度以上等。此外，有计算出的标签y为小数值的情况，在该情况下，转换为整数值。

接下来，评价装置10，对于进行了更新的标签y，将y更新并固定为与y的值最接近的标签的值，之后使用函数dΔ/dx(X_v)，更新在步骤S302～S304生成的各初始点，计算多个中毒数据(步骤S306)。与步骤S105相同，步骤S306的初始点的更新也是例如使用梯度上升法重复直至满足规定条件为止。

步骤S307以及S308与实施例1的步骤S106以及S107相同。在S308的执行后，图5所示的机械学习模型的耐性评价处理结束。

[效果]

如上述那样，评价装置10基于表示机械学习模型的推理精度的相对于第一训练数据的变化的降低的程度的信息，生成使推理精度降低的第二训练数据，使用第二训练数据对机械学习模型进行训练，并进行训练后的机械学习模型的评价。

由此，通过对于对象的机械学习模型，搜索和生成污染度更高的中毒数据，并使用生成的中毒数据对机械学习模型进行训练，从而，能够进行机械学习模型对于中毒数据的耐性评价。因此，能够更高效地进行机械学习模型对于使机械学习模型的推理精度降低的训练数据的耐性评价。

另外，通过评价装置10执行的生成第二训练数据的处理，包含从第一训练数据的全部的标签的集群中随机地选择数据作为初始点，将对选择的各数据赋予了一个或者多个与原始标签不同的标签而得到的数据追加为初始点，将使标签不同的数据彼此配对得到的数据追加为初始点，并基于初始点，生成第二训练数据的处理。

由此，能够生成污染度更高的中毒数据。

另外，通过评价装置10执行的生成第二训练数据的处理包含基于多个初始点成多个第二训练数据的处理，对机械学习模型进行训练的处理包含使用多个第二训练数据的每一个对机械学习模型进行训练的处理，进行训练后的机械学习模型的评价的处理包含进行使用多个第二训练数据的每一个进行了训练的多个训练后的机械学习模型各自的评价的处理。

由此，能够高效地生成污染度更高的中毒数据。

另外，通过评价装置10执行的基于初始点生成第二训练数据的处理包含通过梯度上升法更新初始点，并基于更新后的初始点，生成第二训练数据的处理。

由此，能够生成污染度更高的中毒数据。

另外，通过评价装置10执行的基于初始点生成第二训练数据的处理，包含通过梯度上升法更新赋予初始点的标签，并基于更新后的初始点以及标签生成第二训练数据的处理。

由此，能够生成污染度更高的中毒数据。

另外，通过评价装置10执行的进行训练后的机械学习模型的评价的处理，包含使用计算损失函数的变化量的函数，计算使用第二训练数据进行了训练的机械学习模型与使用用于评价机械学习模型的第一训练数据进行了训练的机械学习模型之间的推理精度的第一精度差，并基于第一精度差，进行训练后的机械学习模型的评价的处理。

由此，能够更高效地进行机械学习模型对于中毒数据的耐性评价。

另外，评价装置10进一步执行：使用损失函数，计算使用第一训练数据进行了训练的机械学习模型与使用第二训练数据进行了训练的机械学习模型之间的推理精度的第二精度差，在第一精度差与第二精度差之差在规定的阈值以上的情况下，将第一训练数据置换为第二训练数据，生成使推理精度降低的第四训练数据，使用第四训练数据对机械学习模型进行训练，并进行使用第四训练数据训练后的机械学习模型的评价的处理。

由此，能够使多个中毒数据的影响更近似。

另外，虽然到此为止对本发明的实施例1以及2进行了说明，但本发明除了上述的实施例以外，也可以以各种不同方式实施。

[系统]

对于在上述说明中、附图中示出的处理顺序、控制顺序、具体名称、包含各种数据、参数的信息来说，除了特别记载的情况之外，能够任意地变更。另外，在实施例中进行了说明的具体例、分布、数值等仅为一个例子，能够任意地变更。

另外，图示的各装置的各构成要素是功能概念性的，并不需要一定在物理上如图示那样构成。即，各装置的分散、合并的具体方式并不限定于图示的方式。换句话说，构成为能够根据各种负荷、使用状况等，按照任意的单位在功能上或者物理上对其全部或者一部分进行分散、合并。例如，能够使评价装置10的生成部41和计算部44合并。

并且，在各装置中进行的各处理功能能够通过CPU以及在该CPU中解析执行的程序实现其全部或者任意的一部分，或者能够作为基于布线逻辑的硬件实现其全部或者任意的一部分。

[硬件]

对上述的评价装置10的硬件构成进行说明。图6是表示评价装置10的硬件构成例的图。如图6所示，评价装置10具有通信部10a、HDD(Hard Disk Drive：硬盘驱动器)10b、存储器10c、以及处理器10d。另外，图6所示的各部通过总线等相互连接。

通信部10a是网络接口卡等，进行与其它的服务器的通信。HDD10b存储使图1所示的功能动作的程序、数据。

处理器10d通过从HDD10b等读出执行与图1所示的各处理部相同的处理的程序并展开于存储器10c，使执行图1所说明的各功能的进程动作。例如，该进程执行与评价装置10具有的各处理部相同的功能。具体而言，例如处理器10d从HDD10b等读出具有与生成部41、训练部42等相同的功能的程序。然后，处理器10d执行进行与生成部41、训练部42等相同的处理的进程。

这样，评价装置10通过读出并执行程序作为执行各处理的信息处理装置进行动作。另外，评价装置10也能够通过由介质读取装置从记录介质读出上述程序，并执行读出的上述程序来实现与上述的实施例相同的功能。此外，在该其它的实施例中所说的程序并不限定于由评价装置10执行。例如，在其它的计算机或者服务器执行程序的情况下，或者在它们协作地执行程序的情况下，也能够相同地应用本发明。

此外，该程序能够经由因特网等网络分发。另外，该程序能够记录于硬盘、软盘(FD)、CD－ROM、MO(Magneto－Optical disk：磁光盘)、DVD(Digital Versatile Disc：数字多用盘)等计算机能够读取的记录介质，并通过由计算机从记录介质读出来执行。

附图标记说明

10…评价装置，10a…通信部，10b…HDD，10c…存储器，10d…处理器，20…通信部，30…存储部，40…控制部，41…生成部，42…训练部，43…评价部，44…计算部。

Claims

1.一种评价方法，其特征在于，

计算机执行如下处理：

基于表示机械学习模型的推理精度的相对于第一训练数据的变化而言的降低的程度的信息，生成使上述推理精度降低的第二训练数据；

使用上述第二训练数据对上述机械学习模型进行训练；以及

进行训练后的上述机械学习模型的评价。

2.权利要求1所述的评价方法，其特征在于，

生成上述第二训练数据的处理包含如下处理：

从上述第一训练数据的全部的标签的集群中随机地选择数据作为初始点；

将对上述选择的各数据赋予了一个或者多个与原始标签不同的标签而得到的数据追加为上述初始点；

将使上述标签不同的数据彼此配对得到的数据追加为上述初始点；

基于上述初始点，生成上述第二训练数据。

3.权利要求2所述的评价方法，其特征在于，

生成上述第二训练数据的处理包含基于多个上述初始点生成多个上述第二训练数据的处理，

对上述机械学习模型进行训练的处理包含使用上述多个第二训练数据的每一个对上述机械学习模型进行训练的处理，

进行上述训练后的机械学习模型的评价的处理包含进行使用上述多个第二训练数据的每一个进行了训练的多个上述训练得到的机械学习模型各自的评价的处理。

4.权利要求2或者3所述的评价方法，其特征在于，

基于上述初始点生成上述第二训练数据的处理包含如下处理：

通过梯度上升法更新上述初始点；

基于上述更新后的初始点，生成上述第二训练数据。

5.权利要求4所述的评价方法，其特征在于，

通过上述梯度上升法更新赋予到上述初始点的标签；

基于上述更新后的初始点和标签，生成上述第二训练数据。

6.权利要求1所述的评价方法，其特征在于，

进行上述训练后的机械学习模型的评价的处理包含如下处理：

使用对损失函数的变化量进行计算的函数，计算使用上述第二训练数据进行了训练的上述机械学习模型与使用上述第一训练数据进行了训练的上述机械学习模型之间的上述推理精度的第一精度差；

基于上述第一精度差，进行上述训练后的机械学习模型的评价。

7.权利要求6所述的评价方法，其特征在于，

上述计算机进一步执行如下处理：

使用上述损失函数，计算使用上述第一训练数据进行了训练的上述机械学习模型与使用上述第二训练数据进行了训练的上述机械学习模型之间的上述推理精度的第二精度差；

在上述第一精度差与上述第二精度差之差在规定的阈值以上的情况下，将上述第一训练数据置换为上述第二训练数据，生成使上述推理精度降低的第四训练数据；

使用上述第四训练数据对上述机械学习模型进行训练；

进行使用上述第四训练数据进行了训练的上述机械学习模型的评价。

8.一种评价装置，其特征在于，具有：

生成部，基于表示机械学习模型的推理精度的相对于第一训练数据的变化而言的降低的程度的信息，生成使上述推理精度降低的第二训练数据；

训练部，使用上述第二训练数据对上述机械学习模型进行训练；以及

评价部，进行训练后的上述机械学习模型的评价。

9.一种评价程序，其特征在于，

使计算机执行如下处理：

使用上述第二训练数据对上述机械学习模型进行训练；

进行训练后的上述机械学习模型的评价。