CN112000578A

CN112000578A - 人工智能系统的测试方法和装置

Info

Publication number: CN112000578A
Application number: CN202010872749.0A
Authority: CN
Inventors: 宗志远
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-11-27
Anticipated expiration: 2040-08-26
Also published as: CN112000578B

Abstract

本说明书实施例提供了一种人工智能系统的测试方法和装置。根据该实施例的方法，首先，获取至少一个实际检测对象，并且，生成至少一个干扰检测对象；然后，将至少一个干扰检测对象以及至少一个实际检测对象分别作为样本检测对象，组成包括至少两个样本检测对象的测试样本集；之后，从测试样本集中选取至少一个样本检测对象，每一次选取的样本检测对象可能是实际检测对象也可能是干扰检测对象，之后，将选取的对象分别输入人工智能系统，并监控人工智能系统对输入的实际检测对象或者干扰检测对象的检测结果，从而得到人工智能系统的测试结果。

Description

人工智能系统的测试方法和装置

技术领域

本说明书一个或多个实施例涉及人工智能技术领域，尤其涉及针对人工智能系统的测试方法和装置。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的快速发展，在很多业务实现中，都加入了AI系统来作为业务系统的一部分。比如，在交通站点处需要进行人脸识别，则可以由AI系统来对人脸进行识别处理。

AI系统的可靠性关系到整个业务，因此，需要对AI系统进行测试。目前，对AI系统进行测试都是在将AI系统应用到业务系统之前，即在AI系统上线之前来进行测试的。因此，希望能有改进的方案，能够在AI系统被应用到业务系统中之后对AI系统的实际运行情况进行测试。

发明内容

本说明书一个或多个实施例描述了一种人工智能系统的测试方法和装置，能够在AI系统被应用到业务系统中之后对AI系统的实际运行情况进行测试。

根据第一方面，提供了一种人工智能系统的测试方法，该方法包括：

获取至少一个实际检测对象；所述实际检测对象为：在所述人工智能系统的业务应用场景中采集到的、已经被所述人工智能系统验证成功的检测对象；

生成至少一个干扰检测对象；

将至少一个所述干扰检测对象以及至少一个所述实际检测对象分别作为样本检测对象，组成包括至少两个样本检测对象的测试样本集；

从所述测试样本集中选取至少一个样本检测对象；

将选取的至少一个所述样本检测对象分别输入所述人工智能系统；

监控所述人工智能系统对输入的至少一个样本检测对象的处理，以得到所述人工智能系统的测试结果。

在一个实施例中，根据以下方式生成至少一个干扰检测对象包括：

根据检测对象的特征，利用模拟生成算法模拟出所述至少一个干扰检测对象。

在这样的情况下，当检测对象包括人脸图像时；则所述模拟生成算法包括Deepfake模型算法或者GAN模型算法；

当检测对象包括人的声音时，则所述模拟生成算法包括GAN模型算法。

在另一个实施例中，通过以下方式生成至少一个干扰检测对象包括：

获取至少一个可用检测对象；所述可用检测对象为满足所述人工智能系统的输入要求的检测对象；

利用扰动技术，对所述至少一个可用检测对象进行扰动，以得到所述至少一个干扰检测对象。

在一个实施例中，根据对所述人工智能系统的测试任务，确定所述测试样本集中的所述实际检测对象的个数以及所述干扰检测对象的个数。

在另一个实施例中，根据人工智能系统在业务应用场景中的干扰统计数据，确定所述测试样本集中的所述实际检测对象的个数以及所述干扰检测对象的个数。

在一个实施例中，所述监控所述人工智能系统对输入的至少一个样本检测对象的处理，以得到所述人工智能系统的测试结果，包括：

针对分别输入所述人工智能系统的每一个样本检测对象，监控所述人工智能系统的智能算法是否调用了当前输入的样本检测对象，如果否，则确定所述人工智能系统的所述智能算法当前出现异常。

在又一个实施例中，所述监控所述人工智能系统对输入的至少一个样本检测对象的处理，以得到所述人工智能系统的测试结果，包括：

针对分别输入所述人工智能系统的每一个样本检测对象，如果当前输入的所述样本检测对象为实际检测对象时，监控所述人工智能系统的所述智能算法是否输出验证错误的结果，如果是，则确定所述人工智能系统的所述智能算法当前出现异常。

在另一个实施例中，所述监控所述人工智能系统对输入的至少一个样本检测对象的处理，以得到所述人工智能系统的测试结果，包括：

针对分别输入所述人工智能系统的每一个样本检测对象，如果当前输入的所述样本检测对象为干扰检测对象时，监控所述人工智能系统的所述智能算法是否输出验证成功的结果，如果是，则确定所述人工智能系统的所述智能算法当前出现异常。

进一步地，在一个实施例中，当输入所述人工智能系统的所述样本检测对象为干扰检测对象，且该干扰检测对象为利用扰动技术对可用检测对象进行扰动而生成；其中，所述可用检测对象为满足所述人工智能系统的输入要求的检测对象；

则，该方法进一步包括：在利用扰动技术对可用检测对象进行扰动来生成所述干扰检测对象时，计算该干扰检测对象对应的扰动幅度值；

则，在监控到所述人工智能系统的所述智能算法输出验证成功的结果之后，并在确定所述人工智能系统的所述智能算法当前出现异常之前，进一步包括：

判断当前输入的干扰检测对象对应的扰动幅度值是否大于预先设置的扰动阈值；如果大于，则继续执行所述确定所述人工智能系统的所述智能算法当前出现异常。

在一个实施例中，当检测对象包括图像时，计算干扰检测对象对应的扰动幅度值包括以下中的至少一项：

计算加入到可用检测对象中的扰动像素的数量与该可用检测对象的像素的数量的比值，以得到所述干扰检测对象对应的扰动幅度值；

利用可用检测对象和根据该可用检测对象所生成的干扰检测对象，计算L2范数值，以得到所述干扰检测对象对应的扰动幅度值。

根据一种实施方式，在至少两个测试周期中的每一个测试周期，分别执行所述人工智能系统的测试方法；

该方法进一步包括：

确定当前测试周期内的至少一个第一干扰检测对象；所述第一干扰检测对象满足：在所述人工智能系统中输入该第一干扰检测对象时所述智能算法输出验证成功的结果；以及

根据至少一个所述第一干扰检测对象，对当前测试周期内使用的干扰算法或干扰技术进行调整；

所述生成至少一个干扰检测对象包括：在每一个测试周期中，利用当前的干扰算法或干扰技术，分别生成该测试周期内的至少一个干扰检测对象。

根据第二方面，提供一种人工智能系统的测试装置，该装置包括：

获取单元，配置为获取至少一个实际检测对象；所述实际检测对象为：在所述人工智能系统的业务应用场景中采集到的、已经被所述人工智能系统验证成功的检测对象；

干扰生成单元，配置为生成至少一个干扰检测对象；

样本生成单元，配置为将至少一个所述干扰检测对象以及至少一个所述实际检测对象分别作为样本检测对象，组成包括至少两个样本检测对象的测试样本集；

输入处理单元，配置为从所述测试样本集中选取至少一个样本检测对象，将选取的至少一个所述样本检测对象分别输入所述人工智能系统；

监控单元，配置为监控所述人工智能系统对输入的至少一个样本检测对象的处理，以得到所述人工智能系统的测试结果。

在一个实施例中，所述干扰生成单元，配置为执行以下中的至少一项：

根据检测对象的特征，利用模拟生成算法模拟出所述至少一个干扰检测对象；

获取至少一个可用检测对象，并利用扰动技术对所述至少一个可用检测对象进行扰动，以得到所述至少一个干扰检测对象；所述可用检测对象为满足所述人工智能系统的输入要求的检测对象。

在这样的情况下，当检测对象包括人脸图像时，则所述模拟生成算法包括：Deepfake模型算法或者GAN模型算法；

当检测对象包括人的声音时，则所述模拟生成算法包括：GAN模型算法。

在一个实施例中，所述样本生成单元，配置为执行以下中的至少一项：

根据所述人工智能系统的测试任务，确定所述测试样本集中的所述实际检测对象的个数以及所述干扰检测对象的个数；

根据所述人工智能系统在业务应用场景中的干扰统计数据，确定所述测试样本集中的所述实际检测对象的个数以及所述干扰检测对象的个数。

在一个实施例中，所述监控单元，配置为执行以下中的至少一项：

针对输入所述人工智能系统的每一个样本检测对象，监控所述人工智能系统的智能算法是否调用了当前输入的样本检测对象，如果否，则确定所述人工智能系统的所述智能算法当前出现异常；

针对输入所述人工智能系统的每一个样本检测对象，如果当前输入的所述样本检测对象为实际检测对象时，监控所述人工智能系统的所述智能算法是否输出验证错误的结果，如果是，则确定所述人工智能系统的所述智能算法当前出现异常；

针对输入所述人工智能系统的每一个样本检测对象，如果当前输入的所述样本检测对象为干扰检测对象时，监控所述人工智能系统的所述智能算法是否输出验证成功的结果，如果是，则确定所述人工智能系统的所述智能算法当前出现异常。

进一步地，在一个实施例中，当输入所述人工智能系统的所述样本检测对象为干扰检测对象，且该干扰检测对象为所述干扰生成单元利用扰动技术对可用检测对象进行扰动而生成；其中，所述可用检测对象为满足所述人工智能系统的输入要求的检测对象；

则，干扰生成单元进一步配置为：在利用扰动技术对可用检测对象进行扰动来生成所述干扰检测对象时，计算该干扰检测对象对应的扰动幅度值；

则，所述监控单元进一步配置为：在监控到所述人工智能系统的所述智能算法输出验证成功的结果之后，并在确定所述人工智能系统的所述智能算法当前出现异常之前，判断当前输入的干扰检测对象对应的扰动幅度值是否大于预先设置的扰动阈值；如果大于，则继续执行所述确定所述人工智能系统的所述智能算法当前出现异常。

在一个实施例中，所述检测对象包括图像；

干扰生成单元被配置为执行以下中的至少一项：

进一步地，在一个实施例中，所述监控单元进一步配置为，确定当前测试周期内的至少一个第一干扰检测对象；所述第一干扰检测对象满足：在所述人工智能系统中输入该第一干扰检测对象时所述智能算法输出验证成功的结果；以及

所述干扰生成单元进一步配置为，根据至少一个所述第一干扰检测对象，对当前测试周期内使用的干扰算法或干扰技术进行调整，在每一个测试周期中，利用当前的干扰算法或干扰技术，分别生成该测试周期内的至少一个干扰检测对象。

根据第三方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

根据本说明书实施例提供的方法和装置，考虑到在人工智能系统上线后，在实际的业务应用场景中会遇到的问题，选取了实际检测对象以及干扰检测对象来作为样本检测对象，并输入人工智能系统中。因为实际检测对象是历史上曾经输入到该人工智能系统，且验证通过的检测对象，因此，用这种已知结果应为验证成功的检测对象，则可以验证人工智能系统上线后，在测试过程中能否对此种检测对象再次验证成功。同时，由于干扰检测对象是不应该被验证成功的检测对象，因此，则可以验证人工智能系统上线后，在测试过程中能否识别出干扰检测对象。并且，由于实际检测对象与干扰检测对象是作为样本检测对象掺杂在测试样本集中的，也能够反映业务应用场景的实际情况，因此，本说明书实施例提供的方法和装置能够得到人工智能系统的测试结果，从而实现了在AI系统被应用到业务系统中之后对AI系统的实际运行情况进行测试。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了在一个例子中AI系统应用于火车站业务应用场景中的示意图；

图2示出了在另一个例子中AI系统应用于楼宇门禁业务应用场景中的示意图；

图3示出根据一个实施例的AI系统的测试方法的流程图；

图4示出在一个实施例中从实际的业务应用场景中获取的已被AI系统验证成功的人脸图像的示意图；

图5示出在一个实施例中利用Deepfake模型算法制造出的人脸图像的示意图；

图6示出在一个实施例中利用颜色扰动技术对人脸图像进行扰动后的图像的示意图；

图7示出根据又一个实施例的AI系统的测试方法的流程图；

图8示出根据一个实施例的AI系统的测试装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

如前所述，希望能够在AI系统被应用到业务应用场景中之后，即在AI系统上线之后，对AI系统的实际运行情况进行测试。而如果要测试AI系统在上线之后的性能，那么在测试过程中，则需要模拟出AI系统在实际的业务应用场景中会面临的问题。

AI系统上线后，在实际的业务应用场景中面临的问题包括：实际输入到AI系统中的检测对象的特点跟AI系统所应用到的具体业务应用场景相关。也就是说，不是任意满足输入要求的检测对象比如任意一张包括人脸的图像，都适合于测试被应用在一个特定业务应用场景中的用于人脸识别的AI系统，也不是任意业务应用场景中采集的检测对象比如任意背景环境的人脸图像，都适合于测试被应用在一个特定业务应用场景中的用于人脸识别的AI系统。本说明书中，检测对象是这样一种对象：能够由AI系统进行检测及识别的对象。比如，对于用于人脸识别的AI系统，检测对象是包括人脸的图像；再如，对于用于声音识别的AI系统，检测对象是包括人声的声波。举例说明该问题。用于实现人脸识别的AI系统用在火车站人脸识别业务应用场景和楼宇门禁业务应用场景中时，人脸图像的特点是不同的。参见图1，对于火车站人脸识别业务应用场景，检测对象即采集的图像的特点包括：人脸及物品繁杂，背景多样。参见图2，对于楼宇门禁人脸识别的业务应用场景，检测对象即从门禁处采集的图像的特点包括：人脸相对单一，背景相对固定。可见，同一个AI系统用在不同的业务应用场景中时，检测对象的特点是不同的。因此，在AI系统上线之后，为了对AI系统进行更好地测试，需要考虑输入到AI系统中的实际检测对象是结合了该AI系统的业务应用场景的特点。

AI系统上线后，在实际的业务应用场景中会面临的问题还包括：AI系统会遇到黑客、黑产的攻击，从而接收到用于攻击的检测对象。比如，以用于人脸识别的AI系统为例，在对该AI系统进行攻击时，会向该AI系统中输入仿造的人脸图像。因此，在AI系统上线之后，为了对AI系统进行更好地测试，可以将非正常采集的干扰检测对象(比如一张假的人脸图像)输入到AI系统中，来测试AI系统对该干扰检测对象的处理情况。

下面描述以上构思的具体实现方式。

图3示出根据一个实施例的AI系统的测试方法的流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图3所示，该方法包括，步骤301，获取至少一个实际检测对象，实际检测对象是这样一种对象：在AI系统的业务应用场景中采集到的、已经被该AI系统验证成功的检测对象；步骤303，生成至少一个干扰检测对象；步骤305，将至少一个干扰检测对象以及至少一个实际检测对象分别作为样本检测对象，组成包括至少两个样本检测对象的测试样本集；步骤307，从测试样本集中选取至少一个样本检测对象，将选取的至少一个样本检测对象分别输入AI系统；以及步骤309，监控AI系统对输入的至少一个样本检测对象的处理，以得到所述AI系统的测试结果。

在图3所示的测试方法中，考虑到在AI系统上线后，在实际的业务应用场景中会遇到的问题，选取了实际检测对象以及干扰检测对象来作为样本检测对象，并输入AI系统中。因为实际检测对象是历史上曾经输入到该AI系统，且验证通过的检测对象，因此，用这种已知结果应为验证成功的检测对象，则可以验证AI系统上线后，在测试过程中能否对此种检测对象再次验证成功。同时，由于干扰检测对象是不应该被验证成功的检测对象，因此，则可以验证AI系统上线后，在测试过程中能否识别出干扰检测对象。并且，由于实际检测对象与干扰检测对象是作为样本检测对象掺杂在测试样本集中的，也能够反映业务应用场景的实际情况，因此，本说明书实施例提供的方法和装置能够得到AI系统的测试结果，从而实现了在AI系统被应用到业务系统中之后对AI系统的实际运行情况进行测试。

下面描述图3所示的各个步骤的执行方式。

首先，在步骤301，获取至少一个实际检测对象。

如前所述，在AI系统上线之后，为了对AI系统进行更好地测试，可以结合该AI系统实际被应用到的业务应用场景，获取在该业务应用场景中采集到的、已经被该AI系统验证成功的检测对象，以作为输入AI系统的实际检测对象。

在一个实施例中，步骤301之前，可以预先执行如下处理：AI系统在业务应用场景中工作时，从该业务应用场景中采集至少一个检测对象，并将该至少一个检测对象逐一输入AI系统，利用AI系统对该检测对象进行处理，当AI系统对一个检测对象验证成功后，会将该验证成功的检测对象保存到数据库中。通过该预先执行的处理，数据库中则保存了至少一个在该AI系统的业务应用场景中采集到的、已经被该AI系统验证成功的检测对象。这样，步骤301中，可以是从该数据库中获取至少一个实际检测对象。具体地，可以是直接从数据库中读取出至少一个实际检测对象，或者可以是接收其他设备从数据库中读取并发来的至少一个实际检测对象。

以用于楼宇门禁的人脸识别的AI系统为例，来说明步骤301。在AI系统工作时，会从楼宇门禁位置处采集人脸图像，并将采集到的人脸图像输入到AI系统中，AI系统对该人脸图像进行处理，比如判断当前输入的人脸图像是否通过了活体算法以及比对算法的验证，如果通过验证，则控制楼宇的门禁打开，允许相关人员进入。该验证成功的人脸图像也被保存到数据库中。这样，在步骤301中，就直接从数据库中读取至少一个人脸图像。

以检测对象为人脸图像为例，图4示出了一种从实际的业务应用场景中获取的已被AI系统验证成功的人脸图像，此种人脸图像则可以作为实际检测对象。

步骤303，生成至少一个干扰检测对象。

如前所述，AI系统在业务应用场景中，会接收到用于攻击的检测对象。为此，为了对AI系统进行更好地测试，可以生成至少一个干扰检测对象，以便模拟用于攻击AI系统的检测对象。

可以理解，可以采用多种方式来实现步骤303中生成至少一个干扰检测对象。

在一个实施例中，采用方式A即“无中生有”方式来生成至少一个干扰检测对象。

该方式A中，根据检测对象的特征，利用模拟生成算法模拟出至少一个干扰检测对象。比如，如果AI系统的检测对象为人脸图像，那么，可以利用模拟生成算法模拟出至少一个人脸图像。在一个实施例中，可以利用Deepfake模型算法或者GAN模型算法制造出至少一个人脸图像。比如如图5所示，利用Deepfake模型算法创造出的人脸图像。

如果AI系统的检测对象为人的声音，那么，可以利用模拟生成算法模拟出至少一个人的声音。在一个实施例中，可以利用GAN模型算法创造出至少一个人的声音。

在另一个实施例中，可以采用方式B即“变形”方式来生成至少一个干扰检测对象。

在一种实现方式中，方式B的处理可以包括如下步骤，

步骤B1，获取至少一个可用检测对象，该可用检测对象为满足该AI系统的输入要求的检测对象；以及

步骤B2，利用扰动技术，对至少一个可用检测对象进行扰动，以得到至少一个干扰检测对象。

在上述步骤B1中，获取的可用检测对象满足该AI系统的输入要求即可，而不是限定在只能从该AI系统的业务应用场景中获取检测对象。比如，用于人脸识别的AI系统，任意一张包括人脸的图像均满足AI系统的输入要求，因此，任意业务应用场景中的一张包括人脸的图像都可以作为步骤B1中的可用检测对象，而不是只能从AI系统应用的特定业务应用场景比如楼宇门禁处获取人脸图像。

在上述步骤B2中，对可用检测对象进行扰动所利用的扰动技术，可以根据检测对象的特点来确定。比如，如果AI系统的检测对象是人脸图像，那么，可以对步骤B1获取的可用检测对象即任意业务应用场景中的一张包括人脸的图像进行扰动，具体可以是光照扰动、噪声扰动或者颜色扰动等。比如，对图4所示的人脸图像进行颜色扰动后，得到图6所示的人脸图像。再如，如果AI系统的检测对象是人的声音，那么，可以对步骤B1获取的可用检测对象即任意业务应用场景中的人的声音进行扰动，扰动的方式可以是声音拼接、音色扰动或者音调扰动等。

在步骤303的方式B中，在利用扰动技术对可用检测对象进行扰动来生成干扰检测对象时，还可以进一步获取对可用检测对象的干扰幅度，以便对AI系统进行更为准确的测试。此种情况，在执行完步骤B2之后，还可以进一步执行步骤B3，计算该干扰检测对象对应的扰动幅度值。利用步骤B3来获取干扰检测对象对应的扰动幅度值，可以确定对一个可用检测对象的干扰程度，比如，如果计算出的扰动幅度值小于20％，则可以确定为轻微扰动，如果计算出的扰动幅度值介于20％到50％之间，则可以确定为中等程度的扰动，如果计算出的扰动幅度值大于50％，则可以确定为严重扰动。

在一个实施例中，如果检测对象包括图像，那么步骤B3中计算该干扰检测对象对应的扰动幅度值可以包括：计算加入到可用检测对象中的扰动像素的数量与该可用检测对象的像素的数量的比值，以得到所述干扰检测对象对应的扰动幅度值。

在另一个实施例中，如果检测对象包括图像，那么步骤B3中计算该干扰检测对象对应的扰动幅度值可以包括：

可以理解，上述步骤301和步骤303之间并没有规定的执行上的先后顺序。

接下来，步骤305，将至少一个干扰检测对象以及至少一个实际检测对象分别作为样本检测对象，组成包括至少两个样本检测对象的测试样本集。

测试样本集中包括了能够反映AI系统的业务应用场景的实际检测对象以及反映攻击行为的干扰检测对象。可见，测试样本集中的样本检测对象能够更加准确地提供AI系统在实际的业务应用场景中面临的问题。

在测试样本集中，干扰检测对象的数量以及实际检测对象的数量可以影响对AI系统测试的过程及结果，因此，可以根据实际业务需要来确定测试样本集中的实际检测对象的个数以及干扰检测对象的个数。

在一个实施例中，步骤305中根据对AI系统的测试任务，确定测试样本集中的实际检测对象的个数以及干扰检测对象的个数。比如，如果当前需要测试AI系统的抗攻击性能，则可以在测试样本集中加入更多的干扰检测对象以及相对更少的实际检测对象。

在另一个实施例中，步骤305中根据AI系统在业务应用场景中的干扰统计数据，确定测试样本集中的实际检测对象的个数以及干扰检测对象的个数。比如，用于人脸识别的AI系统应用于楼宇门禁业务应用场景中，则可以根据在历史统计中，接收到的攻击人脸图像的数量与实际业务中从楼宇门禁处采集的人脸图像的比例比如为1:50，来确定测试样本集中放入2张干扰的人脸图像，并放入100张由AI系统处理过且验证成功的人脸图像。

接下来，在步骤307，从测试样本集中选取至少一个样本检测对象，将选取的至少一个样本检测对象分别输入AI系统。

步骤307中，将样本检测对象作为原始输入，输入到AI系统中，即注入到AI系统调用链路的前置环节中，这样，可以测试后续整个AI系统的处理流程，实现AI系统的全链路测试。

在测试样本集中选取样本检测对象时，可以是随机选取。

接下来，步骤309，监控AI系统对输入的至少一个样本检测对象的处理，以得到AI系统的测试结果。

对AI系统的测试可以包括多个方面的测试。

在一个实施例中，对AI系统的测试包括对AI系统中智能算法的调用流程的测试。步骤309中，在对智能算法的调用流程进行测试时，可以针对输入AI系统的每一个样本检测对象(无论该样本检测对象是实际检测对象还是干扰检测对象)，均监控该AI系统的智能算法是否调用了当前输入的样本检测对象，如果调用了，则可以确定该智能算法的调用流程没有出现异常，如果未调用，则确定该AI系统的该智能算法当前出现异常。

对AI系统的测试还可以包括对AI系统中智能算法的算法性能的测试。步骤309中，在测试智能算法的算法性能时，需要根据当前输入的样本检测对象是实际检测对象还是干扰检测对象来确定。在一个实施例中，当前输入的样本检测对象为实际检测对象，因为该实际检测对象是历史验证过成功的检测对象，因此可以监控AI系统的智能算法是否输出验证错误的结果，如果是，则确定该智能算法当前出现异常。在另一个实施例中，当前输入的样本检测对象为干扰检测对象，可以监控该智能算法是否输出验证成功的结果，如果是，则确定该智能算法当前出现异常。

以AI系统用于人脸识别为例，该AI系统的智能算法包括活体算法和比对算法。

如前所述，在步骤303中，可以利用方式A或方式B来生成干扰检测对象。如果是利用方式A来生成干扰检测对象，那么因为生成的干扰检测对象是假的检测对象比如假的人脸图像，因此，如果在步骤309中智能算法针对该干扰检测对象输出验证成功的结果，则可以说明智能算法识别不出来该假的检测对象比如假的人脸图像，则可以确定该智能算法当前出现异常。

然而，如果步骤303中是利用方式B来生成干扰检测对象，因为干扰检测对象是在可用于AI系统的可用检测对象比如正常的人脸图像上进行扰动而生成的，因此，还需要进一步区分扰动的幅度，来确定智能算法是否出现异常。如前文所述，在步骤303中，可以利用步骤B3来获取干扰检测对象对应的扰动幅度值，因此，步骤309中，当输入干扰检测对象且智能算法输出验证成功的结果之后，可以首先判断当前输入的干扰检测对象对应的扰动幅度值是否大于预先设置的扰动阈值；如果大于，则说明对可用检测对象的干扰过大，不能体现业务应用场景中的正常干扰的情况，因此，智能算法针对该干扰检测对象应该验证失败，如果智能算法输出验证成功的结果，则可以确定该智能算法当前出现异常。相反，如果当前输入的干扰检测对象对应的扰动幅度值不大于预先设置的扰动阈值，则说明对可用检测对象的干扰处于可接受的范围之内，此种干扰范围可以体现业务应用场景中可能出现的正常干扰情况，因此，智能算法针对该干扰检测对象可以验证成功，那么在智能算法输出验证成功的结果后，不会认为该智能算法当前异常，而是可以认为该智能算法的鲁棒性比较好，可以包容正常扰动的情况。

本说明书中的AI系统的测试方法，可以是在多个测试周期中分别进行，也就是说，可以在每一个测试周期中，均执行前文所述的步骤301至步骤309的过程。如此，可以利用多个测试周期中的测试结果来综合评价AI系统。

在一个实施例中，因为可以在多个测试周期中分别进行AI系统的测试，因此，可以对每一个测试周期中使用的干扰算法或干扰技术不断进行调优，从而使得在多个测试周期中使用的干扰算法或干扰技术越来越优化，对AI系统的测试效果也越来越好。

在一个实施例中，结合上述图3所示过程的处理，对干扰算法或干扰技术进行调优的方法包括：

步骤S1，在每一个测试周期中，确定当前测试周期内的至少一个第一干扰检测对象；第一干扰检测对象满足：在AI系统中输入该第一干扰检测对象时该AI系统的智能算法输出验证成功的结果。

AI系统的智能算法针对部分干扰检测对象可以正确识别出来，从而输出验证失败结果。但是，对于部分干扰检测对象，智能算法无法正确识别出来，从而输出验证成功的结果。在一些情况下，生成干扰检测对象的干扰算法或者干扰技术可以导致智能算法无法识别出干扰检测对象的情况，因此，可以利用这些无法识别出的第一干扰检测对象来对干扰算法或者干扰技术进行调整。

步骤S2，根据至少一个第一干扰检测对象，对当前测试周期内使用的干扰算法或干扰技术进行调整。

这样，经过上述步骤S1和步骤S2的处理，到了下一个测试周期时，执行步骤303生成至少一个干扰检测对象时，则是利用调整后的当前的干扰算法或干扰技术，生成该测试周期内的至少一个干扰检测对象，从而形成了测试方法的自动化闭环。

下面以对应用于火车站人脸识别业务应用场景中的AI系统进行测试为例，说明本说明书一个实施例的实现过程。参见图7，该测试过程包括：

步骤701，从对应于火车站人脸识别业务的数据库中获取至少一个合格的人脸图像。

在对应于火车站人脸识别业务的数据库中，保存的是在火车站采集到的且之前已经被AI系统验证成功的至少一个人脸图像。

步骤703，获取至少一个可用的人脸图像；

比如可以从网络上获取真实的人脸，或者现场采集人脸图像。

步骤705，在当前的测试周期中，利用最新调整的扰动技术，对至少一个可用的人脸图像进行扰动，以得到至少一个干扰的人脸图像。

步骤707，在当前的测试周期中，计算加入到可用的人脸图像中的扰动像素的数量与可用人脸图像的像素的数量的比值，以得到扰动幅度值。

步骤709，在当前的测试周期中，将获取的至少一个合格的人脸图像以及至少一个干扰的人脸图像分别作为样本检测对象，组成包括至少两个样本检测对象的测试样本集。

步骤711，在当前的测试周期中，从测试样本集中选取至少一个样本检测对象，分别输入AI系统。

步骤713，在当前的测试周期中，监控AI系统的活体算法是否调用了当前输入的样本检测对象，如果调用了，则可以确定该活体算法的调用流程没有出现异常，如果未调用，则确定该活体算法的调用流程当前出现异常。

步骤715，在当前的测试周期中，监控AI系统的活体算法是否输出验证错误的结果，如果输出，则可以确定该活体算法的算法性能不合格，如果未输出，则该活体算法的算法性能合格。

因为合格的人脸图像和干扰的人脸图像都是基于真实的人脸形成的，因此，活体算法对于此两种图像应该验证成功。

步骤717，在当前的测试周期中，监控AI系统的比对算法是否调用了当前输入的样本检测对象，如果调用了，则可以确定该比对算法的调用流程没有出现异常，如果未调用，则确定该比对算法的调用流程当前出现异常。

步骤719，在当前的测试周期中，如果当前输入的样本检测对象为合格的人脸图像，监控AI系统的比对算法是否输出验证错误的结果，如果是，则确定该比对算法当前出现异常，否则，确定该比对算法当前未出现异常。

步骤721，在当前的测试周期中，如果当前输入的样本检测对象为干扰的人脸图像，监控AI系统的比对算法是否输出验证成功的结果，如果是，执行步骤723，否则，确定该比对算法当前未出现异常，执行步骤725。

步骤723，在当前的测试周期中，判断扰动幅度值是否大于预先设置的扰动阈值，如果是，则确定比对算法当前出现异常，并收集当前输入的干扰人脸图像，否则，确定该比对算法当前未出现异常，鲁棒性较好。

对于从测试样本集中选取的每一个样本检测对象都执行步骤713至步骤723的处理。

步骤725，在当前的测试周期中，根据当前测试周期收集的各干扰人脸图像，对使用的干扰技术进行调整，在下一个测试周期到来时，返回步骤705直至测试结束。

通过上述图7所示过程，则通过将验证成功的人脸图像以及生成的干扰人脸图像逐一输入AI系统，来测试AI系统对每一个输入的人脸图像的调用情况以及识别情况，从而实现对AI系统的测试。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种人工智能系统的测试装置。图8示出根据一个实施例的该测试装置的示意性框图。可以理解，该装置可以通过任何具有计算、处理能力的装置、设备、平台和设备集群来实现。如图8所示，该装置800包括：

获取单元801，配置为获取至少一个实际检测对象；在所述人工智能系统的业务应用场景中采集到的、已经被所述人工智能系统验证成功的检测对象；

干扰生成单元802，配置为生成至少一个干扰检测对象；

样本生成单元803，配置为将至少一个所述干扰检测对象以及至少一个所述实际检测对象分别作为样本检测对象，组成包括至少两个样本检测对象的测试样本集；

输入处理单元804，配置为从所述测试样本集中选取至少一个样本检测对象，将选取的至少一个所述样本检测对象分别输入所述人工智能系统；

监控单元805，配置为监控所述人工智能系统对输入的至少一个样本检测对象的处理，以得到所述人工智能系统的测试结果。

在一个实施例中，干扰生成单元802，配置为执行以下中的至少一项：

在另一实施例中，样本生成单元803，配置为执行以下中的至少一项：

根据一个实施例，监控单元805，配置为执行以下中的至少一项：

在一个实施例中，当输入所述人工智能系统的所述样本检测对象为干扰检测对象，且该干扰检测对象为所述干扰生成单元利用扰动技术对可用检测对象进行扰动而生成；其中，所述可用检测对象为满足所述人工智能系统的输入要求的检测对象；

则，干扰生成单元802进一步配置为：在利用扰动技术对可用检测对象进行扰动来生成所述干扰检测对象时，计算该干扰检测对象对应的扰动幅度值；

则，监控单元805进一步配置为：在监控到所述人工智能系统的所述智能算法输出验证成功的结果之后，并在确定所述人工智能系统的所述智能算法当前出现异常之前，判断当前输入的干扰检测对象对应的扰动幅度值是否大于预先设置的扰动阈值；如果大于，则继续执行所述确定所述人工智能系统的所述智能算法当前出现异常。

在一个实施例中，所述检测对象包括图像；则干扰生成单元802被配置为执行以下中的至少一项：

根据一个实施例，监控单元805进一步配置为，确定当前测试周期内的至少一个第一干扰检测对象；所述第一干扰检测对象满足：在所述人工智能系统中输入该第一干扰检测对象时所述智能算法输出验证成功的结果；以及

通过以上装置，对AI系统进行测试。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.人工智能系统的测试方法，包括：

生成至少一个干扰检测对象；

从所述测试样本集中选取至少一个样本检测对象；

监控所述人工智能系统对输入的至少一个所述样本检测对象的处理，以得到所述人工智能系统的测试结果。

2.根据权利要求1所述的方法，其中，所述生成至少一个干扰检测对象包括：

3.根据权利要求2所述的方法，其中，

所述检测对象包括人脸图像；则所述模拟生成算法包括：Deepfake模型算法或者GAN模型算法；

或者，

所述检测对象包括人的声音；则所述模拟生成算法包括：GAN模型算法。

4.根据权利要求1所述的方法，其中，所述生成至少一个干扰检测对象包括：

5.根据权利要求1所述的方法，其中，

根据对所述人工智能系统的测试任务，确定所述测试样本集中的所述实际检测对象的个数以及所述干扰检测对象的个数；

或者，

6.根据权利要求1至5中任一所述的方法，其中，所述监控所述人工智能系统对输入的至少一个样本检测对象的处理，以得到所述人工智能系统的测试结果，包括：

针对分别输入所述人工智能系统的每一个样本检测对象，监控所述人工智能系统的智能算法是否调用了当前输入的样本检测对象，如果否，则确定所述人工智能系统的所述智能算法当前出现异常；

或者，

针对分别输入所述人工智能系统的每一个样本检测对象，如果当前输入的所述样本检测对象为实际检测对象时，监控所述人工智能系统的所述智能算法是否输出验证错误的结果，如果是，则确定所述人工智能系统的所述智能算法当前出现异常；

或者，

7.根据权利要求6所述的方法，其中，当输入所述人工智能系统的所述样本检测对象为干扰检测对象，且该干扰检测对象为利用扰动技术对可用检测对象进行扰动而生成时；其中，所述可用检测对象为满足所述人工智能系统的输入要求的检测对象；

8.根据权利要求7所述的方法，其中，所述检测对象包括图像；

所述计算该干扰检测对象对应的扰动幅度值包括以下中的至少一项：

9.根据权利要求6所述的方法，其中，在至少两个测试周期中的每一个测试周期，分别执行所述人工智能系统的测试方法；

该方法进一步包括：

10.人工智能系统的测试装置，包括：

干扰生成单元，配置为生成至少一个干扰检测对象；

11.根据权利要求10所述的装置，其中，所述干扰生成单元，配置为执行以下中的至少一项：

12.根据权利要求11所述的装置，其中，当所述检测对象包括人脸图像时，则所述模拟生成算法包括：Deepfake模型算法或者GAN模型算法；

当所述检测对象包括人的声音时，则所述模拟生成算法包括：GAN模型算法。

13.根据权利要求10所述的装置，其中，所述样本生成单元，配置为执行以下中的至少一项：

14.根据权利要求10至13中任一所述的装置，其中，所述监控单元，配置为执行以下中的至少一项：

15.根据权利要求14所述的装置，其中，当输入所述人工智能系统的所述样本检测对象为干扰检测对象，且该干扰检测对象为所述干扰生成单元利用扰动技术对可用检测对象进行扰动而生成；其中，所述可用检测对象为满足所述人工智能系统的输入要求的检测对象；

则，所述干扰生成单元进一步配置为：在利用扰动技术对可用检测对象进行扰动来生成所述干扰检测对象时，计算该干扰检测对象对应的扰动幅度值；

16.根据权利要求15所述的装置，其中，所述检测对象包括图像；

所述干扰生成单元被配置为执行以下中的至少一项：

17.根据权利要求14述的装置，其中，

所述监控单元进一步配置为，确定当前测试周期内的至少一个第一干扰检测对象；所述第一干扰检测对象满足：在所述人工智能系统中输入该第一干扰检测对象时所述智能算法输出验证成功的结果；以及

18.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。