CN114443506A

CN114443506A - 一种用于测试人工智能模型的方法及装置

Info

Publication number: CN114443506A
Application number: CN202210361210.8A
Authority: CN
Inventors: 周俊; 陈为; 朱海洋; 季永炜; 应石磊; 童高强; 闾建树; 陈琳琳
Original assignee: Products Zhongda Digital Technology Co ltd; Zhejiang University ZJU
Current assignee: Products Zhongda Digital Technology Co ltd; Zhejiang University ZJU
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-05-06
Anticipated expiration: 2042-04-07
Also published as: CN114443506B

Abstract

本说明书提供一种用于测试人工智能模型的方法及装置，所述方法包括：向用户输出多个备选项，该多个备选项包括针对表格数据的第一类模型，针对自然语言数据的第二类模型和针对时序数据的第三类模型。确定所述用户从所述多个备选项中选择的至少一个目标模型，并获取所述用户输入的待测试模型及测试样本集；若所述用户选择的所述目标模型包括第一类模型，将所述待测试模型及所述测试样本集输入至所述第一类模型；若所述目标模型包括第二类模型，将所述待测试模型及所述测试样本集输入至所述第二类模型；若所述目标模型包括第三类模型，将所述待测试模型及所述测试样本集输入至所述第三类模型。

Description

一种用于测试人工智能模型的方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习技术领域，特别涉及一种用于测试人工智能模型的方法及装置。

背景技术

目前来说，随着人工智能技术的不断发展，人工智能模型的应用也越来越广泛，为人们的工作和生活带来了更多的便利。然而，人工智能模型的可信度仍然是一个潜在的问题。因此，如何对人工智能模型进行测试，以及测试哪些指标具有非常重要的意义。

发明内容

为了解决上述技术问题之一，本说明书一个或多个实施例提供一种用于测试人工智能模型的方法及装置。

根据第一方面，提供一种用于测试人工智能模型的方法，包括：

向用户输出多个备选项；所述多个备选项包括针对表格数据的第一类模型，针对自然语言数据的第二类模型和针对时序数据的第三类模型；

确定所述用户从所述多个备选项中选择的至少一个目标模型，并获取所述用户输入的待测试模型及测试样本集；

若所述用户选择的所述目标模型包括第一类模型，将所述待测试模型及所述测试样本集输入至所述第一类模型，使所述第一类模型执行步骤A，以至少输出针对所述待测试模型的用于表征模型公平性的测试指标；

若所述目标模型包括第二类模型，将所述待测试模型及所述测试样本集输入至所述第二类模型，使所述第二类模型执行步骤B，以至少输出针对所述待测试模型的用于表征模型在识别文本方面鲁棒性的测试指标；

若所述目标模型包括第三类模型，将所述待测试模型及所述测试样本集输入至所述第三类模型，使所述第三类模型执行步骤C，以至少输出针对所述待测试模型的用于表征模型在识别时序方面鲁棒性的测试指标；

其中，所述步骤A包括：

从所述测试样本集中取出多个样本对；任一样本对包括第一样本和第二样本，该第二样本为该第一样本在所述测试样本集中的最近邻样本；

将各个样本对分别输入至所述待测试模型，得到所述各个样本对各自对应的差异参数；针对任一样本对，该样本对对应的差异参数基于将该样本对中的第一样本输入至所述待测试模型得到的输出结果和将该样本对中的第二样本输入至所述待测试模型得到的输出结果之间的差异而确定；

统计所述多个样本对中差异参数大于第一预设值的样本对的第一数量，计算所述第一数量与所述多个样本对的总数量的比值，作为针对所述待测试模型的第一测试指标；并输出所述第一测试指标；以及

根据样本特征属性将所述多个样本对划分至多个群组，每个群组对应于相同的样本特征属性；

根据所述各个样本对各自对应的差异参数，统计各个群组中差异参数大于所述第一预设值的样本对的第二数量；

计算各个群组对应的第二数量与该群组中样本对的总数量的各个比值，作为针对所述待测试模型的第二测试指标；并输出所述第二测试指标；

其中，所述步骤B包括：

将从所述测试样本集中取出的多个样本中部分正确的文本数据改为错误的文本数据，得到由经过改动后的样本构成的第一新增样本集；

分别从所述测试样本集和所述第一新增样本集中取出第三样本，并输入至所述待测试模型；

统计将所述第一新增样本集中取出的样本输入至所述待测试模型，得到错误结果的第三数量；计算所述第三数量与所述第三样本的总数量的比值，作为针对所述待测试模型的第三测试指标；并输出所述第三测试指标；

其中，所述步骤C包括：

改变从所述测试样本集中取出的多个样本中部分数据的时序，得到由改变时序后的样本构成的第二新增样本集；

利用所述待测试模型处理所述测试样本集中的多个样本，得到多个第一结果；利用所述待测试模型处理所述第二新增样本集中的多个样本，得到多个第二结果；

统计计算所述多个第一结果和所述多个第二结果之间的均方根误差，作为针对所述待测试模型的第四测试指标；并输出所述第四测试指标。

可选的，所述步骤A还包括：

对从所述测试样本集中取出的多个样本进行扰动处理，得到由经过所述扰动处理后的样本构成的第三新增样本集；

分别从所述测试样本集和所述第三新增样本集中取出第四样本，并输入至所述待测试模型；

统计将所述第三新增样本集中取出的样本输入至所述待测试模型，得到错误结果的第四数量；计算所述第四数量与所述第四样本的总数量的比值，作为针对所述待测试模型的第五测试指标；并输出所述第五测试指标。

可选的，所述步骤B还包括：

向从所述测试样本集中取出的多个样本中的文本数据中添加文本噪声数据，得到由加入噪声后的样本构成的第四新增样本集；

分别从所述测试样本集和所述第四新增样本集中取出第五样本，并输入至所述待测试模型；

统计将所述第四新增样本集中取出的样本输入至所述待测试模型，得到错误结果的第五数量；计算所述第五数量与所述第五样本的总数量的比值，作为针对所述待测试模型的第六测试指标；并输出所述第六测试指标。

可选的，所述步骤B还包括：

对从所述测试样本集中取出的多个样本中的文本数据的部分形容词进行同义词替换，得到由经过同义词替换后的样本构成的第五新增样本集；

分别从所述测试样本集和所述第五新增样本集中取出第六样本，并输入至所述待测试模型；

统计将所述第五新增样本集中取出的样本输入至所述待测试模型，得到错误结果的第六数量；计算所述第六数量与所述第六样本的总数量的比值，作为针对所述待测试模型的第七测试指标；并输出所述第七测试指标。

可选的，所述步骤C还包括：

对从所述测试样本集中取出的多个样本进行更改，使得样本在更改前和更改后的差异小于预设的第一差异，得到由经过更改后的样本构成的第六新增样本集；

利用所述待测试模型处理所述测试样本集中的多个样本，得到多个第三结果；利用所述待测试模型处理所述第六新增样本集中的多个样本，得到多个第四结果；

统计计算所述多个第三结果和所述多个第四结果之间的均方根误差，作为针对所述待测试模型的第八测试指标；并输出所述第八测试指标。

可选的，所述步骤C还包括：

对从所述测试样本集中取出的多个样本进行更改，使得样本在更改前和更改后的差异大于预设的第二差异，得到由经过更改后的样本构成的第七新增样本集；

利用所述待测试模型处理所述测试样本集中的多个样本，得到多个第五结果；利用所述待测试模型处理所述第七新增样本集中的多个样本，得到多个第六结果；

统计计算所述多个第五结果和所述多个第六结果之间的均方根误差，作为针对所述待测试模型的第九测试指标；并输出所述第九测试指标。

根据第二方面，提供一种用于测试人工智能模型的装置，包括：

输出模块，用于向用户输出多个备选项；所述多个备选项包括针对表格数据的第一类模型，针对自然语言数据的第二类模型和针对时序数据的第三类模型；

获取模块，用于确定所述用户从所述多个备选项中选择的至少一个目标模型，并获取所述用户输入的待测试模型及测试样本集；

输入模块，用于在所述用户选择的所述目标模型包括第一类模型时，将所述待测试模型及所述测试样本集输入至所述第一类模型，以使所述第一类模型至少输出针对所述待测试模型的用于表征模型公平性的测试指标；在所述目标模型包括第二类模型时，将所述待测试模型及所述测试样本集输入至所述第二类模型，以使所述第二类模型至少输出针对所述待测试模型的用于表征模型在识别文本方面鲁棒性的测试指标；在所述目标模型包括第三类模型时，将所述待测试模型及所述测试样本集输入至所述第三类模型，以使所述第一类模型至少输出针对所述待测试模型的用于表征模型在识别时序方面鲁棒性的测试指标；

其中，所述第一类模型被配置用于：

其中，所述第二类模型被配置用于：

其中，所述第三类模型被配置用于：

可选的，所述第一类模型还被配置用于：

可选的，所述第二类模型还被配置用于：

统计将所述第四新增样本集中取出的样本输入至所述待测试模型，得到错误结果的第五数量；计算所述第五数量与所述第五样本的总数量的比值，作为针对所述待测试模型的第六测试指标；并输出所述第六测试指标；

可选的，所述第三类模型还被配置用于：

统计计算所述多个第三结果和所述多个第四结果之间的均方根误差，作为针对所述待测试模型的第八测试指标；并输出所述第八测试指标；及

根据第三方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法。

根据第四方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一方面中任一项所述的方法。

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书的实施例提供的一种用于测试人工智能模型的方法和装置，通过向用户输出多个备选项，并获取用户输入的待测试模型及测试样本集，利用用户从多个备选项中选择的至少一个目标模型对测试样本集进行处理，利用处理后的测试样本集对待测试模型进行测试，得到不同角度的测试指标。从而提高了人工智能模型测试的通用性，并提高了测试效率，也为用户提供了从不同角度衡量人工智能模型的测试指标，满足了用户更多的需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本说明书根据一示例性实施例示出的一种用于测试人工智能模型的场景示意图；

图2是本说明书根据一示例性实施例示出的一种用于测试人工智能模型的方法的流程图；

图3是本说明书根据一示例性实施例示出的一种用于测试人工智能模型的装置框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本说明书和所附权利要求书中所使用的单数形式的“一种”“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，是根据一示例性实施例示出的一种用于测试人工智能模型的场景示意图，该场景示出的测试系统可以包括用户接口部分以及待选的多个测试模型部分。可以理解，图1仅是示例性的示出三个测试模型，实际上测试系统中可以包括任意数目的测试模型。

在图1示出的场景中，首先，测试系统可以通过用户接口部分向用户显示待选的三个测试模型，具体包括针对表格数据的第一类模型，针对自然语言数据的第二类模型和针对时序数据的第三类模型。用户可以根据待测试的人工智能模型所处理的数据的类型，通过用户接口部分从上述三个测试模型中选择至少一个测试模型作为目标模型，并将待测试的人工智能模型以及测试样本集输入至测试系统中。

例如，如果待测试的人工智能模型处理的数据为表格数据，则可以选择第一类模型。如果待测试的人工智能模型处理的数据为自然语言数据，则可以选择第二类模型。如果待测试的人工智能模型处理的数据为时序数据，则可以选择第三类模型。可以理解，如果待测试的人工智能模型处理的数据既是表格数据，也是自然语言数据，那么还可以同时选择第一类模型和第二类模型。以此类推，还可以同时选择第二类模型和第三类模型等。

接着，待测试的人工智能模型以及测试样本集被输入用户选取的目标模型中。由目标模型先对测试样本集进行处理，得到处理后的样本集，再利用处理后的样本集对待测试的人工智能模型进行测试，得到相应的测试指标。将测试指标输出给用户，用户可以根据测试指标对待测试的人工智能模型进行评估。

本实施例提供的一种用于测试人工智能模型的方案，通过向用户输出多个备选项，并获取用户输入的待测试模型及测试样本集，利用用户从多个备选项中选择的至少一个目标模型对测试样本集进行处理，利用处理后的测试样本集对待测试模型进行测试，得到不同角度的测试指标。从而提高了人工智能模型测试的通用性，并提高了测试效率，也为用户提供了从不同角度衡量人工智能模型的测试指标，满足了用户更多的需求。

下面将结合具体的实施例对本说明书提供的方案进行详细描述。

如图2所示，图2是根据一示例性实施例示出的一种用于测试人工智能模型的方法的流程图，该方法可以应用于任何具有计算、处理能力的设备、平台、或服务器。该方法包括以下步骤：

在步骤201中，向用户输出多个备选项。

在步骤202中，确定用户从多个备选项中选择的至少一个目标模型，并获取用户输入的待测试模型及测试样本集。

在本实施例中，可以通过用户接口向用户输出多个备选项，该多个备选项可以包括针对表格数据的第一类模型，针对自然语言数据的第二类模型和针对时序数据的第三类模型。一方面，用户可以根据待测试模型所处理的数据的类型，从多个备选项中选择至少一项作为测试待测试模型的目标模型。其中，待测试模型为人工智能模型。另一方面，用户可以通过用户接口输入待测试模型及测试样本集。

在步骤203中，将待测试模型及测试样本集输入用户选择的目标模型。

具体来说，若用户选择的目标模型包括第一类模型，则将待测试模型及测试样本集输入至第一类模型，使第一类模型执行步骤A。

其中，步骤A可以包括A1操作，A1操作具体可以为：首先，从测试样本集中取出多个样本对，任一样本对包括第一样本和第二样本，该第二样本为该第一样本在该测试样本集中的最近邻样本。其中，本领域中已知的以及将来可能出现的任何确定最近邻样本的方法都可以应用于本申请。例如，可以通过聚类算法确定最近邻样本，也可以是通过排序的方式确定最近邻样本，本申请对确定最近邻样本的具体方式方面不限制。

在一种实现方式中，可以逐一取出多个样本对，例如，先随机选取一个第一样本，然后从测试样本集中选出该第一样本的最近邻样本作为该第一样本对应的第二样本，由此构成一个样本对。然后，从测试样本集中剩下的样本中再选取下一个样本对，以此类推，直至选取完毕。

在另一种实现方式中，还可以一次随机选取多个第一样本，然后从测试样本集中剩下的样本中，分别选出各个第一样本各自的最近邻样本作为各个第二样本，由此构成多个样本对。

接着，可以将各个样本对分别输入至待测试模型，得到各个样本对各自对应的差异参数。其中，针对任一样本对，该样本对对应的差异参数基于将该样本对中的第一样本输入至待测试模型得到的输出结果和将该样本对中的第二样本输入至待测试模型得到的输出结果之间的差异而确定。对于一个样本对来说，例如，该样本对的第一样本对应的输出结果和第二样本对应的输出结果如果本来就是一个数值，可以直接计算两个输出结果之间的差值，作为该样本对对应的差异参数。又例如，如果两个输出结果不是一个数值，可以将第一样本对应的输出结果和第二样本对应的输出结果进行量化，计算量化后的结果之间的差值，作为该样本对对应的差异参数。

最后，统计多个样本对中差异参数大于第一预设值的样本对的数量作为第一数量，计算第一数量与多个样本对的总数量的比值，作为针对待测试模型的第一测试指标，并向用户输出第一测试指标。该第一测试指标能够体现待测试模型的公平性，因此，用户可以参考第一测试指标对待测试模型的公平性进行评估。

在本实施例中，A1操作还可以进一步包括：根据样本特征属性将多个样本对划分至多个群组，每个群组对应于相同的样本特征属性。例如，可以按照地区，或者年龄，或者性别等属性，对多个样本对划分群组。

然后，根据各个样本对各自对应的差异参数，统计各个群组中差异参数大于第一预设值的样本对的数量作为第二数量。计算各个群组对应的第二数量与该群组中样本对的总数量的各个比值，作为针对待测试模型的第二测试指标，并向用户输出第二测试指标。该第二测试指标能够体现待测试模型针对各个群体的公平性，因此，用户可以参考第二测试指标对待测试模型针对各个群体的公平性进行评估。

需要说明的是，本领域技术人员并未发现待测试模型针对不同群体具有不同的公平性，而本申请的技术方案考虑了不同群体对待测试模型公平性的影响，从而提供了更为丰富的测试指标，有助于对待测试模型进行更为全面的评估。

可选地，步骤A还可以包括A2操作，A2操作具体可以为：首先，对从测试样本集中取出的多个样本进行扰动处理，得到由经过扰动处理后的样本构成的第三新增样本集。其中，该扰动处理为不改变样本分类的微扰动，即在微小的范围内改变样本某一个或多个维度上的特征。本领域中已知和将来可能出现的任何微扰动处理的方法都可以应用于本申请。

然后，分别随机从测试样本集和第三新增样本集中取出多个样本作为第四样本，并将第四样本输入至待测试模型。统计将第三新增样本集中取出的样本输入至待测试模型中，得到的错误结果的数量作为第四数量。计算第四数量与第四样本的总数量的比值，作为针对待测试模型的第五测试指标，并向用户输出第五测试指标。例如，随机从测试样本集和第三新增样本集中取出n个样本，将这n个样本输入至待测试模型中，得到n个输出结果。统计该n个输出结果中对应于第三新增样本集，并且属于错误结果的个数x，计算x与n的比值，作为针对待测试模型的第五测试指标。该第五测试指标能够体现待测试模型的鲁棒性，因此，用户可以参考第五测试指标对待测试模型的鲁棒性进行评估。

可选地，步骤A还可以包括A3操作，A3操作具体可以为：从测试样本集中取出多个样本，再从测试样本集中选取各个样本各自的近邻样本。利用mixup算法对各个样本及其近邻样本进行处理，得到增强样本集。利用测试样本集和增强样本集，对待测试模型进行测试，得到待测试模型的正确性指标，并向用户输出正确性指标。其中，该正确性指标可以包括但不限于准确度，精确度，召回率和F值等。

在本实施例中，步骤B可以包括B1操作，B1操作具体可以为：首先，将从测试样本集中取出的多个样本中部分正确的文本数据改为错误的文本数据，得到由经过改动后的样本构成的第一新增样本集。例如，可以将样本中少量正确的文字改成错别字，或者将少量正确的拼写改成错误拼写等。又例如，还可以将样本中少量正确的语法改成错误的语法等。

然后，分别从测试样本集和第一新增样本集中取出多个样本作为第三样本，并输入至待测试模型。统计将第一新增样本集中取出的样本输入至待测试模型，得到错误结果的数量作为第三数量。计算第三数量与第三样本的总数量的比值，作为针对待测试模型的第三测试指标，并向用户输出第三测试指标（可参见A2操作中的举例）。该第三测试指标能够体现待测试模型在识别文本错误方面的鲁棒性，因此，用户可以参考第三测试指标对待测试模型在识别文本错误方面的鲁棒性进行评估。

可选地，步骤B还可以包括B2操作，B2操作具体可以为：首先，向从测试样本集中取出的多个样本中的文本数据中添加文本噪声数据，得到由加入噪声后的样本构成的第四新增样本集。例如，可以向样本中加入少量不可见字符，或者空格/tab/换行等制表符号，或者一些数字符号等。

然后，分别从测试样本集和第四新增样本集中取出多个样本作为第五样本，并输入至待测试模型。统计将第四新增样本集中取出的样本输入至待测试模型，得到错误结果的数量作为第五数量。计算第五数量与第五样本的总数量的比值，作为针对待测试模型的第六测试指标，并向用户输出第六测试指标。该第六测试指标能够体现待测试模型在识别文本噪声方面的鲁棒性，因此，用户可以参考第六测试指标对待测试模型在识别文本噪声方面的鲁棒性进行评估。

可选地，步骤B还可以包括B3操作，B3操作具体可以为：首先，对从测试样本集中取出的多个样本中的文本数据的部分形容词进行同义词替换，得到由经过同义词替换后的样本构成的第五新增样本集。

然后，分别从测试样本集和第五新增样本集中取出多个样本作为第六样本，并输入至待测试模型。统计将第五新增样本集中取出的样本输入至待测试模型，得到错误结果的数量作为第六数量。计算第六数量与第六样本的总数量的比值，作为针对待测试模型的第七测试指标，并向用户输出第七测试指标。该第七测试指标能够体现待测试模型在识别形容词同义词方面的鲁棒性，因此，用户可以参考第七测试指标对待测试模型在识别形容词同义词方面的鲁棒性进行评估。

在本实施例中，步骤C可以包括C1操作，C1操作具体可以为：首先，改变从测试样本集中取出的多个样本中部分数据的时序，得到由改变时序后的样本构成的第二新增样本集。

然后，利用待测试模型处理测试样本集中的多个样本，得到多个第一结果。利用待测试模型处理第二新增样本集中的多个样本，得到多个第二结果。统计计算多个第一结果和多个第二结果之间的均方根误差，作为针对待测试模型的第四测试指标，并向用户输出第四测试指标。该第四测试指标能够体现待测试模型在识别时序方面的鲁棒性，因此，用户可以参考第四测试指标对待测试模型在识别时序方面的鲁棒性进行评估。

可选地，步骤C还可以包括C2操作，C2操作具体可以为：首先，对从测试样本集中取出的多个样本进行更改（例如，对数据中的时刻信息进行小于预设范围的微小改动等），使得样本在更改前和更改后的差异小于预设的第一差异，得到由经过更改后的样本构成的第六新增样本集。

然后，利用待测试模型处理测试样本集中的多个样本，得到多个第三结果。利用待测试模型处理第六新增样本集中的多个样本，得到多个第四结果。统计计算多个第三结果和多个第四结果之间的均方根误差，作为针对待测试模型的第八测试指标，并向用户输出第八测试指标。该第八测试指标能够体现待测试模型在识别时序数据小幅度变化方面的鲁棒性，因此，用户可以参考第八测试指标对待测试模型在识别时序数据小幅度变化方面的鲁棒性进行评估。

可选地，步骤C还可以包括C3操作，C3操作具体可以为：首先，对从测试样本集中取出的多个样本进行更改，使样本在更改前和更改后的差异大于预设的第二差异，得到由经过更改后的样本构成的第七新增样本集。

然后，利用待测试模型处理测试样本集中的多个样本，得到多个第五结果。利用待测试模型处理第七新增样本集中的多个样本，得到多个第六结果。统计计算多个第五结果和多个第六结果之间的均方根误差，作为针对待测试模型的第九测试指标，并向用户输出第九测试指标。该第九测试指标能够体现待测试模型在识别时序数据大幅度变化方面的鲁棒性，因此，用户可以参考第九测试指标对待测试模型在识别时序数据大幅度变化方面的鲁棒性进行评估。

本说明书的上述实施例提供的一种用于测试人工智能模型的方法，通过向用户输出多个备选项，并获取用户输入的待测试模型及测试样本集，利用用户从多个备选项中选择的至少一个目标模型对测试样本集进行处理，利用处理后的测试样本集对待测试模型进行测试，得到不同角度的测试指标。从而提高了人工智能模型测试的通用性，并提高了测试效率，也为用户提供了从不同角度衡量人工智能模型的测试指标，满足了用户更多的需求。

应当注意，尽管在上述图2的实施例中，以特定顺序描述了本说明书实施例的方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

与前述用于测试人工智能模型的方法实施例相对应，本说明书还提供了用于测试人工智能模型的装置的实施例。

如图3所示，图3是本说明书根据一示例性实施例示出的一种用于测试人工智能模型的装置框图，该装置可以包括：输出模块301，获取模块302和输入模块303。

其中，输出模块301，用于向用户输出多个备选项，该多个备选项包括针对表格数据的第一类模型，针对自然语言数据的第二类模型和针对时序数据的第三类模型。

获取模块302，用于确定用户从多个备选项中选择的至少一个目标模型，并获取用户输入的待测试模型及测试样本集。

输入模块303，用于在用户选择的目标模型包括第一类模型时，将待测试模型及测试样本集输入至第一类模型，以使第一类模型至少输出针对待测试模型的用于表征模型公平性的测试指标。在目标模型包括第二类模型时，将待测试模型及测试样本集输入至第二类模型，以使第二类模型至少输出针对待测试模型的用于表征模型在识别文本方面鲁棒性的测试指标。在目标模型包括第三类模型时，将待测试模型及测试样本集输入至第三类模型，以使第一类模型至少输出针对待测试模型的用于表征模型在识别时序方面鲁棒性的测试指标。

在一些实施方式中，第一类模型被配置用于：从测试样本集中取出多个样本对，任一样本对包括第一样本和第二样本，该第二样本为该第一样本在测试样本集中的最近邻样本。将各个样本对分别输入至待测试模型，得到各个样本对各自对应的差异参数。针对任一样本对，该样本对对应的差异参数基于将该样本对中的第一样本输入至待测试模型得到的输出结果和将该样本对中的第二样本输入至待测试模型得到的输出结果之间的差异而确定。统计多个样本对中差异参数大于第一预设值的样本对的第一数量，计算第一数量与多个样本对的总数量的比值，作为针对待测试模型的第一测试指标，并输出第一测试指标。

根据样本特征属性将多个样本对划分至多个群组，每个群组对应于相同的样本特征属性。根据各个样本对各自对应的差异参数，统计各个群组中差异参数大于第一预设值的样本对的第二数量。计算各个群组对应的第二数量与该群组中样本对的总数量的各个比值，作为针对待测试模型的第二测试指标，并输出第二测试指标。

其中，第二类模型被配置用于：将从测试样本集中取出的多个样本中部分正确的文本数据改为错误的文本数据，得到由经过改动后的样本构成的第一新增样本集。分别从测试样本集和第一新增样本集中取出第三样本，并输入至待测试模型。统计将第一新增样本集中取出的样本输入至待测试模型，得到错误结果的第三数量。计算第三数量与第三样本的总数量的比值，作为针对待测试模型的第三测试指标，并输出第三测试指标。

其中，第三类模型被配置用于：改变从测试样本集中取出的多个样本中部分数据的时序，得到由改变时序后的样本构成的第二新增样本集。利用待测试模型处理测试样本集中的多个样本，得到多个第一结果。利用待测试模型处理第二新增样本集中的多个样本，得到多个第二结果。统计计算多个第一结果和所述第二结果之间的均方根误差，作为针对待测试模型的第四测试指标，并输出第四测试指标。

在一些实施方式中，第一类模型还被配置用于：对从测试样本集中取出的多个样本进行扰动处理，得到由经过扰动处理后的样本构成的第三新增样本集。分别从测试样本集和第三新增样本集中取出第四样本，并输入至待测试模型。统计将第三新增样本集中取出的样本输入至待测试模型，得到错误结果的第四数量，计算第四数量与第四样本的总数量的比值，作为针对待测试模型的第五测试指标，并输出第五测试指标。

在另一些实施方式中，第二类模型还被配置用于：向从测试样本集中取出的多个样本中的文本数据中添加文本噪声数据，得到由加入噪声后的样本构成的第四新增样本集。分别从测试样本集和第四新增样本集中取出第五样本，并输入至待测试模型。统计将第四新增样本集中取出的样本输入至待测试模型，得到错误结果的第五数量。计算第五数量与第五样本的总数量的比值作为针对待测试模型的第六测试指标，并输出第六测试指标。

对从测试样本集中取出的多个样本中的文本数据的部分形容词进行同义词替换，得到由经过同义词替换后的样本构成的第五新增样本集。分别从测试样本集和第五新增样本集中取出第六样本，并输入至待测试模型。统计将第五新增样本集中取出的样本输入至所述待测试模型，得到错误结果的第六数量，计算第六数量与第六样本的总数量的比值，作为针对待测试模型的第七测试指标，并输出第七测试指标。

在另一些实施方式中，第三类模型还被配置用于：对从测试样本集中取出的多个样本进行更改，使得样本在更改前和更改后的差异小于预设的第一差异，得到由经过更改后的样本构成的第六新增样本集。利用待测试模型处理测试样本集中的多个样本，得到多个第三结果。利用待测试模型处理第六新增样本集中的多个样本，得到多个第四结果。统计计算多个第三结果和多个第四结果之间的均方根误差，作为针对待测试模型的第八测试指标，并输出第八测试指标。

对从测试样本集中取出的多个样本进行更改，使得样本在更改前和更改后的差异大于预设的第二差异，得到由经过更改后的样本构成的第七新增样本集。利用待测试模型处理测试样本集中的多个样本，得到多个第五结果，利用待测试模型处理第七新增样本集中的多个样本，得到多个第六结果。统计计算多个第五结果和多个第六结果之间的均方根误差，作为针对待测试模型的第九测试指标，并输出第九测试指标。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书一个或多个实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。其中，软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于测试人工智能模型的方法，所述方法包括：

若所述目标模型包括第三类模型，将所述待测试模型及所述测试样本集输入至所述第三类模型，使所述第三类模型执行步骤C，以至少输出针对所述待测试模型的用于表征模型在识别时序方面鲁棒性的测试指标。

2.根据权利要求1所述的方法，其中，所述步骤A包括：

其中，所述步骤B包括：

其中，所述步骤C包括：

3.根据权利要求2所述的方法，其中，所述步骤A还包括：

4.根据权利要求2所述的方法，其中，所述步骤B还包括：

5.根据权利要求2所述的方法，其中，所述步骤B还包括：

6.根据权利要求2所述的方法，其中，所述步骤C还包括：

7.根据权利要求2所述的方法，其中，所述步骤C还包括：

8.一种用于测试人工智能模型的装置，所述装置包括：

输入模块，用于在所述用户选择的所述目标模型包括第一类模型时，将所述待测试模型及所述测试样本集输入至所述第一类模型，以使所述第一类模型至少输出针对所述待测试模型的用于表征模型公平性的测试指标；在所述目标模型包括第二类模型时，将所述待测试模型及所述测试样本集输入至所述第二类模型，以使所述第二类模型至少输出针对所述待测试模型的用于表征模型在识别文本方面鲁棒性的测试指标；在所述目标模型包括第三类模型时，将所述待测试模型及所述测试样本集输入至所述第三类模型，以使所述第一类模型至少输出针对所述待测试模型的用于表征模型在识别时序方面鲁棒性的测试指标。

9.根据权利要求8所述的装置，其中，所述第一类模型被配置用于：

其中，所述第二类模型被配置用于：

其中，所述第三类模型被配置用于：

10.根据权利要求9所述的装置，其中，所述第一类模型还被配置用于：

统计将所述第三新增样本集中取出的样本输入至所述待测试模型，得到错误结果的第四数量；计算所述第四数量与所述第四样本的总数量的比值，作为针对所述待测试模型的第五测试指标；并输出所述第五测试指标；

其中，所述第二类模型还被配置用于：

统计将所述第五新增样本集中取出的样本输入至所述待测试模型，得到错误结果的第六数量；计算所述第六数量与所述第六样本的总数量的比值，作为针对所述待测试模型的第七测试指标；并输出所述第七测试指标；

其中，所述第三类模型还被配置用于：