CN116823063A

CN116823063A - 数据集质量评估模型的有效性测试方法、装置及设备

Info

Publication number: CN116823063A
Application number: CN202310912965.7A
Authority: CN
Inventors: 薛云志; 孟令中; 董乾; 刘光镇; 李�瑞
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-09-29

Abstract

本公开涉及数据集质量评估模型的有效性测试方法、装置及设备，属于数据集评估技术领域。所述方法包括：从参考数据集中划分出训练数据集和测试数据集；对训练数据集进行数据变化处理，得到n‑1个衍生数据集，训练数据集和n‑1个衍生数据集共同组成n个数据集；通过数据集质量评估模型对n个数据集分别进行质量评估，得到n个评估结果；采用n个数据集分别训练n个人工智能AI模型，得到完成训练的n个AI模型；分别通过完成训练的n个AI模型对测试数据集进行处理，得到n个测试结果；基于n个测试结果和n个评估结果，确定数据集质量评估模型的有效性。本公开能够实现对数据集质量评估模型本身的评估能力进行有效且准确的测试验证。

Description

数据集质量评估模型的有效性测试方法、装置及设备

技术领域

本公开涉及数据集评估技术领域，尤其涉及一种数据集质量评估模型的有效性测试方法、装置及设备。

背景技术

数据集(Dataset)是一种由数据所组成的集合，又可以称为资料集、数据集合或者资料集合等等。随着人工智能(Artificial Intelligence，AI)的发展，数据集的使用越来越频繁，多种多样的数据集层出不穷。

对于人工智能应用领域而言，数据集是各种智能算法训练的基础，数据集的质量确定了智能算法效果的理论上界。针对数据集的质量测评是人工智能领域中数据质量测评的核心工作。质量好或者相关性高的数据集对模型的训练是非常有帮助的，能够有效提升模型训练的准确性。相关技术中，通过数据集质量评估模型来测评数据集的质量，数据集质量评估模型通常从多个维度设置评估指标，通过层次化分析等方法来计算各个评估指标的取值，再综合所有评估指标的取值最终确定数据集的质量。

然而，若数据集质量评估模型本身所采用的评估指标或评估技术等存在问题，则可能导致数据集质量的评估结果不准确或错误，从而无法实现对数据集的有效评估。因此，在数据集质量评估模型投入应用之前，亟需对其本身的评估有效性进行测试验证，而相关技术却并未提出有效且准确的测试方法。

发明内容

针对上述问题，本发明提出了一种数据集质量评估模型的有效性测试方法、装置及设备，能够实现对数据集质量评估模型本身的评估能力进行有效且准确的测试验证。

根据本公开实施例的第一方面，提供了一种数据集质量评估模型的有效性测试方法，包括：

从参考数据集中划分出训练数据集和测试数据集，所述参考数据集的数据类型与所需进行有效性测试的数据集质量评估模型的评估对象数据类型一致；

对所述训练数据集进行数据变化处理，得到n-1个衍生数据集；所述训练数据集和所述n-1个衍生数据集共同组成n个数据集；

通过所述数据集质量评估模型对所述n个数据集分别进行质量评估，得到n个评估结果；

采用所述n个数据集分别训练n个AI模型，得到完成训练的n个AI模型；

分别通过所述完成训练的n个AI模型对所述测试数据集进行处理，得到n个测试结果；

基于所述n个测试结果和所述n个评估结果，确定所述数据集质量评估模型的有效性。

可选地，所述对所述训练数据集进行数据变化处理，得到n-1个衍生数据集，包括：获取所述训练数据集的数据内容；基于所述数据内容，确定数据变化处理的至少一种方式；针对所述至少一种方式中的目标方式，按照所述目标方式对所述训练数据集进行多种不同处理程度的数据变化处理，得到多个衍生数据集。

可选地，基于图像分类数据集的数据内容，所确定的数据变化处理的至少一种方式包括：对图像添加噪声、删除图像级标签、篡改图像级标签、为图像添加多个图像级标签、增加特定图像的重复率、为同一图像的副本添加冲突标签和/或删除特定类别下部分图像致使类别不均衡；基于文本分类数据集的数据内容，所确定的数据变化处理的至少一种方式包括：在文本中嵌入错别字、打乱文本序列、删除分类标签、篡改分类标签、为文本添加多个分类标签、增加特定文本的重复率、为同一文本的副本添加冲突标签和/或删除特定类别下部分文本致使类别不均衡；基于音频分类数据集的数据内容，所确定的数据变化处理的至少一种方式包括：对音频添加背景噪声、删除音频片段、删除分类标签、篡改分类标签、为音频添加多个分类标签、增加特定音频的重复率、为同一音频的副本添加冲突标签和/或删除特定类别下部分音频致使类别不均衡；基于视频分割数据集的数据内容，所确定的数据变化处理的至少一种方式包括：为原视频添加错误的分割标记、删除视频片段、删除镜头切分位置标签、篡改镜头切分位置标签、为原视频添加多个镜头切分位置标签、增加特定原视频的重复率和/或为同一原视频的副本添加冲突标签；基于文生成图数据集的数据内容，所确定的数据变化处理的至少一种方式包括：添加不匹配图文对、删除图文对中的图或文、打乱图文对的匹配关系和/或增加特定图文对的重复率。

可选地，所述n个AI模型为网络结构和初始参数均相同的AI模型，且所述n个AI模型与所述训练数据集的数据类型和应用任务相匹配。

可选地，所述数据集质量评估模型包括：目标层、特性层和指标层；所述通过所述数据集质量评估模型对所述n个数据集分别进行质量评估，得到n个评估结果，包括：获取所述目标层计算的数据集质量结论，所述数据集质量结论为评分数值或评价等级；获取所述特性层计算的用于指示数据集质量的至少一个维度的质量特性，所述质量特性包括：完整性、自洽性、保密性、准确性、规范性、无偏性、多样性和/或现时性；获取所述指标层计算的各个质量特性的评估指标；其中，所述完整性的评估指标包括：数据元素完整性、数据记录完整性、元数据完整性、空值率、数据类别完整性和/或数据数量完整性；所述准确性的评估指标包括：逻辑冲突度量和/或标注度量；所述保密性的评估指标包括：原始数据度量、标注数据度量、数据共享度量、数据分析度量、数据使用度量和/或数据废弃度量；所述准确性的评估指标包括：数据重复率和/或异常值度量；所述规范性的评估指标包括：数据标准度量、权威参考数据度量、业务规则度量、安全规范度量、标准化度量和/或数据格式合规性；所述无偏性的评估指标包括：分布无偏性和/或历史无偏性；所述多样性的评估指标包括：数据来源多样性和/或数据规格多样性；所述现时性的评估指标包括：时间段正确性、时间的及时性和/或时序性；结合所述数据集质量结论、所述质量特性和所述评估指标中的一项或多项，得到对应数据集的评估结果。

可选地，所述基于所述n个测试结果和所述n个评估结果，确定所述数据集质量评估模型的有效性，包括：计算所述n个评估结果与所述n个测试结果之间的相关系数的取值；若所述相关系数的取值大于预设阈值，则所述n个评估结果与所述n个测试结果一致，确定所述数据集质量评估模型对所述数据集的质量评估有效；若所述相关系数的取值小于所述预设阈值，则所述n个评估结果与所述n个测试结果不一致，确定所述数据集质量评估模型对所述数据集的质量评估无效。

可选地，所述计算所述n个评估结果与所述n个测试结果之间的相关系数的取值，包括：将所述n个测试结果转化为n*m矩阵，所述m表示所述测试数据集中包括的样本数量，所述n*m矩阵的每一行表示一个测试结果；将所述n个评估结果转化为n*k矩阵，所述k表示所述数据集质量评估模型在评估过程中计算的数据维度数量，所述n*k矩阵的每一行表示一个评估结果，且所述n*m矩阵与所述n*k矩阵中同一行对应于n个数据集中的同一个数据集；计算所述n*m矩阵中各行元素的加权秩R₁；计算所述n*k矩阵中各行元素的加权秩R₂；计算所述加权秩R₁与所述加权秩R₂之间的斯颇曼秩相关系数的取值。

根据本公开实施例的第二方面，提供了一种数据集质量评估模型的有效性测试装置，所述装置包括：

数据集划分模块，用于从参考数据集中划分出训练数据集和测试数据集，所述参考数据集的数据类型与所需进行有效性测试的数据集质量评估模型的评估对象数据类型一致；

数据变化模块，用于对所述训练数据集进行数据变化处理，得到n-1个衍生数据集；所述训练数据集和所述n-1个衍生数据集共同组成n个数据集；

质量评估模块，用于通过所述数据集质量评估模型对所述n个数据集分别进行质量评估，得到n个评估结果；

模型训练模块，用于采用所述n个数据集分别训练n个AI模型，得到完成训练的n个AI模型；

模型测试模块，用于分别通过所述完成训练的n个AI模型对所述测试数据集进行处理，得到n个测试结果；

有效性评估模块，用于基于所述n个测试结果和所述n个评估结果，确定所述数据集质量评估模型的有效性。

根据本公开实施例的第三方面，提供了一种计算机设备，所述计算机设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现本公开第一方面所提供的数据集质量评估模型的有效性测试方法。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现本公开第一方面所提供的数据集质量评估模型的有效性测试方法。

本公开实施例提供的技术方案至少包括以下有益效果：

本发明提供了一种对数据集质量评估模型的有效性进行自动化测试验证的方法。本发明一方面通过数据集质量评估模型对n个数据集进行处理，得到n个评估结果；另一方面采用n个数据集分别训练n个AI模型，并通过训练完成的n个AI模型分别对测试数据集进行处理，得到n个测试结果。其中，n个评估结果指示数据集质量评估模型对n个数据集之间质量差异的评估，n个测试结果间接准确地指示n个数据集之间的质量差异。以n个测试结果作为参考，比较分析n个评估结果与n个测试结果之间的一致性，以确定数据集质量评估模型对数据集的质量评估是否有效，实现了在数据集质量评估模型投入应用之前对数据集质量评估模型的有效性进行自动化地测试验证，避免由于数据集质量评估模型本身存在的种种问题导致数据集质量评估结果的不准确或错误，有助于提升数据集质量评估的准确性。

而针对如何比较评估结果和测试结果之间的一致性，以确定数据集质量评估模型的有效性这一技术问题，本领域的常规手段是按照评估结果和测试结果整体取值大小，对n个评估结果与n个测试结果分别进行排序，比较同一次序的评估结果和测试结果是否对应于同一个数据集，以确定n个评估结果与n个测试结果是否一致。然而，这种常规手段对于评估结果与测试结果之间的一致性比较分析不够完善准确，并且只能确定数据集质量评估模型是否有效。本发明中，一方面在获取n个评估结果时，结合了数据集质量评估模型在评估过程中计算的中间数据，以获取尽可能全面且丰富的评估数据用于一致性的比较分析，充分准确地验证数据集质量评估模型的有效性；另一方面在比较分析评估结果与测试结果之间的一致性时，计算n个评估结果与n个测试结果之间相关系数的取值，通过相关系数的取值指示数据集质量评估模型的有效性程度，实现更细粒度地验证有效性。

此外，本发明一方面以多种数据处理方式对训练数据集进行数据变化处理，另一方面以相同数据处理方式对训练数据集进行多种不同处理程度的数据变化处理，分别得到多个衍生数据集以构建n个数据集。从而，n个数据集中不仅存在不同类型的数据错误，还存在同一类型不同强度的数据错误，n个数据集之间的质量差异维度更加丰富。以n个数据集测试验证数据集质量评估模型的有效性，分析数据集质量评估模型是否能够针对不同维度的质量差异均做出准确评估，实现对数据集质量评估模型进行更加完善和准确的有效性测试。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的数据集质量评估模型的有效性测试方法的流程图。

图2是根据一示例性实施例示出的数据集质量评估模型的示意图。

图3是根据一示例性实施例示出的数据集质量评估模型的有效性测试装置的框图。

图4是根据一示例性实施例示出的一种计算机设备400的框图。

具体实施方式

下面将结合附图详细地对示例性实施例进行描述说明。

如图1所示，本发明中有效性测试方法包括如下几个步骤(步骤1至6)。

步骤1：从参考数据集中划分出训练数据集和测试数据集。

参考数据集是数据可信赖性较高的公开数据集，计算机设备可以通过网络下载参考数据集。其中，参考数据集的数据类型，与所需进行有效性测试的数据集质量评估模型的评估对象数据类型一致。例如，若数据集质量评估模型用于评估图像数据集的质量，则参考数据集的数据类型为图像；若数据集质量评估模型用于评估融合数据集的质量，则参考数据集的数据类型包括但不限于图像、文本、音频、视频等。

在获取到参考数据集后，计算机设备从参考数据集中划分出训练数据集和测试数据集，以用于后续的有效性测试过程。本发明对训练数据集和测试数据集的具体划分方式不作限定，可选地，计算机设备按照比例划分，例如，将参考数据集中80％划分为训练数据集、20％划分为测试数据集；或者，计算机设备按照数量划分，例如，从参考数据集中划分1000份数据用于构建测试数据集、剩余数据均用于构建训练数据集；或者，计算机设备对参考数据集中数据先进行分类，再分别将各类数据按比例划分至训练数据集和测试数据集。

步骤2：对训练数据集进行数据变化处理，得到n-1个衍生数据集。

本发明中，一方面通过数据集质量评估模型对n个数据集进行处理，得到n个评估结果；另一方面采用n个数据集分别训练n个AI模型，并通过训练完成的n个AI模型分别对测试数据集进行处理，得到n个测试结果；之后通过对n个评估结果与n个测试结果的比较分析等，确定数据集质量评估模型的有效性。可见，在数据集质量评估模型的有效性测试过程中，需要使用到n个数据集和一个测试数据集，对数据需求量较大。若n个数据集均从参考数据集中划分，则每个数据集中数据量会大大减少，可能无法有效训练AI模型，影响数据集质量评估模型的有效性测试结果。基于此，本发明先从参考数据集中划分出一个训练数据集和一个测试数据集，再对这一个训练数据集进行数据变化处理得到n-1个衍生数据集，以此获取到本发明有效性测试验证过程中所需的n个数据集。

在一个示例中，数据变化处理的具体方式与训练数据集的数据内容相匹配，从而上述步骤2可以包括如下几个子步骤(步骤2.1至2.3)。

步骤2.1：获取训练数据集的数据内容。

其中，训练数据集的数据内容不仅包括主体数据内容(即上述数据类型)，还包括主体数据内容对应的标注信息(即标签等)。应理解，对于不同的应用任务，即便数据集的数据类型相同，数据集的标注信息也会有所差异。

示例性地，图像分类数据集的数据内容包括图像和图像级标签，图像语义分割数据集的数据内容包括图像和像素级标签，文本分类数据集的数据内容包括文本和分类标签，音频分类数据集的数据内容包括音频和分类标签，视频分割数据集的数据内容包括原视频和镜头切分位置标签，阔模态的文生成图数据集的数据内容包括图文对。

步骤2.2：基于数据内容，确定数据变化处理的至少一种方式。

计算机设备需要获取与数据内容相匹配的一种或多种数据变化处理的方式。可选地，计算机设备中预置有多组数据内容与数据变化处理的方式之间的匹配关系，在获取到训练数据集的具体数据内容之后，可以基于该匹配关系确定数据变化处理的具体方式。

示例性地，与图像分类数据集的数据内容相匹配的数据变化处理的方式包括但不限于：对图像添加噪声、删除图像级标签、篡改图像级标签、为图像添加多个图像级标签、增加特定图像的重复率、为同一图像的副本添加冲突标签、删除特定类别下部分图像致使类别不均衡等。

示例性地，与文本分类数据集的数据内容相匹配的数据变化处理的方式包括但不限于：在文本中嵌入错别字、打乱文本序列、删除分类标签、篡改分类标签、为文本添加多个分类标签、增加特定文本的重复率、为同一文本的副本添加冲突标签、删除特定类别下部分文本致使类别不均衡等。

示例性地，与音频分类数据集的数据内容相匹配的数据变化处理的方式包括但不限于：对音频添加背景噪声、删除音频片段、删除分类标签、篡改分类标签、为音频添加多个分类标签、增加特定音频的重复率、为同一音频的副本添加冲突标签、删除特定类别下部分音频致使类别不均衡等。

示例性地，与视频分割数据集的数据内容相匹配的数据变化处理的方式包括但不限于：为原视频添加错误的分割标记、删除视频片段、删除镜头切分位置标签、篡改镜头切分位置标签、为原视频添加多个镜头切分位置标签、增加特定原视频的重复率、为同一原视频的副本添加冲突标签等。

示例性地，与文生成图数据集的数据内容相匹配的数据变化处理的方式包括但不限于：添加不匹配图文对、删除图文对中的图或文、打乱图文对的匹配关系、增加特定图文对的重复率等。

步骤2.3：针对至少一种方式中的目标方式，按照目标方式对训练数据集进行多种不同处理程度的数据变化处理，得到多个衍生数据集。

本发明中，不仅可以通过多种不同方式对训练数据集进行数据变化处理，分别得到多个衍生数据集，以便于后续分析数据集质量评估模型在面对数据集中不同类型的数据错误时评估有效性；还可以通过同一种方式对训练数据集进行多种不同处理程度的数据变化处理，分别得到多个衍生数据集，以便于后续分析数据集质量评估模型在面对数据集中同一类型不同强度的数据错误时评估有效性。应理解，实际应用中，计算机设备还可以同时采用多种不同方式对训练数据集进行数据变化处理。

基于此，对于上述步骤2.2中获取的至少一种方式中的目标方式，计算机设备按照目标方式对训练数据集进行多种不同处理程度的数据变化处理，以得到多个衍生数据集。本发明对不同处理程度的具体设置方式不作限定，可选地，不同处理程度包括至少五种处理程度，对于处理程度较高和处理程度较小时分别设置至少两种接近的处理程度，从而构建质量差异较小的多个衍生数据集，以分析数据集质量评估模型是否能够针对数据集质量的微小差异做出准确评估。例如，对于删除标签这一数据处理方式，不同处理程度可以设置为：删除10％的标签、删除15％的标签、删除50％的标签、删除85％的标签、删除90％的标签。

可选地，上述目标方式可以是至少一种方式中的任意一种方式，也即，针对至少一种方式中的每一种方式，均按照该方式对训练数据集进行多种不同处理程度的数据变化处理；或者，上述目标方式也可以是至少一种方式中的特定方式，如目标方式与数据集质量评估模型所采用的评估指标相匹配，从而更有针对性地分析数据集质量评估模型在面对数据集中特定类型的数据错误时评估有效性。例如，数据集质量评估模型所采用的评估指标包括规范性、多样性、准确性等，则目标方式可以包括删除标签、删除特定类别下的部分数据致使类别不均衡、篡改标签等。

步骤3：通过数据集质量评估模型对n个数据集分别进行质量评估，得到n个评估结果。

其中，n个数据集包括上述训练数据集和n-1个衍生数据集，数据集质量评估模型对每个数据集进行质量评估得到一个评估结果。本发明对评估结果的具体内容形式不作限定，可选地，为了实现更加准确地验证数据集质量评估模型的有效性，需要尽可能全面且丰富的评估数据，因此，每个评估结果不仅可以包括数据集质量评估模型输出的最终结论，还可以包括数据集质量评估模型在评估过程中计算的中间数据。

示例性地，数据集质量评估模型为多层次模型，包括至少三层：目标层、特性层和指标层。其中，如图2所示，目标层计算的数据集质量结论，可以是评分数值，也可以是评价等级(如优、中等、差)；特性层计算的用于指示数据集质量的至少一个维度的质量特性，包括但不限于完整性、自洽性、保密性、准确性、规范性、无偏性、多样性、现时性等；指标层计算各个质量特性的评估指标，完整性的评估指标包括但不限于数据元素完整性、数据记录完整性、元数据完整性、空值率、数据类别完整性、数据数量完整性等，自洽性的评估指标包括但不限于逻辑冲突度量、标注度量等，保密性的评估指标包括但不限于原始数据度量、标注数据度量、数据共享度量、数据分析度量、数据使用度量、数据废弃度量等，准确性的评估指标包括但不限于数据重复率、异常值度量等，规范性的评估指标包括但不限于数据标准度量、权威参考数据度量、业务规则度量、安全规范度量、标准化度量、数据格式合规性等，无偏性的评估指标包括但不限于分布无偏性、历史无偏性等，多样性的评估指标包括但不限于数据来源多样性、数据规格多样性等，现时性的评估指标包括但不限于时间段正确性、时间的及时性、时序性等。

基于此，步骤3中获取的每个评估结果可以包括数据集质量评估模型的目标层输出的数据集质量结论、特性层输出的各个质量特性、指标层输出的各个评估指标的取值中的至少一项。例如，步骤3中获取的每个评估结果包括数据集质量评估模型的指标层输出的各个评估指标的取值，若指标层中包括k个评估指标，通过对n个数据集分别进行质量评估获取的n个评估结果，可以表示为n*k的矩阵，该矩阵中第i行第j列的元素表示数据集质量评估模型对n个数据集中第i个数据集进行质量评估时，所计算的第j个评估指标的取值。

步骤4：采用n个数据集分别训练n个AI模型，得到完成训练的n个AI模型。

其中，n个数据集包括上述训练数据集和n-1个衍生数据集，每个AI模型采用n个数据集中的一个数据集进行训练，得到完成训练的AI模型。为了确保数据集质量评估模型验证过程的一致性，在采用n个数据集分别训练n个AI模型时，需要选择相同(包括网络结构和初始参数等均相同)的n个AI模型，采用相同的训练方法分别执行训练，以得到完成训练的n个AI模型。

可选地，为了达到较好的训练效果，基于训练数据集的数据类型和应用任务等不同，所采用的AI模型也不同。例如，若训练数据集为图像分类数据集，则所采用的AI模型可以为ResNet50模型；若训练数据集为文本分类数据集，则所采用的AI模型可以为Transformer模型；若训练数据集为音频分类数据集，则所采用的AI模型可以为torchaudio框架；若训练数据集为视频分割数据集，则所采用的AI模型可以为TransNet模型；若训练数据集为文生成图数据集，则所采用的AI模型可以为OpenAI Clip的模型。

步骤5：分别通过完成训练的n个AI模型对测试数据集进行处理，得到n个测试结果。

虽然n个AI模型的网络结构、初始参数、训练方式等均相同，但由于训练时采用的数据集不同，从而完成训练后的AI模型的模型性能也有所差异，这种性能差异正体现了训练时采用的数据集的质量差异。本发明中，通过测试数据集对完成训练的n个AI模型进行测试，得到n个测试结果，以这n个测试结果直接展示完成训练的n个AI模型的性能差异，间接展示n个数据集的质量差异。

其中，每个完成训练的AI模型在对测试数据集进行处理时，针对测试数据集中每份样本均得到一个处理结果，若测试数据集中包括m份样本，则每份测试结果中均包括m个处理结果，基于此，通过完成训练的n个AI模型对测试数据集进行处理得到的n个测试结果，可以表示为n*m的矩阵，该矩阵中第p行第q列的元素表示n个完成训练的AI模型中第p个AI模型，对测试数据集中第q份样本的处理结果。

步骤6：基于n个测试结果和n个评估结果，确定数据集质量评估模型的有效性。

一方面，n个评估结果可以指示数据集质量评估模型所确定的n个数据集之间的质量差异；另一方面，n个测试结果可以准确地间接指示n个数据集之间的质量差异。以n个测试结果为参照，分析n个评估结果与n个测试结果之间的一致性。若n个评估结果与n个测试结果一致，则确定数据集质量评估模型对数据集的质量评估有效；若n个评估结果与n个测试结果不一致，则确定数据集质量评估模型对数据集的质量评估无效。

在一个示例中，上述步骤6包括如下几个子步骤(步骤6.1至6.3)。

步骤6.1：计算n个评估结果与n个测试结果之间的相关系数的取值。

本示例采用斯颇曼秩相关系数(Spearman rank correlation coefficient)来指示n个评估结果与n个测试结果之间的一致性。斯颇曼秩相关系数的取值范围是0至1，取值越大，表示相关性越高。

由上述实施例可知，n个测试结果可以表示为n*m的矩阵，该矩阵的每一行表示一个测试结果；n个评估结果可以表示为n*k的矩阵，该矩阵的每一行表示一个评估结果；其中，n*m矩阵与n*k矩阵中同一行对应于n个数据集中的同一个数据集。基于此，上述步骤6.1包括：计算n*m矩阵中各行元素的加权秩R₁；计算n*k矩阵中各行元素的加权秩R₂；计算R₁和R₂之间的斯颇曼秩相关系数的取值。

步骤6.2：若相关系数的取值大于预设阈值，则n个评估结果与n个测试结果一致，确定数据集质量评估模型对数据集的质量评估有效。

本示例对预设阈值的具体取值不作限定，实际应用中可以结合对数据集质量评估模型的有效性需求程度来确定，若有效性需求较严格则可以设置较高的预设阈值(如0.8等)，若有效性需求较宽松则可以设置较低的预设阈值(如0.5等)。在相关系数的取值大于预设阈值的情况下，相关系数的取值越大，n个评估结果与n个测试结果越一致，数据集质量评估模型的有效性越高。

步骤6.3：若相关系数的取值小于预设阈值，则n个评估结果与n个测试结果不一致，确定数据集质量评估模型对数据集的质量评估无效。

若相关系数的取值小于预设阈值，则表示n个评估结果与n个测试结果一致性过低，可以认为它们不一致，计算机设备确定数据集质量评估模型不具备有效性。

可选地，本发明还可以基于相关系数的取值范围对数据集质量评估模型的有效性划分多个等级。示例性地，若相关系数的取值大于或等于0且小于0.5，则数据集质量评估模型不具备有效性；若相关系数的取值大于或等于0.5且小于0.7，则数据集质量评估模型具备有效性，且有效性较低；若相关系数的取值大于或等于0.7且小于0.9，则数据集质量评估模型具备有效性，且有效性中等；若相关系数的取值大于或等于0.9且小于或等于1，则数据集质量评估模型具备有效性，且有效性较高。

综上所述，本发明提供了一种对数据集质量评估模型的有效性进行自动化测试验证的方法。本发明一方面通过数据集质量评估模型对n个数据集进行处理，得到n个评估结果；另一方面采用n个数据集分别训练n个AI模型，并通过训练完成的n个AI模型分别对测试数据集进行处理，得到n个测试结果。其中，n个评估结果指示数据集质量评估模型对n个数据集之间质量差异的评估，n个测试结果间接准确地指示n个数据集之间的质量差异。以n个测试结果作为参考，比较分析n个评估结果与n个测试结果之间的一致性，以确定数据集质量评估模型对数据集的质量评估是否有效，实现了在数据集质量评估模型投入应用之前对数据集质量评估模型的有效性进行自动化地测试验证，避免由于数据集质量评估模型本身存在的种种问题导致数据集质量评估结果的不准确或错误，有助于提升数据集质量评估的准确性。

示例性装置

图3是根据一示例性实施例示出的一种数据集质量评估模型的有效性测试装置，参照图3，该装置包括：数据集划分模块310、数据变化模块320、质量评估模块330、模型训练模块340、模型测试模块350和有效性评估模块360。

数据集划分模块310，用于从参考数据集中划分出训练数据集和测试数据集，所述参考数据集的数据类型与所需进行有效性测试的数据集质量评估模型的评估对象数据类型一致；

数据变化模块320，用于对所述训练数据集进行数据变化处理，得到n-1个衍生数据集；所述训练数据集和所述n-1个衍生数据集共同组成n个数据集；

质量评估模块330，用于通过所述数据集质量评估模型对所述n个数据集分别进行质量评估，得到n个评估结果；

模型训练模块340，用于采用所述n个数据集分别训练n个AI模型，得到完成训练的n个AI模型；

模型测试模块350，用于分别通过所述完成训练的n个AI模型对所述测试数据集进行处理，得到n个测试结果；

有效性评估模块360，用于基于所述n个测试结果和所述n个评估结果，确定所述数据集质量评估模型的有效性。

在本公开一个实施例中，所述数据变化模块320还用于：获取所述训练数据集的数据内容；基于所述数据内容，确定数据变化处理的至少一种方式；针对所述至少一种方式中的目标方式，按照所述目标方式对所述训练数据集进行多种不同处理程度的数据变化处理，得到多个衍生数据集。

在本公开一个实施例中，基于图像分类数据集的数据内容，所确定的数据变化处理的至少一种方式包括：对图像添加噪声、删除图像级标签、篡改图像级标签、为图像添加多个图像级标签、增加特定图像的重复率、为同一图像的副本添加冲突标签和/或删除特定类别下部分图像致使类别不均衡；基于文本分类数据集的数据内容，所确定的数据变化处理的至少一种方式包括：在文本中嵌入错别字、打乱文本序列、删除分类标签、篡改分类标签、为文本添加多个分类标签、增加特定文本的重复率、为同一文本的副本添加冲突标签和/或删除特定类别下部分文本致使类别不均衡；基于音频分类数据集的数据内容，所确定的数据变化处理的至少一种方式包括：对音频添加背景噪声、删除音频片段、删除分类标签、篡改分类标签、为音频添加多个分类标签、增加特定音频的重复率、为同一音频的副本添加冲突标签和/或删除特定类别下部分音频致使类别不均衡；基于视频分割数据集的数据内容，所确定的数据变化处理的至少一种方式包括：为原视频添加错误的分割标记、删除视频片段、删除镜头切分位置标签、篡改镜头切分位置标签、为原视频添加多个镜头切分位置标签、增加特定原视频的重复率和/或为同一原视频的副本添加冲突标签；基于文生成图数据集的数据内容，所确定的数据变化处理的至少一种方式包括：添加不匹配图文对、删除图文对中的图或文、打乱图文对的匹配关系和/或增加特定图文对的重复率。

在本公开一个实施例中，所述n个AI模型为网络结构和初始参数均相同的AI模型，且所述n个AI模型与所述训练数据集的数据类型和应用任务相匹配。

在本公开一个实施例中，所述数据集质量评估模型包括：目标层、特性层和指标层；所述质量评估模块330还用于：获取所述目标层计算的数据集质量结论，所述数据集质量结论为评分数值或评价等级；获取所述特性层计算的包括用于指示数据集质量的至少一个维度的质量特性，所述质量特性包括：完整性、自洽性、保密性、准确性、规范性、无偏性、多样性和/或现时性；获取所述指标层计算的各个质量特性的评估指标；其中，所述完整性的评估指标包括：数据元素完整性、数据记录完整性、元数据完整性、空值率、数据类别完整性和/或数据数量完整性；所述准确性的评估指标包括：逻辑冲突度量和/或标注度量；所述保密性的评估指标包括：原始数据度量、标注数据度量、数据共享度量、数据分析度量、数据使用度量和/或数据废弃度量；所述准确性的评估指标包括：数据重复率和/或异常值度量；所述规范性的评估指标包括：数据标准度量、权威参考数据度量、业务规则度量、安全规范度量、标准化度量和/或数据格式合规性；所述无偏性的评估指标包括：分布无偏性和/或历史无偏性；所述多样性的评估指标包括：数据来源多样性和/或数据规格多样性；述现时性的评估指标包括：时间段正确性、时间的及时性和/或时序性；结合所述数据集质量结论、所述质量特性和所述评估指标中的一项或多项，得到对应数据集的评估结果。

在本公开一个实施例中，所述有效性评估模块360还用于：计算所述n个评估结果与所述n个测试结果之间的相关系数的取值；若所述相关系数的取值大于预设阈值，则所述n个评估结果与所述n个测试结果一致，确定所述数据集质量评估模型对所述数据集的质量评估有效；若所述相关系数的取值小于所述预设阈值，则所述n个评估结果与所述n个测试结果不一致，确定所述数据集质量评估模型对所述数据集的质量评估无效。

在本公开一个实施例中，所述有效性评估模块360还用于：将所述n个测试结果转化为n*m矩阵，所述m表示所述测试数据集中包括的样本数量，所述n*m矩阵的每一行表示一个测试结果；将所述n个评估结果转化为n*k矩阵，所述k表示所述数据集质量评估模型在评估过程中计算的数据维度数量，所述n*k矩阵的每一行表示一个评估结果，且所述n*m矩阵与所述n*k矩阵中同一行对应于n个数据集中的同一个数据集；计算所述n*m矩阵中各行元素的加权秩R₁；计算所述n*k矩阵中各行元素的加权秩R₂；计算所述加权秩R₁与所述加权秩R₂之间的斯颇曼秩相关系数的取值。

示例性装置是与上述示例性方法对应的装置实施例，各个模块的具体操作可以参照方法实施例的描述进行理解，在此不再赘述。

示例性电子设备

图4是根据一示例性实施例示出的一种计算机设备400的框图。该计算机设备400可以是终端、笔记本电脑、台式电脑、服务器、计算机集群或者其他类型的电子设备。

参照图4，计算机设备400可包括至少一个处理器410和存储器420。处理器410可以执行存储在存储器420中的指令。处理器410通过数据总线与存储器420通信连接。除存储器420外，处理器410还可通过数据总线与输入设备430、输出设备440、通信设备450通信连接。

处理器410可以是任何常规的处理器。处理器可以包括诸如中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphic Process Unit，GPU)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、片上系统(System on Chip，SOC)、专用集成芯片(Application Specific Integrated Circuit，ASIC)或它们的组合。

存储器420可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

在本公开实施例中，存储器420中存储有可执行指令，处理器410可以从所述存储器420中读取所述可执行指令，并执行所述指令以实现上述示例性实施例中数据集质量评估模型的有效性测试方法的全部或部分步骤。

示例性计算机可读存储介质

除了上述方法和装置以外，本公开示例性实施例还包括计算机程序产品或存储有该计算机程序产品的计算机可读存储介质。该计算机产品中包括计算机程序指令，该计算机程序指令可被处理器执行，以实现上述示例性实施例中描述的全部或部分步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言以及脚本语言(例如Python)。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质更具体的例子包括：具有一个或多个导线电连接的静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘，或者上述的任意合适的组合。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开也并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种数据集质量评估模型的有效性测试方法，其特征在于，所述方法包括：

采用所述n个数据集分别训练n个人工智能AI模型，得到完成训练的n个AI模型；

分别通过所述完成训练的n个AI模型对所述测试数据集进行处理，得到n个测试结果；基于所述n个测试结果和所述n个评估结果，确定所述数据集质量评估模型的有效性。

2.根据权利要求1所述的方法，其特征在于，所述对所述训练数据集进行数据变化处理，得到n-1个衍生数据集，包括：

获取所述训练数据集的数据内容；

基于所述数据内容，确定数据变化处理的至少一种方式；

针对所述至少一种方式中的目标方式，按照所述目标方式对所述训练数据集进行多种不同处理程度的数据变化处理，得到多个衍生数据集。

3.根据权利要求2所述的方法，其特征在于，

基于图像分类数据集的数据内容，所确定的数据变化处理的至少一种方式包括：对图像添加噪声、删除图像级标签、篡改图像级标签、为图像添加多个图像级标签、增加特定图像的重复率、为同一图像的副本添加冲突标签和/或删除特定类别下部分图像致使类别不均衡；

基于文本分类数据集的数据内容，所确定的数据变化处理的至少一种方式包括：在文本中嵌入错别字、打乱文本序列、删除分类标签、篡改分类标签、为文本添加多个分类标签、增加特定文本的重复率、为同一文本的副本添加冲突标签和/或删除特定类别下部分文本致使类别不均衡；

基于音频分类数据集的数据内容，所确定的数据变化处理的至少一种方式包括：对音频添加背景噪声、删除音频片段、删除分类标签、篡改分类标签、为音频添加多个分类标签、增加特定音频的重复率、为同一音频的副本添加冲突标签和/或删除特定类别下部分音频致使类别不均衡；

基于视频分割数据集的数据内容，所确定的数据变化处理的至少一种方式包括：为原视频添加错误的分割标记、删除视频片段、删除镜头切分位置标签、篡改镜头切分位置标签、为原视频添加多个镜头切分位置标签、增加特定原视频的重复率和/或为同一原视频的副本添加冲突标签；

基于文生成图数据集的数据内容，所确定的数据变化处理的至少一种方式包括：添加不匹配图文对、删除图文对中的图或文、打乱图文对的匹配关系和/或增加特定图文对的重复率。

4.根据权利要求1所述的方法，其特征在于，所述n个AI模型为网络结构和初始参数均相同的AI模型，且所述n个AI模型与所述训练数据集的数据类型和应用任务相匹配。

5.根据权利要求1所述的方法，其特征在于，所述数据集质量评估模型包括：目标层、特性层和指标层；

所述通过所述数据集质量评估模型对所述n个数据集分别进行质量评估，得到n个评估结果，包括：

获取所述目标层计算的数据集质量结论，所述数据集质量结论为评分数值或评价等级；

获取所述特性层计算的用于指示数据集质量的至少一个维度的质量特性，所述质量特性包括：完整性、自洽性、保密性、准确性、规范性、无偏性、多样性和/或现时性；

获取所述指标层计算的各个质量特性的评估指标；其中，

所述完整性的评估指标包括：数据元素完整性、数据记录完整性、元数据完整性、空值率、数据类别完整性和/或数据数量完整性；

所述准确性的评估指标包括：逻辑冲突度量和/或标注度量；

所述保密性的评估指标包括：原始数据度量、标注数据度量、数据共享度量、数据分析度量、数据使用度量和/或数据废弃度量；

所述准确性的评估指标包括：数据重复率和/或异常值度量；

所述规范性的评估指标包括：数据标准度量、权威参考数据度量、业务规则度量、安全规范度量、标准化度量和/或数据格式合规性；

所述无偏性的评估指标包括：分布无偏性和/或历史无偏性；

所述多样性的评估指标包括：数据来源多样性和/或数据规格多样性；

所述现时性的评估指标包括：时间段正确性、时间的及时性和/或时序性；

结合所述数据集质量结论、所述质量特性和所述评估指标中的一项或多项，得到对应数据集的评估结果。

6.根据权利要求1所述的方法，其特征在于，所述基于所述n个测试结果和所述n个评估结果，确定所述数据集质量评估模型的有效性，包括：

计算所述n个评估结果与所述n个测试结果之间的相关系数的取值；

若所述相关系数的取值大于预设阈值，则所述n个评估结果与所述n个测试结果一致，确定所述数据集质量评估模型对所述数据集的质量评估有效；

若所述相关系数的取值小于所述预设阈值，则所述n个评估结果与所述n个测试结果不一致，确定所述数据集质量评估模型对所述数据集的质量评估无效。

7.根据权利要求6所述的方法，其特征在于，所述计算所述n个评估结果与所述n个测试结果之间的相关系数的取值，包括：

将所述n个测试结果转化为n*m矩阵，所述m表示所述测试数据集中包括的样本数量，所述n*m矩阵的每一行表示一个测试结果；

将所述n个评估结果转化为n*k矩阵，所述k表示所述数据集质量评估模型在评估过程中计算的数据维度数量，所述n*k矩阵的每一行表示一个评估结果，且所述n*m矩阵与所述n*k矩阵中同一行对应于n个数据集中的同一个数据集；

计算所述n*m矩阵中各行元素的加权秩R₁；

计算所述n*k矩阵中各行元素的加权秩R₂；

计算所述加权秩R₁与所述加权秩R₂之间的斯颇曼秩相关系数的取值。

8.一种数据集质量评估模型的有效性测试装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现如权利要求1-7任一项所述的数据集质量评估模型的有效性测试方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令在被执行时实现权利要求1至7中任一项所述的数据集质量评估模型的有效性测试方法。