CN117312814A

CN117312814A - 一种模型评估方法、装置及存储介质

Info

Publication number: CN117312814A
Application number: CN202311229400.5A
Authority: CN
Inventors: 邹紫盛; 李响; 王金; 郭阶添; 谭文明; 任烨
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-12-29

Abstract

本申请公开了一种模型评估方法、装置及存储介质，涉及自主学习技术领域，可以减少模型评估过程中样本数据的标定数量，降低标定代价。该方法包括：获取样本数据；根据样本数据的数据特征，对样本数据进行聚类，得到多个样本簇；根据样本数据输入待评估模型得到的预测标签，确定多个样本簇的标签一致性；标签一致性用于表示预测标签的相同度；根据待评估模型的评估参数，确定待评估模型的评估结果；评估参数包括多个样本簇的标签一致性。

Description

一种模型评估方法、装置及存储介质

技术领域

本申请涉及自主学习技术领域，尤其涉及一种模型评估方法、装置及存储介质。

背景技术

在自主学习的过程中，模型的迭代更新是为了不断完善和优化模型。因此，在新旧模型迭代之前，需要进行模型评估，以使得迭代后的模型朝着性能优化的方向发展。

模型评估的相关技术中，需要预先标定好样本数据，然后输入待评估的模型中对模型进行评估。但是，为了提高评估的准确性，需要标定大量的样本数据，相应的标定代价耗费较高。

发明内容

本申请实施例提供一种模型评估方法、装置及存储介质，可以用于减少模型评估过程中样本数据的标定数量，降低标定代价。

第一方面，本申请实施例提供一种模型评估方法，该方法包括：获取样本数据；样本数据在第一模型中的预测标签，与样本数据在第二模型中的预测标签的差异度大于预设差异度；根据样本数据的数据特征，对样本数据进行聚类，得到多个样本簇；根据样本数据输入待评估模型得到的预测标签，确定多个样本簇的标签一致性；标签一致性用于表示预测标签的相同度；根据待评估模型的评估参数，确定待评估模型的评估结果；评估参数包括多个样本簇的标签一致性。

本申请实施例提供的技术方案至少带来以下有益效果：一方面，可以直接利用现场的样本数据进行模型的评估，且样本数据在不同模型中预测标签差异度大，可以真实反映模型在现场使用过程中的性能，解决了模型评估数据较为理想，会导致评估结果存在偏差的问题。另一方面，可以对无标签的样本数据进行聚类，利用样本簇内标签一致性来量化模型的性能，可以实现无标签状态下对模型性能评估，有效减少了样本数据的标定数量，可以降低标定代价。

在一些实施例中，当上述聚类为分层聚类时，多个样本簇包括至少一层样本簇；上述根据数据特征，对样本数据进行聚类，得到多个样本簇，包括：根据数据特征，通过预设的聚类算法，对样本数据进行聚类，得到第一层样本簇；对上一层样本簇执行合并操作，得到下一层样本簇，直至得到至少一层样本簇中每层样本簇；合并操作包括：当上一层样本簇中，任意两个样本簇的簇心距离小于距离阈值时，将任意两个样本簇合并为一个下一层样本簇；上一层包括至少一层中除最后一层以外的任意一层；距离为样本簇簇心特征之间的余弦距离；距离阈值与上一层样本簇两两之间的多个簇心距离相关。

基于此，可以对无标签的样本数据进行分层聚类，在不同粒度水平上对样本数据进行分析，可以表现出类的层次关系，进而提高基于各层样本簇对待评估模型的评估准确性。

在一些实施例中，上述多个样本簇的标签一致性包括：至少一层样本簇中，每层样本簇的标签一致性；评估参数还包括：至少一层样本簇的每层权重；上一层样本簇的权重大于下一层样本簇的权重；上述根据待评估模型的评估参数，确定待评估模型的评估结果，包括：根据每层权重，对每层样本簇的标签一致性加权求和，得到待评估模型的评估结果。

基于此，可以针对实际应用中对各层标签一致性的重视程度设定每层权重，进而使得加权求和得到的评估结果，可以体现待评估模型在实际应用中的真实性能。

在一些实施例中，上述待评估模型包括：第一模型和第二模型。

应理解，在应用于多个模型的性能对比的情况下，可以得到多个模型分别对于样本数据的评估结果，有效反映出多个模型之间的性能差异。

在一些实施例中，上述确定多个样本簇的标签一致性之后，方法还包括：当多个样本簇中至少一个样本簇满足预设条件时，将至少一个样本簇确定为至少一个不确定样本簇；预设条件包括：至少一个不确定样本簇中，每个不确定样本簇内样本数据在第一模型中的预测标签与在第二模型中的预测标签不同、且在第一模型中的标签一致性以及在第二模型中的标签一致性均大于预设值；当至少一个不确定样本簇内样本数据的数量大于预设的样本阈值时，获取至少一个不确定样本簇内样本数据的真实标签，修正多个样本簇的标签一致性。

基于此，可以通过少量人工标注的真实标签，对不确定样本簇内样本数据的预测标签进行修正，可以减少不确定样本簇对模型评估的影响，以提高模型评估的准确性。

在一些实施例中，上述获取至少一个不确定样本簇内样本数据的真实标签，修正多个样本簇的标签一致性，包括：将至少一个不确定样本簇中，以预设距离为半径的范围能覆盖至少一个不确定样本簇的样本簇确定为核心代表簇；根据针对核心代表簇内任意一个样本数据人工标注的真实标签，确定至少一个不确定样本簇内样本数据的真实标签；根据至少一个不确定样本簇内样本数据的真实标签，修正多个样本簇的标签一致性。

基于此，可以利用聚类和核心集(Core-Set)算法的方式进行少量的高价值样本数据推送，显著减少标定代价下实现模型性能评估指标优化。

在一些实施例中，上述预设条件还包括：每个不确定样本簇内样本数据的数量大于预设量。

应理解，当不确定样本簇内样本数据的数量较少时，在实际应用中对模型评估的影响可以忽略不计，可以减少这部分的算力资源浪费。

在一些实施例中，上述方法，还包括：当第一模型的评估结果优于第二模型的评估结果时，将第一模型确定为优化模型。

基于此，可以应用于多个模型的性能对比，例如模型迭代过程中的新旧模型，可以较好避免盲目选择新模型进行更新可能带来的风险。

第二方面，本申请实施例提供一种模型评估装置，包括：样本构建单元，用于获取样本数据；样本数据在第一模型中的预测标签，与样本数据在第二模型中的预测标签的差异度大于预设差异度；聚类单元，用于根据样本数据的数据特征，对样本数据进行聚类，得到多个样本簇；性能评估单元，用于根据样本数据输入待评估模型得到的预测标签，确定多个样本簇的标签一致性；标签一致性用于表示预测标签的相同度；根据待评估模型的评估参数，确定待评估模型的评估结果；评估参数包括多个样本簇的标签一致性。

在一些实施例中，当上述聚类为分层聚类时，多个样本簇包括至少一层样本簇；聚类单元，具体用于根据数据特征，通过预设的聚类算法，对样本数据进行聚类，得到第一层样本簇；对上一层样本簇执行合并操作，得到下一层样本簇，直至得到至少一层样本簇中每层样本簇；合并操作包括：当上一层样本簇中，任意两个样本簇的簇心距离小于距离阈值时，将任意两个样本簇合并为一个下一层样本簇；上一层包括至少一层中除最后一层以外的任意一层；距离为样本簇簇心特征之间的余弦距离；距离阈值与上一层样本簇两两之间的多个簇心距离相关。

在一些实施例中，上述多个样本簇的标签一致性包括：至少一层样本簇中，每层样本簇的标签一致性；评估参数还包括：至少一层样本簇的每层权重；上一层样本簇的权重大于下一层样本簇的权重；性能评估单元，具体用于根据每层权重，对每层样本簇的标签一致性加权求和，得到待评估模型的评估结果。

在一些实施例中，上述性能评估单元，还用于当多个样本簇中至少一个样本簇满足预设条件时，将至少一个样本簇确定为至少一个不确定样本簇；预设条件包括：至少一个不确定样本簇中，每个不确定样本簇内样本数据在第一模型中的预测标签与在第二模型中的预测标签不同、且在第一模型中的标签一致性以及在第二模型中的标签一致性均大于预设值；当至少一个不确定样本簇内样本数据的数量大于预设的样本阈值时，获取至少一个不确定样本簇内样本数据的真实标签，修正多个样本簇的标签一致性。

在一些实施例中，上述性能评估单元，具体用于将至少一个不确定样本簇中，以预设距离为半径的范围能覆盖至少一个不确定样本簇的样本簇确定为核心代表簇；根据针对核心代表簇内任意一个样本数据人工标注的真实标签，确定至少一个不确定样本簇内样本数据的真实标签；根据至少一个不确定样本簇内样本数据的真实标签，修正多个样本簇的标签一致性。

在一些实施例中，上述性能评估单元，还用于当第一模型的评估结果优于第二模型的评估结果时，将第一模型确定为优化模型。

第三方面，本申请实施例提供一种模型评估装置，包括：存储器和处理器；存储器和处理器耦合；存储器用于存储计算机程序代码，计算机程序代码包括计算机指令；其中，当处理器执行计算机指令时，使得模型评估装置执行如第一方面及其任一种可能的设计方式的模型评估方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行第一方面以及可能的实现方式中提供的方法。

第五方面，本申请实施例提供一种包含计算机指令的计算机程序产品，当该计算机指令在计算机上运行时，使得计算机执行上述第一方面以及可能的实现方式中提供的方法。

需要说明的是，上述计算机指令可以全部或者部分存储在计算机可读存储介质上。其中，计算机可读存储介质可以与控制器的处理器封装在一起的，也可以与控制器的处理器单独封装，本申请对此不作限定。

本申请中第二方面到第五方面及其各种实现方式的具体描述，可以参考第一方面及其各种实现方式中的详细描述。第二方面到第五方面及其各种实现方式的有益效果，可以参考第一方面及其各种实现方式的有益效果分析，此处不再赘述。

附图说明

图1为根据一些实施例的一种模型评估方法的流程示意图一；

图2为根据一些实施例的一种模型评估方法的流程示意图二；

图3为根据一些实施例的一种新旧模型的标签一致性的示意图；

图4为根据一些实施例的一种模型评估方法的流程示意图三；

图5为根据一些实施例的一种模型评估方法的流程示意图四；

图6为根据一些实施例的一种Core-Set算法的示意图；

图7为根据一些实施例的一种模型评估装置的结构示意图一；

图8为根据一些实施例的一种模型评估装置的结构示意图二。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

如背景技术所述，在新旧模型迭代之前，需要进行模型评估，以使得迭代后的模型朝着性能优化的方向发展。模型评估的相关技术中，需要预先标定好样本数据，然后输入待评估的模型中对模型进行评估。但是，为了提高评估的准确性，需要标定大量的样本数据，相应的标定代价(例如人工)耗费较高。

对此，本申请实施例提供一种模型评估方法，该方法的核心思路在于：先获取样本数据，然后根据样本数据的数据特征，对样本数据进行划分，得到多个样本簇。再根据样本数据输入待评估模型得到的预测标签，确定多个样本簇的标签一致性。进一步根据预设的聚类算法对应的评估参数，确定待评估模型的评估结果，以实现对待评估模型的精准评估。同时，样本数据不需要进行标定，可以有效降低标定代价的耗费。

需要说明的是，本申请实施例对模型评估方法的具体应用场景不作限制，可以应用于任意自主学习的模型评估场景中。此外，本申请实施例提供的模型评估方法可以由模型评估装置来执行。例如，该模型评估装置可以为计算机设备。又例如，该模型评估装置可以为服务器。又例如，该模型评估装置可以是任意具有处理功能的中央处理器(centralprocess ing unit，CPU)、图像处理单元(graphics process ing unit，GPU)、通用处理器网络处理器(network processor，NP)、数字信号处理器(digital s ignal process ing，DSP)、微处理器、微控制器、可编程逻辑器件(programmable logic device，PLD)或它们的任意组合；又例如，该模型评估装置可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobi le personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital ass istant，PDA)、增强现实(augmentedreal ity，AR)\虚拟现实(virtual real ity，VR)设备等。本申请对模型评估装置的具体形态不作特殊限制。

为便于理解，以下结合附图对本申请提供的模型评估方法作具体介绍。

图1为本申请实施例提出的一种模型评估方法，应用于自主学习技术领域，下面以执行主体为服务器为例，对图1所示的方法作具体说明。如图1所示，该模型评估方法包括以下步骤S101至步骤S104：

S101、获取样本数据。

本申请实施例提出的一种模型评估方法，可以应用于单个模型的性能评估，也可以应用于多个模型的性能对比，例如模型迭代过程中的新旧模型。

应理解，样本数据可以为在各个模型中的预测标签差异度大的数据，即样本数据在第一模型中的预测标签，与样本数据在第二模型中的预测标签的差异度大于预设差异度。示例性的，模型迭代过程中差异度可以表现在：新旧模型预测类别不一致、新旧模型预测各类别概率值差异大。

S102、根据样本数据的数据特征，对样本数据进行聚类，得到多个样本簇。

在一些实施例中，本申请实施例可以通过常用的特征提取模型获取样本数据的数据特征。在此之前，本申请还可以基于海量数据训练上述特征提取模型，使其提取的数据特征具有良好的表征能力。

在一些实施例中，聚类可以为基于密度聚类、谱聚类、分层聚类(又称层级聚类、层次聚类)等任意一种聚类方法，本申请实施例对此不作限定。

进一步地，如图2所示，当聚类为分层聚类时，多个样本簇包括至少一层样本簇，上述步骤S102可以具体实现为以下步骤S1021和步骤S1022：

S1021、根据数据特征，通过预设的聚类算法，对样本数据进行聚类，得到第一层的样本簇。

可选地，聚类算法可以为基于密度聚类、谱聚类等。然后再根据上一层的样本簇合并得到下一层样本簇，直至得到至少一层样本簇。

S1022、对上一层的样本簇执行合并操作，得到下一层的样本簇，直至得到至少一层样本簇中每层样本簇。

合并操作包括：当上一层的样本簇中，任意两个样本簇的簇心距离小于距离阈值时，将任意两个样本簇合并为一个下一层的样本簇。上一层包括至少一层中除最后一层以外的任意一层。

距离可以表征两个样本数据的数据特征的相同度。距离阈值与上一层的样本簇两两之间的多个簇心距离相关。

示例性的，基于密度聚类、谱聚类等对样本数据进行聚类，得到的聚类簇称为第一底层簇(即第一层样本簇)Cluster_L1，接着，再以Cluster_L1中的各个簇心为中心，合并紧邻簇，通过限定距离阈值θ₁，得到第二底层簇(即第二层样本簇)Cluster_L2，以此类推，再以Cluster_L2中的各个簇心为中心，合并紧邻簇，通过限定距离阈值θ₂得到第三底层簇(即第三层样本簇)Cluster_L3。由此，可以得到三层级的聚类簇结构。

上述方案中，阈值θ₁、θ₂计算方式为：紧挨低一级簇的所有簇心两两之间距离排序后取Top5距离分布的75％处值。

S103、根据样本数据输入待评估模型得到的预测标签，确定多个样本簇的标签一致性。

标签一致性用于表示预测标签的相同度。

应理解，该评估方案基于聚类假设原理：特征空间既有密集区域，也有稀疏区域，密集分组的数据点很自然地形成聚类，同一聚类中的样本应具有相同的标签。即样本数据输入待评估模型得到的预测标签，理论上应与样本数据的数据特征相关。当多个样本数据的数据特征之间的余弦距离较小时，预测标签的相同度也较高。因此，根据数据特征，得到多个样本簇，待评估模型针对每个样本簇内样本数据的预测标签的相同度可以反映出待评估模型的模型性能。

进一步地，当聚类为分层聚类时，多个样本簇包括至少一层样本簇，Cluster_Li簇结构下每层样本簇的模型m预测标签的标签一致性Consistency_Li的详细计算公式为：

其中，#c为Cluster_Li中样本簇c所含样本数目，为在样本簇c内模型m预测主流标签类别的样本数目。

应理解，主流标签类别为在样本簇c内模型m的全量预测标签中占比超过预设主流阈值的预测标签，可以通过限定预设主流阈值，将主流标签类别确定为占比较多的预测标签。

S104、根据预设的聚类算法对应的评估参数，确定待评估模型的评估结果。

在一些实施例中，评估参数可以包括多个样本簇的标签一致性。

应理解，评估结果可以是一个具体的数值。在一些实施例中，可以将多个样本簇的标签一致性的平均值，确定为待评估模型的评估结果。

在一些实施例中，在应用于多个模型的性能对比的情况下，当第一模型的评估结果优于第二模型的评估结果时，可以将第一模型确定为优化模型。

示例性的，模型迭代过程中新旧模型分别对应预测标签的标签一致性如图3所示,图3中虚线与实线分别为新旧模型预测标签“类别1”与“类别2”的分类面，在相同样本簇(椭圆圈)内,新模型标签一致性要好于旧模型标签一致性。

进一步地，当聚类为分层聚类时，评估参数除了包括每个样本簇的标签一致性以外，还可以包括至少一层样本簇的每层权重。其中，上一层样本簇的权重大于下一层样本簇的权重。

上述步骤S104可以具体实现为以下步骤S1041：

S1041、根据每层权重，对每层样本簇的标签一致性加权求和，得到待评估模型的评估结果。

具体的，模型m的评估结果Performance^m的详细计算公式为：

其中，w_Li为Li级标签一致性的权重，n为Li级的分层数量。

应理解，当聚类为分层聚类时每层权重可以基于实际应用中对各层标签一致性的重视程度进行设定。例如，在三层级的聚类簇结构中，权重可以分别设置为0.5、0.3、0.2,表示更加重视最底层级簇(即第一层样本簇)的标签一致性，即更紧凑簇的标签一致性指标更可靠。同时，当新旧模型在最底层级簇的标签一致性都很高时，就需要往上层级松散簇看标签一致性，只是其权重会进行相应降低。

应理解，图1提供的技术方案至少带来以下有益效果：先获取样本数据，然后根据样本数据的数据特征，对样本数据进行划分，得到多个样本簇。再根据样本数据输入待评估模型得到的预测标签，确定多个样本簇的标签一致性。进一步根据预设的聚类算法对应的评估参数，确定待评估模型的评估结果，以实现对待评估模型的精准评估。同时，样本数据不需要进行标定，可以有效降低标定代价的耗费。

在模型迭代过程中，为提高优化后模型预测的准确性，上述步骤S103确定多个样本簇的标签一致性之后，可能存在新旧模型预测不一致但簇内标签一致性都高的不确定样本簇，此时可以引入少量的人工标注，以修正不确定样本簇的真实标签。如图4所示，上述修正标签可以按照以下步骤S201至步骤S202执行：

S201、当多个样本簇中至少一个样本簇满足预设条件时，将至少一个样本簇确定为至少一个不确定样本簇。

预设条件包括：至少一个不确定样本簇中，每个不确定样本簇内样本数据在第一模型中的预测标签与在第二模型中的预测标签不同、且在第一模型中的标签一致性以及在第二模型中的标签一致性均大于预设值。

S202、当至少一个不确定样本簇内样本数据的数量大于预设的样本阈值时，获取至少一个不确定样本簇内样本数据的真实标签，修正多个样本簇的标签一致性。

应理解，当样本数据在不同模型中各个模型对应的标签一致性都高，但预测标签不同时，表示模型之间存在较大的差异，这部分样本数据数量较少时对模型评估准确性的影响较少，但是若部分样本数据数量较多，即至少一个不确定样本簇内样本数据的数量大于预设的样本阈值时，需要引入客观的真实标签，以对多个样本簇的标签一致性进行修正，提高模型评估的准确性。例如，至少一个不确定样本簇内样本数据的数量超过总的样本数量的20％时，可选的引入人工审查标注操作。

进一步地，当一个不确定样本簇内样本数据的数量较少时，例如小于或者等于5个，在实际应用中对模型评估的影响可以忽略不计，为了减少这部分的算力资源浪费，预设条件还可以限定至少一个样本簇内样本数据的数量，包括：至少一个样本簇内样本数据的数量大于预设量。

进一步地，为了减少人工标注工作量，本申请实施例可以利用核心集(Core-Set)算法从至少一个不确定样本簇中仅选取有代表性的S个核心代表簇进行人工标注。如图5所示，上述步骤S202可以具体实现为以下步骤S2021至步骤S2023：

S2021、将至少一个不确定样本簇中，以预设距离为半径的范围能覆盖至少一个不确定样本簇的样本簇确定为核心代表簇。

示例性的，Core-Set算法的示意图如图6所示，每个点表示一个不确定样本簇，分别以核心代表簇A、B、C、D为中心，预设距离δ_s为半径的范围能覆盖所有的点。

应理解，一个不确定样本簇仅可以被一个核心代表簇的范围覆盖，当出现一个不确定样本簇同时可以被多个核心代表簇的范围覆盖时，仅选取其中任意一个。此外，以核心代表簇为中心的范围可以覆盖全量不确定样本簇，因此，核心代表簇的数量S满足S小于或者等于至少一个不确定样本簇的数量。

S2022、根据针对核心代表簇内任意一个样本数据人工标注的真实标签，确定至少一个不确定样本簇内样本数据的真实标签。

应理解，得到推送的S个核心代表簇后，仅需要在每个簇内随机推送一个样本数据，故最终仅需要推送S个样本数据进行人工审核标注，可以有效减少标注量。根据人工返回的S个审核标定结果(即真实标签)，再将其扩充到每个核心代表簇覆盖下的不确定样本簇，由此，可得到所有不确定样本簇的真实标签。

S2023、根据至少一个不确定样本簇内样本数据的真实标签，修正多个样本簇的标签一致性。

具体的，修正后的多个样本簇的标签一致性Performance^m的详细计算公式为：

其中，Cluster_{Li/uncertainty}为Li级样本簇中除了不确定样本簇外的其他样本簇，Cluster_uncertainty为不确定样本簇，为样本簇c内模型m的预测标签修正为真实标签TrueLabel_c的数量，c∈Cluster_uncertainty。

应理解，图4提供的技术方案至少带来以下有益效果：通过少量人工标注的真实标签，对不确定样本簇内样本数据的预测标签进行修正，可以减少不确定样本簇对模型评估的影响，以提高模型评估的准确性。

可以看出，上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，本申请实施例提供了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

如图7所示，本申请实施例提供了一种模型评估装置，用于执行图1和图2所示的模型评估方法。该模型评估装置300包括：样本构建单元301、聚类单元302、以及性能评估单元303。

样本构建单元301，用于获取样本数据；样本数据在第一模型中的预测标签，与样本数据在第二模型中的预测标签的差异度大于预设差异度；聚类单元302，用于根据样本数据的数据特征，对样本数据进行聚类，得到多个样本簇；性能评估单元303，用于根据样本数据输入待评估模型得到的预测标签，确定多个样本簇的标签一致性；标签一致性用于表示预测标签的相同度；根据待评估模型的评估参数，确定待评估模型的评估结果；评估参数包括多个样本簇的标签一致性。

在一些实施例中，当上述聚类为分层聚类时，多个样本簇包括至少一层样本簇；聚类单元302，具体用于根据数据特征，通过预设的聚类算法，对样本数据进行聚类，得到第一层样本簇；对上一层样本簇执行合并操作，得到下一层样本簇，直至得到至少一层样本簇中每层样本簇；合并操作包括：当上一层样本簇中，任意两个样本簇的簇心距离小于距离阈值时，将任意两个样本簇合并为一个下一层样本簇；上一层包括至少一层中除最后一层以外的任意一层；距离为样本簇簇心特征之间的余弦距离；距离阈值与上一层样本簇两两之间的多个簇心距离相关。

在一些实施例中，上述多个样本簇的标签一致性包括：至少一层样本簇中，每层样本簇的标签一致性；评估参数还包括：至少一层样本簇的每层权重；上一层样本簇的权重大于下一层样本簇的权重；性能评估单元303，具体用于根据每层权重，对每层样本簇的标签一致性加权求和，得到待评估模型的评估结果。

在一些实施例中，上述性能评估单元303，还用于当多个样本簇中至少一个样本簇满足预设条件时，将至少一个样本簇确定为至少一个不确定样本簇；预设条件包括：至少一个不确定样本簇中，每个不确定样本簇内样本数据在第一模型中的预测标签与在第二模型中的预测标签不同、且在第一模型中的标签一致性以及在第二模型中的标签一致性均大于预设值；当至少一个不确定样本簇内样本数据的数量大于预设的样本阈值时，获取至少一个不确定样本簇内样本数据的真实标签，修正多个样本簇的标签一致性。

在一些实施例中，上述性能评估单元303，具体用于将至少一个不确定样本簇中，以预设距离为半径的范围能覆盖至少一个不确定样本簇的样本簇确定为核心代表簇；根据针对核心代表簇内任意一个样本数据人工标注的真实标签，确定至少一个不确定样本簇内样本数据的真实标签；根据至少一个不确定样本簇内样本数据的真实标签，修正多个样本簇的标签一致性。

在一些实施例中，上述性能评估单元303，还用于当第一模型的评估结果优于第二模型的评估结果时，将第一模型确定为优化模型。

需要说明的是，图7中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，还可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

在采用硬件的形式实现上述集成的模块的功能的情况下，本申请实施例提供了上述实施例中所涉及的模型评估装置的另一种可能的结构示意图。如图8所示，该模型评估装置400包括：处理器402，总线404。可选的，该模型评估装置还可以包括存储器401；可选地，该模型评估装置还可以包括通信接口403。

处理器402，可以是实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。该处理器402可以是中央处理器，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器402也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

通信接口403，用于与其他设备通过通信网络连接。该通信网络可以是以太网，无线接入网，无线局域网(wireless local area networks，WLAN)等。

存储器401，可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

作为一种可能的实现方式，存储器401可以独立于处理器402存在，存储器401可以通过总线404与处理器402相连接，用于存储指令或者程序代码。处理器402调用并执行存储器401中存储的指令或程序代码时，能够实现本申请实施例提供的模型评估方法。

另一种可能的实现方式中，存储器401也可以和处理器402集成在一起。

总线404，可以是扩展工业标准结构(extended industry standardarchitecture，EISA)总线等。总线404可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将模型评估装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

本申请实施例还提供了一种计算机可读存储介质。上述方法实施例中的全部或者部分流程可以由计算机指令来指示相关的硬件完成，该程序可存储于上述计算机可读存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。计算机可读存储介质可以是前述任一实施例的或内存。上述计算机可读存储介质也可以是上述基于模型评估装置的外部存储设备，例如上述模型评估装置上配备的插接式硬盘，智能存储卡(smart mediacard，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，上述计算机可读存储介质还可以既包括上述模型评估装置的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述模型评估装置所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供一种计算机程序产品，该计算机产品包含计算机程序，当该计算机程序产品在计算机上运行时，使得该计算机执行上述实施例中所提供的任一项模型评估方法。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(Compris ing)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种模型评估方法，其特征在于，包括：

获取样本数据；所述样本数据在第一模型中的预测标签，与所述样本数据在第二模型中的预测标签的差异度大于预设差异度；

根据所述样本数据的数据特征，对所述样本数据进行聚类，得到多个样本簇；

根据所述样本数据输入待评估模型得到的预测标签，确定所述多个样本簇的标签一致性；所述标签一致性用于表示所述预测标签的相同度；

根据所述待评估模型的评估参数，确定所述待评估模型的评估结果；所述评估参数包括所述多个样本簇的标签一致性。

2.根据权利要求1所述的方法，其特征在于，当所述聚类为分层聚类时，所述多个样本簇包括至少一层样本簇；

所述根据所述数据特征，对所述样本数据进行聚类，得到多个样本簇，包括：

根据所述数据特征，通过预设的聚类算法，对所述样本数据进行聚类，得到第一层样本簇；

对上一层样本簇执行合并操作，得到下一层样本簇，直至得到所述至少一层样本簇中每层样本簇；所述合并操作包括：当所述上一层样本簇中，任意两个样本簇的簇心距离小于距离阈值时，将所述任意两个样本簇合并为一个下一层样本簇；所述上一层包括所述至少一层中除最后一层以外的任意一层；所述距离为所述样本簇簇心特征之间的余弦距离；所述距离阈值与所述上一层样本簇两两之间的多个簇心距离相关。

3.根据权利要求2所述的方法，其特征在于，所述多个样本簇的标签一致性包括：所述至少一层样本簇中，每层样本簇的标签一致性；所述评估参数还包括：所述至少一层样本簇的每层权重；所述上一层样本簇的权重大于所述下一层样本簇的权重；

所述根据所述待评估模型的评估参数，确定所述待评估模型的评估结果，包括：

根据所述每层权重，对所述每层样本簇的标签一致性加权求和，得到所述待评估模型的评估结果。

4.根据权利要求1或3所述的方法，其特征在于，所述待评估模型包括：所述第一模型和所述第二模型。

5.根据权利要求4所述的方法，其特征在于，所述确定所述多个样本簇的标签一致性之后，所述方法还包括：

当所述多个样本簇中至少一个样本簇满足预设条件时，将所述至少一个样本簇确定为至少一个不确定样本簇；所述预设条件包括：所述至少一个不确定样本簇中，每个不确定样本簇内样本数据在所述第一模型中的预测标签与在所述第二模型中的预测标签不同、且在所述第一模型中的标签一致性以及在所述第二模型中的标签一致性均大于预设值；

当所述至少一个不确定样本簇内样本数据的数量大于预设的样本阈值时，获取所述至少一个不确定样本簇内样本数据的真实标签，修正所述多个样本簇的标签一致性。

6.根据权利要求5所述的方法，其特征在于，所述获取所述至少一个不确定样本簇内样本数据的真实标签，修正所述多个样本簇的标签一致性，包括：

将所述至少一个不确定样本簇中，以预设距离为半径的范围能覆盖所述至少一个不确定样本簇的样本簇确定为核心代表簇；

根据针对所述核心代表簇内任意一个样本数据人工标注的真实标签，确定所述至少一个不确定样本簇内样本数据的真实标签；

根据所述至少一个不确定样本簇内样本数据的真实标签，修正所述多个样本簇的标签一致性。

7.根据权利要求6所述的方法，其特征在于，所述预设条件还包括：所述每个不确定样本簇内样本数据的数量大于预设量。

8.根据权利要求4所述的方法，其特征在于，还包括：

当所述第一模型的评估结果优于所述第二模型的评估结果时，将所述第一模型确定为优化模型。

9.一种模型评估装置，其特征在于，包括：

样本构建单元，用于获取样本数据；所述样本数据在第一模型中的预测标签，与所述样本数据在第二模型中的预测标签的差异度大于预设差异度；

聚类单元，用于根据所述样本数据的数据特征，对所述样本数据进行聚类，得到多个样本簇；

性能评估单元，用于根据所述样本数据输入待评估模型得到的预测标签，确定所述多个样本簇的标签一致性；所述标签一致性用于表示所述预测标签的相同度；根据所述待评估模型的评估参数，确定所述待评估模型的评估结果；所述评估参数包括所述多个样本簇的标签一致性。

10.根据权利要求9所述的装置，其特征在于，当所述聚类为分层聚类时，所述多个样本簇包括至少一层样本簇；所述多个样本簇的标签一致性包括：所述至少一层样本簇中，每层样本簇的标签一致性；所述评估参数还包括：所述至少一层样本簇的每层权重；所述待评估模型包括：所述第一模型和所述第二模型；

所述聚类单元，具体用于根据所述数据特征，通过预设的聚类算法，对所述样本数据进行聚类，得到第一层样本簇；对上一层样本簇执行合并操作，得到下一层样本簇，直至得到所述至少一层样本簇中每层样本簇；所述合并操作包括：当所述上一层样本簇中，任意两个样本簇的簇心距离小于距离阈值时，将所述任意两个样本簇合并为一个下一层样本簇；所述上一层包括所述至少一层中除最后一层以外的任意一层；所述距离为所述样本簇簇心特征之间的余弦距离；所述距离阈值与所述上一层样本簇两两之间的多个簇心距离相关；所述上一层样本簇的权重大于所述下一层样本簇的权重；

所述性能评估单元，具体用于根据所述每层权重，对所述每层样本簇的标签一致性加权求和，得到所述待评估模型的评估结果；

所述性能评估单元，还用于当所述多个样本簇中至少一个样本簇满足预设条件时，将所述至少一个样本簇确定为至少一个不确定样本簇；所述预设条件包括：所述至少一个不确定样本簇中，每个不确定样本簇内样本数据在所述第一模型中的预测标签与在所述第二模型中的预测标签不同、且在所述第一模型中的标签一致性以及在所述第二模型中的标签一致性均大于预设值；当所述至少一个不确定样本簇内样本数据的数量大于预设的样本阈值时，获取所述至少一个不确定样本簇内样本数据的真实标签，修正所述多个样本簇的标签一致性；所述预设条件还包括：所述每个不确定样本簇内样本数据的数量大于预设量；

所述性能评估单元，具体用于将所述至少一个不确定样本簇中，以预设距离为半径的范围能覆盖所述至少一个不确定样本簇的样本簇确定为核心代表簇；根据针对所述核心代表簇内任意一个样本数据人工标注的真实标签，确定所述至少一个不确定样本簇内样本数据的真实标签；根据所述至少一个不确定样本簇内样本数据的真实标签，修正所述多个样本簇的标签一致性；

所述性能评估单元，还用于当所述第一模型的评估结果优于所述第二模型的评估结果时，将所述第一模型确定为优化模型。

11.一种模型评估装置，其特征在于，包括：

存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；

其中，当所述处理器执行所述计算机指令时，使得所述模型评估装置执行如权利要求1至8任一项所述的模型评估方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机指令；

其中，当所述计算机指令在模型评估装置上运行时，使得所述模型评估装置执行如权利要求1至8任一项所述的模型评估方法。