CN114863227A

CN114863227A - 模型评估方法、系统及计算机存储介质

Info

Publication number: CN114863227A
Application number: CN202210569298.2A
Authority: CN
Inventors: 李为; 李远钱; 黄冠熹
Original assignee: Chongqing Zhongke Yuncong Technology Co ltd
Current assignee: Chongqing Zhongke Yuncong Technology Co ltd
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-08-05

Abstract

本申请提供一种模型评估方法、装置及计算机存储介质，包括利用待评估模型基于各预设类别，预测样本图像，获得样本图像中每一个像素点对应于每一个预设类别的类别检测结果；根据样本图像的样本标签，基于像素维度和图像维度分析样本图像中每一个像素点对应于每一个预设类别的类别检测结果，确定待评估模型的像素维度评估值、图像维度评估值；根据待评估模型的像素维度评估值、图像维度评估值，获得待评估模型的性能评估结果。据此，本申请可提供准确性较高的模型性能评估结果，以提升模型训练效果。

Description

模型评估方法、系统及计算机存储介质

技术领域

本申请实施例涉及模型训练技术领域，特别涉及一种模型评估方法、装置及计算机存储介质。

背景技术

在烟火检测的实际应用场景中，如何选取合适的效果评估方法来判定烟火检测模型的效果，是一个十分重要的问题。好的评估方法，可以辅助选取到效果更好的模型，让有更高精度的模型能够在实际应用中上线，对于火灾和烟雾的预警有着重要意义。

当前，对于烟火检测模型的训练效果评估，若模型基于的技术路线不同，则往往有着不同的评估方法，例如，基于图像分类的模型，通常使用图像分类的指标评估；基于目标检测的模型，则通常使用mAP的指标评估；基于语义分割的模型，将使用mIoU的指标进行像素级评估。

目前，针对烟火检测这一任务，并没有较为统一的、客观的以及具有针对性的模型评估方法。

发明内容

鉴于上述问题，本申请提供一种模型评估方法、装置及计算机存储介质，可至少部分地解决现有技术中的问题。

本申请第一方面提供一种模型性能评估方法，包括：利用待评估模型基于各预设类别，预测样本图像，获得所述样本图像中每一个像素点对应于每一个预设类别的类别检测结果；根据所述样本图像的样本标签，基于像素维度和图像维度分析所述样本图像中每一个像素点对应于每一个预设类别的类别检测结果，确定所述待评估模型的像素维度评估值、图像维度评估值；根据所述待评估模型的像素维度评估值、图像维度评估值，获得所述待评估模型的性能评估结果。

本申请第二方面提供一种模型性能评估装置，包括：类别检测模块，用于利用待评估模型基于各预设类别，预测样本图像，获得所述样本图像中每一个像素点对应于每一个预设类别的类别检测结果；评估模块，用于根据所述样本图像的样本标签，基于像素维度和图像维度分析所述样本图像中每一个像素点对应于每一个预设类别的类别检测结果，确定所述待评估模型的像素维度评估值、图像维度评估值，并根据所述待评估模型的像素维度评估值、图像维度评估值，获得所述待评估模型的性能评估结果。

本申请第三方面提供一种计算机存储介质，所述计算机存储介质中存储有用于执行上述第一方面所述的方法中各步骤的各指令。

综上所述，本申请各方面所提供的模型评估方案，通过结合像素维度和图像维度，针对待评估模型输出的样本图像预测结果执行分析，可以获得更为准确的模型性能评估结果，尤其适用于语义分割模型的性能评估。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请示例性实施例的模型性能评估方法的处理流程图。

图2本申请另一示例性实施例的模型性能评估方法的处理流程图。

图3本申请另一示例性实施例的模型性能评估方法的处理流程图。

图4本申请另一示例性实施例的模型性能评估方法的处理流程图。

图5本申请另一示例性实施例的模型性能评估方法的处理流程图。

图6本申请另一示例性实施例的模型性能评估方法的处理流程图。

图7本申请另一示例性实施例的模型性能评估方法的处理流程图。

图8本申请示例性实施例的模型性能评估装置的处理流程图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

目前对于烟火检测模型的评估，并没有较为统一的、客观的以及具有针对性的技术方案，且当前的评估方法无法满足烟火检测模型面向实际应用的效果评估。

此外，烟火检测模型在实际工业应用中应用时，通常需要设置阈值来平衡模型的精确率和召回率，然而，在目前的评估方法中，亦缺少对于阈值选取的支持。

与业内现存的烟火检测模型性能评估方法比较，其主流思想主要有：1)基于图像分类的模型，使用分类指标评估，如Accuracy；2)基于目标检测的模型，使用mAP指标评估；3)基于语义分割的模型，使用mIoU指标，以及像素级Accuracy等指标评估。

本申请主要面向语义分割模型，设计了一种多维度组合的模型性能评估方法，在评估像素维度效果的基础上，引入图像维度效果评估，能够更加直观地反应模型在工业应用时的效果，同时支持阈值选取，为模型搜索到合适的阈值进行部署。

以下将结合各附图详细描述本申请的各具体实施例。

图1为本申请示例性实施例的模型性能评估方法的处理流程图。如图所示，本实施例主要包括以下处理步骤：

步骤S102，利用待评估模型基于各预设类别，预测样本图像，获得样本图像中每一个像素点对应于每一个预设类别的类别检测结果。

可选地，待评估模型包括语义分割模型。

可选地，样本图像中可包括火焰和/或烟雾，以供待评估模型针对样本图像中的火焰和/或烟雾进行预测。

可选地，可利用所评估模型以基于各预设类别，预测样本图像中的每一个像素点，获得样本图像中每一个像素点对应于每一个预设类别的类别预测值。

于一实施例中，若待评估模型的训练损失函数为普通交叉熵，则基于各预设类别针对每一个像素点执行softmax计算，获得每一个像素点对应于每一个预设类别的类别预测值。

于另一实施例中，若待评估模型的训练损失函数为二值交叉熵，基于各预设类别针对每一个像素点执行sigmoid计算，获得每一个像素点对应于每一个预设类别的类别预测值。

步骤S104,根据样本图像的样本标签，基于像素维度和图像维度分析样本图像中每一个像素点对应于每一个预设类别的类别检测结果，确定待评估模型的像素维度评估值、图像维度评估值。

可选地，可根据样本图像的样本标签、样本图像中每一个像素点对应于每一个预设类别的类别预测值、每一个像素点的位置信息，确定待评估模型的像素维度评估值。

可选地，可根据样本图像的样本标签、样本图像中每一个像素点对应于每一个预设类别的类别预测值，确定待评估模型对应于每一个预设类别的图像维度评估值。

步骤S106,根据待评估模型的像素维度评估值、图像维度评估值，获得待评估模型的性能评估结果。

可选地，可根据样本图像对应于各预设类别的各图像维度评估值，获得样本图像对应于每一个评估阈值的准确率值和召回率值，并进行遍历搜索，获取最接近期望阈值的准确率值，并根据所述准确率对应的评估阈值和召回率值，获得所述待评估模型的性能评估结果。

综上所述，本申请实施例的模型性能评估方法，同时基于像素维度和图像维度，针对待评估模型输出的类别检测结果进行评估，可提高模型性能评估结果的准确性，并且尤其适用于针对语义分割模型执行性能评估，可辅助提高语义分割模型的训练效果。

图2为本申请另一示例性实施例的模型性能评估方法的处理流程图。本实施例为上述步骤S104中确定待评估模型的像素维度评估值的具体实施方案。如图所示，本实施例主要包括以下步骤：

步骤S202，根据每一个像素点对应于各预设类别的各类别预测值中的最高者，确定每一个像素点的预测类别。

例如，待评估模型可根据预设类别(例如类别A、类别B、类别C)，针对样本图像中的像素点a执行预测，输出像素点a对应于各预设类别的各概率值，若类别A的概率值为最高，则将类别A确定为像素点a的预测类别。

步骤S204，根据每一个像素点的预测类别和真实类别、每一个像素点的位置信息，获得每一个预设类别的交并比值。

可选地，样本图像的样本标签中包括有样本图像中每一个像素点的真实类别。

可选地，可根据每一个像素点的预测类别和真实类别，计算每一个预设类别的交并比值。

步骤S206，针对每一个预设类别的交并比值执行均值计算，获得待评估模型的像素维度评估值。

具体地，可在获取每一个预设类别的交并比值后，计算所有预设类别的IoU均值，即mIoU，以确定待评估模型的像素维度评估值。

需说明的是，本申请无需关注样本图像中的背景类别，亦即，在确定待评估模型的像素维度评估值时，可将样本图像中的背景部分予以剔除，而仅计算例如火焰类别和烟雾类别的IoU均值，借以提高模型评估处理效率。

图3示出了本申请另一示例性实施例的模型性能评估方法的处理流程图，本实施例为上述步骤S204具体实施方案。如图所示，本实施例主要包括以下步骤：

步骤S302，将一个预设类别确定为当前类别。

步骤S304，将预测类别与当前类别相吻合的每一个像素点确定为第一候选像素点，并将真实类别与当前类别相吻合的每一个像素点确定为第二候选像素点。

具体地，根据当前类别(例如类别A)，若像素点a的预测类别与当前类别相一致，则将像素点a确定为第一候选像素点，若像素点a的真实类别与当前类别相一致，则将像素点a确定为第二候选像素点。也就是说，当像素点a的预测类别与真实类别相吻合时，则像素点a即是第一候选像素点，也是第二候选像素点。

步骤S306，根据每一个第一候选像素点的位置信息，确定当前类别的第一区域，并根据每一个第二候选像素点的位置信息，确定当前类别的第二区域。

具体地，整合样本图像中所有第一候选像素点的坐标信息，获得当前类别的第一区域，并整合样本图像中所有第二候选像素点的坐标信息，获得当前类别的第二区域。

步骤S308，根据第一区域和第二区域的交集和并集，确定当前类别的交并比值。

具体地，可将第一区域和第二区域之间的交集除以第一区域和第二区域之间的并集，以获得当前类别的交并比值。

步骤S310，判断是否所有预设类别的交并比值均已获取，若是，则退出本步骤流程，若否，则返回步骤S302，以获取下一个预设类别并执行交并比值的运算。

综上所述，本申请基于每一个像素点各自的预测类别和真实类别，从像素维度针对样本图像的预测结果进行评估，以确定待评估模型的像素维度评估结果。

图4示出了本申请另一示例性实施例的模型评估方法的处理流程图。本实施例为上述步骤S104中确定待评估模型的图像维度评估值的具体实施方案。如图所示，本实施例主要包括以下步骤：

步骤S402，将一个预设类别确定为当前类别。

步骤S404，获取每一个像素点对应于当前类别的类别预测值。

例如，若当前类别为类别A，获取样本图像中所有像素点对应于类别A的概率值。

步骤S406，判断样本图像是否包含有当前类别，若包含，执行步骤S408，若不包含，执行步骤S410。

可选地，可根据样本图像的真实标签，判断样本图像中是否包含有当前标签。

例如，若样本图像的真实标签包含火焰，当前类别为火焰，则判定样本图像包含当前类别。

例如，若样本图像的真实标签包含火焰，当前类别为烟雾，则判定样本图像不包含当前类别。

步骤S408，确定当前类别在样本图像中的类别区域，并根据类别区域中的每一个像素点对应于当前类别的类别预测值，将最大的类别预测值确定为待评估模型对应于当前类别的图像维度评估值。

具体地，若样本图像中包含有当前类别(例如，火焰)，确定样本图像中所标注的真实火焰区域，并根据真实火焰区域中每一个像素点对应于火焰的概率值，最大的概率值确定为待评估模型对应于当前类别的图像维度评估值。

步骤S410，根据样本图像中的每一个像素点对应于当前类别的类别预测值，将最大的类别预测值确定为待评估模型对应于当前类别的图像维度评估值。

具体地，若样本图像未包含当前类别(例如，烟雾)，获取样本图像中的每一个像素点对应于烟雾的概率值，将最大的概率值确定为待评估模型对应于当前类别的图像维度评估值。

步骤S412，判断是否所有预设类别的图像维度评估值均已获取，若是，则退出本步骤流程，若否，则返回步骤S402，以获取下一个预设类别并执行交并比值的运算。

综上所述，本申请通过判断样本图像中是否包含当前类别，并基于判断结果，利用不同的方式确定待评估模型对应于当前类别的图像维度评估值，借以提高后续模型评估结果的准确率。

图5为本申请另一示例性实施例的模型性能评估方法的处理流程图。本实施例为上述步骤S106的具体实施方案，如图所示，本实施例主要包括以下步骤：

步骤S502，基于每一个评估阈值、样本图像的样本标注，分析样本图像对应于各预设类别的各图像维度评估值，获得样本图像对应于每一个评估阈值的准确率值和召回率值。

可选地，各评估阈值可基于待评估模型的评估粒度精细度确定。

可选地，待评估模型的评估粒度精细度可至少包括1/10、1/100、1/1000中的一个。

例如，若评估粒度精细度为1/10时，则评估阈值可例如设定为0.3、0.5、0.8等；若评估粒度精细度为1/100时，则评估阈值可例如设定为0.03、0.05、0.08等，以此类推。

于本实施例中，各评估阈值介于0至1之间。

较佳地，各评估阈值可介于0.5至0.8之间。

可选地，可根据每一个评估阈值、样本图像的样本标注，样本图像对应于每一个预设类别的图像维度评估值，获得样本图像对应于每一个评估阈值的正例标识结果，并根据样本图像对应于每一个评估阈值的正例标识结果，获得样本图像对应于每一个评估阈值的准确率值和召回率值。

步骤S504，根据样本图像对应于每一个评估阈值的准确率值和召回率值、期望阈值、待评估模型的像素维度评估值，获得待评估模型的性能评估结果。

可选地，可根据待评估模型的实际应用场景，任意调整期望阈值，本申请对此不作限制。

图6示出了本申请另一实施例的模型性能评估方法的处理流程图。本实施例为上述步骤S502的具体实施方案。如图所示，本实施例主要包括以下步骤：

步骤S602，将一个评估阈值确定为当前评估阈值。

步骤S604，将一个预设类别确定为当前类别。

步骤S606，基于样本图像的样本标注、当前评估阈值、样本图像对应于当前类别的图像维度评估值，确定所述样本图像对应于所述当前类别的正例标识结果。

可选地，在样本图像包含有当前类别的情况下，若样本图像对应于当前类别的图像维度评估值大于当前评估阈值，获得样本图像为真正例的样例识别结果；若样本图像对应于当前类别的图像维度评估值不大于当前评估阈值，获得样本图像为假正例的正例标识结果。

可选地，在样本图像未包含当前类别的情况下，若样本图像对应于当前类别的图像维度评估值大于当前评估阈值，获得样本图像为假正例的正例标识结果。

步骤S608，判断是否所有预设类别均分析完成，若是，进行步骤S610，若否，执行步骤S604，以获取下一个预设类别并进行分析。

步骤S610，判断是否所有评估阈值均分析完成，若是，进行步骤S612，若否，执行步骤S602，以获取下一评估阈值执行分析。

步骤S612，根据样本图像对应于每一个评估阈值的正例标识结果，获得样本图像对应于每一个评估阈值的准确率值和召回率值。

具体地，统计样本图像对应于每一个评估阈值的真正例和假正例的标识结果，据以确定样本图像对应于每一个评估阈值的准确率值和召回率值。

综上所示，本实施例通过设定多个评估阈值，并基于样本图像对应于各预设类别的各图像维度评估值，基于样本图像对应于每一个评估阈值的准确率值和召回率值，以供确定目标评估阈值提供参考，可适于针对不同应用场景下的待评估模型进行有针对性的评估。

图7示出了本申请另一示例性实施例的模型性能评估方法的处理流程图。本实施例为上述步骤S504的具体实施方案。如图所示，本实施例主要包括以下步骤：

步骤S702，根据期望阈值、样本图像对应于每一个评估阈值的准确率值，确定与期望阈值的差值最小的准确率值，并将准确率值对应的评估阈值确定为目标评估阈值。

可选地，可根据待评估模型的实际应用场景，设定期望阈值。

具体地，可遍历样本图像对应于每一个评估阈值的准确率值，以查询最接近期望阈值的准确率值，并将所述准确率值对应的评估阈值确定为目标评估阈值。

步骤S704，将目标评估阈值的召回率值确定为目标召回率值，并根据目标召回率值、待评估模型的像素维度评估值、预设评估换算规则，获得待评估模型的性能评估结果。

于本实施例中，预设评估换算规则可表示为：

其中，Score_total表示待评估模型的性能评估结果；Score_pix表示待评估模型的像素维度评估值；

表示目标召回率值。

其中，ε为调节因子，其默认值可设为0.5，但并不以此为限，可根据实际需求进行任意调整。

综上所述，本实施例结合像素维度、图像维度、以及基于不同应用场景所确定的期望阈值，可以有效提高待评估模型的性能评估结果的准确率，尤其适用于评估具有不规则检测区域的语义检测模型的性能。

图8为本申请示例性实施例的模型性能评估装置的结构框图。如图所示，本实施例的模型性能评估装置800主要包括：类别检测模块802、评估模块804。

类别检测模块802，用于利用待评估模型基于各预设类别，预测样本图像，获得所述样本图像中每一个像素点对应于每一个预设类别的类别检测结果。

评估模块804，用于根据所述样本图像的样本标签，基于像素维度和图像维度分析所述样本图像中每一个像素点对应于每一个预设类别的类别检测结果，确定所述待评估模型的像素维度评估值、图像维度评估值，并根据所述待评估模型的像素维度评估值、图像维度评估值，获得所述待评估模型的性能评估结果。

可选地，所述待评估模型包括语义分割模型。

可选地，类别检测模块802还用于：利用所述待评估模型以基于各预设类别，预测所述样本图像中的每一个像素点，获得所述样本图像中每一个像素点对应于每一个预设类别的类别预测值；其中，若所述待评估模型的训练损失函数为普通交叉熵，基于各预设类别针对每一个像素点执行softmax计算，获得每一个像素点对应于每一个预设类别的类别预测值；若所述待评估模型的训练损失函数为二值交叉熵，基于各预设类别针对每一个像素点执行sigmoid计算，获得每一个像素点对应于每一个预设类别的类别预测值。

可选地，评估模块804还用于：根据所述样本图像的样本标签、所述样本图像中每一个像素点对应于每一个预设类别的类别预测值、每一个像素点的位置信息，确定所述待评估模型的像素维度评估值；根据所述样本图像的样本标签、所述样本图像中每一个像素点对应于每一个预设类别的类别预测值，确定所述待评估模型对应于每一个预设类别的图像维度评估值。

可选地，所述样本标签包括所述样本图像中每一个像素点的真实类别。

可选地，评估模块804还用于：根据每一个像素点对应于各预设类别的各类别预测值中的最高者，确定每一个像素点的预测类别；根据每一个像素点的预测类别和真实类别、每一个像素点的位置信息，获得每一个预设类别的交并比值；针对每一个预设类别的交并比值执行均值计算，获得所述待评估模型的像素维度评估值。

可选地，评估模块804还用于：将一个预设类别确定为当前类别；将预测类别与所述当前类别相吻合的每一个像素点确定为第一候选像素点，并将真实类别与所述当前类别相吻合的每一个像素点确定为第二候选像素点；根据每一个第一候选像素点的位置信息，确定所述当前类别的第一区域，并根据每一个第二候选像素点的位置信息，确定所述当前类别的第二区域；根据所述第一区域和所述第二区域的交集和并集，确定所述当前类别的交并比值。

可选地，所述样本标签包括所述样本图像包含的真实类别。

可选地，评估模块804还用于：将一个预设类别确定为当前类别；获取每一个像素点对应于所述当前类别的类别预测值；根据所述样本图像的样本标签，获得所述样本图像包含或不包含所述当前类别的判断结果；若所述样本图像包含有所述当前类别，确定所述当前类别在所述样本图像中的类别区域，并根据所述类别区域中的每一个像素点对应于所述当前类别的类别预测值，将最大的类别预测值确定为所述待评估模型对应于所述当前类别的图像维度评估值；若所述样本图像未包含所述当前类别，根据所述样本图像中的每一个像素点对应于所述当前类别的类别预测值，将最大的类别预测值确定为所述待评估模型对应于所述当前类别的图像维度评估值。

可选地，评估模块804还用于：基于每一个评估阈值、所述样本图像的样本标注，分析所述样本图像对应于各预设类别的各图像维度评估值，获得所述样本图像对应于每一个评估阈值的准确率值和召回率值；根据所述样本图像对应于每一个评估阈值的准确率值和召回率值、期望阈值、所述待评估模型的像素维度评估值，获得所述待评估模型的性能评估结果。

可选地，各评估阈值可基于所述待评估模型的评估粒度精细度确定；所述评估粒度精细度至少包括1/10、1/100、1/1000中的一个；各评估阈值介于0至1之间；较佳地，各评估阈值介于0.5至0.8之间。

可选地，评估模块804还用于：执行正例标识步骤，将一个评估阈值确定为当前评估阈值，并根据所述样本图像的样本标注，将所述当前评估阈值与所述样本图像对应于每一个预设类别的图像维度评估值进行比对，获得所述样本图像对应于所述当前评估阈值的正例标识结果；重复所述正例标识步骤，获得所述样本图像对应于每一个评估阈值的正例标识结果；根据所述样本图像对应于每一个评估阈值的正例标识结果，获得所述样本图像对应于每一个评估阈值的准确率值和召回率值。

可选地，评估模块804还用于：将一个预设类别确定为当前类别；基于所述样本图像的样本标注、所述当前评估阈值、所述样本图像对应于所述当前类别的图像维度评估值，确定所述样本图像对应于所述当前类别的正例标识结果；其中，在所述样本图像包含有所述当前类别的情况下，若所述样本图像对应于所述当前类别的图像维度评估值大于所述当前评估阈值，获得所述样本图像为真正例的样例识别结果，若所述样本图像对应于所述当前类别的图像维度评估值不大于所述当前评估阈值，获得所述样本图像为假正例的正例标识结果；在所述样本图像未包含所述当前类别的情况下，若所述样本图像对应于所述当前类别的图像维度评估值大于所述当前评估阈值，获得所述样本图像为假正例的正例标识结果。

可选地，评估模块804还用于：根据所述期望阈值、所述样本图像对应于每一个评估阈值的准确率值，确定与所述期望阈值的差值最小的准确率值，并将所述准确率值对应的评估阈值确定为目标评估阈值；将所述目标评估阈值的召回率值确定为目标召回率值，并根据所述目标召回率值、所述待评估模型的像素维度评估值、预设评估换算规则，获得所述待评估模型的性能评估结果；所述预设评估换算规则可表示为：

其中，所述Score_total表示所述待评估模型的性能评估结果；所述Score_pix表示所述待评估模型的像素维度评估值；所述

表示所述目标召回率值、所述ε为调节因子。

本申请另一实施例还提供一种计算机存储介质，所述计算机存储介质中存储有用于执行各模型性能评估方法实施例中所述的各步骤的各指令。

综上所述，本申请各实施例提供的模型性能评估方案，不再单一看重像素维度评估，通过引入图像维度维度的效果评估，能够更加直观地反应模型的检测效果，有利于提高模型检测结果的准确性。

此外，基于图像维度的效果评估是面向多种阈值选取的，此可解决检测模型在不同应用场景下的不同阈值选取问题。通过逐阈值遍历的评估方案，可适于针对不同应用场景下的待评估模型进行评估处理。

最后，通过多维度组合判定，并提供设定调节因子，赋予像素维度和图像维度不同的权重度，可以更加全面地针对待评估模型的性能进行评估。

最后应说明的是：以上实施例仅用以说明本申请实施例的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型性能评估方法，包括：

利用待评估模型基于各预设类别，预测样本图像，获得所述样本图像中每一个像素点对应于每一个预设类别的类别检测结果；

根据所述样本图像的样本标签，基于像素维度和图像维度分析所述样本图像中每一个像素点对应于每一个预设类别的类别检测结果，确定所述待评估模型的像素维度评估值、图像维度评估值；

根据所述待评估模型的像素维度评估值、图像维度评估值，获得所述待评估模型的性能评估结果。

2.根据权利要求1所述的方法，其中，所述待评估模型包括语义分割模型。

3.根据权利要求1所述的方法，其中，所述利用待评估模型基于各预设类别，预测样本图像，获得所述样本图像中每一个像素点对应于每一个预设类别的类别检测结果，包括：

利用所述待评估模型以基于各预设类别，预测所述样本图像中的每一个像素点，获得所述样本图像中每一个像素点对应于每一个预设类别的类别预测值；其中，

若所述待评估模型的训练损失函数为普通交叉熵，基于各预设类别针对每一个像素点执行softmax计算，获得每一个像素点对应于每一个预设类别的类别预测值；

若所述待评估模型的训练损失函数为二值交叉熵，基于各预设类别针对每一个像素点执行sigmoid计算，获得每一个像素点对应于每一个预设类别的类别预测值。

4.根据权利要求1或3所述的方法，其中，所述根据所述样本图像的样本标签，基于像素维度和图像维度分析所述样本图像中每一个像素点对应于每一个预设类别的类别检测结果，确定所述待评估模型的像素维度评估值、图像维度评估值，包括：

根据所述样本图像的样本标签、所述样本图像中每一个像素点对应于每一个预设类别的类别预测值、每一个像素点的位置信息，确定所述待评估模型的像素维度评估值；

根据所述样本图像的样本标签、所述样本图像中每一个像素点对应于每一个预设类别的类别预测值，确定所述待评估模型对应于每一个预设类别的图像维度评估值。

5.根据权利要求4所述的方法，其中，所述样本标签包括所述样本图像中每一个像素点的真实类别；且其中，

所述根据所述样本图像的样本标签、所述样本图像中每一个像素点对应于每一个预设类别的类别预测值、每一个像素点的位置信息，确定所述待评估模型的像素维度评估值，包括：

根据每一个像素点对应于各预设类别的各类别预测值中的最高者，确定每一个像素点的预测类别；

根据每一个像素点的预测类别和真实类别、每一个像素点的位置信息，获得每一个预设类别的交并比值；

针对每一个预设类别的交并比值执行均值计算，获得所述待评估模型的像素维度评估值。

6.根据权利要求5所述的方法，其中，所述根据每一个像素点的预测类别和真实类别、每一个像素点的位置信息，获得每一个预设类别的交并比值，包括：

将一个预设类别确定为当前类别；

将预测类别与所述当前类别相吻合的每一个像素点确定为第一候选像素点，并将真实类别与所述当前类别相吻合的每一个像素点确定为第二候选像素点；

根据每一个第一候选像素点的位置信息，确定所述当前类别的第一区域，并根据每一个第二候选像素点的位置信息，确定所述当前类别的第二区域；

根据所述第一区域和所述第二区域的交集和并集，确定所述当前类别的交并比值。

7.根据权利要求4所述的方法，其中，所述样本标签包括所述样本图像包含的真实类别；

所述根据所述样本图像的样本标签、所述样本图像中每一个像素点对应于每一个预设类别的类别预测值，确定所述待评估模型对应于每一个预设类别的图像维度评估值，包括：

将一个预设类别确定为当前类别；

获取每一个像素点对应于所述当前类别的类别预测值；

根据所述样本图像的样本标签，获得所述样本图像包含或不包含所述当前类别的判断结果；

若所述样本图像包含有所述当前类别，确定所述当前类别在所述样本图像中的类别区域，并根据所述类别区域中的每一个像素点对应于所述当前类别的类别预测值，将最大的类别预测值确定为所述待评估模型对应于所述当前类别的图像维度评估值；

若所述样本图像未包含所述当前类别，根据所述样本图像中的每一个像素点对应于所述当前类别的类别预测值，将最大的类别预测值确定为所述待评估模型对应于所述当前类别的图像维度评估值。

8.根据权利要求4所述的方法，其中，所述根据所述待评估模型的像素维度评估值、图像维度评估值，获得所述待评估模型的性能评估结果，包括：

基于每一个评估阈值、所述样本图像的样本标注，分析所述样本图像对应于各预设类别的各图像维度评估值，获得所述样本图像对应于每一个评估阈值的准确率值和召回率值；

根据所述样本图像对应于每一个评估阈值的准确率值和召回率值、期望阈值、所述待评估模型的像素维度评估值，获得所述待评估模型的性能评估结果。

9.根据权利要求8所述的方法，其中，

各评估阈值可基于所述待评估模型的评估粒度精细度确定；

所述评估粒度精细度至少包括1/10、1/100、1/1000中的一个；

各评估阈值介于0至1之间；

较佳地，各评估阈值介于0.5至0.8之间。

10.根据权利要求8所述的方法，其中，所述基于每一个评估阈值、所述样本图像的样本标注，分析所述样本图像对应于各预设类别的各图像维度评估值，获得所述样本图像对应于每一个评估阈值的准确率值和召回率值，包括：

正例标识步骤，将一个评估阈值确定为当前评估阈值，并根据所述样本图像的样本标注，将所述当前评估阈值与所述样本图像对应于每一个预设类别的图像维度评估值进行比对，获得所述样本图像对应于所述当前评估阈值的正例标识结果；

重复所述正例标识步骤，获得所述样本图像对应于每一个评估阈值的正例标识结果；

根据所述样本图像对应于每一个评估阈值的正例标识结果，获得所述样本图像对应于每一个评估阈值的准确率值和召回率值。

11.根据权利要求9所述的方法，其中，所述正例标识步骤包括：

将一个预设类别确定为当前类别；

基于所述样本图像的样本标注、所述当前评估阈值、所述样本图像对应于所述当前类别的图像维度评估值，确定所述样本图像对应于所述当前类别的正例标识结果；其中，

在所述样本图像包含有所述当前类别的情况下，若所述样本图像对应于所述当前类别的图像维度评估值大于所述当前评估阈值，获得所述样本图像为真正例的样例识别结果，若所述样本图像对应于所述当前类别的图像维度评估值不大于所述当前评估阈值，获得所述样本图像为假正例的正例标识结果；

在所述样本图像未包含所述当前类别的情况下，若所述样本图像对应于所述当前类别的图像维度评估值大于所述当前评估阈值，获得所述样本图像为假正例的正例标识结果。

12.根据权利要求8所述的方法，其中，所述根据所述样本图像对应于每一个评估阈值的准确率值和召回率值、期望阈值、所述待评估模型的像素维度评估值，获得所述待评估模型的性能评估结果，包括：

根据所述期望阈值、所述样本图像对应于每一个评估阈值的准确率值，确定与所述期望阈值的差值最小的准确率值，并将所述准确率值对应的评估阈值确定为目标评估阈值；

将所述目标评估阈值的召回率值确定为目标召回率值，并根据所述目标召回率值、所述待评估模型的像素维度评估值、预设评估换算规则，获得所述待评估模型的性能评估结果；

所述预设评估换算规则可表示为：

表示所述目标召回率值、所述ε为调节因子。

13.一种模型性能评估装置，包括：

类别检测模块，用于利用待评估模型基于各预设类别，预测样本图像，获得所述样本图像中每一个像素点对应于每一个预设类别的类别检测结果；

评估模块，用于根据所述样本图像的样本标签，基于像素维度和图像维度分析所述样本图像中每一个像素点对应于每一个预设类别的类别检测结果，确定所述待评估模型的像素维度评估值、图像维度评估值，并根据所述待评估模型的像素维度评估值、图像维度评估值，获得所述待评估模型的性能评估结果。

14.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有用于执行上述权利要求1至12中任一项所述的方法中各步骤的各指令。