CN111881855A

CN111881855A - 图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN111881855A
Application number: CN202010755573.0A
Authority: CN
Inventors: 王飞; 钱晨
Original assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-03

Abstract

本公开提供了一种图像处理方法、装置、计算机设备及存储介质，其中，该方法包括：利用预先训练的神经网络，对多张第一图像中的每张第一图像进行分类处理，得到每张第一图像的分类预测概率；基于多张第一图像分别对应的分类预测概率以及多张第一图像分别对应的预先标注好的实际分类结果，确定第一分类阈值；基于第一分类阈值以及神经网络，对第二图像进行分类处理，得到第二图像的分类结果；其中，多张第一图像以及第二图像来源于同一图像获取设备。本公开实施例通过对来源于某个图像获取设备的图像针对性的确定第一分类阈值，然后利用该第一分类阈值，作为来源于对应图像获取设备的图像的判断标准，提升分类结果的准确率。

Description

图像处理方法、装置、计算机设备及存储介质

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种图像处理方法、装置、计算机设备及存储介质。

背景技术

在利用神经网络识别图像中目标对象的动作时，神经网络能够预测得到目标对象执行对应某种动作的概率，然后将该概率与预设的概率阈值进行比对；若神经网络预测得到的概率大于预设的概率阈值，则确认目标对象做出与神经网络检测的动作类型对应的动作。

当前利用神经网络识别图像中目标对象动作的方式，存在检测准确度低的问题。

发明内容

本公开实施例至少提供一种图像处理方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种图像处理方法，包括：利用预先训练的神经网络，对多张第一图像中的每张第一图像进行分类处理，得到每张所述第一图像的分类预测概率；基于多张所述第一图像分别对应的分类预测概率以及多张所述第一图像分别对应的预先标注好的实际分类结果，确定第一分类阈值；基于所述第一分类阈值以及所述神经网络，对与所述第一图像具有关联的第二图像进行所述分类处理，得到所述第二图像的分类结果。

这样，基于对由某个图像获取设备获取到的多个第一图像的分类结果，得到第一分类阈值，然后在对同一个图像获取设备获取到的第二图像进行分类处理的过程中，由于第一图像和第二图像具有关联，因此将上述第一分类阈值作为分类处理过程中的判断标准之一时，能够以更高的精度得到第二图像的动作检测结果，从而可以提升分类结果的准确率。

一种可能的实施方式中，所述第一图像和所述第二图像具有关联，包括下述至少一种：所述第一图像和所述第二图像的拍摄参数的相似度大于预设的相似度阈值；多张所述第一图像以及所述第二图像为同一图像获取设备获取到的。

这样，使得第一图像和第二图像的中图像特征的分布较为接近，使用同一第一分类阈值作为第二图像的动作检测结果的判断标准，具有更高的精度。

一种可选的实施方式中，所述基于多张所述第一图像分别对应的分类预测概率以及多张所述第一图像分别对应的预先标注好的实际分类结果，确定第一分类阈值，包括：确定多个备选阈值；针对多个所述备选阈值中的每个所述备选阈值，根据多张所述第一图像分别对应的分类预测概率和实际分类结果，确定与每个所述备选阈值对应的预测正确率；基于多个所述备选阈值分别对应的预测正确率，从多个所述备选阈值中确定所述第一分类阈值。

这样，通过确定多个备选阈值，并针对每个备选阈值确定预测正确率，以从多个备选阈值中确定第一分类阈值，进而以更高的准确度来确定第一分类阈值，使得基于该第一分类阈值对图像进行分类处理时，准确度更高。

一种可选的实施方式中，所述确定多个备选阈值，包括：基于所述第一分类阈值的取值范围以及预设的取值步长，在所述取值范围内确定多个所述备选阈值。

一种可选的实施方式中，所述分类处理包括：动作分类处理；所述基于所述第一分类阈值以及所述神经网络，对第二图像进行所述分类处理，得到所述第二图像的分类结果，包括：基于所述第一分类阈值以及所述神经网络，检测所述第二图像中的目标对象是否执行与所述动作分类处理对应的目标动作。

一种可选的实施方式中，所述神经网络包括至少一个动作检测分支；其中，不同动作检测分支执行的动作分类处理不同；所述基于所述第一分类阈值以及所述神经网络，检测所述第二图像中的目标对象是否执行与所述动作分类处理对应的目标动作，包括：识别所述第二图像中包含目标对象的目标图像区域；利用包括至少一个所述动作检测分支的所述神经网络，对所述目标图像区域进行动作分类处理，得到所述目标对象执行与所述每个动作检测分支对应的目标动作的概率；基于所述目标对象执行与所述每个动作检测分支对应的目标动作的概率、以及与所述每个动作检测分支对应的第一分类阈值，确定所述目标对象是否执行与所述每个待检测分支对应的动作分类处理的目标动作。

这样，通过利用具有多个动作检测分支的动作检测网络对目标对象的动作进行识别，其中，不同的动作检测分支检测的动作类别不同，进而能够得到目标对象做出多种动作中每种动作的检测结果，然后基于每个动作检测分支分别对应的动作检测结果，确定目标对象的动作检测结果，从而能够全面的对目标对象的动作进行识别。

一种可选的实施方式中，所述识别所述第二图像中包含目标对象的目标图像区域，包括：对所述第二图像进行特征提取处理，得到所述第二图像的第一特征图；所述第一特征图包括多个特征通道分别对应的特征子图；不同所述特征子图中包含的特征不同；基于多个特征子图中的第一特征子图包含的特征，确定所述目标对象的中心点在所述第一特征图中的第一坐标信息；以及基于所述中心点在所述第一特征图中的第一坐标信息以及所述多个特征子图中的第二特征子图中包含的特征，确定所述目标对象在所述第一特征图中的第一尺寸信息；基于所述第一坐标信息以及所述第一尺寸信息，确定所述目标图像区域。

这样，能够准确的从第二图像中确定出包括了目标对象的目标图像区域。

一种可选的实施方式中，所述基于多个特征子图中的第一特征子图包含的特征，确定所述目标对象的中心点在所述第一特征图中的第一坐标信息，包括：按照预设的池化尺寸和池化步长，对所述第一特征子图进行最大池化处理，得到多个池化值以及与多个所述池化值中的每个池化值对应的位置索引；所述位置索引用于标识所述池化值在所述第一特征子图中的位置；基于所述每个池化值以及第一阈值，从多个所述池化值中确定属于所述中心点的目标池化值；基于所述目标池化值对应的位置索引，确定所述中心点在所述第一特征图中的第一坐标信息。

这样，通过对第一特征子图进行最大池化处理，进而能够更准确的从多个池化值中确定属于目标对象的中心点的目标池化值，从而更精确的将目标对象的位置从第一图像中确定出来。

一种可选的实施方式中，所述基于所述第一坐标信息以及所述第一尺寸信息，确定所述目标图像区域，包括：基于所述第一坐标信息、所述第一尺寸信息、以及所述第一特征图中的第一特征点和所述第二图像中各个像素点之间的位置映射关系，确定所述中心点在所述第二图像中的第二坐标信息、以及所述目标对象在所述第二图像中的第二尺寸信息；基于所述第二坐标信息、以及所述第二尺寸信息，确定所述目标图像区域。

一种可选的实施方式中，所述基于所述第二坐标信息、以及所述第二尺寸信息，确定所述目标图像区域，包括：基于所述第二坐标信息、以及所述第二尺寸信息，从所述第二图像中确定包含所述目标对象的第一区域范围；基于包含所述目标对象的第一区域范围，确定包含所述目标对象的第二区域范围，所述第二区域范围大于所述第一区域范围；基于所述第二区域范围，从所述第二图像中确定所述目标图像区域。

这样，通过对第一区域范围进行外扩，得到第一区域范围，能够将目标对象更完整的包括在内，从而在基于第一区域范围确定的目标图像区域检测目标对象做出的动作时，减少对包含了目标对象的图像区域的遗漏，减少该遗漏导致的检测结果精度下降的问题，进而能够得到更精确的检测结果。

第二方面，本公开实施例还提供一种图像处理装置，包括：第一处理模块，用于利用预先训练的神经网络，对多张第一图像中的每张第一图像进行分类处理，得到每张所述第一图像的分类预测概率；确定模块，用于基于多张所述第一图像分别对应的分类预测概率以及多张所述第一图像分别对应的预先标注好的实际分类结果，确定第一分类阈值；第二处理模块，用于基于所述第一分类阈值以及所述神经网络，对与所述第一图像具有关联的第二图像进行所述分类处理，得到所述第二图像的分类结果。

一种可能的实施方式中，所述第一图像和所述第二图像的拍摄参数的相似度大于预设的相似度阈值，和/或，多张所述第一图像以及所述第二图像为同一图像获取设备获取到的。

一种可能的实施方式中，所述第一处理模块，在基于多张所述第一图像分别对应的分类预测概率以及多张所述第一图像分别对应的预先标注好的实际分类结果，确定第一分类阈值时，用于：确定多个备选阈值；针对多个所述备选阈值中的每个备选阈值，根据多张所述第一图像分别对应的分类预测概率和实际分类结果，确定与每个所述备选阈值对应的预测正确率；基于多个所述备选阈值分别对应的预测正确率，从多个所述备选阈值中确定所述第一分类阈值。

一种可能的实施方式中，所述第一处理模块，在确定多个备选阈值时，用于：基于所述第一分类阈值的取值范围以及预设的取值步长，在所述取值范围内确定多个所述备选阈值。

一种可能的实施方式中，所述分类处理包括：动作分类处理；所述第二处理模块，在基于所述第一分类阈值以及所述神经网络，对第二图像进行所述分类处理，得到所述第二图像的分类结果时，用于：基于所述第一分类阈值以及所述神经网络，检测所述第二图像中的目标对象是否执行与所述动作分类处理对应的目标动作。

一种可能的实施方式中，所述神经网络包括至少一个动作检测分支；其中，不同动作检测分支执行的动作分类处理不同；所述第二处理模块，在基于所述第一分类阈值以及所述神经网络，检测所述第二图像中的目标对象是否执行与所述动作分类处理对应的目标动作时，用于：识别所述第二图像中包含目标对象的目标图像区域；利用包括至少一个所述动作检测分支的所述神经网络，对所述目标图像区域进行动作分类处理，得到所述目标对象执行与所述每个动作检测分支对应的目标动作的概率；基于所述目标对象执行与所述每个动作检测分支对应的目标动作的概率、以及与所述每个动作检测分支对应的第一分类阈值，确定所述目标对象是否执行与所述每个待检测分支对应的动作分类处理的目标动作。

一种可能的实施方式中，所述第二处理模块，在识别所述第二图像中包含目标对象的目标图像区域时，用于：对所述第二图像进行特征提取处理，得到所述第二图像的第一特征图；所述第一特征图包括多个特征通道分别对应的特征子图；不同所述特征子图中包含的特征不同；基于多个特征子图中的第一特征子图包含的特征，确定所述目标对象的中心点在所述第一特征图中的第一坐标信息；以及基于所述中心点在所述第一特征图中的第一坐标信息以及所述多个特征子图中的第二特征子图中包含的特征，确定所述目标对象在所述第一特征图中的第一尺寸信息；基于所述第一坐标信息以及所述第一尺寸信息，确定所述目标图像区域。

一种可能的实施方式中，所述第二处理模块，在基于多个特征子图中的第一特征子图包含的特征，确定所述目标对象的中心点在所述第一特征图中的第一坐标信息时，用于：按照预设的池化尺寸和池化步长，对所述第一特征子图进行最大池化处理，得到多个池化值以及与多个所述池化值中的每个池化值对应的位置索引；所述位置索引用于标识所述池化值在所述第一特征子图中的位置；基于所述每个池化值以及第一阈值，从多个所述池化值中确定属于所述中心点的目标池化值；基于所述目标池化值对应的位置索引，确定所述中心点在所述第一特征图中的第一坐标信息。

一种可能的实施方式中，所述第二处理模块，在基于所述第一坐标信息以及所述第一尺寸信息，确定所述目标图像区域时，用于：基于所述第一坐标信息、所述第一尺寸信息、以及所述第一特征图中的第一特征点和所述第二图像中各个像素点之间的位置映射关系，确定所述中心点在所述第二图像中的第二坐标信息、以及所述目标对象在所述第二图像中的第二尺寸信息；基于所述第二坐标信息、以及所述第二尺寸信息，确定所述目标图像区域。

一种可能的实施方式中，所述第二处理模块，在基于所述第二坐标信息、以及所述第二尺寸信息，确定所述目标图像区域时，用于：基于所述第二坐标信息、以及所述第二尺寸信息，从所述第二图像中确定包含所述目标对象的第一区域范围；基于包含所述目标对象的第一区域范围，确定包含所述目标对象的第二区域范围，所述第二区域范围大于所述第一区域范围；基于所述第二区域范围，从所述第二图像中确定所述目标图像区域。

第三方面，本公开可选实现方式还提供一种电子设备，处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开可选实现方式还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种图像处理方法的流程图；

图2示出了本公开实施例所提供的确定第一分类阈值的具体方法的流程图；

图3示出了本公开实施例所提供的检测第二图像中的目标对象是否执行与动作分类处理对应的目标动作的具体方法的流程图；

图4示出了本公开实施例所提供的识别第二图像中包含目标对象的目标图像区域的具体方法的流程图；

图5示出了本公开实施例所提供的一种图像处理装置的示意图；

图6示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，在利用神经网络对图像中包括的目标对象的动作进行检测前，通常会利用来源于多个图像获取设备的样本图像对神经网络进行训练；来源于不同图像获取设备的样本图像由于拍摄参数的差异，会包含有不同的图像特征；神经网络能够在训练过程中学习到来源不同的样本图像的不同特征，从而能够在利用神经网络对图像中包括的目标对象的动作进行检测时，从而能够增强神经网络的泛化能力。在利用这种神经网络对图像进行动检检测处理时，神经网络能够输出图像中的目标对象执行某种动作的概率，然后将该概率与预设的概率阈值进行比对，并基于比对结果，确定目标对象对应的动作检测结果。但由于不同摄像头的图像获取参数不同，造成了不同摄像头所获取的图像质量会有所差异，图像质量不同，所包含的图像特征也会存在差异；进而导致了利用相同的概率阈值作为统一的判断标准，得到不同摄像头获得的图像的动作检测结果时，未必是最优的结果，会造成对部分图像出现误判的情况，导致检测的准确度低的问题。

基于上述研究，本公开提供了一种图像处理方法，基于对多个第一图像的分类结果，得到第一分类阈值，然后在对具有关联的第二图像进行分类处理的过程中，具有关联的第一图像和第二图像的图像特征的分布较为相似，因此将上述第一分类阈值作为对第二图像的分类处理过程中的判断标准之一，从而可以提升分类结果的准确率。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种图像处理方法进行详细介绍，本公开实施例所提供的图像处理方法的执行主体一般为具有一定计算能力的图像处理设备，该图像处理设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该图像处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为图像处理设备为例对本公开实施例提供的图像处理方法加以说明。需要说明的是，本公开实施例公开的图像处理方法中，确定分类阈值的方法，不仅能够用于动作分类预测，还能够用于其他类型的分类预测，例如人脸属性分类(如性别、年龄、情绪等)、场景分类识别(如是否处于特定的场所、或者环境下等)等。在本公开实施例中的目标对象，例如包括人、动物、机械设备、车辆、机器人等中任一种。

参见图1所示，为本公开实施例提供的图像处理方法的流程图，所述方法包括步骤S101～S103，其中：

S101：利用预先训练的神经网络，对多张第一图像中的每张第一图像进行分类处理，得到每张所述第一图像的分类预测概率；

S102：基于多张所述第一图像分别对应的分类预测概率以及多张所述第一图像分别对应的预先标注好的实际分类结果，确定第一分类阈值；

S103：对与所述第一图像具有关联的第二图像进行所述分类处理，得到所述第二图像的分类结果。

本公开实施例通过利用预先训练的神经网络对多张第一图像分别进行分类处理，得到每张第一图像的分类预测概率，并利用多张第一图像分别对应的分类预测概率以及多张第一图像分别对应的预先标注好的实际分类结果，确定第一分类阈值，该第一分类阈值能够使得神经网络对于第一图像具有关联的第二图像进行分类处理时，得到更高的正确率。

示例性的，上述步骤S101～S102，可以周期性的执行，也即，周期性的确定一次第一分类阈值；而S103则可以在每次对第二图像进行分类处理时执行。

下面对上述S101～S103分别加以详细说明。

I：在上述S101中，神经网络例如是利用来源于多个样本图像获取设备的样本图像训练得到的。

示例性的，在对神经网络进行训练的样本图像获取设备例如与进行图像检测时的图像获取设备的拍摄参数相似。这样，训练得到的神经网络对来源于参数相似的图像获取设备的图像进行处理时，具有较高的精度。此处，参数相似，例如为相机参数相似、环境参数相似等中一种或多种。相机参数例如相机内参、相机外参、以及其他参数；其中，相机内参例如包括：内参矩阵、畸变参数；相机外参包括：旋转矩阵、平移矩阵；其他参数例如包括：品牌、型号、总像素、有效像素、光学变焦倍数、传感器类型、传感器尺寸、最大分辨率、光圈范围、感光度、曝光补偿等；环境参数相似，例如为环境光照度相似、所处环境相似等。

在对神经网络进行训练的样本图像获取设备还可以与图像检测时的图像获取设备部分不同，此时，利用不同的样本图像获取设备获取的样本图像对神经网络进行训练，由于不同的样本图像获取设备获取的样本图像中目标对象的特征分布会有所差异，进而神经网络能够学习到目标对象的更多特征，使得神经网络具有更强的泛化能力。

在对神经网络进行训练时，例如可以针对来源于不同样本图像获取设备的样本图像设置相同的分类阈值；然后根据基于该分类阈值以各样本图像分别对应的分类预测概率，确定各样本图像的分类预测结果；然后根据各样本图像的分类预测结果、以及各样本图像的实际分类结果，确定神经网路的损失，并基于损失，训练神经网络。

在得到训练好的神经网络后，可以利用训练好的神经网络对多张第一图像分别进行分类处理，得到多张第一图像分别对应的分类预测概率。

第一图像和第二图像具有关联，例如包括下述至少一种：

(1)：所述第一图像和所述第二图像的拍摄参数的相似度大于预设的相似度阈值。

此处，例如可以将不同图像的拍摄参数构成一参数向量；不同图像的拍摄参数的相似度，例如可以通过不同图像的参数向量之间的向量距离来表征；在不同图像的参数向量之间的向量距离小于预设的距离阈值时，即表征该不同图像的拍摄参数的相似度大与预设的相似度阈值。

(2)：多张所述第一图像以及所述第二图像为同一图像获取设备获取到的。

这样，在图像获取设备投入使用前，可以通过上述步骤S101～S102，为图像获取设备确定一第一概率阈值；在该图像获取设备投入使用后，所获取的第二图像通过为其确定的第一概率阈值，进行分类处理。

II：在上述S102中，在确定第一分类阈值时，是要使得利用确定的第一分类阈值对第一图像的分类结果进行判别时，使得判别结果的正确率达到预设的正确率阈值。

具体地，参见图2所示，本公开实施例提供一种确定第一分类阈值的具体方法，包括：

S201：确定多个备选阈值。

此处，例如可以基于第一分类阈值的取值范围、以及预设的取值步长，在取值范围内确定多个备选阈值。

示例性的，在利用神经网络对第一图像进行分类处理后，例如可以利用sigmoid激活函数，对分类处理的结果进行激活处理，将分类处理的结果变化值0-1的取值区间范围内；此时，分类处理的结果即能够表征第一图像的分类预测概率。相应的，第一分类阈值的取值范围为[0,1]。以0.05作为取值步长，则去也定的多个备选阈值分别为：0，0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、1。

这里需要注意的是，第一分类阈值的取值范围，可以根据实际的情况确定，同时取值步长也可以根据实际的需要进行确定，例如还可以将取值步长确定为0.01、0.02等。

S202：针对多个所述备选阈值中的每个备选阈值，根据多张所述第一图像分别对应的分类预测概率和实际分类结果，确定与每个所述备选阈值对应的预测正确率。

S203：基于多个所述备选阈值分别对应的预测正确率，从多个所述备选阈值中确定所述第一分类阈值。

示例性的，假设神经网络对第一图像的分类结果包括：第一图像中的目标对象做出了某动作或者第一图像中的目标对象未做出该动作，在利用神经网络对多张第一图像进行分类处理后，得到第n张第一图像的分类预测概率表示为：score_n。假设第一分类阈值的取值范围为：[0,1]，取值步长为0.001，则按照该步长0.001遍历第一分类阈值的可能取值：thrd＝0+0.001×k，其中，k∈[0,1000]。针对第p次遍历，确定的备选阈值为：thrd_p＝0+0.001×p，在此备选阈值thrd_p下，若score_n大于thrd_p，则表征第一图像的预测分类结果为做出对应动作，否则，第一图像的预测分类结果为未做出对应动作。

然后，根据n张第一图像对应的预测分类结果，以及n张第一图像分别对应的实际分类结果，统计得到下述参量：

TP：实际做出动作，且在thrd_p备选阈值下预测为做出动作的第一图像的数量；

TN：实际做出动作，且在thrd_p备选阈值下预测为未做出动作的第一图像的数量；

FP：实际未做出动作，且在thrd_p备选阈值下预测为做出动作的第一图像的数量；

FN：实际未做出动作，且thrd_p备选阈值下预测为未做出动作的第一图像的数量。

然后基于下述公式：(1)～公式(3)，得到thrd_p备选阈值对应的预测正确率F：

在得到所有备选阈值的预测正确率后，将预测正确率F最大的备选阈值确定为第一分类阈值。

另外，在本公开另一实施例中，为了能够更准确的确定第一分类阈值，还可以将第一分类阈值的取值范围划分为多个取值区间，然后针对每个取值区间，根据多个第一图像分别对应的分类预测概率和实际分类结果，确定每个取值区间对应的预测正确率，后基于多个取值区间分别对应的预测正确率，从多个取值区间中确定一目标取值区间，然后从多个目标取值区间内，确定多个备选阈值，并基于上述过程确定每个备选阈值对应的预测正确率，从而能够减少在确定第一分类阈值时需要的计算量，节省计算资源和计算时间。

另外，还可以采用逐步逼近法确定第一分类阈值。

III：在上述S103中，在基于上述S102的过程确定了第一分类阈值后，基于该第一分类阈值和神经网络，对第二图像进行分类处理，以得到第二图像的分类结果。

示例性的，以分类处理包括动作分类处理为例，对本公开实施例提供的对第二图像进行分类处理的具体过程加以详细说明。需要注意的是，除了动作分类处理外，还可以有其他类型的分类处理，例如属性分类，如年龄、性别、职业、情绪等分类处理，又例如对图像进行语义分割处理的分类等。

具体地，在进行动作分类处理时，例如可以基于第一分类阈值以及神经网络，对检测第二图像中的目标对象是否执行与所述动作分类处理对应的目标动作。

示例性的，本公开实施例提供的神经网络包括：至少一个动作检测分支，不同动作检测分之执行得到动作分类处理不同。例如，在动作检测分支有三个的情况下，三个动作检测分支分别用于检测目标对象是否站立、是否举手、以及是否低头。

参见图3所示，本公开实施例还提供一种检测第二图像中的目标对象是否执行与动作分类处理对应的目标动作的具体方法，包括：

S301：识别所述第二图像中包含目标对象的目标图像区域。

此处，在获取的第二图像中，除了包括目标对象外，还包括有其他图像背景信息，图像背景信息可能会对目标对象的动作检测结果造成一定的干扰，因此可以首先对第二图像中包括的目标对象的目标图像区域进行检测，然后基于目标图像区域实现对目标对象的动作检测。

示例性地，参见图4所示，本公开实施例提供一种识别第二图像中包含目标对象的目标图像区域的具体方法，包括：

S401：对所述第二图像进行特征提取处理，得到所述第二图像的第一特征图；所述第一特征图包括多个特征通道分别对应的特征子图；不同所述特征子图中包含的特征不同。

此处，例如可以利用卷积神经网络对第二图像进行特征提取处理，得到第二图像的第一特征图。在利用卷积神经网络对第二图像进行特征提取处理后，得到第二图像的第一特征图。

示例性的，第一特征图由多个通道的特征子图构成；多个特征子图叠加后，形成第一特征图。

S402：基于多个特征子图中的第一特征子图包含的特征，确定所述目标对象的中心点在所述第一特征图中的第一坐标信息；以及基于所述中心点在所述第一特征图中的第一坐标信息以及所述多个特征子图中的第二特征子图中包含的特征，确定所述目标对象在所述第一特征图中的第一尺寸信息。

通过上述确定目标图像区域的方法，能够更准确的将各个目标对象从第二图像中识别出来，以基于各个目标对象对应的目标图像区域，更全面的得到第二图像中各个目标对象的动作识别结果。

示例性的，在构成第一特征图的多个特征子图中，第i个通道的特征子图(也即上述第一特征子图)中包含的特征，用于表征第一特征图中的各个第一特征点是否为目标对象的中心点。可以利用sigmoid激活函数对第一特征子图进行激活处理，将第一特征图中的各个第一特征点在第一特征子图中的特征值，转换为a1至a2之间的数值。示例性的，a1例如为0；a2例如为1。

其中针对某个第一特征点而言，该第一特征点在第一特征子图中的特征值在转换至0至1之间的数值后，对应的数值越趋向于1，则其属于目标对象的中心点的概率也就越大。

进而，能够基于各个第一特征点在第一特征子图中的特征值转换至0至1之间后的数值，确定各个目标对象的中心点在第一特征图中对应的第一特征点，并将确定的第一特征点的第一坐标信息，确定为目标对象的中心点在第一特征图中的第一坐标信息。

在另一种可能的实施方式中，在实际预测过程中，在将第一特征图中的各个第一特征点在第一特征子图中的特征值，转换为0至1之间的数值后，位置接近的第一特征点对应的数值也可能较为接近；为了能够为每个目标对象确定唯一的中心点，本公开实施例还可以采用下述方式确定所述目标对象的中心点在所述第一特征图中的第一坐标信息：

按照预设的池化尺寸和池化步长，对所述第一特征子图进行最大池化处理，得到多个池化值以及与多个所述池化值中的每个池化值对应的位置索引；所述位置索引用于标识所述池化值在所述第一特征子图中的位置；

基于所述每个池化值以及第一阈值，从多个所述池化值中确定属于所述中心点的目标池化值；

基于所述目标池化值对应的位置索引，确定所述中心点在所述第一特征图中的第一坐标信息。

这样，通过对第一特征子图进行最大池化处理，进而能够更准确的从多个池化值中确定属于目标对象的中心点的目标池化值，从而更精确的将目标对象的位置从第二图像中确定出来。

示例性的，例如可以对第一特征子图进行3×3，且步长为1的最大池化处理；在池化时，针对每3×3个第一特征点在第一特征子图中的特征值，确定3×3个第一特征点的最大响应值及最大响应值在都第一特征图上的位置索引。此时，最大响应值的数量与第一特征图的尺寸相关；例如若第一特征图的尺寸为80×60×3，则在对第一特征子图进行最大池化处理后，得到的最大响应值共80×60个；且对于每个最大响应值，都可能存在至少一个其他最大响应值与其位置索引相同。

然后将位置索引相同的最大响应值合并，得到M个最大响应值，以及M个最大响应值中每个最大响应值对应的位置索引。

然后将M个最大响应值中的每个最大响应值与第一阈值进行比对；在某最大响应值大于该第一阈值时，将该最大响应值确定为目标池化值。目标池化值对应的位置索引，即目标对象的中心点在第一特征图中的第一坐标信息。

这里，可以在对第一特征子图进行激活处理，将第一特征图中的各个第一特征点在第一特征子图中的特征值转换为0-1之间的数值后，再进行最大池化处理，也可以直接对第一特征子图进行最大池化处理。

在对第一特征子图直接进行最大池化处理的情况下，可以在对第一特征子图进行最大池化处理后，将各个池化值利用激活函数进行激活处理，将各个池化值转换为0-1之间的数值，然后再基于转换为0-1之间数值的池化值、以及第一阈值，得从多个池化值中确定属于目标对象的中心点的目标池化值。

另外，在对第一特征子图直接进行最大池化处理的情况下，可以在对第一特征子图进行最大池化处理后，还可以直接基于池化值以及第一阈值，从多个池化值中确定属于目标对象的中心点的目标池化值，此时，第一阈值和上述几种要进行激活处理的示例中的第一阈值的值不同。具体可以根据实际的需要进行具体选择。

在另一示例中，在在构成第一特征图的多个特征子图中，第j个通道和第k个通道的特征子图(也即上述第二特征子图)中包含的特征，用于表征第二图像的目标对象在第一特征图中的第一尺寸信息。

示例性的，第一特征图中的各个第一特征点在第j个通道的特征子图中的特征值，表征与各个第一特征点的对应的第一尺寸信息中的长度值；各个第一特征点在第k个通道的特征子图中的特征值，表征与各个第一特征点对应的第一尺寸信息中的宽度值。

例如，i为0，j为1，k为2。

在得到中心点在第一特征图中的第一坐标信息后，基于该第一坐标信息，从第二特征子图中读取表征中心点的第一特征点在第二特征子图中的特征值，并将读取的特征值确定为目标对象在第一特征图中的第一尺寸信息。

S403：基于所述第一坐标信息以及所述第一尺寸信息，确定所述目标图像区域。

在具体实施中，在对第二图像进行特征提取处理，得到第二图像的第一特征图后，可以生成第二图像中各个像素点、与第一特征图中的第一特征点之间的位置映射关系。基于该位置映射关系，能够基于中心点在第一特征图中的第一坐标信息，确定中心点在第二图像中的第二坐标信息，并基于目标对象在第一特征图中的第一尺寸信息，确定目标对象在第二图像中的第二尺寸信息，然后根据中心点在第二图像中的第二坐标信息、以及目标对象在第二图像中的第二尺寸信息，确定目标图像区域。

在基于第二坐标信息、以及第二尺寸信息确定目标图像区域时，在一种可能的实施方式中，可以直接将基于第二坐标信息、以及第二尺寸信息确定为目标图像区域。

在另一种可能的实施方式中，还可以基于第二坐标信息和第二尺寸信息，从第二图像中确定包括目标对象的第一区域范围，然后基于第一区域范围，从第二图像中确定包含目标对象的第二区域范围。此处，第二区域范围大于第一区域范围，然后基于第二区域范围，从第二图像中确定目标图像区域。

这样，通过对第一区域范围进行外扩，得到第一区域范围，能够将目标对象更完整的包括在内，从而在基于目标图像区域检测目标对象做出的动作时，能够得到更精确的检测结果。

承接上述S301，本公开实施例提供的检测第二图像中的目标对象是否执行与动作分类处理对应的目标动作的方法中，还包括：

S302：利用包括至少一个所述动作检测分支的所述神经网络，对所述目标图像区域进行动作分类处理，得到所述目标对象执行与所述每个动作检测分支对应的目标动作的概率。

S303：基于所述目标对象执行与所述每个动作检测分支对应的目标动作的概率、以及与所述每个动作检测分支对应的第一分类阈值，确定所述目标对象是否执行与所述每个待检测分支对应的动作分类处理的目标动作。

在相关技术中，当前用于进行动作检测的神经网通常为多分类设计，也即能够从多种分类中，确定目标对象执行的目标动作，若目标对象同时做出的两种及以上动作，则最终只会得到做出其中一个动作的结果，造成了对目标对象的动作识别存在不全面的问题。

本公开实施例通过利用具有多个动作检测分支的动作检测网络，对目标对象的多座进行识别，不同的动作检测分支能够检测的动作类别不同，进而能够通过一次检测处理过程，得到学生做出多种动作中每种动作的检测结果，从而能够全面、准确地对学生的动作进行识别。

本公开另一实施例中，不同动作检测分支对应的第一分类阈值可以相同，也可以不同。在不同动作检测分支对应的第一分类阈值不同的情况下，针对每个动作检测分支，可以确定一个与该动作检测分支对应的第一分类阈值。在不同动作检测分支对应的第一分类阈值相同的情况下，可以针对多个动作检测分支同步确定一个第一分类阈值。

示例性的，在针对多个动作检测分支确定同一第一分类阈值的情况下，可以确定多个备选阈值；然后针对多个备选阈值中的每个备选阈值，根据多张第二图像在每个动过检测分支下的分类预测概率、以及在每个动作分之下的实际分类结果，确定该备选阈值在每个动作分支下的预测正确率；然后基于多个备选阈值分别对应的预测正确率，为每个动作检测分支确定一分类阈值；然后将多个动作分支分别对应的分类阈值的最大值，确定为多个动作分支对应的第一分类阈值。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与图像处理方法对应的图像处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图5所示，为本公开实施例提供的一种图像处理装置的示意图，所述装置包括：第一处理模块51、确定模块52、以及第二处理模块53；其中，

第一处理模块51，用于利用预先训练的神经网络，对多张第一图像中的每张第一图像进行分类处理，得到每张所述第一图像的分类预测概率；

确定模块52，用于基于多张所述第一图像分别对应的分类预测概率以及多张所述第一图像分别对应的预先标注好的实际分类结果，确定第一分类阈值；

第二处理模块53，用于基于所述第一分类阈值以及所述神经网络，对与所述第一图像具有关联的第二图像进行所述分类处理，得到所述第二图像的分类结果。

一种可能的实施方式中，所述第一图像和所述第二图像具有关联，包括下述至少一种：

所述第一图像和所述第二图像的拍摄参数的相似度大于预设的相似度阈值；

多张所述第一图像以及所述第二图像为同一图像获取设备获取到的。

一种可能的实施方式中，所述第一处理模块51，在基于多张所述第一图像分别对应的分类预测概率以及多张所述第一图像分别对应的预先标注好的实际分类结果，确定第一分类阈值时，用于：

确定多个备选阈值；

针对多个所述备选阈值中的每个备选阈值，根据多张所述第一图像分别对应的分类预测概率和实际分类结果，确定与每个所述备选阈值对应的预测正确率；

基于多个所述备选阈值分别对应的预测正确率，从多个所述备选阈值中确定所述第一分类阈值。

一种可能的实施方式中，所述第一处理模块51，在确定多个备选阈值时，用于：

基于所述第一分类阈值的取值范围以及预设的取值步长，在所述取值范围内确定多个所述备选阈值。

一种可能的实施方式中，所述分类处理包括：动作分类处理；

所述第二处理模块53，在基于所述第一分类阈值以及所述神经网络，对第二图像进行所述分类处理，得到所述第二图像的分类结果时，用于：

基于所述第一分类阈值以及所述神经网络，检测所述第二图像中的目标对象是否执行与所述动作分类处理对应的目标动作。

一种可能的实施方式中，所述神经网络包括至少一个动作检测分支；其中，不同动作检测分支执行的动作分类处理不同；

所述第二处理模块53，在基于所述第一分类阈值以及所述神经网络，检测所述第二图像中的目标对象是否执行与所述动作分类处理对应的目标动作时，用于：

识别所述第二图像中包含目标对象的目标图像区域；

利用包括至少一个所述动作检测分支的所述神经网络，对所述目标图像区域进行动作分类处理，得到所述目标对象执行与所述每个动作检测分支对应的目标动作的概率；

基于所述目标对象执行与所述每个动作检测分支对应的目标动作的概率、以及与所述每个动作检测分支对应的第一分类阈值，确定所述目标对象是否执行与所述每个待检测分支对应的动作分类处理的目标动作。

一种可能的实施方式中，所述第二处理模块53，在识别所述第二图像中包含目标对象的目标图像区域时，用于：

对所述第二图像进行特征提取处理，得到所述第二图像的第一特征图；所述第一特征图包括多个特征通道分别对应的特征子图；不同所述特征子图中包含的特征不同；

基于多个特征子图中的第一特征子图包含的特征，确定所述目标对象的中心点在所述第一特征图中的第一坐标信息；以及基于所述中心点在所述第一特征图中的第一坐标信息以及所述多个特征子图中的第二特征子图中包含的特征，确定所述目标对象在所述第一特征图中的第一尺寸信息；

基于所述第一坐标信息以及所述第一尺寸信息，确定所述目标图像区域。

一种可能的实施方式中，所述第二处理模块53，在基于多个特征子图中的第一特征子图包含的特征，确定所述目标对象的中心点在所述第一特征图中的第一坐标信息时，用于：

一种可能的实施方式中，所述第二处理模块53，在基于所述第一坐标信息以及所述第一尺寸信息，确定所述目标图像区域时，用于：

基于所述第一坐标信息、所述第一尺寸信息、以及所述第一特征图中的第一特征点和所述第二图像中各个像素点之间的位置映射关系，确定所述中心点在所述第二图像中的第二坐标信息、以及所述目标对象在所述第二图像中的第二尺寸信息；

基于所述第二坐标信息、以及所述第二尺寸信息，确定所述目标图像区域。

一种可能的实施方式中，所述第二处理模块53，在基于所述第二坐标信息、以及所述第二尺寸信息，确定所述目标图像区域时，用于：

基于所述第二坐标信息、以及所述第二尺寸信息，从所述第二图像中确定包含所述目标对象的第一区域范围；

基于包含所述目标对象的第一区域范围，确定包含所述目标对象的第二区域范围，所述第二区域范围大于所述第一区域范围；

基于所述第二区域范围，从所述第二图像中确定所述目标图像区域。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种计算机设备，如图6所示，为本公开实施例提供的计算机设备结构示意图，包括：

处理器11和存储器12；所述存储器12存储有所述处理器11可执行的机器可读指令，当计算机设备运行时，所述机器可读指令被所述处理器执行以实现下述步骤：

利用预先训练的神经网络，对多张第一图像中的每张第一图像进行分类处理，得到每张所述第一图像的分类预测概率；

基于多张所述第一图像分别对应的分类预测概率以及多张所述第一图像分别对应的预先标注好的实际分类结果，确定第一分类阈值；

基于所述第一分类阈值以及所述神经网络，对第二图像进行所述分类处理，得到所述第二图像的分类结果；

其中，多张所述第一图像以及所述第二图像来源于同一图像获取设备。

上述指令的具体执行过程可以参考本公开实施例中所述的图像处理方法的步骤，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的图像处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的图像处理方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的图像处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

基于所述第一分类阈值以及所述神经网络，对与所述第一图像具有关联的第二图像进行所述分类处理，得到所述第二图像的分类结果。

2.根据权利要求1所述的图像处理方法，其特征在于，所述第一图像和所述第二图像具有关联，包括下述至少一种：

3.根据权利要求1或2所述的图像处理方法，其特征在于，所述基于多张所述第一图像分别对应的分类预测概率以及多张所述第一图像分别对应的预先标注好的实际分类结果，确定第一分类阈值，包括：

确定多个备选阈值；

针对多个所述备选阈值中的每个所述备选阈值，根据多张所述第一图像分别对应的分类预测概率和实际分类结果，确定与每个所述备选阈值对应的预测正确率；

4.根据权利要求3所述的图像处理方法，其特征在于，所述确定多个备选阈值，包括：

5.根据权利要求1-4任一项所述的图像处理方法，其特征在于，所述分类处理包括：动作分类处理；

所述基于所述第一分类阈值以及所述神经网络，对第二图像进行所述分类处理，得到所述第二图像的分类结果，包括：

6.根据权利要求5所述的图像处理方法，其特征在于，所述神经网络包括至少一个动作检测分支；其中，不同动作检测分支执行的动作分类处理不同；

所述基于所述第一分类阈值以及所述神经网络，检测所述第二图像中的目标对象是否执行与所述动作分类处理对应的目标动作，包括：

识别所述第二图像中包含目标对象的目标图像区域；

7.根据权利要求6所述的图像处理方法，其特征在于，所述识别所述第二图像中包含目标对象的目标图像区域，包括：

8.根据权利要求7所述的图像处理方法，其特征在于，所述基于多个特征子图中的第一特征子图包含的特征，确定所述目标对象的中心点在所述第一特征图中的第一坐标信息，包括：

9.根据权利要求7或8所述的图像处理方法，其特征在于，所述基于所述第一坐标信息以及所述第一尺寸信息，确定所述目标图像区域，包括：

基于所述第二坐标信息、以及所述的第二尺寸信息，确定所述目标图像区域。

10.根据权利要求9所述的图像处理方法，其特征在于，所述基于所述第二坐标信息、以及所述的第二尺寸信息，确定所述目标图像区域，包括：

11.一种图像处理装置，其特征在于，包括：

第一处理模块，用于利用预先训练的神经网络，对多张第一图像中的每张第一图像进行分类处理，得到每张所述第一图像的分类预测概率；

确定模块，用于基于多张所述第一图像分别对应的分类预测概率以及多张所述第一图像分别对应的预先标注好的实际分类结果，确定第一分类阈值；

第二处理模块，用于基于所述第一分类阈值以及所述神经网络，对与所述第一图像具有关联的第二图像进行所述分类处理，得到所述第二图像的分类结果。

12.一种电子设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至10任一项所述的图像处理方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被电子设备运行时，所述电子设备执行如权利要求1至10任一项所述的图像处理方法的步骤。