CN110490225B

CN110490225B - 基于场景的图像分类方法、装置、系统和存储介质

Info

Publication number: CN110490225B
Application number: CN201910616087.8A
Authority: CN
Inventors: 赵俊杰; 王塑; 刘宇
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2022-06-28
Anticipated expiration: 2039-07-09
Also published as: CN110490225A

Abstract

本发明提供一种基于场景的图像分类方法、装置、系统和存储介质。该方法包括：接收输入图像，并基于训练好的神经网络对输入图像进行图像分类预测和场景分类预测，以得到图像分类得分和场景分类得分；基于场景分类得分确定输入图像的场景类别，并基于与场景类别相对应的映射函数对图像分类得分进行映射，以得到场景类别下输入图像的图像分类新得分；以及将图像分类新得分与预设统一阈值进行比较，以得到输入图像的图像分类结果。本发明的基于场景的图像分类方法、装置和系统对输入图像所属的场景进行分类，并根据场景分类结果对输入图像的图像分类预测值进行映射变换，使得不同场景的图像可采用统一阈值进行图像分类，且得到较好的图像分类结果。

Description

基于场景的图像分类方法、装置、系统和存储介质

技术领域

本发明涉及图像分类技术领域，更具体地涉及一种基于场景的图像分类方法、装置、系统和存储介质。

背景技术

图像分类(Image classification)是计算机视觉中一项非常重要的研究课题。随着深度学习的快速发展，基于卷积神经网络(convolution neural networks)的图像分类方法取得了很好的效果。

目前对于图像分类模型(如图像中的对象是否为猫，两个人脸图像是否为同一个人等)，通常使用预测值+阈值的形式判断分类结果，即首先由模型给出输入图像的预测值，再根据预先定义的阈值判断其分类结果。但是考虑在实际生活中，不同场景(如不同人种、不同光照环境等)的图像常常差异较大，因此针对不同场景选定统一阈值会导致不同场景下图像分类的性能差异较大。

发明内容

为了解决上述问题而提出了本发明。本发明提出了一种基于场景的图像分类方案，其对输入图像所属的场景进行分类，并根据场景分类结果对输入图像的图像分类预测值进行映射变换，使得不同场景的图像可采用统一阈值进行图像分类，且得到较好的图像分类结果。下面简要描述本发明提出的基于场景的图像分类方案，更多细节将在后续结合附图在具体实施方式中加以描述。

根据本发明一方面，提供了一种基于场景的图像分类方法，所述方法包括：接收输入图像，并基于训练好的神经网络对所述输入图像进行图像分类预测和场景分类预测，以得到图像分类得分和场景分类得分；基于所述场景分类得分确定所述输入图像的场景类别，并基于与所述场景类别相对应的映射函数对所述图像分类得分进行映射，以得到所述场景类别下所述输入图像的图像分类新得分；以及将所述图像分类新得分与预设统一阈值进行比较，以得到所述输入图像的图像分类结果。

在本发明的一个实施例中，不同的场景类别对应于不同的图像分类阈值，与任一场景类别相对应的所述映射函数是基于与所述任一场景类别相对应的图像分类阈值以及所述预设统一阈值而确定的。

在本发明的一个实施例中，与任一场景类别相对应的图像分类阈值通过如下方式来确定：采用所述训练好的神经网络对所述任一场景类别下的多个样本进行图像分类预测，得到所述多个样本各自的图像分类得分；以及基于所述多个样本各自的图像分类得分以及预设假正率来确定与所述任一场景类别相对应的图像分类阈值，其中所述假正率是指被错误分到正样本类别中真实的负样本所占所有负样本总数的比例。

在本发明的一个实施例中，所述场景分类预测包括：对所述输入图像或所述训练图像的多源数据进行分类预测。

在本发明的一个实施例中，所述多源数据包括所述输入图像或所述训练图像中的人种的类别。

在本发明的一个实施例中，所述多源数据包括所述输入图像或所述训练图像的光照情况。

在本发明的一个实施例中，所述预设统一阈值是自定义常数。

在本发明的一个实施例中，所述神经网络包括主干网络、图像分类子网络和场景分类子网络，所述图像分类子网络和所述场景分类子网络共享所述主干网络的参数，或者不共享所述主干网络的参数。

根据本发明另一方面，提供了一种基于场景的图像分类装置，所述装置包括：预测模块，用于接收输入图像，并基于训练好的神经网络对所述输入图像进行图像分类预测和场景分类预测，以得到图像分类得分和场景分类得分；映射模块，用于基于所述场景分类得分确定所述输入图像的场景类别，并基于与所述场景类别相对应的映射函数对所述图像分类得分进行映射，以得到所述场景类别下所述输入图像的图像分类新得分；以及比较模块，用于将所述图像分类新得分与预设统一阈值进行比较，以得到所述输入图像的图像分类结果。

根据本发明又一方面，提供了一种基于场景的图像分类系统，所述系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行上述任一项所述的基于场景的图像分类方法。

根据本发明再一方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行上述任一项所述的基于场景的图像分类方法。

根据本发明又一方面，提供了一种计算机程序，所述计算机程序被计算机或处理器运行时用于执行上述任一项所述的基于场景的图像分类方法，所述计算机程序还用于实现上述任一项所述的基于场景的图像分类装置中的各模块。

根据本发明实施例的基于场景的图像分类方法、装置和系统对输入图像所属的场景进行分类，并根据场景分类结果对输入图像的图像分类预测值进行映射变换，使得不同场景的图像可采用统一阈值进行图像分类，且得到较好的图像分类结果。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的基于场景的图像分类方法、装置和系统的示例电子设备的示意性框图；

图2示出根据本发明实施例的基于场景的图像分类方法的示意性流程图；

图3示出根据本发明实施例的基于场景的图像分类装置的示意性框图；以及

图4示出根据本发明实施例的基于场景的图像分类系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的基于场景的图像分类方法、装置和系统的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108，这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的基于场景的图像分类功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

示例性地，用于实现根据本发明实施例的基于场景的图像分类方法、装置和系统的示例电子设备可以被实现为诸如智能手机、平板电脑等终端。

下面，将参考图2描述根据本发明实施例的基于场景的图像分类方法200。如图2所示，基于场景的图像分类方法200可以包括如下步骤：

在步骤S210，接收输入图像，并基于训练好的神经网络对所述输入图像进行图像分类预测和场景分类预测，以得到图像分类得分和场景分类得分。

在本发明的实施例中，在步骤S210接收的输入图像可以为待进行图像分类的图像，该输入图像可以包括视频和/或图片。示例性地，该输入图像可以是实时采集的，也可以是来自任何其他源的。对该输入图像的图像分类例如为确定输入图像中的目标对象是否为猫、确定输入图像中的人脸是否与给定人脸是同一个人、或者其他图像分类。

在本发明的实施例中，基于训练好的神经网络来对输入图像进行图像分类预测(例如如前所述的确定输入图像中的目标对象是否为猫、或者确定输入图像中的人脸是否与给定人脸是同一个人等)，以得到图像分类得分。示例性地，图像分类得分可以为0到1之间的数值，或者0到100之间的数值，或者其他任何合适范围的数值。

此外，在本发明的实施例中，还基于训练好的神经网络对输入图像进行场景分类预测，以得到场景分类得分。其中，对输入图像的场景分类预测可以包括：对输入图像的多源数据进行分类预测，该多源数据可以是与输入图像相关联的任意数据。在一个示例中，该多源数据可以包括所述输入图像中的人种的类型。在该示例中，对输入图像的场景分类预测可以包括：对输入图像中的人种的类别进行分类预测(例如是否为黄种人、白种人或黑种人)。在另一个示例中，该多源数据可以包括所述输入图像的光照情况。在该示例中，对输入图像的场景分类预测可以包括：对输入图像的光照情况进行分类预测(例如光照情况是好还是差)。在其他示例中，该多源数据还可以包括所述输入图像中的地点。为了描述简单，在本文的后续描述中，以输入图像的不同光照情况(例如好光照情况和差光照情况)作为输入图像的不同场景。总之，对输入图像的场景进行分类预测，使得能够基于输入图像的场景调整对输入图像中的内容的分类预测，以避免因场景不同而导致的图像分类性能差异。示例性地，场景分类得分可以为0到1之间的数值。示例性地，场景分类预测可以是二分类预测。

在本发明的实施例中，上述训练好的神经网络的网络模型可以包括主干网络、图像分类子网络和场景分类子网络。示例性地，该神经网络的模型可以是在原有包含图像分类子网络的基础上增加场景分类子网络而得到的。其中，图像分类子网络用于对输入图像进行图像分类预测，场景分类子网络用于对输入图像进行场景分类预测。主干网络的结构可以采用诸如AlexNet、VGGNet、ResNet、GoogleNet等，图像分类子网络和场景分类子网络可以共享主干网络参数，也可不共享主干网络参数。示例性地，可以按照多任务学习方法进行对该神经网络进行训练。示例性地，可以采用带图像分类标签和带场景分类标签的训练图像分别输入该神经网络以对其进行训练，以得到训练好的神经网络用于对待进行图像分类的输入图像进行图像分类预测和场景分类预测。

在步骤S220，基于所述场景分类得分确定所述输入图像的场景类别，并基于与所述场景类别相对应的映射函数对所述图像分类得分进行映射，以得到所述场景类别下所述输入图像的图像分类新得分。

在本发明的实施例中，基于步骤S210得到的场景分类得分，可以将其与场景分类阈值进行比较来确定输入图像的场景类别。例如，如前面的示例所述的，假定对输入图像的场景分类预测包括对输入图像的光照情况进行分类预测，基于场景分类预测得到的场景分类得分，可以将其与预设场景分类阈值进行比较：当场景分类得分大于或等于预设场景分类阈值时，确定输入图像的场景类别为好光照情况(例如白天)；当场景分类得分小于预设场景分类阈值时，确定输入图像的场景类别为差光照情况(例如晚上)。

基于所确定的输入图像的场景类别，可以采用与该场景类别相对应的映射函数对步骤S210得到的输入图像的图像分类得分进行映射，以得到该场景类别下所述输入图像的图像分类新得分。其中，在本发明的实施例中，一个场景类别可以对应于一种映射函数，基于该映射函数，使得不同的场景可以采用不同的图像分类阈值来进行图像分类，但为了使用户端操作简便，可以采用一个预设统一阈值(该预设统一阈值可以是自定义的常数)来进行图像分类，并基于不同场景下的不同图像分类阈值以及该预设统一阈值来确定不同场景下用于将图像分类得分映射为图像分类新得分的映射函数，并基于该映射函数对原始图像分类得分进行映射变换(可称为拉伸)以得到图像分类新得分，该图像分类新得分是在考虑了场景因素的情况下的图像分类预测，因此在任何场景下，均可基于该图像分类新得分与预设统一阈值进行图像分类(即将不同场景下的图像分类得分对齐或拉齐至统一阈值进行判断)，在采用同一个阈值的情况下实现了不同场景采用不同图像分类阈值的效果，使得针对不同场景下的图像分类均能获得可靠的图像分类结果。

在本发明的实施例中，不同的场景类别对应于不同的图像分类阈值，可以基于与任一场景类别相对应的图像分类阈值以及所述预设统一阈值来确定与所述任一场景类别相对应的映射函数，从而得到所述任一场景类别下的图像分类得分拉伸至图像分类新得分的拉伸公式。在一个示例中，假定s’表示图像分类新得分，s表示图像分类得分，t表示一个场景下的图像分类阈值，t’表示预设统一阈值，则与该场景相对应的映射函数例如可以为：s’＝s–t+t’。在该示例中，不同场景下的图像分类阈值t不同，即不同场景下将图像分类得分映射为图像分类新得分的映射函数不同。例如，好光照情况下的图像分类阈值预设为t1，差光照情况下的图像分类阈值预设为t2，则好光照情况下将图像分类得分映射为图像分类新得分的映射函数为s’＝s–t1+t’，差光照情况下将图像分类得分映射为图像分类新得分的映射函数为s’＝s–t2+t’。在另一示例中，假定s’表示图像分类新得分，s表示图像分类得分，t表示一个场景下的图像分类阈值，t’表示预设统一阈值，则与该场景相对应的映射函数例如可以为：s’＝(2*t’)/(1+exp(s-t))。在其他示例中，与场景类别相对应的映射函数还可以为任何其他合适的函数，只要满足下述条件即可：映射函数的输入是步骤S210中得到的输入图像的图像分类得分，输出是输入图像的图像分类新得分，约束条件是从一个场景下的图像分类阈值变换为不同场景下的预设统一阈值。

基于该映射函数，可以对步骤S210中得到的图像分类得分进行映射，以得到任一场景类别下输入图像的图像分类新得分，如步骤S220所描述的。

此外，根据本发明的实施例，不同的场景类别所对应的图像分类阈值可以通过如下方式来确定：采用所述训练好的神经网络对任一场景类别下的多个样本进行图像分类预测，得到所述多个样本各自的图像分类得分；以及基于所述多个样本各自的图像分类得分以及预设假正率(FPR)来确定与所述任一场景类别相对应的图像分类阈值，其中所述假正率是指被错误分到正样本类别中真实的负样本所占所有负样本总数的比例。下面参照表1通过示例来说明。

表1

图片ID	1	2	3	4	5	6	7	8
									是否为猫	是	是	是	否	否	否	否	否
白天图片得分	90	80	60	60	50	40	30	20

图片ID	9	10	11	12	13	14	15	16
									是否为猫	是	是	是	否	否	否	否	否
晚上图片得分	80	70	65	65	62	50	20	10

如表1所示，假定在白天场景下具有8张样本图片，通过训练好的神经网络来确定这8张样本图片中的目标对象是否为猫，根据神经网络分类预测后，这8张样本图片各自的分类得分分别如表1所示。假定预设FPR为20％，那么，白天场景下的图像分类阈值需要设置为50到60中的任意值才能满足20％的FPR，如果图像分类阈值低于50，则FPR将超过20％，即不能满足预设FPR。类似地，继续参考表1，假定在晚上场景下具有8张样本图片，通过训练好的神经网络来确定这8张样本图片中的目标对象是否为猫，根据神经网络分类预测后，这8张样本图片各自的分类得分分别如表1所示。假定预设FPR为20％，那么，晚上场景下的图像分类阈值需要设置为62到65中的任意值才能满足20％的FPR，如果图像分类阈值低于62，则FPR将超过20％，即不能满足预设FPR。

因此，可以基于任一场景类别下的图像分类得分以及预设FPR来确定与所述任一场景类别相对应的图像分类阈值。以上示例性地描述了不同场景下不同图像分类阈值的确定方法，应理解，上述示例仅是为了简单而描述的，在实际应用中一般采用更多的样本来确定不同场景下的图像分类阈值以提高准确度，且在实际应用中FPR可能设置为更小的值，例如千分之五，或者万分之一等。此外，还可以基于其他指标来确定不同场景下的图像分类阈值，诸如真正率(TPR，即分到正样本中真实的正样本所占所有正样本的比例)、真负率(TNR，即分到负样本中真实的负样本所占所有负样本的比例)、假负率(FNR，即分到负样本中真实的正样本所占所有正样本的比例)或其任意组合等。

现在返回图2，继续参考根据本发明实施例的基于场景的图像分类方法200的后续步骤。

在步骤S230，将所述图像分类新得分与预设统一阈值进行比较，以得到所述输入图像的图像分类结果。

基于在步骤S220中得到的图像分类新得分，可以将该图像分类新得分(例如前述的s’)与预设统一阈值(例如前述的t’)进行比较，即可得到最终对输入图像的图像分类结果。如前所述，由于该图像分类新得分是在考虑了场景因素的情况下的图像分类预测，因此在任何场景下，均可基于该图像分类新得分与预设统一阈值进行图像分类(即将不同场景下的图像分类得分对齐或拉齐至统一阈值进行判断)，在采用同一个阈值的情况下实现了不同场景采用不同图像分类阈值的效果，使得针对不同场景下的图像分类均能获得可靠的图像分类结果。

基于上面的描述，根据本发明实施例的基于场景的图像分类方法对输入图像所属的场景进行分类，并根据场景分类结果对输入图像的图像分类预测值进行映射变换，使得不同场景的图像可采用统一阈值进行图像分类，且得到较好的图像分类结果。

以上示例性地描述了根据本发明实施例的基于场景的图像分类方法。示例性地，根据本发明实施例的基于场景的图像分类方法可以在具有存储器和处理器的设备、装置或者系统中实现。

此外，根据本发明实施例的基于场景的图像分类方法可以方便地部署到智能手机、平板电脑、个人计算机等移动设备上。替代地，根据本发明实施例的基于场景的图像分类方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的基于场景的图像分类方法还可以分布地部署在服务器端(或云端)和个人终端处。

下面结合图3描述本发明另一方面提供的基于场景的图像分类装置。图3示出了根据本发明实施例的基于场景的图像分类装置300的示意性框图。

如图3所示，根据本发明实施例的基于场景的图像分类装置300包括预测模块310、映射模块320和比较模块330。其中，预测模块310用于接收输入图像，并基于训练好的神经网络对所述输入图像进行图像分类预测和场景分类预测，以得到图像分类得分和场景分类得分。映射模块320用于基于所述场景分类得分确定所述输入图像的场景类别，并基于与所述场景类别相对应的映射函数对所述图像分类得分进行映射，以得到所述场景类别下所述输入图像的图像分类新得分。比较模块330用于将所述图像分类新得分与预设统一阈值进行比较，以得到所述输入图像的图像分类结果。所述各个模块可分别执行上文中结合图2描述的基于场景的图像分类方法的各个步骤/功能。以下仅对基于场景的图像分类装置300的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

在本发明的实施例中，预测模块310接收的输入图像可以为待进行图像分类的图像，该输入图像可以包括视频和/或图片。示例性地，该输入图像可以是实时采集的，也可以是来自任何其他源的。预测模块310对该输入图像的图像分类例如为确定输入图像中的目标对象是否为猫、确定输入图像中的人脸是否与给定人脸是同一个人、或者其他图像分类。

在本发明的实施例中，预测模块310基于训练好的神经网络来对输入图像进行图像分类预测(例如如前所述的确定输入图像中的目标对象是否为猫、或者确定输入图像中的人脸是否与给定人脸是同一个人等)，以得到图像分类得分。示例性地，图像分类得分可以为0到1之间的数值，或者0到100之间的数值，或者其他任何合适范围的数值。

此外，在本发明的实施例中，预测模块310还基于训练好的神经网络对输入图像进行场景分类预测，以得到场景分类得分。其中，预测模块310对输入图像的场景分类预测可以包括：对输入图像的多源数据进行分类预测，该多源数据可以是与输入图像相关联的任意数据。在一个示例中，该多源数据可以包括所述输入图像中的人种的类型。在该示例中，预测模块310对输入图像的场景分类预测可以包括：对输入图像中的人种的类别进行分类预测(例如是否为黄种人、白种人或黑种人)。在另一个示例中，该多源数据可以包括所述输入图像的光照情况。在该示例中，预测模块310对输入图像的场景分类预测可以包括：对输入图像的光照情况进行分类预测(例如光照情况是好还是差)。在其他示例中，该多源数据还可以包括所述输入图像中的地点。为了描述简单，在本文的后续描述中，以输入图像的不同光照情况(例如好光照情况和差光照情况)作为输入图像的不同场景。总之，对输入图像的场景进行分类预测，使得能够基于输入图像的场景调整对输入图像中的内容的分类预测，以避免因场景不同而导致的图像分类性能差异。示例性地，场景分类得分可以为0到1之间的数值。示例性地，场景分类预测可以是二分类预测。

在本发明的实施例中，基于预测模块310得到的场景分类得分，映射模块320可以将其与场景分类阈值进行比较来确定输入图像的场景类别。例如，如前面的示例所述的，假定对输入图像的场景分类预测包括对输入图像的光照情况进行分类预测，基于预测模块310对输入图像进行场景分类预测得到的场景分类得分，映射模块320可以将其与预设场景分类阈值进行比较：当场景分类得分大于或等于预设场景分类阈值时，确定输入图像的场景类别为好光照情况(例如白天)；当场景分类得分小于预设场景分类阈值时，确定输入图像的场景类别为差光照情况(例如晚上)。

基于所确定的输入图像的场景类别，映射模块320可以采用与该场景类别相对应的映射函数对预测模块310得到的输入图像的图像分类得分进行映射，以得到该场景类别下所述输入图像的图像分类新得分。其中，在本发明的实施例中，一个场景类别可以对应于一种映射函数，基于该映射函数，使得不同的场景可以采用不同的图像分类阈值来进行图像分类，但为了使用户端操作简便，可以采用一个预设统一阈值(该预设统一阈值可以是自定义的常数)来进行图像分类，并基于不同场景下的不同图像分类阈值以及该预设统一阈值来确定不同场景下用于将图像分类得分映射为图像分类新得分的映射函数，并基于该映射函数对原始图像分类得分进行映射变换(可称为拉伸)以得到图像分类新得分，该图像分类新得分是在考虑了场景因素的情况下的图像分类预测，因此在任何场景下，均可基于该图像分类新得分与预设统一阈值进行图像分类(即将不同场景下的图像分类得分对齐或拉齐至统一阈值进行判断)，在采用同一个阈值的情况下实现了不同场景采用不同图像分类阈值的效果，使得针对不同场景下的图像分类均能获得可靠的图像分类结果。

在本发明的实施例中，不同的场景类别对应于不同的图像分类阈值，可以基于与任一场景类别相对应的图像分类阈值以及所述预设统一阈值来确定与所述任一场景类别相对应的映射函数，从而得到所述任一场景类别下的图像分类得分拉伸至图像分类新得分的拉伸公式。在一个示例中，假定s’表示图像分类新得分，s表示图像分类得分，t表示一个场景下的图像分类阈值，t’表示预设统一阈值，则与该场景相对应的映射函数例如可以为：s’＝s–t+t’。在该示例中，不同场景下的图像分类阈值t不同，即不同场景下将图像分类得分映射为图像分类新得分的映射函数不同。例如，好光照情况下的图像分类阈值预设为t1，差光照情况下的图像分类阈值预设为t2，则好光照情况下将图像分类得分映射为图像分类新得分的映射函数为s’＝s–t1+t’，差光照情况下将图像分类得分映射为图像分类新得分的映射函数为s’＝s–t2+t’。在另一示例中，假定s’表示图像分类新得分，s表示图像分类得分，t表示一个场景下的图像分类阈值，t’表示预设统一阈值，则与该场景相对应的映射函数例如可以为：s’＝(2*t’)/(1+exp(s-t))。在其他示例中，与场景类别相对应的映射函数还可以为任何其他合适的函数，只要满足下述条件即可：映射函数的输入是预测模块310得到的输入图像的图像分类得分，输出是输入图像的图像分类新得分，约束条件是从一个场景下的图像分类阈值变换为不同场景下的预设统一阈值。

基于该映射函数，映射模块320可以对预测模块310得到的图像分类得分进行映射，以得到任一场景类别下输入图像的图像分类新得分。

此外，根据本发明的实施例，不同的场景类别所对应的图像分类阈值可以通过如下方式来确定：采用所述训练好的神经网络对任一场景类别下的多个样本进行图像分类预测，得到所述多个样本各自的图像分类得分；以及基于所述多个样本各自的图像分类得分以及预设假正率(FPR)来确定与所述任一场景类别相对应的图像分类阈值，其中所述假正率是指被错误分到正样本类别中真实的负样本所占所有负样本总数的比例。可以参照前文结合表1的描述来理解不同场景类别下的图像分类阈值的确定方法，为了简洁，此处不再赘述。

基于映射模块320得到的图像分类新得分，比较模块330可以将该图像分类新得分(例如前述的s’)与预设统一阈值(例如前述的t’)进行比较，即可得到最终对输入图像的图像分类结果。如前所述，由于该图像分类新得分是在考虑了场景因素的情况下的图像分类预测，因此在任何场景下，均可基于该图像分类新得分与预设统一阈值进行图像分类(即将不同场景下的图像分类得分对齐或拉齐至统一阈值进行判断)，在采用同一个阈值的情况下实现了不同场景采用不同图像分类阈值的效果，使得针对不同场景下的图像分类均能获得可靠的图像分类结果。

基于上面的描述，根据本发明实施例的基于场景的图像分类装置对输入图像所属的场景进行分类，并根据场景分类结果对输入图像的图像分类预测值进行映射变换，使得不同场景的图像可采用统一阈值进行图像分类，且得到较好的图像分类结果。

图4示出了根据本发明实施例的基于场景的图像分类系统400的示意性框图。基于场景的图像分类系统400包括存储装置410以及处理器420。

其中，存储装置410存储用于实现根据本发明实施例的基于场景的图像分类方法中的相应步骤的程序。处理器420用于运行存储装置410中存储的程序，以执行根据本发明实施例的基于场景的图像分类方法的相应步骤，并且用于实现根据本发明实施例的基于场景的图像分类装置中的相应模块。此外，基于场景的图像分类系统400还可以包括图像采集装置(未在图4中示出)，其可以用于采集所述输入图像。当然，图像采集装置不是必需的，基于场景的图像分类系统400也可以从其他外部图像采集装置采集所述输入图像。

在本发明的一个实施例中，在所述程序被处理器420运行时使得基于场景的图像分类系统400执行以下步骤：接收输入图像，并基于训练好的神经网络对所述输入图像进行图像分类预测和场景分类预测，以得到图像分类得分和场景分类得分；基于所述场景分类得分确定所述输入图像的场景类别，并基于与所述场景类别相对应的映射函数对所述图像分类得分进行映射，以得到所述场景类别下所述输入图像的图像分类新得分；以及将所述图像分类新得分与预设统一阈值进行比较，以得到所述输入图像的图像分类结果。

在本发明的一个实施例中，在所述程序被处理器420运行时使得基于场景的图像分类系统400执行的所述场景分类预测包括：对所述输入图像或所述训练图像的多源数据进行分类预测。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的基于场景的图像分类方法的相应步骤，并且用于实现根据本发明实施例的基于场景的图像分类装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的基于场景的图像分类装置的各个功能模块，并且/或者可以执行根据本发明实施例的基于场景的图像分类方法。

在本发明的一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：接收输入图像，并基于训练好的神经网络对所述输入图像进行图像分类预测和场景分类预测，以得到图像分类得分和场景分类得分；基于所述场景分类得分确定所述输入图像的场景类别，并基于与所述场景类别相对应的映射函数对所述图像分类得分进行映射，以得到所述场景类别下所述输入图像的图像分类新得分；以及将所述图像分类新得分与预设统一阈值进行比较，以得到所述输入图像的图像分类结果。

在本发明的一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述场景分类预测包括：对所述输入图像或所述训练图像的多源数据进行分类预测。

根据本发明实施例的基于场景的图像分类装置中的各模块可以通过根据本发明实施例的基于场景的图像分类电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

此外，根据本发明实施例，还提供了一种计算机程序，该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行本发明实施例的基于场景的图像分类方法的相应步骤，并且用于实现根据本发明实施例的基于场景的图像分类装置中的相应模块。

基于上面的描述，根据本发明实施例的基于场景的图像分类方法、装置和系统对输入图像所属的场景进行分类，并根据场景分类结果对输入图像的图像分类预测值进行映射变换，使得不同场景的图像可采用统一阈值进行图像分类，且得到较好的图像分类结果。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于场景的图像分类方法，其特征在于，所述方法包括：

接收输入图像，并基于训练好的神经网络对所述输入图像进行图像分类预测和场景分类预测，以得到图像分类得分和场景分类得分；

基于所述场景分类得分确定所述输入图像的场景类别，并基于与所述场景类别相对应的映射函数对所述图像分类得分进行映射，以得到所述场景类别下所述输入图像的图像分类新得分；以及

将所述图像分类新得分与预设统一阈值进行比较，以得到所述输入图像的图像分类结果；

其中，不同的场景类别对应于不同的图像分类阈值，与任一场景类别相对应的所述映射函数是基于与所述任一场景类别相对应的图像分类阈值以及所述预设统一阈值而确定的。

2.根据权利要求1所述的方法，其特征在于，与任一场景类别相对应的图像分类阈值通过如下方式来确定：

采用所述训练好的神经网络对所述任一场景类别下的多个样本进行图像分类预测，得到所述多个样本各自的图像分类得分；以及

基于所述多个样本各自的图像分类得分以及预设假正率来确定与所述任一场景类别相对应的图像分类阈值，其中所述假正率是指被错误分到正样本类别中真实的负样本所占所有负样本总数的比例。

3.根据权利要求1或2所述的方法，其特征在于，所述场景分类预测包括：对所述输入图像或训练图像的多源数据进行分类预测。

4.根据权利要求3所述的方法，其特征于，所述多源数据包括所述输入图像或所述训练图像中的人种的类别。

5.根据权利要求3所述的方法，其特征于，所述多源数据包括所述输入图像或所述训练图像的光照情况。

6.根据权利要求1或2所述的方法，其特征在于，所述预设统一阈值是自定义常数。

7.根据权利要求1所述的方法，其特征在于，所述神经网络包括主干网络、图像分类子网络和场景分类子网络，所述图像分类子网络和所述场景分类子网络共享所述主干网络的参数，或者不共享所述主干网络的参数。

8.一种基于场景的图像分类装置，其特征在于，所述装置包括：

预测模块，用于接收输入图像，并基于训练好的神经网络对所述输入图像进行图像分类预测和场景分类预测，以得到图像分类得分和场景分类得分；

映射模块，用于基于所述场景分类得分确定所述输入图像的场景类别，并基于与所述场景类别相对应的映射函数对所述图像分类得分进行映射，以得到所述场景类别下所述输入图像的图像分类新得分；以及

比较模块，用于将所述图像分类新得分与预设统一阈值进行比较，以得到所述输入图像的图像分类结果；

9.一种基于场景的图像分类系统，其特征在于，所述系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1-7中的任一项所述的基于场景的图像分类方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行如权利要求1-7中的任一项所述的基于场景的图像分类方法。