CN109784159A

CN109784159A - 场景图像的处理方法、装置及系统

Info

Publication number: CN109784159A
Application number: CN201811513751.8A
Authority: CN
Inventors: 李甲; 张睿智; 付奎; 赵沁平
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-05-21

Abstract

本发明提供一种场景图像的处理方法、装置及系统，该方法包括：获取待检测的场景图像；将所述待检测的场景图像作为目标学生网络模型的输入；其中，所述目标学生网络模型是指：根据场景图像中的场景特征和物体特征，对场景图像进行分类的网络；通过所述目标学生网络模型输出对应的场景分类结果。本发明可以减弱/消除场景图像中无关信息的影响，提高场景图像处理的精准度，还可以使目标学生网络模型获取不同领域场景图像的特征，具有更强的泛化能力。

Description

场景图像的处理方法、装置及系统

技术领域

本发明涉及计算机视觉图像的技术领域，尤其涉及一种场景图像的处理方法、装置及系统。

背景技术

随着科技的飞速发展，深度学习在解决诸如图像识别、语音识别和自然语言处理等问题方面取得了出色的成就，在各类神经网络中卷积神经网络的研究最为深入，基于卷积神经网络的分类模型也已取得了非常出色的成果。

目前，卷积神经网络能够获取原始图像的有效特征，直接从原始像素中经过极少的预处理，识别得到视觉上面的有效规律。

然而，由于场景图像的类别在一定程度上不由全局特征决定，而是由关键区域或者主要物体特征决定，因此单纯利用经典卷积神经网络对场景图像进行分类、提取特征易受场景图像中无关信息的影响，造成场景图像分类的准确度不高。

发明内容

本发明提供一种场景图像的处理方法、装置及系统，以减弱/消除场景图像中无关信息的影响，提高场景图像处理的精准度，还可以使目标学生网络模型获取不同领域场景图像的特征，具有更强的泛化能力。

第一方面，本发明实施例提供的一种场景图像的处理方法，包括：

获取待检测的场景图像；

将所述待检测的场景图像作为目标学生网络模型的输入；其中，所述目标学生网络模型是指：根据场景图像中的场景特征和物体特征，对场景图像进行分类的网络；

通过所述目标学生网络模型输出对应的场景分类结果。

在一种可能的设计中，在将所述待检测的场景图像作为目标学生网络模型的输入之前，还包括：

构建初始学生网络；其中，所述初始学生网络中包括：场景分类支路、物体检测支路、特征融合模块、分类模块；所述场景分类支路用于提取场景图像的场景特征；所述物体检测支路用于提取场景图像的物体特征；所述特征融合模块用于融合所述场景特征和物体特征，得到对应的融合特征；所述分类模块用于根据所述融合特征对所述场景图像进行分类；

构建训练数据集，通过所述训练数据集训练所述初始学生网络，得到目标学生网络模型。

在一种可能的设计中，所述构建训练数据集，包括：

将场景图像分别输入多个场景教师模型，将场景教师模型作为特征提取器得到所述场景图像的场景特征；其中，所述场景教师模型是指：对场景图像进行场景特征提取，并将提取出场景特征进行选择融合，得到所述场景图像的融合特征，所述场景图像的融合特征作为场景图像的场景特征标签；

将场景图像输入物体教师模型，将物体教师模型作为特征提取器得到所述场景图像的物体特征；其中，所述物体教师模型是指：对场景图像进行物体特征提取，所述场景图像的物体特征作为场景图像的物体特征标签；

标注有场景类别标签、场景特征标签以及物体特征标签的场景图像的集合构成所述初始学生网络的训练数据集。

在一种可能设计中，通过所述训练数据集训练所述初始学生网络，得到目标学生网络模型，包括：构建所述初始学生网络的损失函数；

以所述场景教师模型得到的场景特征标签为目标结果，迭代训练所述初始学生网络的场景分类支路；

以所述物体教师模型得到的物体特征标签为目标结果，迭代训练所述初始学生网络的物体检测支路；

以所述场景类别标签为目标结果，迭代训练所述初始学生网络的分类模块，以使得场景分类支路、物体检测支路、分类模块的总损失函数的损失值收敛或小于预设阈值。

第二方面，本发明实施例提供的一种场景图像的处理装置，包括：

获取模块，用于获取待检测的场景图像；

输入模块，用于将所述待检测的场景图像作为目标学生网络模型的输入；其中，所述目标学生网络模型是指：根据场景图像中的场景特征和物体特征，对场景图像进行分类的网络；

输出模块，用于通过所述目标学生网络模型输出对应的场景分类结果。

在一种可能的设计中，还包括：

构建模块，用于构建初始学生网络；其中，所述初始学生网络中包括：场景分类支路、物体检测支路、特征融合模块、分类模块；所述场景分类支路用于提取场景图像的场景特征；所述物体检测支路用于提取场景图像的物体特征；所述特征融合模块用于融合所述场景特征和物体特征，得到对应的融合特征；所述分类模块用于根据所述融合特征对所述场景图像进行分类；

获得模块，用于构建训练数据集，通过所述训练数据集训练所述初始学生网络，得到目标学生网络模型。

在一种可能的设计中，所述构建训练数据集，包括：

在一种可能的设计中，通过所述训练数据集训练所述初始学生网络，得到目标学生网络模型，包括：

构建所述初始学生网络的损失函数；

第三方面，本发明实施例提供的一种场景图像的处理系统，包括：存储器和处理器，存储器中存储有所述处理器的可执行指令；其中所述处理器配置为经由执行所述可执行指令来执行第一方面任一项所述的场景图像的处理方法。

第四方面，本发明实施例提供的一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面任一项所述的场景图像的处理方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1(a)为本发明一应用场景示意图一；

图1(b)为本发明一应用场景示意图二；

图2为本发明实施例一提供的场景图像的处理方法的流程图；

图3为本发明实施例二提供的场景图像的处理方法的流程图；

图4为本发明实施例二提供的场景图像的处理方法中初始学生网络的结构示意图；

图5为本发明实施例二提供的场景图像的处理方法中得到目标学生网络模型的训练示意图；

图6为本发明实施例三提供的场景图像的处理装置的结构示意图；

图7为本发明实施例四提供的场景图像的处理装置的结构示意图；

图8为本发明实施例五提供的场景图像的处理系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图1(a)为本发明一应用场景的示意图一，图1(b)为本发明一应用场景的示意图二。参见图1(a)、图1(b)，场景图像的处理系统11获取待检测的场景图像，并将待检测的场景图像作为该处理系统11中目标学生网络模型的输入，经过处理在该处理系统11中输出场景图像对应的场景分类结果，例如分类为xxx。本发明可以减弱/消除场景图像中无关信息的影响，提高场景图像处理的精准度，还可以使目标学生网络模型获取不同领域场景图像的特征，具有更强的泛化能力。

图2为本发明实施例一提供的场景图像的处理方法的流程图，如图2所示，本实施例中的方法可以包括：

S101、获取待检测的场景图像。

具体的，场景图像的处理系统获取待检测的场景图像，例如教师教学的场景图像(参考图1(a)、图1(b))，在一种可选的实施例中，场景图像可以利用摄像装置实时拍摄获取，或者从教学视频中截取某帧图像作为场景图像，还可以从网络下载获得场景图像，例如从imageNet数据集上获取待检测的场景图像。

本实施例中，场景图像的处理系统获取待检测的场景图像，在一种可选的实施例中，主要是教师教学的场景图像，例如教师正在教授美术艺术的场景图像，又例如教师正在板书高数公式的场景图像。

S102、将待检测的场景图像作为目标学生网络模型的输入；其中，目标学生网络模型是指：根据场景图像中的场景特征和物体特征，对场景图像进行分类的网络。

具体的，将待检测的场景图像作为目标学生网络模型的输入，其中，目标学生网络模型是指：根据场景图像中的场景特征和物体特征，对场景图像进行分类的网络。在一种可选的实施例中，场景特征是将场景图像输入至少一个相关的模型得到该场景图像对应的场景特征。物体特征是将场景图像输入相关模型得到该场景图像对应的物体特征。其中相关模型可以包括：VGGNet、ResNet、SENet、YOLO、SSD等等。

本实施例中，例如将待检测的场景图像输入目标学生网络模型中，该目标学生网络模型可以包括5组卷积，每一组内有2～3个卷积层，且每组内的卷积都是用3x3的卷积核，每组卷积后进行一个2x2最大池化，进而是3个全连接层。

根据该场景图像中的场景特征和物体特征，例如场景图像的处理系统采用场景图像中的第一场景特征、第二场景特征，以及场景图像中的物体特征，对该场景图像进行分类。在一种可选的实施例中，场景图像的处理系统可以使用相关模型输出前一层的一维向量作为场景特征，例如：对ResNet152模型选取pool5层(即池化层的最后一层)的输出作为场景特征，其输出维度为(1,1,1,2048)。还可以使用相关模型输出前一层的feature maps(特征图)的输出作为物体特征。

S103、通过目标学生网络模型输出对应的场景分类结果。

具体的，场景图像通过目标学生网络模型输出对应的场景分类结果。在一种可选的实施例中，场景分类结果可以包括各个领域、学科等对应场景的分类，例如音乐、语文、艺术等等。

本实施例中，例如参考图1(a)、图1(b)，将场景图像输入该目标学生网络模型，根据该场景图像的场景特征和物体特征，对该场景图像进行分类，例如输出该场景图像对应的场景分类结果：美术。

图3为本发明实施例二提供的场景图像的处理方法的流程图，如图3所示，本实施例中的方法可以包括：

S201、构建初始学生网络；其中，初始学生网络中包括：场景分类支路、物体检测支路、特征融合模块、分类模块；场景分类支路用于提取场景图像的场景特征；物体检测支路用于提取场景图像的物体特征；特征融合模块用于融合场景特征和物体特征，得到对应的融合特征；分类模块用于根据融合特征对场景图像进行分类。

具体的，图4为本发明实施例二提供的场景图像的处理方法中初始学生网络的结构示意图。如图4所示，初始学生网络包括场景分类支路21、物体检测支路22、特征融合模块23、分类模块24；在一种可选的实施例中，场景分类支路21用于提取场景图像的场景特征；物体检测支路22用于提取场景图像的物体特征；特征融合模块用于融合场景特征和物体特征，得到对应的融合特征；分类模块24用于根据融合特征对场景图像进行分类。

S202、构建训练数据集，通过训练数据集训练初始学生网络，得到目标学生网络模型。

具体的，场景图像的处理系统构建训练数据集，在一种可选的实施例中，构建训练数据集包括将场景图像分别输入多个场景教师模型，将场景教师模型作为特征提取器得到场景图像的场景特征；其中，场景教师模型是指：对场景图像进行场景特征提取，并将提取出场景特征进行选择融合，得到场景图像的融合特征，场景图像的融合特征作为场景图像的场景特征标签；

将场景图像输入物体教师模型，将物体教师模型作为特征提取器得到场景图像的物体特征；其中，物体教师模型是指：对场景图像进行物体特征提取，场景图像的物体特征作为场景图像的物体特征标签；

标注有场景类别标签、场景特征标签以及物体特征标签的场景图像的集合构成初始学生网络的训练数据集。

本实施例中，在一种可选的实施例中，场景教师模型可以包括场景分类数据集上训练好的VGGNet、ResNet、SENet等等。场景图像的处理系统选取多个性能好，结构差异大的场景教师模型M_S1，...，M_Sn，将场景图像输入上述多个场景教师模型，将场景教师模型作为特征提取器得到该场景图像的场景特征，即将场景教师模型输出前一层的一维向量作为场景特征，构建场景特征池F_s11，...，F_s1m，...，F_s1m，进而使用特征融合方法f对场景特征进行选择融合，得到该场景图像的融合特征空间E，并将同一场景图像的多个场景特征进行选择融合得到的融合特征作为场景图像的场景特征标签，如下面公式所示，E(f，F_Sli，...，F_Sni)＝F_i(i＝1，...，m)，其中，F_s1i，...，F_sni分别代表场景教师模型1到场景教师模型n输入第i张场景图像得到的场景特征，F_i为融合后第i张场景图像的融合场景特征。

在一种可选的实施例中，由于场景教师模型性能越好，对目标学生网络模型的指导会越好，且结构差异大的场景教师模型往往可以提取具有更多不同内容的场景特征，为目标学生网络模型提供尽可能多且较好的场景图像的融合场景特征。例如场景教师模型采用含有5组卷积，每组卷积都使用3x 3的卷积核，每组卷积后进行一个2x 2最大池化，最后使用三个全连接层。又例如采用两个3x 3的卷积层叠加，可以获得等价于一个5x 5的卷积核的效果，再例如采用3个3x 3的卷积核的叠加可获得相当于一个7x 7的卷积核的效果，而且具有较佳的处理效果。

在一种可选的实施例中，物体教师模型可以包括物体检测数据集上训练好的YOLO、SSD等等。场景图像的处理系统选取经典物体教师模型M_d，将该物体教师模型作为特征提取器得到场景图像的物体特征；即将物体教师模型输出前一层的feature maps作为场景图像的物体特征，得到提取的物体特征F_d1，...，F_dm，并将场景图像的物体特征作为场景图像的物体特征标签。在一种可选的实施例中，从场景图像映射到feature map的计算方法如下：输入(input)的场景图像为32x 32，特征提取器的大小(kernelSize)即卷积核为5x5，步长(stride)为1，补零(pading)为0，卷积后得到的feature map边长的计算公式如下：

output_h＝(originalSize_h+padding x 2-kernelSize_h)/stride+1

所以，卷积层的feature map的变长为：convl_h＝(32-5)/1+1＝28

卷积层的feature maps尺寸为28x28。由于物体教师模型的输出差异较大，不容易将不同模型的物体特征融合，所以物体教师模型可以选择单一模型。

本实施例中，场景图像的处理系统将标注有场景类别标签(例如，高数、计算机)，场景特征标签以及物体特征标签的场景图像的集合构成初始学生网络的训练数据集。

在一种可选的实施例中，通过训练数据集训练初始学生网络，得到目标学生网络模型，包括：

构建初始学生网络的损失函数；

以场景教师模型得到的场景特征标签为目标结果，迭代训练初始学生网络的场景分类支路；

以物体教师模型得到的物体特征标签为目标结果，迭代训练初始学生网络的物体检测支路；

以场景类别标签为目标结果，迭代训练初始学生网络的分类模块，以使得场景分类支路、物体检测支路、分类模块的总损失函数的损失值收敛或小于预设阈值。

在一种可选的实施例中，损失函数如下：

L(Y,f(X))＝αL(Y_O,o(X))+βL(Y_S,s(X))+L(Y_C,c(X))

其中：Y_O、Y_S和Y_C分别代表由物体教师模型得到的物体特征标签、由场景教师模型得到的场景特征标签和场景图像的类别标签；o(X)和s(X)分别表示场景图像输入学生网络后提取到的物体特征和场景特征；c(X)表示场景图像输入学生网络后输出的场景类别，L(Y_O,o(X))为物体损失函数，代表场景图像输入学生网络提取到的物体特征与由物体教师模型得到的物体特征标签之间的损失值；L(Y_S,s(X))为场景损失函数，场景图像输入学生网络提取到的场景特征与由场景教师模型得到的场景特征标签之间的损失值；L(Y_C,c(X))为类别损失函数，代表场景图像输入学生网络得到的场景类别与场景图像类别标签之间的损失值；α表示物体损失函数的损失值占总损失值的比例；β表示场景损失函数的损失值占总损失值的比例；L(Y,f(X))为总损失值。

图5为本发明实施例二提供的场景图像的处理方法中得到目标学生网络模型的训练示意图。如图5所示，场景图像的处理系统在ImageNet数据集或者其他数据集上训练初始学生网络，构建初始学生网络的损失函数L(Y,f(X))＝αL(Y_O,o(X))+βL(Y_S,s(X))+L(Y_C,c(X))，使用常用的梯度下降方法或者Adam方法训练初始学生网络，同时将场景分类支路和物体检测支路分别用预训练模型初始化权重，且在场景分类支路和物体检测支路的Loss层(例如使用L2Loss)前，添加如卷积层(Convolution Layer)、批归一化层(BatchNormalization Layer)和激活函数(Relu Function)等作为适应层以适应场景、物体教师模型提出特征的值范围，达到更好的监督训练效果。在输入场景图像后，场景分类支路学习场景教师模型的场景特征，以场景教师模型得到的场景特征标签为目标结果，迭代训练初始学生网络的场景分类支路；另物体检测支路学习物体教师模型的物体特征，以物体教师模型得到的物体特征标签为目标结果，迭代训练初始学生网络的物体检测支路；最后通过卷积将场景特征、物体特征等不同特征进行融合，融合后的特征经由多个conv层、fc层和softmax层进行类别判断，由场景图像类别标签为目标结果进行监督训练，迭代训练初始学生网络的分类模块，以使得场景分类支路、物体检测支路、分类模块的总损失函数的损失值收敛或小于预设阈值，同时学习输出场景图像最终类别。其中预设阈值例如为2.9。

在一种可选的实施例中，场景图像的处理系统通过训练数据集训练初始学生网络，得到目标学生网络模型时，可以先训练低级别的初始学生网络，再训练高级别的初始学生网络，用前者获得的权重初始化高级别的学生网络，可以加速目标学生网络模型的收敛，可以更好的使目标学生网络模型输出场景分类结果。在一种可选的实施例中，场景图像的处理系统采用池化层可以降低卷积层输出的特征向量，同时改善处理结果。其中池化层可以包括平均池化和最大化池化。场景图像的处理系统还可以通过采用卷积层与池化层，以获得更多的场景特征和物体特征。

在一种可选的实施例中，场景图像的处理系统采用全连接层将卷积层和池化层堆叠起来后，能够形成一层或多层全连接层，这样就能够实现高阶的推理训练能力，还可以采用非线性激活函数Relu增强网络的特征表达能力。

在一种可选的实施例中，场景图像的处理系统使用Adam(adaptive momentestimation，适应性矩估计)方法优化训练初始学生网络，可以实现高效、梯度对角缩放不变性的非稳态初始学生网络的计算，还可以解决大规模数据和参数的优化问题，只需极少量的调参即可实现包含高噪声或者稀疏梯度的优化问题。

S203、获取待检测的场景图像。

S204、将待检测的场景图像作为目标学生网络模型的输入；其中，目标学生网络模型是指：根据场景图像中的场景特征和物体特征，对场景图像进行分类的网络。

S205、通过目标学生网络模型输出对应的场景分类结果。

本实施例中，步骤S203～步骤S205的具体实现过程和技术原理请参见图2所示的方法中步骤S101～步骤S103中的相关描述，此处不再赘述。

图6为本发明实施例三提供的场景图像的处理装置的结构示意图，如图6所示，本实施例中的装置可以包括：

获取模块33，用于获取待检测的场景图像；

输入模块34，用于将待检测的场景图像作为目标学生网络模型的输入；其中，目标学生网络模型是指：根据场景图像中的场景特征和物体特征，对场景图像进行分类的网络；

输出模块35，用于通过目标学生网络模型输出对应的场景分类结果。

图7为本发明实施例四提供的场景图像的处理装置的结构示意图，如图7所示，本实施例的场景图像的处理装置在图6所示的装置的基础上还可以包括：

构建模块31，用于构建初始学生网络；其中，初始学生网络中包括：场景分类支路、物体检测支路、特征融合模块、分类模块；场景分类支路用于提取场景图像的场景特征；物体检测支路用于提取场景图像的物体特征；特征融合模块用于融合场景特征和物体特征，得到对应的融合特征；分类模块用于根据融合特征对场景图像进行分类；

获得模块32，用于构建训练数据集，通过训练数据集训练初始学生网络，得到目标学生网络模型。

在一种可选的实施例中，构建训练数集，包括：

将场景图像分别输入多个场景教师模型，将场景教师模型作为特征提取器得到场景图像的场景特征；其中，场景教师模型是指：对场景图像进行场景特征提取，并将提取出场景特征进行选择融合，得到场景图像的融合特征，场景图像的融合特征作为场景图像的场景特征标签；

构建初始学生网络的损失函数；

在一种可选的实施例中，损失函数如下：

L(Y,f(X))＝αL(Y_O,o(X))+βL(Y_S,s(X))+L(Y_C,c(X))

本实施例的场景图像的处理装置，可以执行图2、图3所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3所示方法中的相关描述，此处不再赘述。

图8为本发明实施例五提供的场景图像的处理系统的结构示意图，如图8所示，本实施例的场景图像的处理系统40可以包括：处理器41和存储器42。

存储器42，用于存储计算机程序(如实现上述场景图像的处理方法的应用程序、功能模块等)、计算机指令等；

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指令、数据等可以被处理器41调用。

处理器41，用于执行存储器42存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器41和存储器42可以是独立结构，也可以是集成在一起的集成结构。当处理器41和存储器42是独立结构时，存储器42、处理器41可以通过总线43耦合连接。

本实施例的服务器可以执行图2、图3所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3所示方法中的相关描述，此处不再赘述。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当用户设备的至少一个处理器执行该计算机执行指令时，用户设备执行上述各种可能的方法。

其中，计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种场景图像的处理方法，其特征在于，包括：

获取待检测的场景图像；

通过所述目标学生网络模型输出对应的场景分类结果。

2.根据权利要求1所述的方法，其特征在于，在将所述待检测的场景图像作为目标学生网络模型的输入之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述构建训练数据集，包括：

4.根据权利要求3所述的方法，其特征在于，通过所述训练数据集训练所述初始学生网络，得到目标学生网络模型，包括：

构建所述初始学生网络的损失函数；

5.一种场景图像的处理装置，其特征在于，包括：

获取模块，用于获取待检测的场景图像；

6.根据权利要求5所述的装置，其特征在于，还包括：

7.根据权利要求6所述的装置，其特征在于，所述构建训练数据集，包括：

8.根据权利要求7所述的装置，其特征在于，通过所述训练数据集训练所述初始学生网络，得到目标学生网络模型，包括：

构建所述初始学生网络的损失函数；

9.一种场景图像的处理系统，其特征在于，包括：存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-4任一项所述的场景图像的处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4任一项所述的场景图像的处理方法。