CN111738036B

CN111738036B - 图像处理方法、装置、设备及存储介质

Info

Publication number: CN111738036B
Application number: CN201910227697.9A
Authority: CN
Inventors: 王鹏; 俞鸿魁
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2023-09-29
Anticipated expiration: 2039-03-25
Also published as: CN111738036A

Abstract

本发明提供一种图像处理方法、装置、设备及存储介质，该方法，包括：获取初始图像；对所述初始图像进行卷积处理，得到不同尺寸的特征图像；若所述初始图像中至少存在一个小于预设的第一阈值的目标物，则采用不同尺寸的特征图像进行融合处理，得到对应的融合图像；通过目标神经网络对所述融合图像中的目标物进行定位和分类，得到目标物的类别和坐标信息。从而可以根据目标物的大小，分别选取不同尺寸的特征图像进行融合，增强了低层图像的语义信息，通过不同尺寸的融合图像，实现在最佳感受野下对目标物的定位和分类，极大地提高了对目标物的定位和分类精度。

Description

图像处理方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像处理方法、装置、设备及存储介质。

背景技术

随着自动驾驶技术不断发展。计算机视觉在自动驾驶技术中占有重要的地位，而交通灯的检测与识别是视觉识别中的重要一环。

目前，交通灯的检测方法可以分为2阶段和1阶段两种。2阶段因其对图片的两阶段处理而得名，也称为基于区域的方法，首先生成图片的特征图，在特征图上进行目标的分类和定位。1阶段没有中间的区域检出过程，直接从图片获取预测的结果。

但是，现有检测方法，往往对交通灯的定位和分类准确度低，检测效果不佳。

发明内容

本发明提供一种图像处理方法、装置、设备及存储介质，可以有效提升交通灯的定位和分类精度，提高交通灯的检出率。

第一方面，本发明实施例提供一种图像方法，包括：

获取初始图像；

对所述初始图像进行卷积处理，得到不同尺寸的特征图像；

若所述初始图像中至少存在一个小于预设的第一阈值的目标物，则采用不同尺寸的特征图像进行融合处理，得到对应的融合图像；

通过目标神经网络对所述融合图像中的目标物进行定位和分类，得到目标物的类别和坐标信息。

第二方面，本发明实施例提供一种图像处理装置，包括：

图像采集器，用于获取初始图像；

图像处理器，用于对所述初始图像进行卷积处理，得到不同尺寸的特征图像；

图像融合器，用于在所述初始图像中至少存在一个小于预设的第一阈值的目标物时，采用不同尺寸的特征图像进行融合处理，得到对应的融合图像；

分类器，用于通过目标神经网络对所述融合图像中的目标物进行定位和分类，得到目标物的类别和坐标信息。第三方面，本发明实施例提供一种图像处理设备，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如第一方面中任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，包括：计算机程序，当其在计算机上运行时，使得计算机执行第一方面中任一所述的方法。

本发明提供的图像处理方法、装置、设备及存储介质，通过获取初始图像；对所述初始图像进行卷积处理，得到不同尺寸的特征图像；若所述初始图像中至少存在一个小于预设的第一阈值的目标物，则采用不同尺寸的特征图像进行融合处理，得到对应的融合图像；通过目标神经网络对所述融合图像中的目标物进行定位和分类，得到目标物的类别和坐标信息。从而可以根据目标物的大小，分别选取不同尺寸的特征图像进行融合，增强了低层图像的语义信息，通过不同尺寸的融合图像，实现在最佳感受野下对目标物的定位和分类，极大地提高了对目标物的定位和分类精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的图像处理方法的原理示意图；

图2为本发明提供的图像融合的原理示意图；

图3为本发明实施例一提供的图像处理方法的流程图；

图4为本发明实施例二提供的图像处理装置的结构示意图；

图5为本发明实施例四提供的图像处理设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

以下，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解：

图1为本发明提供的图像处理方法的原理示意图，图2为本发明提供的图像融合的原理示意图。请参见图1，初始图像11的像素为1024×576，经过第一层卷积处理后，图像缩小为512×278(相当于初始图像的1/2)；经过第二层卷积处理后，图像缩小为256×144(相当于初始图像的1/4)；经过第三层卷积处理后，图像缩小为128×72(相当于初始图像的1/8)；经过第四层卷积处理后，图像缩小为64×32(相当于初始图像的1/16)；经过第五层卷积处理后，图像缩小为32×16(相当于初始图像的1/32)；经过第六层卷积处理后，图像缩小为16×8(相当于初始图像的1/64)。尺寸为128×72的图像和尺寸为64×32图像进行融合处理，得到第一融合图像12。尺寸为64×32的图像和尺寸为32×16图像进行融合处理，得到第二融合图像13。尺寸为32×16的图像和尺寸为16×8图像进行融合处理，得到第三融合图像14。根据初始图像中目标物的大小，可以选择不同尺寸的图像进行融合。尤其在初始图像中包括多个大小不一的目标物时，可以应用上述方法，分别对不同大小的目标物进行图像融合处理；最后利用训练得到的目标神经网络15对目标物进行定位和分类。参见图2，图2中以尺寸为128×72的图像与尺寸为64×32图像进行融合为例进行详细说明。首先，对尺寸为64×32图像进行反卷积处理，转换为尺寸为128×72的中间图像；然后将尺寸为128×72的图像与尺寸为128×72的中间图像通过Concat函数进行连接，得到对应的融合图像。其他尺寸图像的融合原理类似，此处不再赘述。

需要说明的是，目标神经网络有“感受野”，“感受野”即特征图中的每个空间点，都与输入图像中一定范围大小的区域有严格的对应关系。以初始图像为1280x 720举例，经过一次卷积后，特征图为原来的1/2，即卷积后的特征图的每一个点代表原图中的4个像素，经过多次卷积后，特征图越来越小，也即特征图中的每个位置代表原图中的像素越来越多，即感受野越来越大，也就是说，深层次的特征图对应的更大的感受野，可以理解为卷积神经网络从更全局的角度对图像做特征提取，因此产生了更高层次的语义信息。目标物的定位需要框出目标物在图像中的位置，也需要对目标物进行分类。在分类时，需要从全局信息来考虑。当目标物较小时，目标物在图像中所占的像素本来就不大，如果经过多次卷积后，随着感受野越来越大，小目标的位置信息就丢失了。因此，本实施例中直接将不同大小的目标，分别在不同尺寸的特征图进行坐标回归和分类，也即在最适合的感受野下对相应的目标进坐标回归和分类。从而可以将目标位置信息保留的比较好低层特征图和语义信息较丰富的高层特征图进行融合，在融合后的特征图上做坐标回归和分类。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图3为本发明实施例一提供的图像处理方法的流程图，如图3所示，本实施例中的方法可以包括：

S101、获取初始图像。

本实施例中，初始图像中需要包含至少一个目标物。本实施例中不限定初始图像的具体来源，以及初始图像的尺寸。以目标物为交通灯为例，初始图像可以是车载摄像头拍摄到的道路视频或者图像，该道路视频或者图像中包含有至少一个交通灯。

S102、对初始图像进行卷积处理，得到不同尺寸的特征图像。

本实施例中，参加图1，可以对初始图像进行多次卷积处理，得到与初始图像相比缩小1/8A、1/16A、1/32A、1/64A的第一特征图像、第二特征图像、第三特征图像，以及第四特征图像；其中，A为大于0的自然数。

需要说明的是，本实施例不限定A的具体取值，在实际应用中，本领域技术人员可以根据情况调整具体的缩小比例以及缩小的卷积次数。

S103、若初始图像中至少存在一个小于预设的第一阈值的目标物，则采用不同尺寸的特征图像进行融合处理，得到对应的融合图像。

本实施例中，可以根据初始图像中目标物的大小，任意选择融合的图像尺寸，以图1为例，详细说明三种不同情况下图像的融合过程。

第一种情况：初始图像中存在目标物小于预设的第一阈值时，将第二特征图像进行反卷积处理，得到与第一特征图像尺寸相同的第一中间特征图像，将第一中间特征图像与第一特征图像进行融合，得到第一融合图像。

具体地，由于第一特征图像的尺寸大于第二特征图像，第二特征图的尺寸大于第三特征图像，第三特征图像的尺寸大于第四特征图像；因此第一特征图像中能够包含更多的图像信息。当初始图像中的目标物小于预设的第一阈值时，为了能够获取到目标物的特征信息，需要对第二特征图像进行反卷积处理，得到与第一特征图像相同尺寸的图像，然后再和第一特征图像进行融合；从而保留了目标物更多的细节特征。

第二种情况：初始图像中存在目标物大于或等于第一阈值，且小于第二阈值时，将第三特征图像进行反卷积处理，得到与第二特征图像尺寸相同的第二中间特征图像，将第二中间特征图像与第二特征图像进行融合，得到第二融合图像；其中，第二阈值大于第一阈值。

具体地，当初始图像中的目标物大于或等于第一阈值，且小于第二阈值时，采用折中的方式，将第三特征图像进行反卷积处理，得到与第二特征图像尺寸相同的图像，然后与第二特征图像进行融合。因为这种情况下，目标物不是非常小，第二特征图像中就包含了足够表征目标物的特征信息。

第三种情况：初始图像中存在目标物大于或等于第二阈值时，将第四特征图像进行反卷积处理，得到与第三特征图像尺寸相同的第三中间特征图像，将第三中间特征图像与第三特征图像进行融合，得到第三融合图像。

具体地，当初始图像中存在目标物大于或等于第二阈值时，则认为目标物较大，此时，对最小尺寸的第四特征图像进行反卷积处理，得到与第三特征图像相同尺寸的图像，然后与第三特征图像进行融合。因为这种情况下，目标物较大，第三特征图像中就包含了足够表征目标物的特征信息。

需要说明的是，本实施例中第一阈值、第二阈值可以根据实际情况进行调整，第一阈值、第二阈值可以是目标物覆盖的像素面积。

S104、通过目标神经网络对融合图像中的目标物进行定位和分类，得到目标物的类别和坐标信息。

本实施例中，首先确定目标神经网络的候选框数量；其中，候选框的数量与目标物的数量一致。然后将融合图像输入目标神经网络，输出候选框的中心坐标以及候选框的形状信息(包括但不限于：候选框的宽度、高度)；候选框用于标记目标物的位置。

可选地，本实施例中的目标物可以包括：交通灯、交通标识；其中，当目标物为交通灯时，目标物的类别包括：红灯、黄灯、绿灯。

可选地，在执行步骤S104之前，还需要通过已有的图像集对初始神经网络进行预训练，得到经过预训练的中间神经网络；获取摄像头录制的不同道路，在不同时间段的视频；对视频进行抽样，得到候选图像；对候选图像中的目标物进行标注，得到标注有目标物的类别和坐标信息的训练图像；对训练图像构成的图像集进行数据增强处理，得到训练数据集，数据增强处理是指：根据训练图像中目标物的类别，均衡图像集中各个类别的训练图像的数量；通过训练数据集，以及预设的损失函数，对中间神经网络进行训练，得到目标神经网络。

本实施例中，为了保证目标神经网络的鲁棒性，可以首先使用已有的图像集进行预训练，例如可以使用ImageNet数据集训练构建的初始神经网络，使用coco的数据集训练定位和分类。然后再使用预训练后的中间神经网络在自身构建的训练数据集上进行循环优化。例如可以使用Caffe、损失函数、RMSProp算法等更新中间神经网络的参数权重。

在一种可选的实施方式中，可以令预设的损失函数如下：

其中：L(x，c，l，g)为损失函数，x的取值为0或1，表示指示函数，c为目标物的类别，l为目标神经网络的候选框，g为人工标注框，N为与人工标注框相匹配的候选框的个数，a为类别损失函数的比重系数，b为回归损失函数的比重系数，L_cls(x，c)为类别损失函数，L_reg(x，l，g)为回归损失函数。

其中

为类别p对应的第i个候选框与第j个人工标注框的匹配度，若为1，则表示匹配成功，若为0，则表示匹配失败。具体地，若匹配的结果为预测的候选框，则属于正样本集(Pos)；若匹配的结果不是预测的候选框，则属于负样本集(Neg)。/>为第i个类别为p的概率，/>为第i个类别为背景的概率，/>为第i个候选框的所有类别的概率和；i的取值范围为1到N，j的取值范围为1到人工标注框的总数量。

其中：

其中：N为与人工标注框相匹配的候选框的个数(iou＞0.5)，为类别k对应的第i个候选框与第j个人工标注框的匹配度，/>为第i个预测框与第j个标注框的smoth11loss具体公式为

为第i个候选框的坐标(m可代表cx，cy，w，h)，/>为第j个标注框相对于候选框的偏移量(m可代表cx，cy，w，h)，cx为候选框的X轴中心坐标，cy为候选框的Y轴中心坐标，w为候选框的宽度，h为候选框的高度，d为预测的候选框，g为人工标的框；/>为第j个标注框相对于候选框的cx(center x框的中x心坐标)偏移量，/>为第j个标注框cx，/>为第i个预测框的cx，/>为第i个预测框的w，/>为第j个标注框相对于候选框的cy(center y框的中心y坐标)偏移量，/>为第j个标注框的cy，/>为第i个预测框的cy，/>为第i个预测框的h，/>为第j个标注框相对于候选框的w偏移量，/>为第j个标注框的w，/>为第j个标注框相对于候选框的h偏移量，/>为第j个标注框的h。

具体地，以任一一层卷积输出的融合图像为例，假设检测出的目标物的坐标以4个值(cx，cy，w，h)表示，在融合的卷积层上生成预设的候选框，候选框是预先设置的，不做具体的限制(可以根据经验值指定，也可以对数据集的框聚类)。比如输入的融合图像的大小是m×n，预设的候选框为k个，输出的回归特征图的大小为m×n×k×4，4代表需要回归的坐标数量，回归的坐标是相对于预设的候选框偏移值，这样做的目的是为了训练容易收敛，而且回归出的框更稳定。假设一共有c个类别(不包括背景)，输入的特征图的大小为m×n，预选框为k个，类别输出的特征图的大小为m×n×k×(c+1)，此处的1为背景。

本实施例，通过获取初始图像；对初始图像进行卷积处理，得到不同尺寸的特征图像；若初始图像中至少存在一个小于预设的第一阈值的目标物，则采用不同尺寸的特征图像进行融合处理，得到对应的融合图像；通过目标神经网络对融合图像中的目标物进行定位和分类，得到目标物的类别和坐标信息。从而可以根据目标物的大小，分别选取不同尺寸的特征图像进行融合，增强了低层图像的语义信息，通过不同尺寸的融合图像，实现在最佳感受野下对目标物的定位和分类，极大地提高了对目标物的定位和分类精度。

需要补充说明的是，本实施例中的方法将不同大小的目标物，在不同尺寸的融合图像上分别进行回归和分类，即分别使用不同的融合图像检测不同大小的目标物。这也使得任意大小的目标物互不干扰，从而使得小目标的检测率大大提升。

现有技术中，在定位目标物时，不使用预选框，因此需要学习目标物的形状，而目标物大小不同，因此神经网络几乎不可能完全兼顾，从而比较容易出现小目标物回归的矩形框偏大，或者大目标物回归的矩形框会偏小。而本实施例采用预设的候选框，其回归的不是目标物的坐标，而是相对于预设的候选框的偏移值。因此，本实施例无需去学习目标物的形状，学习的是与预选框的坐标偏移(回归公式参见坐标回归损失函数)，由于预选框是独立的，所以不论大小目标，都会匹配到一个合适的预选框，所以这样回归出的坐标会更为精确。

图4为本发明实施例二提供的图像处理装置的结构示意图，如图4所示，本实施例中的装置可以包括：

图像采集器21，用于获取初始图像；

图像处理器22，用于对所述初始图像进行卷积处理，得到不同尺寸的特征图像；

图像融合器23，用于在所述初始图像中至少存在一个小于预设的第一阈值的目标物时，采用不同尺寸的特征图像进行融合处理，得到对应的融合图像；

分类器24，用于通过目标神经网络对所述融合图像中的目标物进行定位和分类，得到目标物的类别和坐标信息。

可选地，所述图像处理器22，具体用于：

对所述初始图像进行多次卷积处理，得到与所述初始图像相比缩小1/A、1/2A、1/4A、1/8A的第一特征图像、第二特征图像、第三特征图像，以及第四特征图像；其中，A为大于0的自然数；

所述图像融合器23，具体用于：

若所述初始图像中存在目标物小于预设的第一阈值时，将所述第二特征图像进行反卷积处理，得到与所述第一特征图像尺寸相同的第一中间特征图像，将所述第一中间特征图像与所述第一特征图像进行融合，得到第一融合图像；

若所述初始图像中存在目标物大于或等于第一阈值，且小于第二阈值时，将所述第三特征图像进行反卷积处理，得到与所述第二特征图像尺寸相同的第二中间特征图像，将所述第二中间特征图像与所述第二特征图像进行融合，得到第二融合图像；其中，第二阈值大于第一阈值；

若所述初始图像中存在目标物大于或等于第二阈值时，将所述第四特征图像进行反卷积处理，得到与所述第三特征图像尺寸相同的第三中间特征图像，将所述第三中间特征图像与所述第三特征图像进行融合，得到第三融合图像。

可选地，所述分类器24，具体用于：

确定所述目标神经网络的候选框数量；其中，所述候选框的数量与目标物的数量一致；

将所述融合图像输入所述目标神经网络，输出所述候选框的中心坐标以及所述候选框的宽度、高度；所述候选框用于标记所述目标物的位置；所述目标物包括：交通灯、交通标识；其中，当所述目标物为交通灯时，所述目标物的类别包括：红灯、黄灯、绿灯。

可选地，所述分类器中的目标神经网络是通过已有的图像集对初始神经网络进行预训练，得到经过预训练的中间神经网络后，再通过训练数据集以及预设的损失函数，对所述中间神经网络进行训练所得到的；其中，训练数据集是通过对训练图像构成的图像集进行数据增强处理得到，所述数据增强处理是指：根据训练图像中目标物的类别，均衡图像集中各个类别的训练图像的数量；所述训练图像是通过对不同道路、不同时间段录制的视频中抽样得到的候选图像进行标注后得到的图像；且所述训练图像中标注有目标物的类别和坐标信息。

本实施例可以执行上述图3所示的方法中的技术方案，其实现过程和技术效果与上述方法类似，此处不再赘述。

图5为本发明实施例三提供的图像处理设备的结构示意图，如图5所示，本实施例中的图像处理设备30包括：处理器31和存储器32；

存储器32，用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器32中。并且上述的计算机程序、计算机指令、数据等可以被处理器31调用。

处理器31，用于执行存储器32存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。其中，存储器32、处理器31可以通过总线33耦合连接。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当用户设备的至少一个处理器执行该计算机执行指令时，用户设备执行上述各种可能的方法。

其中，计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取初始图像；

对所述初始图像进行卷积处理，得到不同尺寸的特征图像；

通过目标神经网络对所述融合图像中的目标物进行定位和分类，得到目标物的类别和坐标信息；

所述采用不同尺寸的特征图像进行融合处理，得到对应的融合图像，包括：

若所述初始图像中存在目标物小于预设的第一阈值时，将第二特征图像进行反卷积处理，得到与第一特征图像尺寸相同的第一中间特征图像，将所述第一中间特征图像与所述第一特征图像进行融合，得到第一融合图像；

若所述初始图像中存在目标物大于或等于第一阈值，且小于第二阈值时，将第三特征图像进行反卷积处理，得到与所述第二特征图像尺寸相同的第二中间特征图像，将所述第二中间特征图像与所述第二特征图像进行融合，得到第二融合图像；其中，第二阈值大于第一阈值；

若所述初始图像中存在目标物大于或等于第二阈值时，将第四特征图像进行反卷积处理，得到与所述第三特征图像尺寸相同的第三中间特征图像，将所述第三中间特征图像与所述第三特征图像进行融合，得到第三融合图像；

其中，所述第一特征图像的尺寸大于所述第二特征图像，所述第二特征图的尺寸大于所述第三特征图像，所述第三特征图像的尺寸大于所述第四特征图像。

2.根据权利要求1所述的方法，其特征在于，对所述初始图像进行卷积处理，得到不同尺寸的特征图像，包括：

对所述初始图像进行多次卷积处理，分别得到与所述初始图像相比缩小1/A、1/2A、1/4A、1/8A的第一特征图像、第二特征图像、第三特征图像，以及第四特征图像；其中，A为大于0的自然数。

3.根据权利要求2所述的方法，其特征在于，通过目标神经网络对所述融合图像中的目标物进行定位和分类，得到目标物的类别和坐标信息，包括：

将所述融合图像输入所述目标神经网络，输出所述候选框的中心坐标以及所述候选框的形状信息；所述候选框用于标记所述目标物的位置；所述目标物包括：交通灯、交通标识；其中，当所述目标物为交通灯时，所述目标物的类别包括：红灯、黄灯、绿灯。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述目标神经网络是通过已有的图像集对初始神经网络进行预训练，得到经过预训练的中间神经网络后，再通过训练数据集以及预设的损失函数，对所述中间神经网络进行训练所得到的；其中，训练数据集是通过对训练图像构成的图像集进行数据增强处理得到，所述数据增强处理是指：根据训练图像中目标物的类别，均衡图像集中各个类别的训练图像的数量；所述训练图像是通过对不同道路、不同时间段录制的视频中抽样得到的候选图像进行标注后得到的图像；且所述训练图像中标注有目标物的类别和坐标信息。

5.一种图像处理装置，其特征在于，包括：

图像采集器，用于获取初始图像；

分类器，用于通过目标神经网络对所述融合图像中的目标物进行定位和分类，得到目标物的类别和坐标信息；

所述图像融合器，具体用于若所述初始图像中存在目标物小于预设的第一阈值时，将第二特征图像进行反卷积处理，得到与第一特征图像尺寸相同的第一中间特征图像，将所述第一中间特征图像与所述第一特征图像进行融合，得到第一融合图像；若所述初始图像中存在目标物大于或等于第一阈值，且小于第二阈值时，将第三特征图像进行反卷积处理，得到与所述第二特征图像尺寸相同的第二中间特征图像，将所述第二中间特征图像与所述第二特征图像进行融合，得到第二融合图像；其中，第二阈值大于第一阈值；若所述初始图像中存在目标物大于或等于第二阈值时，将第四特征图像进行反卷积处理，得到与所述第三特征图像尺寸相同的第三中间特征图像，将所述第三中间特征图像与所述第三特征图像进行融合，得到第三融合图像，其中，所述第一特征图像的尺寸大于所述第二特征图像，所述第二特征图的尺寸大于所述第三特征图像，所述第三特征图像的尺寸大于所述第四特征图像。

6.根据权利要求5所述的装置，其特征在于，所述图像处理器，具体用于：

对所述初始图像进行多次卷积处理，得到与所述初始图像相比缩小1/A、1/2A、1/4A、1/8A的第一特征图像、第二特征图像、第三特征图像，以及第四特征图像；其中，A为大于0的自然数。

7.根据权利要求6所述的装置，其特征在于，所述分类器，具体用于：

8.根据权利要求5-7中任一项所述的装置，其特征在于，所述分类器中的目标神经网络是通过已有的图像集对初始神经网络进行预训练，得到经过预训练的中间神经网络后，再通过训练数据集以及预设的损失函数，对所述中间神经网络进行训练所得到的；其中，训练数据集是通过对训练图像构成的图像集进行数据增强处理得到，所述数据增强处理是指：根据训练图像中目标物的类别，均衡图像集中各个类别的训练图像的数量；所述训练图像是通过对不同道路、不同时间段录制的视频中抽样得到的候选图像进行标注后得到的图像；且所述训练图像中标注有目标物的类别和坐标信息。

9.一种图像处理设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括：计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-4中任一项所述的方法。