CN112560698B

CN112560698B - 图像处理方法、装置、设备和介质

Info

Publication number: CN112560698B
Application number: CN202011502496.4A
Authority: CN
Inventors: 杨喜鹏; 谭啸; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2024-01-16
Anticipated expiration: 2040-12-18
Also published as: CN112560698A

Abstract

本公开提供了一种图像处理方法、装置、设备和介质，涉及计算机视觉、深度学习等人工智能领域。图像处理方法包括：从目标图像中提取目标类别的待处理对象；确定目标场景图像所包括的一个或多个子场景区域及其场景类别；基于对象类别与场景类别之间的预设关系，从所述目标场景图像所包括的一个或多个子场景区域中确定所述待处理对象相应的至少一个子场景区域；以及将所提取的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中，生成融合图像。

Description

图像处理方法、装置、设备和介质

技术领域

本公开涉及计算机视觉、深度学习等人工智能领域，更具体地，涉及一种图像处理方法、装置、设备和介质。

背景技术

目标检测是计算机视觉的一个热门方向，广泛应用于自动驾驶、智能视频监控、工业检测等诸多领域。通过实现计算机视觉减少对人力资本的消耗，具有重要的现实意义。因此，目标检测也就成为了近年来理论和应用的研究热点。由于深度学习的广泛运用，目标检测方法得到了快速的发展，但现有的目标检测方法的准确率仍有待提高。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

根据本公开的一方面，提供了一种图像处理方法，包括：从目标图像中提取目标类别的待处理对象；确定目标场景图像所包括的一个或多个子场景区域及其场景类别；基于对象类别与场景类别之间的预设关系，从所述目标场景图像所包括的一个或多个子场景区域中确定所述待处理对象相应的至少一个子场景区域；以及将所提取的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中，生成融合图像。

根据本公开的另一方面，还提供了一种神经网络的训练方法，包括：获取多个样本图像，并在每一个样本图像中标记包围所包括的样本对象的真实边界框及其真实对象类别，以得到初始样本图像集；从初始样本图像集中获取包括目标类别的待处理对象的目标样本图像；利用上述图像处理方法将所述待处理对象融合到一个或多个目标场景图像中，得到所述待处理对象相应的一个或多个融合图像；将所述一个或多个融合图像加入所述初始样本图像集中，并在每一个所述融合图像中标记包围所述待处理对象的真实边界框及其真实对象类别，以得到第一样本图像集；利用所述第一样本图像集对所述神经网络进行训练。

根据本公开的另一方面，还提供了一种目标检测方法，包括：获取待检测图像；将所述待检测图像输入使用上述训练方法得到的神经网络，获取所述神经网络输出的所述待检测图像的目标检测结果。

根据本公开的另一方面，还提供了一种图像处理装置，包括：提取单元，被配置用于从目标图像中提取目标类别的待处理对象；第一确定单元，被配置用于确定目标场景图像所包括的一个或多个子场景区域及其场景类别；第二确定单元，被配置用于基于对象类别与场景类别之间的预设关系，从所述目标场景图像所包括的一个或多个子场景区域中确定所述待处理对象相应的至少一个子场景区域；以及融合单元，被配置用于将所提取的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中，生成融合图像。

根据本公开的另一方面，还提供了目标检测装置，包括：获取单元，被配置用于获取待检测图像；神经网络，被配置用于将所述待检测图像输入使用上述训练方法得到的神经网络，获取所述神经网络输出的所述待检测图像的目标检测结果。

根据本公开的另一方面，还提供了一种计算机设备，包括：存储器、处理器以及存储在所述存储器上的计算机程序，其中，所述处理器被配置为执行所述计算机程序以实现上述图像处理方法和训练方法的步骤。

根据本公开的另一方面，还提供了一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据上述图像处理方法和训练方法。

根据本公开的另一方面，还提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现上述图像处理方法和训练方法的步骤。

本公开的技术方案根据目标类别和场景类别的预设对应关系将目标类别的待处理对象融合到目标场景图像中，生成符合逻辑的包括待处理对象的融合图像，从而能够生成小样本类别的不同融合样本，增加小样本类别的样本数量，解决了因训练集中小样本类别的样本数量少而导致对小样本类别的待检测图像的目标检测结果的准确率和召回率低的问题，进而提升了目标检测的准确率和召回率，并增强了泛化能力。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1是示出根据示例性实施例的图像处理方法的流程图；

图2是示出根据示例性实施例的生成融合图像的流程图；

图3-图4是示出根据示例性实施例的神经网络的训练方法的流程图；

图5是示出根据示例性实施例的目标检测方法的流程图；

图6是示出根据示例性实施例的图像处理装置的框图；

图7是示出根据示例性实施例的目标检测装置的框图；以及

图8是能够应用于示例性实施例的示例性计算设备的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

相关技术中，为解决样本不均衡问题，通过对小样本类别的样本进行多次采样，以使得训练集中不同类别的样本数量尽可能均衡。但这样的方式虽然采样的次数增加了，但是每一次采样的样本相同，即样本本身的数量少，样本的多样性偏低，虽然采样次数增多，但是模型的泛化能力有限，对准确率和召回率的提升有限。

为了解决上述技术问题，本公开的技术方案根据目标类别和场景类别的预设对应关系将目标类别的待处理对象融合到目标场景图像中，生成符合逻辑的包括待处理对象的融合图像，从而能够生成小样本类别的不同融合样本，增加小样本类别的样本数量，解决了因训练集中小样本类别的样本数量少而导致对小样本类别的待检测图像的目标检测结果的准确率和召回率低的问题，进而提升了目标检测的准确率和召回率，并增强了泛化能力。

以下将结合附图对本公开的图像处理方法进行进一步描述。

图1是示出根据本公开示例性实施例的图像处理方法的流程图。如图1所示，图像处理方法可以包括：步骤S101、从目标图像中提取目标类别的待处理对象；步骤S102、确定目标场景图像所包括的一个或多个子场景区域及其场景类别；步骤S103、基于对象类别与场景类别之间的预设关系，从所述目标场景图像所包括的一个或多个子场景区域中确定所述待处理对象相应的至少一个子场景区域；以及步骤S104、将所提取的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中，生成融合图像。由此，通过将目标类别的待处理对象根据预设目标类别和场景类别的预设关系融合到目标场景图像中，能够生成符合逻辑的包括待处理对象的融合图像。由此，当目标类别为目标检测训练集中的小样本类别时，使用上述图像处理方法生成小样本类别的不同融合样本，增加小样本类别的样本数量，解决了因训练集中小样本类别的样本数量少而导致对小样本类别的待检测图像的目标检测结果的准确率和召回率低的问题，进而提升了目标检测的准确率和召回率，并增强了泛化能力。

目标图像例如可以是包括有一个或多个目标类别的待处理对象的图像。示例性的，目标图像可以是交通监控摄像头拍摄的路况图像，其中可包含有二十辆轿车、六辆公交车、两辆小巴士、十辆运动型多用途汽车(Sport Utility Vehicle，SUV)和一辆厢式货车等。目标类别为数量较少的小类别。在上述示例性的目标图像中，目标类别例如可以是小巴士，目标类别的待识别对象可以是两辆小巴士中的每一辆。目标类别也可以是厢式货车，目标类别的待识别对象为图像中仅有的一辆厢式货车。

根据一些实施例，步骤S101、从目标图像中提取目标类别的待处理对象可以包括：将所述目标图像输入目标检测模型，获取所述目标检测模型输出的能够包围所述待处理对象的边界框；以及基于所述边界框，对所述目标图像进行抠图处理，以得到所述待处理对象的图像。由此，通过使用目标检测模型，能够快速从目标图像中提取目标类别的待处理对象。

目标检测模型例如可以是已经训练好的能够对目标进行检测与识别的神经网络模型。通过将目标图像输入目标检测模型，能够得到目标检测模型输出的由边界框标识的目标图像中包括的一个或多个对象，再选取这些对象中属于目标类别的对象进行基于边界框的抠图处理。还可以人工检查其他对象中是否有属于目标类别但未成功识别出的对象，再将其进行基于边界框的抠图处理。可以理解的是，还可以使用计算机视觉算法以得到标识对象的目标框，在此不做限定。

边界框可以是能够标识目标图像中的对象的连通区域的边界。边界框例如可以是正方形、长方形、圆形或者椭圆形，也可以是由线段和/或曲线组合构成的图形，在此不作限定。

根据一些实施例，基于所述边界框，对所述目标图像进行抠图处理以得到所述待处理对象的图像可以包括：基于所述边界框，利用边缘提取算法提取所述待处理对象的边缘特征；以及基于所述边缘特征对所述目标图像进行抠图处理，以得到所述待处理对象的图像。由此，通过使用边缘提取算法提取对象的边缘，能够得到更为准确的对象边缘，从而能够更为精细的对对象进行抠图。而后续在进行图像融合时，能够只将对象本身融合进去，而不会将对象周边的其他无关信息均融合进目标场景图像中，进而能够生成质量更高的融合图像，以提升使用这些融合图像训练的神经网络的性能。

边缘提取算法例如可以使用Sobel算子、Prewitt算子、Canny算子或Marr-Hildreth算子，也可以使用其他的算法，在此不做限定。

根据一些实施例，还可以以人工标注方式提取目标图像中的待处理对象。标注人员可以标注包括待处理对象的边界框，也可以直接标注待处理对象的边缘，还可以对已经由目标检测模型提取出来的边界框进行进一步标注以完成抠图任务，在此不做限定。标注结果例如可以是包括待处理对象的全部像素坐标的集合，也可以是待处理对象边缘坐标的集合，还可以是待处理对象的多边形边缘的关键点集合，在此不做限定。

根据一些实施例，可以利用语义分割模型来确定目标场景图像所包括的一个或多个子场景区域及其场景类别。由此，通过使用语义分割模型，能够快速确定目标场景图像中各个子区域及其场景类别。

语义分割模型能够将目标场景图像分为多个子场景区域，判断每个子场景区域所属的场景类别。示例性的，在一张交通监控摄像头拍摄的路况图像中，语义分割模型能够将该图像分割为天空区域、路面区域、天桥区域、草地区域等多个子场景区域并判断其场景类别。语义分割模型例如可以是传统的图像分割算法与人对区域进行标识的结合，也可以是训练好的神经网络模型，在此不做限定。

根据一些实施例，如图2所示，步骤S104、将所提取的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中，生成融合图像可以包括：步骤S1041、确定所述待处理对象相对于所述目标场景图像的融合参数；步骤S1042、基于所述融合参数，对所提取的所述待处理对象的图像进行变换处理，以适配所述目标场景图像；以及步骤S1043、将经过变换处理后的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中。由此，通过确定融合参数，并基于融合参数对待处理对象的图像进行变换处理，使得待处理对象能够以符合逻辑的方式融合进目标场景图像，从而能够生成质量更高的融合图像，以提升使用这些融合图像训练的神经网络的性能。

根据一些实施例，融合参数例如可以包括融合位置和融合尺寸。融合位置例如可以为融合后的待处理对象的中心对应目标场景图像中的坐标位置，也可以是融合后的待处理对象的左下角对应目标场景图像中的坐标位置，还可以是其他的能够表示融合后的待处理对象在目标场景图像中的位置信息的方式，在此不做限定。融合尺寸例如可以为融合后的待处理对象的横向像素范围和纵向像素范围，也可以是融合后的待处理对象的面积占目标场景图像的面积的比例，还可以是其他的表示融合后的待处理对象在目标场景图像中的尺度信息的方式，在此不做限定。

可以理解的是，融合参数例如还可以包括表示融合后的待处理对象在目标场景图像中的角度信息的融合角度、表示融合后的待处理对象在目标场景图像中的畸变信息的融合畸变等其他融合参数，在此不做限定。

根据一些实施例，步骤S1041、确定所述待处理对象相对于所述目标场景图像的融合参数可以包括：基于相应的至少一个子场景区域，确定所述待处理对象在所述目标场景图像中的融合位置；以及基于所述融合位置，确定所述待处理对象在所述场景图像中的融合尺寸。由此，通过先确定待处理对象在目标场景图像中的融合位置，再基于该融合位置确定融合尺寸，从而能够确定待处理对象相对于目标场景图像的合适的融合参数。

融合位置例如可以基于子场景区域的场景类别与待处理对象的目标类别的对应关系而确定的。示例性的，在一个交通监控摄像头拍摄的路况图像中，包括天空区域、路面区域、天桥区域等，目标类别为厢式货车，则融合位置可以为路况图像中的任意一个位置，但不可以为天空区域或者天桥区域的任意一个位置。示例性的，在一个海边图像中，包括天空区域，海面区域，沙滩区域，礁石区域等，目标类别为帆船，则融合位置可以为海面区域中的任意一个位置，但不可以为天空区域、沙滩区域或礁石区域中的任意一个位置。

根据一些实施例，基于所述融合位置，确定所述待处理对象在所述场景图像中的融合尺寸可以包括：将所述目标场景图像输入深度预测模型，获取所述深度预测模型输出的所述目标场景图像中所述融合位置的深度信息；以及基于所述深度信息，确定所述待处理对象在所述目标场景图像的所述融合尺寸。由此，通过使用深度预测模型，能够得到融合位置的深度信息，从而能够基于该深度信息确定待处理对象相对于目标场景图像的合适的融合尺寸。

深度预测模型例如可以是训练好的神经网络模型，能够预测目标场景图像中任意位置的深度信息。通过将目标场景图像输入深度预测模型，可以得到确定好的融合位置处的深度信息，从而基于该深度信息，确定待处理对象在该深度下的物体张角，进而基于目标场景图像本身的视野张角以及目标场景图像的大小分辨率，确定待处理对象的融合尺度。示例性的，一个目标场景图像的视野张角为60°，目标场景图像的宽度为600像素，并且已经确定待处理对象的物体张角为5°，则可以确定待处理对象在目标场景图像中的宽度应为50像素。

根据一些实施例，基于所述融合位置，确定所述待处理对象在所述场景图像中的融合尺寸可以包括：基于所述目标场景图像中的投影关系，确定所述目标场景图像中的所述融合位置的尺度信息；以及基于所述尺度信息，确定所述第一待处理目标相对于所述场景图像的所述融合尺寸。由此，通过分析目标场景图像中的投影关系，确定目标场景图像中不同位置的尺度信息，从而基于该尺度信息确定待处理对象相对于目标场景图像的合适的融合尺寸。

投影关系例如可以是根据目标场景图像中的一些特定特征得到的目标场景图像的投影关系。示例性的，在一个交通监控摄像头拍摄的路况图像中，有一条笔直的公路，则可以根据公路上或公路边缘的多条车道分割线得到该图像的投影关系。通过计算图像中任意两个高度的车道分割线的像素间距，同时参照现实中车道宽度的具体信息，可以得到上述两个高度位置的尺度信息，即在此高度下，每一个像素对应现实空间的长度的比例尺。进而可以通过比例关系，得到图像中每个高度下的尺度信息，并基于该尺度信息确定待处理对象在目标场景图像的该高度位置的融合尺度。可以理解的是，上述仅为一种示例，也可以通过目标场景图像中的其他特定特征得到其投影关系，例如利用楼房的边缘建立三维坐标系得到目标场景图像的投影关系，或者利用目标场景图像中在不同位置出现多次的相同或相似的物体的大小得到目标场景图像的投影关系，在此不做限定。

根据一些实施例，所述变换处理可以包括基于融合尺寸调整待处理对象的图像尺寸。变换处理还可以包括基于融合角度调整待处理对象的图像角度(例如待处理对象的x轴与目标场景图像的x轴的夹角)，以及基于其他的融合参数进行相应变换，在此不做限定。

根据一些实施例，生成融合图像还可以包括：对所提取的所述待处理对象的图像进行多次随机数据增强处理，得到多个待融合图像；以及将多个所述待融合图像中的每一个融合到相应的至少一个子场景区域中。由此，通过对待处理对象进行多次随机增强处理，可以得到多个不同的待融合图像，从而能够丰富生成的融合图像的多样性，进而可以提升使用该融合图像作为训练样本的神经网络的泛化能力，并提升模型的准确率、召回率。

根据一些实施例，随机增强处理可以包括翻转、旋转、缩放、裁剪、平移、插值和噪声中的至少一种。

根据一些实施例，可以使用高斯融合或泊松融合的方式将待处理对象融合进目标场景图像中，也可以使用其他的融合算法和融合方式完成融合，在此不做限定。

根据本公开的另一方面，还提供了一种神经网络的训练方法。如图3所示，训练方法可以包括：步骤S301、获取多个样本图像，并在每一个样本图像中标记包围所包括的样本对象的真实边界框及其真实对象类别，以得到初始样本图像集；步骤S302、从初始样本图像集中获取包括目标类别的待处理对象的目标样本图像；步骤S303、利用上述图像处理方法将所述待处理对象融合到一个或多个目标场景图像中，得到所述待处理对象相应的一个或多个融合图像；步骤S304、将所述一个或多个融合图像加入所述初始样本图像集中，并在每一个所述融合图像中标记包围所述待处理对象的真实边界框及其真实对象类别，以得到第一样本图像集；以及步骤S305、利用所述第一样本图像集对所述神经网络进行训练。由此，通过使用上述方法生成的融合图像扩充小样本类别的训练样本集数据量，能够使得神经网络更好得学习小样本类别图像的特征，解决因训练集中小样本类别的样本数量少而导致目标检测模型对小样本类别的待检测图像的检测结果准确率低的问题，进而提升目标检测模型的准确率与召回率，并增强目标检测模型的泛化能力。

根据一些实施例，神经网络可以依据应用场景选择适当大小的卷积神经网络，例如可以选择轻型的结构(例如ResNet18、ResNet34、DarkNet19)、中型结构(例如ResNet50、RexNeXt50、DarkNet53)、重型结构(例如ResNet101、ResNeXt152)，也可以选择其他的卷积神经网络结构或自行搭建一个网络，在此不做限定。根据一些实施例，神经网络可以使用特征金字塔网络(Feature Pyramid Network，FPN)结构，结合浅层语义和深层语义信息，以提升神经网络的性能。可以选取神经网络中的两个、三个、四个或更多个卷积层、池化层、其他神经网络中的层或多种层的组合实现FPN结构，在此不做限定。一种优选的实施例中，可以选取输出的子特征图的降采样比例为输入图像的8分之1、16分之1、32分之1的三个层。靠近输入端的浅层输出的子特征图包括浅层语义信息，靠近输出端的深层输出的子特征图包括深层语义信息。通过选取多个层输出的子特征图，能够得到不同层次的语义信息。

根据一些实施例，可以在得到初始样本图像集后，统计其中所包括的不同样本类别和各个类别的样本数量，从而能够确定哪些类别属于小样本类别，进而将小样本类别作为目标类别，可以利用本公开的图像处理方法生成包括该目标类别的待处理对象的融合样本。

根据一些实施例，如图4所示，训练方法还可以包括：步骤S406、获取多个测试图像，所述测试图像包括测试对象，并标记所述测试对象的真实对象类别；步骤S407、针对所述多个测试图像中的每一个测试图像，将所述测试图像输入所述神经网络，获取所述神经网络输出的包围所述测试图像中的测试对象的预测边界框以及预测对象类别及其预测类别置信度；步骤S408、基于所述多个测试图像中所有测试图像的真实对象类别和所述预测对象类别，生成混淆矩阵；步骤S409、基于所述混淆矩阵，确定第一对象类别和第二对象类别，以及修正阈值；以及步骤S410、在某一测试图像的预测结果中第一对象类别和第二对象类别两者的预测类别置信度最大的情况下，基于第一对象类别的预测类别置信度、第二对象类别的预测类别置信度以及所述修正阈值，确定该测试图像中的测试对象的类别为第一对象类别和第二对象类别两者中的其中之一。图4中的步骤S401-步骤S405与图3中的步骤S301-步骤S305类似。由此，通过在容易混淆的类别间使用类别矫正的方法，能够提升神经网络检测小样本类别的准确率和召回率，从而缓解了样本类别不均衡导致的模型对小样本类别的检测准确率、召回率低的问题。

可以理解的是，步骤S406可以与步骤S401同步执行，即步骤S406中的测试图像均为真实图像，从而能够检测神经网络是否在学习融合样本时发生了过拟合现象，进而能够检测神经网络的泛化能力。

根据一些实施例，第一对象类别可以为目标类别，可以在某一测试图像的预测结果中第一对象类别和第二对象类别两者的预测类别置信度最大并且第一对象类别的预测类别置信度小于第二对象类别两者的预测类别置信度的情况下，基于第一对象类别的预测类别置信度、第二对象类别的预测类别置信度以及所述修正阈值，确定该测试图像中的测试对象的类别为第一对象类别和第二对象类别两者中的其中之一。由此，通过在容易混淆的小样本类别和另一类比之间使用类别矫正方法，能够提升神经网络检测小样本类别的准确率和召回率，从而缓解了样本类别不均衡导致的模型对小样本类别的检测准确率、召回率低的问题。

示例性的，在一个交通监控摄像头拍摄的路况图像中厢式货车(Van)的数量较少，SUV的数量较多，且两者很接近，在目标检测容易产生混淆，即厢式货车容易被识别成SUV。由此，可以设置修正阈值包括第一修正阈值T1和第二修正阈值T2。在一个对象同时被识别为厢式货车和SUV时，即其二者的预测类别置信度最大时，且厢式货车的预测类别置信度P(Van)小于SUV的预测类别置信度P(SUV)，即P(Van)<P(SUV)，厢式货车的预测类别置信度大于第一修正阈值T1，即P(Van)>T1，如果有P(Van)*(1-P(SUV))>T2，则将该对象的类别确定为厢式货车。可以理解的是，上述方法仅为一种在前文所述条件下确定对象的预测结果的示例，例如也可以在P(Van)<P(SUV)且P(Van)>T1时将该对象的类别确定为厢式货车，在此不做限定。

根据一些实施例，在神经网络训练后的测试阶段，可以动态设置修正阈值，以确定使神经网络的准确率和召回率最高的修正阈值，从而在后续的目标检测任务的预测阶段，使用利用该修正阈值的类别矫正方法，以提升神经网络对小样本类别的样本的检测准确率和召回率，从而能够提升目标检测神经网络的性能。

根据本公开的另一方面，还提供了一种目标检测方法，如图5所示，目标检测方法可以包括：步骤S501、获取待检测图像；以及步骤S502、将所述待检测图像输入使用上述训练方法得到的神经网络，获取所述神经网络输出的所述待检测图像的目标检测结果。由此，通过使用上述图像处理方法生成小样本类别的不同融合样本，增加小样本类别的样本数量，解决了因训练集中小样本类别的样本数量少而导致对小样本类别的待检测图像的目标检测结果的准确率和召回率低的问题，进而提升了目标检测的准确率和召回率，并增强了泛化能力。

根据本公开的另一方面，还提供了一种图像处理装置。如图6所示，图像处理装置600可以包括：提取单元601，被配置用于从目标图像中提取目标类别的待处理对象；第一确定单元602，被配置用于确定目标场景图像所包括的一个或多个子场景区域及其场景类别；第二确定单元603，被配置用于基于对象类别与场景类别之间的预设关系，从所述目标场景图像所包括的一个或多个子场景区域中确定所述待处理对象相应的至少一个子场景区域；以及融合单元604，被配置用于将所提取的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中，生成融合图像。

图像处理装置600的单元601-单元604的操作分别于前面描述的步骤S101-S104的操作类似，在此不做赘述。

根据本公开的另一方面，还提供了一种目标检测装置。如图7所示，目标检测装置700可以包括：获取单元701，被配置用于获取待检测图像；以及将所述待检测图像输入使用步骤S401-步骤S410所述的训练方法得到的神经网络702，被配置用于收所述待检测图像，并对所述待检测图像进行处理以输出所述待检测图像的目标检测结果。

目标检测装置700的单元701-神经网络702的操作分别于前面描述的步骤S501-S502的操作类似，在此不做赘述。

参见图8所示，现将描述计算设备8000，其是可以应用于本公开的各方面的硬件设备(电子设备)的示例。计算设备8000可以是被配置为执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、机器人、智能电话、车载计算机或其任何组合。上述图像处理方法和目标检测方法可以全部或至少部分地由计算设备8000或类似设备或系统实现。

计算设备8000可以包括(可能经由一个或多个接口)与总线8002连接或与总线8002通信的元件。例如，计算设备8000可以包括总线8002、一个或多个处理器8004、一个或多个输入设备8006以及一个或多个输出设备8008。一个或多个处理器8004可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备8006可以是能向计算设备8000输入信息的任何类型的设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备8008可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备8000还可以包括非暂时性存储设备8010或者与非暂时性存储设备8010连接，非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备8010可以从接口拆卸。非暂时性存储设备8010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备8000还可以包括通信设备8012。通信设备8012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算设备8000还可以包括工作存储器8014，其可以是可以存储对处理器8004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器8014中，包括但不限于操作系统8016、一个或多个应用程序8018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序8018中，并且上述图像处理方法和目标检测方法可以通过由处理器8004读取和执行一个或多个应用程序8018的指令来实现。更具体地，上述图像处理方法和目标检测方法中，步骤S101-步骤S104、步骤S401-步骤S410可以例如通过处理器8004执行具有步骤S101-步骤S104、步骤S401-步骤S410的指令的应用程序8018而实现。此外，上述图像处理方法和目标检测方法中的其它步骤可以例如通过处理器8004执行具有执行相应步骤中的指令的应用程序8018而实现。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备8010)中，并且在执行时可以被存入工作存储器8014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现特定元件。例如，所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

还应该理解，前述方法可以通过服务器-客户端模式来实现。例如，客户端可以接收用户输入的数据并将所述数据发送到服务器。客户端也可以接收用户输入的数据，进行前述方法中的一部分处理，并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据，并且执行前述方法或前述方法中的另一部分，并将执行结果返回给客户端。客户端可以从服务器接收到方法的执行结果，并例如可以通过输出设备呈现给用户。

还应该理解，计算设备8000的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统8000的其他组件也可以类似地分布。这样，计算设备8000可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种图像处理方法，包括：

从目标图像中提取目标类别的待处理对象；

确定目标场景图像所包括的一个或多个子场景区域及其场景类别；

基于对象类别与场景类别之间的预设关系，从所述目标场景图像所包括的一个或多个子场景区域中确定所述待处理对象相应的至少一个子场景区域；以及

将所提取的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中，生成融合图像，包括：

基于相应的至少一个子场景区域，确定所述待处理对象在所述目标场景图像中的融合位置；

基于所述融合位置执行第一操作或第二操作，确定所述待处理对象在所述目标场景图像中的融合尺寸；

基于所述融合尺寸，对所提取的所述待处理对象的图像进行变换处理，以适配所述目标场景图像；以及

基于所述融合位置，将经过变换处理后的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中，

其中，所述第一操作包括：

将所述目标场景图像输入深度预测模型，获取所述深度预测模型输出的所述目标场景图像中所述融合位置的深度信息；以及

基于所述深度信息，确定所述待处理对象在所述目标场景图像的所述融合尺寸；

所述第二操作包括：

基于所述目标场景图像中的投影关系，确定所述目标场景图像中的所述融合位置的尺度信息；以及

基于所述尺度信息，确定所述待处理对象相对于所述场景图像的所述融合尺寸。

2.如权利要求1所述的图像处理方法，其中，所述从目标图像中提取目标类别的待处理对象包括：

将所述目标图像输入目标检测模型，获取所述目标检测模型输出的包围所述待处理对象的边界框；以及

基于所述边界框，对所述目标图像进行抠图处理，以得到所述待处理对象的图像。

3.如权利要求2所述的图像处理方法，其中，所述基于所述边界框，对所述目标图像进行抠图处理以得到所述待处理对象的图像包括：

基于所述边界框，利用边缘提取算法提取所述待处理对象的边缘特征；以及

基于所述边缘特征对所述目标图像进行抠图处理，以得到所述待处理对象的图像。

4.如权利要求1所述的图像处理方法，其中，所述生成融合图像包括：

对所提取的所述待处理对象的图像进行多次随机数据增强处理，得到多个待融合图像；以及

将多个所述待融合图像中的每一个融合到相应的至少一个子场景区域中。

5.如权利要求4所述的图像处理方法，其中，所述随机数据增强处理包括翻转、旋转、缩放、裁剪、平移、插值和噪声中的至少一种。

6.如权利要求1所述的图像处理方法，其中，利用语义分割模型来确定目标场景图像所包括的一个或多个子场景区域及其场景类别。

7.一种神经网络的训练方法，包括：

获取多个样本图像，并在每一个样本图像中标记包围所包括的样本对象的真实边界框及其真实对象类别，以得到初始样本图像集；

从初始样本图像集中获取包括目标类别的待处理对象的目标样本图像；

利用权利要求1-6中任一项所述的图像处理方法将所述待处理对象融合到一个或多个目标场景图像中，得到所述待处理对象相应的一个或多个融合图像；

将所述一个或多个融合图像加入所述初始样本图像集中，并在每一个所述融合图像中标记包围所述待处理对象的真实边界框及其真实对象类别，以得到第一样本图像集；以及

利用所述第一样本图像集对所述神经网络进行训练。

8.如权利要求7所述的训练方法，其中，所述训练方法还包括：

获取多个测试图像，所述测试图像包括测试对象，并标记所述测试对象的真实对象类别；

在所述神经网络训练完成后，针对所述多个测试图像中的每一个测试图像，将所述测试图像输入所述神经网络，获取所述神经网络输出的包围所述测试图像中的测试对象的预测边界框以及预测对象类别及其预测类别置信度；

基于所述多个测试图像中所有测试图像的真实对象类别和所述预测对象类别，生成混淆矩阵；

基于所述混淆矩阵，确定第一对象类别和第二对象类别，以及修正阈值；以及

在某一测试图像的预测结果中第一对象类别和第二对象类别两者的预测类别置信度最大的情况下，基于第一对象类别的预测类别置信度、第二对象类别的预测类别置信度以及所述修正阈值，确定该测试图像中的测试对象的类别为第一对象类别和第二对象类别两者中的其中之一。

9.如权利要求8所述的训练方法，其中，所述第一对象类别为目标类别，

其中，在某一测试图像的预测结果中第一对象类别和第二对象类别两者的预测类别置信度最大并且第一对象类别的预测类别置信度小于第二对象类别两者的预测类别置信度的情况下，基于第一对象类别的预测类别置信度、第二对象类别的预测类别置信度以及所述修正阈值，确定该测试图像中的测试对象的类别为第一对象类别和第二对象类别两者中的其中之一。

10.一种目标检测方法，包括：

获取待检测图像；以及

将所述待检测图像输入使用权利要求7-9中任一项所述的训练方法得到的神经网络，获取所述神经网络输出的所述待检测图像的目标检测结果。

11.一种图像处理装置，包括：

提取单元，被配置用于从目标图像中提取目标类别的待处理对象；

第一确定单元，被配置用于确定目标场景图像所包括的一个或多个子场景区域及其场景类别；

第二确定单元，被配置用于基于对象类别与场景类别之间的预设关系，从所述目标场景图像所包括的一个或多个子场景区域中确定所述待处理对象相应的至少一个子场景区域；以及

融合单元，被配置用于将所提取的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中，生成融合图像，包括：

其中，所述第一操作包括：

所述第二操作包括：

12.一种目标检测装置，包括：

获取单元，被配置用于获取待检测图像；以及

使用权利要求11的训练装置得到的神经网络，被配置用于接收所述待检测图像，并对所述待检测图像进行处理以输出所述待检测图像的目标检测结果。

13.一种计算机设备，包括：

存储器、处理器以及存储在所述存储器上的计算机程序，

其中，所述处理器被配置为执行所述计算机程序以实现权利要求1-10中任一项所述的方法的步骤。

14.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据权利要求1-10中任一项所述的方法。