CN112784629A

CN112784629A - 图像处理方法、装置和计算机可读存储介质

Info

Publication number: CN112784629A
Application number: CN201911075194.0A
Authority: CN
Inventors: 赵颖; 刘殿超; 王刚
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2021-05-11

Abstract

本发明实施例提供图像处理方法、图像处理装置和计算机可读存储介质。根据本发明实施例的图像处理方法包括：根据输入图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征进行目标检测。

Description

图像处理方法、装置和计算机可读存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种图像处理方法、装置和计算机可读存储介质。

背景技术

目标检测是计算机视觉领域中的基础应用之一。在多幅图像中，待检测的目标有时具有非常大的尺度差异，即待检测的目标在某些图像中尺度表现的很大，而在另一些图像中尺度表现的很小。因此，在目标检测过程中，希望能够通过考虑多尺度下的图像信息提高目标检测的精度。

在多尺度目标检测方法中，一般首先将输入图像提取出多个不同尺度的图像特征，然后分别根据这些不同尺度的图像特征进行目标检测。然而，这种目标检测方法所针对的不同尺度的图像特征所提取的信息相对独立，互不关联，因此没有能够充分利用多个尺度之间信息的交互性，导致多尺度目标检测的精度不足。

因此，需要一种能够有效利用多个尺度的图像特征之间信息的交互性，进一步提高多尺度目标检测精度的图像处理方法和装置。

发明内容

为解决上述技术问题，根据本发明的一个方面，提供了一种图像处理方法，包括：根据输入图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征进行目标检测。

根据本发明的另一方面，提供了一种图像处理方法，包括：获取输入图像；将所述输入图像利用神经网络进行目标检测；其中，所述神经网络是通过如下方式训练的：根据输入的训练图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征对所述神经网络进行训练，调整所述神经网络的参数。

根据本发明的另一方面，提供了一种图像处理装置，包括：生成单元，配置为根据输入图像生成多个不同尺度的图像特征；确定单元，配置为根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；处理单元，配置为至少根据所述至少第一尺度的混合图像特征进行目标检测。

根据本发明的另一方面，提供了一种图像处理装置，包括：处理器；和存储器，在所述存储器中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：根据输入图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征进行目标检测。

根据本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现以下步骤：根据输入图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征进行目标检测。

根据本发明的另一方面，提供了一种图像处理装置，包括：获取单元，配置为获取输入图像；处理单元，配置为将所述输入图像利用神经网络进行目标检测；其中，所述处理单元所利用的神经网络是通过如下方式训练的：根据输入的训练图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征对所述神经网络进行训练，调整所述神经网络的参数。

根据本发明的另一方面，提供了一种图像处理装置，包括：处理器；和存储器，在所述存储器中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：获取输入图像；将所述输入图像利用神经网络进行目标检测；其中，所述神经网络是通过如下方式训练的：根据输入的训练图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征对所述神经网络进行训练，调整所述神经网络的参数。

根据本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现以下步骤：获取输入图像；将所述输入图像利用神经网络进行目标检测；其中，所述神经网络是通过如下方式训练的：根据输入的训练图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征对所述神经网络进行训练，调整所述神经网络的参数。

根据本发明的上述图像处理方法、装置和计算机可读存储介质，能够利用多个不同尺度的图像特征确定其中一个或多个尺度的混合图像特征，并根据所确定的混合图像特征进行目标检测。这种图像处理方法、装置和计算机可读存储介质能够有效利用多个尺度的图像特征之间信息的交互性，进一步提高多尺度目标检测精度。

此外，根据本发明的图像处理方法、装置和计算机可读存储介质，在进行多级处理时，可以在每一级处理过程中从全部尺度中提取其中的部分尺度进行图像处理，从而减少了图像处理的处理步骤和计算成本，有效提高了目标检测的效率。

附图说明

通过结合附图对本发明的实施例进行详细描述，本发明的上述和其它目的、特征、优点将会变得更加清楚。

图1示出根据本发明实施例的图像处理方法的其中一级处理过程的示意图；

图2示出根据本发明实施例的图像处理方法的多级处理过程的示意图；

图3示出根据本发明一个实施例的图像处理方法的流程图；

图4示出根据本发明另一实施例的图像处理方法的流程图；

图5示出根据本发明一个实施例的图像处理方法的具体示例的示意图；

图6示出根据本发明另一实施例的图像处理方法的具体示例的示意图；

图7示出根据本发明一个实施例的图像处理装置的框图；

图8示出根据本发明另一实施例的图像处理装置的框图；

图9示出根据本发明另一实施例的图像处理装置的框图；

图10示出根据本发明另一实施例的图像处理装置的框图。

具体实施方式

下面将参照附图来描述根据本发明实施例的图像处理方法、装置和计算机可读存储介质。在附图中，相同的参考标号自始至终表示相同的元件。应当理解：这里描述的实施例仅仅是说明性的，而不应被解释为限制本发明的范围。

在计算机视觉领域，目标检测是较为基础和具有实际应用意义的研究方向。通过计算机视觉领域中目标检测方法的应用，可以从输入图像中识别出其中存在的目标，并对识别出的目标的名称、特性、尺寸等进行标记。

近年来，基于卷积神经网络的目标检测和分类方法表现出了较大的优势。但是，在基于卷积神经网络的目标检测过程中，考虑不同的成像条件，可能会使得同一类目标在所拍摄到的图像上呈现出较大的尺度差异。例如，在拍摄装置与目标较为接近的情况下，目标在所拍摄到的图像中占比会较大；而在拍摄装置与目标较远时，目标在所拍摄到的图像中的尺寸往往非常小。这可能导致常用的基于卷积神经网络的目标检测方法在处理包含不同尺度的图像，特别是包含尺度较小的目标的图像时，检测性能较差，精确度不高。

为了提高基于卷积神经网络的目标检测方法的准确性，本发明实施例提供了一种图像处理方法、装置和计算机可读存储介质。具体地，本发明实施例提出的目标检测方法可以具有一级或多级处理过程，其中，每一级处理过程中都可以包含多个不同尺度的图像特征，并可以根据多个不同尺度的图像特征生成检测结果。图1示出了根据本发明实施例的图像处理方法的其中一级处理过程的示意图。具体地，图1的左半部分示出了该级处理过程的编码过程，图1的右半部分示出了该级处理过程的解码过程。其中，可以假设输入图像的尺度为256×256，这里的输入图像可以经过逐级的下采样操作获得从左至右的多个不同尺度的图像特征，这里获得的图像特征为编码图像特征，具体到图1中，编码图像特征的尺度例如可以包括输入图像的256×256，以及下采样操作后得到的128×128、64×64、32×32和16×16。相应地，在图1中，随后可以通过解码过程的逐级上采样操作，而获得多个不同尺度的解码图像特征，并生成这一级的检测结果。图1中的解码图像特征的尺度也可以同样包括16×16、32×32、64×64、128×128和256×256。

可选地，当根据本发明实施例的图像处理方法具有多级处理过程时，其可以包括多个如图1所示的处理过程的组合。图2示出了根据本发明实施例的图像处理方法的多级处理过程的示意图。在图2中，图像处理方法包含有四级处理过程。其中，每一级处理过程均包括左侧的编码过程和右侧的解码过程，其输入图像的尺度可以均为256×256。每一级的编码过程中根据输入图像逐级下采样操作和解码过程中逐级上采样操作的具体方式与图1相应的描述相类似，在此不再赘述。在图2中，前三级处理过程所输出的可以作为中间检测结果，并且中间检测结果可以输入下一级处理过程，以进一步通过多级处理过程提高目标检测的准确度。

以上图1和图2中所示的图像处理方法的处理过程仅为示例，在实际应用中，可以采用任何本领域能够相互替换的输入内容、处理方式、检测结果等，在此不对本发明实施例的具体应用方式进行限制。例如，在本发明实施例中，可以利用现有的输入图像作为输入图像，也可以将由某一个或多个神经网络中的任一中间层的输出或中间检测结果作为输入图像。可选地，上述示出的各图像特征(包括编码图像特征和/或解码图像特征)的尺度可以不是其实际尺度，而仅用于代表各图像特征之间的尺度的比例关系。例如，在输入图像的尺度为1024×1024的情况下，各下采样操作得到的编码图像特征的尺度可以是512×512、256×256、128×128、64×64；当然解码图像特征也同样可以具有相同或不同的尺度。这里所说的图像尺度可以是以像素为单位的尺度，因此，输入图像或各图像特征的尺度越大可以意味着其分辨率越高。

此外，在图1、图2中，仅示出了将输入图像变换为多个不同尺度的图像特征一种可能的示例，本领域技术人员可以理解，通过调整用于对输入图像进行变换的神经网络的参数，可以生成更多或更少个不同尺度的图像特征，例如，2个、3个、4个或多于5个图像特征。此外，通过调整上述神经网络的参数也可以生成不同尺寸的图像特征。例如，以生成5个尺度的图像特征为例，各个尺度之间的图像尺寸之间可以是根据2倍、3倍或任意倍数的等比关系。又例如，各个尺度之间的图像尺寸之间也可以不存在比例关系。也就是说，可以将输入图像变换为具有互不相同的尺寸的图像特征，各图像特征的尺寸可以根据实际需要任意设置。

可选地，图1、图2中所示的编码过程可以由神经网络中的编码器实现，解码过程也可以由神经网络中的解码器实现。在图1或图2的每一级处理过程中，既可以同时包括编码过程和解码过程，也可以仅包括编码过程和解码过程的其中之一。也就是说，在图1或图2所示的神经网络结构中，可以在其中一级卷积神经网络中包含编码器和解码器二者，也可以仅包括编码器或解码器其中之一，在此不做限制。

在图1和图2所示的基于神经网络的图像处理方法的基础上，提供根据本发明实施例的图像处理方法、装置和计算机可读存储介质。下面将参照图3描述根据本发明实施例的图像处理方法。本发明实施例的图像处理方法既可以应用于静态图像，也可以应用于随时间变化的视频中的视频帧等，在此不做限制。图3示出该图像处理方法300的流程图。

如图3所示，在步骤S301中，根据输入图像生成多个不同尺度的图像特征。

在本步骤中，如前所述，输入图像可以来自某一个或多个神经网络中的任一中间层的输出或中间检测结果，也可以来自所获取的原始输入图像，例如可以是利用诸如照相机、摄像机等图像采集装置所获取的二维图像或者视频中截取的二维的帧图像。

另外，根据所述输入图像生成多个不同尺度的图像特征的过程可以包括编码过程和解码过程的至少一种。相应地，所生成的多个不同尺度的图像特征也可以包括利用下采样操作获得的多个不同尺度的编码图像特征，利用上采样操作获得的多个不同尺度的解码图像特征中的至少一种。

在步骤S302中，根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征。

在本步骤中，第一尺度的混合图像特征可以由多个不同尺度的编码图像特征所确定，也可以由多个不同尺度的解码图像特征所确定，也就是说，所述第一尺度的混合图像特征可以仅由编码侧一侧确定，也可以仅由解码侧一侧确定。当然，第一尺度的混合图像特征同样可以由一个或多个不同尺度的编码图像特征结合一个或多个不同尺度的解码图像特征共同确定。用于确定第一尺度的混合图像特征的编码图像特征和/或解码图像特征的尺度可以包含所述第一尺度，也可以不包含所述第一尺度，在此不做限制。

在确定第一尺度的混合图像特征的过程中，可以对于尺度大于所述第一尺度的图像特征进行下采样操作，和/或对于尺度小于所述第一尺度的图像特征进行上采样操作，得到至少一个处理后的第一尺度的图像特征。例如，尺度为128×128的混合图像特征可以包括：尺度为256×256的图像特征经下采样操作和/或尺度为64×64的图像特征经上采样操作得到的处理后的尺度为128×128的图像特征。可选地，在确定第一尺度的混合图像特征的过程中，可以将所有尺度与所述第一尺度不同的图像特征，经上采样和/或下采样操作直接得到相应的处理后的第一尺度的图像特征；也可以首先经上采样和/或下采样操作得到与第一尺度不同的处理后的第二尺度的图像特征，再根据所述处理后的第二尺度的图像特征得到第一尺度的混合图像特征。其中，在根据所述处理后的第二尺度的图像特征得到第一尺度的混合图像特征时，可以首先利用与第一尺度相类似的方法，根据处理后的第二尺度的图像特征得到第二尺度的混合图像特征，再根据第二尺度的混合图像特征经上采样和/或下采样操作得到处理后的第一尺度的图像特征。当然，上述经过一个步骤或两个步骤得到处理后的第一尺度的图像特征的方式均为示例，在实际应用中，还可以利用类似的方法，采用更多步骤来获取所述处理后的第一尺度的图像特征，在此不再赘述。

在得到处理后的第一尺度的图像特征之后，可以根据至少一个处理后的第一尺度的图像特征，得到至少第一尺度的混合图像特征。具体地，可以仅根据一个或多个处理后的第一尺度的图像特征，得到第一尺度的混合图像特征；也可以将一个或多个处理后的第一尺度的图像特征，结合第一尺度的编码图像特征和/或解码图像特征，共同得到第一尺度的混合图像特征，在此不做限制。

在本发明的一个示例中，所述第一尺度的混合图像特征的通道数，可以与所述多个不同尺度的图像特征中第一尺度的图像特征的通道数相同。也就是说，第一尺度的混合图像特征的通道数，可以等于第一尺度的编码图像特征和/或解码图像特征的通道数。在处理并获得第一尺度的混合图像特征的过程中，如果通道数与第一尺度的编码图像特征和/或解码图像特征的通道数不同，可以将所获得的第一尺度的混合图像特征的各个通道进行混合重排，以从中选取与第一尺度的编码图像特征和/或解码图像特征的通道数相同的通道，构成所述第一尺度的混合图像特征。当然，上述做法仅为示例，在实际应用的过程中，第一尺度的混合图像特征的通道数也可以大于或小于第一尺度的编码图像特征和/或解码图像特征的通道数，在此不做限制。

在本发明的一个示例中，可以仅针对第一尺度得到第一尺度的混合图像特征，还可以进一步根据与第一尺度不同的其他一个或多个尺度得到相应尺度的混合图像特征，例如，第一尺度为128×128，则还可以进一步获得其他尺度的混合图像特征，如可以分别获取尺度为256×256和64×64的混合图像特征。在一个示例中，可以针对多个不同尺度中的每个尺度均确定相应的混合图像特征。这些所得到的混合图像特征中的至少一部分可以用来进行后续的目标检测。针对其他尺度的混合图像特征的获取方式与第一尺度的过程类似，在此不再赘述。

可选地，本发明实施例的图像处理方法中至少第一尺度的混合图像特征的确定过程也可以包括多级处理过程。其中，确定至少第一尺度的混合图像特征可以包括第一级处理过程，在第一级处理过程中，可以至少根据所述多个不同尺度的图像特征生成第一检测结果，所述第一检测结果至少用于确定所述至少第一尺度的混合图像特征。

此外，确定至少第一尺度的混合图像特征还可以包括至少一个第二级处理过程：在第二级处理过程中，可以至少根据上一级多个不同尺度的图像特征和上一级的检测结果，得到多个不同尺度的增强图像特征，并生成当前处理过程的中间检测结果，所述中间检测结果至少用于确定所述至少第一尺度的混合图像特征。可选地，多个不同尺度的增强图像特征可以根据其来源不同，包括增强的编码图像特征和/或增强的解码图像特征，其中，至少一个尺度的增强图像特征可以是根据该尺度的中间混合图像特征得到的，中间混合图像特征可以根据上一级多个不同尺度的图像特征中的至少两个不同尺度的图像特征所确定。中间混合图像特征的具体确定方式与前述混合图像特征的确定方式类似，在此不再赘述。在本发明的一个示例中，第一级处理过程和每一个第二级处理过程所获得的检测结果，都可以作为下一级处理过程的输入的至少一部分，以使得这种多级检测过程能够进一步提高本发明的图像处理方法的目标检测的精度。

可选地，在本发明实施例的多级处理过程的示例中，每一个第二级处理过程中所使用的增强图像特征的尺度数量，都可以与上一级处理过程中所使用的图像特征的尺度数量相同或不同。在本发明一个示例中，多级处理过程中的每一个第二级处理过程均可以处理相同的多个尺度的增强的编码图像特征和/或增强的解码图像特征。在本发明另一个示例中，多级处理过程中的某一级处理过程也可以处理与其他级不同的尺度的增强的编码图像特征和/或增强的解码图像特征。

例如，第二级处理过程中所使用的增强图像特征的尺度数量，可以与上一级处理过程中所使用的图像特征的尺度数量相同，并且具体的尺度可以部分重合。可选地，第二级处理过程中所使用的增强图像特征的最小尺度可以小于上一级处理过程中所使用的图像特征的最小尺度。在一个示例中，第二级处理过程所处理的增强图像特征的尺度可以包括512×512、256×256、128×128，其上一级处理过程所处理的图像特征的尺度则可以包括1024×1024、512×512、256×256，此外，其下一级处理过程所处理的图像特征的尺度可以包括256×256、128×128、64×64。通过针对图像特征的尺度进行部分选择和相应的处理，能够进一步节省图像处理的处理步骤和计算成本，有效提高目标检测的效率。这里所列举的各尺度的数量和大小选择仅为示例，在实际应用中，可以根据需要针对各级处理过程选择适合的尺度数量和大小等，在此不做限制。

在步骤S303中，至少根据所述至少第一尺度的混合图像特征进行目标检测。

在本发明的一个示例中，可以根据至少第一尺度的混合图像特征进行编码和解码，以得到目标检测的结果。在本发明的另一个示例中，也可以根据至少第一尺度的混合图像特征进行解码，以得到目标检测的结果。

可选地，当所述图像处理方法具有多级处理过程时，在本步骤的目标检测的过程中，还可以进一步结合前述第一处理过程得到的第一检测结果，和/或第二处理过程得到的一个或多个中间检测结果，共同进行目标检测。此外，当在多级处理过程的一个或多个处理过程中，仅针对其中部分尺度的图像特征进行了处理，可选地，在本步骤中可以结合之前所有处理过程得到的所有尺度的图像特征进行目标检测，以进一步提高目标检测的精度。

根据本发明实施例的图像处理方法，能够利用多个不同尺度的图像特征确定其中一个或多个尺度的混合图像特征，并根据所确定的混合图像特征进行目标检测。这种图像处理方法能够有效利用多个尺度的图像特征之间信息的交互性，进一步提高多尺度目标检测精度。

此外，根据本发明实施例的图像处理方法，在进行多级处理时，可以在每一级处理过程中从全部尺度中提取其中的部分尺度进行图像处理，从而减少了图像处理的处理步骤和计算成本，有效提高了目标检测的效率。

下面参照图4描述根据本发明实施例的图像处理方法。本发明实施例的图像处理方法既可以应用于静态图像，也可以应用于随时间变化的视频中的视频帧等，在此不做限制。图4示出该图像处理方法400的流程图。

在步骤S401中，获取输入图像。

在本步骤中，输入图像可以来自某一个或多个神经网络中的任一中间层的输出或中间检测结果，也可以来自所获取的原始输入图像，例如可以是利用诸如照相机、摄像机等图像采集装置所获取的二维图像或者视频中截取的二维的帧图像。

在步骤S402中，将所述输入图像利用神经网络进行目标检测。其中，所述神经网络是通过如下方式训练的：根据输入的训练图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征对所述神经网络进行训练，调整所述神经网络的参数。

在本步骤中，可以将输入图像利用神经网络进行目标检测，从而获取目标检测的结果。其中，这里的神经网络的训练方式与图3中所述的过程类似，也就是说，可以将标记过的用于训练的输入图像利用图3所示的过程进行目标检测，得到目标检测的结果，并调整神经网络的参数。其中，本发明实施例中的神经网络的训练可以通过输入大量的用于训练的输入图像来对神经网络的参数进行多次更新和迭代，以尽量使得训练得到的目标检测结果与所标记的真实结果之间的差别最小。具体的操作方法参见图3所述，在此不再赘述。

根据本发明实施例的图像处理方法，能够在神经网络的训练过程中，利用多个不同尺度的图像特征确定其中一个或多个尺度的混合图像特征，并根据所确定的混合图像特征进行神经网络的训练。这种图像处理方法能够有效利用多个尺度的图像特征之间信息的交互性，进一步提高多尺度目标检测精度。

此外，根据本发明实施例的图像处理方法，在神经网络的训练过程中进行多级处理时，可以在每一级处理过程中从全部尺度中提取其中的部分尺度进行图像处理，从而减少了图像处理的处理步骤和计算成本，有效提高了神经网络训练和目标检测的效率。

第一示例

图5示出了根据本发明实施例的图像处理方法的具体示例的示意图。在图5所示的图像处理方法中，共具有3级处理过程。其中，每一级处理过程中均包含多个不同尺度的图像特征，并根据多个不同尺度的图像特征生成最终的检测结果。

具体地，在第一级处理过程中，可以输入原始的输入图像。这里的输入图像的尺度为256×256。随后，根据输入图像利用下采样操作获得另外2个不同尺度的编码图像特征，其尺度分别为128×128和64×64。最后，利用上采样操作共获得3个不同尺度的解码图像特征，其尺度分别为64×64、128×128和256×256，并输出第一检测结果。如图5所示，这里所输出的第一检测结果可以作为第二级处理过程的输入，以进一步提高目标检测的精度，此外还可以在训练过程中利用第一检测结果调整相应的损失函数L。

在第二级处理过程中，首先需要根据第一级处理过程中的编码图像特征得到的中间混合图像特征、第一检测结果共同获得第二级处理过程中的增强图像特征，在本示例中，所获得的中间混合图像特征、增强图像特征均为编码侧的编码图像特征。在其余示例中，也可以分别针对解码侧或编码和解码两侧进行处理，在此不再赘述。

具体地，尺度为256×256的中间混合编码图像特征可以包括：第一级处理过程中的尺度为256×256的输入图像，尺度为128×128的编码图像特征经上采样操作和尺度为64×64的编码图像特征经上采样操作共同组成的。同理，尺度为128×128的中间混合编码图像特征可以包括：第一级处理过程中的尺度为128×128的编码图像特征，尺度为256×256的输入图像经下采样操作和尺度为64×64的编码图像特征经上采样操作共同组成的；而尺度为64×64的中间混合编码图像特征可以包括：第一级处理过程中的尺度为64×64的编码图像特征，尺度为128×128的编码图像特征经下采样操作和尺度为256×256的输入图像经下采样操作共同组成的。在本示例中，每个尺度的中间混合编码图像特征均是上一级处理过程中所有编码图像特征组成的，在其余示例中，也可以根据其中一部分编码图像特征组成部分尺度的中间混合编码图像特征。

在第二级处理过程中，在得到中间混合编码图像特征之后，可以经过与第一检测结果的混合，共同得到第二级的增强的编码图像特征。具体地，如

图5所示，尺度为256×256的增强的编码图像特征可以根据尺度为256×256的中间混合编码图像特征与第一检测结果经卷积得到；尺度为128×128的增强的编码图像特征可以根据尺度为256×256的增强的编码图像特征经下采样后，与尺度为128×128的中间混合编码图像特征进行卷积得到；同理，尺度为64×64的增强的编码图像特征可以根据尺度为128×128的增强的编码图像特征经下采样后，与尺度为64×64的中间混合编码图像特征进行卷积得到。在第二级处理过程中，经解码后得到的结果为中间检测结果，同样可以作为第三级处理过程的输入，并可以据此在训练过程中利用第一检测结果调整相应的损失函数L。

在第三级处理过程中，可以根据与第二级中获得中间混合图像特征相类似的方式，获得第三级编码侧的混合图像特征，也即前述步骤S302中的至少第一尺度的混合图像特征。在本示例中，在第三级所获得的混合图像特征的尺度包括256×256、128×128和64×64。在获得3个尺度的混合图像特征之后，可以根据与第二级类似的方式进行处理，得到第三级的编码侧的增强图像特征，并对此再次进行解码，以得到最终的目标检测结果并输出。

可见，在图5所示的示例中，每一级的编码侧、解码侧所使用的图像特征的尺度均相同，并且每一级也均包含了编码操作和解码操作两种操作过程。本示例通过各级处理过程中不同尺度的图像特征的相互混合，以及与中间过程的检测结果的融合，能够显著提高多尺度目标检测的精度。

第二示例

图6示出了根据本发明实施例的图像处理方法的另一具体示例的示意图。在图6所示的图像处理方法的示例与图5所示的示例类似，在此仅描述图6和图5中示例的不同之处以作说明。

在图6中，共包括4级处理过程。与图5相类似地，每一级处理过程中均包含多个不同尺度的图像特征，并最终根据多个不同尺度的图像特征生成目标检测结果。图6中的第二级处理过程和第三级处理过程均为中间阶段的处理过程，其编码侧的增强图像特征也都是根据上一级的中间混合图像特征和上一级检测结果获得的。在图6的示例中，所获得的中间混合图像特征、增强图像特征也均为编码侧的编码图像特征。在其余示例中，同样可以针对解码侧或分别针对编码和解码两侧进行处理，在此不再赘述。

在图6所示的第二级处理过程中，在编码侧所获得的增强图像特征包括了四个尺度，即尺度为256×256、128×128、64×64和32×32的增强的编码图像特征。其中，尺度为256×256、128×128和64×64的增强的编码图像特征的获取方式如图5所述，而尺度为32×32的增强的编码图像特征是通过尺度为64×64的增强的编码图像特征经下采样操作得到的。此外，第二级处理过程的解码侧也仅包括尺度为32×32、64×64和128×128的解码图像特征，不再如上一级一样，生成尺度为256×256的解码图像特征。

类似地，在图6所示的第三级处理过程中，在编码侧所获得的增强图像特征包括尺度为128×128、64×64、32×32和16×16的增强的编码图像特征(对尺度为256×256的图像特征没有进行处理，在此由虚线示出)。相应的解码侧也仅包括尺度为16×16、32×32和64×64的解码图像特征。

进一步地，在图6所示的第四级处理过程中，首先根据与之前处理过程中获得中间混合图像特征相类似的方式获得混合图像特征。此处的混合图像特征不仅包括第三级中的各个尺度，也包括有第三级中没有出现的256×256的尺度，其中，当第三级处理过程中并没有处理尺度为256×256的图像特征时，可以采用第二级处理过程中的256×256尺度的图像特征，来获取这里的混合图像特征。

在第四级处理过程中，获得混合图像特征之后，可以对混合图像特征的各个尺度进行处理和解码，以得到最终的目标检测结果并输出。当然，图6中的操作方式仅为示例，在实际应用过程中，也可以在第四级处理过程中同样进行编码操作和解码操作并获得目标检测结果，在此不做限制。

可见，在图6所示的示例中，通过对每一级处理过程中图像特征的尺度数量、尺度大小的进一步简化和控制，以及通过对第四级处理过程的程序的简化，能够在有效保障目标检测精度的前提下，进一步减少图像处理的处理步骤和计算成本，提高目标检测的效率。

下面，参照图7来描述根据本发明实施例的图像处理装置。图7示出了根据本发明实施例的图像处理装置700的框图。如图7所示，图像处理装置700包括生成单元710、确定单元720和处理单元730。除了这些单元以外，图像处理装置700还可以包括其他部件，然而，由于这些部件与本发明实施例的内容无关，因此在这里省略其图示和描述。此外，由于根据本发明实施例的图像处理装置700执行的下述操作的具体细节与在上文中参照图3描述的细节相同，因此在这里为了避免重复而省略对相同细节的重复描述。

图7中的图像处理装置700的生成单元710根据输入图像生成多个不同尺度的图像特征。

如前所述，输入图像可以来自某一个或多个神经网络中的任一中间层的输出或中间检测结果，也可以来自所获取的原始输入图像，例如可以是利用诸如照相机、摄像机等图像采集装置所获取的二维图像或者视频中截取的二维的帧图像。

另外，生成单元710根据所述输入图像生成多个不同尺度的图像特征的过程可以包括编码过程和解码过程的至少一种。相应地，所生成的多个不同尺度的图像特征也可以包括利用下采样操作获得的多个不同尺度的编码图像特征，利用上采样操作获得的多个不同尺度的解码图像特征中的至少一种。

确定单元720根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征。

第一尺度的混合图像特征可以由多个不同尺度的编码图像特征所确定，也可以由多个不同尺度的解码图像特征所确定，也就是说，所述第一尺度的混合图像特征可以仅由编码侧一侧确定，也可以仅由解码侧一侧确定。当然，第一尺度的混合图像特征同样可以由一个或多个不同尺度的编码图像特征结合一个或多个不同尺度的解码图像特征共同确定。用于确定第一尺度的混合图像特征的编码图像特征和/或解码图像特征的尺度可以包含所述第一尺度，也可以不包含所述第一尺度，在此不做限制。

在确定单元720确定第一尺度的混合图像特征的过程中，可以对于尺度大于所述第一尺度的图像特征进行下采样操作，和/或对于尺度小于所述第一尺度的图像特征进行上采样操作，得到至少一个处理后的第一尺度的图像特征。例如，尺度为128×128的混合图像特征可以包括：尺度为256×256的图像特征经下采样操作和/或尺度为64×64的图像特征经上采样操作得到的处理后的尺度为128×128的图像特征。可选地，在确定第一尺度的混合图像特征的过程中，可以将所有尺度与所述第一尺度不同的图像特征，经上采样和/或下采样操作直接得到相应的处理后的第一尺度的图像特征；也可以首先经上采样和/或下采样操作得到与第一尺度不同的处理后的第二尺度的图像特征，再根据所述处理后的第二尺度的图像特征得到第一尺度的混合图像特征。其中，在根据所述处理后的第二尺度的图像特征得到第一尺度的混合图像特征时，可以首先利用与第一尺度相类似的方法，根据处理后的第二尺度的图像特征得到第二尺度的混合图像特征，再根据第二尺度的混合图像特征经上采样和/或下采样操作得到处理后的第一尺度的图像特征。当然，上述经过一个步骤或两个步骤得到处理后的第一尺度的图像特征的方式均为示例，在实际应用中，还可以利用类似的方法，采用更多步骤来获取所述处理后的第一尺度的图像特征，在此不再赘述。

可选地，本发明实施例的图像处理装置中的确定单元720对至少第一尺度的混合图像特征的确定过程，也可以包括多级处理过程。其中，确定至少第一尺度的混合图像特征可以包括第一级处理过程，在第一级处理过程中，可以至少根据所述多个不同尺度的图像特征生成第一检测结果，所述第一检测结果至少用于确定所述至少第一尺度的混合图像特征。

此外，确定至少第一尺度的混合图像特征还可以包括至少一个第二级处理过程：在第二级处理过程中，可以至少根据上一级多个不同尺度的图像特征和上一级的检测结果，得到多个不同尺度的增强图像特征，并生成当前处理过程的中间检测结果，所述中间检测结果至少用于确定所述至少第一尺度的混合图像特征。可选地，多个不同尺度的增强图像特征可以根据其来源不同，包括增强的编码图像特征和/或增强的解码图像特征，其中，至少一个尺度的增强图像特征可以是根据该尺度的中间混合图像特征得到的，中间混合图像特征可以根据上一级多个不同尺度的图像特征中的至少两个不同尺度的图像特征所确定。中间混合图像特征的具体确定方式与前述混合图像特征的确定方式类似，在此不再赘述。在本发明的一个示例中，第一级处理过程和每一个第二级处理过程所获得的检测结果，都可以作为下一级处理过程的输入的至少一部分，以使得这种多级检测过程能够进一步提高本发明的图像处理装置的目标检测的精度。

处理单元730至少根据所述至少第一尺度的混合图像特征进行目标检测。

在本发明的一个示例中，处理单元730可以根据至少第一尺度的混合图像特征进行编码和解码，以得到目标检测的结果。在本发明的另一个示例中，处理单元730也可以根据至少第一尺度的混合图像特征进行解码，以得到目标检测的结果。

可选地，当所述图像处理装置利用神经网络的处理具有多级处理过程时，在处理单元730进行目标检测的过程中，还可以进一步结合前述第一处理过程得到的第一检测结果，和/或第二处理过程得到的一个或多个中间检测结果，共同进行目标检测。此外，当在多级处理过程的一个或多个处理过程中，仅针对其中部分尺度的图像特征进行了处理，可选地，处理单元730可以结合之前所有处理过程得到的所有尺度的图像特征进行目标检测，以进一步提高目标检测的精度。

根据本发明实施例的图像处理装置，能够利用多个不同尺度的图像特征确定其中一个或多个尺度的混合图像特征，并根据所确定的混合图像特征进行目标检测。这种图像处理装置能够有效利用多个尺度的图像特征之间信息的交互性，进一步提高多尺度目标检测精度。

此外，根据本发明实施例的图像处理装置，在进行多级处理时，可以在每一级处理过程中从全部尺度中提取其中的部分尺度进行图像处理，从而减少了图像处理的处理步骤和计算成本，有效提高了目标检测的效率。

下面，参照图8来描述根据本发明实施例的图像处理装置。图8示出了根据本发明实施例的图像处理装置800的框图。如图8所示，该装置800可以是计算机或服务器。

如图8所示，图像处理装置800包括一个或多个处理器810以及存储器820，当然，除此之外，图像处理装置800还可能包括输入装置、输出装置(未示出)等，这些组件可以通过总线系统和/或其它形式的连接机构互连。应当注意，图8所示的图像处理装置800的组件和结构只是示例性的，而非限制性的，根据需要，图像处理装置800也可以具有其他组件和结构。

处理器810可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以利用存储器820中所存储的计算机程序指令以执行期望的功能，可以包括：根据输入图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征进行目标检测。

存储器820可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器810可以运行所述程序指令，以实现上文所述的本发明的实施例的图像处理装置的功能以及/或者其它期望的功能，并且/或者可以执行根据本发明实施例的图像处理方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据。

下面，描述根据本发明实施例的计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现以下步骤：根据输入图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征进行目标检测。

下面，参照图9来描述根据本发明实施例的图像处理装置。图9示出了根据本发明实施例的图像处理装置900的框图。如图9所示，图像处理装置900包括获取单元910和处理单元920。除了这些单元以外，图像处理装置900还可以包括其他部件，然而，由于这些部件与本发明实施例的内容无关，因此在这里省略其图示和描述。此外，由于根据本发明实施例的图像处理装置900执行的下述操作的具体细节与在上文中参照图4描述的细节相同，因此在这里为了避免重复而省略对相同细节的重复描述。

图9中的图像处理装置900的获取单元910获取输入图像。

输入图像可以来自某一个或多个神经网络中的任一中间层的输出或中间检测结果，也可以来自所获取的原始输入图像，例如可以是利用诸如照相机、摄像机等图像采集装置所获取的二维图像或者视频中截取的二维的帧图像。

处理单元920将所述输入图像利用神经网络进行目标检测。其中，所述神经网络是通过如下方式训练的：根据输入的训练图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征对所述神经网络进行训练，调整所述神经网络的参数。

处理单元920可以将输入图像利用神经网络进行目标检测，从而获取目标检测的结果。其中，这里的神经网络的训练方式与图3中所述的过程类似，也就是说，可以将标记过的用于训练的输入图像利用图3所示的过程进行目标检测，得到目标检测的结果，并调整神经网络的参数。其中，本发明实施例中的神经网络的训练可以通过输入大量的用于训练的输入图像来对神经网络的参数进行多次更新和迭代，以尽量使得训练得到的目标检测结果与所标记的真实结果之间的差别最小。具体的神经网络的训练操作方法参见图3所述，在此不再赘述。

下面，参照图10来描述根据本发明实施例的图像处理装置。图10示出了根据本发明实施例的图像处理装置1000的框图。如图10所示，该装置1000可以是计算机或服务器。

如图10所示，图像处理装置1000包括一个或多个处理器1010以及存储器1020，当然，除此之外，图像处理装置1000还可能包括输入装置、输出装置(未示出)等，这些组件可以通过总线系统和/或其它形式的连接机构互连。应当注意，图10所示的图像处理装置1000的组件和结构只是示例性的，而非限制性的，根据需要，图像处理装置1000也可以具有其他组件和结构。

处理器1010可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以利用存储器1020中所存储的计算机程序指令以执行期望的功能，可以包括：获取输入图像；将所述输入图像利用神经网络进行目标检测；其中，所述神经网络是通过如下方式训练的：根据输入的训练图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征对所述神经网络进行训练，调整所述神经网络的参数。

存储器1020可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1010可以运行所述程序指令，以实现上文所述的本发明的实施例的图像处理装置的功能以及/或者其它期望的功能，并且/或者可以执行根据本发明实施例的图像处理方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据。

下面，描述根据本发明实施例的计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现以下步骤：获取输入图像；将所述输入图像利用神经网络进行目标检测；其中，所述神经网络是通过如下方式训练的：根据输入的训练图像生成多个不同尺度的图像特征；根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；至少根据所述至少第一尺度的混合图像特征对所述神经网络进行训练，调整所述神经网络的参数。

当然，上述的具体实施例仅是例子而非限制，且本领域技术人员可以根据本发明的构思从上述分开描述的各个实施例中合并和组合一些步骤和装置来实现本发明的效果，这种合并和组合而成的实施例也被包括在本发明中，在此不一一描述这种合并和组合。

注意，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述发明的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

本发明中的步骤流程图以及以上方法描述仅作为例示性的例子并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤。如本领域技术人员将认识到的，可以按任意顺序进行以上实施例中的步骤的顺序。诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。此外，例如使用冠词“一个”、“一”或者“该”对于单数的要素的任何引用不被解释为将该要素限制为单数。

另外，本文中的各个实施例中的步骤和装置并非仅限定于某个实施例中实行，事实上，可以根据本发明的概念来结合本文中的各个实施例中相关的部分步骤和部分装置以构思新的实施例，而这些新的实施例也包括在本发明的范围内。

以上所述的方法的各个操作可以通过能够进行相应的功能的任何适当的手段而进行。该手段可以包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路(ASIC)或处理器。

可以利用被设计用于进行在此所述的功能的通用处理器、数字信号处理器(DSP)、ASIC、现场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合而实现或进行所述的各个例示的逻辑块、模块和电路。通用处理器可以是微处理器，但是作为替换，该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合，例如DSP和微处理器的组合，多个微处理器、与DSP核协作的一个或多个微处理器或任何其他这样的配置。

结合本发明描述的方法或算法的步骤可以直接嵌入在硬件中、处理器执行的软件模块中或者这两种的组合中。软件模块可以存在于任何形式的有形存储介质中。可以使用的存储介质的一些例子包括随机存取存储器(RAM)、只读存储器(ROM)、快闪存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM等。存储介质可以耦接到处理器以便该处理器可以从该存储介质读取信息以及向该存储介质写信息。在替换方式中，存储介质可以与处理器是整体的。软件模块可以是单个指令或者许多指令，并且可以分布在几个不同的代码段上、不同的程序之间以及跨过多个存储介质。

在此发明的方法包括用于实现所述的方法的一个或多个动作。方法和/或动作可以彼此互换而不脱离权利要求的范围。换句话说，除非指定了动作的具体顺序，否则可以修改具体动作的顺序和/或使用而不脱离权利要求的范围。

所述的功能可以按硬件、软件、固件或其任意组合而实现。如果以软件实现，功能可以作为一个或多个指令存储在切实的计算机可读介质上。存储介质可以是可以由计算机访问的任何可用的切实介质。通过例子而不是限制，这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其他切实介质。如在此使用的，盘(disc)包括紧凑盘(CD)、激光盘、光盘、数字通用盘(DVD)、软盘和蓝光盘。

因此，计算机程序产品可以进行在此给出的操作。例如，这样的计算机程序产品可以是具有有形存储(和/或编码)在其上的指令的计算机可读的有形介质，该指令可由一个或多个处理器执行以进行在此所述的操作。计算机程序产品可以包括包装的材料。

软件或指令也可以通过传输介质而传输。例如，可以使用诸如同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或诸如红外、无线电或微波的无线技术的传输介质从网站、服务器或者其他远程源传输软件。

此外，用于进行在此所述的方法和技术的模块和/或其他适当的手段可以在适当时由用户终端和/或基站下载和/或其他方式获得。例如，这样的设备可以耦接到服务器以促进用于进行在此所述的方法的手段的传送。或者，在此所述的各种方法可以经由存储部件(例如RAM、ROM、诸如CD或软盘等的物理存储介质)提供，以便用户终端和/或基站可以在耦接到该设备或者向该设备提供存储部件时获得各种方法。此外，可以利用用于将在此所述的方法和技术提供给设备的任何其他适当的技术。

其他例子和实现方式在本发明和所附权利要求的范围和精神内。例如，由于软件的本质，以上所述的功能可以使用由处理器、硬件、固件、硬连线或这些的任意的组合执行的软件实现。实现功能的特征也可以物理地位于各个位置，包括被分发以便功能的部分在不同的物理位置处实现。而且，如在此使用的，包括在权利要求中使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本发明的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所发明的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不希望被限制到在此示出的方面，而是按照与在此发明的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不希望将本发明的实施例限制到在此发明的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种图像处理方法，包括：

根据输入图像生成多个不同尺度的图像特征；

根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；

至少根据所述至少第一尺度的混合图像特征进行目标检测。

2.如权利要求1所述的图像处理方法，其中，所述根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征包括：

对于尺度大于所述第一尺度的图像特征进行下采样操作，和/或对于尺度小于所述第一尺度的图像特征进行上采样操作，得到至少一个处理后的第一尺度的图像特征。

3.如权利要求2所述的图像处理方法，其中，所述根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征包括：

根据至少一个处理后的第一尺度的图像特征，得到至少第一尺度的混合图像特征。

4.如权利要求3所述的图像处理方法，其中，

所述第一尺度的混合图像特征的通道数，与所述多个不同尺度的图像特征中第一尺度的图像特征的通道数相同。

5.如权利要求1所述的图像处理方法，其中，所述根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征包括第一级处理过程：

在第一级处理过程中，至少根据所述多个不同尺度的图像特征生成第一检测结果，所述第一检测结果至少用于确定所述至少第一尺度的混合图像特征。

6.如权利要求5所述的图像处理方法，其中，所述根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征还包括至少一个第二级处理过程：

在第二级处理过程中，至少根据上一级多个不同尺度的图像特征和上一级的检测结果，得到多个不同尺度的增强图像特征，并生成当前处理过程的中间检测结果，所述中间检测结果至少用于确定所述至少第一尺度的混合图像特征。

7.如权利要求6所述的图像处理方法，其中，

所述第二级处理过程中所使用的增强图像特征的尺度数量，与上一级处理过程中所使用的图像特征的尺度数量相同。

8.如权利要求6所述的图像处理方法，其中，

所述第二级处理过程中所使用的增强图像特征的尺度，与上一级处理过程所使用的图像特征的尺度部分重合，并且所述第二级处理过程中所使用的增强图像特征的最小尺度小于上一级处理过程中所使用的图像特征的最小尺度。

9.一种图像处理方法，包括：

获取输入图像；

将所述输入图像利用神经网络进行目标检测；

其中，所述神经网络是通过如下方式训练的：

根据输入的训练图像生成多个不同尺度的图像特征；

至少根据所述至少第一尺度的混合图像特征对所述神经网络进行训练，调整所述神经网络的参数。

10.一种图像处理装置，包括：

生成单元，配置为根据输入图像生成多个不同尺度的图像特征；

确定单元，配置为根据所述多个不同尺度的图像特征中的至少两个不同尺度的图像特征，确定至少第一尺度的混合图像特征；

处理单元，配置为至少根据所述至少第一尺度的混合图像特征进行目标检测。

11.一种图像处理装置，包括：

处理器；和

存储器，在所述存储器中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

根据输入图像生成多个不同尺度的图像特征；

至少根据所述至少第一尺度的混合图像特征进行目标检测。

12.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现以下步骤：

根据输入图像生成多个不同尺度的图像特征；

至少根据所述至少第一尺度的混合图像特征进行目标检测。

13.一种图像处理装置，包括：

获取单元，配置为获取输入图像；以及

处理单元，配置为将所述输入图像利用神经网络进行目标检测；

其中，所述处理单元所利用的神经网络是通过如下方式训练的：

根据输入的训练图像生成多个不同尺度的图像特征；