CN109583512B

CN109583512B - 图像处理方法、装置及系统

Info

Publication number: CN109583512B
Application number: CN201811538967.XA
Authority: CN
Inventors: 杨同
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2021-05-25
Anticipated expiration: 2038-12-14
Also published as: CN109583512A

Abstract

本发明提供了一种图像处理方法、装置及系统，涉及人工智能技术领域，该方法包括：获取目标图像和多组锚点信息；锚点信息包括锚点参数以及锚点对应的类别号；将目标图像输入至特征提取网络，通过特征提取网络对目标图像进行特征提取处理，得到目标图像的特征图；将锚点信息输入至第一参数计算网络，通过第一参数计算网络对锚点信息进行非线性映射处理，得到类别预测网络的分类层网络参数；将特征图和分类层网络参数输入至类别预测网络，通过类别预测网络基于分类层网络参数对特征图进行分类处理，确定目标图像中的目标对象的类别。本发明能够有效降低目标检测模型的网络参数量。

Description

图像处理方法、装置及系统

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种图像处理方法、装置及系统。

背景技术

现有基于深度学习的目标检测方法在进行目标检测的过程中，大多需要使用锚点进行检测框预测。

一般来说，若要较为准确全面地检测出图像中的物体，需要尽可能多地增加用于预测的锚点种类。但是，现有的目标检测模型在训练过程中，随着锚点种类的增加，网络模型的参数量也会随之线性增加。模型参数量的增加不仅容易导致检测效率降低，而且也会伴随着网络训练难度的增加和模型过拟合问题。

发明内容

有鉴于此，本发明的目的在于提供一种图像处理方法、装置及系统，能够有效降低目标检测模型的网络参数量。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种图像处理方法，包括：获取目标图像和多组锚点信息；所述锚点信息包括用于目标检测的锚点的锚点参数以及所述锚点对应的类别号；不同组的所述锚点信息所包含的锚点参数不同和/或类别号不同；其中，所述锚点参数包括锚点面积和锚点长宽比；所述类别号为类别预测网络可预测物体种类的编号；将所述目标图像输入至特征提取网络，通过所述特征提取网络对所述目标图像进行特征提取处理，得到所述目标图像的特征图；将所述锚点信息输入至第一参数计算网络，通过所述第一参数计算网络对所述锚点信息进行非线性映射处理，得到所述类别预测网络的分类层网络参数；将所述特征图和所述分类层网络参数输入至所述类别预测网络，通过所述类别预测网络基于所述分类层网络参数对所述特征图进行分类处理，确定所述目标图像中的目标对象的类别。

进一步，在所述获取目标图像和多组锚点信息的步骤执行之前，所述方法还包括：获取所述类别预测网络可预测的物体种类；

按照预设的编码算法对所述可预测的物体种类进行逐一编码，得到各所述物体种类对应的类别号；其中，不同的所述物体种类对应的类别号不同。

进一步，所述获取多组锚点信息的步骤，包括：获取不同种类的锚点所对应的锚点参数；将各所述锚点参数与经编码得到的全部所述类别号分别进行组合，得到多组锚点信息。

进一步，所述编码算法包括预设位值的进制编码算法、ASCII编码算法或GB编码算法。

进一步，所述第一参数计算网络包括至少两层全连接层，所述类别预测网络包括多个卷积层；所述第一参数计算网络的末端全连接层与所述类别预测网络的末端卷积层相连；所述第一参数计算网络的末端全连接层输出的第一权值量为O₁*I₁*K₁*K₁；其中，O₁为所述类别预测网络的输出通道数，I₁为所述类别预测网络的输入通道数，K₁为所述类别预测网络的卷积核大小，且O₁的数值等于锚点参数的种数与物体种类数的乘积；所述第一权值量为所述类别预测网络的分类层网络参数；所述分类层网络参数为所述类别预测网络的末端卷积层的参数。

进一步，所述方法还包括：将所述锚点信息中所包含的锚点参数输入至第二参数计算网络，通过所述第二参数计算网络对所述锚点参数进行非线性映射处理，得到位置预测网络的回归层网络参数；将所述特征图和所述回归层网络参数输入至所述位置预测网络，通过所述位置预测网络基于所述回归层网络参数对所述特征图进行回归处理，确定所述目标图像中的目标对象的位置。

进一步，所述第二参数计算网络包括至少两层全连接层，所述位置预测网络包括多个卷积层；所述第二参数计算网络的末端全连接层与所述位置预测网络的末端卷积层相连；所述第二参数计算网络的末端全连接层输出的第二权值量为O₂*I₂*K₂*K₂；其中，O₂为所述位置预测网络的输出通道数，I₂为所述位置预测网络的输入通道数，K₂为所述位置预测网络的卷积核大小，且O₂的数值等于锚点参数的种数与预设数值的乘积；所述第二权值量为所述位置预测网络的回归层网络参数；所述回归层网络参数为所述位置预测网络的末端卷积层的参数。

第二方面，本发明实施例还提供一种图像处理装置，包括：获取模块，用于获取目标图像和多组锚点信息；所述锚点信息包括用于目标检测的锚点的锚点参数以及所述锚点对应的类别号；不同组的所述锚点信息所包含的锚点参数不同和/或类别号不同；其中，所述锚点参数包括锚点面积和锚点长宽比；所述类别号为类别预测网络可预测物体种类的编号；特征提取模块，用于将所述目标图像输入至特征提取网络，通过所述特征提取网络对所述目标图像进行特征提取处理，得到所述目标图像的特征图；分类层网络参数计算模块，用于将所述锚点信息输入至第一参数计算网络，通过所述第一参数计算网络对所述锚点信息进行非线性映射处理，得到所述类别预测网络的分类层网络参数；分类模块，用于将所述特征图和所述分类层网络参数输入至所述类别预测网络，通过所述类别预测网络基于所述分类层网络参数对所述特征图进行分类处理，确定所述目标图像中的目标对象的类别。

第三方面，本发明实施例提供了一种图像处理系统，所述系统包括：图像采集装置、处理器和存储装置；所述图像采集装置，用于采集目标图像；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。

本发明实施例提供了一种图像处理方法、装置及系统，能够首先获取目标图像和多组锚点信息(包括用于目标检测的锚点的锚点参数以及锚点对应的类别号)，然后通过特征提取网络对目标图像进行处理以得到特征图，以及通过第一参数计算网络对多组锚点信息进行处理以得到分类层网络参数，进而通过类别预测网络基于分类层网络参数对特征图进行分类处理，确定目标图像中的目标对象的类别。本实施例提供的上述方式通过将锚点参数和锚点对应的类别号作为第一参数计算网络的输入，可以使第一参数计算网络每次仅针对与一个类别对应的一种锚点进行处理，能够在一定程度上降低第一参数计算网络单次处理锚点信息的难度，从而可有效降低第一参数计算网络的参数量，网络参数量的降低有助于提升检测效率，降低训练难度并改善网络过拟合问题。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图；

图2示出了本发明实施例所提供的一种图像处理方法流程图；

图3示出了本发明实施例所提供的第一种目标检测模型的结构示意图；

图4示出了本发明实施例所提供的第二种目标检测模型的结构示意图；

图5示出了本发明实施例所提供的第三种目标检测模型的结构示意图；

图6示出了本发明实施例所提供的第四种目标检测模型的结构示意图；

图7示出了本发明实施例所提供的一种图像处理装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的目标检测模型因为所需锚点种类数量过多而导致网络参数量较多，从而引发诸如效率低下、训练难度增加以及过拟合等多种问题。基于此，本发明实施例提供了一种图像处理方法、装置及系统，以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的图像处理方法、装置及系统的示例电子设备100。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的一种图像处理方法、装置及系统的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机等智能终端上。

实施例二：

参照图2所示的一种图像处理方法的流程图，该方法可由前述实施例提供的电子设备执行，该方法具体包括如下步骤：

步骤S202，获取目标图像和多组锚点信息；锚点信息包括用于目标检测的锚点的锚点参数以及锚点对应的类别号；不同组的锚点信息所包含的锚点参数不同和/或类别号不同；其中，锚点参数包括锚点面积和锚点长宽比；类别号为类别预测网络可预测物体种类的编号。

上述锚点(anchor)可以理解为以目标图像中的某个位置为中心点所选择的多个(可设置为9个、25个或其他任意个数)不同面积(scale)和长宽比(aspects)的框，该框也可理解为锚框，具体可理解为初始框或候选区域。锚点参数包括锚点面积以及锚点长宽比。一种锚点参数(scale，aspects)可表征一种锚点。例如，3种面积和3种长宽比可以组合形成9种锚点，目标图像中每个位置均可对应设置上述9种锚点；对于一幅大小为W*H的特征图(feature map)，该特征图中包括W*H个像素点，则可对应W*H*9个锚点，也即，对应W*H*9个初始框。

锚点对应的类别号为类别预测网络可预测物体种类的编号，一种类别号(可表示为M_i)表征一种物体种类；则一组锚点信息可表示为(scale，aspects，M_i)，可以理解成，每组锚点信息是一种类别号与一种锚点的组合结果。为便于理解，举例说明如下：假设类别预测网络可预测80种物体类别，则共有80个类别号；假设共用9种锚点，则9种锚点与80个类别号进行组合，可以形成720组锚点信息。在实际应用中，获取的锚点信息可以为锚点种类与类别号组合得到的全部组锚点信息，也可以是锚点种类与类别号组合得到的部分组锚点信息，具体可根据实际情况而设置，在此不进行限制。

步骤S204，将目标图像输入至特征提取网络，通过特征提取网络对目标图像进行特征提取处理，得到目标图像的特征图。

在实际应用中，特征提取网络可以为包含多个卷积层的神经网络，特征提取网络可通过采用诸如HOG(Histogram of Oriented Gradient，方向梯度直方图)特征提取算法、LBP(Local Binary Pattern，局部二值模式)特征提取算法、Haar-like特征提取算法等提取算法对目标图像进行特征提取处理，得到目标图像的特征图。特征提取网络的结构以及具体提取方式在此不进行限制。

步骤S206，将锚点信息输入至第一参数计算网络，通过第一参数计算网络对锚点信息进行非线性映射处理，得到类别预测网络的分类层网络参数。

第一参数计算网络可以与类别预测网络相连，并向类别预测网络输出计算得到的分类层网络参数。

可以理解的是，应用锚点进行目标检测是现有基于深度学习的目标检测模型的常用方式。为了在锚点种类较多的情况下降低网络处理难度，减少网络参数量，本实施例将类别号和锚点种类相结合，即便同一锚点种类也会因对应的类别号不同而划分为多组锚点信息，这种方式可以降低第一参数计算网络处理每组锚点信息的难度，可有效降低第一参数计算网络的参数量，使得本实施例中的第一参数计算网络成为一种轻量级网络结构，使得网络内存需求低、运算量较小以及检测效率较高，也在一定程度上降低了网络训练难度，缓解了网络过拟合问题。

步骤S208，将特征图和分类层网络参数输入至类别预测网络，通过类别预测网络基于分类层网络参数对特征图进行分类处理，确定目标图像中的目标对象的类别。

具体实施时，本实施例中的类别预测网络又可称为分类神经网络，主要用于基于特征图确定目标图像中目标对象的类别。类别预测网络可以分别与特征提取网络和第一参数计算网络相连；类别预测网络的输入为特征图和分类层网络参数，类别预测网络的输出为目标图像的类别检测结果，即目标图像中的目标对象的类别。

本发明实施例提供了一种图像处理方法，能够首先获取目标图像和多组锚点信息(包括用于目标检测的锚点的锚点参数以及锚点对应的类别号)，然后通过特征提取网络对目标图像进行处理以得到特征图，以及通过第一参数计算网络对多组锚点信息进行处理以得到分类层网络参数，进而通过类别预测网络基于分类层网络参数对特征图进行分类处理，确定目标图像中的目标对象的类别。本实施例提供的上述方式通过将锚点参数和锚点对应的类别号作为第一参数计算网络的输入，可以使第一参数计算网络每次仅针对与一个类别对应的一种锚点进行处理，能够在一定程度上降低第一参数计算网络单次处理锚点信息的难度，从而可有效降低第一参数计算网络的参数量，网络参数量的降低有助于提升检测效率，降低训练难度并改善网络过拟合问题。

为便于理解，本实施例给出一种生成类别号的具体实施方式：获取类别预测网络可预测的物体种类；按照预设的编码算法对可预测的物体种类进行逐一编码，得到各物体种类对应的类别号；其中，不同的物体种类对应的类别号不同。

可以理解的是，类别预测网络可预测的物体种类通常有多种，比如M＝2，M＝80，M＝2000等。采用预设的编码算法对M个物体种类依次进行编号，确定类别号M_i，比如当采用的编码算法为二进制编码算法时，对第一个物体种类进行编码后的类别号为M₁＝1，第二个物体种类进行编码后的类别号为M₂＝10，以此类推，M₃＝11，……，M₈₀＝1010000，完成全部物体种类的编码。当采用的编码算法为十进制编码算法时，对第一个物体种类进行编码后的类别号为M₁＝1，第二个物体种类进行编码后的类别号为M₂＝2，以此类推，M₃＝3，……，M₈₀＝80，完成全部物体种类的编码。

此外，预设的编码算法还可以采用诸如十六进制编码算法、二十四进制编码算法等预设位值的进制编码算法、以及ASCII编码算法或GB编码算法等，在此不再依次示例。

基于锚点对应的类别号，本实施方式中获取多组锚点信息的步骤，包括：获取不同种类的锚点所对应的锚点参数；以及，将各锚点参数与经编码得到的全部类别号分别进行组合，得到多组锚点信息。

获取由不同面积和不同长宽比组合形成多组锚点参数，比如由面积s1、s2和长宽比a1、a2组成的4种锚点参数为：(s1，a1)、(s1，a2)、(s2，a1)、(s2，a2)。将上述锚点参数与2类物体种类的类别号：M₁＝1、M₂＝10分别进行组合，得到的多组锚点信息可以表示为：[{(s1，a1，1)、(s1，a2，1)、(s2，a1，1)、(s2，a2，1)}、{(s1，a1，10)、(s1，a2，10)、(s2，a1，10)、(s2，a2，10)}]，或者表示为：{(s1,a1)₁，(s1,a2)₁，(s2,a1)₁，(s2,a2)₁，(s1,a1)₁₀，(s1,a2)₁₀，(s2,a1)₁₀，(s2,a2)₁₀}。

为了较好地增加锚点种类，提升物体样本覆盖率，尽可能地覆盖到各种长宽比例的物体，锚点参数的数量可扩充为较多的组数，比如，对已有的多种原始锚点参数通过中间插值方式和/或两端延伸方式等扩充方式获取预设数量的锚点参数。

其中，中间插值方式可以理解为：

假设已有3种锚点长宽比{2:5，4:5，7:5}和3种锚点面积{2⁰，2^1/3，2^2/3}组成的9种锚点参数。对上述9种锚点参数按照锚点面积和/或锚点长宽比的大小进行排列，诸如，将锚点长宽比从小到大排列为{2:5，4:5，7:5}；在相邻的两个原始锚点参数中间进行插值处理，诸如，在2:5和4:5之间可以插值有1:2、3:5、7:10等众多新的锚点长宽比，进而增加一个或多个新锚点参数，直至达到预设类别号量的锚点参数。关于锚点面积的差值也是类似，在此不再赘述。

其中，两端延伸方式可以理解为：

假设已有3种锚点长宽比{2:5，4:5，7:5}和3种锚点面积{2⁰，2^1/3，2^2/3}组成的9种锚点参数。确定上述9种锚点参数中的最大锚点面积2^2/3、最小锚点面积2⁰、最大锚点长宽比2:1和最小锚点长宽比1:2。增加锚点面积大于最大锚点面积2^2/3的新锚点参数，诸如2、2²、2^5/2等，和/或，增加锚点面积小于最小锚点面积2⁰的新锚点参数，诸如2^-1、2^-2、2^-3等，和/或，增加锚点长宽比大于最大锚点长宽比2:1的新锚点参数，诸如3:1、4:1、5:1等，和/或，增加锚点长宽比小于最小锚点长宽比的新锚点参数，诸如1:3、1:4、2:5等；直至达到预设类别号量的锚点参数。

可以理解的是，本实施例提及的上述特征提取网络、第一参数计算网络和类别预测网络可组合为目标检测模型，本实施例给出了目标检测模型的若干种实施方式，具体说明如下：

实施方式一：

参照图3所示的第一种目标检测模型的结构示意图，该目标检测模型包括特征提取网络，与特征提取网络相连的类别预测网络，以及与类别预测网络相连的第一参数计算网络。

其中，特征提取网络的输入为目标图像，特征提取网络的输出为目标图像的特征图；第一参数计算网络的输入为锚点信息，第一参数计算网络的输出为类别预测网络的分类层网络参数；类别预测网络的输入为特征图和分类层网络参数，类别预测网络的输出为目标图像中目标对象的类别。

上述步骤S204可以参照如下步骤执行：通过特征提取网络对输入的目标图像进行特征提取，得到目标图像的特征图，并将特征图输入至类别预测网络。具体的，该特征提取网络为用于特征提取的主网络，可以包括多个卷积层。

上述步骤S206可以参照如下步骤执行：将多组锚点信息输入至第一参数计算网络，基于类别号并通过第一参数计算网络分次对各组锚点信息进行非线性映射处理，完成全部锚点信息的处理后得到分类预测网络的分类层网络参数。本实施方式所提供的参数处理方式，通过将锚点参数和锚点对应的类别号作为第一参数计算网络的输入，可以使第一参数计算网络每次仅针对与一个类别号对应的一种锚点进行处理，能够在一定程度上降低第一参数计算网络单次处理锚点信息的难度，从而可有效降低第一参数计算网络的参数量，网络参数量的降低有助于，提升检测效率，降低训练难度并改善网络过拟合问题。

上述步骤S208可以参照如下步骤执行：通过类别预测网络基于分类层网络参数对特征图进行分类处理，确定目标图像中的目标对象的类别。类别预测网络可由多个卷积层构成，由最后的卷积层输出分类结果(也即，目标对象的类别)。

相比于常规的目标检测模型中的参数计算网络，仅将锚点参数作为输入，缺少考虑锚点对应的类别号，进而只能对锚点参数进行集中处理，造成训练难度高、容易出现过拟合。本实施例提供的目标检测模型的结构优势在于，通过将锚点参数和锚点对应的类别号作为第一参数计算网络的输入，可以使第一参数计算网络每次仅针对与一个类别号对应的一种锚点进行处理，能够在一定程度上降低第一参数计算网络单次处理锚点信息的难度，从而可有效降低第一参数计算网络的参数量，网络参数量的降低有助于提升检测效率，降低训练难度并改善网络过拟合问题。

实施方式二：

参见图4所示的第二种目标检测模型的结构示意图，在实施方式一提供的目标网络模型的基础上，还设置了与特征提取网络相连的位置预测网络，以及与位置预测网络相连的第二参数计算网络。

其中，第二参数计算网络的输入为锚点信息中所包含的锚点参数，第二参数计算网络的输出为位置预测网络的回归层网络参数；位置预测网络的输入为特征图和回归层网络参数，位置预测网络的输出为目标图像中目标对象的位置。

特征提取网络、第一参数计算网络和类别预测网络所实现的功能与方式一相同，在此不再赘述。第二参数计算网络和位置预测网络所执行的步骤包括：

步骤1，将锚点信息中所包含的锚点参数输入至第二参数计算网络，通过第二参数计算网络对锚点参数进行非线性映射处理，得到位置预测网络的回归层网络参数。

步骤2，将特征图和回归层网络参数输入至位置预测网络，通过位置预测网络基于回归层网络参数对特征图进行回归处理，确定目标图像中的目标对象的位置。

具体的，位置预测网络可由多个卷积层构成，由最后的卷积层输出回归结果(也即，目标对象的位置)。

实施方式三：

参见图5所示的第三种目标检测模型的结构示意图，在实施方式一提供的目标网络模型的基础上，示意出了第一参数计算网络和第二参数计算网络均包括至少两层全连接层(Fully Connected layer，FC)；类别预测网络和位置预测网络均包括多个卷积层。其中，类别预测网络的末端卷积层为分类层网络Cls；位置预测网络的末端卷积层为回归层网络Reg。

在本实施方式中，第一参数计算网络包括至少两层全连接层，类别预测网络包括多个卷积层；第一参数计算网络的末端全连接层与类别预测网络的末端卷积层相连；第一参数计算网络的末端全连接层输出的第一权值量W₁为O₁*I₁*K₁*K₁；其中，O₁为类别预测网络的输出通道数，I₁为类别预测网络的输入通道数，K₁为类别预测网络的卷积核大小，且O₁的数值等于锚点参数的种数与物体种类数的乘积；第一权值量W₁为类别预测网络的分类层网络参数；分类层网络参数为类别预测网络的末端卷积层的参数。

可以理解的是，位置预测网络与类别预测网络相同；即，第二参数计算网络包括至少两层全连接层，位置预测网络包括多个卷积层；第二参数计算网络的末端全连接层与位置预测网络的末端卷积层相连；第二参数计算网络的末端全连接层输出的第二权值量W₂为O₂*I₂*K₂*K₂；其中，O₂为位置预测网络的输出通道数，I₂为位置预测网络的输入通道数，K₂为位置预测网络的卷积核大小，且O₂的数值等于锚点参数的种数与预设数值的乘积；第二权值量W₂为位置预测网络的回归层网络参数；回归层网络参数为位置预测网络的末端卷积层的参数。

考虑到网络的拟合能力与层数或者网络的宽度呈正相关，为了使参数计算网络具有更强的拟合能力，设置第一参数计算网络和第二参数计算网络均包括至少两层全连接层。在图5中为第一参数计算网络和第一参数计算网络均示出相连的输入层、第一全连接层FC1、第二全连接层FC2，其中，第二全连接层FC2为末端全连接层；在图5中为类别预测网络示出5个卷积层，分别为4个卷积层C，还有末端用于输出类别结果的卷积层Cls；位置预测网络示出5个卷积层，分别为4个卷积层C，还有末端用于输出位置结果的回归层Reg。在本实施方式中的目标网络模型中，通过第一参数计算网络的第二全连接层FC2(也即，末端全连接层)与类别预测网络的最后一个卷积层Cls(也即，上述类别结果输出层)相连，由第一参数计算网络中末端全连接层直接向结果输出层提供分类层网络参数；通过第二参数计算网络的第二全连接层FC2(也即，末端全连接层)与位置预测网络的最后一个卷积层Reg(也即，上述位置结果输出层)相连，由第二参数计算网络中末端全连接层直接向位置输出层提供回归层网络参数。这种简单的连接方式即可满足目标检测模型基于较多锚点种类进行目标识别的需求，而且调整参数量较少，调整难度较低，当然，在实际应用中连接方式并不局限于此。

具体的，第一参数计算网络的末端全连接层输出的第一权值量W₁为类别预测网络的分类层网络参数，分类层网络参数与类别预测网络的输出通道数O₁、输入通道数I₁和卷积核大小K₁相关；其中，类别预测网络的输出通道数O₁与输入至第一参数计算网络的锚点种类数量N₁和类别预测网络的输出类别M(也即类别预测网络可预测物体种类)相关。基于此，第一权值量W₁同分类层网络参数，均可以表示为4D向量(O₁，I₁，K₁，K₁)，其中，O₁与N₁和M相关。这里需要注意，第一参数计算网络是基于类别号分批次处理参数信息，也即每次仅对一个类别号及其对应的锚点参数进行非线性映射处理，得到当次的权值量w_i；其中，i为从1依次取值到M的自然数。因此，第一权值量

可见，在总的第一权值量W₁不变的前提下，对于每个类别号而言，第一参数计算网络的单次计算量较小，虽然需计算多次(M次)，但是每次计算所需的第一参数计算网络的参数量可直接降低至原有的1/M。回归层网络参数也可以表示为4D向量(O₂，I₂，K₂，K₂)，其中，O₂为位置预测网络的输出通道数、I₂为输入通道数，K₂为卷积核大小，O₂与N₂和预设数值相关；其中，N₂表征第二参数计算网络输入的锚点种类数量；该预设数值为位置预测网络输出的目标对象的位置参数的数量，在一种实施方式中，位置预测网络输出的位置参数有4种，分别为回归框相对于锚点的中心点(x,y)、高h和宽w的偏置，因此预设数值为4，回归层网络参数相关的输出通道数O₂＝4*N₂。

接下来对相连的第一参数计算网络和类别预测网络、相连的第二参数计算网络和位置预测网络的具体实施方式分别进行描述。

其中，相连的第一参数计算网络和类别预测网络的实施方式：

第一参数计算网络的输入为2D向量(N₁*M，2+M_i)，其中，N₁表示输入的锚点组数，2表示锚点面积和锚点长宽比两个数值，M表示物体种类数，M_i表示一个物体种类对应的类别号(如M₈₀＝1010000)。也即，第一参数计算网络的单次输入为N₁种锚点参数以及对应的一种类别号M_i；当第一参数计算网络分批次的完成对N₁种锚点参数以及对应的每种类别号M_i的非线性映射处理后，输出第一权值量。第一参数计算网络输出的第一权值量为所连接的类别预测网络的分类层网络参数，具体的，与Cls层连接的第一参数计算网络中第二全连接层FC2层输出的第一权值量为Cls层的参数。

为便于理解，以下给出一种第一参数计算网络的一种具体实施方式：

第一参数计算网络的网络结构可参照表1。

网络层	输出维度
		输入层	2
第一全连接层FC1	128
		第二全连接层FC2	2304

表1

表1中的网络层栏中列出输入层、第一全连接层FC1、第二全连接层C2；输出维度栏对应的列出了输入层的输出维度为2，第一全连接层FC1的输出维度为128，第二全连接层FC2的输出维度为2304。

对于输入至第一参数计算网络的锚点，输入层为(N₁*M)*2，经过第一全连接层FC1后，第一全连接层FC1的输出为(N₁*M)*128，再经过第二全连接层FC2，第二全连接层FC2的输出为(N₁*M)*I₁*K₁*K₁，即第一权值量。

为便于理解，以下对第一参数计算网络的输出与类别预测网络的卷积层参数的对应关系进行进一步解释说明：假设物体种类数为M＝80，卷积核大小为K₁＝3，则第一参数计算网络的第二全连接层FC2输出的第一权值量为(N₁*M)*2304，其中，2304＝1x256x3x3。应当注意的是，Cls层的分类层网络参数为4D向量(O₁，I₁，K₁，K₁)。对于第一参数计算网络的输出为(N₁*M)*2304重塑(reshape)为4D向量，即可形成输入至Cls层的分类层网络参数((N₁*M)，256，3，3)。

基于上述分析可知，对于现有的缺少考虑物体种类的参数计算网络，集中对输入的参数信息进行处理，第二全连接层FC2的输出的权值量为(N₁*M)*2304，FC2的网络参数量应该是128*(M*2304)，本实施方式提供的第一参数计算网络基于类别号将锚点信息进行分批次处理(也即，第一参数计算网络每次仅对输入的N₁种锚点参数以及对应的一种类别号M_i进行处理)，对于M个物体种类，最终第二全连接层FC2的输出的权值量仍为(N₁*M)*2304，也即可保证得到的Cls层的卷积参数不变，可由于对于每个类别而言单次计算量降低，第二全连接层FC2的参数为128*2304，变为原来的1/M，明显降低了第二全连接层FC2的参数量，也即降低了整个第一参数计算网络的参数量。

具体的，第一参数计算网络的第二全连接层FC2的输出是Cls层的卷积参数，该参数可用于对经如图5所示的类别预测网络中前4个卷积层传输过来的特征图(256*H*W维度)进行计算，具体的，Cls层的作用为将(N₁*M)*256*3*3的参数作用于一个256*H*W的特征图，得到一个(N₁*M)*H*W的最终输出结果。

另外，相连的第二参数计算网络和位置预测网络的实施方式：

第二参数计算网络的输入也为2D向量(N₂，2)，其中，N₂表示输入的锚点组数，2表示锚点面积和锚点长宽比两个数值。第二参数计算网络输出的第二权值量为所连接的位置预测网络的回归层网络参数，具体的，与Reg层连接的第二参数计算网络中第二全连接层FC2层输出的第二权值量为Reg层的参数。

为便于理解，以下给出一种第二参数计算网络的一种具体实施方式：

第二参数计算网络的网络结构可参照表2。

网络层	输出维度
		输入层	2
第一全连接层FC1	128
		第二全连接层FC2	9216

表2

表2中的网络层栏中列出输入层、第一全连接层FC1、第二全连接层C2；输出维度栏对应的列出了输入层的输出维度为2，第一全连接层FC1的输出维度为128，第二全连接层FC2的输出维度为9216。

对于输入至第二参数计算网络的锚点，输入层为N₂*2，经过第一全连接层FC1后，第一全连接层FC1的输出为N₂*128，再经过第二全连接层FC2，第二全连接层FC2的输出为N₂*I₂*K₂*K₂，即第二权值量。

为便于理解，以下对第二参数计算网络的输出与位置预测网络的卷积层参数的对应关系进行进一步解释说明：基于假设的M＝80，K₂＝3，预设数量为4，则第二参数计算网络的第二全连接层FC2输出的第二权值量为N₂*9216，其中，9216＝4x256x3x3。应当注意的是，Reg层的回归层网络参数为4D向量(O₂，I₂，K₂，K₂)。对于第二参数计算网络的输出为N₂*9216，重塑(reshape)为4D向量，即可形成Reg层的参数(4N₂，256，3，3)。

具体的，第二参数计算网络的第二全连接层FC2的输出是Reg层的卷积参数，该参数可用于位置预测网络中前4个卷积层传输过来的特征图(256*H*W维度)进行计算，具体的，Reg层的作用为将4N₂*256*3*3的参数作用于一个256*H*W的特征图，得到一个4N*H*W的最终输出结果。

应当注意的是，以上数字仅为一种具体实施方式的示意性说明，实际应用中可灵活更改，诸如，第一全连接层FC1的输出维度也可以为256或其它数值，上述类别、输出通道数、输入通道数、卷积核大小等均可设定为其它数值，第二全连接层FC2的输出维度也可相应更改，在此不再赘述。

实施方式四：

参见图6所示的第四种目标检测模型的结构示意图，在实施方式三提供的目标网络模型的基础上，图6中示意出本实施方式中的特征提取网络为特征金字塔网络(FPN，Feature Pyramid Network)，类别预测网络和位置预测网络的数量均为多个，其中，类别预测网络和位置预测网络的数量均与特征金字塔输出的特征图的尺度种类相对应。且每个类别预测网络均连接有第一参数计算网络，每个位置预测网络均连接有第二参数计算网络。具体的，图6中示意出多个网络分支，每个网络分支都包括一个类别预测网络和一个位置预测网络，也都包括与类别预测网络相连的第一参数计算网络，以及与位置预测网络相连的第二参数计算网络。网络分支的个数与特征金字塔FPN输出的特征图的尺度种类相对应。诸如，如果FPN能够输出5种尺度的特征图，则网络分支的个数为5个。不同网络分支的网络结构相同，因此图6中仅放大示意出其中的一个网络分支(具体采用图5所示的网络结构)，其它网络分支不再一一示意。

综上所述，上述目标检测方法通过将锚点参数和锚点对应的类别号作为第一参数计算网络的输入，可以使第一参数计算网络每次仅针对与一个类别对应的一种锚点进行处理，能够在一定程度上降低第一参数计算网络单次处理锚点信息的难度，从而可有效降低第一参数计算网络的参数量，网络参数量的降低有助于提升检测效率，降低训练难度并改善网络过拟合问题。

实施例三：

参见图7所示的一种图像处理装置的结构框图，该装置包括：

获取模块702，用于获取目标图像和多组锚点信息；锚点信息包括用于目标检测的锚点的锚点参数以及锚点对应的类别号；不同组的锚点信息所包含的锚点参数不同和/或类别号不同；其中，锚点参数包括锚点面积和锚点长宽比；类别号为类别预测网络可预测物体种类的编号。

特征提取模块704，用于将目标图像输入至特征提取网络，通过特征提取网络对目标图像进行特征提取处理，得到目标图像的特征图。

分类层网络参数计算模块706，用于将锚点信息输入至第一参数计算网络，通过第一参数计算网络对锚点信息进行非线性映射处理，得到类别预测网络的分类层网络参数。

分类模块708，用于将特征图和分类层网络参数输入至类别预测网络，通过类别预测网络基于分类层网络参数对特征图进行分类处理，确定目标图像中的目标对象的类别。

本发明实施例提供了一种图像处理装置，能够首先获取目标图像和多组锚点信息(包括用于目标检测的锚点的锚点参数以及锚点对应的类别号)，然后通过特征提取网络对目标图像进行处理以得到特征图，以及通过第一参数计算网络对多组锚点信息进行处理以得到分类层网络参数，进而通过类别预测网络基于分类层网络参数对特征图进行分类处理，确定目标图像中的目标对象的类别。本实施例提供的上述方式通过将锚点参数和锚点对应的类别号作为第一参数计算网络的输入，可以使第一参数计算网络每次仅针对与一个类别对应的一种锚点进行处理，能够在一定程度上降低第一参数计算网络单次处理锚点信息的难度，从而可有效降低第一参数计算网络的参数量，网络参数量的降低有助于提升检测效率，降低训练难度并改善网络过拟合问题。

在一种实施方式中，上述获取模块702包括锚点参数获取单元，用于获取不同种类的锚点所对应的锚点参数；将各锚点参数与经编码得到的全部类别号分别进行组合，得到多组锚点信息。编码算法包括预设位值的进制编码算法、ASCII编码算法或GB编码算法。

在一种实施方式中，第一参数计算网络包括至少两层全连接层，类别预测网络包括多个卷积层；第一参数计算网络的末端全连接层与类别预测网络的末端卷积层相连；第一参数计算网络的末端全连接层输出的第一权值量为O₁*I₁*K₁*K₁；其中，O₁为类别预测网络的输出通道数，I₁为类别预测网络的输入通道数，K₁为类别预测网络的卷积核大小，且O₁的数值等于锚点参数的种数与物体种类数的乘积；第一权值量为类别预测网络的分类层网络参数；分类层网络参数为类别预测网络的末端卷积层的参数。

在一种实施方式中，上述装置还可以包括：

编码模块，用于获取类别预测网络可预测的物体种类；按照预设的编码算法对可预测的物体种类进行逐一编码，得到各物体种类对应的类别号；其中，不同的物体种类对应的类别号不同。

在一种实施方式中，上述装置还可以包括：

回归模块，用于将锚点信息中所包含的锚点参数输入至第二参数计算网络，通过第二参数计算网络对锚点参数进行非线性映射处理，得到位置预测网络的回归层网络参数；将特征图和回归层网络参数输入至位置预测网络，通过位置预测网络基于回归层网络参数对特征图进行回归处理，确定目标图像中的目标对象的位置。

在一种实施方式中，第二参数计算网络包括至少两层全连接层，位置预测网络包括多个卷积层；第二参数计算网络的末端全连接层与位置预测网络的末端卷积层相连；第二参数计算网络的末端全连接层输出的第二权值量为O₂*I₂*K₂*K₂；其中，O₂为位置预测网络的输出通道数，I₂为位置预测网络的输入通道数，K₂为位置预测网络的卷积核大小，且O₂的数值等于锚点参数的种数与预设数值的乘积；第二权值量为位置预测网络的回归层网络参数；回归层网络参数为位置预测网络的末端卷积层的参数。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例二相同，为简要描述，本实施例部分未提及之处，可参考前述实施例二中相应内容。

实施例四：

基于前述实施例，本实施例给出了一种图像处理系统，该系统包括：图像采集装置、处理器和存储装置；所述图像采集装置，用于采集目标图像；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如前述实施例二中的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步，本实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行上述实施例二提供的任一项的方法的步骤，或者，计算机程序被处理设备运行时执行上述实施例二提供的任一项的方法的步骤。

本发明实施例所提供的一种图像处理方法、装置及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

获取目标图像和多组锚点信息；所述锚点信息包括用于目标检测的锚点的锚点参数以及所述锚点对应的类别号；不同组的所述锚点信息所包含的锚点参数不同和/或类别号不同；其中，所述锚点参数包括锚点面积和锚点长宽比；所述类别号为类别预测网络可预测物体种类的编号；

将所述目标图像输入至特征提取网络，通过所述特征提取网络对所述目标图像进行特征提取处理，得到所述目标图像的特征图；

将所述锚点信息输入至第一参数计算网络，通过所述第一参数计算网络对所述锚点信息进行非线性映射处理，得到所述类别预测网络的分类层网络参数；

将所述特征图和所述分类层网络参数输入至所述类别预测网络，通过所述类别预测网络基于所述分类层网络参数对所述特征图进行分类处理，确定所述目标图像中的目标对象的类别；

在所述获取目标图像和多组锚点信息的步骤执行之前，所述方法还包括：获取所述类别预测网络可预测的物体种类；按照预设的编码算法对所述可预测的物体种类进行逐一编码，得到各所述物体种类对应的类别号；其中，不同的所述物体种类对应的类别号不同。

2.根据权利要求1所述的方法，其特征在于，所述获取多组锚点信息的步骤，包括：

获取不同种类的锚点所对应的锚点参数；

将各所述锚点参数与经编码得到的全部所述类别号分别进行组合，得到多组锚点信息。

3.根据权利要求1所述的方法，其特征在于，所述编码算法包括预设位值的进制编码算法、ASCII编码算法或GB编码算法。

4.根据权利要求1所述的方法，其特征在于，所述第一参数计算网络包括至少两层全连接层，所述类别预测网络包括多个卷积层；所述第一参数计算网络的末端全连接层与所述类别预测网络的末端卷积层相连；

所述第一参数计算网络的末端全连接层输出的第一权值量为O₁*I₁*K₁*K₁；其中，O₁为所述类别预测网络的输出通道数，I₁为所述类别预测网络的输入通道数，K₁为所述类别预测网络的卷积核大小，且O₁的数值等于锚点参数的种数与物体种类数的乘积；所述第一权值量为所述类别预测网络的分类层网络参数；所述分类层网络参数为所述类别预测网络的末端卷积层的参数。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述锚点信息中所包含的锚点参数输入至第二参数计算网络，通过所述第二参数计算网络对所述锚点参数进行非线性映射处理，得到位置预测网络的回归层网络参数；

将所述特征图和所述回归层网络参数输入至所述位置预测网络，通过所述位置预测网络基于所述回归层网络参数对所述特征图进行回归处理，确定所述目标图像中的目标对象的位置。

6.根据权利要求5所述的方法，其特征在于，所述第二参数计算网络包括至少两层全连接层，所述位置预测网络包括多个卷积层；所述第二参数计算网络的末端全连接层与所述位置预测网络的末端卷积层相连；

所述第二参数计算网络的末端全连接层输出的第二权值量为O₂*I₂*K₂*K₂；其中，O₂为所述位置预测网络的输出通道数，I₂为所述位置预测网络的输入通道数，K₂为所述位置预测网络的卷积核大小，且O₂的数值等于锚点参数的种数与预设数值的乘积；所述第二权值量为所述位置预测网络的回归层网络参数；所述回归层网络参数为所述位置预测网络的末端卷积层的参数。

7.一种图像处理装置，其特征在于，包括：

获取模块，用于获取目标图像和多组锚点信息；所述锚点信息包括用于目标检测的锚点的锚点参数以及所述锚点对应的类别号；不同组的所述锚点信息所包含的锚点参数不同和/或类别号不同；其中，所述锚点参数包括锚点面积和锚点长宽比；所述类别号为类别预测网络可预测物体种类的编号；

特征提取模块，用于将所述目标图像输入至特征提取网络，通过所述特征提取网络对所述目标图像进行特征提取处理，得到所述目标图像的特征图；

分类层网络参数计算模块，用于将所述锚点信息输入至第一参数计算网络，通过所述第一参数计算网络对所述锚点信息进行非线性映射处理，得到所述类别预测网络的分类层网络参数；

分类模块，用于将所述特征图和所述分类层网络参数输入至所述类别预测网络，通过所述类别预测网络基于所述分类层网络参数对所述特征图进行分类处理，确定所述目标图像中的目标对象的类别；

上述装置还可以包括：编码模块，用于获取类别预测网络可预测的物体种类；按照预设的编码算法对可预测的物体种类进行逐一编码，得到各物体种类对应的类别号；其中，不同的物体种类对应的类别号不同。

8.一种图像处理系统，其特征在于，所述系统包括：图像采集装置、处理器和存储装置；

所述图像采集装置，用于采集目标图像；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至6任一项所述的方法的步骤。