CN108875903A

CN108875903A - 图像检测的方法、装置、系统及计算机存储介质

Info

Publication number: CN108875903A
Application number: CN201810002420.1A
Authority: CN
Inventors: 彭超; 俞刚
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Maigewei Technology Co Ltd
Priority date: 2018-01-02
Filing date: 2018-01-02
Publication date: 2018-11-23
Anticipated expiration: 2038-01-02
Also published as: CN108875903B

Abstract

本发明实施例提供了一种图像检测的方法、装置、系统及计算机存储介质。该方法包括：将待检测图像输入至卷积网络，得到所述待检测图像的第一特征图；将所述第一特征图分别输入至多个区域建议网络，得到对应的多个特征矢量；将所述第一特征图和所述多个特征矢量输入至兴趣区域卷积网络，得到对所述待检测图像的检测结果，所述检测结果包括检测框的坐标值以及所述检测框的得分值。由此可见，本发明实施例在进行图像检测时，可以基于多个区域建议网络实现对多种不同类型的目标的图像检测，能够保证检测的精度和效率，在图像检测的过程中，不会出现特征浪费的情况，且由于无需重复计算，能够大大提高整体的运行速度。

Description

图像检测的方法、装置、系统及计算机存储介质

技术领域

本发明涉及图像处理领域，更具体地涉及一种图像检测的方法、装置、系统及计算机存储介质。

背景技术

人脸检测、行人检测和车辆检测等目标检测已经在生活中的各个领域得到了极大地应用，并成为了计算机视觉领域的标准技术。然而，由于不同的目标之间的差异，需要为各种不同的目标检测分别建立各自的检测网络。这样，导致需要维护多个针对不同目标的检测网络，耗费了大量的时间和人力等。并且在同时检测时，需要将待检测图像分别输入至各个检测网络，会不可避免地出现特征浪费的情况，大大降低了整体的运行速度。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种图像检测的方法、装置、系统及计算机存储介质，进行图像检测时能够通过多个不同的区域建议网络，同时对多个不同类型的目标进行检测，提高了处理效率。

根据本发明的一方面，提供了一种图像检测的方法，所述方法包括：

将待检测图像输入至卷积网络，得到所述待检测图像的第一特征图；

将所述第一特征图分别输入至多个区域建议网络，得到对应的多个特征矢量；

将所述第一特征图和所述多个特征矢量输入至兴趣区域卷积网络，得到对所述待检测图像的检测结果，所述检测结果包括检测框的坐标值以及所述检测框的得分值。

在本发明的一个实施例中，所述将待检测图像输入至卷积网络，得到第一特征图，包括：

将所述待检测图像依次经过多个卷积网络分别进行卷积操作，得到所述第一特征图，其中，所述多个卷积网络各自输出的特征图的空间维度递减。

在本发明的一个实施例中，所述多个卷积网络包括第一卷积网络、第二卷积网络、第三卷积网络和第四卷积网络，

所述将待检测图像输入至卷积网络，得到第一特征图，包括：

将所述待检测图像输入至所述第一卷积网络进行卷积操作，得到第一输出特征图，所述第一输出特征图的空间维度为8M×8M；

将所述第一输出特征图输入至所述第二卷积网络进行卷积操作，得到第二输出特征图，所述第二输出特征图的空间维度为4M×4M；

将所述第二输出特征图输入至所述第三卷积网络进行卷积操作，得到第三输出特征图，所述第三输出特征图的空间维度为2M×2M；

将所述第三输出特征图输入至所述第四卷积网络进行卷积操作，得到所述第一特征图，所述第一特征图的空间维度为M×M，M为正整数。

在本发明的一个实施例中，所述多个区域建议网络包括针对人脸检测的第一区域建议网络、针对行人检测的第二区域建议网络和针对汽车检测的第三区域建议网络，

其中，每个区域建议网络都包括至少一个不同大小的建议框。

在本发明的一个实施例中，所述第一特征图的空间维度为M×M，所述第一区域建议网络包括N1个不同大小的建议框，所述第二区域建议网络包括N2个不同大小的建议框，所述第三区域建议网络包括N3个不同大小的建议框，

将所述第一特征图分别输入至多个区域建议网络，得到对应的多个特征矢量，包括：

将所述第一特征图输入至所述第一区域建议网络，对所述第一特征图滑窗和全卷积操作，得到与所述第一区域建议网络所对应的特征矢量，其中与所述第一区域建议网络所对应的特征矢量的维度为M×M×4N1；

将所述第一特征图输入至所述第二区域建议网络，对所述第一特征图滑窗和全卷积操作，得到与所述第二区域建议网络所对应的特征矢量，其中与所述第二区域建议网络所对应的特征矢量的维度为M×M×4N2；

将所述第一特征图输入至所述第三区域建议网络，对所述第一特征图滑窗和全卷积操作，得到与所述第三区域建议网络所对应的特征矢量，其中与所述第三区域建议网络所对应的特征矢量的维度为M×M×4N3。

在本发明的一个实施例中，所述兴趣区域卷积网络包括第五卷积网络和第六卷积网络以及全连接层，

将所述第一特征图和所述多个特征矢量输入至兴趣区域卷积网络，得到对所述待检测图像的检测结果，包括：

将所述第一特征图和所述多个特征矢量输入至所述第五卷积网络，通过将所述多个特征矢量综合至所述第一特征图中，得到第二特征图；

将所述第二特征图输入至所述第六卷积网络，通过对所述第二特征图进行兴趣区域卷积操作，得到第三特征图；

将所述第三特征图输入至所述全连接层，通过将输出与输入之间进行连接，得到所述检测结果。

在本发明的一个实施例中，还包括通过以下方式训练得到所述各个网络：

针对训练数据集中的每一训练图像：

根据所述训练数据集中的标注以及通过所述各个网络后的输出，构建损失函数；

基于所述损失函数对所述各个网络进行训练，直到所述损失函数收敛。

在本发明的一个实施例中，如果所述训练图像只包括人脸标注，则在训练时输入至所述兴趣区域卷积网络的不包括由所述第二区域建议网络和所述第三区域建议网络得到的特征矢量；

如果所述训练图像只包括行人标注，则在训练时输入至所述兴趣区域卷积网络的不包括由所述第一区域建议网络和所述第三区域建议网络得到的特征矢量；

如果所述训练图像只包括车辆标注，则在训练时输入至所述兴趣区域卷积网络的不包括由所述第一区域建议网络和所述第二区域建议网络得到的特征矢量。

根据本发明的另一方面，提供了一种图像检测的装置，所述装置用于实现前述方面或各个实施例所述方法的步骤，所述装置包括：

卷积单元，用于将待检测图像输入至卷积网络，得到所述待检测图像的第一特征图；

区域建议单元，用于将所述第一特征图分别输入至多个区域建议网络，得到对应的多个特征矢量；

输出单元，用于将所述第一特征图和所述多个特征矢量输入至兴趣区域卷积网络，得到对所述待检测图像的检测结果，所述检测结果包括检测框的坐标值以及所述检测框的得分值。

根据本发明的又一方面，提供了一种图像检测的系统，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方面及各个示例所述的图像检测的方法的步骤。

根据本发明的再一方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方面及各个示例所述的图像检测的方法的步骤。

由此可见，本发明实施例在进行图像检测时，可以基于多个区域建议网络实现对多种不同类型的目标的图像检测，能够保证检测的精度和效率，在图像检测的过程中，不会出现特征浪费的情况，且由于无需重复计算，能够大大提高整体的运行速度。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明实施例的电子设备的一个示意性框图；

图2是本发明实施例的图像检测的方法的一个示意性流程图；

图3是本发明实施例的神经网络的一个示意图；

图4是本发明实施例的神经网络的另一个示意图；

图5是本发明实施例的各个区域建议网络的建议框的示意图；

图6是本发明实施例的图像检测的装置的一个示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本发明实施例可以应用于电子设备，图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或更多个处理器102、一个或更多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或更多个非图像传感器114，这些组件通过总线系统112和/或其它形式互连。应当注意，图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以包括中央处理单元(Central Processing Unit，CPU)1021和图形处理单元(Graphics Processing Unit，GPU)1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，例如现场可编程门阵列(Field－Programmable Gate Array，FPGA)、数字信号处理(DSP)、可编程逻辑阵列(PLA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction Set Computer)Machine，ARM)等，并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或更多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或更多个计算机程序指令，处理器102可以运行所述程序指令，以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或更多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或更多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

当注意，图1所示的电子设备10的组件和结构只是示例性的，尽管图1示出的电子设备10包括多个不同的装置，但是根据需要，其中的一些装置可以不是必须的，其中的一些装置的数量可以更多等等，本发明对此不限定。

图2是本发明实施例的图像检测的方法的一个示意性流程图。图2所示的方法包括：

S101，将待检测图像输入至卷积网络，得到所述待检测图像的第一特征图；

S102，将所述第一特征图分别输入至多个区域建议网络，得到对应的多个特征矢量；

S103，将所述第一特征图和所述多个特征矢量输入至兴趣区域卷积网络，得到对所述待检测图像的检测结果，所述检测结果包括检测框的坐标值以及所述检测框的得分值。

示例性地，用于进行图像检测的神经网络可以如图3所示，该神经网络包括卷积网络、多个区域建议网络和兴趣区域卷积网络。作为一例，图3示出的区域建议网络(RegionProposal Network，RPN)的数量为4个，本领域技术人员可理解，RPN的数量可以为更多或更少，可以根据图像检测的目标种类进行设定，本发明对此不限定。其中，各个区域建议网络的架构可以与Faster-RCNN的架构相同。

为了描述的方便，假设待检测图像的空间维度(W×H)为512×512。该待检测图像还可以具有第三维度，例如第三维度可以为1，表示为灰度图像；再例如第三维度可以为3，表示为RGB彩色图像；应该理解的是，根据图像的性质，第三维度的数目还可以为其它的值，本发明对此不限定。

示例性地，S101中的卷积网络可以是指多个卷积网络，相应地，S101可以包括：将所述待检测图像依次经过多个卷积网络分别进行卷积操作，得到所述第一特征图，其中，所述多个卷积网络各自输出的特征图的空间维度递减。这样，通过多个卷积网络的卷积操作，使得将在S102中输入至多个RPN的第一特征图的空间维度较小，进而能够减小RPN的计算量，提高计算效率。

作为一例，可以假设S101中的卷积网络包括第一卷积网络、第二卷积网络、第三卷积网络和第四卷积网络，可以分别表示为Cov-1、Cov-2、Cov-3和Cov-4，如图4所示。

具体地，S101中，可以将所述待检测图像输入至所述第一卷积网络进行卷积操作，得到第一输出特征图，所述第一输出特征图的空间维度为8M×8M；将所述第一输出特征图输入至所述第二卷积网络进行卷积操作，得到第二输出特征图，所述第二输出特征图的空间维度为4M×4M；将所述第二输出特征图输入至所述第三卷积网络进行卷积操作，得到第三输出特征图，所述第三输出特征图的空间维度为2M×2M；将所述第三输出特征图输入至所述第四卷积网络进行卷积操作，得到所述第一特征图，所述第一特征图的空间维度为M×M，M为正整数。

若如上假设待检测图像的空间维度为512×512，那么Cov-1得到的第一输出特征图的空间维度可以为128×128，Cov-2得到的第二输出特征图的空间维度可以为64×64，Cov-3得到的第三输出特征图的空间维度可以为32×32，Cov-4得到的第一特征图的空间维度可以为16×16，即M＝16。各个卷积网络输出的特征图的空间维度是递减的。另外，各个卷积网络输出的特征图还可以具有第三维度，表示通道数(Channel，C)，如图4所示，Cov-1、Cov-2、Cov-3和Cov-4输出的特征图的通道数可以依次为256、512、1024和2048。

示例性地，S102中的多个RPN可以分别用于不同类型的目标检测，且每个RPN都包括至少一个不同大小的建议框。每个RPN可以是一个全卷积网络，其可以包括滑窗模型和全卷积模型，对输入至RPN的特征图进行滑窗后，通过全卷积操作得到该输入的特征图中的区域建议，示例性地，得到的区域建议可以表示为特征矢量的形式。

作为一例，多个RPN包括第一区域建议网络、第二区域建议网络和第三区域建议网络，可以分别表示为RPN1、RPN2和RPN3，如图4所示。且其中RPN1针对人脸检测，RPN2针对行人检测，RPN3针对汽车检测。

具体地，若假设RPN1包括N1个不同大小的建议框，RPN2包括N2个不同大小的建议框，RPN3包括N3个不同大小的建议框，N1、N2和N3均为正整数，且可以互相相等或不相等。那么，S102可以包括：将所述第一特征图输入至所述第一区域建议网络，对所述第一特征图滑窗和全卷积操作，得到与所述第一区域建议网络所对应的特征矢量，可以表示为F1；将所述第一特征图输入至所述第二区域建议网络，对所述第一特征图滑窗和全卷积操作，得到与所述第二区域建议网络所对应的特征矢量，可以表示为F2；将所述第一特征图输入至所述第三区域建议网络，对所述第一特征图滑窗和全卷积操作，得到与所述第三区域建议网络所对应的特征矢量，可以表示为F3。

应注意，如果对待检测图像进行检测时，旨在进行人脸检测，那么，在S102中，可以将第一特征图输入至与人脸检测相关的RPN1，而忽略RPN2和RPN3，即相应地输入至兴趣区域卷积网络的只包括第一特征图和RPN1输出的特征矢量，而不包括RPN2和RPN3的输出。如果对待检测图像进行检测时，旨在进行行人检测，那么，在S102中，可以将第一特征图输入至与人脸检测相关的RPN2，而忽略RPN1和RPN3，即相应地输入至兴趣区域卷积网络的只包括第一特征图和RPN2输出的特征矢量，而不包括RPN1和RPN3的输出。如果对待检测图像进行检测时，旨在进行车辆检测，那么，在S102中，可以将第一特征图输入至与人脸检测相关的RPN3，而忽略RPN1和RPN2，即相应地输入至兴趣区域卷积网络的只包括第一特征图和RPN3输出的特征矢量，而不包括RPN1和RPN2的输出。

类似地，如果对待检测图像进行检测时，旨在进行人脸检测和行人检测，那么，在S102中，可以将第一特征图输入至与人脸检测相关的RPN1和RPN2，而忽略RPN3，即相应地输入至兴趣区域卷积网络的只包括第一特征图、RPN1和RPN2输出的特征矢量，而不包括RPN3的输出。如果对待检测图像进行检测时，旨在进行人脸检测和车辆检测，那么，在S102中，可以将第一特征图输入至与人脸检测相关的RPN1和RPN3，而忽略RPN2，即相应地输入至兴趣区域卷积网络的只包括第一特征图、RPN1和RPN3输出的特征矢量，而不包括RPN2的输出。如果对待检测图像进行检测时，旨在进行行人检测和车辆检测，那么，在S102中，可以将第一特征图输入至与人脸检测相关的RPN2和RPN3，而忽略RPN1，即相应地输入至兴趣区域卷积网络的只包括第一特征图、RPN2和RPN3输出的特征矢量，而不包括RPN1的输出。

也就是说，在进行图像检测时，可以根据场景的需求和/或图像检测的目的选择哪一个或哪几个对应的RPN。举例来说，若仅关注人脸检测，可以锁定RPN2和RPN3，即输入至Cov-5的只包括第一特征图以及RPN1输出的特征矢量，而不包括RPN2和RPN3输出的特征矢量。

本发明实施例中的网络结构能够用于一个或同时几种类型的图像检测，方便了操作，避免多个不同的网络结构造成的特征丢失等，保证了检测的精度和效率。

示例性地，输入至兴趣区域卷积网络的包括第一特征图以及各个RPN输出的特征矢量。基于上述分析，若图像检测仅旨在一种目标类型的检测，输入至兴趣区域卷积网络的包括第一特征图以及对应的一个RPN输出的特征矢量。

然而为了描述一般性，仍然以图4所示的三个RPN的情形为例进行分析。

示例性地，兴趣区域卷积网络可以包括第五卷积网络、第六卷积网络和全连接层(fully connected layers，FC)，可以分别表示为Cov-5、Cov-6和FC，如图4所示。相应地，S103可以包括：将所述第一特征图和所述多个特征矢量输入至所述第五卷积网络，通过将所述多个特征矢量综合至所述第一特征图中，得到第二特征图；将所述第二特征图输入至所述第六卷积网络，通过对所述第二特征图进行兴趣区域(Region of Interest，ROI)卷积操作，得到第三特征图；将所述第三特征图输入至全连接层，通过将输出与输入之间进行连接，得到所述检测结果。

具体地，Cov-5可以根据多个RPN输出的特征矢量，分别从第一特征图中抠出对应的矩形区域，并将所抠出的矩形区域放大至一定的空间尺寸，例如放大后的空间维度为7×7。如此，便可以将多个特征矢量所表示的建议区域综合至第一特征图中，得到第二特征图，该第二特征图的空间维度可以为7×7。可选地，Cov-6可以将Cov-5输出的第二特征图进行卷积操作，由于Cov-5的抠图操作，Cov-6仅针对感兴趣区域进行处理，因此可以称为感兴趣区域的Cov-6。该Cov-6输出的第三特征图可以具有多个维度，其中第一维度为矩形框的数量。作为一例，该Cov-6的输出具有四个维度，第一个维度表示矩形框的数量，如N1+N2+N3＝7；第二个维度表示通道数，如256；第三个维度和第四个维度为空间维度，W×H，如7×7。然后经由FC建立全连接，将矩形框进行分类，得到检测结果，如图4，该检测结果包括两部分：检测框和得分值。其中第一部分可以使用检测框的两个对角的坐标来表示，例如包括四个值，可以表示为四维向量，分别表示检测框的左下角和右上角(或者左上角和右下角)的坐标；其中第二部分包括数值，其表示该检测框的得分值。可理解，该得分值即为置信率，其可以为0～1之间的任一值，表示对该检测框的打分(score)，例如该得分值为0.8。

由此，便可以得到待检测图像中的各个目标，以检测框进行表示，且得出各个检测框的得分值，以判断相应检测框的可信度。

作为一种实现方式，在图2所示的方法之前，包括：通过训练的方式得到各个网络：即卷积网络、多个区域建议网络以及兴趣区域卷积网络。参照图4，可以通过训练的方法得到：Cov-1、Cov-2、Cov-3和Cov-4、RPN1、RPN2和RPN3、Cov-5、Cov-6和FC。可以对各个网络的参数进行迭代，直到收敛。

具体地，针对训练数据集中的每一训练图像：根据所述训练数据集中的标注以及通过所述各个网络后的输出，构建损失函数；基于所述损失函数对所述各个网络进行训练，直到所述损失函数收敛。

示例性地，可以从已有的用于人脸检测、行人检测、车辆检测等各自的数据集得到用于本发明实施例的训练数据集。作为一例，训练数据集可以是这些已有数据集的集合。该训练数据集中的每一训练图像都具有各自的标注信息。例如，若训练图像是从已有人脸检测数据集中获取的一张图像，则其标注信息可以为人脸的标注框。例如，若训练图像是从已有行人检测数据集中获取的一张图像，则其标注信息可以为行人的标注框。例如，若训练图像是从已有车辆检测数据集中获取的一张图像，则其标注信息可以为车辆的标注框。

本发明实施例中的用于图像检测的神经网络包括卷积网络、多个区域建议网络(Region Proposal Network，RPN)以及兴趣区域(Region of Interest，ROI)卷积网络，如图3所示，该神经网络的架构可以与ResNet的架构相同。其中，多个区域建议网络的数量可以为至少两个，如图3示出了4个，多个区域建议网络可以分别是针对不同的目标进行设计的，这样能够同时考虑到各个目标之间的差异，保证该神经网络对各种目标的检测结果的准确性。

以下将以图4所示的神经网络为例阐述该训练过程。其中，卷积网络包括Cov-1、Cov-2、Cov-3和Cov-4。其中，多个区域建议网络包括RPN1、RPN2和RPN3。其中，兴趣区域卷积网络包括Cov-5、Cov-6和FC。

可选地，每个卷积网络(即Cov-1、Cov-2、Cov-3和Cov-4)内部可以由依次相连的卷积层构成，各个卷积网络内部的卷积层的数量可以根据该测试的性能需求进行设定，本发明对此不作限定。

可选地，RPN1可以是针对人脸检测的，且其可以包括N1个不同大小的建议框。RPN2可以是针对行人检测的，且其可以包括N2个不同大小的建议框。RPN3可以是针对车辆检测的，且其可以包括N3个不同大小的建议框。

具体地，各个RPN中不同大小的建议框的数量可以是在训练之前根据各个RPN所检测的目标的属性等进行设定的。例如，对RPN1，其针对人脸检测，由于人脸的形状比较单一，即长宽比没有太大的变化，考虑到人脸的大小可能会不同，可以设计多个不同大小的正方形的建议框，例如可以设定N1＝2。例如，对RPN2，其针对行人检测，由于利用行人一般直立行走的先验知识，行人具有细长特点，可以设计建议框的长边垂直于图片横轴，例如可以设定N2＝1。例如，对RPN3，其针对车辆检测，由于针对车辆的拍摄角度问题，可以设计更加丰富的建议框，以确保覆盖所有的情况，例如可以设定N3＝4。示例性地，图5示出了RPN1、RPN2和RPN3各自的建议框的形状。应理解，N1、N2和N3的值均为正整数，例如为1或更大的值，本发明对此不限定。

在训练过程中，可以将训练图像输入至训练中的神经网络，得到网络输出，该网络输出包括训练图像中的检测框的坐标值，可以根据该网络输出与数据集中训练图像的标注信息得到损失函数，例如损失函数可以等于网络输出的检测框的坐标值与数据集中标注信息之间的欧氏距离，其中，网络输出的检测框的坐标值表示为四维向量，标注信息表示为四维向量。可理解，该损失函数也可以是其他的形式，这里不再赘述。

在训练过程中，通过不断迭代更新各个网络的参数，可以相应地更新损失函数。当损失函数收敛时，可以确定该神经网络已经收敛，即训练完成。其中，损失函数收敛是指：连续多次(例如几百次或几千次)迭代所得到的损失函数两两之差均小于误差值(如10^-6)。

另外，在训练的过程中，由于来自训练数据集的训练图像中可能仅有部分目标，例如只有人脸、没有完整的行人和车辆；或者只有车辆和行人，没有人脸等等。那么，为了不影响该训练图像中不存在的目标对应的区域建议网络，可以将无关的区域建议网络的参数锁定，避免影响整个神经网络的训练效果。具体地，若训练图像中既包括人脸标注、行人标注还包括车辆标注，则RPN1、RPN2和RPN3同时参与训练，也就是说，RPN1、RPN2和RPN3的参数都参与迭代。

另外，若训练图像中只包括人脸标注，则将RPN2和RPN3锁定，即RPN2和RPN3不参与训练，RPN2的参数和RPN3的参数不参与迭代，也就是说，针对只包括人脸标注的训练图像，在训练时输入至Cov-5的包括Cov-4输出的第一特征图以及RPN1输出的特征矢量，而不包括RPN2和RPN3输出的特征矢量。若训练图像中只包括行人标注，则将RPN1和RPN3锁定，即RPN1和RPN3不参与训练，RPN1的参数和RPN3的参数不参与迭代，也就是说，针对只包括行人标注的训练图像，在训练时输入至Cov-5的包括Cov-4输出的第一特征图以及RPN2输出的特征矢量，而不包括RPN1和RPN3输出的特征矢量。若训练图像中只包括车辆标注，则将RPN1和RPN2锁定，即RPN1和RPN2不参与训练，RPN1的参数和RPN2的参数不参与迭代，也就是说，针对只包括车辆标注的训练图像，在训练时输入至Cov-5的包括Cov-4输出的第一特征图以及RPN3输出的特征矢量，而不包括RPN1和RPN2输出的特征矢量。

同时可理解，若训练图像中只包括人脸标注和行人标注而不包括车辆标注，则将RPN3锁定，即RPN3不参与训练，RPN3参数不参与迭代，也就是说，针对只包括人脸标注和行人标注的训练图像，在训练时输入至Cov-5的包括Cov-4输出的第一特征图以及RPN1和RPN2输出的特征矢量，而不包括RPN3输出的特征矢量。若训练图像中只包括人脸标注和车辆标注而不包括行人标注，则将RPN2锁定，即RPN2不参与训练，RPN2参数不参与迭代，也就是说，针对只包括人脸标注和车辆标注的训练图像，在训练时输入至Cov-5的包括Cov-4输出的第一特征图以及RPN1和RPN3输出的特征矢量，而不包括RPN2输出的特征矢量。若训练图像中只包括行人标注和车辆标注而不包括行人标注，则将RPN1锁定，即RPN1不参与训练，RPN1参数不参与迭代，也就是说，针对只包括行人标注和车辆标注的训练图像，在训练时输入至Cov-5的包括Cov-4输出的第一特征图以及RPN2和RPN3输出的特征矢量，而不包括RPN1输出的特征矢量。

由此，该神经网络可以适配各种不同的数据集，且本发明实施例的训练方式可以为半监督的训练方法。

可见，该训练得到的神经网络能够同时进行多种不同目标的图像检测，且各个不同目标的检测过程共用部分参数，进而能够提高检测效率，缩短时长。具体地，该神经网络既可以进行单一目标的图像检测，也可以进行多种目标的同时检测，兼容性强。

图6是本发明实施例图像检测的装置的一个示意性框图。图6所示的装置60包括卷积单元610、区域建议单元620以及输出单元630。

卷积单元610，用于将待检测图像输入至卷积网络，得到所述待检测图像的第一特征图；

区域建议单元620，用于将所述第一特征图分别输入至多个区域建议网络，得到对应的多个特征矢量；

输出单元630，用于将所述第一特征图和所述多个特征矢量输入至兴趣区域卷积网络，得到对所述待检测图像的检测结果，所述检测结果包括检测框的坐标值以及所述检测框的得分值。

示例性地，卷积单元610可以具体用于：将所述待检测图像依次经过多个卷积网络分别进行卷积操作，得到所述第一特征图，其中，所述多个卷积网络各自输出的特征图的空间维度递减。

示例性地，所述多个卷积网络包括第一卷积网络、第二卷积网络、第三卷积网络和第四卷积网络。卷积单元610可以具体用于：将所述待检测图像输入至所述第一卷积网络进行卷积操作，得到第一输出特征图，所述第一输出特征图的空间维度为8M×8M；将所述第一输出特征图输入至所述第二卷积网络进行卷积操作，得到第二输出特征图，所述第二输出特征图的空间维度为4M×4M；将所述第二输出特征图输入至所述第三卷积网络进行卷积操作，得到第三输出特征图，所述第三输出特征图的空间维度为2M×2M；将所述第三输出特征图输入至所述第四卷积网络进行卷积操作，得到所述第一特征图，所述第一特征图的空间维度为M×M，M为正整数。

示例性地，所述多个区域建议网络包括针对人脸检测的第一区域建议网络、针对行人检测的第二区域建议网络和针对汽车检测的第三区域建议网络，其中，每个区域建议网络都包括至少一个不同大小的建议框。

示例性地，所述第一特征图的空间维度为M×M，所述第一区域建议网络包括N1个不同大小的建议框，所述第二区域建议网络包括N2个不同大小的建议框，所述第三区域建议网络包括N3个不同大小的建议框。区域建议单元620可以具体用于：将所述第一特征图输入至所述第一区域建议网络，对所述第一特征图滑窗和全卷积操作，得到与所述第一区域建议网络所对应的特征矢量，其中与所述第一区域建议网络所对应的特征矢量的维度为M×M×4N1；将所述第一特征图输入至所述第二区域建议网络，对所述第一特征图滑窗和全卷积操作，得到与所述第二区域建议网络所对应的特征矢量，其中与所述第二区域建议网络所对应的特征矢量的维度为M×M×4N2；将所述第一特征图输入至所述第三区域建议网络，对所述第一特征图滑窗和全卷积操作，得到与所述第三区域建议网络所对应的特征矢量，其中与所述第三区域建议网络所对应的特征矢量的维度为M×M×4N3。

示例性地，所述兴趣区域卷积网络包括第五卷积网络和第六卷积网络以及全连接层。输出单元630可以具体用于：将所述第一特征图和所述多个特征矢量输入至所述第五卷积网络，通过将所述多个特征矢量综合至所述第一特征图中，得到第二特征图；将所述第二特征图输入至所述第六卷积网络，通过对所述第二特征图进行兴趣区域卷积操作，得到第三特征图；将所述第三特征图输入至所述全连接层，通过将输出与输入之间进行连接，得到所述检测结果。

示例性地，可以包括训练单元，用于通过以下方式训练得到所述各个网络：

针对训练数据集中的每一训练图像：根据所述训练数据集中的标注以及通过所述各个网络后的输出，构建损失函数；基于所述损失函数对所述各个网络进行训练，直到所述损失函数收敛。

示例性地，如果所述训练图像只包括人脸标注，则在训练时输入至所述兴趣区域卷积网络的不包括由所述第二区域建议网络和所述第三区域建议网络得到的特征矢量；如果所述训练图像只包括行人标注，则在训练时输入至所述兴趣区域卷积网络的不包括由所述第一区域建议网络和所述第三区域建议网络得到的特征矢量；如果所述训练图像只包括车辆标注，则在训练时输入至所述兴趣区域卷积网络的不包括由所述第一区域建议网络和所述第二区域建议网络得到的特征矢量。

图6所示的装置60能够实现前述图2至图4所示的方法，为避免重复，这里不再赘述。

另外，本发明实施例还提供了另一种图像检测的系统，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，处理器执行所述程序时实现前述图2至图4所示的方法的步骤。

另外，本发明实施例还提供了一种电子设备，该电子设备可以包括图6所示的装置60。该电子设备可以实现前述图2至图4所示的方法。

另外，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述图2至图4所示的方法的步骤。例如，该计算机存储介质为计算机可读存储介质。

本发明实施例提供了一种图像检测的方法、装置、系统、电子设备和计算机存储介质，能够同时对多种不同的目标进行检测，提高了检测效率。该图像检测的神经网络中，多种不同目标的检测网络中的部分参数可以共用，从而形成一个用于各种目标检测的神经网络，并且在训练时采用多任务训练方式，能够适配不同的数据集。在进行图像检测的过程中，不会出现特征浪费的情况，且由于无需重复计算，能够大大提高整体的运行速度。在保证检测精度的同时，在运行层面上能够节约大约2/3的计算时长，从而能够留出更多的时间用于其他的系统部件，便于生产部门轻松部署。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(Digital Signal Processing，DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像检测的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将待检测图像输入至卷积网络，得到第一特征图，包括：

3.根据权利要求2所述的方法，其特征在于，所述多个卷积网络包括第一卷积网络、第二卷积网络、第三卷积网络和第四卷积网络，

4.根据权利要求1所述的方法，其特征在于，所述多个区域建议网络包括针对人脸检测的第一区域建议网络、针对行人检测的第二区域建议网络和针对汽车检测的第三区域建议网络，

5.根据权利要求4所述的方法，其特征在于，所述第一特征图的空间维度为M×M，所述第一区域建议网络包括N1个不同大小的建议框，所述第二区域建议网络包括N2个不同大小的建议框，所述第三区域建议网络包括N3个不同大小的建议框，

6.根据权利要求1所述的方法，其特征在于，所述兴趣区域卷积网络包括第五卷积网络和第六卷积网络以及全连接层，

7.根据权利要求1至6中任一项所述的方法，其特征在于，还包括通过以下方式训练得到所述各个网络：

针对训练数据集中的每一训练图像：

8.根据权利要求7所述的方法，其特征在于，

如果所述训练图像只包括人脸标注，则在训练时输入至所述兴趣区域卷积网络的不包括由所述第二区域建议网络和所述第三区域建议网络得到的特征矢量；

9.一种图像检测的装置，其特征在于，所述装置包括：

10.一种图像检测的系统，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。