CN108875456A

CN108875456A - 目标检测方法、目标检测装置和计算机可读存储介质

Info

Publication number: CN108875456A
Application number: CN201710336008.9A
Authority: CN
Inventors: 张弛; 姚昊天; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2018-11-23
Anticipated expiration: 2037-05-12
Also published as: CN108875456B

Abstract

本公开提供了一种基于神经网络的目标检测方法、目标检测装置和计算机可读存储介质。所述目标检测方法包括：获取包含目标的待检测的连续帧图像；利用第一前馈神经网络，获取所述连续帧图像中的每一帧图像的第一特征信息；利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息；基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域，其中，所述每一帧图像的所述第二特征信息综合所述每一帧图像的预定数目的之前帧和之后帧的所述第二特征信息。

Description

目标检测方法、目标检测装置和计算机可读存储介质

技术领域

本公开涉及图像处理领域，更具体地，本公开涉及一种基于神经网络的目标检测方法、目标检测装置和计算机可读存储介质。

背景技术

目标检测是计算机视觉领域中一个基础性的研究课题，其在人脸识别、安全监控以及动态追踪等很多方面都有广泛的应用前景。在目标检测中，对包括作为目标的行人、车辆的视频结构化是诸多安防应用中不可或缺的。神经网络是一种大规模、多参数优化的工具。依靠大量的训练数据，神经网络能够学习出数据中难以总结的隐藏特征，从而完成多项复杂的任务，如人脸检测，图片分类，物体检测，动作追踪，自然语言翻译等。神经网络已被人工智能界广泛应用。当前，诸如行人检测的目标检测中最广泛应用的是卷积神经网络。

在现有的目标检测方法中，往往把目标(行人和车辆)检测、目标追踪以及视频结构化分成三个独立的步骤来完成。在目标检测步骤中，对每一帧图像，找到作为目标的行人或车辆，通过边框把它们的位置和大小表示出来。然后，把各帧中检测到的目标，根据空间位置、外观相似程度等因素关联在一起，从而进行目标追踪步骤。最后，分析一条追踪轨迹中各个边框中行人或车辆的属性信息，实现结构化的目的。在以上三个步骤中，都可能分别引入额外的误差，从而造成误差的传播扩大。

发明内容

鉴于上述问题，本发明提供一种基于神经网络的目标检测方法、目标检测装置以及计算机可读存储介质。

根据本公开的一个实施例，提供了一种目标检测方法，包括：获取包含目标的待检测的连续帧图像；利用第一前馈神经网络，获取所述连续帧图像中的每一帧图像的第一特征信息；利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息；基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域，其中，所述每一帧图像的所述第二特征信息综合所述每一帧图像的预定数目的之前帧和之后帧的所述第二特征信息。

此外，根据本公开的一个实施例的目标检测方法，还包括：基于所述第二特征信息，提取所述一个或多个区域的区域特征信息；以及基于所述区域特征信息，确定所述一个或多个区域中的目标的类别信息、属性信息和位置信息中的至少之一。

此外，根据本公开的一个实施例的目标检测方法，还包括：基于所述属性信息和所述位置信息，确定处于所述连续帧图像中的同一目标，其中，所述位置信息包括之前帧、当前帧以及随后帧中的位置信息。

此外，根据本公开的一个实施例的目标检测方法，其中，所述第一前馈神经网络为卷积前馈神经网络，所述第二双向反馈神经网络为双向反馈卷积神经网络，并且所述第一前馈神经网络和所述第二双向反馈神经网络分别包括一层或多层卷积神经网络。

此外，根据本公开的一个实施例的目标检测方法，其中，利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息包括：利用所述第二双向反馈神经网络中的正向反馈神经网络，获取所述每一帧图像的正向特征信息；利用所述第二双向反馈神经网络中的反向反馈神经网络，获取所述每一帧图像的反向特征信息；以及综合所述正向特征信息和所述反向特征信息，获取所述第二特征信息，其中，所述正向特征信息反映当前帧及其之前预定数目帧的特征，并且所述反向特征信息反映当前帧及其之后预定数目帧的特征。

此外，根据本公开的一个实施例的目标检测方法，其中，基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域包括：对于所述第二特征信息中的每个坐标点，输出预定数目的候选区域；基于所述候选区域对应的所述第二特征信息中的频道向量，确定所述候选区域包含目标的概率；以及确定所述概率满足预定阈值的所述候选区域作为所述包含目标的一个或多个区域。

根据本公开的另一个实施例，提供了一种目标检测装置，包括：处理器；以及存储器，其中存储计算机可读程序指令，其中，在所述计算机可读程序指令被所述处理器运行时执行以下步骤：获取包含目标的待检测的连续帧图像；利用第一前馈神经网络，获取所述连续帧图像中的每一帧图像的第一特征信息；利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息；基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域，其中，所述每一帧图像的所述第二特征信息综合所述每一帧图像的预定数目的之前帧和之后帧的所述第二特征信息。

此外，根据本公开的另一个实施例的目标检测装置，其中，在所述计算机可读程序指令被所述处理器运行时还执行以下步骤：基于所述第二特征信息，提取所述一个或多个区域的区域特征信息；以及基于所述区域特征信息，确定所述一个或多个区域中的目标的类别信息、属性信息和位置信息中的至少之一。

此外，根据本公开的另一个实施例的目标检测装置，其中，在所述计算机可读程序指令被所述处理器运行时还执行以下步骤：基于所述属性信息和所述位置信息，确定处于所述连续帧图像中的同一目标，其中，所述位置信息包括之前帧、当前帧以及随后帧中的位置信息。

此外，根据本公开的另一个实施例的目标检测装置，其中，所述第一前馈神经网络为卷积前馈神经网络，所述第二双向反馈神经网络为双向反馈卷积神经网络，并且所述第一前馈神经网络和所述第二双向反馈神经网络分别包括一层或多层卷积神经网络。

此外，根据本公开的另一个实施例的目标检测装置，其中，在所述计算机可读程序指令被所述处理器运行时，利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息包括：利用所述第二双向反馈神经网络中的正向反馈神经网络，获取所述每一帧图像的正向特征信息；利用所述第二双向反馈神经网络中的反向反馈神经网络，获取所述每一帧图像的反向特征信息；以及综合所述正向特征信息和所述反向特征信息，获取所述第二特征信息，其中，所述正向特征信息反映当前帧及其之前预定数目帧的特征，并且所述反向特征信息反映当前帧及其之后预定数目帧的特征。

此外，根据本公开的另一个实施例的目标检测装置，其中，在所述计算机可读程序指令被所述处理器运行时，基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域包括：对于所述第二特征信息中的每个坐标点，输出预定数目的候选区域；基于所述候选区域对应的所述第二特征信息中的频道向量，确定所述候选区域包含目标的概率；以及确定所述概率满足预定阈值的所述候选区域作为所述包含目标的一个或多个区域。

根据本公开的又一个实施例，提供了一种目标检测装置，包括：图像获取模块，用于获取包含目标的待检测的连续帧图像；第一特征信息获取模块，用于利用第一前馈神经网络，获取所述连续帧图像中的每一帧图像的第一特征信息；第二特征信息获取模块，用于利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息；目标确定模块，用于基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域，其中，所述每一帧图像的所述第二特征信息综合所述每一帧图像的预定数目的之前帧和之后帧的所述第二特征信息。

此外，根据本公开的又一个实施例的目标检测装置，还包括：区域特征信息提取模块，用于基于所述第二特征信息，提取所述一个或多个区域的区域特征信息；以及目标信息确定模块，用于基于所述区域特征信息，确定所述一个或多个区域中的目标的类别信息、属性信息和位置信息中的至少之一。

此外，根据本公开的又一个实施例的目标检测装置，其中，所述目标确定模块还用于基于所述属性信息和所述位置信息，确定处于所述连续帧图像中的同一目标，其中，所述位置信息包括之前帧、当前帧以及随后帧中的位置信息。

此外，根据本公开的又一个实施例的目标检测装置，其中，所述第一前馈神经网络为卷积前馈神经网络，所述第二双向反馈神经网络为双向反馈卷积神经网络，并且所述第一前馈神经网络和所述第二双向反馈神经网络分别包括一层或多层卷积神经网络。

此外，根据本公开的又一个实施例的目标检测装置，其中，所述第二特征信息获取模块利用所述第二双向反馈神经网络中的正向反馈神经网络，获取所述每一帧图像的正向特征信息，利用所述第二双向反馈神经网络中的反向反馈神经网络，获取所述每一帧图像的反向特征信息，并且综合所述正向特征信息和所述反向特征信息，获取所述第二特征信息，其中，所述正向特征信息反映当前帧及其之前预定数目帧的特征，并且所述反向特征信息反映当前帧及其之后预定数目帧的特征。

此外，根据本公开的又一个实施例的目标检测装置，其中，所述目标确定模块对于所述第二特征信息中的每个坐标点，输出预定数目的候选区域，基于所述候选区域对应的所述第二特征信息中的频道向量，确定所述候选区域包含目标的概率，并且确定所述概率满足预定阈值的所述候选区域作为所述包含目标的一个或多个区域。

根据本公开的再一个实施例，提供了一种计算机可读存储介质，其上存储计算机可读程序指令，当所述计算机可读程序指令由处理器运行时，执行包括以下步骤的目标检测方法：利用第一前馈神经网络，获取包含目标的待检测的连续帧图像中的每一帧图像的第一特征信息；利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息；基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域，其中，所述每一帧图像的所述第二特征信息综合所述每一帧图像的预定数目的之前帧和之后帧的所述第二特征信息。

此外，根据本公开的再一个实施例的计算机可读存储介质，其中，所述第一前馈神经网络为卷积前馈神经网络，所述第二双向反馈神经网络为双向反馈卷积神经网络，并且所述第一前馈神经网络和所述第二双向反馈神经网络分别包括一层或多层卷积神经网络。

根据本公开实施例的基于神经网络的目标检测方法、目标检测装置以及计算机可读存储介质，通过卷积神经网络与反馈式神经网络的结合使用，同时对目标进行检测、追踪以及属性信息获取，提高了目标检测的效率，并且避免了引入不必要的误差，提供了检测的精度。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是图示根据本公开实施例的目标检测方法的流程图。

图2是进一步图示根据本公开实施例的目标检测方法的详细流程图。

图3是图示根据本公开实施例的用于目标检测的神经网络的结构示意图。

图4是进一步图示根据本公开实施例的目标检测方法中的第二特征信息获取处理的流程图。

图5是进一步图示根据本公开实施例的目标检测方法中的目标区域确定处理的流程图。

图6是图示根据本公开实施例的目标检测装置的结构示意图。

图7是图示根据本公开实施例的目标检测装置的功能性框图。

图8是图示根据本公开实施例的计算机可读存储介质的示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。基于本公开中描述的本公开实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本公开的保护范围之内。

本公开涉及通过卷积神经网络与反馈式神经网络的结合使用的基于神经网络的目标检测方法、目标检测装置以及计算机可读存储介质。以下，将参考附图详细描述本公开的各个实施例。

首先，参照图1概述根据本公开实施例的目标检测方法。

图1是图示根据本公开实施例的目标检测方法的流程图。如图1所示，根据本公开实施例的目标检测方包括以下步骤。

在步骤S101中，获取包含目标的待检测的连续帧图像。在本公开的一个实施例中，可以在监控场景中配置能够获取监控场景的图像数据的监控摄像头作为图像获取模块。获取包含目标的待检测图像包括但不限于，在由物理位置上分离配置的图像获取模块采集图像数据之后，经由有线或者无线方式，接收从所述图像获取模块发送的视频数据。可替代地，图像获取模块可以与目标检测装置中的其他模块或组件物理上位于同一位置甚至位于同一机壳内部，目标检测装置中的其他模块或组件经由内部总线接收从所述图像获取模块发送的视频数据。可替代地，图像获取模块可以直接接收从外部传输到目标检测装置中用于目标检测的视频数据。在本公开的一个实施例中，待检测图像可以是图像获取模块采集到的原始图像，也可以是对原始图像进行预处理之后获得的图像。此后，处理进到步骤S102。

在步骤S102中，利用第一前馈神经网络，获取连续帧图像中的每一帧图像的第一特征信息。如下将详细描述的，在本公开的一个实施例中，第一前馈神经网络包括一层或多层卷积神经网络(CNN)。在多层卷积神经网络的情况下，每一层卷积神经网络中的卷积单元可以响应一部分覆盖范围内的周围单元。每个卷积单元的参数可以通过反向传播算法优化得到。

在本公开的一个实施例中，卷积运算的目的是提取输入的不同特征。例如，第一层卷积神经网络可以仅提取一些低级特征，诸如边缘、线条和角部等层级；随后，更多层的卷积神经网络能从低级特征中迭代提取更复杂的特征。在本公开的一个实施例中，对于一张图像(即，视频数据中的一帧图像)，经过第一前馈神经网络提取的第一特征信息，是一个三维张量X。该三维张量的三个维度分别代表横向、纵向和频道。在本公开的一个实施例中，无需人为定义图像的特征，该三维张量X是由第一前馈神经网络(卷积神经网络)自动提取的。对于该卷积神经网络的参数可以进行随机初始化，也可以利用之前已经训练好的网络(如VGG、ResNet等)进行初始化。对于这些已经训练好的网络，可以选取其中的某些部分作为本公开的第一前馈神经网络的一部分，也可以固定一部分参数不参与训练。此后，处理进到步骤S103。

在步骤S103中，利用第二双向反馈神经网络，基于每一帧图像的第一特征信息，获取每一帧图像的第二特征信息。如下将详细描述的，在本公开的一个实施例中，将第一前馈神经网络的对于连续帧图像中的每一帧图像提取的第一特征信息(即，三维张量X)输入第二双向反馈神经网络。如下将详细描述的，在本公开的一个实施例中，第二双向反馈神经网络包括一层或多层卷积反馈神经网络(RNN)。反馈式神经网络的神经元间可以连接构成有向图，通过将状态在自身网络中循环传递，反馈式神经网络可以接受更广泛的时间序列结构输入。也就是说，所述每一帧图像的所述第二特征信息综合所述每一帧图像的预定数目的之前帧和之后帧的所述第二特征信息。所述第二特征信息也是一个三维张量，其综合了之前和之后各帧中的信息，作为每一帧图像新的特征。此外，在本公开的一个实施例中，如果把一层反馈神经网络的输出特征序列作为输入，再输入下一层的反馈式神经网络中，就形成多层双向反馈神经网络。此后，处理进到步骤S104。

在步骤S104中，基于第二特征信息，确定连续帧图像的每一帧图像中包含目标的一个或多个区域。如下将详细描述的，在本公开的一个实施例中，基于第二双向反馈神经网络输出的第二特征信息，经由外部算法或作为整个网络的输出的一部分，确定每一帧图像中可能包含目标的一个或多个区域，以及该一个或多个区域中的每个区域包含感兴趣的目标的可能性。此后，根据该可能性，确定每一帧图像中包含目标的一个或多个区域。如下将详细描述的，根据本公开实施例的目标检测方法还可以进一步对于每一帧图像中包含目标的一个或多个区域进行区域特征的抽取、目标的跟踪和属性的分析。

以上，通过图1的流程图概述了根据本公开实施例的目标检测方法。如上所述，本公开实施例的目标检测方法通过卷积神经网络与反馈式神经网络的结合使用，实现了对于待检测的视频中的多帧信息的综合，并且同时对目标进行检测、追踪以及属性信息获取。

以下，将参照图2和图3的流程图和神经网络的结构示意图进一步详细描述根据本公开实施例的目标检测方法。图2是进一步图示根据本公开实施例的目标检测方法的详细流程图；图3是图示根据本公开实施例的用于目标检测的神经网络的结构示意图。

如图2所示的根据本公开实施例的目标检测方法的详细流程图的步骤S201到S204与参照图1描述的步骤S101到S104相同，在此结合图3所示的神经网络的结构示意图进行描述。

在步骤S201中，获取包含目标的待检测的连续帧图像。连续帧图像的获取方式与S101相同，在此将省略其描述。如图3示意性地示出的，获取包含目标的待检测的连续帧图像F(t-1)、F(t)和F(t+1)。容易理解的是，图3仅仅示意性地示出连续的三帧图像，但是本公开的范围不限于此。

在步骤S202中，利用第一前馈神经网络，获取连续帧图像中的每一帧图像的第一特征信息。如图3示意性地示出的，连续帧图像F(t-1)、F(t)和F(t+1)输入第一前馈神经网络301中。第一前馈神经网络301示意性地示出为包括两层卷积神经网络(CNN)。容易理解的是，本公开的范围不限于此，第一前馈神经网络可以包括一层或更多层卷积神经网络。如图3所示，第一层卷积神经网络可以仅提取一些低级特征，诸如边缘、线条和角部等层级；随后，第二层的卷积神经网络能从低级特征中迭代提取更复杂的特征。

在步骤S203中，利用第二双向反馈神经网络，基于每一帧图像的第一特征信息，获取每一帧图像的第二特征信息。如图3示意性地示出的，由第一前馈神经网络301提取的第一特征信息303输入到第二双向反馈神经网络302。第二双向反馈神经网络302示意性地示出为包括两层反馈神经网络(RNN)。容易理解的是，本公开的范围不限于此，第二双向反馈神经网络可以包括一层或更多层反馈神经网络。反馈式神经网络的神经元间连接构成有向图，所述每一帧图像的所述第二特征信息304综合所述每一帧图像的预定数目的之前帧和之后帧的所述第二特征信息304。此后，将具体结合图4描述第二特征信息获取处理。

在步骤S204中，基于第二特征信息，确定连续帧图像的每一帧图像中包含目标的一个或多个区域。基于第二双向反馈神经网络输出的第二特征信息，经由外部算法或作为整个网络的输出的一部分，确定每一帧图像中可能包含目标的一个或多个区域，以及该一个或多个区域中的每个区域包含感兴趣的目标的可能性。此后，根据该可能性，确定每一帧图像中包含目标的一个或多个区域。此后，将具体结合图5描述目标区域确定处理。此后，处理进到步骤S205。

在步骤S205中，基于第二特征信息，提取一个或多个区域的区域特征信息。在通过步骤S204确定包含目标的一个或多个区域后，可以进一步提取一个或多个区域的区域特征信息，该区域特征信息可以是一个一维向量。此后，处理进到步骤S206。

在步骤S206中，基于区域特征信息，确定一个或多个区域中的目标的类别信息、属性信息和位置信息中的至少之一。如图3示意性地示出的，将一维向量的区域特征信息分别输入到三个不同的分类器中，即类别分类器305、位置分类器306和属性分类器307。具体地，所述类别分类器305用于对目标进行检测，区分目标为行人、车辆和背景。所述位置分类器306用于输出目标所处的具体位置，即可视化为包围该目标的矩形框。所述属性分类器307则用于对目标的属性进行分类，以确定诸如行人的性别、年龄、衣着颜色、款式、是否背包、背包颜色等。此后，处理进到步骤S207。

在步骤S207中，基于属性信息和位置信息，确定处于连续帧图像中的同一目标。在本公开的实施例中，位置信息包括之前帧、当前帧以及随后帧中的位置信息。通过之前帧、当前帧的位置信息可以预测随后帧的位置信息，并且将预测的位置信息与检测到的随后帧位置信息进行比较，此外还考虑目标的属性信息是否相同，从而确定连续帧图像中的同一目标。

如上参照图2和图3的进一步描述，根据本公开实施例的目标检测方法首先对视频数据中的每帧图像产生若干可能包含感兴趣目标的一个或多个矩形区域，此后对包含感兴趣目标的一个或多个矩形区域进一步判断：该区域包含目标的分类，诸如行人、车辆、背景等；目标在区域中的准确位置；目标的属性信息，诸如行人来说的性别、年龄、服装款式等、以及对于车辆来说的车辆型号等；目前在之前和之后数帧中的位置。

此外，需要理解的是，参照图3示出的神经网络结构仅仅是示例性的，本公开不限于此。用于实现根据本公开实施例的目标检测方法的神经网络预先通过大量的样本数据进行训练，利用诸如反向传播算法来得到卷积网络(CNN)和卷积反馈式网络(RNN)中的各个参数。当进行目标检测和追踪时，神经网络的参数已知，各卷积网络和卷积反馈式网络的输出其提取及综合的目标特征。

以下，将进一步参照图4和图5描述根据本公开实施例的目标检测方法中的第二特征信息获取处理和目标区域确定处理。

图4是进一步图示根据本公开实施例的目标检测方法中的第二特征信息获取处理的流程图。在参照图1和图2描述的步骤S102和S202之后，根据本公开实施例的目标检测方法进到第二特征信息获取处理。

如图4所示，在步骤S401中，利用第二双向反馈神经网络中的正向反馈神经网络，获取每一帧图像的正向特征信息。在本公开的一个实施例中，正向反馈神经网络获取的每一帧图像的正向特征信息可以表示为：

Y_t＝W*X_t+V*Y_{t-1}+b表达式(1)

其中，W、V、b为反馈式神经网络的参数，Y_t为第t帧的输出结果。

在本公开中，在使用卷积反馈式神经网络的情况下，上述表达式可以表示为

其中，用卷积代替了一般反馈式神经网络中的乘法。如此，在综合各帧中的信息的时候，反馈神经网络中的网络单元只响应一部分覆盖范围内的周围单元，这样使网络的参数大大减少。在上述卷积反馈式神经网络的表达式中，第t帧的输出Y_t是一个三维张量。此后，处理进到步骤S402。

在步骤S402中，利用第二双向反馈神经网络中的反向反馈神经网络，获取每一帧图像的反向特征信息。类似于上述表达式(2)，反向反馈神经网络获取的每一帧图像的反向特征信息可以表示为：

此后，处理进到步骤S403。

在步骤S403中，综合正向特征信息和反向特征信息，获取第二特征信息。在本公开的一个实施例中，为了让视频中的每一帧不仅能够综合它之前各帧的信息，也能够综合它之后各帧的信息，使用双向反馈式神经网络(例如，如图3所示)。综合正向特征信息和反向特征信息获取的第二特征信息可以表示为：

H_t＝concate(Y_t,Z_t)表达式(4)

其中，Y_t是正向反馈式神经网络在第t帧输出的结果，Z_t为反向反馈式神经网络在第t帧的输出结果，H_t把Y_t和Z_t合并在一起，即

H_t(x,y,c)＝Y_t(x,y,c)if c<＝C

H_t(x,y,c)＝Z_t(x,y,c-C)if c>C表达式(5)

其中，C是Y_t的频道数，作为整个网络在第t帧的输出。由表达式(5)表示的H_t也是一个三维张量，它综合了之前和之后各帧中的信息，作为新的第t帧的第二特征信息。此后，处理可以进一步进到参照图1和图2描述的步骤S104和S204，以进一步执行基于所述第二特征信息的目标区域确定处理。

图5是进一步图示根据本公开实施例的目标检测方法中的目标区域确定处理的流程图。在参照图1和图2描述的步骤S103和S203(即，参照图4描述的第二特征信息获取处理)之后，根据本公开实施例的目标检测方法进到目标区域确定处理。

如图5所示，在步骤S501中，对于第二特征信息中的每个坐标点，输出预定数目的候选区域。在参照图4描述的卷积反馈式神经网络输出的特征H_t的横向和纵向坐标下，提取一个或多个区域(x,y,h,w)，由此可以产生一个或者多个三维张量H_t[x:x+w,y:y+h,:]。这些三维张量是该区域可能被检测出的目标的特征。这些区域(x,y,h,w)的产生可以由外部的算法提供，也可以作为整个网络输出的一部分。当其作为网络输出的一部分的时候，可以采用诸如Faster RCNN的算法，即对于每个H_t的横向和纵向坐标中的点，都输出固定数量的区域，代表一个可能出现目标的区域。此后，处理进到步骤S502。

在步骤S502中，基于候选区域对应的第二特征信息中的频道向量，确定候选区域包含目标的概率。在本公开的实施例中，可以将该坐标点(可能包含周围坐标点)对应的频道向量输入预先训练好的分类器来确定这一区域包含感兴趣的目标的可能性。此后，处理进到步骤S503。

在步骤S503中，确定概率满足预定阈值的候选区域作为包含目标的一个或多个区域。在本公开的实施例中，例如可以预先根据监测场景的安全性等级、目标密集程度等条件，设置预定阈值。在步骤S502中获得候选区域含感兴趣的目标的概率之后，将该概率与预定阈值进行比较，并且确定其概率不小于预定阈值的区域为包含目标的区域。

在通过参照图5描述的目标区域确定处理之后，处理可以进一步进到以上参照图2描述的步骤S205，以对于确定的目标区域中的目标进行检测、属性分析和追踪。

图6是图示根据本公开实施例的目标检测装置的示意图。

如图6所示，根据本公开实施例的目标检测装置600包括一个或多个处理器602、存储器604、图像采集装置606和输出装置608，这些组件通过总线系统610和/或其它形式的连接机构(未示出)互连。应当注意，图6所示的目标检测装置600的组件和结构只是示例性的，而非限制性的，根据需要，目标检测装置600也可以具有其他组件和结构。

处理器602可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制目标检测装置600中的其它组件以执行期望的功能。

存储器604可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器62可以运行所述程序指令，以实现以下步骤：获取包含目标的待检测的连续帧图像；利用第一前馈神经网络，获取所述连续帧图像中的每一帧图像的第一特征信息；利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息；基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域。此外，在所述计算机可读存储介质上存储的一个或多个计算机程序指令在由处理器602运行时还可以执行如上参照附图描述的根据本公开实施例的目标检测方法的所有步骤。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如输入的训练图像、损失函数、各像素的预测置信度和真实置信度等等。

图像采集装置606可以用于采集带有训练目标的训练图像以及用于目标检测的待检测视频图像，并且将所拍摄的图像存储在存储器604中以供其它组件使用。当然，也可以利用其他图像采集设备采集所述训练图像和待检测图像，并且将采集的图像发送给目标检测装置600。

输出装置608可以向外部(例如用户)输出各种信息，例如图像信息、训练结果以及目标检测结果。所述输出装置608可以包括显示器、扬声器、投影仪、网卡等中的一个或多个。

图7是图示根据本公开实施例的目标检测装置的功能性框图。如图7所示的根据本公开实施例的目标检测装置700可以用于执行如图1和图2所示的根据本公开实施例的目标检测方法。如图7所示，根据本公开实施例的目标检测装置700包括图像获取模块701、第一特征信息获取模块702、第二特征信息获取模块703、目标确定模块704、区域特征信息提取模块705以及目标信息确定模块706。

具体地，所述图像获取模块701用于获取包含目标的连续帧图像。在本公开的一个实施例中，所述图像获取模块701可以是在监控场景中配置的能够获取监控场景的图像数据的监控摄像头。所述图像获取模块701可以各模块物理位置上分离分配，并且经由有线或者无线方式，从所述图像获取模块701发送图像数据给其后的各模块。可替代地，所述图像获取模块701可以与目标检测装置700中的其他模块或组件物理上位于同一位置甚至位于同一机壳内部，目标检测装置700中的其他模块或组件经由内部总线接收从所述图像获取模块701发送的图像数据。可替代地，所述图像获取模块701还可以接收从外部传输到目标检测装置中用于目标检测的视频数据。

此后，第一特征信息获取模块702、第二特征信息获取模块703、目标确定模块704、区域特征信息提取模块705以及目标信息确定模块706可以由中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的通用或专用处理单元配置。第一特征信息获取模块702用于利用第一前馈神经网络，获取所述连续帧图像中的每一帧图像的第一特征信息。第二特征信息获取模块703用于利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息。目标确定模块704用于基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域。区域特征信息提取模块705用于基于所述第二特征信息，提取所述一个或多个区域的区域特征信息。目标信息确定模块706用于基于所述区域特征信息，确定所述一个或多个区域中的目标的类别信息、属性信息和位置信息中的至少之一。此外，所述目标确定模块706还用于基于所述属性信息和所述位置信息，确定处于所述连续帧图像中的同一目标。所述位置信息包括之前帧、当前帧以及随后帧中的位置信息。

更具体地，所述第二特征信息获取模块703利用所述第二双向反馈神经网络中的正向反馈神经网络，获取所述每一帧图像的正向特征信息，利用所述第二双向反馈神经网络中的反向反馈神经网络，获取所述每一帧图像的反向特征信息，并且综合所述正向特征信息和所述反向特征信息，获取所述第二特征信息，其中，所述正向特征信息反映当前帧及其之前预定数目帧的特征，并且所述反向特征信息反映当前帧及其之后预定数目帧的特征。所述目标确定模块706对于所述第二特征信息中的每个坐标点，输出预定数目的候选区域，基于所述候选区域对应的所述第二特征信息中的频道向量，确定所述候选区域包含目标的概率，并且确定所述概率满足预定阈值的所述候选区域作为所述包含目标的一个或多个区域。

图8是图示根据本公开实施例的计算机可读存储介质的示意图。如图8所示，根据本公开实施例的计算机可读存储介质800其上存储有计算机可读程序指令801。当所述计算机可读程序指令801由处理器运行时，执行参照以上附图描述的根据本公开实施例的目标检测方法。

以上，根据本公开实施例的基于神经网络的目标检测方法、目标检测装置以及计算机可读存储介质。通过根据本公开实施例的目标检测方法，使得对于目标的追踪过程就变得极为简单，只需要把预测的目标位置与当前检测出的目标位置进行比较，而不需要再额外比较外观相似程度。通过根据本公开实施例的目标检测方法，能够有效处理目标被遮挡问题。例如，当在一帧或多帧中，某目标被遮挡，由于该目标在之前的多帧中出现，从而根据预测信息可以估计该目标在当前帧的位置。进一步地，通过根据本公开实施例的目标检测方法，可以实现检测误差的降低。例如，当一个目标只在某帧被漏检，那么根据前后多帧的信息，能够预测出该目标在该漏检帧中的位置。同样地，如果在某帧中，一个目标是误检的，那么根据之前数帧和之后数帧的信息，可以判断出这个被检测出的目标不可信。此外，根据本公开实施例的目标检测方法把目标检测和属性提取过程合并在一起，避免分为独立步骤执行所可能引入不必要的误差。同时，通过训练目标属性，能够使同一目标的特征接近而不同目标的特征不同，以便更好地进行追踪。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种目标检测方法，包括：

获取包含目标的待检测的连续帧图像；

利用第一前馈神经网络，获取所述连续帧图像中的每一帧图像的第一特征信息；

利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息；

基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域，

其中，所述每一帧图像的所述第二特征信息综合所述每一帧图像的预定数目的之前帧和之后帧的所述第二特征信息。

2.如权利要求1所述的目标检测方法，还包括：

基于所述第二特征信息，提取所述一个或多个区域的区域特征信息；以及

基于所述区域特征信息，确定所述一个或多个区域中的目标的类别信息、属性信息和位置信息中的至少之一。

3.如权利要求2所述的目标检测方法，还包括：

基于所述属性信息和所述位置信息，确定处于所述连续帧图像中的同一目标，

其中，所述位置信息包括之前帧、当前帧以及随后帧中的位置信息。

4.如权利要求1到3的任一项所述的目标检测方法，其中，所述第一前馈神经网络为卷积前馈神经网络，所述第二双向反馈神经网络为双向反馈卷积神经网络，并且所述第一前馈神经网络和所述第二双向反馈神经网络分别包括一层或多层卷积神经网络。

5.如权利要求1到3的任一项所述的目标检测方法，其中，利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息包括：

利用所述第二双向反馈神经网络中的正向反馈神经网络，获取所述每一帧图像的正向特征信息；

利用所述第二双向反馈神经网络中的反向反馈神经网络，获取所述每一帧图像的反向特征信息；以及

综合所述正向特征信息和所述反向特征信息，获取所述第二特征信息，

其中，所述正向特征信息反映当前帧及其之前预定数目帧的特征，并且所述反向特征信息反映当前帧及其之后预定数目帧的特征。

6.如权利要求1到3的任一项所述的目标检测方法，其中，基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域包括：

对于所述第二特征信息中的每个坐标点，输出预定数目的候选区域；

基于所述候选区域对应的所述第二特征信息中的频道向量，确定所述候选区域包含目标的概率；以及

确定所述概率满足预定阈值的所述候选区域作为所述包含目标的一个或多个区域。

7.一种目标检测装置，包括：

处理器；以及

存储器，其中存储计算机可读程序指令，

其中，在所述计算机可读程序指令被所述处理器运行时执行以下步骤：

获取包含目标的待检测的连续帧图像；

8.如权利要求7所述的目标检测装置，其中，在所述计算机可读程序指令被所述处理器运行时还执行以下步骤：

9.如权利要求8所述的目标检测装置，其中，在所述计算机可读程序指令被所述处理器运行时还执行以下步骤：

10.如权利要求7到9的任一项所述的目标检测装置，其中，所述第一前馈神经网络为卷积前馈神经网络，所述第二双向反馈神经网络为双向反馈卷积神经网络，并且所述第一前馈神经网络和所述第二双向反馈神经网络分别包括一层或多层卷积神经网络。

11.如权利要求7到9的任一项所述的目标检测装置，其中，在所述计算机可读程序指令被所述处理器运行时，利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息包括：

12.如权利要求7到9的任一项所述的目标检测装置，其中，在所述计算机可读程序指令被所述处理器运行时，基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域包括：

13.一种目标检测装置，包括：

图像获取模块，用于获取包含目标的待检测的连续帧图像；

第一特征信息获取模块，用于利用第一前馈神经网络，获取所述连续帧图像中的每一帧图像的第一特征信息；

第二特征信息获取模块，用于利用第二双向反馈神经网络，基于所述每一帧图像的第一特征信息，获取所述每一帧图像的第二特征信息；

目标确定模块，用于基于所述第二特征信息，确定所述连续帧图像的每一帧图像中包含目标的一个或多个区域，

14.如权利要求13所述的目标检测装置，还包括：

区域特征信息提取模块，用于基于所述第二特征信息，提取所述一个或多个区域的区域特征信息；以及

目标信息确定模块，用于基于所述区域特征信息，确定所述一个或多个区域中的目标的类别信息、属性信息和位置信息中的至少之一。

15.如权利要求14所述的目标检测装置，其中，所述目标确定模块还用于基于所述属性信息和所述位置信息，确定处于所述连续帧图像中的同一目标，

16.如权利要求13到15的任一项所述的目标检测装置，其中，所述第一前馈神经网络为卷积前馈神经网络，所述第二双向反馈神经网络为双向反馈卷积神经网络，并且所述第一前馈神经网络和所述第二双向反馈神经网络分别包括一层或多层卷积神经网络。

17.如权利要求13到15的任一项所述的目标检测装置，其中，所述第二特征信息获取模块利用所述第二双向反馈神经网络中的正向反馈神经网络，获取所述每一帧图像的正向特征信息，利用所述第二双向反馈神经网络中的反向反馈神经网络，获取所述每一帧图像的反向特征信息，并且综合所述正向特征信息和所述反向特征信息，获取所述第二特征信息，

18.如权利要求13到15的任一项所述的目标检测装置，其中，所述目标确定模块对于所述第二特征信息中的每个坐标点，输出预定数目的候选区域，基于所述候选区域对应的所述第二特征信息中的频道向量，确定所述候选区域包含目标的概率，并且确定所述概率满足预定阈值的所述候选区域作为所述包含目标的一个或多个区域。

19.一种计算机可读存储介质，其上存储计算机可读程序指令，当所述计算机可读程序指令由处理器运行时，执行包括以下步骤的目标检测方法：

利用第一前馈神经网络，获取包含目标的待检测的连续帧图像中的每一帧图像的第一特征信息；

20.如权利要求19所述的计算机可读存储介质，其中，所述第一前馈神经网络为卷积前馈神经网络，所述第二双向反馈神经网络为双向反馈卷积神经网络，并且所述第一前馈神经网络和所述第二双向反馈神经网络分别包括一层或多层卷积神经网络。