CN114708446A

CN114708446A - 目标检测方法、装置、设备及存储介质

Info

Publication number: CN114708446A
Application number: CN202210248035.1A
Authority: CN
Inventors: 程林; 康一; 陈松
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-07-05

Abstract

本发明公开了一种目标检测方法、装置、设备及存储介质，可以应用于计算机技术领域。该目标检测方法包括：获取目标检测视频中的第M帧图像；对第M帧图像进行处理，得到多个第一卷积窗；针对每个第一卷积窗，根据第一卷积窗的像素值与目标检测视频中的第M‑1帧图像的第二卷积窗的像素值，确定第一卷积窗与第二卷积窗的相似度；从多个第一卷积窗中确定相似度满足预设条件的目标第一卷积窗；将与目标第二卷积窗对应的输出矩阵确定为目标第一卷积窗的第一输出矩阵；根据多个第一卷积窗中除目标第一卷积窗之外的其他第一卷积窗分别对应的第二输出矩阵，以及第一输出矩阵检测第M帧图像中的目标。

Description

目标检测方法、装置、设备及存储介质

技术领域

本申请属于计算机技术领域，尤其涉及一种目标检测方法、装置、设备、存储介质及计算机程序产品。

背景技术

随着科技的进步，计算机视觉领域备受大家关注，其中很重要的一部分就是目标检测。目前，目标检测被用在多种现实场景中检测物体，例如自动驾驶、机器人视觉、视频监控等等，它可以在数字化图片中检测出属于某一类别的物体，例如在自动驾驶车辆中记录的视频中检测到车辆附近出现的汽车、行人或者其他非机动车等等。

而在像自动驾驶这种对实时性要求比较高的场景下，汽车的反应速度必须足够快，才能够避免交通事故的发生，也就是要求对目标的检测速度必须够快才能让汽车反应及时。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：现有的目标检测方法受限于计算资源的能力，难以满足检测时效。

发明内容

本申请提供了一种目标检测方法、装置、设备、存储介质及计算机程序产品，能够提高目标检测速度。

本公开的实施例一方面提供了一种目标检测方法，包括：获取目标检测视频中的第M帧图像，其中，M是大于等于2的正整数；对所述第M帧图像进行处理，得到多个第一卷积窗；针对每个所述第一卷积窗，根据所述第一卷积窗的像素值与所述目标检测视频中的第M-1帧图像的第二卷积窗的像素值，确定所述第一卷积窗与所述第二卷积窗的相似度，其中，所述第M帧图像中与所述第一卷积窗对应的第一位置，与所述第M-1帧图像中与所述第二卷积窗对应的第二位置相同，所述第二卷积窗具有对应的输出矩阵；从多个所述第一卷积窗中确定所述相似度满足预设条件的目标第一卷积窗，其中，所述目标第一卷积窗具有位置相同的目标第二卷积窗；将与所述目标第二卷积窗对应的输出矩阵确定为所述目标第一卷积窗的第一输出矩阵；根据多个所述第一卷积窗中除所述目标第一卷积窗之外的其他第一卷积窗分别对应的第二输出矩阵，以及所述第一输出矩阵检测所述第M帧图像中的目标。

根据本公开的实施例，所述针对每个所述第一卷积窗，根据所述第一卷积窗的像素值与所述目标检测视频中的第M-1帧图像的第二卷积窗的像素值，确定所述第一卷积窗与所述第二卷积窗的相似度，包括：根据所述第一卷积窗的像素值和所述第二卷积窗的像素值之差的绝对值，确定所述第一卷积窗与所述第二卷积窗的相似度。

根据本公开的实施例，所述方法还包括：读取所述目标检测视频的配置文件；根据所述配置文件，确定神经网络的结构信息并为每一网络层的权重赋值，其中，所述网络层中包括卷积层；将所述第M-1帧图像输入至所述卷积层，得到所述第二卷积窗；根据所述第二卷积窗与所述卷积层中的卷积核，确定所述第M-1帧图像的所述输出矩阵。

根据本公开的实施例，所述方法还包括：保存所述目标检测视频中的所述第M-1帧图像的所述第二卷积窗和所述输出矩阵。

本公开的另一方面提供了一种目标检测装置，包括：获取模块，用于获取目标检测视频第M帧图像，其中，M是大于等于2的正整数；第一处理模块，用于对所述第M帧图像进行处理，得到多个第一卷积窗；第一确定模块，用于针对每个所述第一卷积窗，根据所述第一卷积窗的像素值与所述目标检测视频中的第M-1帧图像的第二卷积窗的像素值，确定所述第一卷积窗与所述第二卷积窗的相似度；第二确定模块，用于从多个所述第一卷积窗中确定所述相似度满足预设条件的目标第一卷积窗，其中，所述目标第一卷积窗具有位置相同的目标第二卷积窗；第三确定模块，用于将与所述目标第二卷积窗对应的输出矩阵确定为所述目标第一卷积窗的第一输出矩阵；检测模块，用于根据多个所述第一卷积窗中除所述目标第一卷积窗之外的其他第一卷积窗分别对应的第二输出矩阵，以及所述第一输出矩阵检测所述第M帧图像中的目标。

根据本公开的实施例，第二确定模块具体用于：根据所述第一卷积窗的像素值和所述第二卷积窗的像素值之差的绝对值，确定所述第一卷积窗与所述第二卷积窗的相似度。

根据本公开的实施例，所述装置还包括：读取模块，用于读取所述目标检测视频的配置文件；第四确定模块，用于根据所述配置文件，确定神经网络的结构信息并为每一网络层的权重赋值，其中，所述网络层中包括卷积层；输入模块，用于将所述第M-1帧图像输入至所述卷积层，得到所述第二卷积窗；第五确定模块，用于根据所述第二卷积窗与所述卷积层中的卷积核，确定所述第M-1帧图像的所述输出矩阵。

本公开的另一方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个指令，其中，当上述一个或多个指令被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，上述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序产品，上述计算机程序产品包括计算机可执行指令，上述指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，能够获取目标检测视频中的第M帧图像，然后对第M帧图像进行处理，得到多个第一卷积窗，再针对每个第一卷积窗，根据第一卷积窗的像素值和目标检测视频中的第M-1帧图像的第二卷积窗的像素值，确定第一卷积窗和第二卷积窗的相似度，然后从多个第一卷积窗中确定相似度满足预设条件的目标第一卷积窗，并将目标第一卷积窗具有位置相同的目标第二卷积窗对应的输出矩阵确定为目标第一卷积窗的第一输出矩阵，再根据多个第一卷积窗中除目标第一卷积窗之外的其他第一卷积窗分别对应的第二输出矩阵以及第一输出矩阵检测第M帧图像中的目标。由于第M帧图像可以利用上一帧图像计算好的输出矩阵，减少了对第M帧图像的计算量，从而提升了对视频中目标的检测速度。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的目标检测方法的流程图；

图2A示意性示出了根据本公开实施例的输入图像的输入矩阵与卷积核的示意图；

图2B示意性示出了根据本公开实施例的目标检测视频第M帧图像和第M-1帧图像的计算复用的示意图；

图2C示意性示出了现有技术对图像中目标检测的结果图；

图2D示意性示出了检测框对的交并比计算方法示意图；

图2E示意性示出了根据本公开实施例的不同相似性阈值下的实验结果的折线图的示意图；

图2F示出了根据本公开实施例的相邻帧相似度随阈值变化的折线图；

图2G示出了根据本公开实施例的每帧平均交并比和平均中心距离随阈值变化的折线图；

图3示意性示出了根据本公开实施例的目标检测装置的框图；以及

图4示意性示出了根据本公开实施例的适于目标检测方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在相关技术中，检测视频中物体的方法一般是对视频中每一帧的图像分别做计算，然后输出每一帧图像的计算结果，这种计算方法计算量较大，并且由于计算能力的限制，不能提升检测速度，因此相关技术中至少存在有目标检测方法受限于计算资源的能力，难以满足检测时效的问题。

基于上述问题，本公开的实施例提供了一种目标检测方法。该方法包括获取目标检测视频中的第M帧图像，其中，M是大于等于2的正整数；对第M帧图像进行处理，得到多个第一卷积窗；针对每个第一卷积窗，根据第一卷积窗的像素值与目标检测视频中的第M-1帧图像的第二卷积窗的像素值，确定第一卷积窗与第二卷积窗的相似度，其中，第M帧图像中与第一卷积窗对应的第一位置，与第M-1帧图像中与第二卷积窗对应的第二位置相同，第二卷积窗具有对应的输出矩阵；从多个第一卷积窗中确定相似度满足预设条件的目标第一卷积窗，其中，目标第一卷积窗具有位置相同的目标第二卷积窗；将与目标第二卷积窗对应的输出矩阵确定为目标第一卷积窗的第一输出矩阵；根据多个第一卷积窗中除目标第一卷积窗之外的其他第一卷积窗分别对应的第二输出矩阵，以及第一输出矩阵检测第M帧图像中的目标。

图1示意性示出了根据本公开实施例的目标检测方法的流程图。

如图1所示，该方法包括操作S101～S106。

在操作S101，获取目标检测视频中的第M帧图像，其中，M是大于等于2的正整数。

根据本公开的实施例，目标检测视频可以是自动驾驶车辆当前行驶中记录的视频，也可以是无人机在飞行中记录的视频，还可以是其他需要检测目标的设备记录的视频。

在操作S102，对第M帧图像进行处理，得到多个第一卷积窗。

根据本公开的实施例，可以计算第M帧图像中的每个像素对应的像素值，然后将像素值表示为矩阵形式，再将矩阵划分为多个区域，得到多个第一卷积窗。

根据本公开的又一实施例，第一卷积窗可以是3*3的矩阵、也可以是4*4的矩阵。

在操作S103，针对每个第一卷积窗，根据第一卷积窗的像素值与目标检测视频中的第M-1帧图像的第二卷积窗的像素值，确定第一卷积窗与第二卷积窗的相似度，其中，第M帧图像中与第一卷积窗对应的第一位置，与第M-1帧图像中与第二卷积窗对应的第二位置相同，第二卷积窗具有对应的输出矩阵。

根据本公开的实施例，第M-1帧图像可以是目标检测视频中第M帧图像的上一帧图像。

根据本公开的又一实施例，第一位置可以是第一卷积窗在第M帧图像对应的位置，第二位置可以是第二卷积窗在第M-1帧图像对应的位置，第一位置和第二位置可以是相同的。

根据本公开的又一实施例，对第一卷积窗的像素值和第二卷积窗的像素值进行比较，可以确定第一卷积窗和第二卷积窗的相似度。例如，可以对第一卷积窗的像素值和第二卷积窗的像素值之差的绝对值进行比较，然后确定相似度。

根据本公开的又一实施例，可以通过以下公式(一)计算相似度：

|a_i-b_i|＝threshold (一)

其中a_i和b_i分别为第一卷积窗和对应的第二卷积窗的像素值，threshold表示第一卷积窗的像素值和第二卷积窗的像素值之差的绝对值

根据本公开的又一实施例，输出矩阵可以是对第二卷积窗进行计算后得到的结果所对应的矩阵。

在操作S104，从多个第一卷积窗中确定相似度满足预设条件的目标第一卷积窗，其中，目标第一卷积窗具有位置相同的目标第二卷积窗。

根据本公开的实施例，预设条件可以是用户预先设置的判断相似度的条件。例如，预设条件可以是第一卷积窗的像素值和第二卷积窗的像素值之差的绝对值小于0.005。

根据本公开的又一实施例，目标第一卷积窗在第M帧图像上的位置与目标第二卷积窗在第M-1帧图像上的位置是一样的。

在操作S105，将与目标第二卷积窗对应的输出矩阵确定为目标第一卷积窗的第一输出矩阵。

根据本公开的实施例，可以将与目标第二卷积窗对应的输出矩阵复制到目标第一卷积窗对应的输出矩阵的位置，得到第一输出矩阵。

在操作S106，根据多个第一卷积窗中除目标第一卷积窗之外的其他第一卷积窗分别对应的第二输出矩阵，以及第一输出矩阵检测第M帧图像中的目标。

根据本公开的实施例，第二输出矩阵可以是除目标第一卷积窗之外的其他第一卷积窗经过计算得到的，第一输出矩阵和第二输出矩阵可以是第M帧图像的输出结果。

在本公开的实施例中，可以读取目标检测视频的配置文件；根据配置文件，确定神经网络的结构信息并为每一网络层的权重赋值，其中，网络层中包括卷积层；将第M-1帧图像输入至卷积层，得到第二卷积窗；根据第二卷积窗与卷积层中的卷积核，确定第M-1帧图像的输出矩阵。

根据本公开的实施例，配置文件可以是对目标检测视频进行检测的程序文件，可以预先设置在移动终端中由移动终端的程序读取。

根据本公开的又一实施例，神经网络的结构信息可以包括网络的层数、每一网络层的类别以及输出输入的维度等等。

根据本公开的又一实施例，为每一网络层进行权重赋值时，可以根据配置文件中的权重文件进行赋值。

根据本公开的又一实施例，可以从目标检测视频中读取第M-1帧图像，并将图像输入到卷积层，经过卷积层的计算，可以将第M-1帧图像像素对应的像素值表示为矩阵形式，然后将矩阵划分为第二卷积窗。

根据本公开的又一实施例，可以将第二卷积窗对应的矩阵与卷积核相乘，得到第M-1帧图像的输出矩阵。

通过本申请实施例提供的目标检测方法，能够获取目标检测视频中的第M帧图像，然后对第M帧图像进行处理，得到多个第一卷积窗，再针对每个第一卷积窗，根据第一卷积窗的像素值和目标检测视频中的第M-1帧图像的第二卷积窗的像素值，确定第一卷积窗和第二卷积窗的相似度，然后从多个第一卷积窗中确定相似度满足预设条件的目标第一卷积窗，并将目标第一卷积窗具有位置相同的目标第二卷积窗对应的输出矩阵确定为目标第一卷积窗的第一输出矩阵，再根据多个第一卷积窗中除目标第一卷积窗之外的其他第一卷积窗分别对应的第二输出矩阵以及第一输出矩阵检测第M帧图像中的目标。从而使得第M帧图像可以利用上一帧图像计算好的结果，减少了对第M帧图像的计算量，从而提升了对视频中目标的检测速度。

下面参考图2A～图2G，结合具体实施例对图1所示的方法做进一步说明。

图2A示出了输入图像的输入矩阵与卷积核的示意图。

如图2A所示，输入图像用像素的像素值表示为矩阵形式，阴影区域可以表示为第一卷积窗，为了方便计算，可以通过im2col(image to column)操作将每一个卷积窗展开成一列，输入矩阵b₁中的第一列为第一个卷积窗的展开结果，相应的卷积核a₁也可以展开为一行。需要说明的是，本公开附图矩阵示出的整数是为了方便展示，不表示实际图像像素对应的像素值。

图2B是目标检测视频第M帧图像和第M-1帧图像的计算复用示意图。

如图2B所示，第M帧图像中矩形标注框内对应的为第一位置，第M-1帧图像矩形标注框内为第二位置，第一位置与第二位置相同。输出矩阵可以是第M-1帧图像对应的输入矩阵b₂与对应的卷积核a₂相乘得到的。

其中，第M-1帧中的输入矩阵b₂中阴影部分对应的目标第二卷积窗与第M帧图像的目标第一卷积窗的相似度可以是满足预设条件，第M-1帧中的目标第二卷积窗对应的输出矩阵为c₂中的阴影部分，将目标第二卷积窗对应的输出矩阵复制到目标第一卷积窗对应的第一输出矩阵位置，如第M帧图像对应的输出矩阵c₃中的阴影部分。

图2C示出了现有技术对图像中目标检测的结果图。

其中，通过对BDD视频集的视频中的每一帧分别进行目标检测产生用于比较的基准，然后使用本公开的目标检测方法再对视频进行检测，将检测结果与先前的基准进行比较，得到相对精度，基准检测框和相同位置用本公开实施例中的目标检测方法得到的检测框叫做检测框对。

如图2C所示，第一行是帧号，接下来是一个物体的类别和概率，最后是4个浮点数代表目标检测框的位置，从左往右依次是中心的x、y坐标以及检测框的宽度和高度，这里都做了归一化处理，是相对于图片宽度和高度的比例。如果两个具有相同标签的检测框的中心足够接近，就认为这两个检测框检测到了同一个目标，即认为本公开的目标检测方法检测正确了一个目标。一个视频所有帧检测正确的目标数与基准目标数的比值即是相对精度。

更进一步，可以计算检测框的交并比，计算方法如图2D所示。图2D示出了检测框对的交并比计算方法示意图。可以通过以下公式(二)计算，

其中，检测框x₁是基准检测框，检测框x₂是本公开实施例中的目标检测方法在相对位置得到的检测框。S1是x₁和x₂面积的交集，S2是x₁和x₂面积的并集。所有框的交并比的平均值即为平均交并比。

表1示意性示出了不同相似性阈值下的实验结果。从表1中可以看出，总体趋势是随着阈值的增大，计算复用增多，计算量减少，推理时间减少。但相对精度也随之下降，阈值越小，精度越高，但速度提升越小。所以阈值的选取要在精度和速度上折中。

实验表明，当阈值为0.005时，相对于不使用计算复用，精度超过了99％，同时推理时间减少25％左右。由于该算法需要存储每个卷积层的输入和输出用于计算复用，所以内存消耗约为原来的2倍，这是节约时间带来的空间上的代价。

表1

图2E示出了表1不同相似性阈值下的实验结果的折线图的示意图。

如图2E所示，更直观地展示了表1中的趋势。其中，相对精度是一种比较粗糙的评价结果好坏的方式，它只能告诉我们总体趋势。要了解更多细节，需要分析检测框的平均中心距离和平均交并比。每帧的平均距离和平均交并比通过比较IACR算法使用前后的神经网络得到的结果计算而来。同一个目标的检测框是一个检测框对，我们可以计算检测框对的中心欧氏距离和交并比。所有检测框对的中心欧氏距离取平均得到平均距离，类似得到平均交并比。

图2F示出了根据本公开实施例的相邻帧相似度随阈值变化的折线图。

如图2F所示，横坐标是帧号，纵坐标表示这一帧和上一帧之间相似的卷积窗占总卷积窗的比例。因为这6幅图表示的是同一个视频的相邻帧相似度，他们的相似度随着帧号的变化趋势也是相似的。然而，在不同的阈值下相似程度并不同。更大的阈值导致了更多的相似性，原因是约束变得更不严格。

图2G示出了根据本公开实施例的每帧平均交并比和平均中心距离随阈值变化的折线图。

如图2G所示，横坐标是帧号，纵坐标是表示这一帧和上一帧之间相似的卷积窗占总卷积窗的比例。从图中可以看出相似度的阈值越小，交并比越接近1，检测框对的平均距离也就越小，也就说明相对精度越高，随着相似度阈值不断增大，交并比越远离1，检测框对的平均距离也就越大，也就说明相对精度越低。

图3示意性示出了根据本公开的实施例的目标检测装置的框图。

如图3所示，目标检测装置300包括获取模块310、第一处理模块320、第一确定模块330、第二确定模块340、第三确定模块350和检测模块360。

获取模块310，用于获取目标检测视频第M帧图像，其中，M是大于等于2的正整数。

第一处理模块320，用于对第M帧图像进行处理，得到多个第一卷积窗。

第一确定模块330，用于针对每个第一卷积窗，根据第一卷积窗的像素值与目标检测视频中的第M-1帧图像的第二卷积窗的像素值，确定第一卷积窗与第二卷积窗的相似度。

第二确定模块340，用于从多个第一卷积窗中确定相似度满足预设条件的目标第一卷积窗，其中，目标第一卷积窗具有位置相同的目标第二卷积窗。

第三确定模块350，用于将与目标第二卷积窗对应的输出矩阵确定为目标第一卷积窗的第一输出矩阵。

检测模块360，用于根据多个第一卷积窗中除目标第一卷积窗之外的其他第一卷积窗分别对应的第二输出矩阵，以及第一输出矩阵检测第M帧图像中的目标。

根据本公开的实施例，第二确定模块340可以用于，根据第一卷积窗的像素值和第二卷积窗的像素值之差的绝对值，确定第一卷积窗与第二卷积窗的相似度。

根据本公开的又一实施例，上述装置300还包括：读取模块，用于读取目标检测视频的配置文件；第四确定模块，用于根据配置文件，确定神经网络的结构信息并为每一网络层的权重赋值，其中，网络层中包括卷积层；输入模块，用于将第M-1帧图像输入至卷积层，得到第二卷积窗；第五确定模块，用于根据第二卷积窗与卷积层中的卷积核，确定第M-1帧图像的输出矩阵。

根据本公开的又一实施例，上述装置300还包括：保存模块，用于保存目标检测视频中的第M-1帧图像的第二卷积窗和输出矩阵。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获取模块310、第一处理模块320、第一确定模块330、第二确定模块340、第三确定模块350、和检测模块360中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，获取模块310、第一处理模块320、第一确定模块330、第二确定模块340、第三确定模块350、和检测模块360中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块310、第一处理模块320、第一确定模块330、第二确定模块340、第三确定模块350、和检测模块360中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图4示意性示出了根据本公开实施例的适于实现上文描述的目标检测方法的电子设备的框图。图4示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图4所示，根据本公开实施例的电子设备400包括处理器401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。处理器401例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器401还可以包括用于缓存用途的板载存储器。处理器401可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 403中，存储有电子设备500操作所需的各种程序和数据。处理器401、ROM402以及RAM 403通过总线404彼此相连。处理器401通过执行ROM 402和/或RAM 403中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 402和RAM 403以外的一个或多个存储器中。处理器401也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备500还可以包括输入/输出(I/O)接口405，输入/输出(I/O)接口405也连接至总线404。系统500还可以包括连接至I/O接口405的以下部件中的一项或多项：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被处理器401执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 402和/或RAM 403和/或ROM 402和RAM 403以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种目标检测方法，包括：

获取目标检测视频中的第M帧图像，其中，M是大于等于2的正整数；

对所述第M帧图像进行处理，得到多个第一卷积窗；

针对每个所述第一卷积窗，根据所述第一卷积窗的像素值与所述目标检测视频中的第M-1帧图像的第二卷积窗的像素值，确定所述第一卷积窗与所述第二卷积窗的相似度，其中，所述第M帧图像中与所述第一卷积窗对应的第一位置，与所述第M-1帧图像中与所述第二卷积窗对应的第二位置相同，所述第二卷积窗具有对应的输出矩阵；

从多个所述第一卷积窗中确定所述相似度满足预设条件的目标第一卷积窗，其中，所述目标第一卷积窗具有位置相同的目标第二卷积窗；

将与所述目标第二卷积窗对应的输出矩阵确定为所述目标第一卷积窗的第一输出矩阵；

根据多个所述第一卷积窗中除所述目标第一卷积窗之外的其他第一卷积窗分别对应的第二输出矩阵，以及所述第一输出矩阵检测所述第M帧图像中的目标。

2.根据权利要求1所述的方法，其中，所述针对每个所述第一卷积窗，根据所述第一卷积窗的像素值与所述目标检测视频中的第M-1帧图像的第二卷积窗的像素值，确定所述第一卷积窗与所述第二卷积窗的相似度，包括：

根据所述第一卷积窗的像素值和所述第二卷积窗的像素值之差的绝对值，确定所述第一卷积窗与所述第二卷积窗的相似度。

3.根据权利要求1所述的方法，还包括：

读取所述目标检测视频的配置文件；

根据所述配置文件，确定神经网络的结构信息并为每一网络层的权重赋值，其中，所述网络层中包括卷积层；

将所述第M-1帧图像输入至所述卷积层，得到所述第二卷积窗；

根据所述第二卷积窗与所述卷积层中的卷积核，确定所述第M-1帧图像的所述输出矩阵。

4.根据权利要求1至3任一项所述的方法，还包括：

保存所述目标检测视频中的所述第M-1帧图像的所述第二卷积窗和所述输出矩阵。

5.一种目标检测装置，包括：

获取模块，用于获取目标检测视频第M帧图像，其中，M是大于等于2的正整数；

第一处理模块，用于对所述第M帧图像进行处理，得到多个第一卷积窗；

第一确定模块，用于针对每个所述第一卷积窗，根据所述第一卷积窗的像素值与所述目标检测视频中的第M-1帧图像的第二卷积窗的像素值，确定所述第一卷积窗与所述第二卷积窗的相似度；

第二确定模块，用于从多个所述第一卷积窗中确定所述相似度满足预设条件的目标第一卷积窗，其中，所述目标第一卷积窗具有位置相同的目标第二卷积窗；

第三确定模块，用于将与所述目标第二卷积窗对应的输出矩阵确定为所述目标第一卷积窗的第一输出矩阵；

检测模块，用于根据多个所述第一卷积窗中除所述目标第一卷积窗之外的其他第一卷积窗分别对应的第二输出矩阵，以及所述第一输出矩阵检测所述第M帧图像中的目标。

6.根据权利要求5所述的装置，其中，第二确定模块具体用于：

7.根据权利要求5或6所述的装置，还包括：

读取模块，用于读取所述目标检测视频的配置文件；

第四确定模块，用于根据所述配置文件，确定神经网络的结构信息并为每一网络层的权重赋值，其中，所述网络层中包括卷积层；

输入模块，用于将所述第M-1帧图像输入至所述卷积层，得到所述第二卷积窗；

第五确定模块，用于根据所述第二卷积窗与所述卷积层中的卷积核，确定所述第M-1帧图像的所述输出矩阵。

8.一种目标检测设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～4中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～4中任一项所述的方法。

10.一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述计算机可执行指令在被执行时用于实现权利要求1至4中任一项所述的方法。