CN113011371A

CN113011371A - 目标检测方法、装置、设备及存储介质

Info

Publication number: CN113011371A
Application number: CN202110352206.0A
Authority: CN
Inventors: 韩志伟; 刘诗男; 杨昆霖; 侯军; 伊帅
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-22
Also published as: TW202240471A; WO2022205632A1

Abstract

本发明涉及一种目标检测方法、装置、设备及存储介质，所述目标检测方法包括：获取第一图像所包含的位置变化信息，其中，所述第一图像为待检测视频中的一帧图像，所述位置变化信息包含所述第一图像的至少一个像素点相对前一帧图像的对应像素点的位置变化信息；获取所述第一图像的第一特征以及所述位置变化信息的第二特征；基于所述第二特征对所述第一特征进行增强处理，生成融合特征；根据融合特征确定所述第一图像中目标对象的检测结果。由于利用了相邻两帧图像的对应像素间的位置变化信息，因此利用了视频的时域信息，增加了检测结果的准确性。

Description

目标检测方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种目标检测方法和装置、设备及存储介质。

背景技术

随着人工智能技术的发展，图像中的目标可以自动检测，降低了人工成本，提高了效率和准确率。相关技术中，针对视频的图像帧进行检测时，与普通图像的目标检测完全一致，未对视频的特征进行充分利用，导致检测结果不准确。

发明内容

本发明提供一种目标检测方法和装置、设备及存储介质，以解决相关技术中的不足。

根据本发明实施例的第一方面，提供一种目标检测方法，包括：

获取第一图像所包含的位置变化信息，其中，所述第一图像为待检测视频中的一帧图像，所述位置变化信息包含所述第一图像的至少一个像素点相对前一帧图像的对应像素点的位置变化信息；

获取所述第一图像的第一特征以及所述位置变化信息的第二特征；

基于所述第二特征对所述第一特征进行增强处理，生成融合特征；

根据融合特征确定所述第一图像中目标对象的检测结果。

结合本公开提供的任一实施方式，所述位置变化信息包括光流信息，所述获取所述第一图像的第一特征以及所述位置变化信息的第二特征，包括：

获取所述第一图像中的图像特征作为所述第一特征，以及基于从所述光流信息中获取的光流特征作为所述第二特征。

结合本公开提供的任一实施方式，所述基于所述第二特征对所述第一特征进行增强处理，生成融合特征，包括：

根据所述第二特征确定所述第一图像的至少一个像素点的位置变化速度；

根据所述像素点的位置变化速度确定目标特征元素的增强参数，其中，所述目标特征元素为所述第一特征中与所述像素点对应的特征元素；

基于每个所述增强参数，对对应的所述目标特征元素进行差别化增强处理，生成融合特征。

结合本公开提供的任一实施方式，所述根据所述像素点的位置变化速度确定目标特征元素的增强参数，包括：

根据所述像素点的位置变化速度和预设的标准速度，确定所述目标特征元素的增强参数。

结合本公开提供的任一实施方式，所述根据所述像素点的位置变化速度和预设的标准速度，确定所述目标特征元素的增强参数，包括：

响应于所述位置变化速度与所述标准速度相等，确定所述目标特征元素的增强参数为预设的标准增强参数；或

响应于所述位置变化速度大于所述标准速度，确定所述目标特征元素的增强参数大于所述标准增强参数；或

响应于所述位置变化速度小于所述标准速度，确定所述目标特征元素的增强参数小于所述标准增强参数。

结合本公开提供的任一实施方式，所述根据融合特征确定所述第一图像中目标对象的检测结果，包括：

根据所述融合特征生成目标对象的密度图；

基于所述密度图中指代目标对象的密度点的数量，确定所述第一图像中的目标对象的数量。

结合本公开提供的任一实施方式，还包括：

获取第二图像中的目标对象的数量，其中，所述第二图像为所述待检测视频中的一帧图像；

获取第一时间信息和第二时间信息，其中，所述第一时间信息为所述第一图像在所述待检测视频中的时间，所述第二时间信息为所述第二图像在所述待检测视频中的时间；

根据所述第一数量信息、第一时间信息、第二数量信息和第二时间信息，生成数量变化信息，其中，所述数量变化信息用于表示待检测视频中的目标对象在不同时刻的数量变化。

结合本公开提供的任一实施方式，还包括：

根据所述融合特征生成目标对象的密度图；

根据所述密度图中指示的每个目标对象的位置以及所述第一图像中的预设区域，确定所述第一图像中的预设区域内的目标对象的数量。

结合本公开提供的任一实施方式，还包括：

响应于所述预设区域内的目标对象的数量大于预设的数量阈值，生成提示信息。

根据本发明实施例的第二方面，提供一种目标检测装置，包括：

第一获取模块，用于获取第一图像所包含的位置变化信息，其中，所述第一图像为待检测视频中的一帧图像，所述位置变化信息包含所述第一图像的至少一个像素点相对前一帧图像的对应像素点的位置变化信息；

第二获取模块，用于获取所述第一图像的第一特征以及所述位置变化信息的第二特征；

融合模块，用于基于所述第二特征对所述第一特征进行增强处理，生成融合特征；

检测模块，用于根据融合特征确定所述第一图像中目标对象的检测结果。

结合本公开提供的任一实施方式，所述位置变化信息包括光流信息，所述第二获取模块具体用于：

结合本公开提供的任一实施方式，所述融合模块具体用于：

结合本公开提供的任一实施方式，所述融合模块用于根据所述像素点的位置变化速度确定目标特征元素的增强参数时，具体用于：

结合本公开提供的任一实施方式，所述融合模块用于根据所述像素点的位置变化速度和预设的标准速度，确定所述目标特征元素的增强参数时，具体用于：

结合本公开提供的任一实施方式，所述检测模块具体用于：

根据所述融合特征生成目标对象的密度图；

结合本公开提供的任一实施方式，所述检测模块具体还用于：

结合本公开提供的任一实施方式，所述检测模块具体用于：

根据所述融合特征生成目标对象的密度图；

根据本发明实施例的第三方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现第一方面所述的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面所述的方法。

根据上述实施例可知，通过获取第一图像所包含的位置变化信息，即第一图像的至少一个像素点相对于前一帧图像的对应像素点的位置变化信息，并分别获取第一图像的第一特征和上述位置变化信息的第二特征，进而基于第二特征对第一特征进行增强处理，生成融合特征，最后根据融合特征确定第一图像中目标对象的检测结果，由于利用了相邻两帧图像的对应像素间的位置变化信息，因此利用了视频的时域信息，增加了检测结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本发明实施例示出的目标检测方法的流程图；

图2是本发明实施例示出的第一图像及其前一帧图像的示意图；

图3是本发明实施例示出的第一图像的位置变化信息的示意图；

图4是本发明实施例示出的目标检测的过程示意图；

图5是本发明实施例示出的目标检测装置的结构示意图；

图6是本发明实施例示出的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

基于此，第一方面，本发明至少一个实施例提供了一种目标检测方法，请参照附图1，其示出了该方法的流程，包括步骤S101至步骤S104。

其中，该目标检测方法所针对的待检测对象可以是图像，也可以是视频，当待检测对象是视频时，可以批量处理视频的每帧图像，或依次处理视频的每帧图像，为方便描述，本实施例以视频的某一帧图像作为待处理对象进行描述。目标检测的目的是对待检测对象中的目标对象进行检测，以获得检测结果，检测结果可以表示目标对象一方面或多方面的信息。

在步骤S101中，获取第一图像所包含的位置变化信息，其中，所述第一图像为待检测视频中的一帧图像，所述位置变化信息包含所述第一图像的至少一个像素点相对前一帧图像的对应像素点的位置变化信息。

其中，待检测视频可以为针对特定的空间录制的视频，该空间内包含目标对象，同时还包含其他对象，因此待检测视频内也同时包含目标对象和其他对象。第一图像和其前一帧图像如图2所示，第一图像可以为待检测视频中的第二帧图像之后(包括第二帧)的任意一帧图像，因为第一帧图像没有前一帧图像。

在一个示例中，待检测视频可以为监控视频或无人机视频，也就是说，可以为固定的监控摄像头拍摄的视频，或是通过飞行的无人机拍摄的视频。例如，图2中所示出的第一图像和其前一帧图像所属的待检测视频，就是通过无人机拍摄的街景视频。监控视频中的人群等目标对象往往尺寸较大，对于人群等目标对象的检测任务(例如计数人物)较为简单；无人机视频中的人群等目标对象往往尺寸很小，依靠人工观察进行检测容易发生错误，使用本实施例提供的检测方法能够避免上述错误。

在一个示例中，目标对象可以为下述至少一种：人物、车辆和动物。

其中，两帧图像的对应像素点之间的位置变化，可能由于待处理视频对应的空间中的对象的客观移动造成的，也可能由于无人机等视频采集设备的运动造成的，还可以是上述两方面原因共同造成的。由于位置变化信息可以表示两帧图像中的各个像素的位置变化，而两帧图像中的各个对象均是由若干连续像素构成的，因此同一对象的所有像素的位置变化信息可以是相同的。例如，图2所示出的第一图像所包含的位置变化信息如图3所示。本领域技术人员应当理解，以上位置变化信息的具体释义仅为示意，本公开实施例对此不进行限制。

本步骤中，可以采用预先训练的神经网络获取位置变化信息。训练神经网络时，可以采集大量的视频帧作为样本，将这些视频帧对应的位置变化信息作为标签，然后通过将样本输入待训练的神经网络，比较输出的位置变化信息(预测值)与作为标签的位置变化信息(真值)间的差异，得出网络损失值，并进一步通过网络损失值调整待训练神经网络的网络参数，然后通过反复迭代，不断优化，最终得到符合精度要求的训练完成的神经网络。本领域技术人员应当理解，以上获取位置变化信息的具体方式仅为示意，本公开实施例对此不进行限制。

在步骤S102中，获取所述第一图像的第一特征以及所述位置变化信息的第二特征。

其中，获取第一特征和获取第二特征的顺序并无限制，也就是说，可以先获取第一特征，再获取第二特征，也可以先获取第二特征，再获取第一特征，还可以同时获取第一特征和第二特征。

本步骤中，可以采用预先训练的神经网络获取第一特征，例如采用VGG16_bn模型提取第一特征；本领域技术人员应当理解，以上获取位置变化信息的具体方式仅为示意，本公开实施例对此不进行限制。

本步骤中，可以采用预先训练的神经网络获取第二特征，例如采用backbone模型提取第二特征；本领域技术人员应当理解，以上获取位置变化信息的具体方式仅为示意，本公开实施例对此不进行限制。

另外，第一特征和第二特征可以为相同尺寸的特征图。

在步骤S103中，基于所述第二特征对所述第一特征进行增强处理，生成融合特征。

其中，第一图像内的各个对象在一个方面或多个方面存在差异，而这些差异会体现在第一图像的第一特征中，而位置变化信息可以表示各个对象在运动方面的差异，而上述运动方面的差异会体现在位置变化信息的第二特征中。因此利用第二特征对第一特征进行增强处理，能够进一步强化各个对象体现在第一特征中的差异，也就是说，体现在融合特征中的各个对象的差异更加明显和细化。

特征融合的常用方法是对两个特征拼接而增加通道数，或者对两个特征做加法维持融合后的通道数。在一个示例中，可以将第二特征作为掩膜(mask)与第一特征相乘，得到融合特征。

在步骤S104中，根据融合特征确定所述第一图像中目标对象的检测结果。

其中，目标对象可以是第一图像中的一种对象，目标对象还可以是第一图像中的多种对象；目标对象可以根据用户的选择进行确定，也可以根据预设规则自动确定；检测结果可以表示目标对象在一个方面或多个方面的信息，检测结果的涵盖范围可以根据用户的选择进行确定，也可以根据预设规则自动确定；本领域技术人员应当理解，以上目标对象、检测结果的具体释义仅为示意，本公开实施例对此不进行限制。

本公开的实施例中，通过获取第一图像所包含的位置变化信息，即第一图像的至少一个像素点相对于前一帧图像的对应像素点的位置变化信息，并分别获取第一图像的第一特征和上述位置变化信息的第二特征，进而基于第二特征对第一特征进行增强处理，生成融合特征，最后根据融合特征确定第一图像中目标对象的检测结果，由于利用了相邻两帧图像的对应像素间的位置变化信息，因此利用了视频的时域信息，增加了检测结果的准确性。

而且，无人机视频等待检测视频中，目标对象的尺寸较小，即使人工观察，都难以避免发生错误，但是本实施例中的检测方法，由于利用了位置变化信息，而且生成融合特征时对第一特征进行了增强处理，因此增加了检测结果的准确性，即能够获取较为准确的检测结果。

本公开的一些实施例中，所述位置变化信息包括光流信息。其中，光流信息表示了空间运动物体在观察成像平面上的像素运动的瞬时速度。因此在获取第一图像的光流时，可以采用LK算法获取，LK算法针对视频使用有较大约束，例如亮度恒定、相邻帧时间很短以及相邻像素有相似的运动等约束，因此LK算法精度和效率都较低；为了更加高效且高精度度的获取光流，也可以利用深度学习的方法获取，例如，采用FlowNet模型或FlowNet2模型。

基于此，可以按照下述方式获取所述第一图像的第一特征以及所述位置变化信息的第二特征：获取所述第一图像中的图像特征作为所述第一特征，以及基于从所述光流信息中获取的光流特征作为所述第二特征。

图像特征能够表征第一图像的每个像素的至少一个维度的特征，光流特征能够表征第一图像的每个像素的位置变化速度。

本公开的一些实施例中，可以按照下述方式基于所述第二特征对所述第一特征进行增强处理，生成融合特征：首先，根据所述第二特征确定所述第一图像的至少一个像素点的位置变化速度；接下来，根据所述像素点的位置变化速度确定目标特征元素的增强参数，其中，所述目标特征元素为所述第一特征中与所述像素点对应的特征元素；最后，基于每个所述增强参数，对对应的所述目标特征元素进行差别化增强处理，生成融合特征。

其中，位置变化信息可以表示第一图像中各个对象在运动速度上的差异，且运动速度的差异会体现在位置变化信息的第二特征中，因此目标对象与其他对象在运动速度上的差异会体现在第二特征中，例如，目标对象为行人，则目标对象的运动速度大于其他对象。

其中，第一图像中的像素点被划分为不同的区域集合，每个区域集合构成一个对象，因此不同对象的速度不同，也就是不同对象包含的像素点的运动速度不同。因此，通过第二特征能够确定出不同的像素点的位置变化速度，且位置变化速度不同的像素点代表的对象不同，因此可以根据像素点的位置变化速度确定目标特征元素的增强参数，并进一步对目标特征元素进行增强，以得到融合特征的融合子特征，由于不同对象所包含的像素点对应的特征元素的增强参数不同，因此对不同特征元素的增强程度不同，即从整体上呈现出对第一特征中特征元素进行差别化增强处理的现象，而差别化增强处理后的第一特征形成融合特征，或者说全部的融合子特征则可构成融合特征。

其中，增强参数可以表示增强与否或增强程度，也就是说，针对目标对象的像素点和其他对象的像素点，可以通过增强与否或增强程度进行区分，强化体现在第一特征中的区别，例如，可以只增强目标对象的像素点对应的特征元素，或者还可以较高程度的增强目标对象的像素点对应的特征元素，较低程度的增强其他像素点对应的特征元素，进一步来说，目标对象的运动速度较之其他对象更大，因此可以只增强运动速度较大的像素点对应的特征元素，或较大程度增强运动速度较大的像素点对应的特征元素，较低程度增强其他像素点对应的特征元素。

在一个示例中，可以根据所述像素点的位置变化速度和预设的标准速度，确定所述目标特征元素的增强参数。例如，标准速度为一阈值，增强运动速度大于该阈值的像素点对应的特征元素，不增强运动速度小于或等于该阈值的像素点对应的特征元素；再例如，标准速度可以作为一个参考值，根据像素点的运动速度与该参考值的大小关系确定特征元素的增强程度：响应于所述位置变化速度与所述标准速度相等，确定所述目标特征元素的增强参数为预设的标准增强参数；或响应于所述位置变化速度大于所述标准速度，确定所述目标特征元素的增强参数大于所述标准增强参数；或响应于所述位置变化速度小于所述标准速度，确定所述目标特征元素的增强参数小于所述标准增强参数。

本公开的实施例中，通过位置变化信息的第二特征确定像素点的位置变化速度，并根据位置变化速度的不同，确定不同的像素点的特征元素的增强参数，进而对部分特征元素进行增强，或对全部特征元素进行不同程度的增强，从而进一步强化了目标对象与其他对象体现在第一特征中的差异，进而增加了目标对象检测结果的准确性和效率。

本公开的一些实施例中，可以按照下述方式根据融合特征确定所述第一图像中目标对象的检测结果：首先，根据所述融合特征生成目标对象的密度图；接下来，基于所述密度图中指代目标对象的密度点的数量，确定所述第一图像中的目标对象的数量。

其中，所述密度图用于指示所述第一图像中的目标对象的位置、数量、密度等信息，其中具有指代各个目标对象的密度点，密度图可以和第一特征以及第二特征的尺寸相等。因此可以根据密度图中指代目标对象的密度点的数量确定目标对象的数量，即通过对密度点进行求和便可确定。

其中，可以采用预先训练的神经网络确定密度图，例如采用decoder模型确定密度图，这种模型可以使用多个特征图作为输入，从而提取不同尺度的特征，因此确定的密度图非常准确；本领域技术人员应当理解，以上生成密度图的具体方式仅为示意，本公开实施例对此不进行限制。

在一个示例中，待检测视频为图2所示出的第一图像所属的街景视频，而目标对象为街景中的人物，因此可以确定出第一图像中的行人数量，也就是能够确定出第一图像对应的时间的行人数量。具体应用时，可以根据行人数量做出相应动作，例如当行人数量过多，超过预设的数量阈值时，可以发出警报信息进行报警，以提示行人和管理人员目前街道过于拥挤。

由于经济的发展，目前人群聚集越来越频繁，因此将人群计数作为检测结果，进而进行报警等操作，能够防止由于人群密集发生踩踏等危险事件。

本公开的实施例中，通过生成密度图，进而确定目标对象的数量，也就是以目标对象的数量作为检测结果，因此进一步提高了检测结果的准确性和效率。

本公开的一些实施例中，还可以按照下述方式生成待检测视频的数量变化信息：首先，获取第二图像中的目标对象数量，其中，所述第二图像为所述待检测视频中的一帧图像；接下来，获取第一时间信息和第二时间信息，其中，所述第一时间信息为所述第一图像在所述待检测视频中的时间，所述第二时间信息为所述第二图像在所述待检测视频中的时间；最后，根据所述第一数量信息、第一时间信息、第二数量信息和第二时间信息，确定数量变化信息，其中，所述数量变化信息用于表示待检测视频中的目标对象在不同时刻的数量变化。

其中，第二图像的数量不做限制，可以是一个，也可以是多个，也就是说，可以获取一帧图像的目标对象的数量，也可以获取多帧图像的目标对象的数量。相对应的，后续获取的第二时间信息也可以是一个或多个，进而后续生成的数量变化信息可以是针对两个图像(第一图像和一个第二图像)，也可以是针对多个图像(第一图像和至少两个第二图像)。

其中，获取第二图像中目标对象的数量的方式可以与上述获取第一图像中目标对象的数量的方式相同，也可以与上述获取第一图像中目标对象的数量的方式不同，本实施例对此无意进行具体限制。

其中，待检测视频的时间，可以是相对时间，也就是相对于视频开始的时刻的时间，例如，视频的总时长为25min，则视频的起始时刻的时间为0:00，视频的结束时刻的时间为00:25；待检测视频的时间，还可以是绝对时间，也就是视频录制时的绝对时间，例如，视频的总时长仍为25min，视频从2020.11.13.8:00开始录制，则视频的起始时刻的时间为2020.11.13.8:00，视频的结束时刻的时间为2020.11.13.8:25。

在一个示例中，待检测视频为图2所示出的第一图像所属的街景视频，而目标对象为街景中的人物，因此可以确定出第一图像和至少一个第二图像中的行人数量，也就是能够确定出街景视频中的行人数量的变化。

本公开的实施例中，通过获取待检测视频中的其他帧的图像中目标对象的数量，进一步结合每帧图像的时间信息生成待检测视频的数量变化信息，因此可以待检测视频对应的时间段内，目标对象的数量变化及趋势，进一步增加了检测结果的全面性。

例如，针对一个商业街区，可以获取一年中12个月的人流数量变化趋势，从而可以分析人们的消费习惯，从而得出消费的高峰月份、季度，即消费旺季，同时得出消费的低谷月份、季度，即消费淡季；同理，针对该商业街区，还可以获取每天营业的时间内的人流数量变化趋势，从而得出每天消费的高峰时间和低谷时间。上述得出的这些信息可以作为商业经营或物业管理的指导数据，从而能够达到科学管理的目的。

再例如，针对高速公路，可以获取节假日前后的车流量变化趋势，从而可以统计出行数据，进而作为高速管理的指导数据。

本公开的一些实施例中，还可以按照下述方式根据融合特征确定所述第一图像中目标对象的检测结果，包括：首先，根据所述融合特征生成目标对象的密度图；接下来，根据所述密度图中指示的每个目标对象的位置以及所述第一图像中的预设区域，确定所述第一图像中的预设区域内的目标对象的数量。

其中，其中，所述密度图用于指示所述第一图像中的目标对象的位置、数量、密度等信息，密度图可以和第一特征以及第二特征的尺寸相等。例如，密度图中可以具有第一图像中的目标对象，且为每个目标对象标注位置和/或计数标志等标注信息。因此可以根据密度图中目标对象的位置确定目标对象的数量息，即通过对目标对象进行求和便可确定。

其中，预设区域可以是控制人流量的区域，例如某些限流场所，只允许一定数量的人进入，再例如，施工区域等某些危险区域，禁止行人进入，即人流量需要控制为0。

在确定预设区域内的目标对象的数量后，可以响应于所述预设区域内的目标对象的数量大于预设的数量阈值，生成提示信息。例如，限流场所的人流量超过了要求的最高人流量，进行报警，以禁止行人继续进入；再例如，施工区域进入行人后，进行报警，并提示行人及时离开；再例如，在一些户外的真人游戏中，可以对游戏人员的活动区域进行监视，若进入犯规区域，则进行报警；再例如，在足球、篮球等运动项目中，可以对运动员的活动区域进行监视，若进入犯规区域，则进行报警。

本公开的实施例中，将预设区域的目标对象的数量作为检测结果，能够实现对特定区域的人流检测和人流控制，增加了检测的针对性和准确性，从而使该检测方法的应用范围更加广泛。

请参照附图4，其示出了本公开一个实施例的目标检测的过程。其中，位置变化信息为光流，目标检测结果为密度图。因此首先进行光流预测，接下来分别进行光流特征提取和图片特征提取，然后进行特征融合，最后利用融合后的特征进行密度图预测。

根据本发明实施例的第二方面，提供一种目标检测装置，请参照附图5，其示出了该装置的结构示意图，包括：

第一获取模块501，用于获取第一图像所包含的位置变化信息，其中，所述第一图像为待检测视频中的一帧图像，所述位置变化信息包含所述第一图像的至少一个像素点相对前一帧图像的对应像素点的位置变化信息；

第二获取模块502，用于获取所述第一图像的第一特征以及所述位置变化信息的第二特征；

融合模块503，用于基于所述第二特征对所述第一特征进行增强处理，生成融合特征；

检测模块504，用于根据融合特征确定所述第一图像中目标对象的检测结果。

结合本公开提供的任一实施方式，所述融合模块具体用于：

结合本公开提供的任一实施方式，所述检测模块具体用于：

根据所述融合特征生成目标对象的密度图；

基于所述密度图中指代目标对象的密度点进行求和，确定所述第一图像中的目标对象的数量。

结合本公开提供的任一实施方式，所述检测模块具体用于：

根据所述融合特征生成目标对象的密度图；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在第三方面有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

第三方面，本发明至少一个实施例提供了一种电子设备，请参照附图6，其示出了该设备的结构，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时基于第一方面所述的方法对目标进行检测。

第四方面，本发明至少一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面所述的方法。

在本发明中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种目标检测方法，其特征在于，包括：

根据融合特征确定所述第一图像中目标对象的检测结果。

2.根据权利要求1所述的目标检测方法，其特征在于，所述位置变化信息包括光流信息，所述获取所述第一图像的第一特征以及所述位置变化信息的第二特征，包括：

3.根据权利要求1或2所述的目标检测方法，其特征在于，所述基于所述第二特征对所述第一特征进行增强处理，生成融合特征，包括：

4.根据权利要求3所述的目标检测方法，其特征在于，所述根据所述像素点的位置变化速度确定目标特征元素的增强参数，包括：

5.根据权利要求4所述的目标检测方法，其特征在于，所述根据所述像素点的位置变化速度和预设的标准速度，确定所述目标特征元素的增强参数，包括：

6.根据权利要求1-5任意一项所述的目标检测方法，其特征在于，所述根据融合特征确定所述第一图像中目标对象的检测结果，包括：

根据所述融合特征生成目标对象的密度图；

7.根据权利要求6所述的目标检测方法，其特征在于，还包括：

8.根据权利要求1-5任一项所述的目标检测方法，其特征在于，所述根据融合特征确定所述第一图像中目标对象的检测结果，包括：

根据所述融合特征生成目标对象的密度图；

9.根据权利要求8所述的目标检测方法，其特征在于，还包括：

10.一种目标检测装置，其特征在于，包括：

11.一种电子设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至9任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至9任一所述的方法。