CN111260682B - 目标对象的追踪方法、装置、存储介质和电子设备 - Google Patents
目标对象的追踪方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN111260682B CN111260682B CN202010085230.8A CN202010085230A CN111260682B CN 111260682 B CN111260682 B CN 111260682B CN 202010085230 A CN202010085230 A CN 202010085230A CN 111260682 B CN111260682 B CN 111260682B
- Authority
- CN
- China
- Prior art keywords
- image
- target
- target object
- neural network
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 76
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims description 72
- 238000013527 convolutional neural network Methods 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/695—Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/62—Control of parameters via user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种目标对象的追踪方法、装置、存储介质和电子设备,涉及图像处理技术领域,该方法包括:首先获取SPAD相机在当前时刻之前采集的至少一个目标图像,然后针对每个目标图像,将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取孪生神经网络输出的该目标图像中目标对象的位置,其中,模板图像中包括目标对象,最后根据每个目标图像中目标对象的位置,确定待预测图像中目标对象的位置,待预测图像为SPAD相机在当前时刻采集的图像。本公开能够根据SPAD相机采集的图像进行目标追踪,降低了数据的运算量和复杂度,并且降低了数据占用的带宽,从而降低目标追踪的功耗和时延。
Description
技术领域
本公开涉及图像处理技术领域,具体地,涉及一种目标对象的追踪方法、装置、存储介质和电子设备。
背景技术
随着图像处理技术的不断进步,视觉目标跟踪(Visual Object Tracking)在视频监控、人机交互、无人驾驶等领域都得到了广泛的应用。目标追踪的目的是根据给定的多帧连续图像,预测之后图像中目标对象的位置。其中,目标对象可以是指定的人、物体、或者人体的某个部位,物体的某个部位。通常情况下,目标追踪技术是基于RGB(英文:Red-Green-Blue)色彩空间的数据,数据量大。大量的数据在传输、处理的过程中,占用带宽,运算量和复杂度高,功耗大,容易造成延时。
发明内容
为了解决现有技术中存在的相关问题,本公开的目的是提供一种目标对象的追踪方法、装置、存储介质和电子设备。
根据本公开实施例的第一方面,提供一种目标对象的追踪方法,所述方法包括:
获取单光子雪崩二极管SPAD相机在当前时刻之前采集的至少一个目标图像;
针对每个所述目标图像,将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取所述孪生神经网络输出的该目标图像中目标对象的位置,所述模板图像中包括所述目标对象;
根据每个所述目标图像中所述目标对象的位置,确定待预测图像中所述目标对象的位置,所述待预测图像为所述SPAD相机在当前时刻采集的图像。
可选地,所述将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取所述孪生神经网络输出的该目标图像中目标对象的位置,包括:
按照预设的检测区域对该目标图像进行划分,以得到该目标图像对应的检测图像;
将所述检测图像和所述模板图像输入所述孪生神经网络,以获取所述孪生神经网络输出的所述检测图像中所述目标对象的位置。
可选地,所述将所述检测图像和所述模板图像输入所述孪生神经网络,以获取所述孪生神经网络输出的所述检测图像中所述目标对象的位置,包括:
将所述检测图像输入所述孪生神经网络中的卷积神经网络,以得到所述卷积神经网络输出的第一高层特征和第一低层特征;
将所述模板图像输入所述卷积神经网络,以得到所述卷积神经网络输出的第二高层特征和第二低层特征;
将所述第一高层特征与所述第二高层特征输入互相关卷积层,以得到所述互相关卷积层输出的高层特征,并将所述第一低层特征与所述第二低层特征输入所述互相关卷积层,以得到所述互相关卷积层输出的低层特征;
根据所述高层特征和所述低层特征确定所述检测图像中所述目标对象的位置。
可选地,所述根据所述高层特征和所述低层特征确定所述检测图像中所述目标对象的位置,包括:
将所述高层特征和所述低层特征进行互相关卷积,以得到总特征;
将所述总特征输入所述孪生神经网络中的softmax层,以得到所述softmax层输出的所述检测图像中每个像素点与所述目标对象的匹配度;
根据所述检测图像中每个像素点与所述目标对象的匹配度,确定所述检测图像中所述目标对象的位置。
可选地,所述根据每个所述目标图像中所述目标对象的位置,确定待预测图像中所述目标对象的位置,包括:
判断每个所述目标图像中,第一像素位置是否属于所述目标对象的位置,所述第一像素位置为所述SPAD相机采集的图像中的任一像素位置;
若存在第一数量个所述目标图像中,所述第一像素位置属于所述目标对象的位置,且所述第一数量大于预设阈值,确定所述待预测图像中,所述第一像素位置属于所述目标对象的位置。
根据本公开实施例的第二方面,提供一种目标对象的追踪装置,所述装置包括:
获取模块,用于获取单光子雪崩二极管SPAD相机在当前时刻之前采集的至少一个目标图像;
处理模块,用于针对每个所述目标图像,将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取所述孪生神经网络输出的该目标图像中目标对象的位置,所述模板图像中包括所述目标对象;
确定模块,用于根据每个所述目标图像中所述目标对象的位置,确定待预测图像中所述目标对象的位置,所述待预测图像为所述SPAD相机在当前时刻采集的图像。
可选地,所述处理模块包括:
划分子模块,用于按照预设的检测区域对该目标图像进行划分,以得到该目标图像对应的检测图像;
处理子模块,用于将所述检测图像和所述模板图像输入所述孪生神经网络,以获取所述孪生神经网络输出的所述检测图像中所述目标对象的位置。
可选地,所述处理子模块用于:
将所述检测图像输入所述孪生神经网络中的卷积神经网络,以得到所述卷积神经网络输出的第一高层特征和第一低层特征;
将所述模板图像输入所述卷积神经网络,以得到所述卷积神经网络输出的第二高层特征和第二低层特征;
将所述第一高层特征与所述第二高层特征输入互相关卷积层,以得到所述互相关卷积层输出的高层特征,并将所述第一低层特征与所述第二低层特征输入所述互相关卷积层,以得到所述互相关卷积层输出的低层特征;
根据所述高层特征和所述低层特征确定所述检测图像中所述目标对象的位置。
可选地,所述处理子模块用于:
将所述高层特征和所述低层特征进行互相关卷积,以得到总特征;
将所述总特征输入所述孪生神经网络中的softmax层,以得到所述softmax层输出的所述检测图像中每个像素点与所述目标对象的匹配度;
根据所述检测图像中每个像素点与所述目标对象的匹配度,确定所述检测图像中所述目标对象的位置。
可选地,所述确定模块用于:
判断每个所述目标图像中,第一像素位置是否属于所述目标对象的位置,所述第一像素位置为所述SPAD相机采集的图像中的任一像素位置;
若存在第一数量个所述目标图像中,所述第一像素位置属于所述目标对象的位置,且所述第一数量大于预设阈值,确定所述待预测图像中,所述第一像素位置属于所述目标对象的位置。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开实施例的第一方面所述方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开实施例的第一方面所述方法的步骤。
通过上述技术方案,本公开首先获取SPAD相机在当前时刻之前采集的至少一个目标图像,然后针对每个目标图像,将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取孪生神经网络输出的该目标图像中目标对象的位置,其中,模板图像中包括目标对象,最后根据每个目标图像中目标对象的位置,确定待预测图像中目标对象的位置,待预测图像为SPAD相机在当前时刻采集的图像。本公开能够根据SPAD相机采集的图像进行目标追踪,降低了数据的运算量和复杂度,并且降低了数据占用的带宽,从而降低目标追踪的功耗和时延。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种目标对象的追踪方法的流程图;
图2是根据一示例性实施例示出的另一种目标对象的追踪方法的流程图;
图3是根据一示例性实施例示出的一种孪生神经网络的示意图;
图4是根据一示例性实施例示出的另一种目标对象的追踪方法的流程图;
图5是根据一示例性实施例示出的一种目标对象的追踪装置的框图;
图6是根据一示例性实施例示出的另一种目标对象的追踪装置的框图;
图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种目标对象的追踪方法的流程图,如图1所示,该方法包括:
步骤101,获取单光子雪崩二极管SPAD相机在当前时刻之前采集的至少一个目标图像。
举例来说,本公开实施例中涉及的图像(包括后续提及的目标图像、待预测图像等)均为SPAD(英文:Single Photon Avalanche Diode,中文:单光子雪崩二极管)相机采集的图像,该图像通常为低精度(1-bit)图像。首先,获取SPAD相机在当前时刻之前连续采集的一个或多个目标图像,例如,可以获取SPAD相机采集的2k-1个目标图像,k为正整数。
步骤102,针对每个目标图像,将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取孪生神经网络输出的该目标图像中目标对象的位置,模板图像中包括目标对象。
示例的,针对每个目标图像,将该目标图像和预设的模板图像输入预先训练的孪生神经网络。其中,模板图像中包括了目标对象,可以理解为预先采集包括了目标对象的大量图像,从这些图像中选取最能代表目标对象的图像作为模板图像。目标对象可以为指定的人或物体,也可以是人体的某个部位,物体的某个部位。目标图像的尺寸通常大于模板图像的尺寸,例如,目标图像的尺寸为5N*5N,模板图像的尺寸为N*N。孪生神经网络(英文:Siamese network)中可以包括有卷积神经网络和互相关卷积层。可以理解为,将每个目标图像输入到卷积神经网络中提取目标图像的特征数据,并将模板图像输入到卷积神经网络中提取模板图像的特征数据,然后再将目标图像的特征数据和模板图像的特征数据通过互相关卷积层,确定目标图像与模板图像的相似程度,从而确定该目标图像中目标对象的位置。该目标图像中目标对象的位置,可以理解为像素位置(即坐标),即该目标图像中哪些像素位置属于目标对象。
需要说明的是,孪生神经网络中,可以包括两个完全相同的卷积神经网络,分别用来提取目标图像和模板图像的特征数据,也可以只包括一个卷积神经网络,既用来提取目标图像的特征数据,也用来提取模板图像的特征数据。上述孪生神经网络可以为SiamFC(英文:Fully-Convolutional)、SiamRPN(英文:Region Proposal Network)等孪生神经网络,本公开不限于此,还可以包括其他类型的孪生神经网络。
步骤103,根据每个目标图像中目标对象的位置,确定待预测图像中目标对象的位置,待预测图像为SPAD相机在当前时刻采集的图像。
示例的,在得到每个目标图像中目标对象的位置之后,可以结合每个目标图像中目标对象的位置,确定SPAD相机在当前时刻采集的待预测图像中,目标对象的位置。目标图像与待预测图像均为SPAD相机采集的图像,因此,目标图像与待预测图像的尺寸相同,那么目标图像包含的像素数目与待预测图像包含的像素数目相同。可以先通过统计每个目标图像中对应的像素位置被确定为属于目标对象的命中次数,然后按照命中次数的大小降序排列,将排序在前面的预设数量个像素位置作为待预测图像中目标对象的位置。例如,有10个目标图像,10个目标图像中像素位置为(10,57)均被确认为属于目标对象,那么(10,57)的命中次数为10,9个目标图像中像素位置为(20,60)被确认为属于目标对象,还有1个目标图像中像素位置为(20,60)被确认为不属于目标对象,那么(20,60)的命中次数为9,以此类推,可以得到每个像素位置的命中次数,并将命中次数高的像素位置作为待预测图像中目标对象的位置。
相比与现有技术中的RGB数据,本公开通过SPAD相机采集的图像进行目标追踪,由于SPAD相机采集的图像的数据量很小,通常为1-bit,因此可以大大降低传输、处理过程中的数据量,能够降低数据的运算量和复杂度,并且降低数据占用的带宽,从而降低目标追踪的功耗和时延。
综上所述,本公开首先获取SPAD相机在当前时刻之前采集的至少一个目标图像,然后针对每个目标图像,将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取孪生神经网络输出的该目标图像中目标对象的位置,其中,模板图像中包括目标对象,最后根据每个目标图像中目标对象的位置,确定待预测图像中目标对象的位置,待预测图像为SPAD相机在当前时刻采集的图像。本公开能够根据SPAD相机采集的图像进行目标追踪,降低了数据的运算量和复杂度,并且降低了数据占用的带宽,从而降低目标追踪的功耗和时延。
图2是根据一示例性实施例示出的另一种目标对象的追踪方法的流程图,如图2所示,步骤102的实现方式可以包括:
步骤1021,按照预设的检测区域对该目标图像进行划分,以得到该目标图像对应的检测图像。
步骤1022,将检测图像和模板图像输入孪生神经网络,以获取孪生神经网络输出的检测图像中目标对象的位置。
举例来说,为了进一步降低数据量,可以先对目标图像进行预处理,例如可以按照预设的检测区域,对目标图像进行划分,将目标图像中检测区域指示的部分作为检测图像。其中,检测区域可以理解为目标对象所在的区域范围,可以是预先指定的,也可以是根据上一时刻执行步骤101至步骤103时确定的目标对象的位置确定的。例如,目标图像的尺寸为5N*5N,检测图像的尺寸可以为2N*2N。之后,再将检测图像和模板图像输入孪生神经网络,以获取孪生神经网络输出的检测图像中目标对象的位置。
现有技术中,由于RGB色彩空间的数据通常是低帧率的数据,每一帧之间物体的形变、移动较大,在图像中选取的检测区域较大(通常为目标对象大小的16倍),相应的数据量也较大。而SPAD相机具备超高帧率(例如:97.7kfps)、动态范围高的特点,每一帧之间物体的形变、移动较小,因此,本公开实施例中设置的检测区域(例如可以是目标对象大小的4倍),小于根据RGB色彩空间的数据设置的检测区域。相应的,可以进一步降低传输、处理过程中的数据量,降低数据的运算量和复杂度,并且降低数据占用的带宽,从而降低目标追踪的功耗和时延。
图3是根据一示例性实施例示出的一种孪生神经网络的示意图,如图3所示,孪生神经网络中可以包括预设的卷积神经网络C、互相关卷积层D和互相关卷积运算单元d,相应的步骤1022可以包括:
步骤1)将检测图像输入孪生神经网络中的卷积神经网络,以得到卷积神经网络输出的第一高层特征和第一低层特征。
步骤2)将模板图像输入卷积神经网络,以得到卷积神经网络输出的第二高层特征和第二低层特征。
步骤3)将第一高层特征与第二高层特征输入互相关卷积层,以得到互相关卷积层输出的高层特征,并将第一低层特征与第二低层特征输入互相关卷积层,以得到互相关卷积层输出的低层特征。
步骤4)根据高层特征和低层特征确定检测图像中目标对象的位置。
示例的,将检测图像(图3中的S)输入卷积神经网络(英文:Convolutional NeuralNetworks,缩写:CNN),得到检测图像的第一高层特征和第一低层特征。同时,将模板图像(图3中的T)输入卷积神经网络,得到模板图像的第二高层特征和第二低层特征。其中,卷积神经网络可以为预先训练好的,能够提取图像指定层的特征(包括高层特征和低层特征)的卷积神经网络。第一高层特征和第一低层特征分别反映了检测图像在不同空间分辨率下的特征数据,同样的,第二高层特征和第二低层特征分别反映了模板图像在不同空间分辨率下的特征数据。具体的,检测图像的第一高层特征经过的卷积层的层数,大于第一低层特征经过的卷积层的层数,相应的第一高层特征的特征维度高,空间分辨率低,第一低层特征的特征维度低,空间分辨率高。同样的,模板图像的第二高层特征经过的卷积层的层数,大于第二低层特征经过的卷积层的层数,相应的第二高层特征的特征维度高,空间分辨率低,第二低层特征的特征维度低,空间分辨率高。
举个例子,目标图像有2k-1个,相应的,检测图像也有2k-1个,检测图像的尺寸为2N*2N,模板图像的尺寸为N*N。卷积神经网络的通道数为C1,C1=2k-2。那么检测图像输入卷积神经网络的为2N*2N*C1的数据,相应的卷积神经网络输出的第一高层特征的大小为:(N/8)*(N/8)*C2,其中,(N/8)*(N/8)表示空间分辨率,C2表示特征维度。第一低层特征的大小为:(N/2)*(N/2)*(C2/8),其中,(N/2)*(N/2)表示空间分辨率,(C2/8)表示特征维度。模板图像输入卷积神经网络的为N*N*C1的数据,相应的卷积神经网络输出的第二高层特征的大小为:(N/16)*(N/16)*C2,其中,(N/16)*(N/16)表示空间分辨率,C2表示特征维度。第二低层特征的大小为:(N/4)*(N/4)*(C2/8),其中,(N/4)*(N/4)表示空间分辨率,(C2/8)表示特征维度。
然后,将第一高层特征与第二高层特征输入互相关卷积层,以得到互相关卷积层输出的高层特征,高层特征的层为:(N/16)*(N/16)*C2,同时将第一低层特征与第二低层特征输入互相关卷积层,以得到互相关卷积层输出的低层特征,低层特征的层为(N/2)*(N/2)*(C2/8)。其中,高层特征能够反映第一高层特征与第二高层特征的相似程度,低层特征能够反映第一低层特征与第二低层特征的相似程度。最后,根据高层特征和低层特征确定检测图像中目标对象的位置。相应的,高层特征的特征维度高,空间分辨率低,低层特征的特征维度低,空间分辨率高。
在具体的应用场景中,根据高层特征和低层特征确定检测图像中目标对象的位置的实现方式可以为:
首先,将高层特征和低层特征进行互相关卷积,以得到总特征。
之后,将总特征输入孪生神经网络中的softmax层,以得到softmax层输出的检测图像中每个像素点与目标对象的匹配度。
最后,根据检测图像中每个像素点与目标对象的匹配度,确定检测图像中目标对象的位置。
以图3所示的孪生神经网络来举例,孪生神经网络中还包括互相关卷积运算单元d,和空域的softmax层(未在图3中示出)。首先将步骤3)中确定的高层特征和低层特征输入到互相关卷积运算单元,进行互相关卷积运算,将互相关卷积的结果作为总特征。最后将总特征输入到softmax层,由softmax层对检测图像中的每个像素点进行分类,得到每个像素点与目标对象的匹配度,然后将匹配度大于预设匹配度阈值的像素点的像素位置作为检测图像中目标对象的位置。可以理解为,每个检测图像与模板图像输入孪生神经网络,得到的是尺寸为2N*2N的预测图,和预测图中目标对象所在的位置。
图4是根据一示例性实施例示出的另一种目标对象的追踪方法的流程图,如图4所示,步骤103可以包括:
步骤1031,判断每个目标图像中,第一像素位置是否属于目标对象的位置,第一像素位置为SPAD相机采集的图像中的任一像素位置。
步骤1032,若存在第一数量个目标图像中,第一像素位置属于目标对象的位置,且第一数量大于预设阈值,确定待预测图像中,第一像素位置属于目标对象的位置。
举个例子,目标图像有2k-1个,那么步骤102执行了2k-1次,得到2k-1个目标图像中目标对象的位置,其中,可以通过并行处理的方式,一次得到2k-1个目标图像中目标对象的位置。由于目标图像与待预测图像均为SPAD相机采集的图像,因此,目标图像与待预测图像的尺寸相同,那么目标图像包含的像素数目与待预测图像包含的像素数目相同。可以先判断每个目标图像中,每个像素位置是否属于目标对象的位置。针对第一像素位置,若2k-1个目标图像中,有第一数量个目标图像中第一像素位置属于目标对象的位置,并且第一数量大于预设阈值,那么可以确定待预测图像中,第一像素位置属于目标对象的位置。依次判断每个像素位置,即可以得到待预测图像中目标对象的位置。
需要说明的是,上述实施例中的孪生神经网络可以通过以下方式来训练:
获取样本输入集和样本输出集,样本输入集中的每个样本输入包括样本图像,样本输出集中包括与每个样本输入对应的样本输出,每个样本输出包括对应的样本图像中目标对象的位置,样本图像为SPAD相机采集的包含目标对象的图像。
将样本输入集作为孪生神经网络的输入,将样本输出集作为孪生神经网络的输出,以训练孪生神经网络。
在具体的应用场景中,可以在利用SPAD相机采集大量的包含目标对象的图像作为样本图像,然后将样本图像中目标对象的位置标注出来,作为对应的样本输出。对孪生神经网络训练时,可以将样本输入集作为孪生神经网络的输入,将样本输出集作为孪生神经网络的输出来训练,使得孪生神经网络在输入样本输入集时,孪生神经网络输出的样本图像中目标对象的位置,能够和样本输出集匹配。
综上所述,本公开首先获取SPAD相机在当前时刻之前采集的至少一个目标图像,然后针对每个目标图像,将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取孪生神经网络输出的该目标图像中目标对象的位置,其中,模板图像中包括目标对象,最后根据每个目标图像中目标对象的位置,确定待预测图像中目标对象的位置,待预测图像为SPAD相机在当前时刻采集的图像。本公开能够根据SPAD相机采集的图像进行目标追踪,降低了数据的运算量和复杂度,并且降低了数据占用的带宽,从而降低目标追踪的功耗和时延。
图5是根据一示例性实施例示出的一种目标对象的追踪装置的框图,如图5所示,该装置200包括:
获取模块201,用于获取单光子雪崩二极管SPAD相机在当前时刻之前采集的至少一个目标图像。
处理模块202,用于针对每个目标图像,将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取孪生神经网络输出的该目标图像中目标对象的位置,模板图像中包括目标对象。
确定模块203,用于根据每个目标图像中目标对象的位置,确定待预测图像中目标对象的位置,待预测图像为SPAD相机在当前时刻采集的图像。
图6是根据一示例性实施例示出的另一种目标对象的追踪装置的框图,如图6所示,处理模块202包括:
划分子模块2021,用于按照预设的检测区域对该目标图像进行划分,以得到该目标图像对应的检测图像。
处理子模块2022,用于将检测图像和模板图像输入孪生神经网络,以获取孪生神经网络输出的检测图像中目标对象的位置。
可选地,处理子模块2022用于执行以下步骤:
步骤1)将检测图像输入孪生神经网络中的卷积神经网络,以得到卷积神经网络输出的第一高层特征和第一低层特征。
步骤2)将模板图像输入卷积神经网络,以得到卷积神经网络输出的第二高层特征和第二低层特征。
步骤3)将第一高层特征与第二高层特征输入互相关卷积层,以得到互相关卷积层输出的高层特征,并将第一低层特征与第二低层特征输入互相关卷积层,以得到互相关卷积层输出的低层特征。
步骤4)根据高层特征和低层特征确定检测图像中目标对象的位置。
具体的,处理子模块2022在执行步骤4)时,可以通过如下方式:
首先,将高层特征和低层特征进行互相关卷积,以得到总特征。
之后,将总特征输入孪生神经网络中的softmax层,以得到softmax层输出的检测图像中每个像素点与目标对象的匹配度。
最后,根据检测图像中每个像素点与目标对象的匹配度,确定检测图像中目标对象的位置。
可选地,确定模块203用于执行以下步骤:
步骤5)判断每个目标图像中,第一像素位置是否属于目标对象的位置,第一像素位置为SPAD相机采集的图像中的任一像素位置。
步骤6)若存在第一数量个目标图像中,第一像素位置属于目标对象的位置,且第一数量大于预设阈值,确定待预测图像中,第一像素位置属于目标对象的位置。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,本公开首先获取SPAD相机在当前时刻之前采集的至少一个目标图像,然后针对每个目标图像,将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取孪生神经网络输出的该目标图像中目标对象的位置,其中,模板图像中包括目标对象,最后根据每个目标图像中目标对象的位置,确定待预测图像中目标对象的位置,待预测图像为SPAD相机在当前时刻采集的图像。本公开能够根据SPAD相机采集的图像进行目标追踪,降低了数据的运算量和复杂度,并且降低了数据占用的带宽,从而降低目标追踪的功耗和时延。
图7是根据一示例性实施例示出的一种电子设备300的框图。如图7所示,该电子设备300可以包括:处理器301,存储器302。该电子设备300还可以包括多媒体组件303,输入/输出(I/O)接口304,以及通信组件305中的一者或多者。
其中,处理器301用于控制该电子设备300的整体操作,以完成上述的目标对象的追踪方法中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作,这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口304为处理器301和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件305可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的目标对象的追踪方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的目标对象的追踪方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器302,上述程序指令可由电子设备300的处理器301执行以完成上述的目标对象的追踪方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由所述可编程的装置执行时用于执行上述目标对象的追踪方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (9)
1.一种目标对象的追踪方法,其特征在于,所述方法包括:
获取单光子雪崩二极管SPAD相机在当前时刻之前采集的至少一个目标图像;
针对每个所述目标图像,将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取所述孪生神经网络输出的该目标图像中目标对象的位置,所述模板图像中包括所述目标对象;
根据每个所述目标图像中所述目标对象的位置,确定待预测图像中所述目标对象的位置,所述待预测图像为所述SPAD相机在当前时刻采集的图像;
其中,所述根据每个所述目标图像中所述目标对象的位置,确定待预测图像中所述目标对象的位置,包括:
判断每个所述目标图像中,第一像素位置是否属于所述目标对象的位置,所述第一像素位置为所述SPAD相机采集的图像中的任一像素位置;
若存在第一数量个所述目标图像中,所述第一像素位置属于所述目标对象的位置,且所述第一数量大于预设阈值,确定所述待预测图像中,所述第一像素位置属于所述目标对象的位置;
其中,所述目标图像为多个;在多个目标图像中,存在第一数量个目标图像中第一像素位置属于目标对象的位置;多个目标图像中目标对象的位置为通过并行处理的方式得到的。
2.根据权利要求1所述的方法,其特征在于,所述将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取所述孪生神经网络输出的该目标图像中目标对象的位置,包括:
按照预设的检测区域对该目标图像进行划分,以得到该目标图像对应的检测图像;
将所述检测图像和所述模板图像输入所述孪生神经网络,以获取所述孪生神经网络输出的所述检测图像中所述目标对象的位置。
3.根据权利要求2所述的方法,其特征在于,所述将所述检测图像和所述模板图像输入所述孪生神经网络,以获取所述孪生神经网络输出的所述检测图像中所述目标对象的位置,包括:
将所述检测图像输入所述孪生神经网络中的卷积神经网络,以得到所述卷积神经网络输出的第一高层特征和第一低层特征;
将所述模板图像输入所述卷积神经网络,以得到所述卷积神经网络输出的第二高层特征和第二低层特征;
将所述第一高层特征与所述第二高层特征输入互相关卷积层,以得到所述互相关卷积层输出的高层特征,并将所述第一低层特征与所述第二低层特征输入所述互相关卷积层,以得到所述互相关卷积层输出的低层特征;
根据所述高层特征和所述低层特征确定所述检测图像中所述目标对象的位置。
4.根据权利要求3所述的方法,其特征在于,所述根据所述高层特征和所述低层特征确定所述检测图像中所述目标对象的位置,包括:
将所述高层特征和所述低层特征进行互相关卷积,以得到总特征;
将所述总特征输入所述孪生神经网络中的softmax层,以得到所述softmax层输出的所述检测图像中每个像素点与所述目标对象的匹配度;
根据所述检测图像中每个像素点与所述目标对象的匹配度,确定所述检测图像中所述目标对象的位置。
5.一种目标对象的追踪装置,其特征在于,所述装置包括:
获取模块,用于获取单光子雪崩二极管SPAD相机在当前时刻之前采集的至少一个目标图像;
处理模块,用于针对每个所述目标图像,将该目标图像和预设的模板图像输入预先训练的孪生神经网络,以获取所述孪生神经网络输出的该目标图像中目标对象的位置,所述模板图像中包括所述目标对象;
确定模块,用于根据每个所述目标图像中所述目标对象的位置,确定待预测图像中所述目标对象的位置,所述待预测图像为所述SPAD相机在当前时刻采集的图像;
所述确定模块用于:判断每个所述目标图像中,第一像素位置是否属于所述目标对象的位置,所述第一像素位置为所述SPAD相机采集的图像中的任一像素位置;若存在第一数量个所述目标图像中,所述第一像素位置属于所述目标对象的位置,且所述第一数量大于预设阈值,确定所述待预测图像中,所述第一像素位置属于所述目标对象的位置;
其中,所述目标图像为多个;在多个目标图像中,存在第一数量个目标图像中第一像素位置属于目标对象的位置;多个目标图像中目标对象的位置为通过并行处理的方式得到的。
6.根据权利要求5所述的装置,其特征在于,所述处理模块包括:
划分子模块,用于按照预设的检测区域对该目标图像进行划分,以得到该目标图像对应的检测图像;
处理子模块,用于将所述检测图像和所述模板图像输入所述孪生神经网络,以获取所述孪生神经网络输出的所述检测图像中所述目标对象的位置。
7.根据权利要求6所述的装置,其特征在于,所述处理子模块用于:
将所述检测图像输入所述孪生神经网络中的卷积神经网络,以得到所述卷积神经网络输出的第一高层特征和第一低层特征;
将所述模板图像输入所述卷积神经网络,以得到所述卷积神经网络输出的第二高层特征和第二低层特征;
将所述第一高层特征与所述第二高层特征输入互相关卷积层,以得到所述互相关卷积层输出的高层特征,并将所述第一低层特征与所述第二低层特征输入所述互相关卷积层,以得到所述互相关卷积层输出的低层特征;
根据所述高层特征和所述低层特征确定所述检测图像中所述目标对象的位置。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
9.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-4中任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010085230.8A CN111260682B (zh) | 2020-02-10 | 2020-02-10 | 目标对象的追踪方法、装置、存储介质和电子设备 |
US17/038,451 US11770617B2 (en) | 2020-02-10 | 2020-09-30 | Method for tracking target object |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010085230.8A CN111260682B (zh) | 2020-02-10 | 2020-02-10 | 目标对象的追踪方法、装置、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111260682A CN111260682A (zh) | 2020-06-09 |
CN111260682B true CN111260682B (zh) | 2023-11-17 |
Family
ID=70948255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010085230.8A Active CN111260682B (zh) | 2020-02-10 | 2020-02-10 | 目标对象的追踪方法、装置、存储介质和电子设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11770617B2 (zh) |
CN (1) | CN111260682B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107333040A (zh) * | 2017-07-13 | 2017-11-07 | 中国科学院半导体研究所 | 仿生视觉成像与处理装置 |
CN108375774A (zh) * | 2018-02-28 | 2018-08-07 | 中国科学技术大学 | 一种无扫描的单光子成像探测激光雷达 |
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN109272530A (zh) * | 2018-08-08 | 2019-01-25 | 北京航空航天大学 | 面向空基监视场景的目标跟踪方法与装置 |
EP3438699A1 (de) * | 2017-07-31 | 2019-02-06 | Hexagon Technology Center GmbH | Distanzmesser mit spad-anordnung zur berücksichtigung von mehrfachzielen |
CN109446889A (zh) * | 2018-09-10 | 2019-03-08 | 北京飞搜科技有限公司 | 基于孪生匹配网络的物体追踪方法及装置 |
CN109543559A (zh) * | 2018-10-31 | 2019-03-29 | 东南大学 | 基于孪生网络和动作选择机制的目标跟踪方法及系统 |
CN110287874A (zh) * | 2019-06-25 | 2019-09-27 | 北京市商汤科技开发有限公司 | 目标追踪方法及装置、电子设备和存储介质 |
CN110443827A (zh) * | 2019-07-22 | 2019-11-12 | 浙江大学 | 一种基于改进孪生网络的无人机视频单目标长期跟踪方法 |
CN110766724A (zh) * | 2019-10-31 | 2020-02-07 | 北京市商汤科技开发有限公司 | 目标跟踪网络训练、跟踪方法及装置、电子设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6894775B2 (ja) * | 2017-06-20 | 2021-06-30 | キヤノン株式会社 | 測距システム及びその制御方法 |
-
2020
- 2020-02-10 CN CN202010085230.8A patent/CN111260682B/zh active Active
- 2020-09-30 US US17/038,451 patent/US11770617B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107333040A (zh) * | 2017-07-13 | 2017-11-07 | 中国科学院半导体研究所 | 仿生视觉成像与处理装置 |
EP3438699A1 (de) * | 2017-07-31 | 2019-02-06 | Hexagon Technology Center GmbH | Distanzmesser mit spad-anordnung zur berücksichtigung von mehrfachzielen |
CN108375774A (zh) * | 2018-02-28 | 2018-08-07 | 中国科学技术大学 | 一种无扫描的单光子成像探测激光雷达 |
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN109272530A (zh) * | 2018-08-08 | 2019-01-25 | 北京航空航天大学 | 面向空基监视场景的目标跟踪方法与装置 |
CN109446889A (zh) * | 2018-09-10 | 2019-03-08 | 北京飞搜科技有限公司 | 基于孪生匹配网络的物体追踪方法及装置 |
CN109543559A (zh) * | 2018-10-31 | 2019-03-29 | 东南大学 | 基于孪生网络和动作选择机制的目标跟踪方法及系统 |
CN110287874A (zh) * | 2019-06-25 | 2019-09-27 | 北京市商汤科技开发有限公司 | 目标追踪方法及装置、电子设备和存储介质 |
CN110443827A (zh) * | 2019-07-22 | 2019-11-12 | 浙江大学 | 一种基于改进孪生网络的无人机视频单目标长期跟踪方法 |
CN110766724A (zh) * | 2019-10-31 | 2020-02-07 | 北京市商汤科技开发有限公司 | 目标跟踪网络训练、跟踪方法及装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
US20210250513A1 (en) | 2021-08-12 |
US11770617B2 (en) | 2023-09-26 |
CN111260682A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10937169B2 (en) | Motion-assisted image segmentation and object detection | |
US12014275B2 (en) | Method for text recognition, electronic device and storage medium | |
CN112396115B (zh) | 基于注意力机制的目标检测方法、装置及计算机设备 | |
US10977802B2 (en) | Motion assisted image segmentation | |
US20210019562A1 (en) | Image processing method and apparatus and storage medium | |
CN110136056B (zh) | 图像超分辨率重建的方法和装置 | |
US20220222776A1 (en) | Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution | |
KR20230013243A (ko) | 프레임에서 타겟 오브젝트를 위한 고정된 크기 유지 | |
CN113850833A (zh) | 使用降低分辨率的神经网络和先前帧的掩模的视频帧分割 | |
KR20200132665A (ko) | 집중 레이어를 포함하는 생성기를 기반으로 예측 이미지를 생성하는 장치 및 그 제어 방법 | |
CN109145970B (zh) | 基于图像的问答处理方法和装置、电子设备及存储介质 | |
KR101620933B1 (ko) | 제스쳐 인식 메커니즘을 제공하는 방법 및 장치 | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
CN112600994B (zh) | 物体探测装置、方法、存储介质和电子设备 | |
CN114627034A (zh) | 一种图像增强方法、图像增强模型的训练方法及相关设备 | |
CN114821488B (zh) | 基于多模态网络的人群计数方法、系统及计算机设备 | |
CN111931781A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN113971732A (zh) | 小目标检测方法、装置、可读存储介质及电子设备 | |
CN108537820A (zh) | 动态预测方法、系统及所适用的设备 | |
US20210368095A1 (en) | Method, apparatus, electronic device, storage medium and system for vision task execution | |
CN112584015B (zh) | 物体探测方法、装置、存储介质和电子设备 | |
CN111260682B (zh) | 目标对象的追踪方法、装置、存储介质和电子设备 | |
Pavithra et al. | Real-time color classification of objects from video streams | |
CN115223018A (zh) | 伪装对象协同检测方法及装置、电子设备和存储介质 | |
JPWO2019150649A1 (ja) | 画像処理装置および画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Han Yuxing Inventor after: Wen Jiangtao Inventor after: Li Yanghao Inventor after: Gu Jiawen Inventor after: Zhang Rui Inventor before: Li Yanghao Inventor before: Gu Jiawen Inventor before: Wen Jiangtao Inventor before: Zhang Rui Inventor before: Han Yuxing |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |