CN106250863B - 对象追踪方法和装置 - Google Patents

对象追踪方法和装置 Download PDF

Info

Publication number
CN106250863B
CN106250863B CN201610648977.3A CN201610648977A CN106250863B CN 106250863 B CN106250863 B CN 106250863B CN 201610648977 A CN201610648977 A CN 201610648977A CN 106250863 B CN106250863 B CN 106250863B
Authority
CN
China
Prior art keywords
image
frame
pixel
feature
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610648977.3A
Other languages
English (en)
Other versions
CN106250863A (zh
Inventor
张弛
印奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Beijing Maigewei Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Beijing Maigewei Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd, Beijing Maigewei Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201610648977.3A priority Critical patent/CN106250863B/zh
Publication of CN106250863A publication Critical patent/CN106250863A/zh
Application granted granted Critical
Publication of CN106250863B publication Critical patent/CN106250863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Abstract

本发明的实施例提供了一种对象追踪方法和装置。对象追踪方法包括:获取视频;针对视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在至少部分帧的图像中的其他图像中的像素级预测位置信息;以及根据视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象。根据本发明实施例的对象追踪方法和装置,通过基于当前图像预测对象在其他图像中的位置信息及位置信息的比较来实现对象追踪,这种对象追踪方式非常简单,计算量小,并且可以降低对象追踪误差。

Description

对象追踪方法和装置
技术领域
本发明涉及图像处理领域,更具体地涉及一种对象追踪方法和装置。
背景技术
对行人、车辆等物体的检测追踪是诸多安防应用中不可或缺的一环。在现有方法中,往往把物体检测和物体追踪分成两个独立的环节来解决这一问题。首先,在采集到的视频的每一帧图像中,检测感兴趣的物体,通过边框把它们的位置和大小表示出来,然后根据空间位置、外观相似程度等因素将在各帧图像中检测到的物体关联在一起,从而进行追踪。在以上两个环节中,都有可能引入额外的误差。尤其是在检测环节中,在拥挤环境下,边框并不能很好地表示物体的位置。例如,在拥挤的人群中,大量的行人相互遮挡,因此边框也相互遮挡。如果使用边框来追踪行人的轨迹,很容易因为被其他人挡住,而丢失信息,或引入错误信息。因此,在一些方法中,通过像素级别的检测,判断每一帧中的每个像素是否属于某个感兴趣的物体。然而,在追踪的过程中,由于需要比较不同帧中检测物体的位置相关性和外观相似程度,像素级别的检测方法因为给出的对象形状不规则,而带来额外的困难。
发明内容
考虑到上述问题而提出了本发明。本发明提供了一种对象追踪方法和装置。
根据本发明一方面,提供了一种对象追踪方法。对象追踪方法包括:
获取视频;
针对所述视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息;以及
根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象。
示例性地,所述针对所述视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息包括:
将所述至少部分帧的图像中的每帧图像输入卷积神经网络,以获得所述至少部分帧的图像中的每帧图像的第一特征;
将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络,以获得所述至少部分帧的图像中的每帧图像的第二特征,其中,当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关;以及
基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。
示例性地,所述对象追踪方法还包括:基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象中的感兴趣的对象;
并且,在所述基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息的步骤中,仅确定所述感兴趣的对象在该图像中的像素级检测位置信息,以及仅预测所述感兴趣的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。
示例性地,所述基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息包括:
对于所述至少部分帧的图像中的任一图像,
将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致,以获得该图像的新特征图,其中,所述新特征图的特征值是第三特征,并且所述第三特征包括横向坐标向量、纵向坐标向量和频道向量;
将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入回归器,以获得该图像中的至少部分图像点中的每个图像点在该图像中相对于该图像点所属对象的位移信息、在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息、以及在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息;
对于所述至少部分图像点中的每个图像点,根据该图像点在该图像中相对于该图像点所属对象的位移信息估计在该图像中该图像点所属对象的中心点位置,根据该图像点在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息估计在该图像之前的特定数目的先前图像中该图像点所属对象的中心点位置,根据该图像点在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息估计在该图像之后的特定数目的随后图像中该图像点所属对象的中心点位置;以及
对针对所述至少部分图像点所估计获得的、在该图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像中的检测中心点位置作为该图像中包含的对象在该图像中的像素级检测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之前的特定数目的先前图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之前的特定数目的先前图像中的预测中心点位置作为该图像中包含的对象在该图像之前的特定数目的先前图像中的像素级预测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之后的特定数目的随后图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之后的特定数目的随后图像中的预测中心点位置作为该图像中包含的对象在该图像之后的特定数目的随后图像中的像素级预测位置信息。
示例性地,所述对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致包括:
对于所述至少部分帧的图像中的任一图像,对该图像的第二特征所对应的初始特征图进行插值和/或剪切以将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致。
示例性地,在所述对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致之后,所述对象追踪方法进一步包括:
对于所述至少部分帧的图像中的任一图像,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入分类器,以确定该图像中的每个图像点属于目标对象的可能性。
示例性地,所述根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象包括:
对于所述至少部分帧的图像中的任一图像,将该图像中的、每个属于目标对象的可能性超过可能性阈值的图像点关联到位于距离针对该图像点所估计获得的中心点位置最近的检测中心点位置处的对象。
示例性地,所述反馈式神经网络包括正向反馈式神经网络和反向反馈式神经网络,
所述正向反馈式神经网络用以下公式表示:
其中,W1、V1和b1为所述正向反馈式神经网络的参数,X_t为所述视频中的第t帧图像的第一特征,Y_t为所述第t帧图像的正向特征,Y_{t-1}为所述视频中的第t-1帧图像的正向特征;
所述反向反馈式神经网络用以下公式表示:
其中,W2、V2和b2为所述反向反馈式神经网络的参数,X_t为所述第t帧图像的第一特征,Z_t为所述第t帧图像的反向特征,Z_{t+1}为所述视频中的第t+1帧图像的反向特征;
所述第t帧图像的第二特征H_t通过以下公式计算:
其中,x表示横向坐标向量,y表示纵向坐标向量,c表示频道向量,C为所述第t帧图像的正向特征或反向特征的总频道数。
示例性地,所述对象追踪方法进一步包括:
利用多个样本图像对所述卷积神经网络、所述反馈式神经网络和所述回归器进行训练,其中,所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。
示例性地,所述卷积神经网络的数目是一个或多个,所述利用多个样本图像对所述卷积神经网络、所述反馈式神经网络和所述回归器进行训练包括:
对于所述多个样本图像中的任一样本图像,
将一个或多个所述卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致,以获得一个或多个新输出特征图;
基于一个或多个新输出特征图构建一个或多个损失函数;以及
利用所构建的一个或多个损失函数对一个或多个所述卷积神经网络进行训练。
示例性地,所述对于所述多个样本图像中的任一样本图像,将一个或多个所述卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致包括:
对于所述多个样本图像中的任一样本图像,对所述一个或多个初始输出特征图中的每一个进行插值和/或剪切以将该初始输出特征图调整为与该样本图像的大小一致。
示例性地,所述根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象包括:
如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第一预设条件,则将所述特定对象和所述一个或多个参照对象关联在一起,
其中,所述参照图像与所述特定图像相对应。
示例性地,所述根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象包括:
如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的像素级预测位置信息满足第二预设条件,并且在所述特定图像中,在根据所述一个或多个参照对象在所述特定图像中的像素级预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象,则基于所述一个或多个参照对象在所述特定图像中的像素级预测位置信息确定与所述特定图像相关的预测对象,并且将所述一个或多个参照对象与所述预测对象关联在一起,
其中,所述参照图像与所述特定图像相对应。
示例性地,所述根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象包括:
如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第三预设条件,则确定所述特定对象是不可信对象,
其中,所述参照图像与所述特定图像相对应。
根据本发明另一方面,提供了一种对象追踪装置。对象追踪装置包括:
视频获取模块,用于获取视频;
检测预测模块,用于针对所述视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息;以及
追踪模块,用于根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象。
示例性地,所述对象追踪装置进一步包括感兴趣对象确定模块,用于基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象中的感兴趣的对象;并且,检测预测子模块还用于在所述基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息的过程中,仅确定所述感兴趣的对象在该图像中的像素级检测位置信息,以及仅预测所述感兴趣的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。
示例性地,所述检测预测模块包括:
检测预测子模块,用于基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。
示例性地,所述检测预测子模块包括:
实际调整单元,用于对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致,以获得该图像的新特征图,其中,所述新特征图的特征值是第三特征,并且所述第三特征包括横向坐标向量、纵向坐标向量和频道向量;
位移信息获得单元,用于对于所述至少部分帧的图像中的任一图像,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入回归器,以获得该图像中的至少部分图像点中的每个图像点在该图像中相对于该图像点所属对象的位移信息、在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息、以及在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息;
中心点估计单元,用于对于所述至少部分帧的图像中的任一图像,对于所述至少部分图像点中的每个图像点,根据该图像点在该图像中相对于该图像点所属对象的位移信息估计在该图像中该图像点所属对象的中心点位置,根据该图像点在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息估计在该图像之前的特定数目的先前图像中该图像点所属对象的中心点位置,根据该图像点在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息估计在该图像之后的特定数目的随后图像中该图像点所属对象的中心点位置;以及
聚类单元,用于对于所述至少部分帧的图像中的任一图像,对针对所述至少部分图像点所估计获得的、在该图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像中的检测中心点位置作为该图像中包含的对象在该图像中的像素级检测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之前的特定数目的先前图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之前的特定数目的先前图像中的预测中心点位置作为该图像中包含的对象在该图像之前的特定数目的先前图像中的像素级预测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之后的特定数目的随后图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之后的特定数目的随后图像中的预测中心点位置作为该图像中包含的对象在该图像之后的特定数目的随后图像中的像素级预测位置信息。
示例性地,所述实际调整单元包括:
实际调整子单元,用于对于所述至少部分帧的图像中的任一图像,对该图像的第二特征所对应的初始特征图进行插值和/或剪切以将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致。
示例性地,所述对象追踪装置进一步包括:
可能性确定模块,用于对于所述至少部分帧的图像中的任一图像,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入分类器,以确定该图像中的每个图像点属于目标对象的可能性。
示例性地,所述追踪模块包括:
图像点关联子模块,用于对于所述至少部分帧的图像中的任一图像,将该图像中的、每个属于目标对象的可能性超过可能性阈值的图像点关联到位于距离针对该图像点所估计获得的中心点位置最近的检测中心点位置处的对象。
示例性地,所述反馈式神经网络包括正向反馈式神经网络和反向反馈式神经网络,
所述正向反馈式神经网络用以下公式表示:
其中,W1、V1和b1为所述正向反馈式神经网络的参数,X_t为所述视频中的第t帧图像的第一特征,Y_t为所述第t帧图像的正向特征,Y_{t-1}为所述视频中的第t-1帧图像的正向特征;
所述反向反馈式神经网络用以下公式表示:
其中,W2、V2和b2为所述反向反馈式神经网络的参数,X_t为所述第t帧图像的第一特征,Z_t为所述第t帧图像的反向特征,Z_{t+1}为所述视频中的第t+1帧图像的反向特征;
所述第t帧图像的第二特征H_t通过以下公式计算:
其中,x表示横向坐标向量,y表示纵向坐标向量,c表示频道向量,C为所述第t帧图像的正向特征或反向特征的总频道数。
示例性地,所述对象追踪装置进一步包括训练模块,用于利用多个样本图像对所述卷积神经网络、所述反馈式神经网络和所述回归器进行训练,其中,所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。
示例性地,所述卷积神经网络的数目是一个或多个,所述训练模块包括:
训练调整子模块,用于对于所述多个样本图像中的任一样本图像,将一个或多个所述卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致,以获得一个或多个新输出特征图;
构建子模块,用于对于所述多个样本图像中的任一样本图像,基于一个或多个新输出特征图构建一个或多个损失函数;以及
训练子模块,用于对于所述多个样本图像中的任一样本图像,利用所构建的一个或多个损失函数对一个或多个所述卷积神经网络进行训练。
示例性地,所述训练调整子模块包括:
训练调整单元,用于对于所述多个样本图像中的任一样本图像,对所述一个或多个初始输出特征图中的每一个进行插值和/或剪切以将该初始输出特征图调整为与该样本图像的大小一致。
示例性地,所述追踪模块包括第一关联子模块,用于如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第一预设条件,则将所述特定对象和所述一个或多个参照对象关联在一起,
其中,所述参照图像与所述特定图像相对应。
示例性地,所述追踪模块包括第二关联子模块,用于如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的像素级预测位置信息满足第二预设条件,并且在所述特定图像中,在根据所述一个或多个参照对象在所述特定图像中的像素级预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象,则基于所述一个或多个参照对象在所述特定图像中的像素级预测位置信息确定与所述特定图像相关的预测对象,并且将所述一个或多个参照对象与所述预测对象关联在一起,
其中,所述参照图像与所述特定图像相对应。
示例性地,所述追踪模块包括不可信确定子模块,用于如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第三预设条件,则确定所述特定对象是不可信对象,
其中,所述参照图像与所述特定图像相对应。
根据本发明实施例的对象追踪方法和装置,通过基于当前图像预测对象在其他图像中的位置信息及位置信息的比较来实现对象追踪,这种对象追踪方式非常简单,计算量小,并且可以降低对象追踪误差。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出用于实现根据本发明实施例的对象追踪方法和装置的示例电子设备的示意性框图;
图2示出根据本发明一个实施例的对象追踪方法的示意性流程图;
图3示出根据本发明一个实施例的针对视频中的每帧图像利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息并预测该图像中包含的对象在视频的其他图像中的像素级预测位置信息的步骤的示意性流程图;
图4示出根据本发明一个实施例的基于至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在至少部分帧的图像中的其他图像中的像素级预测位置信息的步骤的示意性流程图;
图5示出根据本发明一个实施例的利用视频中的图像进行对象追踪的示意性流程图;
图6示出根据本发明一个实施例的对象追踪装置的示意性框图;以及
图7示出根据本发明一个实施例的对象追踪系统的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
首先,参照图1来描述用于实现根据本发明实施例的对象追踪方法和装置的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108和视频采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述视频采集装置110可以采集期望的视频(例如用于对象追踪的视频),并且将所采集的视频存储在所述存储装置104中以供其它组件使用。视频采集装置110可以采用任何合适的设备实现,例如独立的照相机或移动终端的摄像头等。视频采集装置110仅是示例,电子设备100可以不包括视频采集装置110。
示例性地,用于实现根据本发明实施例的对象追踪方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。
下面,将参考图2描述根据本发明实施例的对象追踪方法。图2示出根据本发明一个实施例的对象追踪方法200的示意性流程图。如图2所示,对象追踪方法200包括以下步骤。
在步骤S210,获取视频。
视频可以包括若干帧图像,图像中可以包含对象。本文所述的对象可以是任何期望追踪或能够追踪的物体,例如行人、车辆等。视频可以来自外部设备,由外部设备传送到电子设备100进行对象追踪。此外,视频也可以由电子设备100的视频采集装置110采集获得。视频采集装置110可以将采集到的视频传送到处理器102,由处理器102进行对象追踪。视频可以是原始视频,也可以是对原始视频进行预处理后得到的视频。
在步骤S220,针对视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在至少部分帧的图像中的其他图像中的像素级预测位置信息。
在本发明各个实施例中,视频的至少部分帧的图像可以为视频中的部分视频帧,也可以为视频中的全部视频帧。
示例性地,本文所述的位置信息可以包括对象在图像中的具体坐标。示例性地,位置信息可以进一步包括对象的大小。像素级位置信息可以是对象的像素级别的分类,例如属于同一对象的像素可以分为一类。通过像素级别的分类可以将不同的对象区分开。对于某一帧图像来说,利用其图像信息检测出的对象在该图像中的像素级位置信息可以称为像素级检测位置信息,利用其图像信息预测出的对象在其他图像中的像素级位置信息可以称为像素级预测位置信息。对于视频中的每帧图像,均可以进行这样的检测和预测。
由于对象的运动过程通常是连续的,在针对对象采集的多帧图像中,对象所处的位置通常存在一定的相关性。因此,基于该相关性,对于视频中的某一图像来说,不仅可以直接检测对象在当前图像中的位置,还可以预测同一对象在采集时间早于当前图像的一帧或多帧先前图像中的位置,同理,也可以预测该对象在采集时间晚于当前图像的一帧或多帧随后图像中的位置。这样的检测和预测过程可以利用反馈式神经网络来实现。反馈式神经网络可以是事先训练好的。反馈式神经网络能够综合视频中的不同图像的信息,使得基于当前图像的信息预测其他图像(先前图像和/或随后图像)的信息成为可能,如下文所述。
反馈式神经网络的神经元间连接构成有向图,通过将状态在自身网络中循环传递,反馈式神经网络可以接收广泛的时间序列输入。也就是说,对于存在时序关系的多帧图像来说,将图像按照时间顺序输入到反馈式神经网络中,反馈式神经网络可以将与每帧图像相对应的输出结果重新返回到输入处,这样,可以建立当前图像与采集时间不同的先前图像和/或随后图像之间的关联。由此可以使得通过当前图像预测先前图像和/或随后图像的某些信息(例如当前图像中包含的对象在先前图像和/或随后图像中的位置信息)成为可能。
在步骤S230,根据视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象。
根据视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象可以包括根据视频中包含的对象的像素级检测位置信息和像素级预测位置信息将视频中的不同图像中的相同对象关联在一起。
下面举例描述。假设基于视频中的第t帧图像的像素信息检测到第t帧图像中包含对象A,其中心点位于第t帧图像的坐标(x1,y1)处,并且预测到对象A的中心点在第t+1帧图像中可能位于坐标(x2,y2)处。然后,基于第t+1帧图像的像素信息检测到第t+1帧图像中包含对象B,其中心点位于第t+1帧图像的坐标(x3,y3)处。如果经比较,发现坐标(x2,y2)与坐标(x3,y3)之间的距离非常近,例如小于某个阈值,则可以认为第t帧图像中的对象A与第t+1帧图像中的对象B是相同对象。在确认第t帧图像中的对象A与第t+1帧图像中的对象B是相同对象的情况下,将这两个对象关联在一起,合并成一个对象,例如合并为对象1。示例性地,将相同对象关联在一起的过程可以包括将该对象在不同图像中的位置信息关联在一起,以获得对象的运动轨迹。例如,对于对象1来说,其中心点在第t帧图像中位于坐标(x2,y2)处,在第t+1帧图像中位于坐标(x3,y3)处,也就是说,可以认为对象1在一段时间内从坐标(x2,y2)处运动到坐标(x3,y3)处。根据上述原理,可以针对每帧图像中的对象进行像素级检测位置信息和像素级预测位置信息的比较,将像素级检测位置信息和像素级预测位置信息满足要求的对象视为相同对象并进行关联,最终可以将包含在不同图像中的相同对象关联在一起,即可以实现对象的追踪。
与现有的对象追踪方法相比,上述对象追踪方法具有以下优点:
(1).追踪过程极为简单,计算量较小。本方法只需要将所预测的对象位置(例如对象的中心点)与检测出的对象位置(例如对象的中心点)进行比较即可,无需额外比较外观相似程度。
(2).能够有效处理被遮挡问题。在现有方法中,如果在视频的一帧或多帧图像中,某对象被遮挡,则该对象是无法检测出的,而在本方法中,由于对象可能在之前和/或之后的多帧图像中出现,则根据其在未被遮挡的图像中的信息估计其在被遮挡的图像中的位置是可能的。
(3).能够在一定程度上降低对象追踪误差。例如,如果某对象在某帧图像中被漏检,那么根据前后多帧图像的信息,能够预测出其在该帧图像中的位置。另外,如果在某帧图像中,一个对象是被误检的,那么根据前后多帧图像的信息,可以判断出该被检测出的对象不可信。
根据本发明实施例的对象追踪方法,通过基于当前图像预测对象在其他图像中的位置信息及位置信息的比较来实现对象追踪,这种对象追踪方式非常简单,计算量小,并且可以降低对象追踪误差。
示例性地,根据本发明实施例的对象追踪方法可以在具有存储器和处理器的设备、装置或者系统中实现。
根据本发明实施例的对象追踪方法可以部署在视频采集端,例如,可以部署在个人终端处,诸如智能电话、平板电脑、个人计算机等。替代地,根据本发明实施例的对象追踪方法还可以部署在服务器端(或云端)处。例如,可以在客户端采集包含对象的视频,客户端将采集到的视频传送给服务器端(或云端),由服务器端(或云端)进行对象追踪。
图3示出根据本发明一个实施例的针对视频的至少部分帧的图像中的每帧图像利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息并预测该图像中包含的对象在至少部分帧的图像中的其他图像中的像素级预测位置信息的步骤(步骤S220)的示意性流程图。根据本实施例,上述步骤S220可以包括以下步骤。
在步骤S310,将至少部分帧的图像中的每帧图像输入卷积神经网络,以获得至少部分帧的图像中的每帧图像的第一特征。
卷积神经网络是一种前馈神经网络,其由若干卷积单元组成,每个卷积单元可以响应一部分覆盖范围内的周围单元。每个卷积单元的参数可以通过反向传播算法优化得到。卷积运算的目的是提取图像的不同特征。例如,第一层卷积层可以提取一些低级的特征,如边缘、线条和角等层级,更多层的网络可以从低级特征中迭代提取更复杂的特征,最终获得本文所述的第一特征。卷积神经网络的数目以及每个卷积神经网络的层数可以根据需要而定,本发明不对此进行限制。卷积神经网络的参数可以进行随机初始化,也可以利用已经训练好的网络的参数进行初始化,例如利用视觉几何组(VGG),GoogleLeNet等网络的参数进行初始化。对于这类已有的网络,可以选取其中的某些部分作为本文所述的卷积神经网络的一部分参与训练,也可以固定一部分参数不参与该卷积神经网络的训练。
第一特征可以理解为类似热力图的特征图。对于一个图像(视频中的一帧)来说,经过卷积神经网络提取的第一特征可以是一个三维张量X,该三维张量X的三个维度可以分别代表特征图的横向坐标、纵向坐标和频道。也就是说,第一特征可以包括横向坐标向量、纵向坐标向量和频道向量。应该理解的是,经过卷积神经网络的处理之后,获得的特征图的大小并不一定与输入的图像一致,其可能缩小,每个由第一特征中的横向坐标和纵向坐标代表的图像点可能对应于视频中的原始图像中的一个区域。对于视频中的原始图像来说,其可以包括三个颜色分量,即红色(R)、绿色(G)和蓝色(B),则其频道数是3。在利用卷积神经网络对原始图像进行处理之后,所获得的特征图的频道数可能会大大增加,也就是说第二特征的频道向量可能不再简单是3维的向量,而变成例如512维、1024维等更多维度的向量。
在步骤S320,将至少部分帧的图像中的每帧图像的第一特征输入反馈式神经网络,以获得至少部分帧的图像中的每帧图像的第二特征,其中,当前图像的第二特征与在当前图像之前的先前图像和在当前图像之后的随后图像相关。
在计算当前图像的第二特征时,可以将当前图像的第一特征和先前图像的某些特征信息和/或随后图像的某些特征信息作为反馈式神经网络的输入,输出的将是当前图像的第二特征。
与第一特征类似地,第二特征也是一个三维张量,其可以用H表示。该三维张量H的三个维度可以分别代表特征图的横向坐标、纵向坐标和频道。也就是说,第二特征可以包括横向坐标向量、纵向坐标向量和频道向量。同样地,每个由第二特征中的横向坐标和纵向坐标代表的图像点可能对应于视频中的原始图像中的一个区域。当前图像的第二特征综合了在当前图像之前和之后的图像的信息。
在步骤S330,基于至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在至少部分帧的图像中的其他图像中的像素级预测位置信息。
如上文所述,当前图像的第二特征综合了在当前图像之前和之后的图像的信息,因此,根据当前图像的第二特征不仅可以获知当前图像中包含的对象在当前图像中的像素级位置信息,而且可以预测当前图像中包含的对象在当前图像之前和/或之后的图像中的像素级位置信息。例如,在步骤S330中,可以采用事先训练好的回归器等计算当前图像中包含的对象在当前图像中的位置及在当前图像之前和/或之后的图像中的位置。
图4示出根据本发明一个实施例的基于至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在至少部分帧的图像中的其他图像中的像素级预测位置信息的步骤(步骤S330)的示意性流程图。根据本实施例,上述步骤S330可以包括以下步骤。
在步骤S410,对于至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致,以获得该图像的新特征图,其中,所述新特征图的特征值是第三特征,并且所述第三特征包括横向坐标向量、纵向坐标向量和频道向量。
由于在卷积神经网络和反馈式神经网络中具有卷积层和池化层,因此,在经过卷积神经网络和反馈式神经网络的处理之后,所获得的特征图的大小会小于原始输入的图像的大小,为了实现像素级别的操作,可以将最终输出的特征图的大小恢复到与原始输入的图像一致,然后再进行处理。在本发明实施例中,可以将当前图像的第二特征所对应的初始特征图调整为与当前图像的大小一致。调整后获得的新特征图的特征值可以用第三特征表示,第三特征与第二特征类似,也包括横向坐标向量、纵向坐标向量和频道向量。
举例说明,视频中的每帧图像的大小可以是1280像素×720像素,在经过多次卷积和池化之后,可能缩小为原始图像的1/4,也就是说,反馈式神经网络输出的第二特征所对应的初始特征图可能只有320像素×180像素那么大。可以采用例如插值和/或剪切的方式将初始特征图增加为其原来大小的四倍,即变为大小与原始图像大小(1280像素×720像素)一致的新特征图。
与第二特征类似地,第三特征也是三维张量,可以用H'表示。对于每帧图像来说,其第三特征中的横向坐标和纵向坐标可以代表若干个图像点,每个图像点对应于该图像中的一个像素。
在步骤S420,对于至少部分帧的图像中的任一图像,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入回归器,以获得该图像中的至少部分图像点中的每个图像点在该图像中相对于该图像点所属对象的位移信息、在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息、以及在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息。
如上所述,第三特征是三维张量H',其三个维度可以分别代表新特征图的横向坐标、纵向坐标和频道。
为了描述方便,可以将视频中的第t帧图像的第三特征表示为H'_t(x,y,c),其中x表示横向坐标向量,y表示纵向坐标向量,c表示频道向量。频道向量代表图像(或特征图)的颜色信息,而经由颜色信息可以判断对象在图像(或特征图)中的位置。对于某个图像点(x,y)来说,第三特征中的与该图像点相对应的元素可以表示为H'_t[x,y,:]。第三特征中的与每个图像点相对应的元素也可以说是该图像点对应的特征。
可以将当前图像的每个图像点对应的特征,即H'_t[x,y,:],输入到(1+2N)个回归器,每个回归器输出在当前图像、或在当前图像之前的第n帧(n≤N)先前图像、或在当前图像之后的第n帧(n≤N)随后图像中该图像点(x,y)到对象中心点的位移。回归器可以是事先训练好的。示例性而非限制性地,回归器可以是全连接神经网络。
在步骤S430,对于至少部分帧的图像中的任一图像,对于至少部分图像点中的每个图像点,根据该图像点在该图像中相对于该图像点所属对象的位移信息估计在该图像中该图像点所属对象的中心点位置,根据该图像点在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息估计在该图像之前的特定数目的先前图像中该图像点所属对象的中心点位置,根据该图像点在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息估计在该图像之后的特定数目的随后图像中该图像点所属对象的中心点位置。
对于当前图像的每个图像点来说,可以根据针对该图像点检测到的该图像点在当前图像中与对象中心点的位移估计在当前图像中对象中心点的位置。同样地,对于当前图像的每个图像点来说,可以根据针对该图像点预测的该图像点在其他图像中与对象中心点的位移估计在其他图像中对象中心点的位置。
在步骤S440,对于至少部分帧的图像中的任一图像,对针对至少部分图像点所估计获得的、在该图像中至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像中的检测中心点位置作为该图像中包含的对象在该图像中的像素级检测位置信息,对针对至少部分图像点所估计获得的、在该图像之前的特定数目的先前图像中至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之前的特定数目的先前图像中的预测中心点位置作为该图像中包含的对象在该图像之前的特定数目的先前图像中的像素级预测位置信息,对针对至少部分图像点所估计获得的、在该图像之后的特定数目的随后图像中至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之后的特定数目的随后图像中的预测中心点位置作为该图像中包含的对象在该图像之后的特定数目的随后图像中的像素级预测位置信息。
通过简单的聚类算法可以确定各图像中的对象的中心点。例如,假设在第t帧图像中,某一行人A包含在100像素×300像素的图像块中,则存在大约3万的图像点是属于该行人A的。在步骤S430中,根据这3万个图像点可以估计获得3万个中心点,代表行人A的中心点。应当理解,这3万个中心点通常会有一些是重合的,并且大多数中心点都聚集在一个较小的区域内。因此可以对这3万个中心点进行聚类,获得一个最终的中心点位置,该最终的中心点位置是第t帧图像中的检测中心点位置。如果第t帧图像中包含四个行人,则可以获得四个检测中心点位置。
对于预测位置信息,同样可以通过聚类方式进行处理。仍以上述行人A为例,在第t帧图像中,有大约3万个图像点是属于该行人A的。根据这3万个图像点中的每一个可以估计获得在第t+1帧图像中的一个中心点位置。因此,对于t+1帧图像来说,可以估计得到大约3万个中心点。对这3万个中心点进行聚类,可以获得一个最终的中心点位置,该最终的中心点位置是所预测的、第t帧图像中的行人A在第t+1帧图像中的预测中心点位置。
根据上述方法,通过回归器对每个图像点对应的特征进行处理,可以在像素(对应于图像点)级别上获得对象在当前图像中的检测位置信息,以及对象在先前和/或随后图像中的预测位置信息。
根据本发明实施例,上述步骤S410可以包括:对于至少部分帧的图像中的任一图像,对该图像的第二特征所对应的初始特征图进行插值和/或剪切以将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致。
如上文所述,为实现像素级别的操作,可以将反馈式神经网络输出的第二特征所对应的初始特征图调整为与当前图像一致,调整方法可以是插值和/或剪切。本领域技术人员可以理解,插值和/或剪切的目的是实现对初始特征图的缩放,其可以采用本领域常规技术实现,在此不进行赘述。例如,插值方法可以是常规的图像插值方法,例如最邻近元法、双线性内插法、三次内插法等等。调整后获得的特征图即为新特征图。通过插值和/或剪切可以简单快速地实现初始特征图的缩放。
根据本发明实施例,在步骤S410之后,对象追踪方法400可以进一步包括:对于至少部分帧的图像中的任一图像,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入分类器,以确定该图像中的每个图像点属于目标对象的可能性。
可以将上文所述的每个图像点对应的特征H'_t[x,y,:]输入分类器,分类器输出该图像点是否属于某个目标对象(即感兴趣的对象),例如行人、车辆等。例如,在利用分类器判断图像点是否属于行人的情况下,分类器可以输出一个在0和1之间的概率值,概率值越大说明图像点属于行人的概率越高。当然,分类器还可以输出更多种结果,用于表示更多的对象类型。分类器可以是事先训练好的。示例性而非限制性地,分类器可以是全连接神经网络。
通过分类器可以判断图像中的对象的类别,判断对象是否是感兴趣的对象,从而可以提供更多关于对象的信息,帮助实现对象追踪。
根据本发明实施例,上述步骤S230可以包括:对于至少部分帧的图像中的任一图像,将该图像中的、每个属于目标对象的可能性超过可能性阈值的图像点关联到位于距离该图像点所估计获得的中心点位置最近的检测中心点位置处的对象。
可能性阈值可以是任何合适的阈值,其可以根据需要设定,本发明不对此进行限制。例如,可能性阈值可以是90%。例如,在当前图像中,根据1000个图像点估计获得的中心点位置距离较近,在一个较小的区域内,则可以认为它们属于同一对象,假设为对象O。如上文所述,在进行聚类之后,可以基于与1000个图像点对应的1000个中心点获得一个最终的中心点位置,即检测中心点位置。将这1000个图像点的特征分别输入分类器可以计算每个图像点属于行人的可能性。假设其中有800个图像点属于行人的可能性高于90%,则可以将这800个图像点与检测中心点位置处的对象O(也就是行人O)关联起来。也就是说,通过上述方式,可以确定与行人O相关的800个像素,用这800个像素可以表征行人O,这是一种对行人的像素级检测。基于此,可以实现对行人的像素级追踪。
根据本发明实施例,上述反馈式神经网络可以是双向卷积反馈式神经网络,其可以包括正向反馈式神经网络和反向反馈式神经网络。示例性地,使用双向卷积反馈式神经网络,使视频中的每帧图像不仅能够综合在其之前的图像的信息,还能够综合在其之后的图像的信息。下面详细描述。
如上文所述,反馈式神经网络的神经元间连接构成有向图,通过将状态在自身网络中循环传递,反馈式神经网络可以接收更广泛的时间序列输入。在本发明中,该时间序列为一段视频中的每帧图像通过卷积神经网络提取的第一特征。根据本发明一实施例,可以采用一般的反馈式神经网络,具有以下的表达公式:
Y_t=W*X_t+V*Y_{t-1}+b (1)
其中,w、v和b为反馈式神经网络的参数,X_t为视频中的第t帧图像的第一特征,Y_t为第t帧图像对应的输出结果,Y_{t-1}为视频中的第t-1帧图像对应的输出结果。
根据本发明另一实施例,可以采用卷积代替一般的反馈式神经网络中的乘法以获得正向反馈式神经网络的表达公式,即采用卷积反馈式神经网络代替一般的反馈式神经网络,如下所述:
其中,W1、V1和b1为所述正向反馈式神经网络的参数,X_t为视频中的第t帧图像的第一特征,Y_t为第t帧图像的正向特征,Y_{t-1}为视频中的第t-1帧图像的正向特征。
由于采用这种以卷积代替乘法的方式,在综合各帧图像中的信息的时候,可以仅响应一部分覆盖范围内的周围单元,从而较一般的反馈式神经网络,卷积反馈式神经网络可以使反馈式神经网络中的参数大大减小。在正向反馈式神经网络中,第t帧图像对应的输出结果Y_t是一个三维张量。
所述反向反馈式神经网络用以下公式表示:
其中,W2、V2和b2为所述反向反馈式神经网络的参数,X_t为第t帧图像的第一特征,Z_t为第t帧图像的反向特征,Z_{t+1}为视频中的第t+1帧图像的反向特征。
然后,可以将正向反馈式神经网络的结果和反向反馈式神经网络的结果合并在一起,获得图像的第二特征。合并方式如下。
所述第t帧图像的第二特征H_t通过以下公式计算:
其中,x表示横向坐标向量,y表示纵向坐标向量,c表示频道向量,C为所述第t帧图像的正向特征或反向特征的总频道数。
通过以上公式(2)和(3)可知正向特征和反向特征的总频道是相同的,其是一个常数。例如,如果正向特征或反向特征中的频道向量是一个512维的向量,则总频道数是512。
通过公式(4)可以看出,第t帧图像的第二特征H_t综合了第t帧图像的正向特征和反向特征,第二特征H_t分别包括正向特征的一部分和反向特征的一部分。由于第t帧图像的正向特征与第t-1帧图像相关,第t帧图像的反向特征与第t+1帧图像相关,因此利用公式(4),第t帧图像的第二特征H_t可以与第t-1帧图像和第t帧图像相关,也就是说,其综合了第t-1帧图像和第t帧图像的图像信息。
应当注意,本文所述的反馈式神经网络并不局限于以上实现方式,其还可以包括其他形式的反馈式神经网络,包括但不限于长短期记忆网络(LSTM)、门限循环单元(GRU)和注意力模型(Attention-based Model)等。例如,如果将双向反馈式神经网络输出的H_t序列作为输入,再次输入到与该双向反馈式神经网络类似的反馈式神经网络中,就可以得到多层双向反馈式神经网络。也就是说,步骤S320中采用的反馈式神经网络既可以包括单层的双向反馈式神经网络,也可以包括多层的双向反馈式神经网络。
下面参考图5进一步描述利用反馈式神经网络等对视频中的图像进行处理的过程。图5示出根据本发明一个实施例的利用视频中的图像进行对象追踪的示意性流程图。在图5所示的实施例中,每帧图像分别经过了两个卷积神经网络(CNN)的处理,第二个卷积神经网络输出的是本文所述的第一特征。应当理解,用于处理不同图像的卷积神经网络是一样的。同样地,用于处理不同图像的反馈式神经网络(RNN)、分类器、回归器等都是一样的。
在经过两个卷积神经网络的处理之后,输出的第一特征经过了两个反馈式神经网络的处理,获得本文所述的第二特征。上面一层的反馈式神经网络是上文所述的正向反馈式神经网络,其中,针对每帧图像的RNN输出结果用作针对后一帧图像的RNN输入。下面一层的反馈式神经网络是上文所述的反向反馈式神经网络,其中,针对每帧图像的RNN输出结果用作针对前一帧图像的RNN输入。
反馈式神经网络下方的分类器指的是上文所述的用于确定图像点属于目标对象的可能性的分类器。实际上,在反馈式神经网络与下方的分类器或回归器之间还存在第二特征所对应的初始特征图的调整过程,图5中并未示出。也就是说,反馈式神经网络输出的第二特征并未直接输入到下方的分类器或回归器中,而是经过一些中间过程之后获得新特征图,并将新特征图所对应的第三特征输入下方的分类器或回归器中。
根据本发明实施例,对象追踪方法200可以进一步包括:利用多个样本图像对卷积神经网络、反馈式神经网络和回归器进行训练,其中,多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。
可以通过大量的样本数据,对上述卷积神经网络、反馈式神经网络和回归器进行训练。当然,在采用分类器判断图像点是否属于目标对象的实施例中,可以进一步利用样本数据对分类器进行训练。
利用卷积神经网络、反馈式神经网络和回归器处理样本图像的过程与参考图3和图4所描述的视频中的图像的处理步骤类似,本领域技术人员根据以上描述可以理解卷积神经网络、反馈式神经网络和回归器的训练过程,不再赘述。
在经过训练之后,可以得到卷积神经网络、反馈式神经网络和回归器的各种参数。当在实际应用中进行对象追踪时,这些参数是已知的,可以直接将训练好的网络模型用于图像的处理。
根据本发明实施例,卷积神经网络的数目是一个或多个,上述步骤S230可以包括:对于多个样本图像中的任一样本图像,将一个或多个卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致,以获得一个或多个新输出特征图;对于多个样本图像中的任一样本图像,基于一个或多个新输出特征图构建一个或多个损失函数;以及对于多个样本图像中的任一样本图像,利用所构建的一个或多个损失函数对一个或多个卷积神经网络进行训练。
继续参考图5,在图5所示的网络结构中,共使用了两个卷积神经网络,对于每个卷积神经网络输出的特征图来说,其与原始输入的图像相比均会缩小。可以将每个卷积神经网络输出的特征图调整为与原始输入的图像一致。例如,沿用上文示例,假设视频中的每帧图像的大小是1280像素×720像素,则可以将第一个卷积神经网络输出的初始输出特征图调整为1280像素×720像素那么大,获得一个新输出特征图,并且将第二个卷积神经网络输出的初始输出特征图也调整为1280像素×720像素那么大,获得另一个新输出特征图。随后,可以利用这两个新输出特征图分别构建损失函数,也就是说,在每个卷积神经网络的输出端处构建一个损失函数,然后利用所构建的损失函数对图5所示的两个卷积神经网络进行训练,也就是对卷积神经网络中的各个参数进行训练。这种训练方式考虑到像素级别的信息,可以提高所训练的卷积神经网络的精度。
根据本发明实施例,所述对于多个样本图像中的任一样本图像,将一个或多个卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致包括:对于多个样本图像中的任一样本图像,对一个或多个初始输出特征图中的每一个进行插值和/或剪切以将该初始输出特征图调整为与该样本图像的大小一致。
与上文所述的第二特征所对应的初始特征图的调整类似,卷积神经网络输出的初始输出特征图的调整也可以采用插值和/或剪切的方式,其可以采用本领域常规技术实现,在此不进行赘述。
根据本发明实施例,上述步骤S230可以包括:如果视频中的特定图像中包含的特定对象的像素级检测位置信息与视频中的一个或多个参照图像中包含的一个或多个参照对象在特定图像中的像素级预测位置信息之间的关系满足第一预设条件,则将特定对象和一个或多个参照对象关联在一起,其中,参照图像与特定图像相对应。
特定图像是视频中的某一帧图像,其与一个或多个参照图像相对应。例如,假设针对视频中的每帧图像,可以预测出对象在该图像之前的两帧先前图像和在该图像之后的两帧随后图像中的位置信息,则对于第t帧图像来说,其对应的参照图像是第t-2帧、第t-1帧、第t+1帧和第t+2帧这四个图像,而对于第t+1帧图像来说,其对应的参照图像是第t-1帧、第t帧、第t+2帧和第t+3帧这四个图像,以此类推。
第一预设条件可以根据需要而设定,本发明不对此进行限制。例如,如果第t帧图像中包含的对象A在第t帧图像中的检测中心点位置、第t-2帧图像中包含的对象B在第t帧图像中的预测中心点位置、第t-1帧图像中包含的对象C在第t帧图像中的预测中心点位置、第t+1帧图像中包含的对象D在第t帧图像中的预测中心点位置以及第t+2帧图像中包含的对象E在第t帧图像中的预测中心点位置都比较相近,这些中心点都落入一个比较小的图像区域内,则可以认为对象A、B、C、D和E是相同对象,并且可以将它们关联在一起。
当然,以上根据中心点之间的距离判断对象是否是相同对象的方式仅是示例而非限制,还可以采用其他方式基于对象的位置信息判断对象是否是相同对象。例如,可以测定一些特征函数,将对象的检测中心点位置和预测中心点位置代入特征函数来确定对象是否是相同对象。此外,在获知对象在连续多帧图像中的位置的情况下,可以计算对象的运动速度,并且在判断中心点位置之间的距离是否满足预设条件时考虑对象的运动速度。
根据本发明实施例,上述步骤S230可以包括:如果视频中的一个或多个参照图像中包含的一个或多个参照对象在视频中的特定图像中的像素级预测位置信息满足第二预设条件,并且在特定图像中,在根据一个或多个参照对象在特定图像中的像素级预测位置信息所确定的预测位置处未检测到与一个或多个参照对象相对应的期望对象,则基于一个或多个参照对象在特定图像中的像素级预测位置信息确定与特定图像相关的预测对象,并且将一个或多个参照对象与预测对象关联在一起,其中,参照图像与特定图像相对应。
第二预设条件可以根据需要而设定,本发明不对此进行限制。
在某些图像中,对象可能会被其他对象或某些不属于追踪对象的物体遮挡,导致从这些图像中无法检测到该对象。在这种情况下,可以利用在被遮挡的图像之前或之后的图像的信息来预测对象原本应当在被遮挡的图像中出现的位置。例如,假设行人甲在第t帧图像中被建筑物遮挡,但是在第t-1帧、第t+1帧和第t+2帧图像中出现,行人甲在这三帧图像中分别被识别为对象O、对象P、对象Q。通过计算,发现对象O在第t帧图像中的预测中心点位置、对象P在第t帧图像中的预测中心点位置和对象Q在第t帧图像中的预测中心点位置都比较相近,这些坐标都落入一个比较小的图像区域内,因此可以假定对象O、P和Q是相同对象。通过对象O、P和Q在第t帧图像中的预测中心点位置可以确定一个大致的范围,即本文所述的预测位置,视为行人甲原本应当出现的位置。然而,由于行人甲在第t帧图像中被建筑物遮挡,导致预测位置处未检测到任何对象。在这种情况下,可以假设在预测位置处存在一个预测对象,例如对象M。然后,可以将对象O、P、Q和M关联在一起。这样,可以根据第t-1帧、第t+1帧和第t+2帧图像的信息推测出行人甲在第t帧图像中的位置。
上面描述的示例中行人甲是被建筑物遮挡,因此在第t帧图像的预测位置处未检测到任何对象。在另外的示例中,行人甲可能被其他对象(例如行人乙)遮挡。这样,在预测位置处可以检测到对象,然而检测到的对象并非与对象O、P和Q相对应的期望对象行人甲。在这种情况下,仍然可以利用对象O、P和Q在第t帧图像中的预测位置信息来预测行人甲在第t帧图像中的位置。当然,确定第t帧图像的预测位置处的对象是否为期望对象的方式可以根据需要设定,例如可以基于对象的轮廓等来判断。
对于对象被漏检的情况,同样可以采用本实施例的方式处理。也就是说,基于在当前图像之前和/或之后的图像的信息可以预测被漏检的对象在当前图像中的位置。因此,通过以上方式可以有效处理对象被遮挡或被漏检的问题,从而可以提高对象追踪精度。
根据本发明实施例,上述步骤S230可以包括:如果视频中的特定图像中包含的特定对象的像素级检测位置信息与视频中的所有参照图像中包含的所有参照对象在特定图像中的像素级预测位置信息之间的关系满足第三预设条件,则确定特定对象是不可信对象,其中,参照图像与特定图像相对应。
第三预设条件可以根据需要而设定,本发明不对此进行限制。
例如,如果从第t帧图像中检测出对象K,然而根据在第t帧图像之前和/或之后的若干帧参照图像的信息,发现这些参照图像中包含的参照对象在第t帧图像中的预测中心点位置均与对象K的坐标不相符,相距较远,也就是说,对象K所在的位置处原本不应当出现对象。在这种情况下,可以认为对象K是不可信对象。通过这种方式,可以减少由于误检而导致的对象追踪误差。
根据本发明一实施例,在步骤S210获取视频后,对象追踪方法进一步还可以包括从视频中确定对象,例如,从视频的每一帧图像中包括的所有对象中确定目标对象(感兴趣的对象)。示例性地,可以基于在步骤S320中获得的至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象中的目标对象(感兴趣的对象)。
在一些示例中,对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致,以获得该图像的新特征图,其中,所述新特征图的特征值是第三特征,并且所述第三特征包括横向坐标向量、纵向坐标向量和频道向量,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入分类器,以确定该图像中的每个图像点属于目标对象的可能性,例如,分类器输出任一个图像点属于某个目标对象(例如,车)的概率值大于概率阈值,则可以确定该图像点属于该目标对象。
在另一些示例中,也可以不对第二特征所对应的初始特征图进行调整,而直接将第二特征中的坐标代表的图像点输入分类器,以确定该图像中的每个图像点属于目标对象的可能性,例如,分类器输出任一图像点属于某个目标对象(例如,车)的概率值大于概率阈值,则可以确定该图像点属于该目标对象。需要说明的是,直接使用第二特征所对应的初始特征图的实施例较使用调整第二特征所对应的初始特征图后得到的新特征图对应的第三特征的实施例,运算量相对较大,运算速度较慢,因此,可以将使用调整第二特征所对应的初始特征图后得到的新特征图对应的第三特征的实施例作为优先实施例。
进一步地,在步骤S330中,仅确定所述目标对象(感兴趣的对象)在该图像中的像素级检测位置信息,以及仅预测所述目标对象(感兴趣的对象)在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。进而根据该目标对象的像素级检测位置信息和像素级预测位置信息追踪该目标对象。其中,对目标对象的追踪的实施例可以参考前述实施例中的步骤S230。
总的来说,在本发明实施例中,使用基于反馈式神经网络的对象追踪方法,结合多帧图像的信息,可以在检测对象的同时给出追踪信息,从而能够同时减少检测和追踪所带来的误差。
根据本发明另一方面,提供一种对象追踪装置。图6示出了根据本发明一个实施例的对象追踪装置600的示意性框图。
如图6所示,根据本发明实施例的对象追踪装置600包括视频获取模块610、检测预测模块620和追踪模块630。
视频获取模块610用于获取视频。视频获取模块610可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。
检测预测模块620用于针对视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。检测预测模块620可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。
追踪模块630用于根据视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象。追踪模块630可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。
根据本发明实施例,检测预测模块620可以包括第一特征获得子模块、第二特征获得子模块和检测预测子模块。
第一特征获得子模块用于将所述至少部分帧的图像中的每帧图像输入卷积神经网络,以获得所述至少部分帧的图像中的每帧图像的第一特征。第二特征获得子模块用于将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络,以获得所述至少部分帧的图像中的每帧图像的第二特征,其中,当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关。检测预测子模块用于基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。
根据本发明一实施例,所述对象追踪装置进一步包括感兴趣对象确定模块,用于基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象中的感兴趣的对象;并且,所述检测预测子模块还用于在所述基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息的过程中,仅确定所述感兴趣的对象在该图像中的像素级检测位置信息,以及仅预测所述感兴趣的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。
根据本发明实施例,检测预测子模块可以包括实际调整单元、位移信息获得单元、中心点估计单元和聚类单元。实际调整单元用于对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致,以获得该图像的新特征图,其中,所述新特征图的特征值是第三特征,并且所述第三特征包括横向坐标向量、纵向坐标向量和频道向量。位移信息获得单元用于对于所述至少部分帧的图像中的任一图像,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入回归器,以获得该图像中的至少部分图像点中的每个图像点在该图像中相对于该图像点所属对象的位移信息、在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息、以及在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息。中心点估计单元用于对于所述至少部分帧的图像中的任一图像,对于所述至少部分图像点中的每个图像点,根据该图像点在该图像中相对于该图像点所属对象的位移信息估计在该图像中该图像点所属对象的中心点位置,根据该图像点在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息估计在该图像之前的特定数目的先前图像中该图像点所属对象的中心点位置,根据该图像点在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息估计在该图像之后的特定数目的随后图像中该图像点所属对象的中心点位置。聚类单元用于对于所述至少部分帧的图像中的任一图像,对针对所述至少部分图像点所估计获得的、在该图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像中的检测中心点位置作为该图像中包含的对象在该图像中的像素级检测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之前的特定数目的先前图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之前的特定数目的先前图像中的预测中心点位置作为该图像中包含的对象在该图像之前的特定数目的先前图像中的像素级预测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之后的特定数目的随后图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之后的特定数目的随后图像中的预测中心点位置作为该图像中包含的对象在该图像之后的特定数目的随后图像中的像素级预测位置信息。
根据本发明实施例,所述实际调整单元包括:实际调整子单元,用于对于所述至少部分帧的图像中的任一图像,对该图像的第二特征所对应的初始特征图进行插值和/或剪切以将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致。
根据本发明实施例,所述对象追踪装置600进一步包括:可能性确定模块,用于对于所述至少部分帧的图像中的任一图像,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入分类器,以确定该图像中的每个图像点属于目标对象的可能性。
根据本发明实施例,所述追踪模块630包括:图像点关联子模块,用于对于所述至少部分帧的图像中的任一图像,将该图像中的、每个属于目标对象的可能性超过可能性阈值的图像点关联到位于距离针对该图像点所估计获得的中心点位置最近的检测中心点位置处的对象。
根据本发明实施例,所述反馈式神经网络可以包括正向反馈式神经网络和反向反馈式神经网络,
所述正向反馈式神经网络用以下公式表示:
其中,W1、V1和b1为所述正向反馈式神经网络的参数,X_t为所述视频中的第t帧图像的第一特征,Y_t为所述第t帧图像的正向特征,Y_{t-1}为所述视频中的第t-1帧图像的正向特征;
所述反向反馈式神经网络用以下公式表示:
其中,W2、V2和b2为所述反向反馈式神经网络的参数,X_t为所述第t帧图像的第一特征,Z_t为所述第t帧图像的反向特征,Z_{t+1}为所述视频中的第t+1帧图像的反向特征;
所述第t帧图像的第二特征H_t通过以下公式计算:
其中,x表示横向坐标向量,y表示纵向坐标向量,c表示频道向量,C为所述第t帧图像的正向特征或反向特征的总频道数。
根据本发明实施例,所述对象追踪装置600可以进一步包括训练模块(未示出),用于利用多个样本图像对所述卷积神经网络、所述反馈式神经网络和所述回归器进行训练,其中,所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。
根据本发明实施例,所述卷积神经网络的数目是一个或多个,所述训练模块包括:训练调整子模块,用于对于所述多个样本图像中的任一样本图像,将一个或多个所述卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致,以获得一个或多个新输出特征图;构建子模块,用于对于所述多个样本图像中的任一样本图像,基于一个或多个新输出特征图构建一个或多个损失函数;以及训练子模块,用于对于所述多个样本图像中的任一样本图像,利用所构建的一个或多个损失函数对一个或多个所述卷积神经网络进行训练。
根据本发明实施例,所述训练调整子模块包括:训练调整单元,用于对于所述多个样本图像中的任一样本图像,对所述一个或多个初始输出特征图中的每一个进行插值和/或剪切以将该初始输出特征图调整为与该样本图像的大小一致。
根据本发明实施例,所述追踪模块630可以包括第一关联子模块,用于如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第一预设条件,则将所述特定对象和所述一个或多个参照对象关联在一起,其中,所述参照图像与所述特定图像相对应。
根据本发明实施例,所述追踪模块630可以包括第二关联子模块,用于如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的像素级预测位置信息满足第二预设条件,并且在所述特定图像中,在根据所述一个或多个参照对象在所述特定图像中的像素级预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象,则基于所述一个或多个参照对象在所述特定图像中的像素级预测位置信息确定与所述特定图像相关的预测对象,并且将所述一个或多个参照对象与所述预测对象关联在一起,其中,所述参照图像与所述特定图像相对应。
根据本发明实施例,所述追踪模块630可以包括不可信确定子模块,用于如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第三预设条件,则确定所述特定对象是不可信对象,其中,所述参照图像与所述特定图像相对应。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
图7示出了根据本发明一个实施例的对象追踪系统700的示意性框图。对象追踪系统700包括视频采集装置710、存储装置720、以及处理器730。
视频采集装置710用于采集包含对象的视频。视频采集装置710是可选的,对象追踪系统700可以不包括视频采集装置710。
所述存储装置720存储用于实现根据本发明实施例的对象追踪方法中的相应步骤的程序代码。
所述处理器730用于运行所述存储装置720中存储的程序代码,以执行根据本发明实施例的对象追踪方法的相应步骤,并且用于实现根据本发明实施例的对象追踪装置中的视频获取模块610、检测预测模块620和追踪模块630。
在一个实施例中,所述程序代码被所述处理器730运行时使所述对象追踪系统700执行以下步骤:获取视频;针对所述视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息;以及根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象。
在一个实施例中,所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的针对所述视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息的步骤包括:将所述至少部分帧的图像中的每帧图像输入卷积神经网络,以获得所述至少部分帧的图像中的每帧图像的第一特征;将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络,以获得所述至少部分帧的图像中的每帧图像的第二特征,其中,当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关;以及基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。
在一个实施例中,所述程序代码被所述处理器730运行时使所述对象追踪系统700进一步执行:基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象中的感兴趣的对象;并且,在所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息的步骤中,仅确定所述感兴趣的对象在该图像中的像素级检测位置信息,以及仅预测所述感兴趣的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。
在一个实施例中,所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息的步骤包括:对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致,以获得该图像的新特征图,其中,所述新特征图的特征值是第三特征,并且所述第三特征包括横向坐标向量、纵向坐标向量和频道向量;将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入回归器,以获得该图像中的至少部分图像点中的每个图像点在该图像中相对于该图像点所属对象的位移信息、在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息、以及在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息;对于所述至少部分图像点中的每个图像点,根据该图像点在该图像中相对于该图像点所属对象的位移信息估计在该图像中该图像点所属对象的中心点位置,根据该图像点在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息估计在该图像之前的特定数目的先前图像中该图像点所属对象的中心点位置,根据该图像点在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息估计在该图像之后的特定数目的随后图像中该图像点所属对象的中心点位置;以及对针对所述至少部分图像点所估计获得的、在该图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像中的检测中心点位置作为该图像中包含的对象在该图像中的像素级检测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之前的特定数目的先前图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之前的特定数目的先前图像中的预测中心点位置作为该图像中包含的对象在该图像之前的特定数目的先前图像中的像素级预测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之后的特定数目的随后图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之后的特定数目的随后图像中的预测中心点位置作为该图像中包含的对象在该图像之后的特定数目的随后图像中的像素级预测位置信息。
在一个实施例中,所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致的步骤包括:对于所述至少部分帧的图像中的任一图像,对该图像的第二特征所对应的初始特征图进行插值和/或剪切以将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致。
在一个实施例中,在所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致的步骤之后,所述程序代码被所述处理器730运行时使所述对象追踪系统700进一步执行:对于所述至少部分帧的图像中的任一图像,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入分类器,以确定该图像中的每个图像点属于目标对象的可能性。
在一个实施例中,所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象的步骤包括:对于所述至少部分帧的图像中的任一图像,将该图像中的、每个属于目标对象的可能性超过可能性阈值的图像点关联到位于距离针对该图像点所估计获得的中心点位置最近的检测中心点位置处的对象。
在一个实施例中,所述反馈式神经网络包括正向反馈式神经网络和反向反馈式神经网络,
所述正向反馈式神经网络用以下公式表示:
其中,W1、V1和b1为所述正向反馈式神经网络的参数,X_t为所述视频中的第t帧图像的第一特征,Y_t为所述第t帧图像的正向特征,Y_{t-1}为所述视频中的第t-1帧图像的正向特征;
所述反向反馈式神经网络用以下公式表示:
其中,W2、V2和b2为所述反向反馈式神经网络的参数,X_t为所述第t帧图像的第一特征,Z_t为所述第t帧图像的反向特征,Z_{t+1}为所述视频中的第t+1帧图像的反向特征;
所述第t帧图像的第二特征H_t通过以下公式计算:
其中,x表示横向坐标向量,y表示纵向坐标向量,c表示频道向量,C为所述第t帧图像的正向特征或反向特征的总频道数。
在一个实施例中,所述程序代码被所述处理器730运行时使所述对象追踪系统700进一步执行:利用多个样本图像对所述卷积神经网络、所述反馈式神经网络和所述回归器进行训练,其中,所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。
在一个实施例中,所述卷积神经网络的数目是一个或多个,所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的利用多个样本图像对所述卷积神经网络、所述反馈式神经网络和所述回归器进行训练的步骤包括:对于所述多个样本图像中的任一样本图像,将一个或多个所述卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致,以获得一个或多个新输出特征图;对于所述多个样本图像中的任一样本图像,基于一个或多个新输出特征图构建一个或多个损失函数;以及对于所述多个样本图像中的任一样本图像,利用所构建的一个或多个损失函数对一个或多个所述卷积神经网络进行训练。
在一个实施例中,所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的对于所述多个样本图像中的任一样本图像,将一个或多个所述卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致的步骤包括:对于所述多个样本图像中的任一样本图像,对所述一个或多个初始输出特征图中的每一个进行插值和/或剪切以将该初始输出特征图调整为与该样本图像的大小一致。
在一个实施例中,所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象的步骤包括:如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第一预设条件,则将所述特定对象和所述一个或多个参照对象关联在一起,其中,所述参照图像与所述特定图像相对应。
在一个实施例中,所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象的步骤包括:如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的像素级预测位置信息满足第二预设条件,并且在所述特定图像中,在根据所述一个或多个参照对象在所述特定图像中的像素级预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象,则基于所述一个或多个参照对象在所述特定图像中的像素级预测位置信息确定与所述特定图像相关的预测对象,并且将所述一个或多个参照对象与所述预测对象关联在一起,其中,所述参照图像与所述特定图像相对应。
在一个实施例中,所述程序代码被所述处理器730运行时使所述对象追踪系统700所执行的根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象的步骤包括:如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第三预设条件,则确定所述特定对象是不可信对象,其中,所述参照图像与所述特定图像相对应。
此外,根据本发明实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的对象追踪方法的相应步骤,并且用于实现根据本发明实施例的对象追踪装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的对象追踪装置的各个功能模块,并且/或者可以执行根据本发明实施例的对象追踪方法。
在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机执行以下步骤:获取视频;针对所述视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息;以及根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象。
在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机所执行的针对所述视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息的步骤包括:将所述至少部分帧的图像中的每帧图像输入卷积神经网络,以获得所述至少部分帧的图像中的每帧图像的第一特征;将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络,以获得所述至少部分帧的图像中的每帧图像的第二特征,其中,当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关;以及基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。
在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机进一步执行:基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象中的感兴趣的对象;并且,在所述计算机程序指令在被计算机运行时使所述计算机所执行的基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息的步骤中,仅确定所述感兴趣的对象在该图像中的像素级检测位置信息,以及仅预测所述感兴趣的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。
在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机所执行的基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息的步骤包括:对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致,以获得该图像的新特征图,其中,所述新特征图的特征值是第三特征,并且所述第三特征包括横向坐标向量、纵向坐标向量和频道向量;将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入回归器,以获得该图像中的至少部分图像点中的每个图像点在该图像中相对于该图像点所属对象的位移信息、在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息、以及在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息;对于所述至少部分图像点中的每个图像点,根据该图像点在该图像中相对于该图像点所属对象的位移信息估计在该图像中该图像点所属对象的中心点位置,根据该图像点在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息估计在该图像之前的特定数目的先前图像中该图像点所属对象的中心点位置,根据该图像点在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息估计在该图像之后的特定数目的随后图像中该图像点所属对象的中心点位置;以及对针对所述至少部分图像点所估计获得的、在该图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像中的检测中心点位置作为该图像中包含的对象在该图像中的像素级检测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之前的特定数目的先前图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之前的特定数目的先前图像中的预测中心点位置作为该图像中包含的对象在该图像之前的特定数目的先前图像中的像素级预测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之后的特定数目的随后图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之后的特定数目的随后图像中的预测中心点位置作为该图像中包含的对象在该图像之后的特定数目的随后图像中的像素级预测位置信息。
在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机所执行的对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致的步骤包括:对于所述至少部分帧的图像中的任一图像,对该图像的第二特征所对应的初始特征图进行插值和/或剪切以将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致。
在一个实施例中,在所述计算机程序指令在被计算机运行时使所述计算机所执行的对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致的步骤之后,所述计算机程序指令在被计算机运行时使所述计算机进一步执行:对于所述至少部分帧的图像中的任一图像,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入分类器,以确定该图像中的每个图像点属于目标对象的可能性。
在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机所执行的根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象的步骤包括:对于所述至少部分帧的图像中的任一图像,将该图像中的、每个属于目标对象的可能性超过可能性阈值的图像点关联到位于距离针对该图像点所估计获得的中心点位置最近的检测中心点位置处的对象。
在一个实施例中,所述反馈式神经网络包括正向反馈式神经网络和反向反馈式神经网络,
所述正向反馈式神经网络用以下公式表示:
其中,W1、V1和b1为所述正向反馈式神经网络的参数,X_t为所述视频中的第t帧图像的第一特征,Y_t为所述第t帧图像的正向特征,Y_{t-1}为所述视频中的第t-1帧图像的正向特征;
所述反向反馈式神经网络用以下公式表示:
其中,W2、V2和b2为所述反向反馈式神经网络的参数,X_t为所述第t帧图像的第一特征,Z_t为所述第t帧图像的反向特征,Z_{t+1}为所述视频中的第t+1帧图像的反向特征;
所述第t帧图像的第二特征H_t通过以下公式计算:
其中,x表示横向坐标向量,y表示纵向坐标向量,c表示频道向量,C为所述第t帧图像的正向特征或反向特征的总频道数。
在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机进一步执行:利用多个样本图像对所述卷积神经网络、所述反馈式神经网络和所述回归器进行训练,其中,所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。
在一个实施例中,所述卷积神经网络的数目是一个或多个,所述计算机程序指令在被计算机运行时使所述计算机所执行的利用多个样本图像对所述卷积神经网络、所述反馈式神经网络和所述回归器进行训练的步骤包括:对于所述多个样本图像中的任一样本图像,将一个或多个所述卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致,以获得一个或多个新输出特征图;对于所述多个样本图像中的任一样本图像,基于一个或多个新输出特征图构建一个或多个损失函数;以及对于所述多个样本图像中的任一样本图像,利用所构建的一个或多个损失函数对一个或多个所述卷积神经网络进行训练。
在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机所执行的对于所述多个样本图像中的任一样本图像,将一个或多个所述卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致的步骤包括:对于所述多个样本图像中的任一样本图像,对所述一个或多个初始输出特征图中的每一个进行插值和/或剪切以将该初始输出特征图调整为与该样本图像的大小一致。
在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机所执行的根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象的步骤包括:如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第一预设条件,则将所述特定对象和所述一个或多个参照对象关联在一起,其中,所述参照图像与所述特定图像相对应。
在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机所执行的根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象的步骤包括:如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的像素级预测位置信息满足第二预设条件,并且在所述特定图像中,在根据所述一个或多个参照对象在所述特定图像中的像素级预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象,则基于所述一个或多个参照对象在所述特定图像中的像素级预测位置信息确定与所述特定图像相关的预测对象,并且将所述一个或多个参照对象与所述预测对象关联在一起,其中,所述参照图像与所述特定图像相对应。
在一个实施例中,所述计算机程序指令在被计算机运行时使所述计算机所执行的根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息追踪对象的步骤包括:如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第三预设条件,则确定所述特定对象是不可信对象,其中,所述参照图像与所述特定图像相对应。
根据本发明实施例的对象追踪方法及装置,通过基于当前图像预测对象在其他图像中的位置信息及位置信息的比较来实现对象追踪,这种对象追踪方式非常简单,计算量小,并且可以降低对象追踪误差。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的对象追踪装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (24)

1.一种对象追踪方法,包括:
获取视频;
针对所述视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息;以及
根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息之间的关系是否满足预设条件追踪对象;
其中,所述针对所述视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息包括:
将所述至少部分帧的图像中的每帧图像输入卷积神经网络,以获得所述至少部分帧的图像中的每帧图像的第一特征;
将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络,以获得所述至少部分帧的图像中的每帧图像的第二特征,其中,当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关;以及
基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息;
其中,所述对象追踪方法还包括:基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象中的感兴趣的对象;
并且,在所述基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息的步骤中,仅确定所述感兴趣的对象在该图像中的像素级检测位置信息,以及仅预测所述感兴趣的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。
2.根据权利要求1所述的对象追踪方法,其中,所述基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息包括:
对于所述至少部分帧的图像中的任一图像,
将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致,以获得该图像的新特征图,其中,所述新特征图的特征值是第三特征,并且所述第三特征包括横向坐标向量、纵向坐标向量和频道向量;
将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入回归器,以获得该图像中的至少部分图像点中的每个图像点在该图像中相对于该图像点所属对象的位移信息、在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息、以及在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息;
对于所述至少部分图像点中的每个图像点,根据该图像点在该图像中相对于该图像点所属对象的位移信息估计在该图像中该图像点所属对象的中心点位置,根据该图像点在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息估计在该图像之前的特定数目的先前图像中该图像点所属对象的中心点位置,根据该图像点在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息估计在该图像之后的特定数目的随后图像中该图像点所属对象的中心点位置;以及
对针对所述至少部分图像点所估计获得的、在该图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像中的检测中心点位置作为该图像中包含的对象在该图像中的像素级检测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之前的特定数目的先前图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之前的特定数目的先前图像中的预测中心点位置作为该图像中包含的对象在该图像之前的特定数目的先前图像中的像素级预测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之后的特定数目的随后图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之后的特定数目的随后图像中的预测中心点位置作为该图像中包含的对象在该图像之后的特定数目的随后图像中的像素级预测位置信息。
3.如权利要求2所述的对象追踪方法,其中,所述对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致包括:
对于所述至少部分帧的图像中的任一图像,对该图像的第二特征所对应的初始特征图进行插值和/或剪切以将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致。
4.如权利要求2所述的对象追踪方法,其中,在所述对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致之后,所述对象追踪方法进一步包括:
对于所述至少部分帧的图像中的任一图像,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入分类器,以确定该图像中的每个图像点属于目标对象的可能性。
5.如权利要求4所述的对象追踪方法,其中,所述根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息之间的关系是否满足预设条件追踪对象包括:
对于所述至少部分帧的图像中的任一图像,将该图像中的、每个属于目标对象的可能性超过可能性阈值的图像点关联到位于距离针对该图像点所估计获得的中心点位置最近的检测中心点位置处的对象。
6.如权利要求1所述的对象追踪方法,其中,所述反馈式神经网络包括正向反馈式神经网络和反向反馈式神经网络,
所述正向反馈式神经网络用以下公式表示:
其中,W1、V1和b1为所述正向反馈式神经网络的参数,X_t为所述视频中的第t帧图像的第一特征,Y_t为所述第t帧图像的正向特征,Y_{t-1}为所述视频中的第t-1帧图像的正向特征;
所述反向反馈式神经网络用以下公式表示:
其中,W2、V2和b2为所述反向反馈式神经网络的参数,X_t为所述第t帧图像的第一特征,Z_t为所述第t帧图像的反向特征,Z_{t+1}为所述视频中的第t+1帧图像的反向特征;
所述第t帧图像的第二特征H_t通过以下公式计算:
其中,x表示横向坐标向量,y表示纵向坐标向量,c表示频道向量,C为所述第t帧图像的正向特征或反向特征的总频道数。
7.如权利要求2所述的对象追踪方法,其中,所述对象追踪方法进一步包括:
利用多个样本图像对所述卷积神经网络、所述反馈式神经网络和所述回归器进行训练,其中,所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。
8.如权利要求7所述的对象追踪方法,其中,所述卷积神经网络的数目是一个或多个,所述利用多个样本图像对所述卷积神经网络、所述反馈式神经网络和所述回归器进行训练包括:
对于所述多个样本图像中的任一样本图像,
将一个或多个所述卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致,以获得一个或多个新输出特征图;
基于一个或多个新输出特征图构建一个或多个损失函数;以及
利用所构建的一个或多个损失函数对一个或多个所述卷积神经网络进行训练。
9.如权利要求8所述的对象追踪方法,其中,所述对于所述多个样本图像中的任一样本图像,将一个或多个所述卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致包括:
对于所述多个样本图像中的任一样本图像,对所述一个或多个初始输出特征图中的每一个进行插值和/或剪切以将该初始输出特征图调整为与该样本图像的大小一致。
10.如权利要求1所述的对象追踪方法,其中,所述根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息之间的关系是否满足预设条件追踪对象包括:
如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第一预设条件,则将所述特定对象和所述一个或多个参照对象关联在一起,
其中,所述参照图像与所述特定图像相对应。
11.如权利要求1所述的对象追踪方法,其中,所述根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息之间的关系是否满足预设条件追踪对象包括:
如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的像素级预测位置信息满足第二预设条件,并且在所述特定图像中,在根据所述一个或多个参照对象在所述特定图像中的像素级预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象,则基于所述一个或多个参照对象在所述特定图像中的像素级预测位置信息确定与所述特定图像相关的预测对象,并且将所述一个或多个参照对象与所述预测对象关联在一起,
其中,所述参照图像与所述特定图像相对应。
12.如权利要求1所述的对象追踪方法,其中,所述根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息之间的关系是否满足预设条件追踪对象包括:
如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第三预设条件,则确定所述特定对象是不可信对象,
其中,所述参照图像与所述特定图像相对应。
13.一种对象追踪装置,包括:
视频获取模块,用于获取视频;
检测预测模块,用于针对所述视频的至少部分帧的图像中的每帧图像,利用反馈式神经网络检测该图像中包含的对象在该图像中的像素级检测位置信息、并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息;以及
追踪模块,用于根据所述视频中包含的对象的像素级检测位置信息和像素级预测位置信息之间的关系是否满足预设条件追踪对象;
其中,所述检测预测模块包括:
第一特征获得子模块,用于将所述至少部分帧的图像中的每帧图像输入卷积神经网络,以获得所述至少部分帧的图像中的每帧图像的第一特征;
第二特征获得子模块,用于将所述至少部分帧的图像中的每帧图像的第一特征输入所述反馈式神经网络,以获得所述至少部分帧的图像中的每帧图像的第二特征,其中,当前图像的第二特征与在所述当前图像之前的先前图像和在所述当前图像之后的随后图像相关;以及
检测预测子模块,用于基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息;
其中,所述对象追踪装置进一步包括感兴趣对象确定模块,用于基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象中的感兴趣的对象;并且,所述检测预测子模块还用于在所述基于所述至少部分帧的图像中的、任一图像的第二特征确定在该图像中包含的对象在该图像中的像素级检测位置信息,并预测该图像中包含的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息的过程中,仅确定所述感兴趣的对象在该图像中的像素级检测位置信息,以及仅预测所述感兴趣的对象在所述至少部分帧的图像中的其他图像中的像素级预测位置信息。
14.如权利要求13所述的对象追踪装置,其中,所述检测预测子模块包括:
实际调整单元,用于对于所述至少部分帧的图像中的任一图像,将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致,以获得该图像的新特征图,其中,所述新特征图的特征值是第三特征,并且所述第三特征包括横向坐标向量、纵向坐标向量和频道向量;
位移信息获得单元,用于对于所述至少部分帧的图像中的任一图像,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入回归器,以获得该图像中的至少部分图像点中的每个图像点在该图像中相对于该图像点所属对象的位移信息、在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息、以及在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息;
中心点估计单元,用于对于所述至少部分帧的图像中的任一图像,对于所述至少部分图像点中的每个图像点,根据该图像点在该图像中相对于该图像点所属对象的位移信息估计在该图像中该图像点所属对象的中心点位置,根据该图像点在该图像之前的特定数目的先前图像中相对于该图像点所属对象的位移信息估计在该图像之前的特定数目的先前图像中该图像点所属对象的中心点位置,根据该图像点在该图像之后的特定数目的随后图像中相对于该图像点所属对象的位移信息估计在该图像之后的特定数目的随后图像中该图像点所属对象的中心点位置;以及
聚类单元,用于对于所述至少部分帧的图像中的任一图像,对针对所述至少部分图像点所估计获得的、在该图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像中的检测中心点位置作为该图像中包含的对象在该图像中的像素级检测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之前的特定数目的先前图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之前的特定数目的先前图像中的预测中心点位置作为该图像中包含的对象在该图像之前的特定数目的先前图像中的像素级预测位置信息,对针对所述至少部分图像点所估计获得的、在该图像之后的特定数目的随后图像中所述至少部分图像点所属对象的中心点位置进行聚类,以获得该图像中包含的对象在该图像之后的特定数目的随后图像中的预测中心点位置作为该图像中包含的对象在该图像之后的特定数目的随后图像中的像素级预测位置信息。
15.如权利要求14所述的对象追踪装置,其中,所述实际调整单元包括:
实际调整子单元,用于对于所述至少部分帧的图像中的任一图像,对该图像的第二特征所对应的初始特征图进行插值和/或剪切以将该图像的第二特征所对应的初始特征图调整为与该图像的大小一致。
16.如权利要求14所述的对象追踪装置,其中,所述对象追踪装置进一步包括:
可能性确定模块,用于对于所述至少部分帧的图像中的任一图像,将该图像的第三特征中的、与每个由该图像的第三特征中的横向坐标和纵向坐标所代表的图像点相对应的元素输入分类器,以确定该图像中的每个图像点属于目标对象的可能性。
17.如权利要求16所述的对象追踪装置,其中,所述追踪模块包括:
图像点关联子模块,用于对于所述至少部分帧的图像中的任一图像,将该图像中的、每个属于目标对象的可能性超过可能性阈值的图像点关联到位于距离针对该图像点所估计获得的中心点位置最近的检测中心点位置处的对象。
18.如权利要求13所述的对象追踪装置,其中,所述反馈式神经网络包括正向反馈式神经网络和反向反馈式神经网络,
所述正向反馈式神经网络用以下公式表示:
其中,W1、V1和b1为所述正向反馈式神经网络的参数,X_t为所述视频中的第t帧图像的第一特征,Y_t为所述第t帧图像的正向特征,Y_{t-1}为所述视频中的第t-1帧图像的正向特征;
所述反向反馈式神经网络用以下公式表示:
其中,W2、V2和b2为所述反向反馈式神经网络的参数,X_t为所述第t帧图像的第一特征,Z_t为所述第t帧图像的反向特征,Z_{t+1}为所述视频中的第t+1帧图像的反向特征;
所述第t帧图像的第二特征H_t通过以下公式计算:
其中,x表示横向坐标向量,y表示纵向坐标向量,c表示频道向量,C为所述第t帧图像的正向特征或反向特征的总频道数。
19.如权利要求14所述的对象追踪装置,其中,所述对象追踪装置进一步包括训练模块,用于利用多个样本图像对所述卷积神经网络、所述反馈式神经网络和所述回归器进行训练,其中,所述多个样本图像中包含的对象在每个样本图像中的位置信息是已标注好的。
20.如权利要求19所述的对象追踪装置,其中,所述卷积神经网络的数目是一个或多个,所述训练模块包括:
训练调整子模块,用于对于所述多个样本图像中的任一样本图像,将一个或多个所述卷积神经网络输出的一个或多个初始输出特征图调整为与该样本图像的大小一致,以获得一个或多个新输出特征图;
构建子模块,用于对于所述多个样本图像中的任一样本图像,基于一个或多个新输出特征图构建一个或多个损失函数;以及
训练子模块,用于对于所述多个样本图像中的任一样本图像,利用所构建的一个或多个损失函数对一个或多个所述卷积神经网络进行训练。
21.如权利要求20所述的对象追踪装置,其中,所述训练调整子模块包括:
训练调整单元,用于对于所述多个样本图像中的任一样本图像,对所述一个或多个初始输出特征图中的每一个进行插值和/或剪切以将该初始输出特征图调整为与该样本图像的大小一致。
22.如权利要求13所述的对象追踪装置,其中,所述追踪模块包括第一关联子模块,用于如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第一预设条件,则将所述特定对象和所述一个或多个参照对象关联在一起,
其中,所述参照图像与所述特定图像相对应。
23.如权利要求13所述的对象追踪装置,其中,所述追踪模块包括第二关联子模块,用于如果所述视频中的一个或多个参照图像中包含的一个或多个参照对象在所述视频中的特定图像中的像素级预测位置信息满足第二预设条件,并且在所述特定图像中,在根据所述一个或多个参照对象在所述特定图像中的像素级预测位置信息所确定的预测位置处未检测到与所述一个或多个参照对象相对应的期望对象,则基于所述一个或多个参照对象在所述特定图像中的像素级预测位置信息确定与所述特定图像相关的预测对象,并且将所述一个或多个参照对象与所述预测对象关联在一起,
其中,所述参照图像与所述特定图像相对应。
24.如权利要求13所述的对象追踪装置,其中,所述追踪模块包括不可信确定子模块,用于如果所述视频中的特定图像中包含的特定对象的像素级检测位置信息与所述视频中的所有参照图像中包含的所有参照对象在所述特定图像中的像素级预测位置信息之间的关系满足第三预设条件,则确定所述特定对象是不可信对象,
其中,所述参照图像与所述特定图像相对应。
CN201610648977.3A 2016-08-09 2016-08-09 对象追踪方法和装置 Active CN106250863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610648977.3A CN106250863B (zh) 2016-08-09 2016-08-09 对象追踪方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610648977.3A CN106250863B (zh) 2016-08-09 2016-08-09 对象追踪方法和装置

Publications (2)

Publication Number Publication Date
CN106250863A CN106250863A (zh) 2016-12-21
CN106250863B true CN106250863B (zh) 2019-07-26

Family

ID=58078580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610648977.3A Active CN106250863B (zh) 2016-08-09 2016-08-09 对象追踪方法和装置

Country Status (1)

Country Link
CN (1) CN106250863B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106846364B (zh) * 2016-12-30 2019-09-24 明见(厦门)技术有限公司 一种基于卷积神经网络的目标跟踪方法及装置
CN106845374B (zh) * 2017-01-06 2020-03-27 清华大学 基于深度学习的行人检测方法及检测装置
US10198655B2 (en) * 2017-01-24 2019-02-05 Ford Global Technologies, Llc Object detection using recurrent neural network and concatenated feature map
CN108345415B (zh) * 2017-01-25 2023-06-30 豪威Tddi安大略有限合伙公司 利用对象速度信息的对象追踪
TWI607389B (zh) * 2017-02-10 2017-12-01 耐能股份有限公司 卷積神經網路的池化運算裝置及方法
US20180293486A1 (en) * 2017-04-07 2018-10-11 Tenstorrent Inc. Conditional graph execution based on prior simplified graph execution
CN108875456B (zh) * 2017-05-12 2022-02-18 北京旷视科技有限公司 目标检测方法、目标检测装置和计算机可读存储介质
KR102060662B1 (ko) * 2017-05-16 2019-12-30 삼성전자주식회사 차량의 주행 이벤트를 검출하는 전자 장치 및 방법
CN108875763A (zh) * 2017-05-17 2018-11-23 北京旷视科技有限公司 目标检测方法和目标检测装置
CN108305275B (zh) * 2017-08-25 2021-02-12 深圳市腾讯计算机系统有限公司 主动跟踪方法、装置及系统
US20190066304A1 (en) * 2017-08-31 2019-02-28 Microsoft Technology Licensing, Llc Real-time object segmentation in live camera mode
CN107657607B (zh) * 2017-09-21 2020-01-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种测试追踪位置误差的方法和系统
CN108460791A (zh) * 2017-12-29 2018-08-28 百度在线网络技术(北京)有限公司 用于处理点云数据的方法和装置
CN109145744B (zh) * 2018-07-19 2020-08-18 西安理工大学 一种基于自适应预测模式的lstm网络行人重识别方法
CN109685060B (zh) * 2018-11-09 2021-02-05 安徽科大讯飞医疗信息技术有限公司 图像处理方法和装置
US11282180B1 (en) 2019-04-24 2022-03-22 Apple Inc. Object detection with position, pose, and shape estimation
CN111798487A (zh) * 2019-08-27 2020-10-20 北京京东尚科信息技术有限公司 目标跟踪方法、装置和计算机可读存储介质
US11451721B2 (en) 2019-09-03 2022-09-20 Soul Vision Creations Private Limited Interactive augmented reality (AR) based video creation from existing video
CN110826403B (zh) * 2019-09-27 2020-11-24 深圳云天励飞技术有限公司 跟踪目标确定方法及相关设备
CN110717593B (zh) * 2019-10-14 2022-04-19 上海商汤临港智能科技有限公司 神经网络训练、移动信息测量、关键帧检测的方法及装置
CN112669282B (zh) * 2020-12-29 2023-02-14 燕山大学 一种基于深度神经网络的脊柱定位方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279952A (zh) * 2013-05-17 2013-09-04 华为技术有限公司 一种目标跟踪方法和装置
CN104881640A (zh) * 2015-05-15 2015-09-02 华为技术有限公司 一种获取向量的方法及装置
CN105279484A (zh) * 2015-10-10 2016-01-27 北京旷视科技有限公司 对象检测方法和对象检测装置
EP3001353A2 (en) * 2014-09-29 2016-03-30 Ricoh Company, Ltd. Object tracking method and device as well as tracking feature selection method
CN105518744A (zh) * 2015-06-29 2016-04-20 北京旷视科技有限公司 行人再识别方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279952A (zh) * 2013-05-17 2013-09-04 华为技术有限公司 一种目标跟踪方法和装置
EP3001353A2 (en) * 2014-09-29 2016-03-30 Ricoh Company, Ltd. Object tracking method and device as well as tracking feature selection method
CN104881640A (zh) * 2015-05-15 2015-09-02 华为技术有限公司 一种获取向量的方法及装置
CN105518744A (zh) * 2015-06-29 2016-04-20 北京旷视科技有限公司 行人再识别方法及设备
CN105279484A (zh) * 2015-10-10 2016-01-27 北京旷视科技有限公司 对象检测方法和对象检测装置

Also Published As

Publication number Publication date
CN106250863A (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
CN106250863B (zh) 对象追踪方法和装置
CN106326837B (zh) 对象追踪方法和装置
KR102224510B1 (ko) 데이터 관리를 위한 시스템들 및 방법들
Rafi et al. An Efficient Convolutional Network for Human Pose Estimation.
US11455807B2 (en) Training neural networks for vehicle re-identification
Zhou et al. Salient region detection using diffusion process on a two-layer sparse graph
CN109410242A (zh) 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质
CN110309706A (zh) 人脸关键点检测方法、装置、计算机设备及存储介质
CN109559300A (zh) 图像处理方法、电子设备及计算机可读存储介质
Bargiela et al. Recursive information granulation: aggregation and interpretation issues
CN113688304A (zh) 搜索推荐模型的训练方法、搜索结果排序的方法及装置
Sun et al. Im2avatar: Colorful 3d reconstruction from a single image
Tu et al. Parsing images into regions, curves, and curve groups
Rueda et al. Learning attribute representation for human activity recognition
Nie et al. A multi-stage convolution machine with scaling and dilation for human pose estimation
CN110515986A (zh) 一种社交网络图的处理方法、装置及存储介质
Vijayaraj et al. Deep learning image classification for fashion design
CN108875763A (zh) 目标检测方法和目标检测装置
Minoura et al. Crowd density forecasting by modeling patch-based dynamics
CN113435432B (zh) 视频异常检测模型训练方法、视频异常检测方法和装置
CN112052816A (zh) 基于自适应图卷积对抗网络的人体行为预测方法及系统
KR102057837B1 (ko) 인공지능 기반의 직물 패턴 생성 장치 및 방법
CN108446602A (zh) 一种用于人脸检测的装置和方法
US20220384035A1 (en) Automatic condition diagnosis using an attention-guided framework
CN114037056A (zh) 一种生成神经网络的方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100190 Beijing, Haidian District Academy of Sciences, South Road, No. 2, block A, No. 313

Applicant after: MEGVII INC.

Applicant after: Beijing maigewei Technology Co., Ltd.

Address before: 100190 Beijing, Haidian District Academy of Sciences, South Road, No. 2, block A, No. 313

Applicant before: MEGVII INC.

Applicant before: Beijing aperture Science and Technology Ltd.

GR01 Patent grant
GR01 Patent grant