CN115457084A - 一种多相机目标检测跟踪方法、装置 - Google Patents
一种多相机目标检测跟踪方法、装置 Download PDFInfo
- Publication number
- CN115457084A CN115457084A CN202211108975.7A CN202211108975A CN115457084A CN 115457084 A CN115457084 A CN 115457084A CN 202211108975 A CN202211108975 A CN 202211108975A CN 115457084 A CN115457084 A CN 115457084A
- Authority
- CN
- China
- Prior art keywords
- target
- image frame
- target detection
- feature
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本申请公开了一种多相机目标检测跟踪方法,该方法包括:获取至少两路以上来自不同相机的视频流图像数据,其中,每路视频流图像数据至少包括重叠区域的图像数据,获取所述视频流图像数据中重叠区域所在位置的视觉地图信息,将从每路视频流图像数据的每路图像帧中所提取的特征点信息转换至视觉地图中,以将每路图像帧特征点信息融合至同一视角下,得到同一视角下的融合信息,其中,每路图像帧中的每一图像帧具有同时性,基于所述融合信息,进行目标检测和跟踪。本申请无需先产生单相机轨迹再进行轨迹融合,解决了多个单相机轨迹进行融合时难以甄别和取舍的问题,既避免轨迹融合所带来的算力消耗,又提高了目标检测和跟踪的准确性和可靠性。
Description
技术领域
本发明涉及基于图像的目标检测领域,特别地,涉及一种多相机目标检测跟踪方法。
背景技术
随着社会的不断进步,目标检测跟踪的应用范围越来越广。例如智慧城市或智慧路口、自动驾驶等应用场景,通常都需要对来自多相机的多路图像的信息进行融合,利用融合图像来进行目标检测跟踪。
目前目标检测跟踪方法,大多是基于目标检测结果,在视频流的连续帧中的每一帧准确定位出目标位置可理解为目标检测跟踪。多相机目标检测跟踪对来自每个相机的图像信息分别进行目标检测和跟踪,生成单相机的轨迹,然后将每个相机中的轨迹分别投影到同一视角视图中,例如,鸟瞰视角(BEV,Bird Eye View)的视图中,最终将所投影的各个轨迹融合成全局轨迹。
上述多相机目标检测跟踪方法,分步进行目标检测和跟踪的方式,使系统较为复杂,且占用通信资源;并且,单相机中的轨迹如果存在问题,当多个相机的轨迹在同一视角进行融合时,难以对单相机的轨迹进行甄别和取舍,导致难以获得正确的全局轨迹。
发明内容
本发明提供了一种多相机目标检测跟踪方法,以获得准确的全局轨迹。
本发明提供的一种多相机目标检测跟踪方法,该方法包括:
获取至少两路以上来自不同相机的视频流图像数据,其中,每路视频流图像数据至少包括重叠区域的图像数据,
获取所述视频流图像数据对应空间所在位置的视觉地图信息,
将从每路视频流图像数据的每路图像帧中所提取的特征点信息转换至视觉地图中,以将每路图像帧特征点信息融合至同一视角下,得到同一视角下的融合信息,其中,每路图像帧中的每一图像帧具有同时性,
基于所述融合信息,进行目标检测和跟踪。
较佳地,所述将从每路视频流图像数据的每路图像帧中所提取的特征点信息转换至视觉地图中,包括:
对于每路图像帧中的每一图像帧:
分别对该图像帧进行特征提取,得到该图像帧的特征点信息和/或特征图,
利用该图像帧所来源相机的投影矩阵,将该图像帧的特征点投影至视觉地图中,得到该图像帧的同一视角下的投影特征点信息,
将所述每路图像帧中所有图像帧的所述投影特征点信息,确定为所述融合信息,
其中,
投影矩阵用于表征相机图像中的像素点与视觉地图中的空间点之间映射关系的投影矩阵;
所述基于所述融合信息,进行目标检测和跟踪,包括:
基于所述每路图像帧中所有图像帧的所述投影特征点信息,进行目标检测,得到所述每路图像帧中所有图像帧对应的同一视角下的目标检测结果,将该目前检测结果确定为所述每路图像帧的图像帧组的目标检测结果,
从各个图像帧组的目标检测结果中,获取目标轨迹数据,
其中,各个图像帧组的目标检测结果为:各个不同时间下的所述每路图像帧所有图像帧所对应的同一视角下的目标检测结果。
较佳地,所述从各个图像帧组的目标检测结果中,获取目标轨迹数据,包括:
对当前图像帧组的目标检测结果与历史图像帧组的目标检测结果的交集中的各个目标检测结果,进行标记,
从各图像帧组的所标记的目标检测结果中,获取世界坐标系下的目标轨迹数据。
较佳地,所述基于所述每路图像帧中所有图像帧的所述投影特征点信息,进行目标检测,包括:
基于所述投影特征点信息,对预先初始化的目标特征进行搜索,得到目标参考位置信息,
利用每路图像帧所来源相机的投影矩阵,将目标参考位置信息分别反投影至每路图像帧中,以确定目标参考位置在图像帧中的位置信息,
根据图像帧的位置信息,获取对应目标的特征,得到目标的每路特征,
融合目标的每路特征,得到目标的融合特征,
基于所述投影特征点信息,对所述融合特征进行搜索,得到所述目标检测结果;
其中,目标检测结果包括:同一视角下的全局位置信息、目标尺寸、以及置信度。
较佳地,所述基于所述投影特征点信息,对预先初始化的目标特征进行搜索,得到目标参考位置信息,包括:
将所述投影特征点信息、和预先初始化的目标检测向量输入至机器学习模型,得到各目标的参考位置信息,其中,目标检测向量包括两个以上目标的目标特征向量,
所述利用每路图像帧所来源相机的投影矩阵,将目标参考位置信息分别反投影至每路图像帧中,包括:
利用每路视频流图像所来源相机的投影矩阵,将各目标的参考位置信息分别反投影至每路图像帧对应的特征图中,以确定各目标的参考位置在特征图中的位置信息,
所述根据图像帧的位置信息,获取对应目标的特征,得到目标的每路特征,包括:
根据各目标特征图中的位置信息,获取各目标对应的特征。
较佳地,所述融合目标的每路特征,得到目标的融合特征,包括:
对每个目标,分别进行该目标的特征融合,得到该每个目标的融合特征,
所述基于所述投影特征点信息,对融合特征进行搜索,包括:
将每个目标的融合特征、和所述投影特征点信息输入至机器学习模型,得到所述目标检测结果。
较佳地,所述对每个目标,分别进行该目标的特征融合,包括:
对于每个目标:
基于每路特征图,融合各特征图中该目标的特征,得到第一融合特征,
基于每路特征图,融合各特征图中除同一目标之外的其他目标的特征,得到第二融合特征,
将第一融合特征和第二融合特征进行融合,得到该目标的融合特征;
该方法进一步包括:
按照设定的置信度阈值,对当前图像帧组的目标检测结果进行过滤,得到有效目标检测结果,
将所述有效目标检测结果增加至下一图像帧组的初始化目标特征集合中。
较佳地,所述对当前图像帧组的目标检测结果与历史图像帧组的目标检测结果的交集中的各个目标检测结果,进行标记,包括:
如果当前图像帧组的有效目标检测结果来自于初始化目标特征,则赋予该有效目标检测结果新的跟踪标识;
如果当前图像帧组的有效目标检测结果来自于上一图像帧组所加入的有效目标检测结果,则沿用上一图像帧所加入的有效目标检测结果的跟踪标识;
所述从各图像帧组所标记的目标检测结果中,获取世界坐标系下的目标轨迹数据,包括:
将从各图像帧组所标记的目标检测结果中具有相同跟踪标识的目标检测结果,确定为该目标检测结果的目标轨迹数据;
所述视觉地图为鸟瞰视角地图,所述同一视角为鸟瞰视角。
本申请实施例还提供一种多相机目标检测跟踪装置,该装置包括:
第一获取模块,用于获取至少两路以上来自不同相机的视频流图像数据,其中,每路视频流图像数据至少包括重叠区域的图像数据,
第二获取模块,用于获取所述视频流图像数据对应空间所在位置的视觉地图信息,
目标检测跟踪模块,将从每路视频流图像数据的每路图像帧中所提取的特征点信息转换至视觉地图中,以将每路图像帧特征点信息融合至同一视角下,得到同一视角下的融合信息,其中,每路图像帧中的每一图像帧具有同时性,
基于所述融合信息,进行目标检测和跟踪。
本申请实施例再提供一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述多相机目标检测跟踪方法的步骤。
本申请实施例提供的多相机目标检测跟踪方法,将来自不同相机的视频流图像特征投影至同一视角下,基于同一视角下的融合信息来进行目标检测和跟踪,这样,从源头上来进行信息的融合,有利于提高用于目标检测跟踪的信息源的准确性,提高了多相机融合的智能性,并且,无需先产生单相机轨迹再进行轨迹融合,解决了多个单相机轨迹进行融合时难以甄别和取舍的问题,既避免轨迹融合所带来的算力消耗,又提高了目标检测和跟踪的准确性和可靠性。
附图说明
图1为本申请实施例多相机目标检测跟踪方法的一种流程示意图。
图2为本申请实施例具体场景下的多相机目标检测跟踪方法的一种流程示意图。
图3为4个相机分别采集路口4个方向的一帧视频流图像的一种示意图。
图4为交通路口处的鸟瞰视角的高精度地图的一种示意图。
图5为目标检测过程的一种示意图。
图6为本申请实施例多相机目标检测跟踪装置的一种示意图。
图7为本申请实施例多相机目标检测跟踪装置的另一种示意图。
具体实施方式
为了使本申请的目的、技术手段和优点更加清楚明白,以下结合附图对本申请做进一步详细说明。
本申请实施例将各路视频流图像数据中对应于同一时间的图像帧的特征点投影至同一视角视觉地图,以将各路视频流图像中该图像帧的特征点信息融合至同一视角下,基于同一视角下的融合信息进行目标检测和跟踪。
参见图1所示,图1为本申请实施例多相机目标检测跟踪方法的一种流程示意图。该方法包括:
步骤101,获取至少两路以上视频流图像数据,
其中,每路视频流图像数据至少包括从不同拍摄角度所采集的同一场景的图像数据,通常,每路视频流图像数据由安装于不同位置的相机对同一场景进行图像采集而得到的,从而可得到从不同拍摄角度的图像数据。
从数据的角度而言,同一场景系指每路视频流图像数据之间至少存在交集数据;从空间位置角度而言,同一场景系指位于同一空间位置范围内的目标集合,空间位置范围可根据需要设定,换言之,每路视频流图像之间存在重叠区域。
获取的途径可以从相机获取的实时视频流图像数据,也可以是从存储端获取的非实时视频流图像数据,本申请对此不做限定。
步骤102,获取所述视频流图像数据中重叠区域所在位置的视觉地图信息,
作为一种示例,重叠区域所在位置可通过相机的位置信息来获取,根据相机安装的地理位置信息,从地图库中获取对应的鸟瞰视角视觉地图信息。
视觉地图可以是鸟瞰视角视觉地图,鸟瞰视角可理解为一种俯视视角,鸟瞰视角视觉地图信息相当于俯视视觉地图信息,该地图信息包括有世界坐标系下的全局位置信息。
步骤103,将从每路视频流图像数据的每路图像帧中所提取的特征点信息转换至同一视角视觉地图中,以将每路图像帧特征点信息融合至同一视角下,得到同一视角下的融合信息,
其中,每路图像帧中的每一图像帧具有同时性,例如,每路的图像帧对应相同时间,所应理解的是,绝对意义上的相同时间的图像帧是有利于提高目标检测跟踪的精度的,例如,每路图像帧具有相同的时间戳信息,但实际应用中,每路图像帧中的每一图像帧并不需要严苛地在同一时刻,只要每路图像帧中的每一图像帧之间的时间差在设定的时间阈值内即可,这种情况便相当于对应相同的时间,也具有同时性。若每路图像帧不具有同时性,可进行同步处理。
在该步骤中,对于每路图像帧中的每一单帧的图像帧:
分别对该图像帧进行特征提取,得到该图像帧的特征点信息和/或特征图,
利用该图像帧所来源相机的投影矩阵,将该图像帧的特征点投影至视觉地图中,得到该图像帧的同一视角下的投影特征点信息,该投影特征点信息包括全局位置信息,
将每路图像帧中所有图像帧的所述投影特征点信息,确定为所述融合信息,这样,该融合信息表征了场景在同一视角下同一时间的特征信息,也就是说,表征了同一视角下具有同时性的所有路图像帧对应的特征信息,鉴于每路图像帧系时间差在设定的时间阈值内的图像帧集合,即,具有同时性的各路图像帧,该集合在本申请中称为图像帧组,融合信息可理解为图像帧组的融合信息;
其中,
投影矩阵用于表征相机图像中的像素点与视觉地图中的空间点之间映射关系的投影矩阵,不同相机对应有不同的投影矩阵;
步骤104,基于所述融合信息,进行目标检测和跟踪。
在该步骤中,基于所述每路图像帧中所有图像帧的所述投影特征点信息,进行目标检测,作为一种示例,基于所述投影特征点信息,对预先初始化的目标特征进行搜索,得到目标参考位置信息,利用每路图像帧所来源相机的投影矩阵,将目标参考位置信息分别反投影至每路图像帧中,以确定目标参考位置在图像帧中的位置信息,根据图像帧的位置信息,获取对应目标的特征,得到目标的每路特征,融合目标的每路特征,得到目标的融合特征,基于所述投影特征点信息,对所述融合特征进行搜索,得到所述每路图像帧中所有图像帧对应的同一视角下的目标检测结果,将该目前检测结果确定为所述每路图像帧的图像帧组的目标检测结果,其中,图像帧组由具有同时性的每路图像帧组成;目标检测结果包括:同一视角下的全局位置信息、目标尺寸、以及置信度。上述对融合特征来进行搜索的检测方式,能够实现从多路图像帧特征信息的关联性检测,有利于提高目标检测的准确性。
从各个图像帧组的目标检测结果中,获取目标轨迹数据,其中,各个图像帧组的目标检测结果为:各个不同时间下的所述图像帧组所对应的目标检测结果,即,历史图像帧组的目标检测结果。作为一种示例,若融合信息为一个图像帧组的融合信息,则可以基于本图像帧组的融合信息进行目标检测和跟踪。
以基于多个图像帧组的融合信息进行目标检测和跟踪为例,对当前图像帧组同一视角下的目标检测结果与历史图像帧组同一视角下的目标检测结果的交集中的各个目标检测结果,进行标记,例如,将交集中的目标检测结果继承既有跟踪标识,将不在交集中的当前图像帧组同一视角下的目标检测结果赋予新的跟踪标识;将具有相同跟踪标识的目标检测结果,确定为该目标检测结果的目标轨迹数据。由此,目标检测和跟踪融合为一体,无需先进行检测再进行跟踪,使得检测跟踪整体更加简洁。
本申请实施例的多相机目标检测跟踪方法,通过将每路图像帧特征点信息融合至同一视角下,提供了一种端到端的、多视角的、检测跟踪一体化的方法,无需获取单相机轨迹后再将各单相机轨迹进行融合,避免了单相机中的轨迹如果存在问题所导致难以获得正确的全局轨迹的问题,有利于提高多相机目标检测跟踪的可靠性和准确性。
为便于理解本申请实施例,以下以应用于交通路口的多相机目标检测跟踪为例来说明,所应理解的是,本申请不限于交通路口的多相机目标检测跟踪,任何应用的多相机目标检测跟踪均可适用,例如,安装于车辆本体的多路相机对周边目标检测跟踪等应用。
参见图2所示,图2为本申请实施例具体场景下的多相机目标检测跟踪方法的一种流程示意图。该方法包括:
步骤201,获取来自多相机的视频流图像、以及视频流图像对应空间位置的视觉地图信息,
作为一种示例,获取来自多相机的视频流图像可以是,例如,在某交通路口处安装有4个相机分别采集路口4个方向且具有重叠区域的视频流图像,得到4路视频流图像,参见图3所示,图3为4个相机分别采集路口4个方向的一帧视频流图像的一种示意图。
作为一种示例,获取视频流图像对应空间位置的视觉地图信息可以是,获取该交通路口处的地图信息,以便得到视频流图像对应空间的全局位置信息,地图信息中位置信息可采用世界坐标系下的全局坐标信息来描述。
为便于呈现和展示,地图信息可以为鸟瞰视角的高精度地图,参见图4所示,图4为交通路口处的鸟瞰视角的高精度地图的一种示意图。所应理解的是,地图信息也可以是一般的地图。
高精度地图是和普通导航电子地图相对而言的一种专题地图,也称为高分辨率地图。其绝对位置精度接近若干米级,相对位置精度在厘米级别;数据组织方式是通过不同的图层去描述水系、铁路、街区、建筑物、交通标记线等信息,然后将图层叠加来进行表达。
步骤202,获取每路视频流图像所来源的相机与视觉地图信息对应的投影矩阵,
鉴于一帧相机图像中的像素点与空间点之间满足相机模型的映射关系,该映射关系可通过投影矩阵来描述,这样,在相机图像中,选取多个具有标志性的像素点,或者,在地图信息中,选取多个具有标志性的空间点,利用像素坐标和对应的地图信息,便可计算出投影矩阵,相机的内外标定参数可预先获得。
参见图5所示,图5为在一帧图像中所选取的像素点以及其对应的空间点的一种示意图,其中,左图为相机图像,右图为地图点的图像。作为一种示例,在相机图像中选取交通标记点对应的像素点,在高精度地图中可确定交通标记点对应的地图信息,利用像素坐标和地图坐标,计算该图像所来源的相机与高精度地图的投影矩阵,其中,投影矩阵具体计算方式,可以将相机图像和高精度地图多组对应点的坐标代入构建的线性方程组,并使用最小二乘法求解获得,例如,采用直接线性变换(DLT)算法、P3P算法、EPnP算法、光束平差(BA)算法。
投影矩阵通常可以以离线方式预先确定并存储,也可以实时确定。
步骤203,对于每路视频流图像,分别提取当前帧中特征,得到各路当前特征图和/或各路当前特征信息,
在该步骤中,可以采用CNN神经网络来提取每路当前帧中的特征,按照特征的像素位置信息对特征数据进行组织,可得到对应的当前特征图,其中,当前帧为各路视频流同一时间的单帧图像。
步骤204,对于每路当前特征图,进行如下处理:
步骤2041,利用该视频流图像所来源相机的投影矩阵,将该路当前特征图中特征点投影至BEV视觉地图中,得到投影特征点位置信息,并在BEV视觉地图中初始化目标特征集合;
在该步骤中,根据特征点的像素坐标向量和相机投影矩阵的内积,可得到投影特征点在世界坐标系下的全局位置信息;
作为一种示例,初始化一组用于进行目标搜索的目标特征,每个目标特征是一个设定长度的向量,例如,分别以行人、机动车、非机动车为目标设置每个目标对应的目标特征,将所有目标对应的目标特征作为一组目标检测向量,进行初始化,得到初始化目标特征向量。
目标检测向量可以是3D目标检测向量,包括有3D信息,也可以是2D目标检测向量,包括有2D信息。
步骤2042,基于初始化的目标特征,得到BEV视觉地图中各目标的参考位置信息。
在该步骤中,基于BEV视觉地图所投影的投影特征点,进行目标搜索,得到BEV视觉地图中所检测到的各目标的参考位置信息,
将初始化目标检测向量、投影特征点位置信息输入至机器学习模型中,例如,多层感知机,利用多层感知机,对BEV视觉地图所投影的投影特征点进行目标检测向量的搜索,解析出BEV视觉地图中各个目标的参考位置信息。例如,解析出BEV视觉地图中不同行人、不同车辆的参考位置信息。
步骤2043,利用相机的投影矩阵,将各目标的参考位置信息反投影至该路当前特征图中,以确定各目标的参考位置在该路当前特征图中的特征位置,并基于特征位置获取对应的特征,
在该步骤中,对于每个目标的参考位置,根据相机的投影矩阵和该参考位置信息,得到该参考位置信息所对应的当前特征图中的特征位置信息,在当前特征图中,根据该特征位置信息,确定对应的特征。
例如,目标1的参考位置信息在4路当前特征图中分别对应为特征位置1、2、3、4,从4个特征位置分别获取对应的特征1、2、3、4。
作为一种变形,对于每个目标的参考位置,根据相机的投影矩阵和该参考位置信息,得到该参考位置信息所对应的当前帧中的位置信息,根据该位置信息,确定对应的特征。
步骤2044,对每个目标分别进行特征融合,得到该每个目标的融合特征;
在该步骤中,对同一目标的特征,融合每路当前特征图中同一目标的特征,得到第一融合特征,例如,将目标1的第一特征1、2、3、4进行融合,得到目标1的第一融合特征。
由于相机拍摄角度、拍摄位置的不同,不同相机所采集的同一目标在当前帧中的位置不同,当前帧中相同像素位置对应的目标不同,基于此,还可以对每路特征图中除该目标之外的其他目标的特征进行融合,得到第二融合特征,例如,将除目标1之外的其他目标的特征进行融合,即融合目标2的特征、目标3的特征…进行融合,这样,既可以去除冗余目标信息,又有利于增强期望目标信息。
将第一融合特征和第二融合特征进行融合,得到该目标的融合特征。
上述融合可以包括对特征向量进行相加、拼接至少之一的操作,其中,相加可以是加权平均相加。
步骤205,基于投影特征点信息,对所述融合特征进行搜索,得到当前帧组同一视角下的目标检测结果。
作为一种示例,将所有目标的融合特征、投影特征点信息通过机器学习模型进行解析,得到BEV视角的目标检测结果,即,当前帧BEV视觉地图中的目标检测结果,
当融合特征为3D特征时,目标检测结果包括三维位置信息、三维尺寸信息、置信度,当融合特征为2D特征时,目标检测结果包括二维位置信息、二维尺寸信息、置信度。
步骤206,根据置信度阈值,对目标检测结果进行过滤,保留有效的目标检测结果,
在该步骤中,作为一种示例,将置信度小于置信度阈值的目标检测结果予以剔除,得到有效目标检测结果,
步骤207,将所保留的有效目标检测结果加入至下一帧组的用于目标搜索的初始化目标特征集合中,
其中,下一帧组的初始化目标特征集合包括有用于进行目标搜索的初始化目标检测向量。
例如,当前帧组有m个有效目标检测结果,则下一帧组的目标检测向量的数目为:初始化的n个目标检测向量+历史的m个有效目标检测结果,其中,当前帧组相对于下一帧组而言便为历史帧组,m个有效目标检测结果变为历史有效目标检测结果。
步骤208,判断当前帧组的有效目标检测结果是否与上一帧组的有效目标检测结果存在关联,
如果有效目标检测结果来自于初始化目标检测,说明该有效目标检测结果是新检测到的,则赋予该有效目标检测结果新的跟踪标识(ID);
如果有效目标检测结果来自于上一帧组所加入的有效目标检测结果,说明该有效目标检测结果在上一帧组(相对当前帧组而言为历史帧组)、当前帧组都被检测到,则保持该有效目标检测结果的跟踪ID不变,沿用该有效目标检测结果的上一帧组的跟踪ID。
上述步骤207、208无严格的先后次序,可以并行执行,所应理解的是,由于目标检测是在同一视角下来进行的,故而,步骤207、208中所述当前帧组、下一帧组、上一帧组应理解为具有同时性的每路图像帧的集合,而不是某一路单帧的图像帧。
步骤209,提取每路下一帧图像,返回步骤203,直至视频流中的图像处理完毕。
步骤210,输出同一跟踪ID的有效目标检测结果,得到BEV视觉地图中该有效目标检测结果的轨迹数据,从而得到跟踪结果。
在上述步骤2042、步骤205通过机器学习模型获取目标检测结果的过程,可以理解为是在BEV视角的视觉地图中查询或搜索设定目标的过程,即目标查询过程,以进行目标检测。
为便于理解上述过程中的步骤2042~207的处理过程,参见图5所示,图5为目标检测过程的一种示意图。图中,不同灰度的方框表示不同的目标,cli表示视觉地图中参考位置信息,clmi表示参考位置信息反投影至各路当前图像帧中位置信息,在虚框中,表示目标1融合了其他目标信息以及各路当前图像帧中该目标本身的信息。
参见图6所示,图6为本申请实施例多相机目标检测跟踪装置的一种示意图。该装置包括,
第一获取模块,用于获取至少两路以上视频流图像数据,其中,每路视频流图像数据至少包括重叠区域的图像数据,
第二获取模块,用于获取所述视频流图像数据中重叠区域所在位置的视觉地图信息,
目标检测跟踪模块,用于将从每路视频流图像数据的每路图像帧中所提取的特征点信息转换至视觉地图中,以将每路图像帧特征点信息融合至同一视角下,得到同一视角下的融合信息,其中,每路图像帧中的每一图像帧具有同时性,
基于所述融合信息,进行目标检测和跟踪。
其中,
目标检测跟踪模块被配置为:
对于每路图像帧中的每一图像帧:
分别对该图像帧进行特征提取,得到该图像帧的特征点信息和/或特征图,
利用该图像帧所来源相机的投影矩阵,将该图像帧的特征点投影至视觉地图中,得到该图像帧的同一视角下的投影特征点信息,
将所述每路图像帧中所有图像帧的所述投影特征点信息,确定为所述融合信息,
其中,
投影矩阵用于表征相机图像中的像素点与视觉地图中的空间点之间映射关系的投影矩阵;
基于所述每路图像帧中所有图像帧的所述投影特征点信息,进行目标检测,得到所述每路图像帧中所有图像帧对应的同一视角下的目标检测结果,将该目前检测结果确定为所述每路图像帧的图像帧组的目标检测结果,
从各个图像帧组的目标检测结果中,获取目标轨迹数据,
其中,各个图像帧组的目标检测结果为:各个不同时间下的所述每路图像帧所有图像帧所对应的同一视角下的目标检测结果。
参见图7所示,图7为本申请实施例多相机目标检测跟踪装置的另一种示意图。该装置包括,存储器和处理器,所述存储器存储有计算机程序,所述处理器被配置执行所述计算机程序实现本申请实施例所述多相机目标检测跟踪方法的步骤。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例所述多相机目标检测跟踪方法的步骤。
对于装置/网络侧设备/存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种多相机目标检测跟踪方法,其特征在于,该方法包括:
获取至少两路以上来自不同相机的视频流图像数据,其中,每路视频流图像数据至少包括重叠区域的图像数据,
获取所述视频流图像数据对应空间所在位置的视觉地图信息,
将从每路视频流图像数据的每路图像帧中所提取的特征点信息转换至视觉地图中,以将每路图像帧特征点信息融合至同一视角下,得到同一视角下的融合信息,其中,每路图像帧中的每一图像帧具有同时性,
基于所述融合信息,进行目标检测和跟踪。
2.如权利要求1所述的多相机目标检测跟踪方法,其特征在于,所述将从每路视频流图像数据的每路图像帧中所提取的特征点信息转换至视觉地图中,包括:
对于每路图像帧中的每一图像帧:
分别对该图像帧进行特征提取,得到该图像帧的特征点信息和/或特征图,
利用该图像帧所来源相机的投影矩阵,将该图像帧的特征点投影至视觉地图中,得到该图像帧的同一视角下的投影特征点信息,
将所述每路图像帧中所有图像帧的所述投影特征点信息,确定为所述融合信息,
其中,
投影矩阵用于表征相机图像中的像素点与视觉地图中的空间点之间映射关系的投影矩阵;
所述基于所述融合信息,进行目标检测和跟踪,包括:
基于所述每路图像帧中所有图像帧的所述投影特征点信息,进行目标检测,得到所述每路图像帧中所有图像帧对应的同一视角下的目标检测结果,将该目前检测结果确定为所述每路图像帧的图像帧组的目标检测结果,
从各个图像帧组的目标检测结果中,获取目标轨迹数据,
其中,各个图像帧组的目标检测结果为:各个不同时间下的所述每路图像帧所有图像帧所对应的同一视角下的目标检测结果。
3.如权利要求2所述的多相机目标检测跟踪方法,其特征在于,所述从各个图像帧组的目标检测结果中,获取目标轨迹数据,包括:
对当前图像帧组的目标检测结果与历史图像帧组的目标检测结果的交集中的各个目标检测结果,进行标记,
从各图像帧组的所标记的目标检测结果中,获取世界坐标系下的目标轨迹数据。
4.如权利要求2或3所述的多相机目标检测跟踪方法,其特征在于,所述基于所述每路图像帧中所有图像帧的所述投影特征点信息,进行目标检测,包括:
基于所述投影特征点信息,对预先初始化的目标特征进行搜索,得到目标参考位置信息,
利用每路图像帧所来源相机的投影矩阵,将目标参考位置信息分别反投影至每路图像帧中,以确定目标参考位置在图像帧中的位置信息,
根据图像帧的位置信息,获取对应目标的特征,得到目标的每路特征,
融合目标的每路特征,得到目标的融合特征,
基于所述投影特征点信息,对所述融合特征进行搜索,得到所述目标检测结果;
其中,目标检测结果包括:同一视角下的全局位置信息、目标尺寸、以及置信度。
5.如权利要求4所述的多相机目标检测跟踪方法,其特征在于,所述基于所述投影特征点信息,对预先初始化的目标特征进行搜索,得到目标参考位置信息,包括:
将所述投影特征点信息、和预先初始化的目标检测向量输入至机器学习模型,得到各目标的参考位置信息,其中,目标检测向量包括两个以上目标的目标特征向量,
所述利用每路图像帧所来源相机的投影矩阵,将目标参考位置信息分别反投影至每路图像帧中,包括:
利用每路视频流图像所来源相机的投影矩阵,将各目标的参考位置信息分别反投影至每路图像帧对应的特征图中,以确定各目标的参考位置在特征图中的位置信息,
所述根据图像帧的位置信息,获取对应目标的特征,得到目标的每路特征,包括:
根据各目标特征图中的位置信息,获取各目标对应的特征。
6.如权利要求4所述的多相机目标检测跟踪方法,其特征在于,所述融合目标的每路特征,得到目标的融合特征,包括:
对每个目标,分别进行该目标的特征融合,得到该每个目标的融合特征,
所述基于所述投影特征点信息,对融合特征进行搜索,包括:
将每个目标的融合特征、和所述投影特征点信息输入至机器学习模型,得到所述目标检测结果。
7.如权利要求6所述的多相机目标检测跟踪方法,其特征在于,所述对每个目标,分别进行该目标的特征融合,包括:
对于每个目标:
基于每路特征图,融合各特征图中该目标的特征,得到第一融合特征,
基于每路特征图,融合各特征图中除同一目标之外的其他目标的特征,得到第二融合特征,
将第一融合特征和第二融合特征进行融合,得到该目标的融合特征;
该方法进一步包括:
按照设定的置信度阈值,对当前图像帧组的目标检测结果进行过滤,得到有效目标检测结果,
将所述有效目标检测结果增加至下一图像帧组的初始化目标特征集合中。
8.如权利要求7所述的多相机目标检测跟踪方法,其特征在于,所述对当前图像帧组的目标检测结果与历史图像帧组的目标检测结果的交集中的各个目标检测结果,进行标记,包括:
如果当前图像帧组的有效目标检测结果来自于初始化目标特征,则赋予该有效目标检测结果新的跟踪标识;
如果当前图像帧组的有效目标检测结果来自于上一图像帧组所加入的有效目标检测结果,则沿用上一图像帧所加入的有效目标检测结果的跟踪标识;
所述从各图像帧组所标记的目标检测结果中,获取世界坐标系下的目标轨迹数据,包括:
将从各图像帧组所标记的目标检测结果中具有相同跟踪标识的目标检测结果,确定为该目标检测结果的目标轨迹数据;
所述视觉地图为鸟瞰视角地图,所述同一视角为鸟瞰视角。
9.一种多相机目标检测跟踪装置,其特征在于,该装置包括:
第一获取模块,用于获取至少两路以上来自不同相机的视频流图像数据,其中,每路视频流图像数据至少包括重叠区域的图像数据,
第二获取模块,用于获取所述视频流图像数据对应空间所在位置的视觉地图信息,
目标检测跟踪模块,将从每路视频流图像数据的每路图像帧中所提取的特征点信息转换至视觉地图中,以将每路图像帧特征点信息融合至同一视角下,得到同一视角下的融合信息,其中,每路图像帧中的每一图像帧具有同时性,
基于所述融合信息,进行目标检测和跟踪。
10.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一所述多相机目标检测跟踪方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211108975.7A CN115457084A (zh) | 2022-09-13 | 2022-09-13 | 一种多相机目标检测跟踪方法、装置 |
PCT/CN2023/118350 WO2024055966A1 (zh) | 2022-09-13 | 2023-09-12 | 一种多相机目标检测方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211108975.7A CN115457084A (zh) | 2022-09-13 | 2022-09-13 | 一种多相机目标检测跟踪方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115457084A true CN115457084A (zh) | 2022-12-09 |
Family
ID=84303349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211108975.7A Pending CN115457084A (zh) | 2022-09-13 | 2022-09-13 | 一种多相机目标检测跟踪方法、装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115457084A (zh) |
WO (1) | WO2024055966A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024055966A1 (zh) * | 2022-09-13 | 2024-03-21 | 上海高德威智能交通系统有限公司 | 一种多相机目标检测方法、装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11379995B2 (en) * | 2020-07-15 | 2022-07-05 | Jingdong Digits Technology Holding Co., Ltd. | System and method for 3D object detection and tracking with monocular surveillance cameras |
CN113411543A (zh) * | 2021-03-19 | 2021-09-17 | 贵州北斗空间信息技术有限公司 | 一种多路监控视频融合显示方法及系统 |
CN113673425B (zh) * | 2021-08-19 | 2022-03-15 | 清华大学 | 一种基于Transformer的多视角目标检测方法及系统 |
CN114913506A (zh) * | 2022-05-18 | 2022-08-16 | 北京地平线机器人技术研发有限公司 | 一种基于多视角融合的3d目标检测方法及装置 |
CN115457084A (zh) * | 2022-09-13 | 2022-12-09 | 上海高德威智能交通系统有限公司 | 一种多相机目标检测跟踪方法、装置 |
-
2022
- 2022-09-13 CN CN202211108975.7A patent/CN115457084A/zh active Pending
-
2023
- 2023-09-12 WO PCT/CN2023/118350 patent/WO2024055966A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024055966A1 (zh) * | 2022-09-13 | 2024-03-21 | 上海高德威智能交通系统有限公司 | 一种多相机目标检测方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2024055966A1 (zh) | 2024-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2022203635B2 (en) | Crowdsourcing and distributing a sparse map, and lane measurements or autonomous vehicle navigation | |
US11900627B2 (en) | Image annotation | |
JP7432285B2 (ja) | レーンマッピング及びナビゲーション | |
CN109583415B (zh) | 一种基于激光雷达与摄像机融合的交通灯检测与识别方法 | |
CN110617821B (zh) | 定位方法、装置及存储介质 | |
KR20200121274A (ko) | 전자 지도를 업데이트하기 위한 방법, 장치 및 컴퓨터 판독 가능한 저장 매체 | |
TW202001786A (zh) | 用於更新高度自動化駕駛地圖的系統和方法 | |
CN112667837A (zh) | 图像数据自动标注方法及装置 | |
CN113034566B (zh) | 高精度地图构建方法、装置、电子设备及存储介质 | |
WO2020156923A2 (en) | Map and method for creating a map | |
Gaspar et al. | Urban@ CRAS dataset: Benchmarking of visual odometry and SLAM techniques | |
CN114663852A (zh) | 车道线图的构建方法、装置、电子设备及可读存储介质 | |
CN114969221A (zh) | 一种更新地图的方法及相关设备 | |
CN114509065B (zh) | 地图构建方法、系统、车辆终端、服务器端及存储介质 | |
WO2024055966A1 (zh) | 一种多相机目标检测方法、装置 | |
WO2020049089A1 (en) | Methods and systems for determining the position of a vehicle | |
Zhanabatyrova et al. | Automatic map update using dashcam videos | |
KR102316818B1 (ko) | 도로 네트워크를 갱신하는 방법 및 장치 | |
CN110764526B (zh) | 一种无人机飞行控制方法及装置 | |
Ahmed et al. | Lane marking detection using LiDAR sensor | |
CN114898314A (zh) | 驾驶场景的目标检测方法、装置、设备及存储介质 | |
CN111754388A (zh) | 一种建图方法及车载终端 | |
CN115249345A (zh) | 一种基于倾斜摄影三维实景地图的交通拥堵检测方法 | |
CN116917936A (zh) | 双目相机外参标定的方法及装置 | |
Lee et al. | Semi-automatic framework for traffic landmark annotation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |