CN116363694A - 一种多元信息匹配的无人系统跨摄像头多目标跟踪方法 - Google Patents
一种多元信息匹配的无人系统跨摄像头多目标跟踪方法 Download PDFInfo
- Publication number
- CN116363694A CN116363694A CN202310204927.6A CN202310204927A CN116363694A CN 116363694 A CN116363694 A CN 116363694A CN 202310204927 A CN202310204927 A CN 202310204927A CN 116363694 A CN116363694 A CN 116363694A
- Authority
- CN
- China
- Prior art keywords
- target
- camera
- information
- tracking
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000001514 detection method Methods 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 238000003672 processing method Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 55
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 9
- 239000003086 colorant Substances 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 230000000452 restraining effect Effects 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
本发明公开了一种多元信息匹配的无人系统跨摄像头多目标跟踪方法,涉及图像处理、运动分析等领域。所提出的主要方案为:通过目标检测模型获取目标的检测框位置和类别;使用图像处理方法识别目标的外观颜色;建立特征提取网络捕获目标的深度外观特征;利用外观特征信息、位置信息以及属性约束、运动信息约束、最大相似度阈值约束等多维度约束对目标进行单摄像头下的跟踪;每间隔60帧将多个单摄像头多目标跟踪结果发送到跨摄像头多目标融合模块,利用外观特征信息以及属性约束、摄像头空间拓扑约束、目标运动时间约束、最大相似度阈值约束等多元信息对目标进行匹配,实现无人系统跨摄像头多目标跟踪。
Description
技术领域
本发明涉及一种多目标跟踪方法,特别是一种多元信息匹配的无人系统跨摄像头多目标跟踪方法。
背景技术
随着数字化技术的发展,多目标跟踪在视频监控、自动驾驶、智能交通系统和现代化军事等领域有着广泛应用,成为研究的热点话题。多目标跟踪的主要任务是关联视频或视频流中的众多目标,分别为每个目标赋予一个唯一的标识(Identification,ID),并不断维持目标的ID保持不变。就目前而言,单摄像头多目标跟踪系统已经较为完善,但由于单个摄像头的监控范围有限,无法对目标进行进行连续跟踪,具有较大的局限性。跨摄像头多目标跟踪系统通过增加摄像头的数量可以克服单摄像头多目标跟踪系统所存在的固有缺陷,实现对目标的长时连续跟踪,具有很强的实用意义。然而由于复杂背景环境干扰、目标的遮挡与消失、不同摄像机下目标的尺度变化和姿态变化较大等问题,因此即使经过多年的努力,跨摄像头多目标跟踪仍然是一个尚未解决的问题,亟需更多研究。
目前,大多数跨摄像头目标跟踪方法包括两个阶段:
(1)局部轨迹生成阶段。该阶段在单个摄像头内跟踪每个检测到的目标,并为其生成局部轨迹;单摄像头目标跟踪方法主要分为传统方法和基于深度学习的方法。传统的目标跟踪方法有光流法、粒子滤波和卡尔曼滤波等,这些方法跟踪速度较快,但一般仅仅通过建立运动模型而获取目标的运动特征,缺乏对目标尺度变化的相关处理,并没有提取图像区域中目标的外观视觉特征,因而一般跟踪效果不佳。随着人工智能的不断发展,基于深度学习的方法在多目标跟踪问题上取得了较好的效果,并逐渐成为了多目标跟踪领域的主流算法。经典的算法包括SORT、Deep SORT和MOTDT,这些方法一般首先对运动目标进行检测,接着通过滤波算法预测其运动轨迹,通过建立运动模型和外观模型,同时从运动特征、外观特征两方面对多目标进行关联匹配,大大提升了多目标跟踪的精度,然而这些跟踪方法的精度依赖于目标检测的精度,若检测算法效果不好,则跟踪效果也不尽人意。
(2)跨摄像头轨迹匹配阶段。该阶段在所有摄像头中匹配多目标的所有局部轨迹以生成其完整的轨迹。一些方法不断在相邻摄像头之间匹配局部轨迹,最终实现所有摄像头上的轨迹匹配。另一些方法使用二分图匹配或者线性规划等方法迭代地匹配所有摄像头中的局部轨迹。此外,有研究工作试图使用贝叶斯公式或图模型来找到轨迹匹配的全局解决方案,通过最大化后验概率或找到从源节点到宿节点的网络流来获得每个目标的全局轨迹。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种多元信息匹配的无人系统跨摄像头多目标跟踪方法。
为了解决上述技术问题,本发明公开了一种多元信息匹配的无人系统跨摄像头多目标跟踪方法,包括:目标检测模块、特征提取模块、颜色识别模块、单摄像头多目标跟踪模块和跨摄像头多目标融合模块;其中目标检测模块用于目标检测,特征提取模块用于目标特征提取,颜色识别模块用于目标颜色提取,单摄像头多目标跟踪模块用于得到单摄像头多目标跟踪结果,跨摄像头多目标融合模块用于完成跨摄像头多目标跟踪;
所述五个模块执行以下步骤:
步骤1,目标检测;基于深度学习方法建立目标检测模型获取单摄像头中所有目标在图像中的位置和类别;所述目标检测的方法包括:
使用YOLOv5作为目标检测模型,检测出目标的位置和类别;得到目标的位置和类别后,采取非极大值抑制算法获取检测结果,完成目标检测。
步骤2,目标颜色提取;对所有经过步骤1检测得到的目标进行遍历,使用图像处理方法识别目标的外观颜色;所述目标颜色提取的方法包括:
使用图像处理方法识别目标颜色,将目标所在图像区域由RGB空间转化为HSV空间;统计各个颜色的所占像素,通过比较,得到占用最多区域的颜色种类,该颜色即识别为目标的颜色。
步骤3,目标特征提取;对所有经过步骤1检测得到的目标进行遍历,采用ResNet18网络结构作为骨干网络,对目标多元特征进行提取;
所述目标特征提取的方法包括:
构建特征提取网络进行目标特征提取;所述特征提取网络采用ResNet18网络结构作为骨干网络;包括17个卷积层和一个全连接层,具体步骤如下:
步骤3-1,使用特征提取网络中的最后一个卷积层Conv17的输出U∈R512×7×7作为所述特征提取模块中的注意力融合池模块的输入,其中,R512×7×7表示目标特征矩阵;
步骤3-2,将注意力融合池模块的输入U划分为7块,每块用Vi1∈R512×7,i1∈(1,7)表示,其中i1表示第i1块;
步骤3-3,将每块Vi1分别经过一个最大池化层和一个全连接层分别得到输出Pooli1和Wi1,公式如下:
Pooli1=max(Vi1)∈R512
Wi1=FC(Vi1)∈R512×2
其中,max(Vi1)表示区域目标特征最大向量矩阵,FC(Vi1)表示连接层矩阵元素;
步骤3-4,将每个输出Wi1按照分行提取的方式划分为Wi11和Wi12两个部分,将Wi11经过Sigmoid函数生成权重信息,与Wi12进行点乘,得到的结果与Pooli1进行相加,实现跳连接,获得结果Yi1∈R512;
步骤3-5,将获取到的结果Yi1进行拼接,得到Y∈R512×7;
步骤3-6,对7块Vi1进行相同的拼接操作,最后得到特征向量Z∈R512。
步骤4,目标位置预测分析;使用卡尔曼滤波算法,由常量速度模型和线性观测模型对目标位置进行预测和更新;所述目标位置预测分析的方法包括:
使用卡尔曼滤波算法,由常量速度模型和线性观测模型对目标位置进行预测和更新;
其中预测公式如下:
x’=Fx
P’=FPFT+Q
其中,x为上一帧时刻目标的均值,用8维向量刻画,其中,m和n表示目标位置框中心坐标,r为宽高比、h为高度,/>为图像坐标中对应的m,n,r,h的速度信息,x’为目标所预测的当前帧时刻均值,F表示状态转移矩阵;P为上一帧时刻目标的协方差,用于表示目标位置信息的不确定程度,用8×8的对角矩阵刻画,Q为运动估计误差,P’表示当前时刻目标的协方差;
更新公式如下:
x″=x’+K(z-Hx’)
P″=(I-KH)P’
其中,H为维度4×8的状态变量到检测变量的转换矩阵,R为检测噪声协方差,z为目标位置检测框,x″为目标更新后的均值,P″为目标更新后的协方差;目标更新后的均值和目标更新后的协方差用于预测目标下一帧的运动位置。
步骤5,多目标跟踪;利用外观特征信息、位置信息以及多维度约束对目标进行单摄像头下的多目标跟踪;得到单摄像头多目标跟踪结果;
所述单摄像头多目标跟踪的方法包括:
将当前帧中的目标作为检测器,将以往帧中的目标作为跟踪器;在跟踪过程即检测器与跟踪器的匹配过程中,记录所有跟踪器的跟踪状态,若某个跟踪器超过阈值时间未匹配,则将此跟踪器标记为删除状态;检测器只与处于未删除状态的跟踪器进行关联匹配;匹配方法包括:
采用两次匹配;其中,第一次匹配利用检测器和跟踪器特征向量之间的余弦距离作为相似性度量准则,第二次匹配利用检测器位置与跟踪器预测位置之间的广义交并比作为相似性度量准则;
首先通过相似性度量准则,构建一个代价矩阵;其次利用类别信息、颜色信息、运动信息以及相似度最大阈值对代价矩阵进行约束;最后使用一种二分图匹配算法,即匈牙利匹配对代价矩阵进行关联匹配,完成单摄像头多目标跟踪。
所述多目标跟踪的方法包括:
通过计算检测器与追踪器之间特征向量的余弦距离,获得初次跟踪的代价矩阵后,分别通过类别、颜色、运动信息以及最大阈值对代价矩阵进行约束;二次跟踪步骤与初次跟踪类似;
所述对代价矩阵进行约束的方法包括:
步骤5-1,代价矩阵用Cost∈RM*N所表示,其中M代表M个检测器,N代表N个追踪器,代价矩阵中元素ci,j表示第i个检测器与第j个跟踪器之间特征向量的余弦距离;
步骤5-2,对代价矩阵进行约束;首先判断第i个检测器与第j个追踪器的类别或颜色是否一致,若不一致,则将对应的ci,j设置为无穷大;
步骤5-3,计算第i个检测器的位置与第j个追踪器的预测位置之间的马氏距离di,j,公式如下:
di,j=(di-sj)TVj -1(di-sj)
其中,di表示第i个检测框的位置,sj表示第j个追踪器的预测位置,Vj表示检测位置与追踪预测位置之间的协方差矩阵;
步骤5-4,计算得到第i个检测器与第j个跟踪器之间的马氏距离时,判断所述马氏距离是否大于阈值;若大于阈值,则将对应的ci,j设置为无穷大,完成运动信息的约束;
步骤5-5,判断ci,j是否大于阈值;若大于,则将对应的ci,j设置为无穷大。
所述多维度约束包括:属性约束、运动信息约束和最大相似度阈值约束。
步骤6,跨摄像头多目标跟踪;每间隔设定时间将每个摄像头的单摄像头多目标跟踪结果发送到跨摄像头多目标融合模块,利用外观特征信息以及属性约束、摄像头空间拓扑约束、目标运动时间约束、最大相似度阈值约束的多元信息对目标进行匹配,完成跨摄像头多目标跟踪。
所述跨摄像头多目标融合模块用于关联不同摄像头之间的相同目标,将相同目标赋予同一个标识ID;
对于所述设定时间间隔内的目标信息,首先将目标与先前匹配结果进行比对,若已经匹配,则将目标标识修改为匹配后的标识;若为先前未匹配过的目标,则将不同摄像头之间的目标通过特征向量计算余弦距离得到代价矩阵,接着利用目标属性信息、摄像头之间的空间拓扑信息以及目标运动的时间信息对代价矩阵进行约束,之后采取匈牙利匹配算法关联不同摄像头下的目标,并记录匹配结果,用于下次跨摄像头目标跟踪。
有益效果:
(1)本发明在提取目标特征时使用ResNet作为骨干网络,相较于其他经典的卷积神经网络(例如AlexNet、VGG-Net),ResNet在实时性和准确性之间获得了相对较好的平衡。为了进一步挖掘目标深度特征,本发明设计了注意力融合池模块,相较于通过简单的平均池化或者最大池化将三维特征降为一维特征,此模块可以较好的保留关键特征,并消除冗余信息对算法效果的影响,大大提高了模型的表征能力。
(2)本发明采取了余弦距离和广义交并比两种策略用于度量单摄像头下多目标之间的相关性,余弦距离相较于欧式距离可以较好的度量目标之间的外观相关程度,广义交并比相较于交并比可以较好的度量目标之间的位置相关程度。两种方式的结合有利于降低不匹配或者少匹配情况的发生。
(3)本发明通过类别信息、颜色信息、运动信息、最大阈值等多种条件对单摄像头下的目标匹配进行约束,减少了不必要的匹配,降低了误匹配的概率。通过目标属性信息、摄像头的空间拓扑信息、目标运动的时间信息等对跨摄像头下的目标匹配进行多维度约束,大大提高了关联匹配的准确性。
(4)本发明在进行单摄像头多目标跟踪的同时,每隔60帧将每个单摄像头下的跟踪结果发送到跨摄像头多目标融合模块对不同摄像头之间的目标进行关联,平衡了实时性和准确性,不仅对资源的消耗较少,计算速度快,而且具有较高的准确性以及鲁棒性。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为本发明跨摄像头多目标跟踪方法示意图。
图2为本发明单摄像头多目标跟踪流程示意图。
图3为本发明目标特征提取网络结构示意图。
具体实施方式
本发明的原理是:本发明提供了一种多元信息匹配的跨摄像头多目标跟踪方法,主要分为目标检测、特征提取、颜色识别、单摄像头多目标跟踪和跨摄像头多目标融合五个模块。首先对单摄像头目标进行检测、特征提取、颜色识别和跟踪,接着每隔60帧,将每个单摄像头的跟踪结果发送到跨摄像头多目标融合模块,对多目标进行跨摄像头融合,并记录跟踪结果。如此往复,实现跨摄像头多目标跟踪。
本发明提供了一种多元信息匹配的跨摄像头多目标跟踪方法,主要分为目标检测、特征提取、颜色识别、单摄像头多目标跟踪和跨摄像头多目标融合五个模块。如图1所示,本方法首先对单摄像头目标进行检测、特征提取、颜色识别和跟踪,接着每隔60帧,将每个单摄像头的跟踪结果发送到跨摄像头多目标融合模块,对多目标进行跨摄像头融合,并记录跟踪结果。如此往复,实现跨摄像头多目标跟踪。
基于深度学习建立目标检测模型获取单摄像头中所有目标在图像中的位置和类别。本发明使用YOLOv5作为目标检测模型,其基于一个神经网络模型,通过一整张图像来检测出目标的位置和类别,实现端到端的目标检测。得到位置信息特征后,为了筛选出置信度较高的定位结果,排除对相同目标的多次定位,同时消除置信度较低的结果,采取非极大值抑制(Non-Maximum Suppression,NMS)算法获取检测结果。
对所有目标进行遍历,采用传统图像处理方法识别目标的颜色。
对所有目标进行遍历,通过特征提取网络,获取目标的外观视觉特征。本发明使用ResNet网络作为骨干网络,接着将目标送进注意力融合池模块,此模块的主要作用是将目标的三维特征融合为一维特征。相较于简单的最大池化或平均池化,该注意力融合池模块不仅可以消除大量冗余信息,保留关键信息,并且能够突出关键信息的在整体信息中的权重,进一步对图片提取了注意力。
通过卡尔曼滤波算法预测前一帧图像中的目标在当前帧的运动位置。
执行单摄像头多目标跟踪,如图2所示,为了方便而言,将当前帧的目标称为检测器,将以往帧的目标称为跟踪器。本发明在匹配过程中,会记录所有跟踪器的跟踪状态,若某个跟踪器已经超过60帧未出现匹配情况,则说明该目标已经离开了摄像区域,那么不需要再将检测器与此跟踪器进行匹配,将此跟踪器标记为删除状态。因而实际匹配时,检测器只会与处于未删除状态的跟踪器进行关联匹配。主要流程为:
为了度量目标之间的相似性,本发明采用两次匹配,第一次匹配利用检测器和跟踪器特征向量之间的余弦距离作为相似性度量准则,第二次匹配利用检测器位置与跟踪器预测位置之间的广义交并比(Generalized Intersection Over Union,GIOU)作为相似性度量准则。具体而言,首先通过相似性度量准则,构建一个代价矩阵。其次利用类别信息、颜色信息、运动信息、相似度最大阈值对代价矩阵进行约束。最后使用一种二分图匹配算法,即匈牙利匹配对代价矩阵进行关联匹配,实现多目标的跟踪。
通过卡尔曼滤波算法对跟踪目标状态进行更新,以用于单摄像头下一帧的跟踪匹配。
每隔60帧,将所有单个摄像头多目标跟踪的结果发送到跨摄像头目标融合模块,此模块的主要作用是关联不同摄像头之间的相同目标,将其赋予同一个标识ID。对于每60帧的目标信息,首先将目标与先前匹配结果进行比对,若先前已经匹配过的目标,则无需进行下一步的匹配,只需将其标识修改为匹配后的标识即可;若先前未匹配过的目标,则将不同摄像头之间的目标通过特征向量计算余弦距离得到代价矩阵,接着利用目标属性信息、摄像头之间的空间拓扑信息、目标运动的时间信息等对代价矩阵进行约束,之后采取匈牙利匹配算法关联不同摄像头下的目标,并记录匹配结果,用于下次跨摄像头目标跟踪。
实施例,对跨摄像头的多目标进行跟踪的方法,步骤如下:
步骤1:目标颜色提取。使用图像处理方法识别目标颜色,将目标所在图像区域由RGB空间转化为HSV空间。自然环境下通过摄像装备获取到的图像容易受自然光照、遮挡和阴影等情况的影响,即对亮度比较敏感。而RGB颜色空间的三个分量都与亮度密切相关,一旦亮度发生改变,其三个分量都会对应变化,因而本发明在识别目标颜色时不使用RGB空间。HSV空间可以直观地表达颜色的色调、鲜艳程度和明暗程度,方便进行颜色的对比,其由三个部分组成:色调、饱和度以及明度。由于不同颜色在HSV空间中的范围不同,本发明利用OpenCV工具捕获常见颜色通道的分布区域,即可统计各个颜色的所占像素,通过比较,得到占用最多区域的颜色种类,此颜色即为目标的颜色。
步骤2:目标特征提取,如图3所示。特征提取网络采用ResNet18网络结构作为骨干网络。其主要包括17个卷积层(Conv1-Conv17)和一个全连接层(FC18)。本方法使用最后一个卷积层Conv17的输出U∈R512×7×7作为注意力融合池模块的输入。注意力融合池模块首先将输入U划分为7块,每块用Vi∈R512×7,i∈(1,7)表示,然后将每块分别经过一个最大池化层和一个全连接层分别得到输出Pooli和Wi,公式如下:
Pooli=max(Vi)∈R512
Wi=FC(Vi)∈R512×2
将每个Wi划分为Wi1和Wi2,将Wi1经过Sigmoid函数生成权重信息,与Wi2进行点乘,以突出Wi2中的关键信息,得到的结果与Pooli进行相加,实现跳连接,获得结果Yi∈R512。
将获取到的Yi进行拼接,得到Y∈R512×7,与刚才对Vi操作的操作类似,最后得到特征向量Z∈R512。
步骤3:目标位置预测分析。在单摄像头多目标跟踪中,使用卡尔曼滤波算法,由常量速度模型和线性观测模型对目标位置进行预测和更新,其中预测公式如下:
x’=Fx
P’=FPFT+Q
其中x为上一帧时刻目标的均值,用8维向量所刻画,分别表示目标位置框中心坐标、宽高比、高度以及在图像坐标中对应的速度信息,x’为目标所预测的当前帧时刻均值,初始化第一帧的均值时,由于没有前一帧,其(m,n,r,h)设置为第一帧目标位置信息,所对应的速度初始化为0,F表示状态转移矩阵。P为上一帧时刻目标的协方差,用于表示目标位置信息的不确定程度,用8×8的对角矩阵所刻画,矩阵的值越大,代表不确定性越高。Q为运动估计误差。
更新公式如下:
x″=x’+K(z-Hx’)
P″=(I-KH)P’
其中H为维度4×8的状态变量到检测变量的转换矩阵,R为检测噪声协方差,z为目标位置检测框,x″为目标更新后的均值,P″为目标更新后的协方差。目标更新后的均值和协方差用于预测目标下一帧的运动位置。
步骤4:单摄像头多目标跟踪。在单摄像头多目标跟踪中,通过计算检测器与追踪器之间特征向量的余弦距离,获得初次跟踪的代价矩阵后,分别通过类别、颜色、运动信息以及最大阈值对代价矩阵进行约束。二次跟踪步骤与之类似。具体而言,代价矩阵用Cost∈RM*N所表示,其中M代表M个检测器,N代表N个追踪器,代价矩阵中元素ci,j表示第i个检测器与第,个跟踪器之间特征向量的余弦距离。
在对代价矩阵进行约束时,首先判断第i个检测器与第,个追踪器的类别或颜色是否一致,若不一致,则将对应的ci,j设置为无穷大(实际工作中设置为1×106,下同)。
之后计算第i个检测器的位置与第,个追踪器的预测位置之间的马氏距离di,j,公式如下:
di,j=(di-sj)TVj -1(di-sj)
其中,di表示第i个检测框的位置,sj表示第j个追踪器的预测位置,Vj表示检测位置与追踪预测位置之间的协方差矩阵。
当求出第i个检测器与第j个跟踪器之间的马氏距离时,判断此马氏距离是否大于自定义的最大马氏距离阈值,若大于,则将对应的ci,j设置为无穷大,实现运动信息的约束。
最后判断ci,j是否大于自定义的最大余弦距离阈值,若大于,则将对应的ci,j设置为无穷大。
根据以上步骤,即对代价矩阵进行了约束,减少不相关目标之间的匹配。
步骤5:跨摄像头多目标跟踪。在跨摄像头多目标跟踪中,关联方式与单摄像头多目标跟踪类似,同样是构建代价矩阵,对代价矩阵进行约束以及采用匈牙利算法对代价矩阵进行关联,得到匹配结果。但由于跨摄像头的情况要比单摄像头更为复杂,因而单摄像头下的约束条件在跨摄像头中不再使用。本发明针对跨摄像头情况设计了不同的约束条件,具体如下:首先利用目标的属性信息作为约束条件,包含类别和颜色,若目标之间的属性不一致,则必定不是同一个目标,无需再进行匹配,实现属性约束。其次利用多个摄像头之间的空间拓扑位置作为先验知识,将多个摄像头进行编号,在对目标进行单摄像头跟踪时,通过目标在单摄像头下的运动轨迹估计其运动方向,并判断其进入当前摄像头之前出现的上一个摄像头编号,以及其离开当前摄像头之后进入的下一个摄像头编号,即此目标从哪里来,到哪里去。在进行跨摄像头匹配时,通过检测器与跟踪器的空间运动状态对代价矩阵进行约束,具体来说,假设一个检测器位于2号摄像头,首先判断检测器从哪里来,即获取其所在的上一个摄像头编号,假设为1号,然后进行第一次位置约束,仅将此检测器与位于1号摄像头的跟踪器进行匹配;而位于1号摄像头的跟踪器有的可能去往2号摄像头,有的可能去往其他摄像头,此时进行第二次约束,即此检测器仅与位于1号摄像头,且去往2号摄像头的追踪器进行匹配,进一步缩减了匹配范围,实现空间约束。之后利用目标的运动时间信息进行约束,通过前后帧目标中心点的位置变化与每帧时长预估目标的运动速度,比较后获取到目标在当前摄像头下的最小速度,并计算当前摄像头位置与目标去往的下一个摄像头位置之间的距离,通过摄像头之间距离与最小速度即可得出目标从当前摄像头到达下一个摄像头的最大时长。因而在实际匹配中,需要判断检测器与追踪器之间的时间间隔,若此时间间隔大于最大时长,说明不是同一个目标,则无需进行匹配,实现时间约束。最后利用目标之间的相似度进行约束,若检测器与追踪器之间的余弦距离大于指定最大阈值,则说明目标之间的差异较大,相似度较低,说明不是同一个目标,不再进行匹配,实现进一步约束。
具体实现中,本申请提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种多元信息匹配的无人系统跨摄像头多目标跟踪方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机。MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明提供了一种多元信息匹配的无人系统跨摄像头多目标跟踪方法的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (10)
1.一种多元信息匹配的无人系统跨摄像头多目标跟踪方法,其特征在于,包括:目标检测模块、特征提取模块、颜色识别模块、单摄像头多目标跟踪模块和跨摄像头多目标融合模块;其中目标检测模块用于目标检测,特征提取模块用于目标特征提取,颜色识别模块用于目标颜色提取,单摄像头多目标跟踪模块用于得到单摄像头多目标跟踪结果,跨摄像头多目标融合模块用于完成跨摄像头多目标跟踪;
所述五个模块执行以下步骤:
步骤1,目标检测;基于深度学习方法建立目标检测模型获取单摄像头中所有目标在图像中的位置和类别;
步骤2,目标颜色提取;对所有经过步骤1检测得到的目标进行遍历,使用图像处理方法识别目标的外观颜色;
步骤3,目标特征提取;对所有经过步骤1检测得到的目标进行遍历,采用ResNet18网络结构作为骨干网络,对目标多元特征进行提取;
步骤4,目标位置预测分析;使用卡尔曼滤波算法,由常量速度模型和线性观测模型对目标位置进行预测和更新;
步骤5,多目标跟踪;利用外观特征信息、位置信息以及多维度约束对目标进行单摄像头下的多目标跟踪;得到单摄像头多目标跟踪结果;
步骤6,跨摄像头多目标跟踪;每间隔设定时间将每个摄像头的单摄像头多目标跟踪结果发送到跨摄像头多目标融合模块,利用外观特征信息以及属性约束、摄像头空间拓扑约束、目标运动时间约束、最大相似度阈值约束的多元信息对目标进行匹配,完成跨摄像头多目标跟踪。
2.根据权利要求1所述的一种多元信息匹配的无人系统跨摄像头多目标跟踪方法,其特征在于,步骤1中所述目标检测的方法包括:
使用YOLOv5作为目标检测模型,检测出目标的位置和类别;得到目标的位置和类别后,采取非极大值抑制算法获取检测结果,完成目标检测。
3.根据权利要求2所述的一种多元信息匹配的无人系统跨摄像头多目标跟踪方法,其特征在于,步骤2中所述目标颜色提取的方法包括:
使用图像处理方法识别目标颜色,将目标所在图像区域由RGB空间转化为HSV空间;统计各个颜色的所占像素,通过比较,得到占用最多区域的颜色种类,该颜色即识别为目标的颜色。
4.根据权利要求3所述的一种多元信息匹配的无人系统跨摄像头多目标跟踪方法,其特征在于,步骤3中所述目标特征提取的方法包括:
构建特征提取网络进行目标特征提取;所述特征提取网络采用ResNet18网络结构作为骨干网络;包括17个卷积层和一个全连接层。
5.根据权利要求4所述的一种多元信息匹配的无人系统跨摄像头多目标跟踪方法,其特征在于,步骤3中所述目标特征提取的方法包括:
步骤3-1,使用特征提取网络中的最后一个卷积层Conv17的输出U∈R512×7×7作为所述特征提取模块中的注意力融合池模块的输入,其中,R512×7×7表示目标特征矩阵;
步骤3-2,将注意力融合池模块的输入U划分为7块,每块用Vi1∈R512×7,i1∈(1,7)表示,其中i1表示第i1块;
步骤3-3,将每块Vi1分别经过一个最大池化层和一个全连接层分别得到输出Pooli1和Wi1,公式如下:
Pooli1=max(Vi1)∈R512
Wi1=FC(Vi1)∈R512×2
其中,max(Vi1)表示区域目标特征最大向量矩阵,FC(Vi1)表示连接层矩阵元素;
步骤3-4,将每个输出Wi1按照分行提取的方式划分为Wi11和Wi12两个部分,将Wi11经过Sigmoid函数生成权重信息,与Wi12进行点乘,得到的结果与Pooli1进行相加,实现跳连接,获得结果Yi1∈R512;
步骤3-5,将获取到的结果Yi1进行拼接,得到Y∈R512×7;
步骤3-6,对7块Vi1进行相同的拼接操作,最后得到特征向量Z∈R512。
6.根据权利要求5所述的一种多元信息匹配的无人系统跨摄像头多目标跟踪方法,其特征在于,步骤4中所述目标位置预测分析的方法包括:
使用卡尔曼滤波算法,由常量速度模型和线性观测模型对目标位置进行预测和更新;
其中预测公式如下:
x’=Fx
P’=FPFT+Q
其中,x为上一帧时刻目标的均值,用8维向量刻画,其中,m和n表示目标位置框中心坐标,r为宽高比、h为高度,/>为图像坐标中对应的m,n,r,h的速度信息,x’为目标所预测的当前帧时刻均值,F表示状态转移矩阵;P为上一帧时刻目标的协方差,用于表示目标位置信息的不确定程度,用8×8的对角矩阵刻画,Q为运动估计误差,P’表示当前时刻目标的协方差;
更新公式如下:
x″=x’+K(z-Hx’)
P″=(I-KH)P’
其中,H为维度4×8的状态变量到检测变量的转换矩阵,R为检测噪声协方差,z为目标位置检测框,x″为目标更新后的均值,P″为目标更新后的协方差;目标更新后的均值和目标更新后的协方差用于预测目标下一帧的运动位置。
7.根据权利要求6所述的一种多元信息匹配的无人系统跨摄像头多目标跟踪方法,其特征在于,步骤5中所述的对目标进行单摄像头下的多目标跟踪,具体方法包括:
将当前帧中的目标作为检测器,将以往帧中的目标作为跟踪器;在跟踪过程即检测器与跟踪器的匹配过程中,记录所有跟踪器的跟踪状态,若某个跟踪器超过阈值时间未匹配,则将此跟踪器标记为删除状态;检测器只与处于未删除状态的跟踪器进行关联匹配;匹配方法包括:
采用两次匹配;其中,第一次匹配利用检测器和跟踪器特征向量之间的余弦距离作为相似性度量准则,第二次匹配利用检测器位置与跟踪器预测位置之间的广义交并比作为相似性度量准则;
首先通过相似性度量准则,构建一个代价矩阵;其次利用类别信息、颜色信息、运动信息以及相似度最大阈值对代价矩阵进行约束;最后使用一种二分图匹配算法,即匈牙利匹配对代价矩阵进行关联匹配,完成单摄像头多目标跟踪。
8.根据权利要求7所述的一种多元信息匹配的无人系统跨摄像头多目标跟踪方法,其特征在于,步骤5中所述多目标跟踪的方法包括:
通过计算检测器与追踪器之间特征向量的余弦距离,获得初次跟踪的代价矩阵后,分别通过类别、颜色、运动信息以及最大阈值对代价矩阵进行约束;二次跟踪步骤与初次跟踪类似;
所述对代价矩阵进行约束的方法包括:
步骤5-1,代价矩阵用Cost∈RM*N所表示,其中M代表M个检测器,N代表N个追踪器,代价矩阵中元素ci,j表示第i个检测器与第j个跟踪器之间特征向量的余弦距离;
步骤5-2,对代价矩阵进行约束;首先判断第i个检测器与第j个追踪器的类别或颜色是否一致,若不一致,则将对应的ci,j设置为无穷大;
步骤5-3,计算第i个检测器的位置与第j个追踪器的预测位置之间的马氏距离di,j,公式如下:
di,j=(di-sj)TVj -1(di-sj)
其中,di表示第i个检测框的位置,sj表示第j个追踪器的预测位置,Vj表示检测位置与追踪预测位置之间的协方差矩阵;
步骤5-4,计算得到第i个检测器与第j个跟踪器之间的马氏距离时,判断所述马氏距离是否大于阈值;若大于阈值,则将对应的ci,j设置为无穷大,完成运动信息的约束;
步骤5-5,判断ci,j是否大于阈值;若大于,则将对应的ci,j设置为无穷大。
9.根据权利要求8所述的一种多元信息匹配的无人系统跨摄像头多目标跟踪方法,其特征在于,步骤6中所述跨摄像头多目标融合模块用于关联不同摄像头之间的相同目标,将相同目标赋予同一个标识ID;
对于所述设定时间间隔内的目标信息,首先将目标与先前匹配结果进行比对,若已经匹配,则将目标标识修改为匹配后的标识;若为先前未匹配过的目标,则将不同摄像头之间的目标通过特征向量计算余弦距离得到代价矩阵,接着利用目标属性信息、摄像头之间的空间拓扑信息以及目标运动的时间信息对代价矩阵进行约束,之后采取匈牙利匹配算法关联不同摄像头下的目标,并记录匹配结果,用于下次跨摄像头目标跟踪。
10.根据权利要求9所述的一种多元信息匹配的无人系统跨摄像头多目标跟踪方法,其特征在于,步骤5中所述多维度约束包括:属性约束、运动信息约束和最大相似度阈值约束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310204927.6A CN116363694A (zh) | 2023-03-03 | 2023-03-03 | 一种多元信息匹配的无人系统跨摄像头多目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310204927.6A CN116363694A (zh) | 2023-03-03 | 2023-03-03 | 一种多元信息匹配的无人系统跨摄像头多目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116363694A true CN116363694A (zh) | 2023-06-30 |
Family
ID=86940700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310204927.6A Pending CN116363694A (zh) | 2023-03-03 | 2023-03-03 | 一种多元信息匹配的无人系统跨摄像头多目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116363694A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117241133A (zh) * | 2023-11-13 | 2023-12-15 | 武汉益模科技股份有限公司 | 基于非固定位置的多工序同时作业的视觉报工方法及系统 |
CN117475135A (zh) * | 2023-10-30 | 2024-01-30 | 北京中电联达信息技术有限公司 | 一种目标图像识别和稳定跟踪方法与系统 |
CN117576146A (zh) * | 2023-11-09 | 2024-02-20 | 中国矿业大学(北京) | 建筑内多路摄像机跨视域行人轨迹还原方法和系统 |
-
2023
- 2023-03-03 CN CN202310204927.6A patent/CN116363694A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475135A (zh) * | 2023-10-30 | 2024-01-30 | 北京中电联达信息技术有限公司 | 一种目标图像识别和稳定跟踪方法与系统 |
CN117576146A (zh) * | 2023-11-09 | 2024-02-20 | 中国矿业大学(北京) | 建筑内多路摄像机跨视域行人轨迹还原方法和系统 |
CN117576146B (zh) * | 2023-11-09 | 2024-05-10 | 中国矿业大学(北京) | 建筑内多路摄像机跨视域行人轨迹还原方法和系统 |
CN117241133A (zh) * | 2023-11-13 | 2023-12-15 | 武汉益模科技股份有限公司 | 基于非固定位置的多工序同时作业的视觉报工方法及系统 |
CN117241133B (zh) * | 2023-11-13 | 2024-02-06 | 武汉益模科技股份有限公司 | 基于非固定位置的多工序同时作业的视觉报工方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Multiobject tracking by submodular optimization | |
Maddalena et al. | A self-organizing approach to background subtraction for visual surveillance applications | |
CN116363694A (zh) | 一种多元信息匹配的无人系统跨摄像头多目标跟踪方法 | |
CN112836640B (zh) | 一种单摄像头多目标行人跟踪方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
WO2008070206A2 (en) | A seamless tracking framework using hierarchical tracklet association | |
CN111882586B (zh) | 一种面向剧场环境的多演员目标跟踪方法 | |
CN110781790A (zh) | 基于卷积神经网络与vlad的视觉slam闭环检测方法 | |
CN110399835B (zh) | 一种人员停留时间的分析方法、装置及系统 | |
CN112884742A (zh) | 一种基于多算法融合的多目标实时检测、识别及跟踪方法 | |
Denman et al. | Multi-spectral fusion for surveillance systems | |
CN113159466A (zh) | 一种短时光伏发电功率预测系统及方法 | |
Cao et al. | Correlation-based tracking of multiple targets with hierarchical layered structure | |
CN109271927A (zh) | 一种空基多平台的协同监视方法 | |
Kim et al. | AIBM: Accurate and instant background modeling for moving object detection | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
Wang et al. | Anchor free network for multi-scale face detection | |
Al Najjar et al. | A hybrid adaptive scheme based on selective Gaussian modeling for real-time object detection | |
Wu et al. | Video crowd counting via dynamic temporal modeling | |
Liu et al. | [Retracted] Mean Shift Fusion Color Histogram Algorithm for Nonrigid Complex Target Tracking in Sports Video | |
Sun et al. | Multiple object tracking for yellow feather broilers based on foreground detection and deep learning. | |
WO2023039331A1 (en) | Object detection systems and methods including an object detection model using a tailored training dataset | |
Hashmi et al. | GAIT analysis: 3D pose estimation and prediction in defence applications using pattern recognition | |
Mathias et al. | Tracking of underwater objects with occlusion awareness using an adaptive DEEP SORT and GMM approach | |
Franchi et al. | Tracking hundreds of people in densely crowded scenes with particle filtering supervising deep convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |