CN117496401A - 一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法 - Google Patents
一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法 Download PDFInfo
- Publication number
- CN117496401A CN117496401A CN202311430448.2A CN202311430448A CN117496401A CN 117496401 A CN117496401 A CN 117496401A CN 202311430448 A CN202311430448 A CN 202311430448A CN 117496401 A CN117496401 A CN 117496401A
- Authority
- CN
- China
- Prior art keywords
- target
- ellipse
- tracking
- frame
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000005259 measurement Methods 0.000 title claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 25
- 238000001914 filtration Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000006872 improvement Effects 0.000 claims description 7
- 238000003708 edge detection Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000001627 detrimental effect Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 230000003121 nonmonotonic effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 7
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 206010034719 Personality change Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及视频测量技术领域,具体地说是一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法,通过Tracking‑by‑detection(TBD)多目标跟踪算法框架在自动化、准确性、多目标跟踪能力、自适应特征提取、实时性和鲁棒性方面具有的明显优势,实现对高速视频测量中椭圆形目标点的全自动化精确跟踪和定位,克服了传统方法在复杂情况下的局限性,为高速视频测量提供了更便捷和可靠的解决方案。
Description
技术领域
本发明涉及视频测量技术领域,具体地说是一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法。
背景技术
高速视频测量是一种高效、低成本的工程方法,通过图像采集和处理对物体的位置、速度、加速度、形变等参数进行精确的测量和分析。由于其高精度、非接触性、无损伤性,它在土木工程、环境科学和工业检测等领域得到了广泛的应用。
为了获取建筑或构筑物关键位置点的准确动态响应数据,通常需要在这些位置布设目标点。其中圆形标志因其具有旋转不变性,常被作为特征标志使用。而在摄影时,由于存在一定的摄影角度,圆形标志在成像后将会呈现出具有5个自由度的椭圆形式。与仅有2个自由度的线或点相比,这种椭圆形式具有更强的稳健性。因此在摄影测量领域和计算机视觉领域,圆形标志已经广泛应用。通过高速相机对建筑或构筑物健康监测,会产生大量的影像序列数据。因此,如何快速准确地识别和跟踪这些影像序列中的椭圆形目标点对于数据处理效率和目标点的三维解算精度具有重要意义,直接影响着数据处理的效率以及目标点三维解算的精确性。
现有技术中,对于传统的椭圆形目标点识别算法需要操作员手动设定搜索区域,并且仅利用浅层图像信息如纹理、边缘和灰度处理等,这样容易受到背景和光照条件的影响,可能将非目标圆形物体错误地识别为图像中的标记。而深度学习方法具有同时检测浅层和深层特征的优势,包括单阶段和两阶段两大类,如R-CNN、fast R-CNN和faster R-CNN以及单阶段的YOLO系列,通过一个神经网络直接预测目标的位置和类别,但在实际的高速视频测量中,其仍旧收到各种复杂环境条件的影响。再者,基于影像块的模板匹配法能在海量影像序列数据中实现目标快速跟踪。但这种方法需要综合被测物体移动速度、跟踪点标志的大小、高速相机分辨率的大小和视角大小等因素来人工设置影像块大小,并且当目标出现外观尺度变化、位置变化、姿态变化和遮挡等复杂情况时往往效果欠佳。
因此,需要设计一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法,通过Tracking-by-detection(TBD)多目标跟踪算法框架在自动化、准确性、多目标跟踪能力、自适应特征提取、实时性和鲁棒性方面具有的明显优势,实现对高速视频测量中椭圆形目标点的全自动化精确跟踪和定位,克服了传统方法在复杂情况下的局限性,为高速视频测量提供了更便捷和可靠的解决方案。
发明内容
本发明旨在改善现有技术的缺陷,并提供一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法,通过Tracking-by-detection(TBD)多目标跟踪算法框架在自动化、准确性、多目标跟踪能力、自适应特征提取、实时性和鲁棒性方面具有的明显优势,实现对高速视频测量中椭圆形目标点的全自动化精确跟踪和定位,克服了传统方法在复杂情况下的局限性,为高速视频测量提供了更便捷和可靠的解决方案。
为了实现上述目的,本发明提供了一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法:
包括以下步骤:
S1,针对室内、室外、暗环境、小目标以及环形干扰等复杂环境,对YOLOv8进行了一系列改进,旨在提升模型的整体性能和泛化能力;并使用改进后的YOLOv8算法对每一帧图像中的圆形标记进行检测;
S2,基于TBD的多目标跟踪框架,通过卡尔曼滤波和匈牙利匹配算法来预测、匹配并关联上一步中检测结果,实现对标记的连续跟踪;
S3,将数学形态学和椭圆几何属性特征应用于跟踪结果集成,通过消除图像边缘检测的非椭圆边缘信息提取出椭圆轮廓,并采用最小二乘法拟合椭圆中心,实现对椭圆目标的亚像素级别定位。
S1具体包括:
S1-1,加入Bi-Level Routing Attention即BRA,在粗糙区域级别过滤掉大部分不相关的键值对,只保留小部分路由区域,在路由区域的联合中应用细粒度的token-to-token注意力,用于实现更灵活的计算分配和内容感知,使其具备动态的查询感知稀疏性;
S1-2,通过实验的基础在YOLOv8的三个最佳位置将BRA结构加入颈部,进一步提升检测性能和特征表达能力;
S1-3,选择Wise-IoU v3损失函数来代替YOLOv8中原本的CIoU损失函数,公式为:
RWIoU∈[1,e)将显着放大普通质量锚框的LIoU,LIoU∈[0,1]将显着降低高质量锚框的RWIoU,并且当锚框与目标框重合良好时,其重点关注中心点之间的距离;Wg,Hg是最小封闭区域的尺寸;为了防止RWIoU产生阻碍收敛的梯度,Wg,Hg与计算图分离即通过上标*表示;
锚框的离群程度用LIoU与动量为m的指数移动平均数的比值来表征:
其中,离群值小意味着锚框质量高,为其分配一个小的梯度增益,用于将BBR集中在普通质量的锚框上;为离群值较大的锚框分配较小的梯度增益将有效防止较大的有害梯度来自低质量的样本;构造一个非单调聚焦系数β并将其应用于WIoU v1:
其中,α,δ是超参数,δ在β=δ时使得r=1;由于是动态的,锚框的质量划分标准也是动态的,这让Wise-IoU v3能够在每一个时刻做出最符合当前情况的梯度增益分配策略。
S2具体包括:
S2-1,初始化:初始帧的检测结果即边界框集合为B1,目标跟踪器集合为T,对于每个检测到的边界框bi∈B1创建一个新的目标跟踪器ti∈T,并初始化跟踪器的状态向量xi和协方差矩阵Pi,使用初始边界框的位置和速度作为初始状态;
S2-2,对于每个后续帧:第t帧的检测结果即边界框集合为Bt,目标跟踪器集合T一直在更新,对于每个目标跟踪器ti∈T,使用卡尔曼滤波的预测步骤,更新目标的状态向量x′i和协方差矩阵P′i,公式为:
xi是目标跟踪器ti的状态向量,Pi是协方差矩阵,F是状态转移矩阵,Q是过程噪声协方差矩阵;在目标跟踪任务中,目标的状态变量表示为x,y,a,h,vx,vy,va,vh,其中x,y表示目标框的中心坐标,a表示目标框的高宽比,h表示目标框的高,vx,vy,va,vh分别表示对应变量的速度;
构建关联矩阵C,其中C[i,j]表示目标跟踪器ti与边界框bj之间的IoU;使用匈牙利算法从关联矩阵C中选择最佳的关联关系R,使得关联的总体成本最小化;匈牙利算法根据IoU计算目标与边界框之间的相似度,对于每个关联对(i,j)∈R,使用卡尔曼滤波的更新步骤,更新目标跟踪器的状态向量和协方差矩阵,公式如下:
zi是当前帧中对应的观测值即边界框的位置,H是观测矩阵,R是观测噪声协方差矩阵;
对于未关联的目标跟踪器ti∈T,标记目标跟踪器为丢失状态并移除;对于新检测到的边界框bj∈Bt,创建一个新的目标跟踪器tj,并初始化其状态向量和协方差矩阵。
S3具体包括:
通过数学形态学和椭圆几何属性特征,对椭圆目标的亚像素级别定位,具体步骤为:
S3-1,影像块图像增强与边缘检测:采用二维离散零均值高斯函数进行图像处理消除图像中的噪声并增强影像块的对比度;经过二维离散零均值高斯函数处理后的图像块应用Sobel算子来检测边缘信息,以便后续的分析和处理;二维离散零均值高斯函数消除噪声计算方法为:
g(d)=exp(-d2/2δ2);
d表示影像点到影像中心点像素距离;δ表示高斯分布参数决定高斯函数的宽度;
S3-2,椭圆几何特征:采用边缘周长、区域面积和圆形度3个椭圆几何属性,并结合数学形态学即可提取类椭圆边缘特征,具体步骤为:
S3-2-1,椭圆边缘周长是累计边缘要素相邻像素中心点的欧氏距离,用L来表示,设d表示欧几里得距离,则d(fi,j,fm,n)表示相邻像素fi,j和fm,n的欧几里得距离,公式为:
获取由形态学边缘检测的影像块中的每个边缘要素的周长,通过设置阈值边缘要素周长最小值Lmin和最大值Lmax,并根据Lmin<L<Lmax周长大于Lmax和小于Lmin的边缘要素将会被删除;
S3-2-2,对于检测出来的影像块中的边缘要素,只有连通的边缘要素才有面积属性,去除非连通的边缘要素,然后填充连通的边缘要素,得到影像块中边缘要素的面积集合;设Smin和Smax分别是面积阈值的最小值和最大值,则通过Smin<S<Smax消除不符合要求的边缘要素;
S3-2-3,圆形度C是反映一个椭圆接近圆形的程度的指标,值的范围属于[0,1],其值越接近于1,表明椭圆越接近于圆形;公式如下:
C=4πS/L2;
S3-3,类椭圆中心点拟合:获得影像块中椭圆形边缘后对椭圆圆心的亚像素定位;采用最优化的最小二乘法计算影像块中椭圆跟踪点的中心点坐标;设(xc,yc)表示椭圆的圆心坐标,a和b分别表示椭圆的长半轴和短半轴,M=[(x1,y1),(x2,y2),…,(xn,yn)]表示椭圆边缘的像素集合,则建立均方根误差方程:
椭圆中心坐标设置为和/>
椭圆初始长半轴和短半轴分别设置为和
根据公式采用非线性最优化Levenberg-Marquardt方法进行非递归搜索,计算椭圆圆心(xc,yc),以达到亚像素精度。
本发明同现有技术相比,具备以下有益效果:
(1)改进YOLOv8模型,显著提高了复杂环境下的检测精度,实现自动检测椭圆形目标点,提高检测效率。
(2)所引入的TBD跟踪方法可以无需人工设置影像块大小,可以对每一帧的检测结果高效的匹配和关联,实现对标记的连续跟踪。当目标面临外观尺度变化、位置变化、姿态变化和遮挡等复杂情况时,也能保证跟踪的准确性。
(3)所提出的整个算法流程实现了椭圆形目标点识别和跟踪的全自动化,在保证精度的前提下显著提高了效率,为后续的三维点解算提供了更高效、鲁棒的解决方案。
附图说明
图1为本发明的整体流程示意图。
图2为本发明改进后的YOLOv8颈部结构示意图。
具体实施方式
现结合附图对本发明做进一步描述。
如图1~图2,本发明提供一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法,整个工作流程包括以下关键步骤:
(1)运用改进的YOLOv8识别椭圆形目标点;
(2)利用卡尔曼滤波和匈牙利匹配算法匹配和关联检测结果,实现对标记的连续跟踪;
(3)对于跟踪的结果进行一系列处理提取椭圆轮廓,并采用最小二乘法拟合椭圆中心,实现亚像素级别定位。
(1)改进的YOLOv8模型:
为了实现椭圆形目标点的自动化识别并提高识别精度,我们选择采用深度学习方法替代传统方法。在我们的数据集中,涵盖了多种复杂场景,包括室内、室外、暗环境、小目标以及环形干扰等。为了应对这些具有挑战性的场景,我们对YOLOv8进行了一系列改进,旨在提升模型的整体性能和泛化能力。通过这些改进,能够在各种复杂场景下实现高度自动化的椭圆形目标点识别,并提高识别的准确性。
①加入Bi-Level Routing Attention(BRA)
多头自注意力机制(Multi-Head Self-Attention,MHSA)在目标检测中具有多个优势。它能全面建模输入特征之间的全局关联性,提高检测性能。通过多头机制,模型可以学习不同的特征表示,增强对不同目标尺度、形状和上下文的建模能力。MHSA能够跨不同尺度进行自注意力计算,捕捉目标的跨尺度语义关联。此外,它能自适应地选择重要特征,减少冗余特征的干扰,提高模型的鲁棒性和准确性。
Bi-Level Routing Attention(BRA)是基于MHSA改进的一种具有双层路由的动态稀疏注意力,其关键思想是在粗糙区域级别过滤掉大部分不相关的键值对,以便只保留小部分路由区域。其次,在这些路由区域的联合中应用细粒度的token-to-token注意力。它在保留MHSA种种优势的同时,实现更灵活的计算分配和内容感知,使其具备动态的查询感知稀疏性。
颈部是YOLO目标检测模型中的重要组成部分,位于主干网络和检测头部之间。它的主要功能是进行特征融合和调整,以提高模型在目标检测任务中的准确性和鲁棒性。
为了进一步提升检测性能和特征表达能力,我们在YOLOv8的颈部引入了BRA结构。在经过大量实验的基础上,我们选择了三个最佳位置将BRA加入颈部,这对于椭圆形目标点尤其是小型目标的识别精度有显著的提升效果。
②引入Wise-IoU v3边界框回归损失函数
边界框回归(Bounding Box Regression,BBR)的损失函数对目标检测至关重要,它的良好定义将为模型带来显著的性能改进。在目标检测任务中,边界框回归用于校正生成的候选框,以更准确地匹配目标的位置和大小,它的目标是学习一个映射函数,将生成的候选框调整为更接近目标的真实边界框。IoU(Intersection over Union)是目标检测中常用的评估指标,用于衡量检测结果与真实边界框之间的重叠程度,其对应的损失函数公式表示为:
随着目标检测算法的发展,各种基于IoU的改进和变体方法也相继提出,旨在提供更准确、更全面的重叠度量,如:GIoU、DIoU和CIoU等。然而,现有的大多数工作都假设训练数据中的示例是高质量的,并侧重于加强BBR损失的拟合能力。如果我们盲目地在低质量的例子上加强BBR,将会损害本地化性能。一个好的损失函数应该在锚框与目标框重合良好时削弱几何因素的惩罚,并且较少的训练干预将使模型获得更好的泛化能力,因此我们选择Wise-IoU v3损失函数来代替YOLOv8中原本的CIoU损失函数。
Wise-IoU v1损失函数公式为:
其中,RWIoU∈[1,e)这将显着放大普通质量锚框的LIoU,LIoU∈[0,1]将显着降低高质量锚框的RWIoU,并且当锚框与目标框重合良好时,其重点关注中心点之间的距离。Wg,Hg是最小封闭区域的尺寸。为了防止RWIoU产生阻碍收敛的梯度,Wg,Hg与计算图分离(上标*表示该操作)。
锚框的离群程度用LIoU与动量为m的指数移动平均数的比值来表征:
离群值小意味着锚框质量高,为其分配一个小的梯度增益,以便将BBR集中在普通质量的锚框上。此外,为离群值较大的锚框分配较小的梯度增益将有效防止较大的有害梯度来自低质量的样本。因此,构造一个非单调聚焦系数β并将其应用于WIoU v1:
其中,α,δ是超参数,δ在β=δ时使得r=1。由于是动态的,所以锚框的质量划分标准也是动态的,这让Wise-IoU v3能够在每一个时刻做出最符合当前情况的梯度增益分配策略。
(2)多目标跟踪
目前高速视频测量中常用的椭圆形目标点跟踪算法是基于影像块的模板匹配法。它可以快速跟踪目标,并适用于处理大量的影像序列数据。然而,该方法在设置影像块大小时需要考虑多个因素,如被测物体的移动速度、跟踪点标志的大小、高速相机的分辨率和视角大小等。此外,当目标面临外观尺度变化、位置变化、姿态变化和遮挡等复杂情况时,该方法的表现通常不理想。
因此本研究设计了一个基于Tracking-by-detection(TBD)的多目标跟踪框架。我们使用改进的YOLOv8算法对每一帧图像中的圆形标记进行检测,然后通过卡尔曼滤波和匈牙利匹配算法来匹配和关联检测结果,实现对标记的连续跟踪。
具体实现步骤如下:
1)初始化:
初始帧的检测结果(边界框)集合为B1,目标跟踪器集合为T,对于每个检测到的边界框bi∈B1创建一个新的目标跟踪器ti∈T,并初始化跟踪器的状态向量xi和协方差矩阵Pi,可以使用初始边界框的位置和速度作为初始状态。
2)对于每个后续帧:
第t帧的检测结果(边界框)集合为Bt,目标跟踪器集合T一直在更新,对于每个目标跟踪器ti∈T,使用卡尔曼滤波的预测步骤,更新目标的状态向量x′i和协方差矩阵P′i。其公式为:
其中,xi是目标跟踪器ti的状态向量,Pi是协方差矩阵,F是状态转移矩阵,Q是过程噪声协方差矩阵。在目标跟踪任务中,目标的状态变量表示为x,y,a,h,vx,vy,va,vh,其中x,y表示目标框的中心坐标,a表示目标框的高宽比,h表示目标框的高,vx,vy,va,vh分别表示对应变量的速度。
构建关联矩阵C,其中C[i,j]表示目标跟踪器ti与边界框bj之间的IoU。使用匈牙利算法从关联矩阵C中选择最佳的关联关系R,使得关联的总体成本最小化。匈牙利算法根据IoU计算目标与边界框之间的相似度,对于每个关联对(i,j)∈R,使用卡尔曼滤波的更新步骤,更新目标跟踪器的状态向量和协方差矩阵,公式如下:
其中,zi是当前帧中对应的观测值(边界框的位置),H是观测矩阵,R是观测噪声协方差矩阵。
对于未关联的目标跟踪器ti∈T,标记目标跟踪器为丢失状态并移除。对于新检测到的边界框bj∈Bt,创建一个新的目标跟踪器tj,并初始化其状态向量和协方差矩阵。
(3)亚像素定位
准确地提取影像序列中的椭圆形目标点对于后续过程中目标点的三维解算精度具有重要意义,而前两个步骤识别跟踪只是得到全序列包含圆形标记的影像块,并未获取其圆心的精确点位。因此,本研究应用数学形态学和椭圆几何属性特征,实现了对椭圆目标的亚像素级别定位。
①影像块图像增强与边缘检测
在视频测量中,由于高速相机曝光时间较短,影像序列的成像质量较差。为了提高边缘检测的精度,我们可以采用二维离散零均值高斯函数进行图像处理,其目的是消除图像中的噪声并增强影像块的对比度。经过二维离散零均值高斯函数处理后的图像块可以应用Sobel算子来检测边缘信息,以便后续的分析和处理。
二维离散零均值高斯函数消除噪声计算方法为:
g(d)=exp(-d2/2δ2) (7)
式中,d表示影像点到影像中心点像素距离;δ表示高斯分布参数,它决定高斯函数的宽度。
②椭圆几何特征
本文提取的每个影像块中仅包含一个类椭圆标志,且与背景信息对比较为明显,因此,采用边缘周长、区域面积和圆形度3个椭圆几何属性,并结合数学形态学即可提取类椭圆边缘特征。具体实现方法和步骤如下:
1)椭圆边缘周长是累计边缘要素相邻像素中心点的欧氏距离,用L来表示,设d表示欧几里得距离,则d(fi,j,fm,n)表示相邻像素fi,j和fm,n的欧几里得距离,其可以用公式表示:
我们可以获取由形态学边缘检测的影像块中的每个边缘要素的周长,通过设置阈值边缘要素周长最小值Lmin和最大值Lmax,根据Lmin<L<Lmax周长大于Lmax和小于Lmin的边缘要素将会被删除。
2)对于检测出来的影像块中的边缘要素,只有连通的边缘要素才有面积属性,去除非连通的边缘要素,然后填充连通的边缘要素,得到影像块中边缘要素的面积集合。设Smin和Smax分别是面积阈值的最小值和最大值,则可以通过公式Smin<S<Smax消除不符合要求的边缘要素。
3)圆形度C是反映一个椭圆接近圆形的程度的指标,值的范围属于[0,1],其值越接近于1,表明椭圆越接近于圆形。最常用的表示圆形度指标的公式如下:
C=4πS/L2 (9)
③类椭圆中心点拟合
获得影像块中椭圆形边缘后,接下来需要完成的任务是椭圆圆心的亚像素定位,本研究采用最优化的最小二乘法计算影像块中椭圆跟踪点的中心点坐标。设(xc,yc)表示椭圆的圆心坐标,a和b分别表示椭圆的长半轴和短半轴,M=[(x1,y1),(x2,y2),…,(xn,yn)]表示椭圆边缘的像素集合,则可以建立均方根误差方程:
椭圆中心坐标设置为和/>椭圆初始长半轴和短半轴分别设置为/>和/>最后根据公式(10)采用非线性最优化Levenberg-Marquardt方法进行非递归搜索,计算椭圆圆心(xc,yc),以达到亚像素精度。
以上仅是本发明的优选实施方式,只是用于帮助理解本申请的方法及其核心思想,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
本发明从整体上解决了现有技术中复杂情况下的局限性,通过卡尔曼滤波和匈牙利匹配算法,实现了对标记的连续跟踪,同时应用数学形态学和椭圆几何属性特征,实现了对椭圆目标的亚像素级别定位实现对高速视频测量中椭圆形目标点的全自动化精确跟踪和定位,为高速视频测量提供了更便捷和可靠的解决方案。
Claims (4)
1.一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法,其特征在于,包括以下步骤:
S1,针对室内、室外、暗环境、小目标以及环形干扰等复杂环境,对YOLOv8进行了一系列改进,旨在提升模型的整体性能和泛化能力;并使用改进后的YOLOv8算法对每一帧图像中的圆形标记进行检测;
S2,基于TBD的多目标跟踪框架,通过卡尔曼滤波和匈牙利匹配算法来预测、匹配并关联上一步中检测结果,实现对标记的连续跟踪;
S3,将数学形态学和椭圆几何属性特征应用于跟踪结果集成,通过消除图像边缘检测的非椭圆边缘信息提取出椭圆轮廓,并采用最小二乘法拟合椭圆中心,实现对椭圆目标的亚像素级别定位。
2.根据权利要求1所述的用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法,其特征在于,所述S1具体包括:
S1-1,加入Bi-Level Routing Attention即BRA,在粗糙区域级别过滤掉大部分不相关的键值对,只保留小部分路由区域,在所述路由区域的联合中应用细粒度的token-to-token注意力,用于实现更灵活的计算分配和内容感知,使其具备动态的查询感知稀疏性;
S1-2,通过实验的基础在YOLOv8的三个最佳位置将BRA结构加入颈部,进一步提升检测性能和特征表达能力;
S1-3,选择Wise-IoU v3损失函数来代替YOLOv8中原本的CIoU损失函数,公式为:
所述RWIoU∈[1,e)将显着放大普通质量锚框的LIoU,LIoU∈[0,1]将显着降低高质量锚框的RWIoU,并且当锚框与目标框重合良好时,其重点关注中心点之间的距离;Wg,Hg是最小封闭区域的尺寸;为了防止RWIoU产生阻碍收敛的梯度,Wg,Hg与计算图分离即通过上标*表示;
锚框的离群程度用LIoU与动量为m的指数移动平均数的比值来表征:
其中,离群值小意味着锚框质量高,为其分配一个小的梯度增益,用于将BBR集中在普通质量的锚框上;为离群值较大的锚框分配较小的梯度增益将有效防止较大的有害梯度来自低质量的样本;构造一个非单调聚焦系数β并将其应用于WIoU v1:
其中,α,δ是超参数,δ在β=δ时使得r=1;由于是动态的,锚框的质量划分标准也是动态的,这让Wise-IoU v3能够在每一个时刻做出最符合当前情况的梯度增益分配策略。
3.根据权利要求1所述的用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法,其特征在于,所述S2具体包括:
S2-1,初始化:初始帧的检测结果即边界框集合为B1,目标跟踪器集合为T,对于每个检测到的边界框bi∈B1创建一个新的目标跟踪器ti∈T,并初始化跟踪器的状态向量xi和协方差矩阵Pi,使用初始边界框的位置和速度作为初始状态;
S2-2,对于每个后续帧:第t帧的检测结果即边界框集合为Bt,目标跟踪器集合T一直在更新,对于每个目标跟踪器ti∈T,使用卡尔曼滤波的预测步骤,更新目标的状态向量xi′和协方差矩阵Pi′,公式为:
xi是目标跟踪器ti的状态向量,Pi是协方差矩阵,F是状态转移矩阵,Q是过程噪声协方差矩阵;在目标跟踪任务中,目标的状态变量表示为x,y,a,h,vx,vy,va,vh,其中x,y表示目标框的中心坐标,a表示目标框的高宽比,h表示目标框的高,vx,vy,va,vh分别表示对应变量的速度;
构建关联矩阵C,其中C[i,j]表示目标跟踪器ti与边界框bj之间的IoU;使用匈牙利算法从关联矩阵C中选择最佳的关联关系R,使得关联的总体成本最小化;匈牙利算法根据IoU计算目标与边界框之间的相似度,对于每个关联对(i,j)∈R,使用卡尔曼滤波的更新步骤,更新目标跟踪器的状态向量和协方差矩阵,公式如下:
zi是当前帧中对应的观测值即边界框的位置,H是观测矩阵,R是观测噪声协方差矩阵;
对于未关联的目标跟踪器ti∈T,标记目标跟踪器为丢失状态并移除;对于新检测到的边界框bj∈Bt,创建一个新的目标跟踪器tj,并初始化其状态向量和协方差矩阵。
4.根据权利要求1所述的用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法,其特征在于,所述S3具体包括:
通过数学形态学和椭圆几何属性特征,对椭圆目标的亚像素级别定位,具体步骤为:
S3-1,影像块图像增强与边缘检测:采用二维离散零均值高斯函数进行图像处理消除图像中的噪声并增强影像块的对比度;经过二维离散零均值高斯函数处理后的图像块应用Sobel算子来检测边缘信息,以便后续的分析和处理;二维离散零均值高斯函数消除噪声计算方法为:
g(d)=exp(-d2/2δ2);
d表示影像点到影像中心点像素距离;δ表示高斯分布参数决定高斯函数的宽度;
S3-2,椭圆几何特征:采用边缘周长、区域面积和圆形度3个椭圆几何属性,并结合数学形态学即提取类椭圆边缘特征,具体步骤为:
S3-2-1,椭圆边缘周长是累计边缘要素相邻像素中心点的欧氏距离,用L来表示,设d表示欧几里得距离,则d(fi,j,fm,n)表示相邻像素fi,j和fm,n的欧几里得距离,公式为:
获取由形态学边缘检测的影像块中的每个边缘要素的周长,通过设置阈值边缘要素周长最小值Lmin和最大值Lmax,并根据Lmin<L<Lmax周长大于Lmax和小于Lmin的边缘要素将会被删除;
S3-2-2,对于检测出来的影像块中的边缘要素,只有连通的边缘要素才有面积属性,去除非连通的边缘要素,然后填充连通的边缘要素,得到影像块中边缘要素的面积集合;设Smin和Smax分别是面积阈值的最小值和最大值,则通过公式Smin<S<Smax消除不符合要求的边缘要素;
S3-2-3,圆形度C是反映一个椭圆接近圆形的程度的指标,值的范围属于[0,1],其值越接近于1,表明椭圆越接近于圆形;公式如下:
C=4πS/L2;
S3-3,类椭圆中心点拟合:获得影像块中椭圆形边缘后对椭圆圆心的亚像素定位;采用最优化的最小二乘法计算影像块中椭圆跟踪点的中心点坐标;设(xc,yc)表示椭圆的圆心坐标,a和b分别表示椭圆的长半轴和短半轴,M=[(x1,y1),(x2,y2),…,(xn,yn)]表示椭圆边缘的像素集合,则建立均方根误差方程:
椭圆中心坐标设置为和/>
椭圆初始长半轴和短半轴分别设置为和/>
根据公式采用非线性最优化Levenberg-Marquardt方法进行非递归搜索,计算椭圆圆心(xc,yc),以达到亚像素精度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311430448.2A CN117496401A (zh) | 2023-10-31 | 2023-10-31 | 一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311430448.2A CN117496401A (zh) | 2023-10-31 | 2023-10-31 | 一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117496401A true CN117496401A (zh) | 2024-02-02 |
Family
ID=89682009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311430448.2A Pending CN117496401A (zh) | 2023-10-31 | 2023-10-31 | 一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117496401A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117761678A (zh) * | 2024-02-22 | 2024-03-26 | 成都鹰谷米特科技有限公司 | 一种基于v频段的复杂环境目标探测方法及芯片 |
-
2023
- 2023-10-31 CN CN202311430448.2A patent/CN117496401A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117761678A (zh) * | 2024-02-22 | 2024-03-26 | 成都鹰谷米特科技有限公司 | 一种基于v频段的复杂环境目标探测方法及芯片 |
CN117761678B (zh) * | 2024-02-22 | 2024-04-26 | 成都鹰谷米特科技有限公司 | 一种基于v频段的复杂环境目标探测方法及芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563442B (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及系统 | |
CN111340797B (zh) | 一种激光雷达与双目相机数据融合检测方法及系统 | |
CN104200495B (zh) | 一种视频监控中的多目标跟踪方法 | |
CN109977997B (zh) | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 | |
CN109859226B (zh) | 一种图形分割的棋盘格角点亚像素的检测方法 | |
CN107392929B (zh) | 一种基于人眼视觉模型的智能化目标检测及尺寸测量方法 | |
CN110021029B (zh) | 一种适用于rgbd-slam的实时动态配准方法及存储介质 | |
CN112825192B (zh) | 基于机器学习的对象辨识系统及其方法 | |
CN112164117A (zh) | 一种基于Kinect相机的V-SLAM位姿估算方法 | |
CN111445497B (zh) | 一种基于尺度上下文回归的目标追踪与跟随方法 | |
CN112364865B (zh) | 一种复杂场景中运动小目标的检测方法 | |
CN110245566B (zh) | 一种基于背景特征的红外目标远距离追踪方法 | |
CN111354047B (zh) | 一种基于计算机视觉的摄像模组定位方法及系统 | |
Li et al. | Road markings extraction based on threshold segmentation | |
CN117496401A (zh) | 一种用于视频测量影像序列椭圆形目标点全自动识别与跟踪方法 | |
CN112215925A (zh) | 自适应采煤机随动跟踪多摄像头视频拼接方法 | |
CN114331879A (zh) | 一种均衡化二阶梯度直方图描述子的可见光与红外图像配准方法 | |
CN113689365B (zh) | 一种基于Azure Kinect的目标跟踪定位方法 | |
CN114549549A (zh) | 一种动态环境下基于实例分割的动态目标建模跟踪方法 | |
CN111179271B (zh) | 一种基于检索匹配的物体角度信息标注方法及电子设备 | |
CN113688819B (zh) | 一种基于标记点的目标物期望点跟踪匹配方法 | |
CN107330436B (zh) | 一种基于尺度判据的全景图像sift优化方法 | |
CN115861352A (zh) | 单目视觉、imu和激光雷达的数据融合和边缘提取方法 | |
CN113723432B (zh) | 一种基于深度学习的智能识别、定位追踪的方法及系统 | |
CN114964206A (zh) | 一种单目视觉里程计目标位姿检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |