CN117475135A - 一种目标图像识别和稳定跟踪方法与系统 - Google Patents

一种目标图像识别和稳定跟踪方法与系统 Download PDF

Info

Publication number
CN117475135A
CN117475135A CN202311420550.4A CN202311420550A CN117475135A CN 117475135 A CN117475135 A CN 117475135A CN 202311420550 A CN202311420550 A CN 202311420550A CN 117475135 A CN117475135 A CN 117475135A
Authority
CN
China
Prior art keywords
target
characteristic information
image
frame
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311420550.4A
Other languages
English (en)
Inventor
周浩
李洋
杨旭
陈浩
高鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Celinkout Information Technology Co ltd
Original Assignee
Beijing Celinkout Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Celinkout Information Technology Co ltd filed Critical Beijing Celinkout Information Technology Co ltd
Priority to CN202311420550.4A priority Critical patent/CN117475135A/zh
Publication of CN117475135A publication Critical patent/CN117475135A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种目标图像识别和稳定跟踪方法与系统,其中该方法包括:使用相机采集原始图像;将原始图像输入到SwinTrack网络中得到原始图像的特征信息;获取待匹配的目标图像,并将待匹配的目标图像输入到SwinTrack主干网络中得到目标图像的特征信息;将原始图像的特征信息和目标图像的特征信息进行拼接得到拼接特征信息;根据拼接特征信息计算目标的类型和位置框;根据目标的类型和位置框估算目标状态;根据目标状态确定最佳的跟踪方案。本发明通过利用SwinTrack主干网络可以获取到目标图像的上下文特征信息,使得模型能够更好地理解图像的全局结构和语义信息,从而提高了图像识别和跟踪的准确性。

Description

一种目标图像识别和稳定跟踪方法与系统
技术领域
本发明属于目标跟踪技术领域,更具体地说,是涉及一种目标图像识别和稳定跟踪方法与系统。
背景技术
在现代社会中,随着无人机和其他低空飞行器的广泛应用,低空小目标的识别和跟踪成为了一个重要的研究方向。目前业内对于该问题多数采用的是基于yolo算法识别单帧图像,然后采用deepsort或者sort算法对目标进行跟踪。由于yolo算法在识别单帧图像时无法关联目标在多个帧之间的运动和行为关系,所以导致目标的识别不稳定,同时也无法对目标特征信息进行汇总,使跟踪器无法持续识别和跟踪目标,实际使用体验比较差。
发明内容
为解决上述问题,本发明的目的在于提供一种目标图像识别和稳定跟踪方法与系统。
一种目标图像识别和稳定跟踪方法,包括以下步骤:
步骤1:使用相机采集原始图像;
步骤2:将所述原始图像输入到SwinTrack主干网络中得到原始图像的特征信息;
步骤3:获取待匹配的目标图像,并将所述待匹配的目标图像输入到SwinTrack主干网络中得到目标图像的特征信息;
步骤4:将所述原始图像的特征信息和所述目标图像的特征信息进行拼接得到拼接特征信息;
步骤5:根据所述拼接特征信息计算目标的类型和位置框;
步骤6:根据目标的类型和位置框估算目标状态;
步骤7:根据所述目标状态确定最佳的跟踪方案。
优选的,所述步骤5:根据所述拼接特征信息计算目标的类型和位置框,包括:
步骤5.1:将拼接特征信息输入到编码器中,并使用DeConcat拆分出拼接特征信息中的当前帧图像的特征信息;
步骤5.2:将当前帧图像的特征信息输入到解码器中得到融合后的目标特征信息;
步骤5.3:将所述融合后的目标特征信息输入到分类预测层和位置回归层进行训练并预测得到目标的类型和位置框。
优选的,在所述步骤5.3中,分类预测层的损失函数为:
其中,b为预测目标的边界框,为训练集标注目标的边界框,IoU为标注框和预测框的面积交集/标注框和预测框的面积并集,p为分类得分向量的标量元素的预测值,Lcls为分类预测层的损失函数,q为标注框和预测框的面积交集/标注框和预测框的面积并集,γ为可调节的比例因子,α为第二可调节的比例因子。
优选的,在所述步骤5.3中,位置回归层的损失函数为:
其中,bj为第j个预测目标的边界框,为训练集标注目标的边界框,/>u代表并集,ac代表最小闭包区域,p0为调节参数,q为标注框和预测框的面积交集/标注框和预测框的面积并集。
优选的,所述步骤6:根据目标的类型和位置框估算目标状态,包括:
采用卡尔曼滤波算法根据目标的类型和位置框估算目标状态。
优选的,所述步骤7:根据所述目标状态确定最佳的跟踪方案,包括:
步骤7.1:根据目标状态和每个跟踪器的中心点位置构建目标分配代价矩阵;
步骤7.2:使用匈牙利算法对目标分配代价矩阵进行分配计算,通过最小化总代价来确定最佳的跟踪器-目标分配方案。
本发明还提供了一种目标图像识别和稳定跟踪系统,包括:
原始图像获取模块,用于使用相机采集原始图像;
原始图像特征提取模块,用于将所述原始图像输入到SwinTrack主干网络中得到原始图像的特征信息;
目标图像特征提取模块,用于获取待匹配的目标图像,并将所述待匹配的目标图像输入到SwinTrack主干网络中得到目标图像的特征信息;
特征拼接模块,用于将所述原始图像的特征信息和所述目标图像的特征信息进行拼接得到拼接特征信息;
特征信息分析模块,用于根据所述拼接特征信息计算目标的类型和位置框;
目标状态估算模块,用于根据目标的类型和位置框估算目标状态;
跟踪方案确定模块,用于根据所述目标状态确定最佳的跟踪方案。
本发明还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述的一种目标图像识别和稳定跟踪方法中的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种目标图像识别和稳定跟踪方法中的步骤。
本发明提供的一种目标图像识别和稳定跟踪方法与系统的有益效果在于:与现有技术相比,本发明通过利用SwinTrack主干网络可以获取到目标图像的上下文特征信息,使得模型能够更好地理解图像的全局结构和语义信息,从而提高了图像识别和跟踪的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种目标图像识别和稳定跟踪方法流程图;
图2为本发明实施例提供的一种目标图像识别和稳定跟踪方法原理图;
图3为本发明实施例提供的SwinTrack网络在处理第1帧图像的流程图;
图4为本发明实施例提供的SwinTrack网络在处理第I帧图像的流程图;
图5为本发明实施例提供的编码器网络结构图;
图6为本发明实施例提供的解码器网络结构图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为实现上述目的,本发明采用的技术方案是:
请参阅图1-2,一种目标图像识别和稳定跟踪方法,包括以下步骤:
步骤1:使用相机采集原始图像;
步骤2:将所述原始图像输入到SwinTrack主干网络中得到原始图像的特征信息;
步骤3:获取待匹配的目标图像,并将所述待匹配的目标图像输入到SwinTrack主干网络中得到目标图像的特征信息;
步骤4:将所述原始图像的特征信息和所述目标图像的特征信息进行拼接得到拼接特征信息;
步骤5:根据所述拼接特征信息计算目标的类型和位置框;
进一步的,所述步骤5包括:
步骤5.1:将拼接特征信息输入到编码器中,并使用DeConcat拆分出拼接特征信息中的当前帧图像的特征信息;
步骤5.2:将当前帧图像的特征信息输入到解码器中得到融合后的目标特征信息;
步骤5.3:将所述融合后的目标特征信息输入到分类预测层和位置回归层进行训练并预测得到目标的类型和位置框。
具体的,在所述步骤5.3中,分类预测层的损失函数为:
其中,b为预测目标的边界框,为训练集标注目标的边界框,IoU为标注框和预测框的面积交集/标注框和预测框的面积并集,p为分类得分向量的标量元素的预测值,Lcls为分类预测层的损失函数,q为标注框和预测框的面积交集/标注框和预测框的面积并集,γ为可调节的比例因子,α为第二可调节的比例因子。
位置回归层的损失函数为:
其中,bj为第j个预测目标的边界框,为训练集标注目标的边界框,当两个anchor与gtbox都不相交的时候,IoU的loss是一样大的,我们理论认为anchor距离gt box越近,loss应该越小,不应该一样大。这样GIoU就提出来了。GIoU通过计算两个box的最小闭包区域ac来计算loss。底色为红色的范围是Anchor2与Gtbox的最小闭包区域,底色为黄色的范围是Anchor1与Gtbox的最小闭包区域。明显Anchor2的最小闭包区域小,u代表并集,ac代表最小闭包区域,ac越大,LGIoU值越大。Anchor1的ac大,所以Anchor1的损失更高,公式为p0为调节参数,q为标注框和预测框的面积交集/标注框和预测框的面积并集。
步骤6:根据目标的类型和位置框估算目标状态;在本发明中,可采用卡尔曼滤波算法根据目标的类型和位置框估算目标状态。
步骤7:根据所述目标状态确定最佳的跟踪方案。
进一步的,所述步骤7包括:
步骤7.1:根据目标状态和每个跟踪器的中心点位置构建目标分配代价矩阵;
步骤7.2:使用匈牙利算法对目标分配代价矩阵进行分配计算,通过最小化总代价来确定最佳的跟踪器-目标分配方案。
请参阅图3-4,下面结合具体的实施例对本发明上述的目标图像识别和稳定跟踪方法做进一步的说明:
本算法的主要实现功能为低空小目标的图像识别和稳定跟踪与确认,在识别和跟踪的过程中实时获取目标的飞行轨迹,能够引导两轴伺服转台稳定跟踪目标,同时将识别确认的目标信息反馈给用户。其具体的过程如下:
1、将相机对准目标方向,并调整好焦距,实现对目标的清晰成像。
2、目标识别算法通过推流程序获取当前相机的rgb格式的图像数据(640*512像素),将图像输入到SwinTrack的主干网络中,提取出当前帧图像(第I帧,I大于1)的特征信息XI
3、将待匹配的目标图像Z1的像素信息输入到主干网络中,提取出目标的特征信息Z1,后续第I帧图像ZI为前一帧图像特征经过编码器后的输出结果。
4、使用concat将目标的特征信息Z1和当前帧图像的特征信息进行拼接,将拼接后的特征信息UI矩阵输入到编码器模型中,以获取待匹配目标的特征信息。将拼接的特征信息使用DeConcat拆分为目标特征信息ZI+1和当前帧图像的信息XI。
5、将特征信息XI输入到解码器中获取到目标的融合后的特征信息X。
6、将融合后的特征信息X输入到分类预测层和位置回归层,得到计算目标的类型和位置框。
以上六步为本发明中基于SwinTrack部分的内容。其中,图3和图4中的XI:表示第I帧(640*512像素)图像经过主干网络后得到的特征矩阵。ZI:表示第I帧时,由前一帧编码器计算出来的目标特征矩阵拆分后的特征矩阵。Z1:表示第1帧时,由待跟踪目标的图像经过主干网络后得到的特征矩阵。UI:表示XI矩阵和ZI矩阵合并连接在一起后得到的特征矩阵。XI:表示由UI矩阵输入到编码器中获的待匹配目标的特征信息经过DeConcat拆分后包含当前帧图像中计算目标的类型和位置框信息的特征矩阵。X:表示经过解码器后得到的清晰的当前帧图像中计算目标的类型和位置框信息的特征矩阵。Concat:特征矩阵的拼接,即加在一起。DeConcat:特征矩阵的拆分。
编码器:用于搜索融合信息中待匹配目标信息ZI的神经网络,该模块的网络结构为如图5所示,LN:层归一化操作,对单层神经元结果进行归一化。MSA:多头自注意力模型,FFN:前馈神经网络。
解码器:用于搜索融合信息中待匹配目标信息ZI的神经网络。该模块的网络结构为如图6所示,其中,LN:层归一化操作,对单层神经元结果进行归一化。MCA:多头交叉注意力模型,FFN:前馈神经网络。
分类预测层:损失函数采用目标框与标注框的IoU来计算。其分类损失函数为:
其中,b为预测目标的边界框,为训练集标注目标的边界框,IoU为标注框和预测框的面积交集/标注框和预测框的面积并集,p为分类得分向量的标量元素的预测值,Lcls为分类预测层的损失函数,q为标注框和预测框的面积交集/标注框和预测框的面积并集,γ为可调节的比例因子,α为第二可调节的比例因子。
对于边框回归预测,采用GIoU损失,取值范围[-1,1]。回归损失函数可以表示为:
其中,bj为第j个预测目标的边界框,为训练集标注目标的边界框,p0为调节参数,q为标注框和预测框的面积交集/标注框和预测框的面积并集。
7、目标状态估计:
目标状态估计采用卡尔曼滤波算法。卡尔曼滤波算法是一种用于状态估计的递归滤波算法,常用于目标跟踪和传感器融合等应用。
本发明采用目标的位置信息、目标的移动速度、目标的宽高、目标移动的加速度、目标的类型、目标编号做为目标状态向量输入。采用匀速模型卡尔曼滤波预测更新。
Pk=Kalman([x1,y1,x2,y2,v,w,h,a,t,ID])
其中,x1、y1、x2、y2表示目标在图像中的左上角点和右下角点的坐标位置,v是目标的移动速度,w是目标的宽度,h是目标的高度,a是目标移动的加速度,t是目标的类型,ID是目标的编号,Pk为目标状态的估计值,可以用来跟踪目标在图像中的位置、预测目标的未来位置和速度,以及提供关于目标属性和身份的信息。
8、计算分配代价矩阵:
通过检测算法记录并计算检测到的目标的中心点位置,然后通过待匹配目标、卡尔曼滤波预测模型的目标信息、当前跟踪的目标使用欧式距离进行计算其欧式距离分配代价矩阵,代价矩阵表示了每个跟踪器与待分配目标之间的距离或相似度,以帮助确定最佳分配。
C(i,j)=||p(i)-q(j)||
其中,p(i)是第i个跟踪器的中心点位置,q(j)是第j个待分配目标的中心点位置,||.||表示欧式距离的计算。
9、使用匈牙利算法对目标分配代价矩阵进行分配计算,通过最小化总代价来确定最佳的跟踪器-目标分配方案,最终得到目标跟踪的分配结果,并为同一个目标分配相同的跟踪编号ID。
10、对于分配同一个跟踪编号ID的目标,如果其前后帧之间中心点欧式距离操作阈值d时,对后一帧目标分配新的跟踪编号ID。
根据本发明具体的实施例本发明公开了以下有益效果:
1、采用了分阶段的多尺度特征表示方法,通过分解图像空间和通道空间,有效地捕捉了不同尺度下的目标信息。这种分阶段的特征表示方式使得模型能够在保持高精度的同时具备较高的计算效率。
2、引入了局部感知窗口和全局感知窗口的概念,通过多层次的窗口交互,实现了全局感知能力的提升。这使得模型能够更好地理解图像的全局结构和语义信息,从而提高了图像识别和跟踪的准确性。
3、采用了局部注意力机制和全局注意力机制的组合,通过自注意力机制来捕捉图像中的长距离依赖关系。这种注意力机制的设计使得模型能够更好地聚焦于重要的目标信息,提高了图像识别和跟踪的精度。
4、具有较好的可扩展性和泛化能力。它可以适应不同尺度和分辨率的图像输入,并且在不同任务和数据集上都能取得优秀的性能。
5、跟踪算法采用了运动状态、像素距离的计算使得目标跟踪时其位置信息通过阈值可控,有效避免了同类型目标集群闯入的跟踪编号ID设置不可控状态。
本发明还提供了一种目标图像识别和稳定跟踪系统,包括:
原始图像获取模块,用于使用相机采集原始图像;
原始图像特征提取模块,用于将所述原始图像输入到SwinTrack主干网络中得到原始图像的特征信息;
目标图像特征提取模块,用于获取待匹配的目标图像,并将所述待匹配的目标图像输入到SwinTrack主干网络中得到目标图像的特征信息;
特征拼接模块,用于将所述原始图像的特征信息和所述目标图像的特征信息进行拼接得到拼接特征信息;
特征信息分析模块,用于根据所述拼接特征信息计算目标的类型和位置框;
目标状态估算模块,用于根据目标的类型和位置框估算目标状态;
跟踪方案确定模块,用于根据所述目标状态确定最佳的跟踪方案。
与现有技术相比,本发明提供的一种目标图像识别和稳定跟踪系统的有益效果与上述技术方案所述一种目标图像识别和稳定跟踪方法的有益效果相同,在此不做赘述。
本发明还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述的一种目标图像识别和稳定跟踪方法中的步骤。
与现有技术相比,本发明提供的电子设备的有益效果与上述技术方案所述一种目标图像识别和稳定跟踪方法的有益效果相同,在此不做赘述。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种目标图像识别和稳定跟踪方法中的步骤。
与现有技术相比,本发明提供的一种计算机可读存储介质的有益效果与上述技术方案所述一种目标图像识别和稳定跟踪方法的有益效果相同,在此不做赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种目标图像识别和稳定跟踪方法,其特征在于,包括以下步骤:
步骤1:使用相机采集原始图像;
步骤2:将所述原始图像输入到SwinTrack主干网络中得到原始图像的特征信息;
步骤3:获取待匹配的目标图像,并将所述待匹配的目标图像输入到SwinTrack主干网络中得到目标图像的特征信息;
步骤4:将所述原始图像的特征信息和所述目标图像的特征信息进行拼接得到拼接特征信息;
步骤5:根据所述拼接特征信息计算目标的类型和位置框;
步骤6:根据目标的类型和位置框估算目标状态;
步骤7:根据所述目标状态确定最佳的跟踪方案。
2.如权利要求1所述的一种目标图像识别和稳定跟踪方法,其特征在于,所述步骤5:根据所述拼接特征信息计算目标的类型和位置框,包括:
步骤5.1:将拼接特征信息输入到编码器中,并使用DeConcat拆分出拼接特征信息中的当前帧图像的特征信息;
步骤5.2:将当前帧图像的特征信息输入到解码器中得到融合后的目标特征信息;
步骤5.3:将所述融合后的目标特征信息输入到分类预测层和位置回归层进行训练并预测得到目标的类型和位置框。
3.如权利要求2所述的一种目标图像识别和稳定跟踪方法,其特征在于,在所述步骤5.3中,分类预测层的损失函数为:
其中,b为预测目标的边界框,为训练集标注目标的边界框,IoU为标注框和预测框的面积交集/标注框和预测框的面积并集,p为分类得分向量的标量元素的预测值,Lcls为分类预测层的损失函数,q为标注框和预测框的面积交集/标注框和预测框的面积并集,γ为可调节的比例因子,α为第二可调节的比例因子。
4.如权利要求2中任意一项所述的一种目标图像识别和稳定跟踪方法,其特征在于,在所述步骤5.3中,位置回归层的损失函数为:
其中,bj为第j个预测目标的边界框,为训练集标注目标的边界框,/>u代表并集,ac代表最小闭包区域,p0为调节参数,q为标注框和预测框的面积交集/标注框和预测框的面积并集。
5.如权利要求1所述的一种目标图像识别和稳定跟踪方法,其特征在于,所述步骤6:根据目标的类型和位置框估算目标状态,包括:
采用卡尔曼滤波算法根据目标的类型和位置框估算目标状态。
6.如权利要求1所述的一种目标图像识别和稳定跟踪方法,其特征在于,所述步骤7:根据所述目标状态确定最佳的跟踪方案,包括:
步骤7.1:根据目标状态和每个跟踪器的中心点位置构建目标分配代价矩阵;
步骤7.2:使用匈牙利算法对目标分配代价矩阵进行分配计算,通过最小化总代价来确定最佳的跟踪器-目标分配方案。
7.一种目标图像识别和稳定跟踪系统,其特征在于,包括:
原始图像获取模块,用于使用相机采集原始图像;
原始图像特征提取模块,用于将所述原始图像输入到SwinTrack主干网络中得到原始图像的特征信息;
目标图像特征提取模块,用于获取待匹配的目标图像,并将所述待匹配的目标图像输入到SwinTrack主干网络中得到目标图像的特征信息;
特征拼接模块,用于将所述原始图像的特征信息和所述目标图像的特征信息进行拼接得到拼接特征信息;
特征信息分析模块,用于根据所述拼接特征信息计算目标的类型和位置框;
目标状态估算模块,用于根据目标的类型和位置框估算目标状态;
跟踪方案确定模块,用于根据所述目标状态确定最佳的跟踪方案。
8.一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1-6中任一项所述的一种目标图像识别和稳定跟踪方法中的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的一种目标图像识别和稳定跟踪方法中的步骤。
CN202311420550.4A 2023-10-30 2023-10-30 一种目标图像识别和稳定跟踪方法与系统 Pending CN117475135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311420550.4A CN117475135A (zh) 2023-10-30 2023-10-30 一种目标图像识别和稳定跟踪方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311420550.4A CN117475135A (zh) 2023-10-30 2023-10-30 一种目标图像识别和稳定跟踪方法与系统

Publications (1)

Publication Number Publication Date
CN117475135A true CN117475135A (zh) 2024-01-30

Family

ID=89625018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311420550.4A Pending CN117475135A (zh) 2023-10-30 2023-10-30 一种目标图像识别和稳定跟踪方法与系统

Country Status (1)

Country Link
CN (1) CN117475135A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836640A (zh) * 2021-02-04 2021-05-25 浙江工业大学 一种单摄像头多目标行人跟踪方法
CN116363694A (zh) * 2023-03-03 2023-06-30 中国电子科技集团公司第二十八研究所 一种多元信息匹配的无人系统跨摄像头多目标跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836640A (zh) * 2021-02-04 2021-05-25 浙江工业大学 一种单摄像头多目标行人跟踪方法
CN116363694A (zh) * 2023-03-03 2023-06-30 中国电子科技集团公司第二十八研究所 一种多元信息匹配的无人系统跨摄像头多目标跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAMID REZATOFIGHI,ET AL.: "《Generalized Intersection Over Union: A Metric and a Loss for Bounding Box Regression》", 《CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, 9 January 2020 (2020-01-09), pages 658 - 666 *
HAOYANG ZHANG,ET AL.: "《VarifocalNet: An IoU-aware Dense Object Detector》", 《CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, 2 November 2021 (2021-11-02), pages 8514 - 8523 *
LITING LIN, HENG FAN, ZHIPENG ZHANG, YONG XU, HAIBIN LING: "《SwinTrack: A Simple and Strong Baseline for Transformer Tracking》", 《NEURAL INFORMATION PROCESSING SYSTEMS》, 31 December 2022 (2022-12-31), pages 16743 - 16754 *

Similar Documents

Publication Publication Date Title
CN111127513B (zh) 一种多目标跟踪方法
CN109360226B (zh) 一种基于时间序列多特征融合的多目标跟踪方法
Xu et al. An enhanced Viola-Jones vehicle detection method from unmanned aerial vehicles imagery
Wojek et al. Monocular visual scene understanding: Understanding multi-object traffic scenes
CN111950394B (zh) 一种车辆变道的预测方法、装置及计算机存储介质
CN109658442B (zh) 多目标跟踪方法、装置、设备及计算机可读存储介质
CN111832514A (zh) 基于软多标签的无监督行人重识别方法及装置
Boumediene et al. Multi-ROI association and tracking with belief functions: application to traffic sign recognition
Fernández-Sanjurjo et al. Real-time multiple object visual tracking for embedded GPU systems
Ren et al. An improved mask-RCNN algorithm for UAV TIR video stream target detection
CN104778699A (zh) 一种自适应对象特征的跟踪方法
Alsanad et al. Real-time fuel truck detection algorithm based on deep convolutional neural network
Yin Object Detection Based on Deep Learning: A Brief Review
Mohanapriya Instance segmentation for autonomous vehicle
Ray et al. An efficient approach for object detection and tracking of objects in a video with variable background
Li et al. One-shot multi-object tracking using CNN-based networks with spatial-channel attention mechanism
CN116434150B (zh) 面向拥挤场景的多目标检测跟踪方法、系统及存储介质
Badal et al. Online multi-object tracking: multiple instance based target appearance model
CN114359493B (zh) 一种用于无人船生成三维语义地图的方法和系统
CN117475135A (zh) 一种目标图像识别和稳定跟踪方法与系统
CN113963021A (zh) 一种基于时空特征和位置变化的单目标跟踪方法及系统
Dou et al. Boosting cnn-based pedestrian detection via 3d lidar fusion in autonomous driving
Chai et al. 3D gesture recognition method based on faster R-CNN network
Liu et al. A lightweight lidar-camera sensing method of obstacles detection and classification for autonomous rail rapid transit
Xiao et al. Research on scale adaptive particle filter tracker with feature integration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination