CN116977905A - 目标跟踪方法、装置、电子设备及存储介质 - Google Patents

目标跟踪方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116977905A
CN116977905A CN202311225770.1A CN202311225770A CN116977905A CN 116977905 A CN116977905 A CN 116977905A CN 202311225770 A CN202311225770 A CN 202311225770A CN 116977905 A CN116977905 A CN 116977905A
Authority
CN
China
Prior art keywords
detection
target
frame
tracking
classification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311225770.1A
Other languages
English (en)
Other versions
CN116977905B (zh
Inventor
姚震
陆金刚
王为
方伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Astatine Technology Co ltd
Hangzhou Aixin Yuanzhi Technology Co ltd
Original Assignee
Shanghai Astatine Technology Co ltd
Hangzhou Aixin Yuanzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Astatine Technology Co ltd, Hangzhou Aixin Yuanzhi Technology Co ltd filed Critical Shanghai Astatine Technology Co ltd
Priority to CN202311225770.1A priority Critical patent/CN116977905B/zh
Publication of CN116977905A publication Critical patent/CN116977905A/zh
Application granted granted Critical
Publication of CN116977905B publication Critical patent/CN116977905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本申请提供目标跟踪方法、装置、电子设备及存储介质,涉及目标跟踪技术领域。所述方法使用目标检测网络和分类网络分别从视频序列帧中提取第一分类信息和第二分类信息。基于第一分类信息中的检测类别和第二分类信息中的分类类别,对背景类目标进行过滤,并得到映射分类信息。基于映射分类信息计算第二特征图,以与第二分类信息中的第一特征图进行匹配,以确定用于表征跟踪目标的检测目标框。根据检测目标框执行目标跟踪。所述方法在计算映射分类信息和第二特征图时,均可以对背景类目标进行过滤,以缓解因背景误检导致的跟踪目标误检率高的问题。

Description

目标跟踪方法、装置、电子设备及存储介质
技术领域
本申请涉及目标跟踪技术领域,尤其涉及一种目标跟踪方法、装置、电子设备及存储介质。
背景技术
目标跟踪可以应用于体育赛事转播、安防监控、无人机等多个领域。通过利用视频序列或图像序列的上下文信息,对跟踪目标的外观和运动信息进行建模,进而对跟踪目标的运动状态进行预测以及位置标定。
目标跟踪需要基于检测的方式标定跟踪目标,并对跟踪目标执行预测、跟踪等操作。预测、跟踪等操作容易受跟踪目标的检测结果影响,在跟踪目标为背景类目标时,导致误检现象增加。
在检测跟踪目标时,可以通过将检测结果分组,并将检测结果与预测结果进行多次匹配,以降低跟踪目标的误检率。但在检测过程中出现持续性背景误检时,仍会将背景类目标视为跟踪目标,导致跟踪目标误检率提高。
发明内容
本申请提供一种目标跟踪方法、装置、电子设备及存储介质,以解决因将背景类目标视为跟踪目标,导致跟踪目标误检的问题。
第一方面,本申请提供一种目标跟踪方法,包括:
使用目标检测网络从视频序列帧中提取跟踪目标的第一分类信息,以及使用分类网络从所述视频序列帧中提取所述跟踪目标的第二分类信息;
基于第一分类信息中的检测类别和第二分类信息中的分类类别,修正所述跟踪目标的第一分类信息,得到映射分类信息;
根据所述映射分类信息中的检测目标框计算得到第二特征图;
匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的检测目标框;
基于匹配成功的检测目标框,执行目标跟踪。
在一些可行的实施例中,第一分类信息包括检测目标框、检测类别、检测置信度;第二分类信息包括分类类别、分类置信度、第一特征图;基于第一分类信息中的检测类别和第二分类信息中的分类类别,修正所述跟踪目标的第一分类信息,得到映射分类信息时,包括:
若所述检测类别与所述分类类别相同,且所述检测类别的检测置信度大于所述分类类别的分类置信度,则标记所述检测置信度为所述检测目标框的置信度;
若所述检测类别与所述分类类别不同,且所述检测类别的检测置信度大于所述分类类别的分类置信度,则根据所述检测类别标记所述跟踪目标,以及标记所述检测置信度为所述检测目标框的置信度。
在一些可行的实施例中,基于第一分类信息中的检测类别和第二分类信息中的分类类别,修正所述跟踪目标的第一分类信息,得到映射分类信息之后,包括:
基于所述映射分类信息,若所述跟踪目标的检测类别为背景,且所述跟踪目标的类别的置信度大于置信度阈值,则标记所述跟踪目标为背景;以及停止跟踪所述跟踪目标;
若所述跟踪目标的类别为非背景,且所述跟踪目标的类别的置信度大于置信度阈值,则执行根据所述映射分类信息中的检测目标框计算得到第二特征图的步骤。
在一些可行的实施例中,根据所述映射分类信息中的检测目标框计算得到第二特征图时,包括:
根据所述跟踪目标的检测置信度和分类置信度,建立自适应噪声模型;
基于所述自适应噪声模型,对所述跟踪目标的检测目标框执行无迹卡尔曼滤波,得到所述检测目标框的预测区域;
使用分类网络对所述预测区域执行特征计算,得到第二特征图。
在一些可行的实施例中,根据所述跟踪目标的检测置信度和分类置信度,建立自适应噪声模型时,包括:
获取所述跟踪目标的检测置信度和分类置信度;
根据所述跟踪目标归属的视频序列帧的灰度图计算噪声协方差矩阵,所述噪声协方差矩阵归属于所述自适应噪声模型;
基于所述检测置信度和分类置信度,自适应更新所述噪声协方差矩阵。
在一些可行的实施例中,匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的检测目标框之前,包括:
计算所述第一特征图与所述第二特征图的相似度;
若所述相似度大于或等于相似度阈值,则将与所述第二特征图关联的检测目标框划分至高分框组;
若所述相似度小于相似度阈值,则将与所述第二特征图关联的检测目标框划分至低分框组。
在一些可行的实施例中,匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的目标框时,包括:
基于所述高分框组,对与所述第二特征图关联的检测目标框与第一特征图关联的检测目标框执行匹配;
若高分框组中,所述第二特征图关联的检测目标框与所述第一特征图关联的检测目标框匹配成功,则根据所述第二特征图更新所述第一特征图,以及输出匹配成功的检测目标框;
若高分框组中,所述第二特征图关联的检测目标框与所述第一特征图关联的检测目标框匹配失败,则将匹配失败的高分框组中的检测目标框划分至高分未匹配集合。
在一些可行的实施例中,基于所述高分框组,对与所述第二特征图关联的检测目标框与第一特征图执行匹配之后,包括:
基于低分框组,对与所述第二特征图关联的检测目标框与所述高分未匹配集合中的检测目标框执行匹配;
若低分框组中,与所述第二特征图关联的检测目标框与所述高分未匹配集合中的检测目标框匹配成功,则输出匹配成功的检测目标框;
若低分框组中,与所述第二特征图关联的检测目标框与所述高分未匹配集合中的检测目标框匹配失败,则删除低分框组中匹配失败的检测目标框。
在一些可行的实施例中,匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的目标框时,包括:
根据当前视频序列帧的前一帧输出的第一目标检测框,以及根据当前视频序列帧的后一帧输出的第二目标检测框,计算以及输出所述当前视频序列帧的预测目标框;所述第一目标检测框与所述第二目标检测框表征的跟踪目标相同。
第二方面,本申请提供一种目标跟踪装置,包括:提取模块、运算模块、执行模块;
所述提取模块用于使用目标检测网络从视频序列帧中提取跟踪目标的第一分类信息,以及使用分类网络从所述视频序列帧中提取所述跟踪目标的第二分类信息;
所述运算模块用于基于第一分类信息中的检测类别和第二分类信息中的分类类别,修正所述跟踪目标的第一分类信息,得到映射分类信息;
所述运算模块还用于根据所述映射分类信息中的检测目标框计算得到第二特征图;
所述执行模块用于匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的检测目标框;
所述执行模块还用于基于匹配成功的检测目标框,执行目标跟踪。
第三方面,本申请提供一种电子设备,包括:
处理器,以及与所述处理器通信连接的存储器;
其中,所述存储器存储有可被所述处理器执行的指令,以使所述处理器执行如第一方面中任一项所述的方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,包括:
所述计算机可读存储介质中包括至少一个计算机指令,所述至少一个计算机指令用于使计算机执行如第一方面中任一项所述的方法的步骤。
由上述技术内容可知,本申请提供一种目标跟踪方法、装置、电子设备及存储介质。所述方法使用目标检测网络和分类网络分别从视频序列帧中提取第一分类信息和第二分类信息。基于第一分类信息中的检测类别和第二分类信息中的分类类别,对背景类目标进行过滤,并得到映射分类信息。基于映射分类信息计算第二特征图,以与第二分类信息中的第一特征图进行匹配,以确定用于表征跟踪目标的检测目标框。根据检测目标框执行目标跟踪。所述方法在计算映射分类信息和第二特征图时,均可以对背景类目标进行过滤,以缓解因背景误检导致的跟踪目标误检率高的问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为融合分类特征的目标跟踪方法流程示意图;
图2为重新映射得到映射分类信息流程示意图;
图3为根据映射分类信息过滤背景目标示意图;
图4为自适应噪声模型更新示意图;
图5为检测目标框划分示意图;
图6为根据高分框组与第一特征图的匹配示意图;
图7为根据低分框组与高分未匹配集合的匹配示意图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
目标跟踪需要基于检测的方式标定跟踪目标,并对跟踪目标执行预测、跟踪等操作。相关技术中可以采用目标检测网络检测跟踪目标,基于检测目标框表征跟踪目标。因此,目标跟踪的过程及结果依赖于检测结果的准确度。在目标检测网络性能有限时,容易将背景误检为跟踪目标,导致跟踪误检目标,提高误检率,影响目标跟踪效果。
鉴于上述问题,如图1所示,本申请提供一种目标跟踪方法,所述方法包括:
S100:使用目标检测网络从视频序列帧中提取跟踪目标的第一分类信息,以及使用分类网络从所述视频序列帧中提取所述跟踪目标的第二分类信息;
在一些实施例中,目标检测网络包括特征提取网络模块和特征解码检测头模块。其中,特征提取网络模块包括特征提取层和下采样层。特征提取层可以采用C3(Concentrated-Comprehensive Convolution Block,集中-综合卷积块)结构,利用C3结构的残差连接形式可以从视频序列帧中充分提取目标的特征信息。下采样层可以采用Conv(卷积)层,以匹配特征信息的维度。
特征解码检测头模块包括特征融合层和特征解码层,特征融合层可以对经过下采样层处理的特征信息进行上采样以进一步提取特征信息。特征解码层可以采用Conv层,用于预测视频序列帧中目标的类别、置信度、位置信息。
基于所述目标检测网络可以得到包括目标检测框、检测类别、检测置信度的第一分类信息。其中,目标检测框用于表征跟踪目标以及跟踪目标的位置信息,检测类别用于标记跟踪目标的类型,检测置信度用于表征第一分类信息的真实性。
分类网络包括特征提取单元、尺度调整单元和非线性分类单元。其中,特征提取单元可以包括多个特征提取块和Maxpool层(最大池化层),特征提取块由基本卷积块以类似残差跳跃连接的方式组合,以保证提取目标的局部信息。Maxpool层用于增大感受野,同时减少运算参数以及计算量。尺度调整单元由基本卷积层组成,用于将大尺度的特征块下采样至1,以将分类网络从视频序列帧中提取的图片信息进一步聚合以便于对图片信息中的目标进行分类。
非线性分类单元由全连接层和softmax分类器组成,在实施例中,可以采用1*1的卷积代替全连接层以缓解全连接层参数冗余的问题。1*1的卷积层的通道数对应于分类网络可检测的类别的数量,通过softmax分类器可以将卷积层输出的离散值归一化,以选取最大值对应的类别为分类结果。
需要说明的是,相比于目标检测网络的检测类别,分类网络得到的分类类别还包括背景类别,以缓解目标跟踪过程中的背景误检导致跟踪目标误检的问题。例如,目标检测网络在检测类别中可以将视频序列帧中的目标划分为汽车、行人,则分类网络可以在分类类别中将视频序列帧中的目标划分为汽车、行人、背景。检测类别以及分类类别的设置可以结合单类目标识别准确率以及背景误检概率进行动态调整,以防止因类别选择过多导致单类目标类别识别准确率低、或因类别选择过少提高背景误检的情况。
可以理解的是,目标检测网络中的检测类别和分类网络中的分类类别均是对视频序列帧中目标类型的划分,基于目标检测网络和分类网络以及第一分类信息和第二分类信息,以及第二分类信息中包含背景的分类类别,可以有效缓解背景误检的问题。
S200:基于第一分类信息中的检测类别和第二分类信息中的分类类别,修正所述跟踪目标的第一分类信息,得到映射分类信息;
第一分类信息中的检测目标框用于表征跟踪目标,因此可以基于检测目标框对检测目标框表征的跟踪目标的类型、置信度进行重新映射,以缓解背景误检的情况。即修正跟踪目标的第一分类信息指的是,基于第一分类信息中的检测类别和第二分类信息中的分类类别以及置信度对检测目标框对应的检测类别、检测置信度重新映射。
如图2所示,基于第一分类信息中的检测类别和第二分类信息中的分类类别,修正所述跟踪目标的第一分类信息,得到映射分类信息时,其步骤包括:
若所述检测类别与所述分类类别相同,且所述检测类别的检测置信度大于所述分类类别的分类置信度,则标记所述检测置信度为所述检测目标框的置信度;
若所述检测类别与所述分类类别不同,且所述检测类别的检测置信度大于所述分类类别的分类置信度,则根据所述检测类别标记所述跟踪目标,以及标记所述检测置信度为所述检测目标框的置信度。
在一些实施例中,目标检测网络输出的检测类别和分类网络输出的分类类别一致时,则视为当前分类类别为跟踪目标的类型识别结果。而检测类别和分类类别均有对应的置信度以表征类别识别结果的准确性、真实性。因此在检测类别和分类类别一致时,可以选用较高的置信度作为映射分类信息中检测目标框的置信度。例如,检测置信度高于分类置信度,则选用检测置信度作为映射分类信息中检测目标框的置信度。反之,则选用分类置信度作为映射分类信息中检测目标框的置信度。
在另一些实施例中,目标检测网络输出的检测类别和分类网络输出的分类类别不同,则需要根据置信度的数值为映射分类信息中的检测目标框选择目标类别。例如,检测类别为摩托车、分类类别为自行车时,摩托车的检测置信度大于自行车的分类置信度,则在映射分类信息中将检测目标框的类别标记为摩托车,且采用摩托车的检测置信度作为置信度。
需要说明的是,基于重新映射得到映射分类信息的步骤,可以提高跟踪目标类型识别的准确率,也可以根据映射分类信息对背景目标进行过滤。即根据映射分类信息中的检测目标框对应的目标类别、置信度判断检测目标框表征的目标类型是否为背景。
可以理解的是,在上述实施例执行重新映射的过程中,分类网络输出的背景分类结果以及置信度也可以作为映射分类信息中检测目标框的分类结果以及分类结果对应的置信度。因此,如图3所示,基于第一分类信息中的检测类别和第二分类信息中的分类类别,修正所述跟踪目标的第一分类信息,得到映射分类信息之后,包括:
基于所述映射分类信息,若所述跟踪目标的类别为背景,且所述跟踪目标的类别的置信度大于置信度阈值,则标记所述跟踪目标为背景;以及停止跟踪所述跟踪目标;
若所述跟踪目标的类别为非背景,且所述类别的置信度大于置信度阈值,则执行根据所述映射分类信息中的检测目标框计算得到第二特征图的步骤。
可以理解的是,对于重新映射得到的映射分类信息中的置信度可以设置置信度阈值,以对映射分类信息进行筛选,以减少冗余计算量,提高目标跟踪效率。即当映射分类信息的中的类别为背景,且置信度超过置信度阈值,则表示映射分类信息中当前检测目标框的类别为背景,属于目标误检,无需继续对当前检测目标框进行跟踪。设置置信度阈值配合重新映射的步骤可以减少误检背景的情况,进而减少无效计算量,提高跟踪目标检测的准确率以及效率。
需要说明的是,因检测目标框归属于第一分类信息,且映射分类信息中包括检测目标框,因此在映射分类信息中沿用检测目标框的类别、置信度的说法。映射分类信息中检测目标框的类别、置信度为基于第一分类信息中的检测类别和第二分类信息中的分类类别进行重新映射得到。
在另一些实施例中,跟踪目标的类别为非背景,且跟踪目标的置信度高于置信度阈值,则可以对跟踪目标执行如S300中的处理步骤,以执行目标跟踪。可以理解的是,当跟踪目标的类别为非背景,但检测置信度低于置信度阈值时,对跟踪目标对应的检测目标框也可执行删除处理,以节省算力,提高目标跟踪效率。
S300:根据所述映射分类信息中的检测目标框计算得到第二特征图;
检测目标框可以为矩形框,用坐标表示为(x,y,w,h),其中,x,y为检测目标框的中心坐标,w,h为检测目标框的宽、高。根据所述坐标,可以采用两个坐标结合的形式表示检测目标框(x1,y1,x2,y2)。其中,x1,y1为检测目标框的左上角顶点坐标,x2,y2为检测目标框的右下角顶点坐标。第二特征图为使用分类网络对检测目标框进行特征计算得到,可以与第二分类信息中的第一特征图进行匹配,以对检测目标框进行筛选,进而确定跟踪目标以执行目标跟踪。
其中,根据所述映射分类信息中的检测目标框计算得到第二特征图时,包括:
根据所述跟踪目标的检测置信度和分类置信度,建立自适应噪声模型;
基于所述自适应噪声模型,对所述跟踪目标的检测目标框执行无迹卡尔曼滤波,得到所述检测目标框的预测区域;
使用分类网络对所述预测区域执行特征计算,得到第二特征图。
在一些实施例中,跟踪目标具有快速移动的特点,因此在对检测目标框进行运动建模时,可以采用无迹卡尔曼滤波的滤波方式以适应于跟踪目标快速移动的特点,进而提升运动建模的鲁棒性。无迹卡尔曼滤波可以基于当前检测目标框对下一帧的目标框位置进行预测,并由分类网络根据预测区域执行特征计算得到第二特征图,可以在连续检测的情况下,形成检测目标框的行动轨迹并用于目标跟踪。
在使用无迹卡尔曼滤波对目标框的位置进行预测时,可以通过建立自适应噪声模型对噪声引起的抖动进行修正。
如图4所示,根据所述跟踪目标的检测置信度和分类置信度,建立自适应噪声模型时,包括:
获取所述跟踪目标的检测置信度和分类置信度;
根据所述跟踪目标归属的视频序列帧的灰度图计算噪声协方差矩阵,所述噪声协方差矩阵归属于所述自适应噪声模型;
基于所述检测置信度和分类置信度,自适应更新所述噪声协方差矩阵。
在一些实施例中,根据跟踪目标的检测置信度、分类置信度建立自适应噪声模型,可以理解的是跟踪目标为非背景类目标。基于如下公式可以建立帧间灰度值差异矩阵M:
其中,为当前帧/>的灰度值,/>为当前帧/>的前一帧/>的灰度值,k表示第k帧。
基于帧间灰度值差异矩阵M,可以得到噪声协方差矩阵Rk:
其中,I为单位矩阵,L为灰度级数(灰度级数取决于视频序列帧对应的图像中每个像素对应的刷新存储单元的位数和显示设备的性能,与图像层次正关联,即灰度级数越多,图像层次越清晰)。
噪声协方差矩阵表示当前帧的噪声水平,当噪声较大时,表示不确定性较高,因此需要以较小的步幅进行迭代更新。例如,在使用目标检测网络和分类网络从视频序列帧中提取跟踪目标的外观特征时,噪声较大则表明检测结果/分类结果的置信度较低,因此可以根据检测置信度和分类置信度的情况自适应更新噪声协方差矩阵,其公式如下:
其中,为检测置信度,/>为分类置信度,/>为自适应更新后的噪声协方差矩阵。
在上述实施例中,基于融合自适应噪声模型的无迹卡尔曼滤波预测当前检测目标框下一帧的位置,可以根据检测置信度、分类置信度的情况自适应更新噪声协方差矩阵,以降低噪声对检测目标框关联的运算的影响,有利于提高外观特征的提取效果,即提高第二特征图的准确率,进而提高目标跟踪的准确率。
此外,噪声协方差矩阵的自适应更新有利于提高对应用场景以及应用场景中待跟踪目标的适应能力。
第二特征图为使用分类网络对滤波后的检测目标框(预测区域)进行特征计算得到,即通过分类网络的特征提取单元提取滤波后的检测目标框包含的特征。基于第二特征图和第二分类信息中的第一特征图,可以对检测目标框进行筛选,以得到可用于表征跟踪目标的检测目标框,以便于执行目标跟踪。其中,第一特征图为基于分类网络的特征提取单元从视频序列帧中提取,包含了视频序列帧中的目标最原始的特征信息。因此,基于第一特征图与第二特征图进行匹配,可以对检测目标框进行筛选。
S400:匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的检测目标框;
匹配第一特征图与第二特征图指的是匹配第二特征图关联的目标检测框与第一特征图关联的目标检测框,以基于第二特征图的外观特征更新第一特征图,以确定当前目标检测框以及跟踪目标。在一些实施例中,基于匈牙利算法匹配第二特征图关联的目标检测框与第一特征图关联的目标检测框,可以计算第一特征图与第二特征图的相似度将目标检测框划分为高分框组和低分框组,以通过两次匹配的方式筛选目标检测框。如图5所示,根据所述映射分类信息中的检测目标框计算得到第二特征图之后,包括:
计算所述第一特征图与所述第二特征图的相似度;
若所述相似度大于或等于相似度阈值,则将与所述第二特征图关联的检测目标框划分至高分框组;
若所述相似度小于相似度阈值,则将与所述第二特征图关联的检测目标框划分至低分框组。
在上述实施例中,可以计算第一特征图与第二特征图的余弦相似度以表征第一特征图与第二特征图的相似性。可以理解的是,可以设置相似度阈值以将第二特征图关联的目标检测框划分至高分框组和低分框组。即第一特征图与第二特征图的相似度分数大于或等于相似度阈值时,将第二特征图关联的检测目标框划分至高分框组;相似度分数小于相似度阈值时,则将第二特征图关联的检测目标狂划分至低分框组。
通过相似度分数作为划分检测目标框的依据,可以在当前视频序列帧、当前视频序列帧的前序视频序列帧以及后序视频序列帧的检测置信度/分类置信度均较低的情况下,仍能通过特征相似这一指标执行第二特征图关联的检测目标框与第一特征图关联的检测目标框匹配的过程,进而减少因置信度较低导致的跟踪丢失现象。此外,通过相似度分数划分检测目标框的过程,容易受到背景误检的影响,因此结合上述实施例中重新映射得到映射分类信息的步骤,可以降低根据相似度分数划分检测目标框的过程中,背景误检对划分结果以及后续匹配结果的影响。
对第二特征图关联的检测目标框进行划分后,可以基于高分框组与低分框组中的检测目标框与第一特征图关联的检测目标框进行匹配。即匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的目标框时,如图6所示,所述方法包括:
基于所述高分框组,对与所述第二特征图关联的检测目标框与第一特征图关联的检测目标框执行匹配;
若高分框组中,所述第二特征图的检测目标框与所述第一特征图关联的检测目标框匹配成功,则根据所述第二特征图更新所述第一特征图,以及输出匹配成功的检测目标框;
若高分框组中,所述第二特征图的检测目标框与所述第一特征图关联的检测目标框匹配失败,则将匹配失败的高分框组中的检测目标框划分至高分未匹配集合。
可以理解的是,高分框组中的检测目标框可用于表征跟踪目标,以及作为跟踪目标的依据的可能性更高。因此,在第一次匹配中,先对高分框组中的检测目标框与第一特征图关联的检测目标框执行匹配。在一些实施例中,高分框组中的检测目标框与第一特征图关联的检测目标框匹配成功,则表示第一特征图与第二特征图表征的目标为同一跟踪目标。由于第二特征图为根据滤波后的检测目标框计算得到,因此还可以基于第二特征图更新第一特征图,即根据第二特征图中更为清晰准确的外观特征更新第一特征图。
在基于第二特征图更新第一特征图时,可以采用如下公式:
其中,为对当前帧(第k帧)的第i个目标执行更新后的第一特征图,/>为平滑系数,/>为前一帧(k-1帧)第i个目标的第一特征图,/>为前一帧第i个目标无迹卡尔曼滤波后,经分类网络特征计算得到的第二特征图。
由公式可知,第一特征图在更新时包含了前一帧与当前帧的特征,有利于提高检测目标框以及第一特征图的连续性,进而获得更好的跟踪效果。
高分框组中的检测目标框存在匹配失败的情况,但由于其相似度评分较高,可能存在匹配方法失效的情况,因此将匹配失败的检测目标框划分至高分未匹配集合,以用于执行第二次匹配。进而有利于缓解跟踪失效的情况。
如图7所示,基于所述高分框组,对与所述第二特征图关联的检测目标框与第一特征图关联的检测目标框执行匹配之后,所述方法包括:
基于低分框组,对与所述第二特征图关联的检测目标框与所述高分未匹配集合中的检测目标框执行匹配;
若低分框组中,与所述第二特征图关联的检测目标框与所述高分未匹配集合中的检测目标框匹配成功,则输出匹配成功的检测目标框;
若低分框组中,与所述第二特征图关联的检测目标框与所述高分未匹配集合中的检测目标框匹配失败,则删除低分框组中匹配失败的检测目标框。
在第二次匹配中,将低分框组中检测目标框与高分未匹配集合中的检测目标框进行匹配,以缓解跟踪失效的情况。需要说明的是,高分未匹配集合中不仅包括与当前帧关联的高分检测目标框,还包括前一帧或前几帧关联的高分检测目标框。因此,当前帧关联的低分框组中的目标检测框,存在与高分未匹配集合中的目标检测框表征同一目标的可能。通过执行第二次匹配,在提高低分检测目标框利用率的基础上,也可以有效缓解跟踪失效的情况。
可以理解的是,执行第二次匹配的过程中,需要删除未匹配到高分检测目标框的低分检测目标框,以减少运算量,并避免低分误检的情况。对于仍未匹配成功的高分目标框,可视为匹配方法失效、前后帧中包括相似度较高目标等情况,因此可以继续保留至高分未匹配集合以用于后续匹配。出于内存分配等考虑,高分未匹配集合中的高分检测目标框保留的时间可以与帧数关联,例如保留5帧的处理时间,即在处理5帧视频序列帧之后,删除仍未匹配成功的高分检测目标框,以避免内存占用过多影响跟踪效率以及目标跟踪的相关设备的运行状态。
S500:基于匹配成功的检测目标框,执行目标跟踪。
匹配成功的检测目标框可以标记为跟踪结果,并可以基于跟踪结果执行目标跟踪。未匹配成功的高分检测目标框由于其高相似度的特征,也可以视作为跟踪结果,并作为执行目标跟踪的依据。
此外,基于高分未匹配集合的可以保留高分检测目标框设置,还可以提供一种补帧策略,即匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的目标框时,包括:
根据当前视频序列帧的前一帧输出的第一目标检测框,以及根据当前序列帧的后一帧输出的第二目标检测框,计算以及输出当前视频序列帧的预测目标框;所述第一目标检测框与所述第二目标检测框表征的跟踪目标相同。
跟踪目标的过程为连续的过程,在根据视频序列帧检测跟踪目标时,会出现短暂丢失跟踪目标的情况,为了保证跟踪的连续性,可以根据视频序列帧相邻的帧执行补帧策略。其中,第二目标检测框用于确认是否执行补帧策略,例如,在当前视频序列帧的前一帧中包括跟踪目标-自行车,在当前视频序列帧的后一帧中也包括跟踪目标-自行车,且当前视频序列帧中未检测到跟踪目标的目标检测框,则可以对当前视频序列帧执行补帧策略。
在一些实施例中,通过无迹卡尔曼滤波根据当前视频序列帧的前一帧输出的第一检测目标框进行预测,以输出预测检测目标框作为当前序列帧中的跟踪结果,进而有利于提升跟踪连续性。需要说明的是,在执行补帧策略时,为了保证跟踪连续性,不考虑目标检测框匹配分数、相似度等因素,仅以无迹卡尔曼滤波的预测结果输出跟踪目标(检测目标框)。
本申请还提供一种目标跟踪装置,所述装置包括:提取模块、运算模块、执行模块;
所述提取模块用于使用目标检测网络从视频序列帧中提取跟踪目标的第一分类信息,以及使用分类网络从所述视频序列帧中提取所述跟踪目标的第二分类信息;
所述运算模块用于基于第一分类信息中的检测类别和第二分类信息中的分类类别,修正所述跟踪目标的第一分类信息,得到映射分类信息;
所述运算模块还用于根据所述映射分类信息中的检测目标框计算得到第二特征图;
所述执行模块用于匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的检测目标框;
所述执行模块还用于基于匹配成功的检测目标框,执行目标跟踪。
本申请还提供一种电子设备,所述电子设备包括:处理器,以及与所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,以使所述处理器执行如第一方面中任一项所述的方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中包括至少一个计算机指令,所述至少一个计算机指令用于使计算机执行如上述实施例中所述的方法的步骤。
由上述技术内容可知,本申请提供一种目标跟踪方法、装置、电子设备及存储介质。所述方法使用目标检测网络和分类网络分别从视频序列帧中提取第一分类信息和第二分类信息。基于第一分类信息中的检测类别和第二分类信息中的分类类别,对背景类目标进行过滤,并得到映射分类信息。基于映射分类信息计算第二特征图,以与第二分类信息中的第一特征图进行匹配,以确定用于表征跟踪目标的检测目标框。根据检测目标框执行目标跟踪。所述方法在计算映射分类信息和第二特征图时,均可以对背景类目标进行过滤,以缓解因背景误检导致的跟踪目标误检率高的问题。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims (12)

1.一种目标跟踪方法,其特征在于,包括:
使用目标检测网络从视频序列帧中提取跟踪目标的第一分类信息,以及使用分类网络从所述视频序列帧中提取所述跟踪目标的第二分类信息;
基于第一分类信息中的检测类别和第二分类信息中的分类类别,修正所述跟踪目标的第一分类信息,得到映射分类信息;
根据所述映射分类信息中的检测目标框计算得到第二特征图;
匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的检测目标框;
基于匹配成功的检测目标框,执行目标跟踪。
2.根据权利要求1所述的目标跟踪方法,其特征在于,第一分类信息包括检测目标框、检测类别、检测置信度;第二分类信息包括分类类别、分类置信度、第一特征图;基于第一分类信息中的检测类别和第二分类信息中的分类类别,修正所述跟踪目标的第一分类信息,得到映射分类信息时,包括:
若所述检测类别与所述分类类别相同,且所述检测类别的检测置信度大于所述分类类别的分类置信度,则标记所述检测置信度为所述检测目标框的置信度;
若所述检测类别与所述分类类别不同,且所述检测类别的检测置信度大于所述分类类别的分类置信度,则根据所述检测类别标记所述跟踪目标,以及标记所述检测置信度为所述检测目标框的置信度。
3.根据权利要求1所述的目标跟踪方法,其特征在于,基于第一分类信息中的检测类别和第二分类信息中的分类类别,修正所述跟踪目标的第一分类信息,得到映射分类信息之后,包括:
基于所述映射分类信息,若所述跟踪目标的类别为背景,且所述跟踪目标的类别的置信度大于置信度阈值,则标记所述跟踪目标为背景;以及停止跟踪所述跟踪目标;
若所述跟踪目标的类别为非背景,且所述跟踪目标的类别的置信度大于置信度阈值,则执行根据所述映射分类信息中的检测目标框计算得到第二特征图的步骤。
4.根据权利要求1所述的目标跟踪方法,其特征在于,根据所述映射分类信息中的检测目标框计算得到第二特征图时,包括:
根据所述跟踪目标的检测置信度和分类置信度,建立自适应噪声模型;
基于所述自适应噪声模型,对所述跟踪目标的检测目标框执行无迹卡尔曼滤波,得到所述检测目标框的预测区域;
使用分类网络对所述预测区域执行特征计算,得到第二特征图。
5.根据权利要求4所述的目标跟踪方法,其特征在于,根据所述跟踪目标的检测置信度和分类置信度,建立自适应噪声模型时,包括:
获取所述跟踪目标的检测置信度和分类置信度;
根据所述跟踪目标归属的视频序列帧的灰度图计算噪声协方差矩阵,所述噪声协方差矩阵归属于所述自适应噪声模型;
基于所述检测置信度和分类置信度,自适应更新所述噪声协方差矩阵。
6.根据权利要求1所述的目标跟踪方法,其特征在于,匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的检测目标框之前,还包括:
计算所述第一特征图与所述第二特征图的相似度;
若所述相似度大于或等于相似度阈值,则将与所述第二特征图关联的检测目标框划分至高分框组;
若所述相似度小于相似度阈值,则将与所述第二特征图关联的检测目标框划分至低分框组。
7.根据权利要求6所述的目标跟踪方法,其特征在于,匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的目标框时,包括:
基于所述高分框组,对与所述第二特征图关联的检测目标框与第一特征图关联的检测目标框执行匹配;
若高分框组中,所述第二特征图关联的检测目标框与所述第一特征图关联的检测目标框匹配成功,则根据所述第二特征图更新所述第一特征图,以及输出匹配成功的检测目标框;
若高分框组中,所述第二特征图的检测目标框与所述第一特征图关联的检测目标框匹配失败,则将匹配失败的高分框组中的检测目标框划分至高分未匹配集合。
8.根据权利要求7所述的目标跟踪方法,其特征在于,基于所述高分框组,对与所述第二特征图关联的检测目标框与第一特征图执行匹配之后,包括:
基于低分框组,对与所述第二特征图关联的检测目标框与所述高分未匹配集合中的检测目标框执行匹配;
若低分框组中,与所述第二特征图关联的检测目标框与所述高分未匹配集合中的检测目标框匹配成功,则输出匹配成功的检测目标框;
若低分框组中,与所述第二特征图关联的检测目标框与所述高分未匹配集合中的检测目标框匹配失败,则删除低分框组中匹配失败的检测目标框。
9.根据权利要求1所述的目标跟踪方法,其特征在于,匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的目标框时,包括:
根据当前视频序列帧的前一帧输出的第一目标检测框,以及根据当前视频序列帧的后一帧输出的第二目标检测框,计算以及输出所述当前视频序列帧的预测目标框;所述第一目标检测框与所述第二目标检测框表征的跟踪目标相同。
10.一种目标跟踪装置,其特征在于,包括:提取模块、运算模块、执行模块;
所述提取模块用于使用目标检测网络从视频序列帧中提取跟踪目标的第一分类信息,以及使用分类网络从所述视频序列帧中提取所述跟踪目标的第二分类信息;
所述运算模块用于基于第一分类信息中的检测类别和第二分类信息中的分类类别,修正所述跟踪目标的第一分类信息,得到映射分类信息;
所述运算模块还用于根据所述映射分类信息中的检测目标框计算得到第二特征图;
所述执行模块用于匹配所述第二分类信息中的第一特征图与所述第二特征图,输出匹配成功的检测目标框;
所述执行模块还用于基于匹配成功的检测目标框,执行目标跟踪。
11.一种电子设备,其特征在于,包括:
处理器,以及与所述处理器通信连接的存储器;
其中,所述存储器存储有可被所述处理器执行的指令,以使所述处理器执行如权利要求1-9中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其特征在于,包括:
所述计算机可读存储介质中包括至少一个计算机指令,所述至少一个计算机指令用于使计算机执行如权利要求1-9中任一项所述的方法的步骤。
CN202311225770.1A 2023-09-22 2023-09-22 目标跟踪方法、装置、电子设备及存储介质 Active CN116977905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311225770.1A CN116977905B (zh) 2023-09-22 2023-09-22 目标跟踪方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311225770.1A CN116977905B (zh) 2023-09-22 2023-09-22 目标跟踪方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116977905A true CN116977905A (zh) 2023-10-31
CN116977905B CN116977905B (zh) 2024-01-30

Family

ID=88485312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311225770.1A Active CN116977905B (zh) 2023-09-22 2023-09-22 目标跟踪方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116977905B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858436A (zh) * 2019-01-29 2019-06-07 中国科学院自动化研究所 基于视频动态前景掩膜的目标类别修正方法、检测方法
CN111104898A (zh) * 2019-12-18 2020-05-05 武汉大学 基于目标语义和注意力机制的图像场景分类方法及装置
CN111310611A (zh) * 2020-01-22 2020-06-19 上海交通大学 细胞视野图的检测方法及存储介质
CN111353555A (zh) * 2020-05-25 2020-06-30 腾讯科技(深圳)有限公司 一种标注检测方法、装置及计算机可读存储介质
CN112233097A (zh) * 2020-10-19 2021-01-15 中国科学技术大学 基于空时域多维融合的道路场景他车检测系统和方法
CN112270696A (zh) * 2020-11-05 2021-01-26 南京邮电大学 一种基于融合元分类器的判别性目标跟踪方法
US20210201489A1 (en) * 2019-12-30 2021-07-01 Richard Ricci Systems and methods for generating a dental recommendation based on image processing
CN113378976A (zh) * 2021-07-01 2021-09-10 深圳市华汉伟业科技有限公司 一种基于特征顶点组合的目标检测方法、可读存储介质
CN113454644A (zh) * 2021-06-14 2021-09-28 商汤国际私人有限公司 对象类别的检测方法和装置
US20210374940A1 (en) * 2019-12-30 2021-12-02 Goertek Inc. Product defect detection method, device and system
CN114239761A (zh) * 2022-02-25 2022-03-25 北京鉴智科技有限公司 一种目标检测模型训练方法和装置
CN115984537A (zh) * 2021-10-14 2023-04-18 腾讯科技(深圳)有限公司 图像处理方法、装置及相关设备
CN116051601A (zh) * 2022-12-30 2023-05-02 长沙理工大学 一种深度时空关联的视频目标跟踪方法及系统
CN116152292A (zh) * 2023-02-13 2023-05-23 东南大学 一种基于三次匹配的多类别多目标跟踪方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858436A (zh) * 2019-01-29 2019-06-07 中国科学院自动化研究所 基于视频动态前景掩膜的目标类别修正方法、检测方法
CN111104898A (zh) * 2019-12-18 2020-05-05 武汉大学 基于目标语义和注意力机制的图像场景分类方法及装置
US20210374940A1 (en) * 2019-12-30 2021-12-02 Goertek Inc. Product defect detection method, device and system
US20210201489A1 (en) * 2019-12-30 2021-07-01 Richard Ricci Systems and methods for generating a dental recommendation based on image processing
CN111310611A (zh) * 2020-01-22 2020-06-19 上海交通大学 细胞视野图的检测方法及存储介质
CN111353555A (zh) * 2020-05-25 2020-06-30 腾讯科技(深圳)有限公司 一种标注检测方法、装置及计算机可读存储介质
CN112233097A (zh) * 2020-10-19 2021-01-15 中国科学技术大学 基于空时域多维融合的道路场景他车检测系统和方法
CN112270696A (zh) * 2020-11-05 2021-01-26 南京邮电大学 一种基于融合元分类器的判别性目标跟踪方法
CN113454644A (zh) * 2021-06-14 2021-09-28 商汤国际私人有限公司 对象类别的检测方法和装置
CN113378976A (zh) * 2021-07-01 2021-09-10 深圳市华汉伟业科技有限公司 一种基于特征顶点组合的目标检测方法、可读存储介质
CN115984537A (zh) * 2021-10-14 2023-04-18 腾讯科技(深圳)有限公司 图像处理方法、装置及相关设备
CN114239761A (zh) * 2022-02-25 2022-03-25 北京鉴智科技有限公司 一种目标检测模型训练方法和装置
CN116051601A (zh) * 2022-12-30 2023-05-02 长沙理工大学 一种深度时空关联的视频目标跟踪方法及系统
CN116152292A (zh) * 2023-02-13 2023-05-23 东南大学 一种基于三次匹配的多类别多目标跟踪方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANDRE ESTEVA等: "Dermatologist-level classification of skin cancer with deep neural networks", 《NATURE》, vol. 542, pages 115 - 118, XP055560219, DOI: 10.1038/nature21056 *
JI ZHU等: "Online Multi-Object Tracking with Dual Matching Attention Networks", 《ECCV 2018: COMPUTER VISION-ECCV 2018》, pages 379 - 396 *
孟飞妤: "基于孪生网络的目标跟踪方法研究", 《万方数据库》, pages 11 - 70 *
彭大芹等: "使用候选框进行全卷积网络修正的目标分割算法", 《重庆邮电大学学报(自然科学版)》, vol. 33, no. 1, pages 135 - 143 *

Also Published As

Publication number Publication date
CN116977905B (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN109815886B (zh) 一种基于改进YOLOv3的行人和车辆检测方法及系统
CN109886159B (zh) 一种非限定条件下的人脸检测方法
CN105374049B (zh) 一种基于稀疏光流法的多角点跟踪方法及装置
CN113158738A (zh) 一种基于注意力机制的港口环境下目标检测方法、系统、终端及可读存储介质
CN112669301B (zh) 一种高铁底板脱漆故障检测方法
CN113763427B (zh) 一种基于从粗到精遮挡处理的多目标跟踪方法
CN112132130B (zh) 一种面向全场景的实时性车牌检测方法及系统
CN112149533A (zh) 一种基于改进ssd模型的目标检测方法
CN112419202A (zh) 基于大数据及深度学习的野生动物图像自动识别系统
CN113012383A (zh) 火灾检测报警方法、相关系统、相关设备及存储介质
CN112597995B (zh) 车牌检测模型训练方法、装置、设备及介质
CN116977905B (zh) 目标跟踪方法、装置、电子设备及存储介质
JPS62267889A (ja) 文字読取方式
CN113762027B (zh) 一种异常行为的识别方法、装置、设备及存储介质
CN112991396B (zh) 一种基于监控摄像头下的目标跟踪方法及装置
CN113239860A (zh) 一种基于视频的烟火检测方法
CN113792671A (zh) 人脸合成图像的检测方法、装置、电子设备及介质
CN116958952B (zh) 一种适用于高速公路监控视频下的车牌目标检测方法
CN116486324B (zh) 一种地铁座位踩踏行为检测方法、装置、设备及存储介质
CN116958981B (zh) 一种文字识别方法及装置
CN110858281B (zh) 图像处理方法、装置、电子眼及存储介质
CN116452931B (zh) 一种层级敏感的图像特征聚合方法
CN114743091A (zh) 一种基于叠加切割的路网识别质量提升方法
CN115170913A (zh) 基于集群框融合的目标检测方法
CN117788640A (zh) 基于视觉slam的去除动态对象干扰方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant