CN115376054B - 一种目标检测方法、装置、设备及存储介质 - Google Patents

一种目标检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115376054B
CN115376054B CN202211314784.6A CN202211314784A CN115376054B CN 115376054 B CN115376054 B CN 115376054B CN 202211314784 A CN202211314784 A CN 202211314784A CN 115376054 B CN115376054 B CN 115376054B
Authority
CN
China
Prior art keywords
target detection
clustering
target
frames
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211314784.6A
Other languages
English (en)
Other versions
CN115376054A (zh
Inventor
张润泽
李仁刚
赵雅倩
郭振华
范宝余
李晓川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202211314784.6A priority Critical patent/CN115376054B/zh
Publication of CN115376054A publication Critical patent/CN115376054A/zh
Priority to PCT/CN2022/140122 priority patent/WO2024087358A1/zh
Application granted granted Critical
Publication of CN115376054B publication Critical patent/CN115376054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本申请涉及人工智能技术领域,公开了一种目标检测方法、装置、设备及存储介质,包括:获取目标视频的全部待检测视频帧,并利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框;对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系;基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测。可见,本申请可针对任意视频的视频帧进行关键目标检测,无须依赖关键目标检测数据集以提高检测效率,同时避免出现假阳性检测结果以提高检测精度。

Description

一种目标检测方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,特别涉及一种目标检测方法、装置、设备及存储介质。
背景技术
随着计算机视觉等AI技术的发展,目标检测逐渐成为一项基础且关键的任务。现有的目标检测方法大多是基于已有的目标检测数据集(如COCO数据集、Objects 365数据集等)进行训练,如果用这些数据集训练的模型进行推理,则待检测图像中的所有目标都会被推理出来,无法突出关键目标,这样会带来很多假阳性。同时由于当前数据集缺乏关键目标检测数据集,且标注一个关键目标检测的数据集会耗费大量的时间和人力。
特别是针对AI技术在体育领域的应用,如通过AI手段分析视觉、音频、文本数据来识别比赛时刻并生成实时的精彩视频,或引入AI技术统计球员在赛场上中的最新及历史数据并自动撰写针对每一位选手文章等。“AI+体育”的结合,一方面能更好地反馈运动员的表现,使运动员能够针对反馈不断提升自己实力;另一方面也给出了更加专业的赛场解析,增加了观众的现场体验。赛场关键人物检测从领域上来说属于目标检测,并且是带有条件的目标检测。但是主流的目标检测数据集是不存在这样的标注信息的,同时从体育赛事直播视频中标注这样的信息又需要极大的人力和物力。
因此,如何无须依赖关键目标检测数据集实现关键目标检测是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种目标检测方法、装置、设备及存储介质,可针对任意视频的视频帧进行关键目标检测,无须依赖关键目标检测数据集以提高检测效率,同时避免出现假阳性检测结果以提高检测精度。其具体方案如下:
本申请的第一方面提供了一种目标检测方法,包括:
获取目标视频的全部待检测视频帧,并利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框;
对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系;
基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测。
可选的,所述利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测之前,还包括:
构建训练集;其中,所述训练集由包含预设类型的目标的样本图像和以预设类型作为标签的样本标签组成;
利用所述训练集对基于神经网络构建的检测模型进行训练,得到所述目标检测模型。
可选的,所述基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框之后,还包括:
将所述关键目标检测框作为所述样本图像以构建新的训练集,并利用新的训练集对所述目标检测模型进行训练。
可选的,所述对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系,包括:
当预设类型的目标为人物,则利用行人重识别模型对所述初始目标检测框中的目标特征进行提取得到与所述初始目标检测框对应的特征图,并根据所述特征图确定出所述初始目标检测框之间的特征相似性;
基于所述初始目标检测框之间的特征相似性利用所述聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的所述聚类关系。
可选的,所述利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系,包括:
利用多个所述聚类模型分别对提取到的目标特征进行聚类处理,得到多个所述聚类关系;
根据多个所述聚类关系创建包含节点及节点连线的第一聚类图和第二聚类图;其中,节点为所述初始目标检测框,所述第一聚类图中的第一节点连线表征所述初始目标检测框之间属于同一类,所述第二聚类图中的第二节点连线表征所述初始目标检测框之间不属于同一类;
相应的,所述基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,包括:
基于所述第一聚类图和所述第二聚类图通过对所述初始目标检测框进行去噪处理的方式确定出所述关键目标检测框。
可选的,所述根据多个所述聚类关系创建包含节点及节点连线的第一聚类图和第二聚类图,包括:
如果存在预设数量个所述聚类关系表征任意两个节点属于同一类,则在两个节点之间进行连线,得到所述第一聚类图;
如果存在预设数量个所述聚类关系表征任意两个节点不属于同一类,则在两个节点之间进行连线,得到所述第二聚类图。
可选的,所述目标检测方法,还包括:
根据所述目标视频中所述关键目标的数量分别为各个所述聚类模型配置不同的聚类数量参数;其中,所述聚类数量参数的值与所述目标视频中的所述关键目标的数量呈正相关关系。
可选的,所述基于所述第一聚类图和所述第二聚类图通过对所述初始目标检测框进行去噪处理的方式确定出所述关键目标检测框,包括:
从所述初始目标检测框中随机选取一个样本目标检测框并将所述样本目标检测框初始化为一个聚类子类;
判断在所述第一聚类图中所述样本目标检测框与其他所述初始目标检测框之间是否具有第一节点连线且所述样本目标在所述第二聚类图中与其他所述初始目标检测框之间不具有第二节点连线;
如果是,则将其他所述初始目标检测框归入所述聚类子类,并将所述样本目标检测框及其他所述初始目标检测框从所述初始目标检测框中剔除;
判断所述聚类子类中的目标数量是否大于预设阈值,如果是,则从剔除后的所述初始目标检测框中重复执行随机选取一个所述样本目标检测框的步骤。
本申请的第二方面提供了一种目标检测装置,包括:
初始目标检测模块,用于获取目标视频的全部待检测视频帧,并利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框;
特征提取及聚类模块,用于对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系;
关键目标检测模块,用于基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测。
本申请的第三方面提供了一种电子设备,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述目标检测方法。
本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述目标检测方法。
本申请中,先获取目标视频的全部待检测视频帧,并利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框;然后对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系;最后基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测。可见,本申请通过目标检测模型初步检测视频帧中的初始目标检测框,对于包含关键目标检测框的初始目标检测框,提取各目标检测框的目标特征并进行特征聚类,以此能确定各初始目标检测框之间的聚类关系,根据该关系对初始目标检测框去噪最终获取到相应的关键目标检测框。上述过程可针对任意视频的视频帧进行关键目标检测,无须依赖关键目标检测数据集以提高检测效率,同时避免出现假阳性检测结果以提高检测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种目标检测方法流程图;
图2为本申请提供的一种DETR模型结构示意图;
图3为本申请提供的一种两阶段目标检测模型Faster-RCNN的网络结构示意图;
图4为本申请提供的一种行人重识别模型的网络结构示意图;
图5为本申请提供的一种基于ResNet50的行人重识别网络架构示意图;
图6为本申请提供的一种赛场人物分析应用场景的完整目标检测方法示意图;
图7为本申请提供的一种具体的目标检测方法流程图;
图8为本申请提供的一种具体的聚类去噪方法示意图;
图9为本申请提供的一种目标检测装置结构示意图;
图10为本申请提供的一种目标检测电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的目标检测方法大多是基于已有的目标检测数据集进行训练,如果使用这些数据集训练的模型进行推理无法突出关键目标,如果构建新的关键目标检测数据集会耗费大量的时间和人力。针对上述技术缺陷,本申请提供一种目标检测方案,可针对任意视频的视频帧进行关键目标检测,无须依赖关键目标检测数据集以提高检测效率,同时避免出现假阳性检测结果以提高检测精度。
图1为本申请实施例提供的一种目标检测方法流程图。参见图1所示,该目标检测方法包括:
S11:获取目标视频的全部待检测视频帧,并利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框。
本实施例中,主要针对一段目标视频中的关键目标进行检测,检测基础为组成目标视频的视频帧,需要首先获取所述目标视频的全部所述待检测视频帧。所述待检测视频帧中包含多种类型的目标,例如人物、动物、物体等,首先需要确定出最终检测的关键目标是何种类型也即确定所述预设类型,所述预设类型根据检测需求可以为人物、动物或物体等。
在此基础上,利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框。可以理解,所述初始目标检测框中包含所述预设类型的目标。如果所述预设类型的目标为人物,则所述初始目标检测框中标定的为所述待检测视频帧中的人物。对于体育赛事类的所述目标视频,所述初始目标检测框中标定的为所述待检测视频帧中包括运动员、裁判、拉拉队等在内的人物。下述步骤主要是为了从运动员、教练、裁判、拉拉队等在内的人物中检测出运动员和裁判这两类关键人物。
本实施例中,所述目标检测模型可以是已有的目标检测模型,也可以是自行构建训练集进行训练得到。针对后者,自行构建的训练集由包含预设类型的目标的样本图像和以预设类型作为标签的样本标签组成,利用所述训练集对基于神经网络构建的检测模型进行训练,得到所述目标检测模型。针对前者,已有的目标检测模型可以是基于Transformer神经网络的目标检测模型DETR(DEtectionTRansformer)、两阶段目标检测模型Faster-RCNN等,本实施例对此不进行限定。
其中,图2所示为DETR模型结构,训练数据来自于COCO、Objects 365、OpenImages、Crowd Humans等包含行人类别图片的数据集。模型训练之后便作为初始的所述目标检测模型,能够检测得到初始的行人检测坐标框。初始行人检测坐标框包含该视频中所有的行人,例如,包括关键人物(球员、教练)以及其他其他噪声行人(观众、拉拉队等)。图3中,所述待检测视频帧经过CNN骨干网络提取特征,同时对特征进行位置编码,后面通过Transformer 的encoder、decoder网络模块及FFN网络模块输出候选行人query,候选行人query经过与Ground Truth的匈牙利匹配算法之后,得到与Ground Truth最接近的预测行人query,然后计算相关的分类及坐标框回归损失。图3所示为两阶段目标检测模型Faster-RCNN的网络结构,所述待检测视频帧经过CNN骨干网络提取特征得到特征图,同时产生区域候选框(Region Proposal),将特征图及区域候选框输入到RoI Pooling模块得到固定维度的特征图,然后将特征图经过全连接层得到回归坐标及目标分类。由于本实施例的最终输出结果是回归坐标,因此这里忽略目标分类模块。
为了进一步实现弱监督关键目标检测,在最终检测出关键目标检测框之后,可以将所述关键目标检测框作为所述样本图像以构建新的训练集,并利用新的训练集对所述目标检测模型进行训练。例如,将所述目标检测框输入至DETR模型继续训练DETR模型。
S12:对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系。
本实施例中,在得到所述初始目标检测框后,进一步对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系。对所述初始目标检测框中的目标特征进行提取的方式有很多,例如,可以通过基于Transformer架构的行人重识别模型,或者基于CNN架构的ResNet网络模型,本实施例对此不进行限定。所述初始目标检测框经过训练后的行人重识别模型会提取出具有判别力的目标特征。该行人重识别模型的行人训练数据来自于MARS、3DPES、PRID2011、ETH等数据集,训练框架为基于pytorch的fast-reid框架,训练模型为基于transformer的TransReID,具体网络结构图如图4。另外,对于采用ResNest架构的网络模型,行人训练数据同样是来自于MARS、3DPES、PRID2011、ETH等数据集。训练框架为基于pytorch的fast-reid框架。基于ResNet50的行人重识别网络架构如图5。
特别的,当预设类型的目标为人物,则利用行人重识别模型对所述初始目标检测框中的目标特征进行提取,以此得到与所述初始目标检测框对应的特征图,并根据所述特征图确定出所述初始目标检测框之间的特征相似性。然后基于所述初始目标检测框之间的特征相似性利用所述聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的所述聚类关系。其中,所述聚类模型的聚类数量参数的值与所述目标视频中的所述关键目标的数量呈正相关关系。也即,如果所述目标视频中的关键目标为运动员,则运动员数量越多,给定的所述聚类模型的聚类数量参数的值也会越大。可以理解,除了基于特征相似性的聚类方式,其他类型的聚类方式也可达到本实施例的技术效果。
S13:基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测。
本实施例中,基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测。对于关键人物检测,经过聚类裁剪后便可以得到去除噪声之后的关键人物检测框,在此基础上便可以送入上述目标检测模型进行针对于关键人物检测的进一步训练。就这样循环往复,每个批次数据先进行初始人物检测框的检测,经过聚类剪枝得到关键人物检测框,进行目标检测模型的更新。这样模型在初始人物检测框和关键人物检测框之间逐渐取得动态平衡。本实施例在训练阶段和测试阶段都可以采用,且可以针对某个视频单独训练。
针对赛场人物分析这一具体应用场景,上述完整检测过程如图6所示。首先需要对赛场上的全部人物(关键人物和噪声人物)进行检测,关键人物为运动员和教练,噪声人物为观众众、媒体、记者、保安等。例如,对于一场NBA篮球比赛,关键人物检测需要检测出赛场上的运动员而不是身后的诸多球迷;对于一场排球比赛,关键人物检测需要检测出对应的排球运动员而不是身后的摄影记者;对于一场足球比赛的赛后结束画面,关键人物检测需要检测出的是教练而不是后面的拉拉队。视频关键人物检测指的输入视频,给出视频中每一帧的关键人物的位置。传统目标检测不仅将球员或者教练都指定为person类别,视频帧中的其他人包括球迷、媒体记者都指定为person类别。本实施例在输入视频变为连续视频帧后,首先经过目标检测模型产生初始行人目标检测框(坐标框),该视频的所有检测框经过行人重识别模型提取行人特征。行人特征经过聚类去噪得到关键人物的检测框,这些检测框作为新的训练样本送入目标检测模型中继续训练目标检测模型。上述过程采用主动学习的方式,将目标检测模型训练、检测框去噪并统一到一个端到端的训练框架中,能够在已有的目标检测模型及数据集的情况下,实现关键人物目标框的检测。
可见,本申请实施例先获取目标视频的全部待检测视频帧,并利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框;然后对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系;最后基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测。本申请实施例通过目标检测模型初步检测视频帧中的初始目标检测框,对于包含关键目标检测框的初始目标检测框,提取各目标检测框的目标特征并进行特征聚类,以此能确定各初始目标检测框之间的聚类关系,根据该关系对初始目标检测框去噪最终获取到相应的关键目标检测框。上述过程可针对任意视频的视频帧进行关键目标检测,无须依赖关键目标检测数据集以提高检测效率,同时避免出现假阳性检测结果以提高检测精度。
图7为本申请实施例提供的一种具体的目标检测方法流程图。参见图7所示,该目标检测方法包括:
S21:获取目标视频的全部待检测视频帧,并利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框。
本实施例中,关于上述步骤S21的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。
S22:对所述初始目标检测框中的目标特征进行提取并利用多个聚类模型分别对提取到的目标特征进行聚类处理,得到多个聚类关系。
本实施例中,在对所述初始目标检测框中的目标特征进行提取之后,利用多个聚类模型分别对提取到的目标特征进行聚类处理,得到多个聚类关系。所述聚类模型采用的是传统的无监督聚类模型,包括但不限于Kmeans、GMM等,每种聚类模型采用不同的聚类数量。本实施例聚类去噪的流程具体如图8所示。
同前述实施例,所述聚类数量参数的值与所述目标视频中的所述关键目标的数量呈正相关关系。因此需要根据所述目标视频中所述关键目标的数量分别为各个所述聚类模型配置不同的聚类数量参数。由于不同类型视频中的关键人物的数量是不一致的,因此不同的视频类型需要的聚类数量不同。像足球、篮球等团队运动,聚类数量会相对较高,本实施例采用用10、15、20三个量级;像网球、羽毛球这种运动员数量少且有来回的运动项目,聚类数量就会相应较少,本实施例采用2、4、6三个量级。
S23:根据多个所述聚类关系创建包含节点及节点连线的第一聚类图和第二聚类图;其中,节点为所述初始目标检测框,所述第一聚类图中的第一节点连线表征所述初始目标检测框之间属于同一类,所述第二聚类图中的第二节点连线表征所述初始目标检测框之间不属于同一类。
本实施例中,将所述聚类关系以聚类相似图的方式呈现,也即针对多个所述聚类模型采用投票方式来构建所述目标检测框的聚类相似图。需要说明的是,节点为所述初始目标检测框,所述第一聚类图中的第一节点连线表征所述初始目标检测框之间属于同一类,所述第二聚类图中的第二节点连线表征所述初始目标检测框之间不属于同一类。聚类相似图包括第一聚类图和第二聚类图。也即根据多个所述聚类关系创建包含节点及节点连线的第一聚类图和第二聚类图。
具体的,将视频中所有所述初始目标检测框当作节点形成一个初始图,节点与节点的边是否能连接取决于多个所述聚类模型的投票结果。投票结果最终会形成所述第一聚类图和所述第二聚类图两个子图,也可称为正样本聚类子图和负样本聚类子图。关于聚类图的构建过程为:如果存在预设数量个所述聚类关系表征任意两个节点属于同一类,则在两个节点之间进行连线,得到所述第一聚类图;如果存在预设数量个所述聚类关系表征任意两个节点不属于同一类,则在两个节点之间进行连线,得到所述第二聚类图。例如,如果节点a及节点b在多个聚类模型中属于同一个类的数量大于某个阈值,则节点a及节点b连接构建正样本聚类子图;如果节点a及节点b在多个聚类模型中不属于同一个类的数量大于某个阈值,则节点a及节点b连接构建负样本聚类子图。如此便形成了正样本聚类子图和负样本聚类子图。根据经验,上述两个阈值可设置为4。
S24:基于所述第一聚类图和所述第二聚类图通过对所述初始目标检测框进行去噪处理的方式确定出所述关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测。
本实施例中,基于所述第一聚类图和所述第二聚类图通过对所述初始目标检测框进行去噪处理的方式确定出所述关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测。具体利用采用的是LambdaCC方法进行贪婪聚类剪枝也即去噪处理,优化策略为:首先从所述初始目标检测框中随机选取一个样本目标检测框并将所述样本目标检测框初始化为一个聚类子类;然后判断在所述第一聚类图中所述样本目标检测框与其他所述初始目标检测框之间是否具有第一节点连线且所述样本目标在所述第二聚类图中与其他所述初始目标检测框之间不具有第二节点连线;如果是,则将其他所述初始目标检测框归入所述聚类子类,并将所述样本目标检测框及其他所述初始目标检测框从所述初始目标检测框中剔除;最后判断所述聚类子类中的目标数量是否大于预设阈值,如果是,则从剔除后的所述初始目标检测框中重复执行随机选取一个所述样本目标检测框的步骤。
假设所述初始目标检测框集合表示为B,正样本聚类子图表示为
Figure 655037DEST_PATH_IMAGE001
,负样本聚类子图表示为/>
Figure 878208DEST_PATH_IMAGE002
。上述贪婪剪枝过程的输入数据为B、/>
Figure 287324DEST_PATH_IMAGE001
和/>
Figure 545130DEST_PATH_IMAGE002
。 从B中随机选取样本b,初始化聚类子类/>
Figure 443816DEST_PATH_IMAGE003
。对于集合B中除b的所有样本x,如果x和b在正样本聚类子图中有边相连并且在负样本聚类子图中没有边相连,则在聚类子类/>
Figure 623124DEST_PATH_IMAGE003
中加入x,同时将b从B集合中排除。如果/>
Figure 367089DEST_PATH_IMAGE003
中样本数量大于某个阈值C(本实施例设为200),则重新选取样本。确定每个聚类类别的聚类大小能够移除小规模的聚类中心(离群点)。
可见,本申请实施例在对所述初始目标检测框中的目标特征进行提取之后,先利用多个聚类模型分别对提取到的目标特征进行聚类处理,得到多个聚类关系,然后根据多个所述聚类关系创建包含节点及节点连线的第一聚类图和第二聚类图。最后基于所述第一聚类图和所述第二聚类图通过对所述初始目标检测框进行去噪处理的方式确定出所述关键目标检测框。本申请实施例通过多个聚类模型采用投票的方式构建第一聚类图和第二聚类图,在此基础上对所述初始目标检测框去噪得到所述关键目标检测框,进一步提高了关键目标检测可信度。
参见图9所示,本申请实施例还相应公开了一种目标检测装置,包括:
初始目标检测模块11,用于获取目标视频的全部待检测视频帧,并利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框;
特征提取及聚类模块12,用于对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系;
关键目标检测模块13,用于基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测。
可见,本申请实施例先获取目标视频的全部待检测视频帧,并利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框;然后对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系;最后基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测。本申请实施例通过目标检测模型初步检测视频帧中的初始目标检测框,对于包含关键目标检测框的初始目标检测框,提取各目标检测框的目标特征并进行特征聚类,以此能确定各初始目标检测框之间的聚类关系,根据该关系对初始目标检测框去噪最终获取到相应的关键目标检测框。上述过程可针对任意视频的视频帧进行关键目标检测,无须依赖关键目标检测数据集以提高检测效率,同时避免出现假阳性检测结果以提高检测精度。
在一些具体实施例中,所述特征提取及聚类模块12,具体包括:
特征提取单元,用于当预设类型的目标为人物,则利用行人重识别模型对所述初始目标检测框中的目标特征进行提取得到与所述初始目标检测框对应的特征图;
第一特征聚类单元,用于根据所述特征图确定出所述初始目标检测框之间的特征相似性,并基于所述初始目标检测框之间的特征相似性利用所述聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的所述聚类关系;
第二特征聚类单元,用于利用多个所述聚类模型分别对提取到的目标特征进行聚类处理,得到多个所述聚类关系;
特征图构建单元,用于根据多个所述聚类关系创建包含节点及节点连线的第一聚类图和第二聚类图;其中,节点为所述初始目标检测框,所述第一聚类图中的第一节点连线表征所述初始目标检测框之间属于同一类,所述第二聚类图中的第二节点连线表征所述初始目标检测框之间不属于同一类;
参数配置单元,用于根据所述目标视频中所述关键目标的数量分别为各个所述聚类模型配置不同的聚类数量参数;其中,所述聚类数量参数的值与所述目标视频中的所述关键目标的数量呈正相关关系。
在一些具体实施例中,所述特征图构建单元,具体包括:
第一构建子单元,用于如果存在预设数量个所述聚类关系表征任意两个节点属于同一类,则在两个节点之间进行连线,得到所述第一聚类图;
第二构建子单元,用于如果存在预设数量个所述聚类关系表征任意两个节点不属于同一类,则在两个节点之间进行连线,得到所述第二聚类图。
在一些具体实施例中,所述关键目标检测模块13,具体包括:
选取单元,用于从所述初始目标检测框中随机选取一个样本目标检测框并将所述样本目标检测框初始化为一个聚类子类;
第一判断单元,用于判断在所述第一聚类图中所述样本目标检测框与其他所述初始目标检测框之间是否具有第一节点连线且所述样本目标在所述第二聚类图中与其他所述初始目标检测框之间不具有第二节点连线;
剔除单元,用于如果是,则将其他所述初始目标检测框归入所述聚类子类,并将所述样本目标检测框及其他所述初始目标检测框从所述初始目标检测框中剔除;
第二判断单元,用于判断所述聚类子类中的目标数量是否大于预设阈值,如果是,则从剔除后的所述初始目标检测框中重复执行随机选取一个所述样本目标检测框的步骤。
在一些具体实施例中,所述目标检测装置还包括:
第一模型训练模块,用于构建训练集,并利用所述训练集对基于神经网络构建的检测模型进行训练,得到所述目标检测模型;其中,所述训练集由包含预设类型的目标的样本图像和以预设类型作为标签的样本标签组成;
第二模型训练模块,用于将所述关键目标检测框作为所述样本图像以构建新的训练集,并利用新的训练集对所述目标检测模型进行训练。
进一步的,本申请实施例还提供了一种电子设备。图10是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图10为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的目标检测方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的目标检测方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的待检测视频帧等数据。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的目标检测方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的目标检测方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种目标检测方法,其特征在于,包括:
获取目标视频的全部待检测视频帧,并利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框;所述目标视频为体育赛事视频,所述待检测视频帧中预设类型的目标为人物;
对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系;
基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测;所述关键目标为关键人物;
所述利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系,包括:
利用多个所述聚类模型分别对提取到的目标特征进行聚类处理,得到多个所述聚类关系;
根据多个所述聚类关系创建包含节点及节点连线的第一聚类图和第二聚类图;其中,节点为所述初始目标检测框,所述第一聚类图中的第一节点连线表征所述初始目标检测框之间属于同一类,所述第二聚类图中的第二节点连线表征所述初始目标检测框之间不属于同一类;
相应的,所述基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,包括:
基于所述第一聚类图和所述第二聚类图通过对所述初始目标检测框进行去噪处理的方式确定出所述关键目标检测框;
所述根据多个所述聚类关系创建包含节点及节点连线的第一聚类图和第二聚类图,包括:
如果存在预设数量个所述聚类关系表征任意两个节点属于同一类,则在两个节点之间进行连线,得到所述第一聚类图;
如果存在预设数量个所述聚类关系表征任意两个节点不属于同一类,则在两个节点之间进行连线,得到所述第二聚类图;
所述目标检测方法,还包括:
根据所述目标视频中所述关键目标的数量分别为各个所述聚类模型配置不同的聚类数量参数;其中,所述聚类数量参数的值与所述目标视频中的所述关键目标的数量呈正相关关系。
2.根据权利要求1所述的目标检测方法,其特征在于,所述利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测之前,还包括:
构建训练集;其中,所述训练集由包含预设类型的目标的样本图像和以预设类型作为标签的样本标签组成;
利用所述训练集对基于神经网络构建的检测模型进行训练,得到所述目标检测模型。
3.根据权利要求2所述的目标检测方法,其特征在于,所述基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框之后,还包括:
将所述关键目标检测框作为所述样本图像以构建新的训练集,并利用新的训练集对所述目标检测模型进行训练。
4.根据权利要求1所述的目标检测方法,其特征在于,所述对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系,包括:
当预设类型的目标为人物,则利用行人重识别模型对所述初始目标检测框中的目标特征进行提取得到与所述初始目标检测框对应的特征图,并根据所述特征图确定出所述初始目标检测框之间的特征相似性;
基于所述初始目标检测框之间的特征相似性利用所述聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的所述聚类关系。
5.根据权利要求1所述的目标检测方法,其特征在于,所述基于所述第一聚类图和所述第二聚类图通过对所述初始目标检测框进行去噪处理的方式确定出所述关键目标检测框,包括:
从所述初始目标检测框中随机选取一个样本目标检测框并将所述样本目标检测框初始化为一个聚类子类;
判断在所述第一聚类图中所述样本目标检测框与其他所述初始目标检测框之间是否具有第一节点连线且所述样本目标在所述第二聚类图中与其他所述初始目标检测框之间不具有第二节点连线;
如果是,则将其他所述初始目标检测框归入所述聚类子类,并将所述样本目标检测框及其他所述初始目标检测框从所述初始目标检测框中剔除;
判断所述聚类子类中的目标数量是否大于预设阈值,如果是,则从剔除后的所述初始目标检测框中重复执行随机选取一个所述样本目标检测框的步骤。
6.一种目标检测装置,其特征在于,包括:
初始目标检测模块,用于获取目标视频的全部待检测视频帧,并利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框;所述目标视频为体育赛事视频,所述待检测视频帧中预设类型的目标为人物;
特征提取及聚类模块,用于对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系;
关键目标检测模块,用于基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测;所述关键目标为关键人物;
所述目标检测装置,还用于:
利用多个所述聚类模型分别对提取到的目标特征进行聚类处理,得到多个所述聚类关系;
根据多个所述聚类关系创建包含节点及节点连线的第一聚类图和第二聚类图;其中,节点为所述初始目标检测框,所述第一聚类图中的第一节点连线表征所述初始目标检测框之间属于同一类,所述第二聚类图中的第二节点连线表征所述初始目标检测框之间不属于同一类;
基于所述第一聚类图和所述第二聚类图通过对所述初始目标检测框进行去噪处理的方式确定出所述关键目标检测框;
如果存在预设数量个所述聚类关系表征任意两个节点属于同一类,则在两个节点之间进行连线,得到所述第一聚类图;
如果存在预设数量个所述聚类关系表征任意两个节点不属于同一类,则在两个节点之间进行连线,得到所述第二聚类图;
根据所述目标视频中所述关键目标的数量分别为各个所述聚类模型配置不同的聚类数量参数;其中,所述聚类数量参数的值与所述目标视频中的所述关键目标的数量呈正相关关系。
7.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至5任一项所述的目标检测方法。
8.一种计算机可读存储介质,其特征在于,用于存储计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至5任一项所述的目标检测方法。
CN202211314784.6A 2022-10-26 2022-10-26 一种目标检测方法、装置、设备及存储介质 Active CN115376054B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211314784.6A CN115376054B (zh) 2022-10-26 2022-10-26 一种目标检测方法、装置、设备及存储介质
PCT/CN2022/140122 WO2024087358A1 (zh) 2022-10-26 2022-12-19 一种目标检测方法、装置、设备及非易失性可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211314784.6A CN115376054B (zh) 2022-10-26 2022-10-26 一种目标检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115376054A CN115376054A (zh) 2022-11-22
CN115376054B true CN115376054B (zh) 2023-03-24

Family

ID=84073185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211314784.6A Active CN115376054B (zh) 2022-10-26 2022-10-26 一种目标检测方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN115376054B (zh)
WO (1) WO2024087358A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376054B (zh) * 2022-10-26 2023-03-24 浪潮电子信息产业股份有限公司 一种目标检测方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033458A (zh) * 2021-04-09 2021-06-25 京东数字科技控股股份有限公司 动作识别方法和装置
CN115082551A (zh) * 2022-04-13 2022-09-20 中国科学院计算技术研究所 一种基于无人机航拍视频的多目标检测的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646103B (zh) * 2011-02-18 2016-03-16 腾讯科技(深圳)有限公司 检索词的聚类方法和装置
US10878585B1 (en) * 2019-10-25 2020-12-29 7-Eleven, Inc. Sensor array for scalable position tracking system
CN113688957A (zh) * 2021-10-26 2021-11-23 苏州浪潮智能科技有限公司 一种基于多模型融合的目标检测方法、装置、设备及介质
CN115116090A (zh) * 2022-06-24 2022-09-27 苏州凌图科技有限公司 一种行人重识别方法、系统及存储介质
CN115376054B (zh) * 2022-10-26 2023-03-24 浪潮电子信息产业股份有限公司 一种目标检测方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033458A (zh) * 2021-04-09 2021-06-25 京东数字科技控股股份有限公司 动作识别方法和装置
CN115082551A (zh) * 2022-04-13 2022-09-20 中国科学院计算技术研究所 一种基于无人机航拍视频的多目标检测的方法

Also Published As

Publication number Publication date
WO2024087358A1 (zh) 2024-05-02
CN115376054A (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
Richard et al. Temporal action detection using a statistical language model
Kang Affective content detection using HMMs
CN110209844B (zh) 多媒体数据匹配方法、装置和存储介质
CN110796098B (zh) 内容审核模型的训练及审核方法、装置、设备和存储介质
CN111429341B (zh) 一种视频处理方法、设备及计算机可读存储介质
Li et al. Joint image-text news topic detection and tracking by multimodal topic and-or graph
Shou et al. Online action detection in untrimmed, streaming videos-modeling and evaluation
Wang et al. Video event detection using motion relativity and feature selection
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
Wang et al. Semantic trajectory-based event detection and event pattern mining
Mustamo Object detection in sports: TensorFlow Object Detection API case study
Habibian et al. Recommendations for recognizing video events by concept vocabularies
CN115376054B (zh) 一种目标检测方法、装置、设备及存储介质
CN111368138A (zh) 视频类别标签的排序方法、装置、电子设备及存储介质
CN113111838A (zh) 行为识别方法及装置、设备和存储介质
Hammam et al. Real-time multiple spatiotemporal action localization and prediction approach using deep learning
CN112733666A (zh) 一种难例图像的搜集、及模型训练方法、设备及存储介质
Nikolopoulos et al. Evidence-driven image interpretation by combining implicit and explicit knowledge in a bayesian network
Vainstein et al. Modeling video activity with dynamic phrases and its application to action recognition in tennis videos
Tang et al. Autohighlight: Automatic highlights detection and segmentation in soccer matches
CN113590810B (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
Nemade et al. Image segmentation using convolutional neural network for image annotation
CN111738042A (zh) 识别方法、设备及存储介质
KR20170048736A (ko) 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말
CN106156785A (zh) 对象检测方法及对象检测设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant