CN117372935B - 一种视频目标检测方法、设备及介质 - Google Patents
一种视频目标检测方法、设备及介质 Download PDFInfo
- Publication number
- CN117372935B CN117372935B CN202311666299.XA CN202311666299A CN117372935B CN 117372935 B CN117372935 B CN 117372935B CN 202311666299 A CN202311666299 A CN 202311666299A CN 117372935 B CN117372935 B CN 117372935B
- Authority
- CN
- China
- Prior art keywords
- feature
- binarization
- preset
- value
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 145
- 238000012545 processing Methods 0.000 claims abstract description 87
- 238000012549 training Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000001914 filtration Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 52
- 238000012216 screening Methods 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 5
- 230000000750 progressive effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种视频目标检测方法、设备及介质,属于图像处理技术领域。该方法将预设张量的训练视频帧输入视频目标检测模型的主干网络,以确定主干网络的各指定特征层输出后分别对应的各初始特征数据。通过预设CS处理模块,对各初始特征数据进行二值化处理。基于初始特征数据及二值化处理后的各初始特征数据、预设目标聚焦检测模块,确定相应的二值化通道权重。基于二值化通道权重及各初始特征数据、预设目标过滤解码器,对相应的训练视频帧进行解码操作,以确定训练视频帧对应的解码特征集合。基于解码特征集合及二值化通道权重,确定视频目标检测模型对应的损失函数值,以根据损失函数值,对视频目标检测模型进行训练。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种视频目标检测方法、设备及介质。
背景技术
视频目标检测可以看作是单一图像目标检测的提升版本。简单地,可以通过将单帧图像逐一输入单图目标检测器中来处理视频序列。然而,二维空间信息是有限的,帧间时序信息未被利用,对于视频帧运动模糊等特殊情况单图目标检测算法会出现不同程度地退化,无法得到理想的检测结果。
与单一图像的检测相比,针对视频某一帧,可以从其他帧中获得更多的信息,对该视频帧进行检测,用于解决视频帧检测中出现的上述问题。因此,如何在不同帧间进行聚合特征是视频目标检测问题的关键。发明人发现,现有的大多数聚合算法都是直接针对解码后的初始候选框特征进行处理,这样帧间聚合处理过程通常重复计算各个质量不齐的候选框特征,该过程会耗费大量计算资源,带来计算冗余,使得目标检测效率较低,难以适用于实时、高效的目标识别场景,如运动员违规行为识别、警用监控等。
基于此,亟需一种能够充分利用帧间时序信息,并节省计算资源、避免产生过多计算冗余,且保障目标检测效率的视频目标检测技术方案。
发明内容
本申请实施例提供了一种视频目标检测方法、设备及介质,用于解决现有视频目标检测技术进行计算时,存在低质量的重复计算过程,耗费计算资源,带来计算冗余,且目标检测效率低下的问题。
一方面,本申请实施例提供了一种视频目标检测方法,该方法包括:
将预设张量的训练视频帧输入视频目标检测模型的主干网络,以确定所述主干网络的各指定特征层输出后分别对应的各初始特征数据;所述主干网络包括多个特征层;
通过预设CS处理模块,对各所述初始特征数据进行二值化处理;所述CS处理模块包括2D卷积神经网络处理及Sigmoid激活函数处理;
基于所述初始特征数据及二值化处理后的各所述初始特征数据、预设目标聚焦检测模块,确定相应的二值化通道权重;所述目标聚焦检测模块用于将各所述初始特征数据进行特征融合,并基于特征融合后的融合特征数据及预设阈值,生成所述二值化通道权重;
基于所述二值化通道权重及各所述初始特征数据、预设目标过滤解码器,对相应的训练视频帧进行解码操作,以确定所述训练视频帧对应的解码特征集合;
基于所述解码特征集合及所述二值化通道权重,确定所述视频目标检测模型对应的损失函数值,以根据所述损失函数值,对所述视频目标检测模型进行训练。
在本申请的一种实现方式中,将预设张量的训练视频帧输入视频目标检测模型的主干网络,以确定所述主干网络的各指定特征层输出后分别对应的各初始特征数据,具体包括:
从预设视频帧训练样本集合中,获取所述预设张量的所述训练视频帧;
将所述训练视频帧输入所述主干网络,以通过各所述特征层,对所述训练视频帧进行特征提取处理,得到相应的N个提取特征向量;其中,所述N对应于所述多个特征层的特征层数量;所述N等于5;
确定各所述指定特征层对应的各所述提取特征向量;所述指定特征层至少包括第三特征层、第四特征层、第五特征层;
通过预设CBS处理模块,确定各所述提取特征向量分别对应的所述初始特征数据;所述预设CBS处理模块至少包括:2D卷积神经网络处理、批归一化处理及Silu激活函数处理。
在本申请的一种实现方式中,基于所述初始特征数据及二值化处理后的各所述初始特征数据、预设目标聚焦检测模块,确定相应的二值化通道权重,具体包括:
确定所述第三特征层对应的所述初始特征数据,为指定特征数据;
将所述指定特征数据与二值化处理后的各所述初始特征数据,输入所述预设目标聚焦检测模块,以通过相应的目标聚焦检测算法及预设二值化筛选阈值,确定相应的所述二值化通道权重。
在本申请的一种实现方式中,通过相应的目标聚焦检测算法及预设二值化筛选阈值,确定相应的所述二值化通道权重,具体包括:
确定所述目标聚焦检测算法输出的通道权重值;
将所述通道权重值与所述二值化筛选阈值比对;
在所述通道权重值大于或等于所述二值化筛选阈值的情况下,所述二值化通道权重为1;
在所述通道权重值小于所述二值化筛选阈值的情况下,所述二值化通道权重为0。
在本申请的一种实现方式中,所述目标聚焦检测算法公式如下:
其中,表示所述二值化通道权重;/>表示将所述通道权重值与所述二值化筛选阈值比对操作;/>表示通过机器学习库PyTorch中的reshape函数进行张量形状变换操作;/>表示张量池化和Sigmoid激活函数操作;/>表示所述CS处理模块处理及上采样处理;/>为所述第三特征层对应的所述初始特征数据;/>表示张量逐像素相加和计算点积操作;/>为所述第四特征层对应的所述初始特征数据;/>为所述第五特征层对应的所述初始特征数据。
在本申请的一种实现方式中,其特征在于,基于所述二值化通道权重及各所述初始特征数据、预设目标过滤解码器,对相应的训练视频帧进行解码操作,具体包括:
将所述二值化通道权重及各所述初始特征数据,输入所述预设目标过滤解码器,以根据各所述初始特征数据对应的特征图尺寸,生成若干目标候选框;所述目标候选框为过滤非目标通道后的候选框;所述目标候选框用于覆盖各所述初始特征数据对应特征图中的待检测目标,以对所述待检测目标进行识别;所述非目标通道基于所述二值化通道权重得到。
在本申请的一种实现方式中,基于所述解码特征集合及所述二值化通道权重,确定所述视频目标检测模型对应的损失函数值,具体包括:
通过预设多头自注意力模块,对所述解码特征集合中特征进行聚合操作,以确定相应的待定目标检测特征值;所述解码特征集合包括分类特征值、回归特征值、分类特征概率值、回归特征概率值;
将所述待定目标检测特征值依次进行张量线性变换及张量形状变换操作,以得到所述视频目标检测模型对应的目标检测特征值,以根据所述目标检测特征值及所述二值化通道权重,确定所述视频目标检测模型对应的损失函数值。
在本申请的一种实现方式中,根据所述目标检测特征值及所述二值化通道权重,确定所述视频目标检测模型对应的损失函数值,具体包括:
根据所述目标检测特征值及所述二值化通道权重,分别确定相应的交并比损失值、二元交叉熵损失值、平均绝对误差损失值;
根据预设交并比损失权重及交并比损失值、二元交叉熵损失值、平均绝对误差损失值,确定与所述预设张量的训练视频帧对应的损失函数值。
另一方面,本申请实施例还提供了一种视频目标检测设备,所述设备包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
将预设张量的训练视频帧输入视频目标检测模型的主干网络,以确定所述主干网络的各指定特征层输出后分别对应的各初始特征数据;所述主干网络包括多个特征层;
通过预设CS处理模块,对各所述初始特征数据进行二值化处理;所述CS处理模块包括2D卷积神经网络处理及Sigmoid激活函数处理;
基于所述初始特征数据及二值化处理后的各所述初始特征数据、预设目标聚焦检测模块,确定相应的二值化通道权重;所述目标聚焦检测模块用于将各所述初始特征数据进行特征融合,并基于特征融合后的融合特征数据及预设阈值,生成所述二值化通道权重;
基于所述二值化通道权重及各所述初始特征数据、预设目标过滤解码器,对相应的训练视频帧进行解码操作,以确定所述训练视频帧对应的解码特征集合;
基于所述解码特征集合及所述二值化通道权重,确定所述视频目标检测模型对应的损失函数值,以根据所述损失函数值,对所述视频目标检测模型进行训练。
再一方面,本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
将预设张量的训练视频帧输入视频目标检测模型的主干网络,以确定所述主干网络的各指定特征层输出后分别对应的各初始特征数据;所述主干网络包括多个特征层;
通过预设CS处理模块,对各所述初始特征数据进行二值化处理;所述CS处理模块包括2D卷积神经网络处理及Sigmoid激活函数处理;
基于所述初始特征数据及二值化处理后的各所述初始特征数据、预设目标聚焦检测模块,确定相应的二值化通道权重;所述目标聚焦检测模块用于将各所述初始特征数据进行特征融合,并基于特征融合后的融合特征数据及预设阈值,生成所述二值化通道权重;
基于所述二值化通道权重及各所述初始特征数据、预设目标过滤解码器,对相应的训练视频帧进行解码操作,以确定所述训练视频帧对应的解码特征集合;
基于所述解码特征集合及所述二值化通道权重,确定所述视频目标检测模型对应的损失函数值,以根据所述损失函数值,对所述视频目标检测模型进行训练。
通过上述技术方案,本申请通过目标聚焦检测模型处理二值化后的初始特征数据生成二值化通道权重,从而能够指导目标过滤解码器过滤非目标或低质量特征通道,降低目标特征维度,使得后续帧间聚合时迭代处理次数减少,聚合计算耗时更少,提高视频目标检测模型的模型计算效率。减少了低质量的重复计算过程,避免耗费无效的计算资源,减少计算冗余,并提高目标检测效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中一种视频目标检测方法的一种流程示意图;
图2为本申请实施例中一种视频目标检测方法中的视频目标检测模型的一种结构示意图;
图3为本申请实施例中一种视频目标检测方法中的视频目标检测模型的另一种结构示意图;
图4为本申请实施例中一种视频目标检测设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
当前的视频目标检测算法模型往往牺牲运算速度换取检测精度,导致无法适满足商业化需求。
基于此,本申请实施例提供了一种视频目标检测方法、设备及介质,从处理造成冗余计算的低质量候选框出发,在目标特征送入聚合模块之前增加目标通道权重过滤模块(包括目标聚焦检测模块及目标过滤解码器)获得高质量候选框特征,从而很好的避免了算法模型运算复杂度较高的问题。从而解决现有视频目标检测技术进行计算时,存在低质量的重复计算过程,耗费计算资源,带来计算冗余,且目标检测效率低下的问题。
以下结合附图,详细说明本申请的各个实施例。
本申请实施例提供了一种视频目标检测方法,如图1所示,该方法可以包括步骤S101-S105:
S101,服务器将预设张量的训练视频帧输入视频目标检测模型的主干网络,以确定主干网络的各指定特征层输出后分别对应的各初始特征数据。
上述主干网络包括多个特征层。
需要说明的是,服务器作为视频目标检测方法的执行主体,仅为示例性存在,执行主体不仅限于服务器,本申请对此不作具体限定。
在本申请实施例中,假设训练视频帧的样本数据集(预设视频帧训练样本集合)为,其中包含/>个连续输入视频帧,并且每帧视频帧/>对应的VOC格式标签可以为/>,/>为自然数。
在实际使用过程中,输入到视频目标检测模型中的训练视频帧可以以预设张量进行输入,例如输入视频帧为,/>表示视频帧的高度,/>表示视频帧的宽度,/>表示视频帧的输入通道数,输入预设张量的特征形状为/>,其中/>表示预设张量中训练视频帧数量。
视频目标检测模型的主干网络可以使用Darknet-53,用于提取输入的训练视频帧特征,作为特征编码器。主干网络可以包含5个特征层,如图2所示,包括Layer-1、Layer-2、Layer-3、Layer-4、Layer-5,每个特征层由卷积层、池化层构成。
图2中Conv表示2D卷积神经网络;BN表示批归一化;Silu表示Silu激活函数处理;表示张量的形状,/>表示张量的平铺形式。
在本申请实施例中,将预设张量的训练视频帧输入视频目标检测模型的主干网络,以确定主干网络的各指定特征层输出后分别对应的各初始特征数据,具体包括:
从预设视频帧训练样本集合中,获取预设张量的训练视频帧。将训练视频帧输入主干网络,以通过各特征层,对训练视频帧进行特征提取处理,得到相应的N个提取特征向量。其中,N对应于多个特征层的特征层数量。N等于5。确定各指定特征层对应的各提取特征向量。指定特征层至少包括第三特征层、第四特征层、第五特征层。通过预设CBS处理模块,确定各提取特征向量分别对应的初始特征数据。预设CBS处理模块至少包括:2D卷积神经网络处理、批归一化处理及Silu激活函数处理。
也就是说,上述预设张量的训练视频帧是从预设的视频帧样本集合中获取,随后通过各个特征层对训练视频帧进行特征提取,得到各个特征层对应的提取特征向量。服务器将通过CBS处理模块,对指定特征层输出的提取特征向量处理,指定特征层包括第三特征层Layer-3、第四特征层Layer-4、第五特征层Layer-5。CBS处理模块对提取特征向量处理包括进行2D卷积神经网络处理、批归一化处理及Silu激活函数处理,随后得到初始特征数据。
具体地,CBS处理模块提取过程如下:
其中,表示CBS处理模块的处理操作,/>为第三特征层,/>为第四特征层,/>为第五特征层,/>表示第二特征层输出的提取特征向量。/>为第三特征层对应的初始特征数据;/>为第四特征层对应的初始特征数据;/>为第五特征层对应的初始特征数据。
S102,服务器通过预设CS处理模块,对各初始特征数据进行二值化处理。
其中,CS处理模块包括2D卷积神经网络处理及Sigmoid激活函数处理。
服务器可以将上述三个初始特征数据,利用CS处理单元,分别依次进行2D卷积神经网络处理及Sigmoid激活函数处理,从而得到各初始特征数据对应的二值化特征数据。
S103,服务器基于初始特征数据及二值化处理后的各初始特征数据、预设目标聚焦检测模块,确定相应的二值化通道权重。
其中,目标聚焦检测模块用于将各初始特征数据进行特征融合,并基于特征融合后的融合特征数据及预设阈值,生成二值化通道权重。
Darknet-53网络中的卷积层会逐渐减小特征图的尺寸,并同时增加特征图的通道数。这样的卷积和下采样操作会使得特征图的尺寸缩小,但通道数增加。而池化层则只会对特征图的尺寸进行下采样操作,通道数保持不变。
因此,通过主干网络的卷积和池化层的操作,可以得到不同尺寸的特征图,这些特征图的尺寸会逐渐减小。常规解码器根据这些特征图的尺寸进行解码操作,生成不同尺度的候选框。输入图像的尺寸也会对最终的特征尺寸产生影响。如果输入图像尺寸较大,那么经过卷积和池化操作后得到的特征尺寸也会相应较大。反之,如果输入图像尺寸较小,那么得到的特征尺寸也会相应较小。
在本申请实施例中,由于常规目标检测解码器根据初始的特征尺寸输出大量候选目标框,直接输入到帧间聚合模块会造成大量计算冗余。因此,基于初始特征数据及二值化处理后的各初始特征数据、预设目标聚焦检测模块,确定相应的二值化通道权重,具体包括:
服务器确定第三特征层对应的初始特征数据,为指定特征数据。将指定特征数据与二值化处理后的各初始特征数据,输入预设目标聚焦检测模块,以通过相应的目标聚焦检测算法及预设二值化筛选阈值,确定相应的二值化通道权重。
其中,通过相应的目标聚焦检测算法及预设二值化筛选阈值,确定相应的二值化通道权重,具体包括:
确定目标聚焦检测算法输出的通道权重值。将通道权重值与二值化筛选阈值比对。在通道权重值大于或等于二值化筛选阈值的情况下,二值化通道权重为1。在通道权重值小于二值化筛选阈值的情况下,二值化通道权重为0。
上述目标聚焦检测算法公式如下:
其中,表示二值化通道权重。/>表示将通道权重值与二值化筛选阈值比对操作。/>表示通过机器学习库PyTorch中的reshape函数进行张量形状变换操作,操作完成后得到通道权重值。/>表示张量池化和Sigmoid激活函数操作。/>表示CS处理模块处理及上采样处理。/>为第三特征层对应的初始特征数据。/>表示张量逐像素相加和计算点积操作。/>为第四特征层对应的初始特征数据。/>为第五特征层对应的初始特征数据。通过上述目标聚焦检测算法,将/>、/>、/>对应的特征图进行特征融合后,利用二值化筛选阈值,得到二值化通道权重。
上述二值化筛选阈值可以在实际使用过程中由用户设置,例如0.75,也可以在实际训练过程中修正,本申请对此不作具体限定。上述目标聚焦检测模块为图2中渐进式目标聚焦模块,用于通过上述方案得到二值化通道权重,从而知道目标过滤解码器过滤掉解码特征中非目标通道。
S104,服务器基于二值化通道权重及各初始特征数据、预设目标过滤解码器,对相应的训练视频帧进行解码操作,以确定训练视频帧对应的解码特征集合。
在本申请实施例中,基于二值化通道权重及各初始特征数据、预设目标过滤解码器,对相应的训练视频帧进行解码操作,以确定训练视频帧对应的解码特征集合,具体包括:
服务器将二值化通道权重及各初始特征数据,输入预设目标过滤解码器,以根据各初始特征数据对应的特征图尺寸,生成若干目标候选框。目标候选框为过滤非目标通道后的候选框。目标候选框用于覆盖各初始特征数据对应特征图中的待检测目标。非目标通道基于二值化通道权重得到。
其中,预设目标过滤解码器对应公式如下:
其中,表示分类特征值;/>表示回归特征值;/>表示分类特征概率值;表示回归特征概率值;/>表示解码操作;/>表示卷积操作。
本申请可以使用Python中现有函数完成上述过程,包括但不限于形状变换操作、解码操作、卷积操作。
通过上述二值化通道权重,指导目标过滤解码器筛选候选框,可以减少目标特征维度,减少计算资源消耗,避免产生过多计算冗余,保障目标检测效率的视频目标检测。
本申请提供的渐进式目标聚焦模块及目标过滤解码器如图3所示,其中Mask表示特征层处理的特征图Mask,表示特征图中目标或感兴趣区域的二进制掩码。特征图Mask通常由一系列标注或预测的过程产生,其中目标或感兴趣区域被标记为1,而背景或非目标区域被标记为0。在生成特征图Mask时,可以利用像素级别的标注、阈值设定、像素分类或回归模型等不同的方法。
S105,服务器基于解码特征集合及二值化通道权重,确定视频目标检测模型对应的损失函数值,以根据损失函数值,对视频目标检测模型进行训练。
在本申请实施例中,基于解码特征集合及二值化通道权重,确定视频目标检测模型对应的损失函数值,具体包括:
通过预设多头自注意力模块,对解码特征集合中特征进行聚合操作,以确定相应的待定目标检测特征值。解码特征集合包括分类特征值、回归特征值、分类特征概率值、回归特征概率值。将待定目标检测特征值依次进行张量线性变换及张量形状变换操作,以得到视频目标检测模型对应的目标检测特征值,以根据目标检测特征值及二值化通道权重,确定视频目标检测模型对应的损失函数值。
换言之,服务器可以使用多头自注意力模块,将上述解码特征集合进行聚合操作,如下:
其中,为待定目标检测特征值,/>表示进行多头自注意力计算。
随后,将待定目标检测特征值通过张量线性变换函数及张量形状变换函数,得到目标检测特征值。张量线性变换处理及张量形状变换处理均可采用现有的张量线性变换函数及张量形状变换函数。
在本申请的一个实施例中,训练输入视频帧张量的形状为4×3×512×512。经由主干网络Darknet-53与CBS处理单元输出的三项特征图FB3,FB4,FB5分辨率为4×256×64×64、4×512×32×32、4×1024×8×8,三项特征CS处理单元处理后输入至渐进式目标聚焦模块和目标过滤解码器后生成的候选框特征生成四项特征:分类特征Fcls分辨率为4×30×320,回归特征Freg分辨率为4×30×320,二者对应的得分均为4×30。帧间聚合模块输出特征经由线性变换和形状变换后的最终结果Ffinal分辨率为4×30×(5+class)。其中4代表输入有4个视频帧,30表示生成的候选框数量,5+class表示每个候选框的特征通道数,其中5代表回归信息(如边界框坐标等),class为目标类别相关的信息。
在本申请实施例中,根据目标检测特征值及二值化通道权重,确定视频目标检测模型对应的损失函数值,具体包括:
根据目标检测特征值及二值化通道权重,分别确定相应的交并比损失值、二元交叉熵损失值、平均绝对误差损失值。根据预设交并比损失权重及交并比损失值、二元交叉熵损失值、平均绝对误差损失值,确定与预设张量的训练视频帧对应的损失函数值。
服务器可以计算交并比损失值:
计算二元交叉熵损失值:
计算平均绝对误差L1损失值:
通过以下公式计算得到损失函数值:
其中,为预设的交并比损失权重,具体可以在实际使用过程中进行设定,在本申请实施例中可设置为3.0;/>表示/>个训练视频帧中的第/>个训练视频帧。
利用上述损失函数值,结合预设视频帧训练样本集合中训练视频帧对视频目标检测模型进行训练,从而得到精度更高、泛化能力更强、目标框更加贴合的视频目标检测模型。
通过上述技术方案,本申请通过目标聚焦检测模型处理二值化后的初始特征数据生成二值化通道权重,从而能够指导目标过滤解码器过滤非目标或低质量特征通道,降低目标特征维度,使得后续帧间聚合时迭代处理次数减少,聚合计算耗时更少,提高视频目标检测模型的模型计算效率。减少了低质量的重复计算过程,避免耗费无效的计算资源,减少计算冗余,并提高目标检测效率。
图4为本申请实施例提供的一种视频目标检测设备的结构示意图,如图4所示,设备包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器。其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
将预设张量的训练视频帧输入视频目标检测模型的主干网络,以确定主干网络的各指定特征层输出后分别对应的各初始特征数据。主干网络包括多个特征层。通过预设CS处理模块,对各初始特征数据进行二值化处理。CS处理模块包括2D卷积神经网络处理及Sigmoid激活函数处理。基于初始特征数据及二值化处理后的各初始特征数据、预设目标聚焦检测模块,确定相应的二值化通道权重。目标聚焦检测模块用于将各初始特征数据进行特征融合,并基于特征融合后的融合特征数据及预设阈值,生成二值化通道权重。基于二值化通道权重及各初始特征数据、预设目标过滤解码器,对相应的训练视频帧进行解码操作,以确定训练视频帧对应的解码特征集合。基于解码特征集合及二值化通道权重,确定视频目标检测模型对应的损失函数值,以根据损失函数值,对视频目标检测模型进行训练。
本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
将预设张量的训练视频帧输入视频目标检测模型的主干网络,以确定主干网络的各指定特征层输出后分别对应的各初始特征数据。主干网络包括多个特征层。通过预设CS处理模块,对各初始特征数据进行二值化处理。CS处理模块包括2D卷积神经网络处理及Sigmoid激活函数处理。基于初始特征数据及二值化处理后的各初始特征数据、预设目标聚焦检测模块,确定相应的二值化通道权重。目标聚焦检测模块用于将各初始特征数据进行特征融合,并基于特征融合后的融合特征数据及预设阈值,生成二值化通道权重。基于二值化通道权重及各初始特征数据、预设目标过滤解码器,对相应的训练视频帧进行解码操作,以确定训练视频帧对应的解码特征集合。基于解码特征集合及二值化通道权重,确定视频目标检测模型对应的损失函数值,以根据损失函数值,对视频目标检测模型进行训练。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备、介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备、介质与方法是一一对应的,因此,设备、介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备、介质的有益技术效果。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种视频目标检测方法,其特征在于,所述方法包括:
将预设张量的训练视频帧输入视频目标检测模型的主干网络,以确定所述主干网络的各指定特征层输出后分别对应的各初始特征数据;所述主干网络包括多个特征层;
通过预设CS处理模块,对各所述初始特征数据进行二值化处理;所述CS处理模块包括2D卷积神经网络处理及Sigmoid激活函数处理;
基于所述初始特征数据及二值化处理后的各所述初始特征数据、预设目标聚焦检测模块,确定相应的二值化通道权重;所述目标聚焦检测模块用于将各所述初始特征数据进行特征融合,并基于特征融合后的融合特征数据及预设阈值,生成所述二值化通道权重;
基于所述二值化通道权重及各所述初始特征数据、预设目标过滤解码器,对相应的训练视频帧进行解码操作,以确定所述训练视频帧对应的解码特征集合;
基于所述解码特征集合及所述二值化通道权重,确定所述视频目标检测模型对应的损失函数值,以根据所述损失函数值,对所述视频目标检测模型进行训练;
其中,通过相应的目标聚焦检测算法及预设二值化筛选阈值,确定相应的所述二值化通道权重,具体包括:
确定所述目标聚焦检测算法输出的通道权重值;
将所述通道权重值与所述二值化筛选阈值比对;
在所述通道权重值大于或等于所述二值化筛选阈值的情况下,所述二值化通道权重为1;
在所述通道权重值小于所述二值化筛选阈值的情况下,所述二值化通道权重为0;
其中,所述目标聚焦检测算法公式如下:
其中,表示所述二值化通道权重;/>表示将所述通道权重值与所述二值化筛选阈值比对操作;/>表示通过机器学习库PyTorch中的reshape函数进行张量形状变换操作;/>表示张量池化和Sigmoid激活函数操作;/>表示所述CS处理模块处理及上采样处理;/>为第三特征层对应的所述初始特征数据;/>表示张量逐像素相加和计算点积操作;/>为第四特征层对应的所述初始特征数据;/>为第五特征层对应的所述初始特征数据;通过所述目标聚焦检测算法,将/>、/>、/>对应的特征图进行特征融合后,利用二值化筛选阈值,得到二值化通道权重;
其中,所述预设目标过滤解码器对应公式如下:
其中,表示分类特征值;/>表示回归特征值;/>表示分类特征概率值;/>表示回归特征概率值;/>表示解码操作;/>表示卷积操作。
2.根据权利要求1所述的一种视频目标检测方法,其特征在于,将预设张量的训练视频帧输入视频目标检测模型的主干网络,以确定所述主干网络的各指定特征层输出后分别对应的各初始特征数据,具体包括:
从预设视频帧训练样本集合中,获取所述预设张量的所述训练视频帧;
将所述训练视频帧输入所述主干网络,以通过各所述特征层,对所述训练视频帧进行特征提取处理,得到相应的N个提取特征向量;其中,所述N对应于所述多个特征层的特征层数量;所述N等于5;
确定各所述指定特征层对应的各所述提取特征向量;所述指定特征层至少包括第三特征层、第四特征层、第五特征层;
通过预设CBS处理模块,确定各所述提取特征向量分别对应的所述初始特征数据;所述预设CBS处理模块至少包括:2D卷积神经网络处理、批归一化处理及Silu激活函数处理。
3.根据权利要求2所述的一种视频目标检测方法,其特征在于,基于所述初始特征数据及二值化处理后的各所述初始特征数据、预设目标聚焦检测模块,确定相应的二值化通道权重,具体包括:
确定所述第三特征层对应的所述初始特征数据,为指定特征数据;
将所述指定特征数据与二值化处理后的各所述初始特征数据,输入所述预设目标聚焦检测模块,以通过相应的目标聚焦检测算法及预设二值化筛选阈值,确定相应的所述二值化通道权重。
4.根据权利要求1所述的一种视频目标检测方法,其特征在于,基于所述二值化通道权重及各所述初始特征数据、预设目标过滤解码器,对相应的训练视频帧进行解码操作,具体包括:
将所述二值化通道权重及各所述初始特征数据,输入所述预设目标过滤解码器,以根据各所述初始特征数据对应的特征图尺寸,生成若干目标候选框;所述目标候选框为过滤非目标通道后的候选框;所述目标候选框用于覆盖各所述初始特征数据对应特征图中的待检测目标,以对所述待检测目标进行识别;所述非目标通道基于所述二值化通道权重得到。
5.根据权利要求1所述的一种视频目标检测方法,其特征在于,基于所述解码特征集合及所述二值化通道权重,确定所述视频目标检测模型对应的损失函数值,具体包括:
通过预设多头自注意力模块,对所述解码特征集合中特征进行聚合操作,以确定相应的待定目标检测特征值;所述解码特征集合包括分类特征值、回归特征值、分类特征概率值、回归特征概率值;
将所述待定目标检测特征值依次进行张量线性变换及张量形状变换操作,以得到所述视频目标检测模型对应的目标检测特征值,以根据所述目标检测特征值及所述二值化通道权重,确定所述视频目标检测模型对应的损失函数值。
6.根据权利要求5所述的一种视频目标检测方法,其特征在于,根据所述目标检测特征值及所述二值化通道权重,确定所述视频目标检测模型对应的损失函数值,具体包括:
根据所述目标检测特征值及所述二值化通道权重,分别确定相应的交并比损失值、二元交叉熵损失值、平均绝对误差损失值;
根据预设交并比损失权重及交并比损失值、二元交叉熵损失值、平均绝对误差损失值,确定与所述预设张量的训练视频帧对应的损失函数值。
7.一种视频目标检测设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述权利要求1-6任一项所述的一种视频目标检测方法。
8.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令能够执行如上述权利要求1-6任一项所述的一种视频目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311666299.XA CN117372935B (zh) | 2023-12-07 | 2023-12-07 | 一种视频目标检测方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311666299.XA CN117372935B (zh) | 2023-12-07 | 2023-12-07 | 一种视频目标检测方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117372935A CN117372935A (zh) | 2024-01-09 |
CN117372935B true CN117372935B (zh) | 2024-02-20 |
Family
ID=89396927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311666299.XA Active CN117372935B (zh) | 2023-12-07 | 2023-12-07 | 一种视频目标检测方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117372935B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN115019143A (zh) * | 2022-06-16 | 2022-09-06 | 湖南大学 | 一种基于CNN和Transformer混合模型的文本检测方法 |
CN115131797A (zh) * | 2022-06-28 | 2022-09-30 | 北京邮电大学 | 一种基于特征增强金字塔网络的场景文本检测方法 |
CN115131695A (zh) * | 2022-03-18 | 2022-09-30 | 北京奇艺世纪科技有限公司 | 视频检测模型的训练方法、视频检测方法及装置 |
CN115995042A (zh) * | 2023-02-09 | 2023-04-21 | 上海理工大学 | 一种视频sar运动目标检测方法及装置 |
CN117173759A (zh) * | 2023-06-07 | 2023-12-05 | 南京邮电大学 | 一种基于多尺度特征融合的人脸检测方法 |
-
2023
- 2023-12-07 CN CN202311666299.XA patent/CN117372935B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN115131695A (zh) * | 2022-03-18 | 2022-09-30 | 北京奇艺世纪科技有限公司 | 视频检测模型的训练方法、视频检测方法及装置 |
CN115019143A (zh) * | 2022-06-16 | 2022-09-06 | 湖南大学 | 一种基于CNN和Transformer混合模型的文本检测方法 |
CN115131797A (zh) * | 2022-06-28 | 2022-09-30 | 北京邮电大学 | 一种基于特征增强金字塔网络的场景文本检测方法 |
CN115995042A (zh) * | 2023-02-09 | 2023-04-21 | 上海理工大学 | 一种视频sar运动目标检测方法及装置 |
CN117173759A (zh) * | 2023-06-07 | 2023-12-05 | 南京邮电大学 | 一种基于多尺度特征融合的人脸检测方法 |
Non-Patent Citations (3)
Title |
---|
Algorithm of helmet wearing detection based on AT-YOLO deep mode;Qingyang Zhou et al.;Computers Materials & Continua;第69卷(第1期);第159-174页 * |
基于YOLOv5的改进目标检测算法;盛国良;万方数据库;全文 * |
复杂场景下基于增强YOLOv3的船舶目标检测;聂鑫;刘文;吴巍;;计算机应用(09);第1-14页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117372935A (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
Pfeuffer et al. | Semantic segmentation of video sequences with convolutional lstms | |
Lee et al. | SNIDER: Single noisy image denoising and rectification for improving license plate recognition | |
CN113657560B (zh) | 基于节点分类的弱监督图像语义分割方法及系统 | |
CN114529459B (zh) | 一种对图像边缘进行增强处理的方法和系统及介质 | |
Wang et al. | Defect transformer: An efficient hybrid transformer architecture for surface defect detection | |
WO2023116632A1 (zh) | 基于时空记忆信息的视频实例分割方法和分割装置 | |
CN116258719A (zh) | 基于多模态数据融合的浮选泡沫图像分割方法和装置 | |
Lee et al. | Object detection-based video retargeting with spatial–temporal consistency | |
CN116543409A (zh) | 一种证件目标提取方法、系统、介质、设备及终端 | |
CN115661611A (zh) | 一种基于改进Yolov5网络的红外小目标检测方法 | |
CN115829942A (zh) | 基于非负性约束稀疏自编码器的电子电路缺陷检测方法 | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
Zheng et al. | Transformer-based hierarchical dynamic decoders for salient object detection | |
CN117372935B (zh) | 一种视频目标检测方法、设备及介质 | |
Yu et al. | Deep learning-based RGB-thermal image denoising: review and applications | |
CN116129417A (zh) | 一种基于低质量图像的数字仪表读数检测方法 | |
CN112052863B (zh) | 一种图像检测方法及装置、计算机存储介质、电子设备 | |
CN114820755A (zh) | 一种深度图估计方法及系统 | |
CN114694209A (zh) | 视频处理方法、装置、电子设备及计算机存储介质 | |
Imai et al. | Enhanced multiscale attention network for single image dehazing | |
Ammar et al. | RT-YOSO: Revisiting YOSO for Real-time Panoptic Segmentation | |
CN111291602A (zh) | 视频检测方法、装置、电子设备及计算机可读存储介质 | |
Li et al. | Human Detection via Image Denoising for 5G‐Enabled Intelligent Applications | |
CN118097158B (zh) | 基于编解码器的服装语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |