CN113449643A - 使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用 - Google Patents
使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用 Download PDFInfo
- Publication number
- CN113449643A CN113449643A CN202110729378.5A CN202110729378A CN113449643A CN 113449643 A CN113449643 A CN 113449643A CN 202110729378 A CN202110729378 A CN 202110729378A CN 113449643 A CN113449643 A CN 113449643A
- Authority
- CN
- China
- Prior art keywords
- training
- neural network
- video
- target
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 101
- 238000001514 detection method Methods 0.000 claims abstract description 84
- 238000013528 artificial neural network Methods 0.000 claims abstract description 50
- 230000000903 blocking effect Effects 0.000 claims abstract description 15
- 238000000638 solvent extraction Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用,检测方法包括:S01、搭建基于TimeSformer的无卷积目标检测神经网络框架,导入训练视频形成训练样本,对其进行分块和线性嵌入,再通过TimeSformer分离的时间‑空间注意力方式进行编码和解码进行特征提取,最后再经过预测神经网络生成目标检测结果;S02、通过自监督的预训练方法,在经分块处理后的训练样本中选择目标块,将训练目标变成从原始视频图像寻找该目标块进行神经网络的预训练,形成初步检测神经网络;S03、通过有监督的调优训练方法,将现有视频作为调优训练样本,导入初步检测神经网络进行调优训练;S04、将训练获得的检测神经网络用于视频中进行目标检测,本方案计算资源占用低、实施可靠。
Description
技术领域
本发明涉及视频目标检测技术领域,尤其涉及使用自监督预训练的timeSformer进行视频目标检测的方法及其应用。
背景技术
视频目标检测作为当下视频检测技术的热门,目前针对车载视频检测主要有如下方案:
1、全卷积方案:目前大多数车载视频检测和跟踪的方案已经能实现较高的精度,如:YOLO、Fast-RCNN等使用全卷积的目标检测方法,这些方法使用了卷积网络(CNN)使得训练和推理过程需要占用了大量的计算资源。然而在实际应用中,为了保证目标检测的实时性,该方案对硬件的要求较高,本地端能同时处理的数据量也较为有限。除此之外,由于CNN具有的归纳偏见,只捕捉局部空间信息等缺点,也限制了这类方法的性能。
2、结合卷积和Transformer的方案:随着自然语言处理领域中Transformer方法迁移到计算机视觉领域,目前出现了使用Transformer进行目标检测的方法,如DETR模块:利用CNN对单张图像进行特征序列提取作为Transformer输入进行编解码,最后预测得到目标框。使用Transformer的方法能在图像尺度上提取更长跨度的特征信息,但仍存在以下不足:(1)需要用到卷积层,需要占用大量的计算资源;(2)只针对单张图像进行处理,对视频检测任务来说虽然也能对单帧图像进行处理,但这样未能充分利用到帧间所包含的时间信息;(3)使用了Transformer的检测方法虽然能够实现不错的效果,但需要使用大量数据进行训练,这使得训练成本较高。
3、无卷积的Transformer方案:而在检测任务以外,使用Transformer的方法目前在视频分类的任务上出现了诸如VIT、TimeSformer这种无需使用卷积的方法,这种方法可以实现较小的计算资源占用,但这些方法所设计的框架只能用于视频分类之中,不能直接应用在视频检测任务中;并且跟其他使用了Transformer的方法一样需要使用大量数据进行训练。
综合上述,现有的目标检测方案所存在的缺点主要有:
1、需要占用大量的计算资源,能够同时处理的数据有限,这对硬件要求较高,成本也随之提升;
2、现有的方法虽然能够实现不错的目标检测效果,但这需要使用大量数据进行训练,这使得训练数据收集和标注的成本较高。
发明内容
有鉴于此,本发明的目的在于提出一种计算资源占用低、实施可靠、数据依赖度低且可使用无标签的数据进行预训练的使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用。
为了实现上述的技术目的,本发明所采用的技术方案为:
一种使用自监督预训练的TimeSformer进行视频目标检测的方法,包括:
S01、搭建基于TimeSformer的无卷积目标检测神经网络框架,导入训练视频形成训练样本,对训练样本进行分块和线性嵌入,再通过TimeSformer分离的时间-空间注意力方式进行编码和解码进行特征提取,最后再经过预测神经网络生成目标检测结果,该目标检测结果指向经分块处理后的训练样本,其设为目标块;
S02、模型预训练:通过自监督的预训练方法,在经分块处理后的训练样本中选择目标块,训练的优化目标变成从原始视频图像寻找该目标块,然后进行神经网络的预训练,形成初步检测神经网络;
S03、模型调优:通过有监督的调优训练方法,将现有视频作为调优训练样本,导入初步检测神经网络进行调优训练,获得所需检测神经网络;
S04、将调优训练获得的检测神经网络用于视频中进行目标检测。
作为一种可能的实施方式,进一步,所述训练视频形成训练样本的方法为:将训练视频拆分成若干图像帧,将图像帧设为训练样本。
作为一种较优的选择实施方式,优选的,对训练样本进行分块和线性嵌入的方法为:
S011、在作为训练样本的图像帧上进行区域分块,形成N块规格为P×P的图像块,其中,不同图像块之间的区域不相交,图像帧的规格为H×W,另外,N=HW/P2,HW为图像帧的面积,P2为图像块的面积;
S012、将图像帧中的图像块进行展平处理成向量x(p,t)的形式,再通过线性嵌入且对应生成序列号后,生成预处理数据,然后将其作为编解码模块的输入数据;
其中,预测神经网络生成的目标检测结果所指向的目标块为图像帧经区域分块处理后所获得的图形块之一。
作为一种较优的选择实施方式,优选的,所述编解码模块通过TimeSformer模块采用分离的时间-空间注意力方式对预处理数据进行编码和解码进行特征提取。
作为一种较优的选择实施方式,优选的,所述TimeSformer模块中,采用了分离的时间-空间注意力机制进行特征提取,
在时间注意力上,仅将图像帧上的每个图像块与其他图像帧的相同空间位置处的图像块进行比较;
在空间注意力上,将图像帧上的每个图像块与同一帧内的各个图像块进行比较。
作为一种较优的选择实施方式,优选的,所述模型预训练的具体方法为:
在经分块处理后的训练样本中选择预测神经网络预测得到的目标块,然后保持编解码模块的输入不变,将目标块输入到编解码模块中,通过神经网络进行预训练,形成初步检测神经网络。
作为一种较优的选择实施方式,优选的,所述模型调优的方法为:
将现有视频进行拆分成图像帧,然后进行区域分块形成图形块后,将图像帧中的图像块进行展平处理成向量形式,再通过线性嵌入且对应生成序列号后,将其作为调优样本数据导入到编解码模块中,由编解码模块通过TimeSformer模块采用TimeSformer分离的时间-空间注意力方式对调优样本数据进行编码和解码进行特征提取,再经过预测神经网络生成目标检测结果之后,将目标检测结果和调优样本均导入初步检测神经网络进行调优训练,在调优训练至预设准确度后,获得所需检测神经网络。
基于上述的视频目标检测方法,本发明还提供一种车载视频车辆目标检测方法,其包括上述所述的使用自监督预训练的TimeSformer进行视频目标检测的方法。
基于上述的车载视频车辆目标检测方法,本发明还提供一种计算机可读的存储介质,其特征在于:所述的存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述的至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行实现上述所述的车载视频车辆目标检测方法。
基于上述的方案,本发明还提供一种终端设备,其装载有上述所述的计算机可读的存储介质。
采用上述的技术方案,本发明与现有技术相比,其具有的有益效果为:
1、本方案在引入TimeSformer模块进行目标检测的同时,通过对视频进行拆分成小块作为TimeSformer模块的输入,避免传统方案使用CNN造成的大量计算资源占用,本方案还能够降低部署时对硬件的要求,从而节省成本;
2、本方案引入了一种自监督的预训练方法,通过对已有的车载视频图像进行随机框选作为检测目标,将任务作为检测随机输入的块在原图位置进行预训练,在预训练模型的基础上,继续训练目标的检测和跟踪任务;通过这种无需使用有标签的数据进行预训练,可以大量减少了训练网络所需要的数据,减少了数据收集和标注的成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方案的简要实施流程示意图;
图2是本发明方案的简要方法框图;
图3基于TimeSformer的目标检测框图;
图4分离的时间-空间注意力简要示意图;
图5分离的时间-空间注意力模块简要示意图;
图6是本发明方案的预训练框图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本实施例方案基于车载视频的目标检测,提供一种使用自监督预训练的timeSformer进行视频目标检测的方法,其包括:
S01、搭建基于TimeSformer的无卷积目标检测神经网络框架,导入训练视频形成训练样本,对训练样本进行分块和线性嵌入,再通过TimeSformer分离的时间-空间注意力方式进行编码和解码进行特征提取,最后再经过预测神经网络生成目标检测结果,该目标检测结果指向经分块处理后的训练样本,其设为目标块;
S02、模型预训练:通过自监督的预训练方法,在经分块处理后的训练样本中选择目标块,将训练的优化目标变成从原始视频图像寻找该目标块进行预训练,形成初步检测神经网络;
S03、模型调优:通过有监督的调优训练方法,将现有视频作为调优训练样本,导入初步检测神经网络进行调优训练,获得所需检测神经网络;
S04、将调优训练获得的检测神经网络用于车载视频中进行目标检测。
在图1所示的基础上,进一步结合图2至图6之一所示,本方案中,作为一种可能的实施方式,进一步,所述训练视频形成训练样本的方法为:将训练视频拆分成若干图像帧,将图像帧设为训练样本。
其中,本实施例方案对训练样本进行分块和线性嵌入的方法为:
S011、在作为训练样本的图像帧上进行区域分块,形成N块规格为P×P的图像块,其中,不同图像块之间的区域不相交,图像帧的规格为H×W,另外,N=HW/P2,HW为图像帧的面积,P2为图像块的面积;
S012、将图像帧中的图像块进行展平处理成向量x(p,t)的形式,再通过线性嵌入且对应生成序列号后,生成预处理数据,然后将其作为编解码模块的输入数据。
本方案中,预测神经网络生成的目标检测结果所指向的目标块为图像帧经区域分块处理后所获得的图形块之一。
本方案中,作为一种较优的选择实施方式,优选的,所述编解码模块通过TimeSformer模块采用分离的时间-空间注意力方式对预处理数据进行编码和解码进行特征提取。
本方案中,作为一种较优的选择实施方式,优选的,所述TimeSformer模块中,采用了分离的时间-空间注意力机制进行特征提取,
在时间注意力上,仅将图像帧上的每个图像块与其他图像帧的相同空间位置处的图像块进行比较;
在空间注意力上,将图像帧上的每个图像块与同一帧内的各个图像块进行比较。
为了提高预训练的效率和使得经预训练后的检测神经网络具有一定的目标检测能力,本方案中,作为一种较优的选择实施方式,优选的,所述模型预训练的具体方法为:
在经分块处理后的训练样本中选择预测神经网络预测得到的目标块,然后保持编解码模块的输入不变,将目标块输入到编解码模块中,训练的优化目标变成从原始视频图像寻找该目标块,进行神经网络预训练,形成初步检测神经网络。
本方案中,作为一种较优的选择实施方式,优选的,所述模型调优的方法为:将现有视频进行拆分成图像帧,然后进行区域分块形成图形块后,将图像帧中的图像块进行展平处理成向量形式,再通过线性嵌入且对应生成序列号后,将其作为调优样本数据导入到编解码模块中,由编解码模块通过TimeSformer模块采用TimeSformer分离的时间-空间注意力方式对调优样本数据进行编码和解码进行特征提取,再经过预测神经网络生成目标检测结果之后,将目标检测结果和调优样本均导入初步检测神经网络进行调优训练,在调优训练至预设准确度后,获得所需检测神经网络。
本实施例方案针对视频的检测和跟踪任务,设计了一种无需卷积网络的TimeSformer编解码检测网络,其能够实现较少计算资源的占用,对部署所需的硬件性能要求较低,更能节省成本;另外,本方案通过自监督预训练方式用于TimeSformer目标检测网络的预训练:其对随机裁剪的图像块进行检测,在预训练过程进行寻找目标块在原图位置的任务,让检测神经网络在进行目标检测任务训练之前具备一定的目标定位性能,为后续的调优训练做了铺垫。基于本实施例方案所提出的神经网络检测框架不仅能适用于车载视频目标检测的任务,也可以扩展用于其他视频的目标检测方案。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种使用自监督预训练的TimeSformer进行视频目标检测的方法,其特征在于,包括:
搭建基于TimeSformer的无卷积目标检测神经网络框架,导入训练视频形成训练样本,对训练样本进行分块和线性嵌入,再通过TimeSformer分离的时间-空间注意力方式进行编码和解码进行特征提取,最后再经过预测神经网络生成目标检测结果,该目标检测结果指向经分块处理后的训练样本,其设为目标块;
模型预训练:通过自监督的预训练方法,在经分块处理后的训练样本中选择目标块,将训练的优化目标变成从原始视频图像寻找该目标块,然后进行神经网络的预训练,形成初步检测神经网络;
模型调优:通过有监督的调优训练方法,将现有视频作为调优训练样本,导入初步检测神经网络进行调优训练,获得所需检测神经网络;
将调优训练获得的检测神经网络用于视频中进行目标检测。
2.如权利要求1所述的使用自监督预训练的TimeSformer进行视频目标检测的方法,其特征在于,所述训练视频形成训练样本的方法为:将训练视频拆分成若干图像帧,将图像帧设为训练样本。
3.如权利要求2所述的使用自监督预训练的TimeSformer进行视频目标检测的方法,其特征在于,对训练样本进行分块和线性嵌入的方法为:
在作为训练样本的图像帧上进行区域分块,形成N块规格为P×P的图像块,其中,不同图像块之间的区域不相交,图像帧的规格为H×W,另外,N=HW/P2,HW为图像帧的面积,P2为图像块的面积;
将图像帧中的图像块进行展平处理成向量x(p,t)的形式,再通过线性嵌入且对应生成序列号后,生成预处理数据,然后将其作为编解码模块的输入数据;
其中,预测神经网络生成的目标检测结果所指向的目标块为图像帧经区域分块处理后所获得的图形块之一。
4.如权利要求3所述的使用自监督预训练的TimeSformer进行视频目标检测的方法,其特征在于,所述编解码模块通过TimeSformer模块采用分离的时间-空间注意力方式对预处理数据进行编码和解码进行特征提取。
5.如权利要求4所述的使用自监督预训练的TimeSformer进行视频目标检测的方法,其特征在于,所述TimeSformer模块中,采用了分离的时间-空间注意力机制进行特征提取,
在时间注意力上,仅将图像帧上的每个图像块与其他图像帧的相同空间位置处的图像块进行比较;
在空间注意力上,将图像帧上的每个图像块与同一帧内的各个图像块进行比较。
6.如权利要求5所述的使用自监督预训练的TimeSformer进行视频目标检测的方法,其特征在于,所述模型预训练的具体方法为:
在经分块处理后的训练样本中选择预测神经网络预测得到的目标块,然后保持编解码模块的输入不变,将目标块输入到编解码模块中,训练的优化目标变成从原始视频图像寻找该目标块,通过神经网络进行预训练,形成初步检测神经网络。
7.如权利要求6所述的使用自监督预训练的TimeSformer进行视频目标检测的方法,其特征在于,所述模型调优的方法为:
将现有视频进行拆分成图像帧,然后进行区域分块形成图形块后,将图像帧中的图像块进行展平处理成向量形式,再通过线性嵌入且对应生成序列号后,将其作为调优样本数据导入到编解码模块中,由编解码模块通过TimeSformer模块采用分离的时间-空间注意力方式对调优样本数据进行编码和解码进行特征提取,再经过预测神经网络生成目标检测结果之后,将目标检测结果和调优样本均导入初步检测神经网络进行调优训练,在调优训练至预设准确度后,获得所需检测神经网络。
8.一种车载视频车辆目标检测方法,其特征在于,其包括权利要求1至7之一所述的使用自监督预训练的TimeSformer进行视频目标检测的方法。
9.一种计算机可读的存储介质,其特征在于:所述的存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述的至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行实现如权利要求8所述的车载视频车辆目标检测方法。
10.一种终端设备,其特征在于,其装载有权利要求9所述的计算机可读的存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110729378.5A CN113449643A (zh) | 2021-06-29 | 2021-06-29 | 使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110729378.5A CN113449643A (zh) | 2021-06-29 | 2021-06-29 | 使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113449643A true CN113449643A (zh) | 2021-09-28 |
Family
ID=77814090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110729378.5A Pending CN113449643A (zh) | 2021-06-29 | 2021-06-29 | 使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449643A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114882298A (zh) * | 2022-07-11 | 2022-08-09 | 东声(苏州)智能科技有限公司 | 一种对抗互补学习模型的优化方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738127A (zh) * | 2019-09-19 | 2020-01-31 | 福建师范大学福清分校 | 基于无监督深度学习神经网络算法的安全帽识别方法 |
CN111950367A (zh) * | 2020-07-08 | 2020-11-17 | 中国科学院大学 | 一种面向航拍影像的无监督车辆重识别方法 |
US20210133623A1 (en) * | 2019-11-04 | 2021-05-06 | International Business Machines Corporation | Self-supervised object detector training using raw and unlabeled videos |
CN112989927A (zh) * | 2021-02-03 | 2021-06-18 | 杭州电子科技大学 | 一种基于自监督预训练的场景图生成方法 |
-
2021
- 2021-06-29 CN CN202110729378.5A patent/CN113449643A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738127A (zh) * | 2019-09-19 | 2020-01-31 | 福建师范大学福清分校 | 基于无监督深度学习神经网络算法的安全帽识别方法 |
US20210133623A1 (en) * | 2019-11-04 | 2021-05-06 | International Business Machines Corporation | Self-supervised object detector training using raw and unlabeled videos |
CN111950367A (zh) * | 2020-07-08 | 2020-11-17 | 中国科学院大学 | 一种面向航拍影像的无监督车辆重识别方法 |
CN112989927A (zh) * | 2021-02-03 | 2021-06-18 | 杭州电子科技大学 | 一种基于自监督预训练的场景图生成方法 |
Non-Patent Citations (2)
Title |
---|
GEDAS BERTASIUS 等: "Is Space-Time Attention All You Need for Video Understanding?", ARXIV, 28 February 2021 (2021-02-28), pages 3 - 5 * |
GEDAS BERTASIUS 等: "Is Space-Time Attention All You Need for Video Understanding?", ARXIV, 9 June 2021 (2021-06-09), pages 2 - 4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114882298A (zh) * | 2022-07-11 | 2022-08-09 | 东声(苏州)智能科技有限公司 | 一种对抗互补学习模型的优化方法及装置 |
CN114882298B (zh) * | 2022-07-11 | 2022-11-01 | 东声(苏州)智能科技有限公司 | 一种对抗互补学习模型的优化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175580B (zh) | 一种基于时序因果卷积网络的视频行为识别方法 | |
CN111274977B (zh) | 多任务卷积神经网络模型及使用方法、装置和存储介质 | |
CN114663670A (zh) | 一种图像检测方法、装置、电子设备及存储介质 | |
CN111523378B (zh) | 一种基于深度学习的人体行为预测方法 | |
CN111191533A (zh) | 行人重识别的处理方法、装置、计算机设备和存储介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN112801103B (zh) | 文本方向识别及文本方向识别模型训练方法、装置 | |
CN112734803B (zh) | 基于文字描述的单目标跟踪方法、装置、设备及存储介质 | |
CN113591674B (zh) | 一种面向实时视频流的边缘环境行为识别系统 | |
CN114663798A (zh) | 一种基于强化学习的单步视频内容识别方法 | |
CN115907009A (zh) | 一种自动驾驶感知模型的迁移方法、装置、设备和介质 | |
CN113449643A (zh) | 使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用 | |
CN115292439A (zh) | 一种数据处理方法及相关设备 | |
CN112464835A (zh) | 一种基于时序增强模块的视频人体行为识别方法 | |
CN116935389A (zh) | 基于自蒸馏算法的文本检测方法及系统 | |
CN116721458A (zh) | 一种基于跨模态时序对比学习的自监督动作识别方法 | |
Wang et al. | Scene uyghur recognition with embedded coordinate attention | |
CN114218434A (zh) | 一种自动标注方法、自动标注装置和计算机可读存储介质 | |
CN115063831A (zh) | 一种高性能行人检索与重识别方法及装置 | |
CN113011320A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN115147718B (zh) | 面向无人移动端视觉分析的场景自适应系统及其方法 | |
CN114663719B (zh) | 面向数据稀缺的自监督数据挖掘方法和系统 | |
CN115471875B (zh) | 一种多码率的行人识别视觉特征编码压缩方法和装置 | |
CN116311107B (zh) | 一种基于推理优化与神经网络的跨摄像头追踪方法及系统 | |
CN116958727A (zh) | 多媒体识别网络生成、多媒体搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |