CN111860442A - 一种基于时序特征共享结构的视频目标检测方法 - Google Patents
一种基于时序特征共享结构的视频目标检测方法 Download PDFInfo
- Publication number
- CN111860442A CN111860442A CN202010762563.XA CN202010762563A CN111860442A CN 111860442 A CN111860442 A CN 111860442A CN 202010762563 A CN202010762563 A CN 202010762563A CN 111860442 A CN111860442 A CN 111860442A
- Authority
- CN
- China
- Prior art keywords
- network
- video
- frame
- time sequence
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于时序特征共享结构的视频目标检测方法包括:通过在原有的神经网络结构中加入时序特征共享结构,完成时序特征共享神经网络构建;在网络训练时通过相邻帧共享的时序神经网络训练方法实现端到端的神经网络训练;利用已训练完成的时序特征共享网络实现准确快速的视频目标检测。本发明通过时序特征共享结构传递上一帧图像特征,实现准确的视频目标检测,并结合相邻帧共享的网络训练方法实现端到端的神经网络训练。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于时序特征共享结构的视频目标检测方法。
背景技术
当前的大部分信息主要通过视频流进行传播,视频分析技术也因此受到了广大学者的关注,而视频目标检测时视频分析技术的基础,伴随着近几年人工智能的不断发展,该领域也受到了广泛的关注。当前的大部分视频目标检测方法由于需要同时读取多帧视频图像进行处理,占用了大量的内存与显存且计算效率较低,对硬件要求较高。而基于时序特征共享结构的神经网络仅对单帧图像进行处理,通过时序特征共享结构获取时序特征,占用计算资源较小,计算速度快,且能实现端到端的神经网络训练,能更好的适用于实际中的应用。
为了解决准确的视频目标检测问题,国内外学术界、工业界提出了很多方案。其中与本发明较为接近的技术方案包括:F.Xiao(F.Xiao,Y.Jae Lee,“Video objectdetection with an aligned spatial-temporal memory”[C],Proceedings of theEuropean Conference on Computer Vision(ECCV),Munich,Germany,pp.485-501,2018)提出了一种名为STMM的共享时空的网络结构,用于处理多个视频帧间的特征共享问题,并考虑到时空上的特征延时问题,进行了时空上特征对齐操作,以消除过去的特征对当前的网络识别的影响;但该共享时空的网络结构STMM对前后多帧的图像特征进行处理,而在实时的实际应用中,后续视频帧的图像并不能在当前帧获得,且该结构较为复杂,不能实现端到端的神经网络训练,实际应用较为困难。M.Liu等人(M.Liu,M.Zhu.“Mobile videoobject detection with temporally-aware feature maps”[C],Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,pp.5686-5695,2018.)结合LSTM和卷积神经网络提出了ConvLSTM结构,并结合SSD目标检测方法实现视频目标检测;该网络利用了多个中间层ConvLSTM结构,共享视频时序特征,但各个ConvLSTM需要单独进行训练,其网络训练较为繁琐,不利于实际场景中的使用。M.Buckler等人(M.Buckler,P.Bedoukian,S.Jayasuriya,et al.“EVA2:Exploiting TemporalRedundancy in Live Computer Vision”[C],2018 ACM/IEEE 45th AnnualInternational Symposium on Computer Architecture(ISCA).IEEE,pp.533-546,2018.)将图像分为关键帧和普通帧,根据关键帧前向传播得到网络的各层特征;在普通帧中,逐像素的计算每个点的运动向量场,结合关键帧提取的特征,对该层网络信息进行补偿和预测;该方法有效结合视频流信息,较好的解决了视频目标检测的运行效率问题,但该方法在变化剧烈的视频处理中,会退化为图像处理的目标检测方法,检测的准确率较低。
综上所述,当前视频目标检测方案中存在如下不足:
1)多数方法通过多帧特征共享实现视频目标检测,但对应的网络训练需要分为多个阶段进行,无法实现端到端的神经网络训练;
2)部分方法通过同时处理一段视频片段的图像帧,得到较好的检测结果,但在实际场景中需要进行实时的目标检测,同时处理一段视频图像对硬件的要求较高,且不能满足实时的实际应用需求;
3)部分方法利用视频流信息,对关键帧和非关键帧进行区分处理,但在视频段较为复杂的情况下,该方法便会化为针对图像的视频目标检测方法,较其他方法检测准确率较低。
视频目标检测作为视频图像分析的基础方法,在各行业中都有较好的实际应用场景,但当前的方法对硬件的计算能力要求较高,且网络由多个部分组成,不能实现端到端的神经网络训练,易用性较差。
发明内容
为了提高视频目标检测的准确率,并实现端到端的神经网络训练,本发明提供了一种基于时序特征共享结构的视频目标检测方法;它通过时序特征共享结构传递上一帧图像特征,实现准确的视频目标检测,并结合相邻帧共享的网络训练方法实现端到端的神经网络训练。
本发明的技术方案如下:
一种基于时序特征共享结构的视频目标检测方法,其特征在于,包括如下步骤:
1)在神经网络中加入时序特征共享网络结构,建立时序特征共享神经网络;
2)在网络训练时通过相邻帧共享的时序神经网络训练方法,实现端到端的神经网络训练;
3)利用已训练完成的时序特征共享网络实现准确快速的视频目标检测。
所述的一种基于时序特征共享结构的视频目标检测方法,其特征在于,所述步骤1)具体过程如下:
1.1)时序特征共享人工神经网络是以YOLOV3为基础进行改进的视频目标检测网络,其基础网络结构为darkNet-53,则网络输出的时序特征集合FM={fij|i=1,2,3,…nframe,j=1,2,3,…,nlayer},其中fij表示在第i帧图像输入网络后在网络中第j层生成的网络特征,nframe表示视频图像的总帧数,nlayer表示网络的层数;在网络的第76层、83层和96层之后分别加入时序特征共享网络结构,该结构的输入为特征fij和fkj,其中fij和fkj分别表示第i帧图像和第k帧图像输入网络后在第j层的特征输出,且满足式(1):
1.2)其后将输入特征通过通道维度拼接操作将两部分特征叠加在一起,输入到下一层网络之中,并将特征fij输入到下一帧的目标检测计算中;在网络的最后,YOLO层对第i帧图像中的目标位置、目标类别和置信度进行输出;
所述的一种基于时序特征共享结构的视频目标检测方法,其特征在于,所述步骤2)具体过程如下:
步骤2.1):从数据集中随机两两读取nbatch组连续视频图像和对应标签作为训练样本S={sp|p=1,2,3,…,nbatch,sp=(Iq,I(q+1),Lq,L(q+1)),q=1,2,3,…,nframe-1},Iq和I(q+1)分别表示第q帧和第q+1帧的视频图像,Lq和L(q+1)分别表示第q帧和第q+1帧对应的标签,nbatch表示样本组数,nframe表示视频图像的总帧数;
步骤2.2):将训练样本S中每组样本sp进行随机翻转、随机仿射变换、随机亮度和对比度变化的数据增广,每组样本sp中的图像和标签其数据增广方式相同,得增广后的训练样本S′;
步骤2.3):将增广后的训练样本S′组成一个批次,输入到时序特征共享神经网络之中进行前向传播,得到图像在76层、83层和96层生成的特征图FM={Fp|p=1,2,3,…,nbatch},Fp=(fq,f(q+1)),其中fq和f(q+1)分别为图像Iq和I(q+1)生成的特征图,fq={fql|l=76,83,96},其中fql表示图像Iq在第l层网络输出的特征图;
步骤2.4):将特征fq和f(q+1)分别作为彼此的共享时序特征,将特征fq和f(q+1)进行通道维度拼接操作后输入到网络中继续进行前向传播,得到第q帧图像的目标检测结果;并将特征f(q+1)和fq进行通道维度拼接操作后,输入到网络中继续进行前向传播,得到第(q+1)帧图像的目标检测结果;
步骤2.5):根据YOLOV3的损失函数,计算前向传播的误差值,再根据误差进行反向传播;
步骤2.6):重复步骤2.1到2.5,直至完成iter次迭代:
其中epoch为事先给定的训练轮数。
所述的一种基于时序特征共享结构的视频目标检测方法,其特征在于,所述步骤3)具体过程如下:
步骤3.1):读取已训练好的网络权重文件和网络配置文件,得神经网络N;
步骤3.2):读入视频V={Ii|i=1,2,3,…,nv},Ii表示视频中第i帧图像,nv表示视频V的总帧数;
步骤3.3):将图像Ii依次输入神经网络N进行前向传播,得图像在76层、83层和96层生成的特征图FM={fij|j=76,83,96},其中fij表示图像Ii在第j层生成的特征图;
步骤3.4):若i=1,则将特征fij复制一份为cfij,再将fij与cfij进行通道维度拼接操作,再将合并结果输入到网络中继续进行前向传播;反之,将特征fij与特征f(i-1)j进行通道维度拼接操作,再将合并结果输入到网络中继续进行前向传播;
步骤3.5):输出网络结果,得视频目标检测结果R。
通过采用上述技术,与现有技术相比,本发明的优点如下:
本发明的一种基于时序特征共享结构得视频目标检测方法;它通过在神经网络中加入简单的时序特征共享结构,实现视频图像特征融合;通过融合前后帧网络特征,提高目标检测准确率,且占用计算资源较少,可较好的应用在实际的场景中;利用相邻帧共享的网络训练方法,在不增加额外显存占用的情况下,实现端到端的神经网络训练。
附图说明
图1为本发明时序特征共享人工神经网络结构图;
图2为本发明相邻帧共享的网络训练方法流程图。
具体实施方法
下面结合实施实例来详细阐述本发明基于时序特征共享结构得视频目标检测方法具体实施方式。
1)在神经网络中加入时序特征共享网络结构,建立时序特征共享神经网络;
1.1)时序特征共享人工神经网络是以YOLOV3为基础进行改进的视频目标检测网络,其基础网络结构为darkNet-53,则网络输出的时序特征集合FM={fij|i=1,2,3,…nframe,j=1,2,3,…,nlayer},其中fij表示在第i帧图像输入网络后在网络中第j层生成的网络特征,nframe表示视频图像的总帧数,nlayer表示网络的层数;在网络的第76层、83层和96层之后分别加入时序特征共享网络结构,该结构的输入为特征fij和fkj,其中fij和fkj分别表示第i帧图像和第k帧图像输入网络后在第j层的特征输出,且满足式(1):
1.2)其后将输入特征通过通道维度拼接操作将两部分特征叠加在一起,输入到下一层网络之中,并将特征fij输入到下一帧的目标检测计算中;在网络的最后,YOLO层对第i帧图像中的目标位置、目标类别和置信度进行输出。
2)利用相邻帧共享的网络训练方法,在不增加额外显存占用的情况下,实现端到端的神经网络训练;
步骤2.1):从数据集中随机两两读取nbatch组连续视频图像和对应标签作为训练样本S={sp|p=1,2,3,…,nbatch,sp=(Iq,I(q+1),Lq,L(q+1)),q=1,2,3,…,nframe-1},Iq和I(q+1)分别表示第q帧和第q+1帧的视频图像,Lq和L(q+1)分别表示第q帧和第q+1帧对应的标签,nbatch表示样本组数,nframe表示视频图像的总帧数;
步骤2.2):将训练样本S中每组样本sp进行随机翻转、随机仿射变换、随机亮度和对比度变化的数据增广,每组样本sp中的图像和标签其数据增广方式相同,得增广后的训练样本S′;
步骤2.3):将增广后的训练样本S′组成一个批次,输入到时序特征共享神经网络之中进行前向传播,得到图像在76层、83层和96层生成的特征图FM={Fp|p=1,2,3,…,nbatch},Fp=(fq,f(q+1)),其中fq和f(q+1)分别为图像Iq和I(q+1)生成的特征图,fq={fql|l=76,83,96},其中fql表示图像Iq在第l层网络输出的特征图;
步骤2.4):将特征fq和f(q+1)分别作为彼此的共享时序特征,将特征fq和f(q+1)进行通道维度拼接操作后输入到网络中继续进行前向传播,得到第q帧图像的目标检测结果;并将特征f(q+1)和fq进行通道维度拼接操作后,输入到网络中继续进行前向传播,得到第(q+1)帧图像的目标检测结果;
步骤2.5):根据YOLOV3的损失函数,计算前向传播的误差值,再根据误差进行反向传播;
步骤2.6):重复步骤2.1到2.5,直至完成iter次迭代:
其中epoch为事先给定的训练轮数,在本示例中,epoch=40。
3)基于时序特征共享网络结构的视频目标检测;
步骤3.1):读取已训练好的网络权重文件和网络配置文件,得神经网络N;
步骤3.2):读入视频V={Ii|i=1,2,3,…,nv},Ii表示视频中第i帧图像,nv表示视频V的总帧数;
步骤3.3):将图像Ii依次输入神经网络N进行前向传播,得图像在76层、83层和96层生成的特征图FM={fij|j=76,83,96},其中fij表示图像Ii在第j层生成的特征图;
步骤3.4):若i=1,则将特征fij复制一份为cfij,再将fij与cfij进行通道维度拼接操作,再将合并结果输入到网络中继续进行前向传播;反之,将特征fij与特征f(i-1)j进行通道维度拼接操作,再将合并结果输入到网络中继续进行前向传播;
步骤3.5):输出网络结果,得视频目标检测结果R。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (4)
1.一种基于时序特征共享结构的视频目标检测方法,其特征在于,包括如下步骤:
1)在神经网络中加入时序特征共享网络结构,建立时序特征共享神经网络;
2)在网络训练时通过相邻帧共享的时序神经网络训练方法,实现端到端的神经网络训练;
3)利用已训练完成的时序特征共享网络实现准确快速的视频目标检测。
2.根据权利要求1所述的一种基于时序特征共享结构的视频目标检测方法,其特征在于,所述步骤1)具体过程如下:
1.1)时序特征共享人工神经网络是以YOLOV3为基础进行改进的视频目标检测网络,其基础网络结构为darkNet-53,则网络输出的时序特征集合FM={fij|i=1,2,3,…nframe,j=1,2,3,…,nlayer},其中fij表示在第i帧图像输入网络后在网络中第j层生成的网络特征,nframe表示视频图像的总帧数,nlayer表示网络的层数;在网络的第76层、83层和96层之后分别加入时序特征共享网络结构,该结构的输入为特征fij和fkj,其中fij和fkj分别表示第i帧图像和第k帧图像输入网络后在第j层的特征输出,且满足式(1):
1.2)其后将输入特征通过通道维度拼接操作将两部分特征叠加在一起,输入到下一层网络之中,并将特征fij输入到下一帧的目标检测计算中;在网络的最后,YOLO层对第i帧图像中的目标位置、目标类别和置信度进行输出。
3.根据权利要求2所述的一种基于时序特征共享结构的视频目标检测方法,其特征在于,所述步骤2)具体过程如下:
步骤2.1):从数据集中随机两两读取nbatch组连续视频图像和对应标签作为训练样本S={sp|p=1,2,3,…,nbatch,sp=(Iq,I(q+1),Lq,L(q+1)),q=1,2,3,…,nframe-1},Iq和I(q+1)分别表示第q帧和第q+1帧的视频图像,Lq和L(q+1)分别表示第q帧和第q+1帧对应的标签,nbatch表示样本组数,nframe表示视频图像的总帧数;
步骤2.2):将训练样本S中每组样本sp进行随机翻转、随机仿射变换、随机亮度和对比度变化的数据增广,每组样本sp中的图像和标签其数据增广方式相同,得增广后的训练样本S′;
步骤2.3):将增广后的训练样本S′组成一个批次,输入到时序特征共享神经网络之中进行前向传播,得到图像在76层、83层和96层生成的特征图FM={Fp|p=1,2,3,…,nbatch},Fp=(fq,f(q+1)),其中fq和f(q+1)分别为图像Iq和I(q+1)生成的特征图,fq={fql|l=76,83,96},其中fql表示图像Iq在第l层网络输出的特征图;
步骤2.4):将特征fq和f(q+1)分别作为彼此的共享时序特征,将特征fq和f(q+1)进行通道维度拼接操作后输入到网络中继续进行前向传播,得到第q帧图像的目标检测结果;并将特征f(q+1)和fq进行通道维度拼接操作后,输入到网络中继续进行前向传播,得到第(q+1)帧图像的目标检测结果;
步骤2.5):根据YOLOV3的损失函数,计算前向传播的误差值,再根据误差进行反向传播;
步骤2.6):重复步骤2.1到2.5,直至完成iter次迭代:
其中epoch为事先给定的训练轮数。
4.根据权利要求3所述一种基于时序特征共享结构的视频目标检测方法,其特征在于,所述步骤3)具体过程如下:
3.1)读取已训练好的网络权重文件和网络配置文件,得神经网络N;
3.2)读入视频V={Ii|i=1,2,3,…,nv},Ii表示视频中第i帧图像,nv表示视频V的总帧数;
3.3)将图像Ii依次输入神经网络N进行前向传播,得图像在76层、83层和96层生成的特征图FM={fij|j=76,83,96},其中fij表示图像Ii在第j层生成的特征图;
若i=1,则将特征fij复制一份为cfij,再将fij与cfij进行通道维度拼接操作,再将合并结果输入到网络中继续进行前向传播;反之,将特征fij与特征f(i-1)j进行通道维度拼接操作,再将合并结果输入到网络中继续进行前向传播;
3.4)输出网络结果,得视频目标检测结果R。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010762563.XA CN111860442B (zh) | 2020-07-31 | 2020-07-31 | 一种基于时序特征共享结构的视频目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010762563.XA CN111860442B (zh) | 2020-07-31 | 2020-07-31 | 一种基于时序特征共享结构的视频目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860442A true CN111860442A (zh) | 2020-10-30 |
CN111860442B CN111860442B (zh) | 2022-11-11 |
Family
ID=72954094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010762563.XA Active CN111860442B (zh) | 2020-07-31 | 2020-07-31 | 一种基于时序特征共享结构的视频目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860442B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792414A (zh) * | 2022-03-31 | 2022-07-26 | 北京鉴智科技有限公司 | 一种用于载体的目标变量检测方法及其系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378348A (zh) * | 2019-07-11 | 2019-10-25 | 北京悉见科技有限公司 | 视频实例分割方法、设备及计算机可读存储介质 |
CN110427807A (zh) * | 2019-06-21 | 2019-11-08 | 诸暨思阔信息科技有限公司 | 一种时序事件动作检测方法 |
CN110458115A (zh) * | 2019-08-14 | 2019-11-15 | 四川大学 | 一种基于时序的多帧集成目标检测算法 |
-
2020
- 2020-07-31 CN CN202010762563.XA patent/CN111860442B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427807A (zh) * | 2019-06-21 | 2019-11-08 | 诸暨思阔信息科技有限公司 | 一种时序事件动作检测方法 |
CN110378348A (zh) * | 2019-07-11 | 2019-10-25 | 北京悉见科技有限公司 | 视频实例分割方法、设备及计算机可读存储介质 |
CN110458115A (zh) * | 2019-08-14 | 2019-11-15 | 四川大学 | 一种基于时序的多帧集成目标检测算法 |
Non-Patent Citations (2)
Title |
---|
FEI GAO,ET AL.: "Occluded person re-identification based on feature fusion and sparse reconstruction", 《SPRINGER》, 23 July 2020 (2020-07-23) * |
FEIXIANG HE: "Local Fusion Networks with Chained Residual Pooling for Video Action Recognition", 《IMAGE AND VISION COMPUTING》, 31 December 2018 (2018-12-31) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792414A (zh) * | 2022-03-31 | 2022-07-26 | 北京鉴智科技有限公司 | 一种用于载体的目标变量检测方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111860442B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840471B (zh) | 一种基于改进Unet网络模型的可行道路分割方法 | |
Yang et al. | A hybrid data association framework for robust online multi-object tracking | |
CN113378600B (zh) | 一种行为识别方法及系统 | |
CN112597883A (zh) | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 | |
US20230410328A1 (en) | Target tracking method and system of spiking neural network based on event camera | |
CN112329794A (zh) | 一种基于双重自注意力机制的图像描述方法 | |
CN111860442B (zh) | 一种基于时序特征共享结构的视频目标检测方法 | |
CN112487934A (zh) | 基于ReID特征的强数据关联一体化实时多目标跟踪方法 | |
US20220212339A1 (en) | Active data learning selection method for robot grasp | |
CN116229519A (zh) | 一种基于知识蒸馏的二维人体姿态估计方法 | |
Chen et al. | MTNet: Mutual tri-training network for unsupervised domain adaptation on person re-identification | |
Sudhakaran et al. | Hierarchical feature aggregation networks for video action recognition | |
US20240062347A1 (en) | Multi-scale fusion defogging method based on stacked hourglass network | |
CN116704433A (zh) | 基于上下文感知关系预测编码的自监督群体行为识别方法 | |
CN110942463A (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
Zhong et al. | Scpnet: self-constrained parallelism network for keypoint-based lightweight object detection | |
CN115330839A (zh) | 基于无锚孪生神经网络的多目标检测跟踪一体化方法 | |
Liu et al. | MTNAS: search multi-task networks for autonomous driving | |
CN112464989A (zh) | 一种基于目标检测网络的闭环检测方法 | |
Luo et al. | Dual-stream VO: Visual Odometry Based on LSTM Dual-Stream Convolutional Neural Network. | |
Nalaie et al. | DeepScale: Online frame size adaptation for multi-object tracking on smart cameras and edge servers | |
Zhang et al. | Network traffic classification method based on subspace triple attention mechanism | |
CN117576164B (zh) | 基于特征联合学习的遥感视频海陆运动目标跟踪方法 | |
CN116012953B (zh) | 一种基于csi的轻量级双任务感知方法 | |
Cheng et al. | Joint learning dynamic pruning and attention for person re-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |