CN112733695B - 一种行人重识别领域中的非监督关键帧挑选方法 - Google Patents
一种行人重识别领域中的非监督关键帧挑选方法 Download PDFInfo
- Publication number
- CN112733695B CN112733695B CN202110003753.8A CN202110003753A CN112733695B CN 112733695 B CN112733695 B CN 112733695B CN 202110003753 A CN202110003753 A CN 202110003753A CN 112733695 B CN112733695 B CN 112733695B
- Authority
- CN
- China
- Prior art keywords
- key frame
- feature map
- frames
- layer
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及人工智能中计算机视觉领域,具体的说,是一种行人重识别领域中的非监督关键帧挑选方法。
背景技术
行人重识别(Person Re-identification(Person ReID))主要是从不同摄像头中分辨出行人身份,即给定一个行人图像,检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。
一个行人在摄像头下,会形成一段连续的轨迹,这段轨迹称为连续帧,为从这段连续帧中挑选出最能代表这个行人信息的关键帧,但目前面对的问题是,行人的连续帧之间的差异很小,即走路的姿势和步子的大小之类的差异很小,行人外观在连续帧之间几乎没有差异,所以很难用简单的传统算法挑选他们的差异,而且这其中会加入主观认为,最终导致关键帧中蕴含的信息无法完全代表行人信息。
现有技术就提取关键帧的方法主要分为三类:
(1)基于光流、SIFT等传统特征;基于光流等特征提取关键帧的算法对于同一个ID重复出现时会提取到相似的特征;
(2)基于聚类等算法;基于聚类等提取关键帧的算法会对初始选取的簇中心极其敏感;
(3)基于卷积神经网络(CNNs)+人工设定;基于卷积神经网络的方法没有与任务相关联,而是人为认定关键帧是哪些,缺乏理论依据,而且带有较大的随机性,其中,人工指随机抽取或者均匀抽取。
现有技术的一种具体技术方案如一种针对行人重识别领域视频帧的输入的一种关键帧的挑选方法(基于卷积神经网络(CNNs)+人工设定的方式),在数据的预处理部分采用随机抽取和均匀抽取两种方法实现对关键帧的提取。
其中,随机抽取:从原始的帧序列中,随机选取一定数量的帧作为关键帧,输入到特征提取网络。
均匀抽取:从原始的帧序列中,间隔均匀的选取一定数量的帧作为关键帧,输入到特征提取网络。
发明内容
本发明的目的在于提供一种行人重识别领域中的非监督关键帧挑选方法,实现关键帧的无监督自适应挑选,使得挑选出来的关键帧能够最大程度包含视频核心信息。
本发明通过下述技术方案实现:一种行人重识别领域中的非监督关键帧挑选方法,包括下述步骤:
1)输入N个具有T帧的行人的连续视频片段至基础网络中提取出特征图F,且F∈RN ×T×c×h×w;其中,N代表视频片段的个数,即连续帧序列的个数,此处也代表ID的个数,T代表单个视频片段中帧的长度,c代表特征图F的通道数,优选为3,即r、g、b三通道,h(优选为256)和w(优选为128)分别代表特征图F的高度和宽度,优选的每个视频片段包含有12张视频图像,即输入N个具有T帧的行人的连续视频片段的维度为:N*T*3*256*128;
2)将特征图F输入到关键帧提取单元,得到池化层后的特征图输出F’,即特征图输出F’具有的维度为:N*T*2048*8*4;
3)利用层次聚类法,对特征图输出F’进行聚类,生成伪标签;例如,对于第i个行人的第j帧,生成的伪标签为Liji∈N,j∈T,对应的特征为F'iji∈N,j∈T,则有:
Lij=C(Fi'j)i∈N,j∈T;
5)将每次迭代训练时关键帧提取网络最后的FC(全连接)层进行分类,并从特征图输出F’的分类中各挑选出一个作为关键帧的特征组成集合Fk',其中,Fk *代表一个关键帧的特征,Fk’代表所有关键帧的特征组成的集合,即得输入样本的关键帧的特征的集合,从而对应到原来的特征提取单元的输入,找到对应的帧即为关键帧。
进一步的为更好地实现本发明,特别采用下述设置方式:所述基础网络采用去掉最后两层的ResNet-50而得到的改进的ResNet-50神经网络。
进一步的为更好地实现本发明,特别采用下述设置方式:所述改进的ResNet-50神经网络包括一个7*7核的卷积层(Conv1)、3*3核的池化层(maxpooling)以及连接在池化层后的四个小模块,且四个小模块分别设置有3个、4个、6个、3个残差模块。
进一步的为更好地实现本发明,特别采用下述设置方式:四个小模块中的所述残差模块采用统一形式,皆设置有一个1*1核的卷积层、3*3核的卷积层和1*1核的卷积层。
进一步的为更好地实现本发明,特别采用下述设置方式:在任一残差模块的1*1核的卷积层和3*3核的卷积层之间皆设置有归一化层。
进一步的为更好地实现本发明,特别采用下述设置方式:所述关键帧提取单元设置有两个1*1的卷积层、一个池化层和一个全连接层。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明在搭建好关键帧挑选网络(key frame extraction net)的基础上,通过层次聚类(hierarchical clustering)生成伪标签(pseudo label),利用伪标签训练关键帧挑选网络(即关键帧提取网络),实现完全无监督的关键帧挑选,在同等情况下,该方法挑选出的关键帧能够极大程度代表视频片段的核心信息。
(2)本发明采用的是无监督的方法,没有加入人为干预,网络进行自主优化,达到最优后,提取出来的关键帧能够极大代表视频帧序列的核心信息。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
实施例1:
本发明设计出一种行人重识别领域中的非监督关键帧挑选方法,实现关键帧的无监督自适应挑选,使得挑选出来的关键帧能够最大程度包含视频核心信息,包括下述步骤:
1)输入N个具有T帧的行人的连续视频片段至基础网络中提取出特征图F,且F∈RN ×T×c×h×w;其中,N代表视频片段的个数,即连续帧序列的个数,此处也代表ID的个数,T代表单个视频片段中帧的长度,c代表特征图F的通道数,优选为3,即r、g、b三通道,h(优选为256)和w(优选为128)分别代表特征图F的高度和宽度,优选的每个视频片段包含有12张视频图像,即输入N个具有T帧的行人的连续视频片段的维度为:N*T*3*256*128;
2)将特征图F输入到关键帧提取单元,得到池化层后的特征图输出F’,即特征图输出F’具有的维度为:N*T*2048*8*4;
3)利用层次聚类法,对特征图输出F’进行聚类,生成伪标签;例如,对于第i个行人的第j帧,生成的伪标签为Liji∈N,j∈T,对应的特征为F'iji∈N,j∈T,则有:
Lij=C(Fi'j)i∈N,j∈T;
5)将每次迭代训练时关键帧提取网络最后的FC(全连接)层进行分类,并从特征图输出F’的分类中各挑选出一个作为关键帧的特征组成集合Fk',其中,Fk *代表一个关键帧的特征,Fk’代表所有关键帧的特征组成的集合,即得输入样本的关键帧的特征的集合,从而对应到原来的特征提取单元的输入,找到对应的帧即为关键帧。
实施例2:
本实施例是在上述实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述基础网络采用去掉最后两层的ResNet-50而得到的改进的ResNet-50神经网络,且改进的ResNet-50神经网络包括一个7*7核的卷积层(Conv1)、3*3核的池化层(maxpooling)以及连接在池化层后的四个小模块,且四个小模块分别设置有3个、4个、6个、3个残差模块。
实施例3:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:四个小模块中的所述残差模块采用统一形式,皆设置有一个1*1核的卷积层、3*3核的卷积层和1*1核的卷积层。
作为优选的设置方案,在任一残差模块的1*1核的卷积层和3*3核的卷积层之间皆设置有归一化层。
实施例4:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同部分在此将不再赘述,进一步的为更好地实现本发明,特别采用下述设置方式:所述关键帧提取单元设置有两个1*1的卷积层、一个池化层和一个全连接层。
实施例5:
一种行人重识别领域中的非监督关键帧挑选方法,由于挑选视频片段中的关键帧关键在于挑选出的帧之间的差异比较大,且能够涵盖这段视频中的大部分信息,则在该实施例中将关键帧提取的任务抽象成一个分类任务,即针对T维度上的分类任务。所以,该实施例针对这个分类任务训练一个网络,让网络逐渐去学习视频中比较关键的帧是哪些,然后挑选出来,在训练模型的过程中,由于需要解决标签生成的问题,则在该实施例中使用了层次聚类传统算法来生成对应视频片段中每一帧的标签,然后利用标签训练网络,再更新,不断优化特征提取网络。满足迭代次数后,网络达到最优,而后可以利用该网络提取关键帧。
如表1所示为本实施例中所采用的基础网络的结构表:
表1基础网络结构表
如表2所示为本实施例所采用的关键帧提取网络;
表2关键帧提取网络
结合表1、表2,该实施例所示出的一种行人重识别领域中的非监督关键帧挑选方法具体为:
(1)输入为N个行人的连续视频片段(每个视频片段包含T帧),首先经过基础网络(表1,为改进的ResNet-50网络)后提取到特征图F,且F∈RN×T×c×h×w;其中,N代表视频片段的个数,即连续帧序列的个数,此处也代表ID的个数,T代表单个视频片段中帧的长度,c代表特征图的通道数,优选为3即r、g、b三通道,h(优选为256)和w(优选为128)分别代表特征图F的高度和宽度。此处经过基础网络后,得到的特征图为F∈RN×T×2048×8×4。改进的ResNet-50网络包括了一个7*7核的卷积层(Conv1)、3*3核的池化层(Pool1)以及后面四个模块;这四个模分别包含了3、4、6、3个残差块;每一个残差块均包含了同样的结构:1*1核的卷积层、3*3核的卷积层、1*1核的卷积层,有时候每一个残差模块会加入归一化层(BN)。其中stride指的是卷积核运动的步长,用来控制输出特征图的大小。
(2)将特征图F输入到关键帧提取单元(亦称关键帧提取网络,如表2所示,为两个卷积层、一个池化层和一个全连接层),得到池化层后的特征图输出F’;
(3)利用层次聚类法,对特征图输出F’进行聚类,生成伪标签。例如,对于第i个行人的第j帧,生成的伪标签为Liji∈N,j∈T,对应的特征为F'iji∈N,j∈T,则有:
Lij=C(Fi'j)i∈N,j∈T;
(4)把层次聚类产生的伪标签当做真实标签,利用交叉熵损失函数Losskf训练关键帧提取网络。在进行训练时,设置一个迭代次数,达到这个迭代次数后,就退出这个关键帧提取网络的训练。最后利用关键帧提取网络最后的FC层进行分类,即将每次迭代训练时关键帧提取网络最后的FC(全连接)层进行分类,并从特征图输出F’的分类中各挑选出一个作为关键帧的特征组成集合Fk',其中,Fk *代表一个关键帧的特征,Fk’代表所有关键帧的特征组成的集合,即得输入样本的关键帧的特征的集合,从而对应到原来的特征提取单元的输入,找到对应的帧即为关键帧。
本发明通过具体实例将步骤(2)、(3)和(4)的详细过程展示如下:输入:
特征图F:N个行人对应的T个视频片段经过基础网络后的得到的特征图F={Fij}(i∈N,j∈T);
迭代次数:I
执行:
簇类个数:c;
关键帧数量:n=c;
设置迭代次数:iter=0;
For I=1:I do
将输入导入关键帧提取网络,输出两层卷积后的特征FS。
FS=σ2(conv2(σ1(conv1(F))))。
将FS导入层次聚类模型,得到FS特征所对应的类簇L
L=Ccluser(Fs)
将FS输入全连接FC层,得到得分S。
S=Llinear(Fs)
结合S和L,利用交叉熵损失函数Losskf计算loss。
反向传播,更新关键帧提取网络。
iter=iter+1
输出:
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (2)
1.一种行人重识别领域中的非监督关键帧挑选方法,其特征在于:包括下述步骤:
1)输入N个具有T帧的行人的连续视频片段至基础网络中提取出特征图F,且F∈RN ×T×c×h×w;其中,N代表视频片段的个数,T代表单个视频片段中帧的长度,c代表特征图F的通道数,h和w分别代表特征图F的高度和宽度;所述基础网络采用去掉最后两层的ResNet-50而得到的改进的ResNet-50神经网络;所述改进的ResNet-50神经网络包括一个7*7核的卷积层、3*3核的池化层以及连接在池化层后的四个小模块,且四个小模块分别设置有3个、4个、6个、3个残差模块;四个小模块中的所述残差模块采用统一形式,皆设置有一个1*1核的卷积层、3*3核的卷积层和1*1核的卷积层;在任一残差模块的1*1核的卷积层和3*3核的卷积层之间皆设置有归一化层;
2)将特征图F输入到关键帧提取单元,得到池化层后的特征图输出F’;
3)利用层次聚类法,对特征图输出F’进行聚类,生成伪标签;
4)将步骤3)所生成的伪标签当做真实标签,利用交叉熵损失函数Losskf经多次迭代训练关键帧提取网络,且交叉熵损失函数Losskf的计算公式为:其中,Lij代表第i个行人的第j帧,生成的伪标签,其中Liji∈N,j∈T;
2.根据权利要求1所述的一种行人重识别领域中的非监督关键帧挑选方法,其特征在于:所述关键帧提取单元设置有两个1*1的卷积层、一个池化层和一个全连接层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110003753.8A CN112733695B (zh) | 2021-01-04 | 2021-01-04 | 一种行人重识别领域中的非监督关键帧挑选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110003753.8A CN112733695B (zh) | 2021-01-04 | 2021-01-04 | 一种行人重识别领域中的非监督关键帧挑选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733695A CN112733695A (zh) | 2021-04-30 |
CN112733695B true CN112733695B (zh) | 2023-04-25 |
Family
ID=75589621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110003753.8A Active CN112733695B (zh) | 2021-01-04 | 2021-01-04 | 一种行人重识别领域中的非监督关键帧挑选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733695B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268583A (zh) * | 2014-09-16 | 2015-01-07 | 上海交通大学 | 基于颜色区域特征的行人重识别方法及系统 |
CN109508663A (zh) * | 2018-10-31 | 2019-03-22 | 上海交通大学 | 一种基于多层次监督网络的行人重识别方法 |
CN110414462A (zh) * | 2019-08-02 | 2019-11-05 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种无监督的跨域行人重识别方法及系统 |
CN110619271A (zh) * | 2019-08-12 | 2019-12-27 | 浙江浩腾电子科技股份有限公司 | 一种基于深度区域特征连接的行人重识别方法 |
CN110929679A (zh) * | 2019-12-05 | 2020-03-27 | 杭州电子科技大学 | 一种基于gan的无监督自适应行人重识别方法 |
CN110942025A (zh) * | 2019-11-26 | 2020-03-31 | 河海大学 | 一种基于聚类的无监督跨域行人重识别方法 |
CN111626245A (zh) * | 2020-06-01 | 2020-09-04 | 安徽大学 | 一种基于视频关键帧的人体行为识别方法 |
CN111832514A (zh) * | 2020-07-21 | 2020-10-27 | 内蒙古科技大学 | 基于软多标签的无监督行人重识别方法及装置 |
CN112069920A (zh) * | 2020-08-18 | 2020-12-11 | 武汉大学 | 基于属性特征驱动聚类的跨域行人重识别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11537817B2 (en) * | 2018-10-18 | 2022-12-27 | Deepnorth Inc. | Semi-supervised person re-identification using multi-view clustering |
AU2019200976A1 (en) * | 2019-02-12 | 2020-08-27 | Canon Kabushiki Kaisha | Method, system and apparatus for generating training samples for matching objects in a sequence of images |
CN109902662B (zh) * | 2019-03-20 | 2023-10-24 | 中山大学 | 一种行人重识别方法、系统、装置和存储介质 |
CN110765841A (zh) * | 2019-09-03 | 2020-02-07 | 上海交通大学 | 基于混合注意力机制的群组行人重识别系统及终端 |
CN111126360B (zh) * | 2019-11-15 | 2023-03-24 | 西安电子科技大学 | 基于无监督联合多损失模型的跨域行人重识别方法 |
CN111967294B (zh) * | 2020-06-23 | 2022-05-20 | 南昌大学 | 一种无监督域自适应的行人重识别方法 |
CN111860678B (zh) * | 2020-07-29 | 2024-02-27 | 中国矿业大学 | 一种基于聚类的无监督跨域行人重识别方法 |
-
2021
- 2021-01-04 CN CN202110003753.8A patent/CN112733695B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268583A (zh) * | 2014-09-16 | 2015-01-07 | 上海交通大学 | 基于颜色区域特征的行人重识别方法及系统 |
CN109508663A (zh) * | 2018-10-31 | 2019-03-22 | 上海交通大学 | 一种基于多层次监督网络的行人重识别方法 |
CN110414462A (zh) * | 2019-08-02 | 2019-11-05 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种无监督的跨域行人重识别方法及系统 |
CN110619271A (zh) * | 2019-08-12 | 2019-12-27 | 浙江浩腾电子科技股份有限公司 | 一种基于深度区域特征连接的行人重识别方法 |
CN110942025A (zh) * | 2019-11-26 | 2020-03-31 | 河海大学 | 一种基于聚类的无监督跨域行人重识别方法 |
CN110929679A (zh) * | 2019-12-05 | 2020-03-27 | 杭州电子科技大学 | 一种基于gan的无监督自适应行人重识别方法 |
CN111626245A (zh) * | 2020-06-01 | 2020-09-04 | 安徽大学 | 一种基于视频关键帧的人体行为识别方法 |
CN111832514A (zh) * | 2020-07-21 | 2020-10-27 | 内蒙古科技大学 | 基于软多标签的无监督行人重识别方法及装置 |
CN112069920A (zh) * | 2020-08-18 | 2020-12-11 | 武汉大学 | 基于属性特征驱动聚类的跨域行人重识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112733695A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Video swin transformer | |
Zhang et al. | Context-aware surveillance video summarization | |
Gupta et al. | Cross modal distillation for supervision transfer | |
Wang et al. | Unsupervised learning of visual representations using videos | |
Sargano et al. | Human action recognition using transfer learning with deep representations | |
KR102235745B1 (ko) | 컨볼루션 순환 신경망을 훈련시키는 방법 및 훈련된 컨볼루션 순환 신경망을 사용하는 입력된 비디오의 의미적 세그먼트화 방법 | |
CN110914836A (zh) | 在跨联网计算边缘连续运行应用程序的人工智能和深度学习中实现连续的存储器有界学习的系统和方法 | |
CN111723645B (zh) | 用于同相机内有监督场景的多相机高精度行人重识别方法 | |
CN110929679B (zh) | 一种基于gan的无监督自适应行人重识别方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN113627266A (zh) | 基于Transformer时空建模的视频行人重识别方法 | |
CN113128424A (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN112115780A (zh) | 一种基于深度多模型协同的半监督行人重识别方法 | |
CN112766062A (zh) | 一种基于双流深度神经网络的人体行为识别方法 | |
CN112183464A (zh) | 基于深度神经网络和图卷积网络的视频行人识别方法 | |
CN114743133A (zh) | 一种轻量化的小样本视频分类识别方法及系统 | |
Nikhal et al. | Multi-context grouped attention for unsupervised person re-identification | |
Li et al. | Video is graph: Structured graph module for video action recognition | |
Pellegrini et al. | Neural network pruning denoises the features and makes local connectivity emerge in visual tasks | |
Harakannanavar et al. | Robust video summarization algorithm using supervised machine learning | |
CN112733695B (zh) | 一种行人重识别领域中的非监督关键帧挑选方法 | |
Gozuacik et al. | Turkish movie genre classification from poster images using convolutional neural networks | |
CN115049894A (zh) | 一种基于图学习的全局结构信息嵌入网络的目标重识别方法 | |
Hassan et al. | Story based video retrieval using deep visual and textual information | |
Beikmohammadi et al. | Mixture of deep-based representation and shallow classifiers to recognize human activities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |