CN112183464A - 基于深度神经网络和图卷积网络的视频行人识别方法 - Google Patents
基于深度神经网络和图卷积网络的视频行人识别方法 Download PDFInfo
- Publication number
- CN112183464A CN112183464A CN202011153198.9A CN202011153198A CN112183464A CN 112183464 A CN112183464 A CN 112183464A CN 202011153198 A CN202011153198 A CN 202011153198A CN 112183464 A CN112183464 A CN 112183464A
- Authority
- CN
- China
- Prior art keywords
- attribute
- graph convolution
- network
- convolution network
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 9
- 238000005065 mining Methods 0.000 claims description 5
- 230000001902 propagating effect Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000006872 improvement Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉的技术领域,具体涉及基于深度神经网络和图卷积网络的视频行人识别方法,引入了一种图卷积网络的模型来捕获多标签图像识别的标签相关性,这种模型将对象分类器视为要学习的一组独立参数向量,通过基于图卷积网络的映射函数从先前的标签表示中学习相互依赖的对象分类器,然后,将生成的分类器应用于另一个子网生成的图像表示,以实现端到端训练。本发明能利用视频的时序特征,提高了行人属性识别的准确率。
Description
技术领域
本发明属于计算机视觉的技术领域,具体涉及基于深度神经网络和图卷积网络的视频行人识别方法。
背景技术
随着世界范围内对社会公共安全需求的日益增长,成千上万的监控摄像头被安装在各式各样的公众聚集场所,如公园、体育场馆、大型广场、学校、医院、商业街、住宅小区等,并由此产生了海量的监控图像和视频数据。同时,硬件存储能力的提升以及互联网云计算、云存储的崛起也加速了视频技术的发展和更新。
如何自动地对这些海量图像、视频数据进行有效的管理、解释和利用,实现对数据语义的理解,已引起众多科研工作者和厂商的广泛关注,视频语义挖掘技术应运而生。视频语义挖掘,就是从海量视频中探索蕴含的高层结构,提取潜在的、引起人们兴趣的、相互关联的、可以理解的语义信息和模式知识的过程。
行人属性是人类可以直接予以描述的行人特征,例如“性别”、“发型”、“穿衣风格”和“携带物”等等,可以同时被机器和人所理解。行人属性作为视觉属性,因其在智能监控系统中得到广泛应用而引起了极大的关注。该算法可用于检索行人并协助完成其他计算机视觉任务,例如行人检测,行人重新识别等。
现有的行人属性分析算法大致非为两大类,一类是基于传统方法,一类是基于深度学习方法。对于传统机器学习方法,起初的行人属性识别算法依赖手工设计的特征,例如方向梯度直方图特征,结合数据增广技术在MIT公共数据集上识别人的性别属性。或使用颜色和纹理特征,并结合支持向量机和马尔科夫随机场等对属性进行识别等等。近年来,深度学习的兴起使得研究者们大都采用深度神经网络构建行人属性识别模型,基于神经网络学习到的特征显著提升了属性识别的能力。
目前大多数的行人属性识别方法都是基于静态图像的。他们在每个实例仅包含一张图像的数据集上进行训练和评估。但是,在实际监控中,我们获得的是连续的图像序列。对于特定属性,行人的单个镜头不一定是最具代表性的。
在过去的十几年中,很多人在行人属性识别领域已经做出了很多努力。最近,由于深度学习的快速发展,许多人开始利用基于卷积神经网络(CNN)的方法,例如联合训练的整体CNN模型。尽管基于深度学习模型的方法表现出良好的性能,目前大多数的行人属性识别方法都是基于静态图像的。但是,在实际监控中,获得的是连续的图像序列。连续的数据可以提供强有力的时间线索,且在视频数据在处理某些特殊情况和质量问题方面也显示出明显的优势。而且目前的行人属性识别还没有去挖掘属性标签间的依赖关系,捕获标签依赖关系是多标签图像识别的关键问题之一。
发明内容
本发明的目的在于:针对现有技术的不足,提供基于深度神经网络和图卷积网络的视频行人识别方法,本发明能利用视频的时序特征,提高了行人属性识别的准确率。
为了实现上述目的,本发明采用如下技术方案:
基于深度神经网络和图卷积网络的视频行人识别方法,包括如下步骤:
步骤一、输入行人图像序列;
步骤二、选择ResNet-50作为骨干模型,提取帧级空间特征;
步骤三、识别是否为运动姿态属性或ID属性,若是运动姿态属性,则进行步骤四;若是ID属性,则进行步骤五;
步骤四、将空间特征向量作为每个属性分类器中的时间注意模块的输入,并生成时间注意向量,然后,将时间注意力向量加权每个帧的空间特征,并且将生成用于识别特定属性的图像序列的最终特征向量,最后,将最终特征向量馈入全连接层以实现属性分类结果。
步骤五、将空间特征向量作为每个属性分类器中的时间注意模块的输入,并生成大小为n×1的时间注意向量,然后,将时间注意力向量加权每个帧的空间特征,并且将生成用于识别特定属性的图像序列的最终特征向量,最后,将图卷积网络引入到属性分类器中,以执行半监督分类。
作为本发明所述的基于深度神经网络和图卷积网络的视频行人识别方法的一种改进,使用空间特征提取器,每个帧由大小为2048×4×7的张量表示,然后,空间特征向量通过两个通道中的卷积和合并单元分别处理,采用全局最大池化来获得图像级特征;
通过属性分类器处理合并空间特征向量。
作为本发明所述的基于深度神经网络和图卷积网络的视频行人识别方法的一种改进,所述步骤五中,将图卷积网络引入到属性分类器中,以执行半监督分类,包括:
将每个图卷积网络节点的最终输出设计为属性识别任务中相应标签的分类器;
基于图卷积网络的分类器学习,通过基于图卷积网络的映射函数从标签表示中学习相互依赖的对象分类器;
通过将学习到的分类器应用于图像表示,得到预测分数。
作为本发明所述的基于深度神经网络和图卷积网络的视频行人识别方法的一种改进,所述图卷积网络通过基于相关矩阵在节点之间传播信息来工作,通过数据驱动的方式构建此相关矩阵,通过在数据集中挖掘标签的共现模式来定义标签之间的相关性,以条件概率的形式对标签相关性依赖性进行建模。
作为本发明所述的基于深度神经网络和图卷积网络的视频行人识别方法的一种改进,所述相关矩阵为非对称结构。
作为本发明所述的基于深度神经网络和图卷积网络的视频行人识别方法的一种改进,所述相关矩阵的构造方法,包括:
对训练集中的标签对的出现进行计数;
通过使用这个标签共现矩阵,得到条件概率矩阵
Pi=Mi/Ni
其中,Mij表示Li和Lj的一起出现的次数,Ni表示训练集中Li的出现次数,Pij=P(Li|Lj)表示出现标签Li时出现标签Lj的概率;
对相关性P进行二值化。
作为本发明所述的基于深度神经网络和图卷积网络的视频行人识别方法的一种改进,对相关性P进行二值化,包括:
使用阈值τ过滤噪声边缘,重新加权,即
其中,A′是重新加权的二进制相关矩阵,而p确定分配给节点本身和其他相关节点的权重。
作为本发明所述的基于深度神经网络和图卷积网络的视频行人识别方法的一种改进,在图卷积网络之后,节点的特征为其自身特征与相邻节点的特征的加权总和。
本发明的有益效果在于,本发明包括基于常规神经网络和图卷积网络神经网络的新型多任务模型,用于行人属性识别;通过端到端可训练多标签图像识别框架,该框架采用图卷积网络将标签表示形式映射到相互依赖的对象分类器,通过图卷积网络中的相关系数矩阵,并重新构建了相关系数矩阵;并通过重新加权方法,同时缓解了过度拟合和过度平滑的问题,此外,本发明对于运动姿势分类部分,采用了时间注意力机制,从而达到更好地分类效果;还将行人属性识别与深度学习相结合,基于视频的行人属性识别方法与传统方法相比,准确新高、特征利用率高,具有一定的市场价值和推广意义。本发明基于视频的行人属性识别方法,并在分类器里引入了图卷积网络的模型,以从先前的标签表示中学习相互依赖的对象分类器,从而提高了行人属性识别的准确率并利用了视频的时序特征。
附图说明
下面将参考附图来描述本发明示例性实施方式的特征、优点和技术效果。
图1为本发明的步骤流程图。
图2为本发明的模型结构图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决技术问题,基本达到技术效果。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
在发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图1~2对本发明作进一步详细说明,但不作为对本发明的限定。
连续的数据还可以提供强有力的时序关联性。而且,视频数据在处理某些特殊情况和质量问题方面也显示出明显的优势。
对于行人属性识别这种多标签的分类任务,本发明引入了一种图卷积网络的模型来捕获多标签图像识别的标签相关性。这种模型将对象分类器视为要学习的一组独立参数向量,通过基于图卷积网络的映射函数从先前的标签表示中学习相互依赖的对象分类器。接下来,将生成的分类器应用于另一个子网生成的图像表示,以实现端到端训练。由于嵌入到分类器的映射参数在所有分类之间共享,因此所有分类器的梯度都会影响基于图卷积网络的分类器生成功能。
在网络的开始,本发明选择ResNet-50作为骨干模型,最后平坦层的输出用作帧级空间特征,然后将网络分为两个通道:分别是运动姿势通道和与ID相关的通道。之所以将分类器分为两个通道,是因为运动姿势属性与ID不相关,并且与ID相关的属性相比,其分类器将专注于空间特征的不同部分。因此在所有ID中直接共享相同的空间特征与id不相关和与id相关的属性分类器将导致功能竞争情况,这意味着与id不相关的分类器和与id相关的分类器都将在训练进度上相互制约。
令I={I1,I2,...,In}是输入图像序列,其中n,w和h分别是帧号,图像宽度和高度,本发明选择n=5,w=112实际上,h=224。使用空间特征提取器Resnet-50,每个帧由大小为2048×4×7的张量表示。然后,空间特征向量由两个通道中的卷积+合并单元分别处理,采用全局最大池化来获得图像级特征x:
x=fGMP(fcnn(I;θcnn))∈RD
其中θcnn表示模型参数,D=2048。
然后由属性分类器处理合并的空间特征向量。对于运动姿势通道,将空间特征向量作为每个属性分类器中的时间注意模块的输入,并生成大小为n×1的时间注意向量A,该向量表示每个帧的重要性。然后,将时间注意力向量用于加权每个帧的空间特征,并且将生成用于识别特定属性的图像序列的最终特征向量D=AT×S。最后,将最终的特征向量馈入全连接层以实现属性分类结果。
对于与ID相关的通道,与运动姿势通道相同,同样引入时间注意力机制模块,生成用于识别特定属性的图像序列的最终特征向量D,然后在此将图卷积网络(GCN)引入到属性分类器中,以执行半监督分类。基本思想是通过在节点之间传播信息来更新节点表示。GCN的目标是学习图G上的函数f(·,·),该图具有特征描述Hl∈Rn×d′和相应的相关性矩阵Al∈Rn×n作为输入(其中n表示节点数,d表示节点特征的维数),并将节点特征更新为Hl+1∈Rn×d′。每个GCN层都通过以下方式写为非线性函数:
Hl+1=f(Hl,A)
采用卷积运算后,f(·,·)表示为
最后将每个GCN节点的最终输出设计为属性识别任务中相应标签的分类器。然后基于GCN的分类器学习通过基于GCN的映射函数从标签表示中学习相互依赖的对象分类器,即其中C表示类别数。使用堆叠的GCN,其中每个GCN层l都将前一层(Hl)的节点表示作为输入,并输出新的节点表示,即Hl+1。对于第一层,输入是Z∈RC×d矩阵,其中d是标签级单词嵌入的维数。对于最后一层,输出为W∈RC×D,其中D表示图像表示的维数。通过将学习到的分类器应用于图像表示,得到预测分数
假设图像的真实标签为y∈RC,其中yi={0,1}表示标签i是否出现在图像中。整个网络使用传统的多标签分类损失进行如下训练
其中σ(·)是S形函数。
GCN通过基于相关矩阵在节点之间传播信息来工作。通过数据驱动的方式构建此相关矩阵,即通过在数据集中挖掘标签的共现模式来定义标签之间的相关性。以条件概率的形式对标签相关性依赖性进行建模,即P(Lj|Li),它表示出现标签Li时出现标签Lj的概率。但是P(Lj|Li)不等于P(Li|Lj),因此,相关矩阵是不对称的。因此需要构造相关矩阵,首先,对训练集中的标签对的出现进行计数,得到矩阵M∈RC×C。具体而言,C是类别数,Mij表示Li和Lj的一起出现的次数。然后,通过使用这个标签共现矩阵,得到条件概率矩阵
Pi=Mi/Ni
其中Ni表示训练集中Li的出现次数,Pij=P(Li|Lj)表示出现标签Li时出现标签Lj的概率。
然后对相关性P进行二值化。具体来说,使用阈值τ过滤噪声边缘。在GCN之后,节点的特征将为其自身特征与相邻节点的特征的加权总和。为缓解节点功能过于平滑的问题,提出重新加权方案的方法,即
其中,A′是重新加权的二进制相关矩阵,而p确定分配给节点本身和其他相关节点的权重。这样,在更新节点特征时,考虑节点本身具有固定的权重,而相关节点的权重将由邻域分布确定。当p趋于1时,将不考虑节点本身的特征。另一方面,当p趋于0时,而不考虑邻域信息。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
Claims (8)
1.基于深度神经网络和图卷积网络的视频行人识别方法,其特征在于,包括如下步骤:
步骤一、输入行人图像序列;
步骤二、选择ResNet-50作为骨干模型,提取帧级空间特征;
步骤三、识别是否为运动姿态属性或ID属性,若是运动姿态属性,则进行步骤四;若是ID属性,则进行步骤五;
步骤四、将空间特征向量作为每个属性分类器中的时间注意模块的输入,并生成时间注意向量,然后,将时间注意力向量加权每个帧的空间特征,并且将生成用于识别特定属性的图像序列的最终特征向量,最后,将最终特征向量馈入全连接层以实现属性分类结果。
步骤五、将空间特征向量作为每个属性分类器中的时间注意模块的输入,并生成大小为n×1的时间注意向量,然后,将时间注意力向量加权每个帧的空间特征,并且将生成用于识别特定属性的图像序列的最终特征向量,最后,将图卷积网络引入到属性分类器中,以执行半监督分类。
2.如权利要求1所述的基于深度神经网络和图卷积网络的视频行人识别方法,其特征在于,所述步骤二中,还包括:
使用空间特征提取器,每个帧由大小为2048×4×7的张量表示,空间特征向量通过两个通道中的卷积和合并单元分别处理,采用全局最大池化来获得图像级特征;
通过属性分类器处理合并空间特征向量。
3.如权利要求1所述的基于深度神经网络和图卷积网络的视频行人识别方法,其特征在于:所述步骤五中,将图卷积网络引入到属性分类器中,以执行半监督分类,包括:
将每个图卷积网络节点的最终输出设计为属性识别任务中相应标签的分类器;
基于图卷积网络的分类器学习,通过基于图卷积网络的映射函数从标签表示中学习相互依赖的对象分类器;
通过将学习到的分类器应用于图像表示,得到预测分数。
4.如权利要求3所述的基于深度神经网络和图卷积网络的视频行人识别方法,其特征在于,所述图卷积网络通过基于相关矩阵在节点之间传播信息来工作,通过数据驱动的方式构建此相关矩阵,通过在数据集中挖掘标签的共现模式来定义标签之间的相关性,以条件概率的形式对标签相关性依赖性进行建模。
5.如权利要求4所述的基于深度神经网络和图卷积网络的视频行人识别方法,其特征在于:所述相关矩阵为非对称结构。
6.如权利要求5所述的基于深度神经网络和图卷积网络的视频行人识别方法,其特征在于:所述相关矩阵的构造方法,包括:
对训练集中的标签对的出现进行计数;
通过使用这个标签共现矩阵,得到条件概率矩阵
Pi=Mi/Ni
其中,Mij表示Li和Lj的一起出现的次数,Ni表示训练集中Li的出现次数,Pij=P(Li|Lj)表示出现标签Li时出现标签Lj的概率;
对相关性P进行二值化。
8.如权利要求7所述的基于深度神经网络和图卷积网络的视频行人识别方法,其特征在于:在图卷积网络之后,节点的特征为其自身特征与相邻节点的特征的加权总和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011153198.9A CN112183464A (zh) | 2020-10-26 | 2020-10-26 | 基于深度神经网络和图卷积网络的视频行人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011153198.9A CN112183464A (zh) | 2020-10-26 | 2020-10-26 | 基于深度神经网络和图卷积网络的视频行人识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183464A true CN112183464A (zh) | 2021-01-05 |
Family
ID=73922126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011153198.9A Pending CN112183464A (zh) | 2020-10-26 | 2020-10-26 | 基于深度神经网络和图卷积网络的视频行人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183464A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906720A (zh) * | 2021-03-19 | 2021-06-04 | 河北工业大学 | 基于图注意力网络的多标签图像识别方法 |
CN113221641A (zh) * | 2021-04-01 | 2021-08-06 | 哈尔滨工业大学(深圳) | 基于生成对抗网络和注意力机制的视频行人重识别方法 |
CN113378965A (zh) * | 2021-06-25 | 2021-09-10 | 齐鲁工业大学 | 一种基于dcgan和gcn的多标签图像识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259836A (zh) * | 2020-01-20 | 2020-06-09 | 浙江大学 | 一种基于动态图卷积表征的视频行人重识别方法 |
CN111476181A (zh) * | 2020-04-13 | 2020-07-31 | 河北工业大学 | 一种人体骨架动作的识别方法 |
CN113378965A (zh) * | 2021-06-25 | 2021-09-10 | 齐鲁工业大学 | 一种基于dcgan和gcn的多标签图像识别方法及系统 |
-
2020
- 2020-10-26 CN CN202011153198.9A patent/CN112183464A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259836A (zh) * | 2020-01-20 | 2020-06-09 | 浙江大学 | 一种基于动态图卷积表征的视频行人重识别方法 |
CN111476181A (zh) * | 2020-04-13 | 2020-07-31 | 河北工业大学 | 一种人体骨架动作的识别方法 |
CN113378965A (zh) * | 2021-06-25 | 2021-09-10 | 齐鲁工业大学 | 一种基于dcgan和gcn的多标签图像识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
XIANGPENG SONG ET AL.: "Pedestrian Attribute Recognition with Graph Convolutional Network in Surveillance Scenarios", 《FUTURE INTERNET》 * |
ZHAOMIN CHEN ET AL.: "Multi-Label Image Recognition with Graph Convolutional Networks", 《ARXIV:1904.03582V1 [CS.CV] 7 APR 2019》 * |
ZHIYUAN CHEN ET AL.: "A Temporal Attentive Approach for Video-Based Pedestrian Attribute Recognition", 《ARXIV:1901.05742V2 [CS.CV] 28 OCT 2019》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906720A (zh) * | 2021-03-19 | 2021-06-04 | 河北工业大学 | 基于图注意力网络的多标签图像识别方法 |
CN113221641A (zh) * | 2021-04-01 | 2021-08-06 | 哈尔滨工业大学(深圳) | 基于生成对抗网络和注意力机制的视频行人重识别方法 |
CN113221641B (zh) * | 2021-04-01 | 2023-07-07 | 哈尔滨工业大学(深圳) | 基于生成对抗网络和注意力机制的视频行人重识别方法 |
CN113378965A (zh) * | 2021-06-25 | 2021-09-10 | 齐鲁工业大学 | 一种基于dcgan和gcn的多标签图像识别方法及系统 |
CN113378965B (zh) * | 2021-06-25 | 2022-09-02 | 齐鲁工业大学 | 一种基于dcgan和gcn的多标签图像识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814854B (zh) | 一种无监督域适应的目标重识别方法 | |
Srinivas et al. | A taxonomy of deep convolutional neural nets for computer vision | |
AlDahoul et al. | Real‐Time Human Detection for Aerial Captured Video Sequences via Deep Models | |
JP2023156308A (ja) | ネットワーク計算エッジにわたってアプリケーションを連続して操作する、人工知能および深層学習においてメモリで境界された継続学習を可能にするシステムおよび方法 | |
US20210326638A1 (en) | Video panoptic segmentation | |
CN112307995B (zh) | 一种基于特征解耦学习的半监督行人重识别方法 | |
JP2017062781A (ja) | 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知 | |
CN110717526A (zh) | 一种基于图卷积网络的无监督迁移学习方法 | |
CN112183464A (zh) | 基于深度神经网络和图卷积网络的视频行人识别方法 | |
CN113297936B (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN111476315A (zh) | 一种基于统计相关性与图卷积技术的图像多标签识别方法 | |
Oluwasammi et al. | Features to text: a comprehensive survey of deep learning on semantic segmentation and image captioning | |
Pavel et al. | Object class segmentation of RGB-D video using recurrent convolutional neural networks | |
CN113052017B (zh) | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 | |
Bai et al. | A survey on deep learning-based single image crowd counting: Network design, loss function and supervisory signal | |
Xu et al. | Graphical modeling for multi-source domain adaptation | |
CN114596589A (zh) | 一种基于交互级联轻量化transformers的域自适应行人重识别方法 | |
Shambharkar et al. | Movie trailer classification using deer hunting optimization based deep convolutional neural network in video sequences | |
CN115240024A (zh) | 一种联合自监督学习和半监督学习的地外图片分割方法和系统 | |
Chen et al. | Visual-based deep learning for clothing from large database | |
Liang et al. | Cross-scene foreground segmentation with supervised and unsupervised model communication | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
Rani et al. | An effectual classical dance pose estimation and classification system employing convolution neural network–long shortterm memory (CNN-LSTM) network for video sequences | |
CN116434347A (zh) | 一种基于掩码图自编码器的骨架序列识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210105 |