CN111814626A - 一种基于自注意力机制的动态手势识别方法和系统 - Google Patents
一种基于自注意力机制的动态手势识别方法和系统 Download PDFInfo
- Publication number
- CN111814626A CN111814626A CN202010607626.4A CN202010607626A CN111814626A CN 111814626 A CN111814626 A CN 111814626A CN 202010607626 A CN202010607626 A CN 202010607626A CN 111814626 A CN111814626 A CN 111814626A
- Authority
- CN
- China
- Prior art keywords
- dynamic gesture
- layer
- convolution
- neural network
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000007246 mechanism Effects 0.000 title claims abstract description 29
- 238000003062 neural network model Methods 0.000 claims abstract description 81
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 42
- 238000011176 pooling Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 31
- 230000003287 optical effect Effects 0.000 claims description 28
- 230000004913 activation Effects 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012935 Averaging Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 5
- 230000017105 transposition Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 abstract description 6
- 230000005764 inhibitory process Effects 0.000 abstract description 2
- 230000001617 migratory effect Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自注意力机制的动态手势识别方法,包括:获取视频图像序列,对该视频图像序列进行采样,以获取多个网络输入数据,将获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中。本发明采用多模输入策略来描述动态手势的发生过程,并且利用非局部信息统计的空间自注意力机制计算出特征图上任意距离的两个元素之间的依赖关系,进而直接获取整个特征图上全局信息对任意元素的影响。这种方式不仅不会丢失细节信息,而且拥有计算效率高、可迁移能力强等优点,并能解决现有的动态手势识别算法中存在的时间资源、计算资源消耗大、缺少对手势发生的关键区域的突出以及非关键区域的抑制等技术问题。
Description
技术领域
本发明属于模式识别技术领域,更具体地,涉及一种基于自注意力机制(Self-attention mechanism)的动态手势识别方法和系统。
背景技术
动态手势识别是计算机视觉领域的一大研究热点,其主要目的在于从连续的图像序列中提取鲁棒的时空域特征,并根据该特征正确的识别出序列所携带手势的类别。目前,作为现代人机交互的一种重要方法,动态手势识别技术已经广泛应用手语识别、智能驾驶、智能家居等领域。
现有的动态手势识别方法主要采用基于深度学习的算法,其拥有良好的特征学习与表达能力,能够在复杂场景下取得一定的识别性能,获得了广泛的关注和发展,已然成为当下的主流实现方法。根据空间信息与时序信息的编码方式,常用的基于深度学习的算法可以分成两大类:一类是基于2D卷积神经网络(2D Convolutional Neural Networks,简称2DCNNs)的双流(Two stream)网络,另一类是基于3D卷积神经网络(3D ConvolutionalNeural Networks,3DCNNs)的网络。
然而,上述基于深度学习的算法仍然存在一些不可忽略的缺陷:
第一、由于现存的多数算法都直接对输入数据进行分析处理,未经过稀疏采样,因此,该类算法较大的占用了时间资源和计算资源。
第二、由于动态手势形成过程复杂且环境干扰较大,因此该类算法缺少对手势发生的关键区域的突出以及非关键区域的抑制。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于自注意力机制的动态手势识别方法和系统。其目的在于,采用多模输入策略来描述动态手势的发生过程,并且利用非局部信息统计的空间自注意力机制计算出特征图上任意距离的两个元素之间的依赖关系,进而直接获取整个特征图上全局信息对任意元素的影响。这种方式不仅不会丢失细节信息,而且拥有计算效率高、可迁移能力强等优点,并能解决现有的动态手势识别算法中存在的时间资源、计算资源消耗大、缺少对手势发生的关键区域的突出以及非关键区域的抑制等技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于自注意力机制的动态手势识别方法,包括以下步骤:
(1)获取视频图像序列,对该视频图像序列进行采样,以获取多个网络输入数据,包括RGB模态数据、深度模态数据、以及光流模态数据;
(2)将步骤(1)获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中,以获得对应于每个RGB模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的RGB模态输出结果;
(3)将步骤(1)获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中,以获得对应于每个深度模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的深度模态输出结果;
(4)将步骤(1)获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中,以获得对应于每个光流模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的光流模态输出结果;
(5)将步骤(2)得到的对应于每个动态手势类别的RGB模态输出结果、步骤(3)得到的对应于每个动态手势类别的深度模态输出结果、以及步骤(4)得到的对应于每个动态手势类别的光流模态输出结果进行加权求和,以获得对应于每个动态手势类别的类别预测概率值,将所有类别预测概率值中最大值所对应的动态手势类别作为最终的手势识别结果。
优选地,步骤(1)具体为,首先将获得的视频图像序列V均匀分成N个视频段[v1,v2,…vN],从每个视频段vi中随机选取一帧图片si,并获取该帧图片si的RGB模态数据、深度模态数据、以及流模态数据作为网络输入数据,其中N为自然数,其最小值为1,最大值为获得的视频图像序列V中的总帧数,且有i∈[1,N]。
优选地,第一、第二和第三神经网络模型的结构均为:
第一层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成;
第二层是卷积模块层,由卷积层、BN层、激活函数按顺序前后串联形成;
第三层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成;
第四层是自注意力模块层,包括多个卷积层与池化层;
第五层是自注意力模块层,其与第四层具有完全相同的结构;
第六层是输出模块层,其是由池化层、归一化层(Softmax)按顺序前后串联形成。
优选地,每个自注意力模块层包括四路一级卷积分支;
第四路一级卷积分支由1*1的卷积层、3*3的卷积层、3*3的卷积层按顺序前后串联形成;
第三路一级卷积分支由平均池化层、1*1的卷积层按顺序前后串联形成;
第二路一级卷积分支由1*1的卷积层、3*3的卷积层按顺序前后串联形成;
第一路一级卷积分支是由一个1*1的卷积层形成,且与四路二级卷积分支分别串联,用于实现自注意力机制。
优选地,第一路二级卷积分支的输出数据等于输入数据x∈RC×W×H,其中C、W和H分别表示输入数据的通道数、宽和高,
在第二路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作变换为二维矩阵f(x)∈RC×M,然后该二维矩阵通过转置操作变为f(x)T。
在第三路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作变换为二维矩阵g(x)∈RC×M;
在第四路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作变换为二维矩阵h(x)∈RC×M;
最后,将乘积HM进行重塑处理,并根据重塑处理结果与输入数据x生成二级卷积分支的最终处理结果FA:
FA=x+gamma*RC×W×H(HM)
其中,gamma是一个可学习的参数,初值为0,其随着自注意力机制的不断学习,该值将逐渐更新到合适的数值;RC×W×H(HM)表示将HM的空间维度从C×M重塑为C×W×H。
优选地,第一、第二和第三神经网络模型中的每一个神经网络模型都是通过以下过程训练得到的:
(a)获取动态手势数据集,并将该动态手势数据集数据按4:1的比例划分为训练集与测试集。
(b)根据步骤(a)获得的训练集,并使用神经网络模型的损失函数计算神经网络模型的损失值。
(c)根据步骤(b)获得的损失值,并利用反向传播算法对神经网络模型的所有权重参数进行更新和优化,以获得更新后的神经网络模型;
(d)对步骤(c)更新后的神经网络模型进行迭代训练,直到该第一神经网络模型的损失函数达到最小为止重复迭代步骤(b)和(c),直到该网络模型的损失值达到最小为止,从而得到迭代训练后的神经网络模型;
(e)使用步骤(a)获得的数据集中的测试集对步骤(d)迭代训练后的第一神经网络模型进行迭代验证,直到获得的分类精度达到最优为止,从而获得训练好的神经网络模型。
优选地,神经网络模型的损失函数为网络预测的动态手势类别与真实类别之间的交叉熵,具体为:
优选地,步骤(c)中,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,偏置参数的初始值设为0,反向传播算法是采用Adam-Optimizer作为优化器。
按照本发明的另一方面,提供了一种基于自注意力机制的动态手势识别系统,包括:
第一模块,用于获取视频图像序列,对该视频图像序列进行采样,以获取多个网络输入数据,包括RGB模态数据、深度模态数据、以及光流模态数据;
第二模块,用于将第一模块获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中,以获得对应于每个RGB模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的RGB模态输出结果;
第三模块,用于将第一模块获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中,以获得对应于每个深度模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的深度模态输出结果;
第四模块,用于将第一模块获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中,以获得对应于每个光流模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的光流模态输出结果;
第五模块,用于将第二模块得到的对应于每个动态手势类别的RGB模态输出结果、第三模块得到的对应于每个动态手势类别的深度模态输出结果、以及第四模块得到的对应于每个动态手势类别的光流模态输出结果进行加权求和,以获得对应于每个动态手势类别的类别预测概率值,将所有类别预测概率值中最大值所对应的动态手势类别作为最终的手势识别结果。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明由于采用了步骤(1)对获得的视频图像序列进行稀疏采样,再将采样结果送入神经网络模型。相比于将所有的视频图像序列作为网络输入,不仅大大减少了输入数据的冗余信息,而且减少了神经网络的计算量,降低了时间资源、计算资源的消耗。因此能够解决现有方法中存在的时间资源、计算资源的消耗大的问题。
(2)本发明由于采用了步骤(2)、(3)和(4),在动态手势识别网络模型的构建过程中实现了自注意力机制,同时借助自注意力机制,在网络特征的学习过程中考虑了特征图上全局信息对任意元素的影响,且对任意两元素之间的依赖关系进行了系统化建模,突出了特征图的关键部分,抑制了非关键部分。因此解决了现有方法中存在的缺少对手势发生的关键区域的突出以及非关键区域的抑制问题。
(3)本发明由于采用了步骤(5),利用RGB模态、深度模态以及光流模态来共同描述一个动态手势的发生过程,融合了多个模态的判别信息,增强了算法的鲁棒性,提高了动态手势识别的稳定性。
附图说明
图1是本发明基于自注意力机制的动态手势识别方法的流程示意图;
图2是本发明方法的步骤(1)中获取的多个网络输入数据,其中图2(a)是RGB模态数据,图2(b)是深度模态数据,图2(c)是垂直方向的光流数据,图2(d)是水平方向的光流数据;
图3是本发明方法的步骤(2)中所用的卷积模块层结构示意图;
图4是本发明方法的步骤(2)中所用的输出模块层结构示意图;
图5是本发明方法的步骤(2)中所用的自注意力模块层结构示意图;
图6是本发明方法的步骤(5)的工作示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明提供了一种基于自注意力机制的动态手势识别方法,包括以下步骤:
(1)获取视频图像序列,对该视频图像序列进行采样,以获取多个网络输入数据,包括彩色(RGB)模态数据(如图2(a)所示)、深度(Depth)模态数据(如图2(b)所示)、以及光流(Flow)模态数据(如图2(c)和(d)所示);
具体而言,本步骤首先是将获得的视频图像序列V均匀分成N个视频段[v1,v2,…vN],从每个视频段vi中随机选取一帧图片si,并获取该帧图片si的RGB模态数据、深度模态数据、以及流模态数据作为网络输入数据(它们用作后续神经网络模型的输入),其中N为自然数,其最小值为1,最大值为获得的视频图像序列V中的总帧数,且有i∈[1,N]。
(2)将步骤(1)获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中,以获得对应于每个RGB模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的RGB模态输出结果;
本步骤中,对同一动态手势类别对应的所有预测概率值取平均值,就是将一个动态手势类别对应的所有预测概率值进行求和,然后除以N。
具体而言,本发明的第一神经网络模型架构如下:
第一层是卷积模块层,由卷积层、批归一化(Batch Normalization,简称BN)层、激活函数、池化层按顺序前后串联形成。其中,卷积核尺寸为7*7,卷积步长为1*1,激活函数采用ReLU,池化层采用最大池化。
第二层是卷积模块层(如图3所示),由卷积层、BN层、激活函数按顺序前后串联形成。其中,卷积核尺寸为1*1,卷积步长为1*1,激活函数采用ReLU。
第三层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成。其中,卷积核尺寸为3*3,卷积步长为1*1,激活函数采用ReLU,池化层采用最大池化。
第四层是自注意力模块层(如图5所示)。自注意力模块层包括多个卷积层与池化层。每个自注意力模块层的输入数据都将经过四路一级卷积分支,获得四个卷积结果。将四路一级卷积分支的卷积结果前后串联获得该模块的输出结果。每路一级卷积分支有着不同的卷积核尺寸或卷积层串联顺序。
第四路一级卷积分支由1*1的卷积层、3*3的卷积层、3*3的卷积层按顺序前后串联形成;第三路一级卷积分支由平均池化层、1*1的卷积层按顺序前后串联形成;第二路一级卷积分支由1*1的卷积层、3*3的卷积层按顺序前后串联形成。第一路一级卷积分支是由一个1*1的卷积层形成,且与四路二级卷积分支分别串联,用于实现自注意力机制。
将二级卷积分支的输入数据表示为x∈RC×W×H,其中R表示实数域,C、W和H分别表示输入数据的通道数、宽和高。
在四路二级卷积分支中,第一路二级卷积分支不做任何操作,输出数据等于输入数据x∈RC×W×H,
在第二路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作(Reshape)变换为二维矩阵f(x)∈RC×M,然后该二维矩阵通过转置操作变为f(x)T。
在第三路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作(Reshape)变换为二维矩阵g(x)∈RC×N;
在第四路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作(Reshape)变换为二维矩阵h(x)∈RC×M;
最后,将乘积HM进行重塑处理,并根据重塑处理结果与输入数据x生成二级卷积分支的最终处理结果FA:
FA=x+gamma*RC×W×H(HM)
其中,gamma是一个可学习的参数,初值为0,其随着自注意力机制的不断学习,该值将逐渐更新到合适的数值;RC×W×H(HM)表示将HM的空间维度从C×M重塑为C×W×H。
第五层是自注意力模块层,第五层与第四层具有完全相同的结构,在此不再赘述。
第六层是输出模块层(如图4所示),其是由池化层、归一化层(Softmax)按顺序前后串联形成。其中,池化层采用平均池化。
本发明第一神经网络模型是通过以下步骤训练获得的:
(2-1)获取动态手势数据集,并将该动态手势数据集数据按4:1的比例划分为训练集与测试集。
在本步骤中,获取的动态手势数据集是例如Sheffield KInect Gesture(SKIG)数据集、ChaLearn LAP Isolated Gesture(IsoGD)数据集。
(2-2)根据步骤(2-1)获得的训练集,并使用第一神经网络模型的损失函数计算第一神经网络模型的损失值。
优选地,该网络模型的损失函数为网络预测的动态手势类别与真实类别之间的交叉熵(Softmax cross-entropy)。
(2-3)根据步骤(2-2)获得的损失值,并利用反向传播算法对第一神经网络模型的所有权重参数进行更新和优化,以获得更新后的第一神经网络模型;
具体而言,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,偏置参数的初始值设为0;
具体而言,为了加快损失值的下降速度,本步骤中的反向传播算法是采用Adam-Optimizer作为优化器,这是由于该优化器具有动量以及自适应学习率的优势。
(2-4)对步骤(2-3)更新后的第一神经网络模型进行迭代训练,直到该第一神经网络模型的损失函数达到最小为止重复迭代步骤(2-2)和(2-3),直到该网络模型的损失值达到最小为止,从而得到迭代训练后的第一神经网络模型;
第一神经网络模型的损失函数L为:
(2-5)使用步骤(2-1)获得的数据集中的测试集对步骤(2-4)迭代训练后的第一神经网络模型进行迭代验证,直到获得的分类精度达到最优为止,从而获得训练好的第一神经网络模型。
(3)将步骤(1)获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中,以获得对应于每个深度模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的深度模态输出结果;
具体而言,本发明的第二神经网络模型架构如下:
第一层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成。其中,卷积核尺寸为7*7,卷积步长为1*1,激活函数采用ReLU,池化层采用最大池化。
第二层是卷积模块层(如图3所示),由卷积层、BN层、激活函数按顺序前后串联形成。其中,卷积核尺寸为1*1,卷积步长为1*1,激活函数采用ReLU。
第三层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成。其中,卷积核尺寸为3*3,卷积步长为1*1,激活函数采用ReLU,池化层采用最大池化。
第四层和第五层都是自注意力模块层,其结构和上述第一神经网络模型中的自注意力模块层完全相同,在此不再赘述。
第六层是输出模块层(如图4所示),由池化层、归一化层(Softmax)按顺序前后串联形成。其中,池化层采用平均池化。
本发明第二神经网络模型是通过以下步骤训练获得的:
(3-1)获取动态手势数据集,并将该动态手势数据集数据按4:1的比例划分为训练集与测试集。
在本步骤中,获取的动态手势数据集是例如Sheffield KInect Gesture(SKIG)数据集、ChaLearn LAP Isolated Gesture(IsoGD)数据集。
(3-2)根据步骤(3-1)获得的训练集,并使用第二神经网络模型的损失函数计算第二神经网络模型的损失值。
优选地,该网络模型的损失函数为网络预测的动态手势类别与真实类别之间的交叉熵(Softmax cross-entropy)。
(3-3)根据步骤(3-2)获得的损失值,并利用反向传播算法对第二神经网络模型的所有权重参数进行更新和优化,以获得更新后的第二神经网络模型;
具体而言,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,偏置参数的初始值设为0;
具体而言,为了加快损失值的下降速度,本步骤中的反向传播算法是采用Adam-Optimizer作为优化器,这是由于该优化器具有动量以及自适应学习率的优势。
(3-4)对步骤(3-3)更新后的第二神经网络模型进行迭代训练,直到该第二神经网络模型的损失函数达到最小为止重复迭代步骤(3-2)和(3-3),直到该网络模型的损失值达到最小为止,从而得到迭代训练后的第二神经网络模型;
第二神经网络模型的损失函数L为:
(3-5)使用步骤(3-1)获得的数据集中的测试集对步骤(3-4)迭代训练后的第二神经网络模型进行迭代验证,直到获得的分类精度达到最优为止,从而获得训练好的第二神经网络模型。
(4)将步骤(1)获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中,以获得对应于每个光流模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的光流模态输出结果;
具体而言,本发明的第三神经网络模型架构如下:
第一层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成。其中,卷积核尺寸为7*7,卷积步长为1*1,激活函数采用ReLU,池化层采用最大池化。
第二层是卷积模块层(如图3所示),由卷积层、BN层、激活函数按顺序前后串联形成。其中,卷积核尺寸为1*1,卷积步长为1*1,激活函数采用ReLU。
第三层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成。其中,卷积核尺寸为3*3,卷积步长为1*1,激活函数采用ReLU,池化层采用最大池化。
第四层和第五层都是自注意力模块层,其结构和上述第一神经网络模型中的自注意力模块层完全相同,在此不再赘述。
第六层是输出模块层(如图5所示),由池化层、归一化层(Softmax)按顺序前后串联形成。其中,池化层采用平均池化。
本发明第三神经网络模型是通过以下步骤训练获得的:
(4-1)获取动态手势数据集,并将该动态手势数据集数据按4:1的比例划分为训练集与测试集。
在本步骤中,获取的动态手势数据集是例如Sheffield KInect Gesture(SKIG)数据集、ChaLearn LAP Isolated Gesture(IsoGD)数据集。
(4-2)根据步骤(4-1)获得的训练集,并使用第三神经网络模型的损失函数计算第三神经网络模型的损失值。
优选地,该网络模型的损失函数为网络预测的动态手势类别与真实类别之间的交叉熵(Softmax cross-entropy)。
(4-3)根据步骤(4-2)获得的损失值,并利用反向传播算法对第三神经网络模型的所有权重参数进行更新和优化,以获得更新后的第三神经网络模型;
具体而言,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,偏置参数的初始值设为0;
具体而言,为了加快损失值的下降速度,本步骤中的反向传播算法是采用Adam-Optimizer作为优化器,这是由于该优化器具有动量以及自适应学习率的优势。
(4-4)对步骤(4-3)更新后的第三神经网络模型进行迭代训练,直到该第三神经网络模型的损失函数达到最小为止重复迭代步骤(4-2)和(4-3),直到该第三神经网络模型的损失值达到最小为止,从而得到迭代训练后的第三神经网络模型;
第三神经网络模型的损失函数L为:
(4-5)使用步骤(4-1)获得的数据集中的测试集对步骤(4-4)迭代训练后的第三神经网络模型进行迭代验证,直到获得的分类精度达到最优为止,从而获得训练好的第三神经网络模型。
(5)将步骤(2)得到的对应于每个动态手势类别的RGB模态输出结果、步骤(3)得到的对应于每个动态手势类别的深度模态输出结果、以及步骤(4)得到的对应于每个动态手势类别的光流模态输出结果进行加权求和,以获得对应于每个动态手势类别的类别预测概率值(如图6所示)。将所有类别预测概率值中最大值所对应的动态手势类别作为最终的手势识别结果。
具体而言,步骤(5)融合了三种不同模态对同一动态手势的类别预测,其中对三种模态输出结果进行加权求和时,任意两个模态输出结果之间的权重比范围为1:0.1到1:10,优选为1:1。
总而言之,本发明提出了一种基于自注意力机制的动态手势识别算法,该算法沿用了经典的双流(Two-stream)的思想,通过在New inception(即本发明提出的四路一级卷积分支的架构)框架中嵌入自注意力机制来增强特征图上的关键信息,并且利用多模输入策略实现对动态手势更全面、更详细、更高级的描述。
实验结果
本发明实验环境:CPU为2枚Intel Xeon(R)@2.20GHz,GPU为四块NVIDIATitan X12GB,内存为128GB,在ubuntu16.04操作系统下,采用pytorch编程实现本文算法。具体的参数设置如下:采样帧数为16,batch_size大小取10,初始学习率取0.01,每迭代20次,学习率下降到10%。
为了说明自注意力机制在本发明中的有效性,我们做了相关的对比试验。“-”表示基于Inception v2且不使用自注意力机制的网络模型,“+”表示本发明中基于Inceptionv2且使用自注意力机制的网络模型,在Sheffield KInect Gesture(SKIG)数据集和ChaLearn LAP Isolated Gesture(IsoGD)数据集上分别微调这两个网络,表1和表2分别给出了SKIG和isoGD上的测试结果。
表1 SKIG测试结果
表2 isoGD测试结果
由表1和表2可知,使用自注意力机制后本发明算法在SKIG数据集的三种模态上的精确度分别提高了7.76%、3.33%和0.36%,在isoGD数据集的三种模态上的精确度分别提高了4.47%、2.87%和0.36%。因此表明了自注意力机制可以增强特征表达的鲁棒性,提高动态手势识别算法的性能。
表3 SKIG测试结果对比
表3给出了本发明在SKIG上的测试结果以及与其它主流算法的对比。从表3中可以看出,在SKIG数据集上,本发明达到了最优的识别效果。M3D+LSTM、R3DCNN、MRNN分别利用3维卷积神经网络或RNN或LSTM从序列中直接提取空间时序特征,做动态手势识别,它们的性能都略低于本发明算法,证明了本发明基于注意力机制做动态手势识别的有效性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于自注意力机制的动态手势识别方法,其特征在于,包括以下步骤:
(1)获取视频图像序列,对该视频图像序列进行采样,以获取多个网络输入数据,包括RGB模态数据、深度模态数据、以及光流模态数据;
(2)将步骤(1)获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中,以获得对应于每个RGB模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的RGB模态输出结果;
(3)将步骤(1)获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中,以获得对应于每个深度模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的深度模态输出结果;
(4)将步骤(1)获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中,以获得对应于每个光流模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的光流模态输出结果;
(5)将步骤(2)得到的对应于每个动态手势类别的RGB模态输出结果、步骤(3)得到的对应于每个动态手势类别的深度模态输出结果、以及步骤(4)得到的对应于每个动态手势类别的光流模态输出结果进行加权求和,以获得对应于每个动态手势类别的类别预测概率值,将所有类别预测概率值中最大值所对应的动态手势类别作为最终的手势识别结果。
2.根据权利要求1所述的动态手势识别方法,其特征在于,步骤(1)具体为,首先将获得的视频图像序列V均匀分成N个视频段[v1,v2,...vN],从每个视频段vi中随机选取一帧图片si,并获取该帧图片si的RGB模态数据、深度模态数据、以及流模态数据作为网络输入数据,其中N为自然数,其最小值为1,最大值为获得的视频图像序列V中的总帧数,且有i∈[1,N]。
3.根据权利要求1所述的动态手势识别方法,其特征在于,第一、第二和第三神经网络模型的结构均为:
第一层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成;
第二层是卷积模块层,由卷积层、BN层、激活函数按顺序前后串联形成;
第三层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成;
第四层是自注意力模块层,包括多个卷积层与池化层;
第五层是自注意力模块层,其与第四层具有完全相同的结构;
第六层是输出模块层,其是由池化层、归一化层按顺序前后串联形成。
4.根据权利要求3所述的动态手势识别方法,其特征在于,
每个自注意力模块层包括四路一级卷积分支;
第四路一级卷积分支由1*1的卷积层、3*3的卷积层、3*3的卷积层按顺序前后串联形成;
第三路一级卷积分支由平均池化层、1*1的卷积层按顺序前后串联形成;
第二路一级卷积分支由1*1的卷积层、3*3的卷积层按顺序前后串联形成;
第一路一级卷积分支是由一个1*1的卷积层形成,且与四路二级卷积分支分别串联,用于实现自注意力机制。
5.根据权利要求4所述的动态手势识别方法,其特征在于,
第一路二级卷积分支的输出数据等于输入数据x∈RC×W×H,其中C、W和H分别表示输入数据的通道数、宽和高,
在第二路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作变换为二维矩阵f(x)∈RC×M,然后该二维矩阵通过转置操作变为f(x)T。
在第三路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作变换为二维矩阵g(x)∈RC×M;
在第四路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作变换为二维矩阵h(x)∈RC×M;
最后,将乘积HM进行重塑处理,并根据重塑处理结果与输入数据x生成二级卷积分支的最终处理结果FA:
FA=x+gamma*RC×W×H(HM)
其中,gamma是一个可学习的参数,初值为0,其随着自注意力机制的不断学习,该值将逐渐更新到合适的数值;RC×W×H(HM)表示将HM的空间维度从C×M重塑为C×W×H。
6.根据权利要求1所述的动态手势识别方法,其特征在于,第一、第二和第三神经网络模型中的每一个神经网络模型都是通过以下过程训练得到的:
(a)获取动态手势数据集,并将该动态手势数据集数据按4∶1的比例划分为训练集与测试集。
(b)根据步骤(a)获得的训练集,并使用神经网络模型的损失函数计算神经网络模型的损失值。
(c)根据步骤(b)获得的损失值,并利用反向传播算法对神经网络模型的所有权重参数进行更新和优化,以获得更新后的神经网络模型;
(d)对步骤(c)更新后的神经网络模型进行迭代训练,直到该第一神经网络模型的损失函数达到最小为止重复迭代步骤(b)和(c),直到该网络模型的损失值达到最小为止,从而得到迭代训练后的神经网络模型;
(e)使用步骤(a)获得的数据集中的测试集对步骤(d)迭代训练后的第一神经网络模型进行迭代验证,直到获得的分类精度达到最优为止,从而获得训练好的神经网络模型。
8.根据权利要求7所述的动态手势识别方法,其特征在于,步骤(c)中,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,偏置参数的初始值设为0,反向传播算法是采用Adam-Optimizer作为优化器。
9.一种基于自注意力机制的动态手势识别系统,其特征在于,包括:
第一模块,用于获取视频图像序列,对该视频图像序列进行采样,以获取多个网络输入数据,包括RGB模态数据、深度模态数据、以及光流模态数据;
第二模块,用于将第一模块获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中,以获得对应于每个RGB模态数据的动态手势类别的预测概率值,并对所有预测概率值取平均值,从而获得RGB模态输出结果;
第三模块,用于将第一模块获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中,以获得对应于每个深度模态数据的动态手势类别的预测概率值,并对所有预测概率值取平均值,从而获得深度模态输出结果;
第四模块,用于将第一模块获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中,以获得对应于每个光流模态数据的动态手势类别的预测概率值,并对所有预测概率值取平均值,从而获得光流模态输出结果;
第五模块,用于将第二模块得到的RGB模态输出结果、第三模块得到的深度模态输出结果、以及第四模块得到的光流模态输出结果进行加权求和,以获得最终的类别预测概率值。以概率值为依据,将最大概率值所对应的动态手势类别作为最终的输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010607626.4A CN111814626B (zh) | 2020-06-29 | 2020-06-29 | 一种基于自注意力机制的动态手势识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010607626.4A CN111814626B (zh) | 2020-06-29 | 2020-06-29 | 一种基于自注意力机制的动态手势识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814626A true CN111814626A (zh) | 2020-10-23 |
CN111814626B CN111814626B (zh) | 2021-01-26 |
Family
ID=72856366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010607626.4A Expired - Fee Related CN111814626B (zh) | 2020-06-29 | 2020-06-29 | 一种基于自注意力机制的动态手势识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814626B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507947A (zh) * | 2020-12-18 | 2021-03-16 | 宜通世纪物联网研究院(广州)有限公司 | 基于多模态融合的手势识别方法、装置、设备及介质 |
CN112597884A (zh) * | 2020-12-22 | 2021-04-02 | 中国科学院计算技术研究所 | 手势识别模型的训练方法、手势识别方法及系统 |
CN113158757A (zh) * | 2021-02-08 | 2021-07-23 | 海信视像科技股份有限公司 | 显示设备及手势控制方法 |
CN113239824A (zh) * | 2021-05-19 | 2021-08-10 | 北京工业大学 | 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法 |
CN113466852A (zh) * | 2021-06-08 | 2021-10-01 | 江苏科技大学 | 应用于随机干扰场景下的毫米波雷达动态手势识别方法 |
CN114390760A (zh) * | 2022-01-20 | 2022-04-22 | 北方工业大学 | 一种灯光控制方法及系统 |
WO2022266853A1 (en) * | 2021-06-22 | 2022-12-29 | Intel Corporation | Methods and devices for gesture recognition |
CN117711016A (zh) * | 2023-11-29 | 2024-03-15 | 亿慧云智能科技(深圳)股份有限公司 | 基于终端设备的手势识别方法及系统 |
CN117975573A (zh) * | 2024-03-29 | 2024-05-03 | 华南理工大学 | 基于CNN-Transformer混合模型的手语翻译方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013027091A1 (en) * | 2011-07-28 | 2013-02-28 | Arb Labs Inc. | Systems and methods of detecting body movements using globally generated multi-dimensional gesture data |
CN103530619B (zh) * | 2013-10-29 | 2016-08-31 | 北京交通大学 | 基于rgb-d数据构成的少量训练样本的手势识别方法 |
CN108388882A (zh) * | 2018-03-16 | 2018-08-10 | 中山大学 | 基于全局-局部rgb-d多模态的手势识别方法 |
CN109299396A (zh) * | 2018-11-28 | 2019-02-01 | 东北师范大学 | 融合注意力模型的卷积神经网络协同过滤推荐方法及系统 |
CN110334584A (zh) * | 2019-05-20 | 2019-10-15 | 广东工业大学 | 一种基于区域全卷积网络的手势识别方法 |
CN110569738A (zh) * | 2019-08-15 | 2019-12-13 | 杨春立 | 基于密集连接网络的自然场景文本检测方法、设备和介质 |
US10600334B1 (en) * | 2018-12-11 | 2020-03-24 | NEX Team Inc. | Methods and systems for facilitating interactive training of body-eye coordination and reaction time |
-
2020
- 2020-06-29 CN CN202010607626.4A patent/CN111814626B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013027091A1 (en) * | 2011-07-28 | 2013-02-28 | Arb Labs Inc. | Systems and methods of detecting body movements using globally generated multi-dimensional gesture data |
CN103530619B (zh) * | 2013-10-29 | 2016-08-31 | 北京交通大学 | 基于rgb-d数据构成的少量训练样本的手势识别方法 |
CN108388882A (zh) * | 2018-03-16 | 2018-08-10 | 中山大学 | 基于全局-局部rgb-d多模态的手势识别方法 |
CN109299396A (zh) * | 2018-11-28 | 2019-02-01 | 东北师范大学 | 融合注意力模型的卷积神经网络协同过滤推荐方法及系统 |
US10600334B1 (en) * | 2018-12-11 | 2020-03-24 | NEX Team Inc. | Methods and systems for facilitating interactive training of body-eye coordination and reaction time |
CN110334584A (zh) * | 2019-05-20 | 2019-10-15 | 广东工业大学 | 一种基于区域全卷积网络的手势识别方法 |
CN110569738A (zh) * | 2019-08-15 | 2019-12-13 | 杨春立 | 基于密集连接网络的自然场景文本检测方法、设备和介质 |
Non-Patent Citations (4)
Title |
---|
LIU, XIAOYU等: "Spatio-temporal Attention Network for Video Instance Segmentation", 《PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS》 * |
WANG H等: "Large-Scale Multimodal Gesture Recognition Using Heterogeneous Networks", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS (ICCVW)》 * |
沙洁等: "基于视觉的动态手势识别综述", 《计算机科学与应用》 * |
高志杰: "基于循环三维卷积神经网络和注意力机制的手势识别", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507947A (zh) * | 2020-12-18 | 2021-03-16 | 宜通世纪物联网研究院(广州)有限公司 | 基于多模态融合的手势识别方法、装置、设备及介质 |
CN112597884A (zh) * | 2020-12-22 | 2021-04-02 | 中国科学院计算技术研究所 | 手势识别模型的训练方法、手势识别方法及系统 |
CN113158757B (zh) * | 2021-02-08 | 2023-04-07 | 海信视像科技股份有限公司 | 显示设备及手势控制方法 |
CN113158757A (zh) * | 2021-02-08 | 2021-07-23 | 海信视像科技股份有限公司 | 显示设备及手势控制方法 |
CN113239824A (zh) * | 2021-05-19 | 2021-08-10 | 北京工业大学 | 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法 |
CN113239824B (zh) * | 2021-05-19 | 2024-04-05 | 北京工业大学 | 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法 |
CN113466852B (zh) * | 2021-06-08 | 2023-11-24 | 江苏科技大学 | 应用于随机干扰场景下的毫米波雷达动态手势识别方法 |
CN113466852A (zh) * | 2021-06-08 | 2021-10-01 | 江苏科技大学 | 应用于随机干扰场景下的毫米波雷达动态手势识别方法 |
WO2022266853A1 (en) * | 2021-06-22 | 2022-12-29 | Intel Corporation | Methods and devices for gesture recognition |
CN114390760B (zh) * | 2022-01-20 | 2023-11-21 | 北方工业大学 | 一种灯光控制方法及系统 |
CN114390760A (zh) * | 2022-01-20 | 2022-04-22 | 北方工业大学 | 一种灯光控制方法及系统 |
CN117711016A (zh) * | 2023-11-29 | 2024-03-15 | 亿慧云智能科技(深圳)股份有限公司 | 基于终端设备的手势识别方法及系统 |
CN117975573A (zh) * | 2024-03-29 | 2024-05-03 | 华南理工大学 | 基于CNN-Transformer混合模型的手语翻译方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111814626B (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814626B (zh) | 一种基于自注意力机制的动态手势识别方法和系统 | |
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
CN110443805B (zh) | 一种基于像素密切度的语义分割方法 | |
Dong et al. | Crowd counting by using top-k relations: A mixed ground-truth CNN framework | |
CN109344920B (zh) | 顾客属性预测方法、存储介质、系统及设备 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
Li et al. | Robust deep neural networks for road extraction from remote sensing images | |
CN113222998B (zh) | 基于自监督低秩网络的半监督图像语义分割方法及装置 | |
CN115222998B (zh) | 一种图像分类方法 | |
Li et al. | Transformer for object detection: Review and benchmark | |
CN111899203A (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
Zhu et al. | Training strategies for cnn-based models to parse complex floor plans | |
CN114743027A (zh) | 弱监督学习引导的协同显著性检测方法 | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
Wen et al. | Cross-modality salient object detection network with universality and anti-interference | |
Rui et al. | EDite-HRNet: Enhanced Dynamic Lightweight High-Resolution Network for Human Pose Estimation | |
He et al. | ECS-SC: Long-tailed classification via data augmentation based on easily confused sample selection and combination | |
Tang et al. | A deep map transfer learning method for face recognition in an unrestricted smart city environment | |
CN117611963A (zh) | 基于多尺度扩展残差网络的小目标检测方法及系统 | |
CN115860113B (zh) | 一种自对抗神经网络模型的训练方法及相关装置 | |
Okazaki et al. | Multi-task learning regression via convex clustering | |
CN116420174A (zh) | 用于卷积神经网络的全尺度卷积 | |
Liu et al. | A weight-incorporated similarity-based clustering ensemble method | |
CN112529057A (zh) | 一种基于图卷积网络的图相似性计算方法及装置 | |
CN111967973A (zh) | 银行客户数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210126 |
|
CF01 | Termination of patent right due to non-payment of annual fee |