CN110210320B - 基于深度卷积神经网络的多目标无标记姿态估计方法 - Google Patents
基于深度卷积神经网络的多目标无标记姿态估计方法 Download PDFInfo
- Publication number
- CN110210320B CN110210320B CN201910377054.2A CN201910377054A CN110210320B CN 110210320 B CN110210320 B CN 110210320B CN 201910377054 A CN201910377054 A CN 201910377054A CN 110210320 B CN110210320 B CN 110210320B
- Authority
- CN
- China
- Prior art keywords
- target
- estimation model
- attitude estimation
- data set
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度卷积神经网络的多目标无标记姿态估计方法,包括以下步骤:从视频中采集包含目标行为的图像序列;针对每幅图像,标注每个目标特征部位的位置和类别,并构建训练数据集与测试数据集;构建多目标姿态估计模型;对多目标姿态估计模型进行训练以调整其权重,优化多目标姿态估计模型;对多目标姿态估计模型中进行精度评估,根据精度与期望值的关系,进行目标姿态估计或是进行重新训练、优化多目标姿态估计模型。本发明的方法,只需少量训练图像就可以在准确度上达到人类水平;在背景杂乱、不均匀光照以及相机失真等情况下也可以有效地跟踪目标特征部位;且对不同类型的目标,都能取得较好的效果。
Description
技术领域
本发明属于计算机视觉领域,特别是一种基于深度卷积神经网络的多目标无标记姿态估计方法。
背景技术
基于计算机视觉的多目标姿态估计问题是指根据图像特征估计各个部位的位置与关联信息,在人机交互、视频监控、虚拟现实、自动驾驶等领域具有广大的应用范围和很强的实用价值。然而,姿态估计的研究面临许多挑战,如图像中的目标数量通常无法预先确定,多目标情况下容易出现目标相互遮挡等。而且随着目标数量的增加,算法的运行效率也面临巨大的挑战。在深度学习被广泛应用之前,图结构(Pictorial Structures)模型被广泛应用于姿态估计,但是基于图结构模型的结果精度不高,且难以扩展到多目标姿态估计。
深度学习算法的提出,给多目标姿态估计提供了一种新的方向,目前多目标姿态估计主要有两种思路,一种是基于自顶向下的算法,其是先从图像中检测出所有目标,随后利用单目标姿态估计的方法对所有目标进行姿态估计,但该算法的缺点是:运行效率随着目标数量增加而降低,且部分被遮挡的目标无法被检测,精度不高。另一种是基于自底向上的算法,先其是检测出所有目标的节点,再将节点进行连接形成图,最后通过图优化的方法剔除错误的连接,实现多目标姿态估计。自底向上算法的优点是运行时间不随目标数量的增加而线性增加,更有利于实时多目标姿态估计。但目前的自底向上类姿态估计算法在实际应用中,易受到不均匀光照、背景杂乱、相机失真等干扰因素的影响,对干扰因素的鲁棒性不高。且无论是自底向上或是自顶向下的思路,算法优化的步骤都比较复杂,给使用人员带来了较大的困难。
发明内容
本发明的目的在于提供一种速度快、精度高、鲁棒性好、成本低的多目标无标记姿态估计方法。
实现本发明目的的技术解决方案为:基于深度卷积神经网络的多目标无标记姿态估计方法,包括以下步骤:
步骤1、从视频中采集包含目标行为的图像序列;
步骤2、针对采集的图像序列中的每幅图像,按照相同的顺序人工标注每个目标特征部位的位置和类别,并根据标注后的图像序列构建训练数据集与测试数据集;
步骤3、基于深度残差网络构建多目标姿态估计模型;
步骤4、利用训练数据集对多目标姿态估计模型进行端到端的训练以调整其权重,进而生成优化后的多目标姿态估计模型;
本发明与现有技术相比,其显著优点为:1)通过采用迁移学习方法,只需少量的训练图像,就可以使得多目标姿态估计模型的精度达到人工标注的水平;2)基于计算机视觉对目标进行姿态估计,无需使用物理标记(如安装传感器)来跟踪目标特征部位,成本低廉,操作方便;3)利用深度残差网络结构学习图像的深层特征,提高了自底向上姿态估计算法检测目标节点的精度,且对不同类型的目标,都能够取得很好的效果;4)本发明设计的神经网络模型对视频压缩的稳健性较好,在线进行姿态估计时对图像进行适度降采样可以极大提高模型推理的速度,同时保证模型的预测精度损失很少。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于深度神经网络的多目标无标记姿态估计方法的流程图。
图2为本发明实施例中采集的图像序列示意图。
图3为本发明实施例中目标标注方法示意图。
图4为本发明实施例中的标签文件示意图。
图5为本发明实施例中设计的多目标姿态估计模型结构图。
图6为本发明实施例中多目标姿态估计模型的可视化训练过程示意图。
图7为本发明实施例中多目标姿态估计模型训练的整体架构示意图。
图8、图9均为本发明实施例中的目标姿态估计示意图。
具体实施方式
结合图1,本发明基于深度卷积神经网络的多目标无标记姿态估计方法,包括以下步骤:
步骤1、从视频中采集包含目标行为的图像序列;
步骤2、针对采集的图像序列中的每幅图像,按照相同的顺序人工标注每个目标特征部位的位置和类别,并根据标注后的图像序列构建训练数据集与测试数据集;
步骤3、基于深度残差网络构建多目标姿态估计模型;
步骤4、利用训练数据集对多目标姿态估计模型进行端到端的训练以调整其权重,进而生成优化后的多目标姿态估计模型;
步骤5、将测试数据集输入至优化后的多目标姿态估计模型中进行精度评估,若精度符合期望值,则将在线实时采集到的视频数据输入至多目标姿态估计模型进行目标姿态估计;反之以步骤1、步骤2、步骤4的过程训练、优化多目标姿态估计模型,并重复该步骤。
进一步优选地,步骤1中从视频中采集包含目标行为的图像序列,包括以下方式:从视频中随机均匀地选取或基于视觉的聚类法进行选取或用户手动选择。本发明中视频没有先验限制,可包含彩色、灰度、不均匀照明以及红外条件下拍摄的视频。
示例性优选地,基于视觉的聚类法具体采用K均值聚类法。
进一步地,步骤2中根据标注后的图像序列构建训练数据集与测试数据集,具体为:从标注后的图像序列中随机选取p%的图像用于构建训练数据集,其余图像用于构建测试数据集;其中,p%≥50%。
示例性地,p%=70%
进一步优选地,步骤3深度残差网络具体采用ResNet-50。
进一步地,步骤3中基于深度残差网络构建多目标姿态估计模型,具体为:
步骤3-1、删除ResNet-50中最后的分类层与平均池化层;
步骤3-2、将Conv5_x的第一个卷积层的卷积步长从2减小到1,以防止降采样;
步骤3-3、对Conv5_x中所有3x3卷积层添加空洞卷积以保留其感知域,并将整个ResNet-50的卷积步长减小到16;
步骤3-4、在ResNet-50中添加反卷积层进行2倍升采样,由此完成多目标姿态估计模型的构建。
进一步地,步骤4中利用训练数据集对多目标姿态估计模型进行端到端的训练以调整其权重,进而生成优化后的多目标姿态估计模型,具体为:
步骤4-1、基于迁移学习方法,利用ResNet-50在ImageNet数据集上的预训练模型初始化多目标姿态估计模型;
步骤4-2、结合Sigmoid激活函数和交叉熵损失函数,利用训练数据集对步骤4-1中的多目标姿态估计模型进行训练,生成优化后的多目标位姿估计模型;具体为:
步骤4-2-1、将训练数据集输入至步骤4-1中的多目标姿态估计模型进行训练,并输出预测值;
步骤4-2-2、计算预测值与训练数据集中真实值的误差,并利用反向传播算法将误差反向传播;
步骤4-2-3、利用梯度下降原理更新多目标姿态估计模型中的参数;
步骤4-2-4、重复步骤4-2-1~步骤4-2-3直至交叉熵损失函数值达到目标要求时结束训练,获得优化后的多目标位姿估计模型;
在模型训练过程中,利用GPU和cuDNN库加速训练速度。
进一步地,步骤5中将测试数据集输入至优化后的多目标姿态估计模型中进行精度评估,具体为:
步骤5-1、将测试数据集输入至优化后的多目标姿态估计模型,获得目标特征部位的预测位置;
步骤5-2、计算测试数据集中目标特征部位的标注位置与所述目标特征部位预测位置的平均绝对误差,该平均绝对误差即为多目标姿态估计模型的测试精度。
进一步地,步骤5中将在线实时采集到的视频数据输入至多目标姿态估计模型进行目标姿态估计,具体为:
步骤5-1’、将在线实时采集到的视频数据输入至多目标姿态估计模型,该模型输出目标每个特征部位对应的所有激活值,对于单个目标,激活值的峰值为特征部位的预测位置;对于多个目标,激活值的局部最大值为特征部位的预测位置;由此获得目标所有特征部位的位置;其中,激活值表示特征部位概率得分图,概率得分图表示特征部位处于其输入图像特定像素位置的概率。
步骤5-2’、根据目标所有特征部位的激活值和预测位置,即可确定目标姿态。
进一步地,步骤5所述若精度不符合期望值,以步骤1、步骤2、步骤4的过程训练、优化多目标姿态估计模型,具体为:
若评估的精度与期望值的绝对差值小于m像素,则通过提取、标注视频中的目标异常行为帧的方式扩充图像数据集,然后重新训练多目标姿态估计模型;否则通过调整超参数并增加训练时间进一步优化模型;其中m为正整数。
下面结合实施例对本发明作进一步详细的描述。
实施例
本发明基于深度卷积神经网络的多目标无标记姿态估计方法,包括以下内容:
1、从视频中采集包含目标行为的图像序列。具体为:
利用视觉外观(K均值)的聚类方法,采集不同亮度条件、背景条件下感兴趣目标行为的图像序列,并保证训练数据集包含足够数量的图像序列(100~200)。本实施例采集的图像序列如图2所示。
2、针对所采集图像序列中的每幅图像,按照相同的顺序人工标注每个目标特征部位的位置和类别,并根据标注后的图像序列构建训练数据集与测试数据集。具体为:
随机选择70%的图像序列作为训练图像集,其余图像作为测试图像集。按照固定顺序标注图像序列中每个目标的特征部位位置及类别,并生成CSV格式的标签文件;对于在图像序列中不可见或遮挡的特征部位,不做标注处理。标注方法如图3所示,生成标签文件内容如图4所示。
3、基于深度残差网络构建多目标姿态估计模型。具体为:
(1)设计基于深度残差网络的多目标姿态估计模型。首先删除ResNet-50最后的分类层与平均池化层,然后将Conv5_x的第一个卷积层的Stride从2减小到1,以防止降采样;然后将Conv5_x中为所有3x3卷积层添加空洞卷积以保留其感知域,并将整个CNN的Stride减小到1;最后添加反卷积层进行2倍升采样。
(2)对多目标姿态估计模型输出的激活值与Conv3_x层的激活值进行多尺度特征融合。
(3)利用深度学习框架TensorFlow,在PC机上搭建所设计的多目标姿态估计模型,多目标姿态估计模型的结构如图5所示。
4、利用训练数据集对多目标姿态估计模型进行端到端的训练以调整其权重,进而生成优化后的多目标姿态估计模型,具体为:
4-1、基于迁移学习方法,利用ResNet-50在ImageNet数据集上的预训练模型初始化多目标姿态估计模型;
4-2、结合Sigmoid激活函数和交叉熵损失函数,设置训练批次为1、距离变量ε=17(像素半径)、比例因子为0.8;使用GPU和cuDNN库加速网络的训练速度,利用训练数据集对步骤4-1中的多目标姿态估计模型进行训练,具体为:
(1)将训练数据集输入至步骤4-1中的多目标姿态估计模型进行训练,并输出预测值;
(2)、计算预测值与训练数据集中真实值的误差,并利用反向传播算法将误差反向传播;
(3)利用梯度下降原理更新多目标姿态估计模型中的参数;
(4)重复(1)~(3)直至交叉熵损失函数值达到目标要求时结束训练,获得优化后的多目标位姿估计模型;
本实施例中训练过程重复迭代大约12万次时,交叉熵损失函数值达到10-3并趋于稳定,符合预期要求,停止对多目标姿态估计模型的训练。多目标姿态估计模型进行端到端训练的可视化过程如图6所示。
多目标姿态估计模型进行端到端训练的整体架构如图7所示。Resnet_v1_50为所设计的多目标姿态估计模型,save、save_1分别为多目标姿态估计模型的预测信息、数据集中人工标注信息的存储结构,sigmoid_cross_entropy为交叉熵损失函数结构,pose为使用多尺度特征融合的姿态估计结构,absolute_difference为平均绝对误差(精度)的计算结构。
5、将测试数据集输入至优化后的多目标姿态估计模型中进行精度评估,若精度符合期望值,则将在线实时采集到的视频数据输入至多目标姿态估计模型进行目标姿态估计,本实施例多目标姿态估计模型对坦克进行姿态估计如图8、图9所示;反之训练多目标姿态估计模型。具体为:
若评估的精度与期望值的绝对差值小于5像素,则通过提取、标注视频中的目标异常行为帧的方式扩充图像数据集,然后重新训练多目标姿态估计模型;否则通过调整超参数并增加训练时间进一步优化模型。
本发明的方法,只需少量训练图像就可以在准确度上达到人类水平;在背景杂乱、不均匀光照以及相机失真等情况下也可以有效地跟踪目标特征部位;且对不同类型的目标,都能取得较好的效果。在使用视觉传感器的自动驾驶、机器人导航、增强现实等方面都有着极大的应用前景。
Claims (9)
1.一种基于深度卷积神经网络的多目标无标记姿态估计方法,其特征在于,包括以下步骤:
步骤1、从视频中采集包含目标行为的图像序列;
步骤2、针对采集的图像序列中的每幅图像,按照相同的顺序人工标注每个目标特征部位的位置和类别,并根据标注后的图像序列构建训练数据集与测试数据集;
步骤3、基于深度残差网络构建多目标姿态估计模型;
步骤4、利用训练数据集对多目标姿态估计模型进行端到端的训练以调整其权重,进而生成优化后的多目标姿态估计模型;具体为:
步骤4-1、基于迁移学习方法,利用ResNet-50在ImageNet数据集上的预训练模型初始化多目标姿态估计模型;
步骤4-2、结合Sigmoid激活函数和交叉熵损失函数,利用训练数据集对步骤4-1中的多目标姿态估计模型进行训练,生成优化后的多目标位姿估计模型;具体为:
步骤4-2-1、将训练数据集输入至步骤4-1中的多目标姿态估计模型进行训练,并输出预测值;
步骤4-2-2、计算预测值与训练数据集中真实值的误差,并利用反向传播算法将误差反向传播;
步骤4-2-3、利用梯度下降原理更新多目标姿态估计模型中的参数;
步骤4-2-4、重复步骤4-2-1~步骤4-2-3直至交叉熵损失函数值达到目标要求时结束训练,获得优化后的多目标位姿估计模型;
在模型训练过程中,利用GPU和cuDNN库加速训练速度;
步骤5、将测试数据集输入至优化后的多目标姿态估计模型中进行精度评估,若精度符合期望值,则将在线实时采集到的视频数据输入至多目标姿态估计模型进行目标姿态估计;反之以步骤1、步骤2、步骤4的过程训练、优化多目标姿态估计模型,并重复该步骤。
2.根据权利要求1所述的基于深度卷积神经网络的多目标无标记姿态估计方法,其特征在于,步骤1所述从视频中采集包含目标行为的图像序列,包括以下方式:从视频中随机均匀地选取或基于视觉的聚类法进行选取或用户手动选择。
3.根据权利要求2所述的基于深度卷积神经网络的多目标无标记姿态估计方法,其特征在于,所述基于视觉的聚类法具体采用K均值聚类法。
4.根据权利要求3所述的基于深度卷积神经网络的多目标无标记姿态估计方法,其特征在于,步骤2所述根据标注后的图像序列构建训练数据集与测试数据集,具体为:从标注后的图像序列中随机选取p%的图像用于构建训练数据集,其余图像用于构建测试数据集;所述p%≥50%。
5.根据权利要求4所述的基于深度卷积神经网络的多目标无标记姿态估计方法,其特征在于,步骤3所述深度残差网络具体采用ResNet-50。
6.根据权利要求5所述的基于深度卷积神经网络的多目标无标记姿态估计方法,其特征在于,步骤3所述基于深度残差网络构建多目标姿态估计模型,具体为:
步骤3-1、删除ResNet-50中最后的分类层与平均池化层;
步骤3-2、将Conv5_x的第一个卷积层的卷积步长从2减小到1,以防止降采样;
步骤3-3、对Conv5_x中所有3x3卷积层添加空洞卷积以保留其感知域,并将整个ResNet-50的卷积步长减小到16;
步骤3-4、在ResNet-50中添加反卷积层进行2倍升采样,由此完成多目标姿态估计模型的构建。
7.根据权利要求6所述的基于深度卷积神经网络的多目标无标记姿态估计方法,其特征在于,步骤5所述将测试数据集输入至优化后的多目标姿态估计模型中进行精度评估,具体为:
步骤5-1、将测试数据集输入至优化后的多目标姿态估计模型,获得目标特征部位的预测位置;
步骤5-2、计算测试数据集中目标特征部位的标注位置与所述目标特征部位预测位置的平均绝对误差,该平均绝对误差即为多目标姿态估计模型的测试精度。
8.根据权利要求7所述的基于深度卷积神经网络的多目标无标记姿态估计方法,其特征在于,步骤5所述将在线实时采集到的视频数据输入至多目标姿态估计模型进行目标姿态估计,具体为:
步骤5-1’、将在线实时采集到的视频数据输入至多目标姿态估计模型,该模型输出目标每个特征部位对应的所有激活值,对于单个目标,激活值的峰值为特征部位的预测位置;对于多个目标,激活值的局部最大值为特征部位的预测位置;由此获得目标所有特征部位的位置;其中,激活值表示特征部位概率得分图,概率得分图表示特征部位处于其输入图像特定像素位置的概率;
步骤5-2’、根据目标所有特征部位的激活值和预测位置,即可确定目标姿态。
9.根据权利要求8所述的基于深度卷积神经网络的多目标无标记姿态估计方法,其特征在于,步骤5所述若精度不符合期望值,以步骤1、步骤2、步骤4的过程训练、优化多目标姿态估计模型,具体为:
若评估的精度与期望值的绝对差值小于m像素,则通过提取、标注视频中的目标异常行为帧的方式扩充图像数据集,然后重新训练多目标姿态估计模型;否则通过调整超参数并增加训练时间进一步优化模型;其中m为正整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910377054.2A CN110210320B (zh) | 2019-05-07 | 2019-05-07 | 基于深度卷积神经网络的多目标无标记姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910377054.2A CN110210320B (zh) | 2019-05-07 | 2019-05-07 | 基于深度卷积神经网络的多目标无标记姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110210320A CN110210320A (zh) | 2019-09-06 |
CN110210320B true CN110210320B (zh) | 2022-09-27 |
Family
ID=67785529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910377054.2A Active CN110210320B (zh) | 2019-05-07 | 2019-05-07 | 基于深度卷积神经网络的多目标无标记姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210320B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647991B (zh) * | 2019-09-19 | 2022-04-05 | 浙江大学 | 一种基于无监督领域自适应的三维人体姿态估计方法 |
CN110826459B (zh) * | 2019-10-31 | 2022-09-30 | 上海交通大学 | 基于姿态估计的可迁移校园暴力行为视频识别方法 |
CN111192293B (zh) * | 2019-12-27 | 2022-07-26 | 深圳市越疆科技有限公司 | 一种运动目标位姿跟踪方法及装置 |
CN111507184B (zh) * | 2020-03-11 | 2021-02-02 | 杭州电子科技大学 | 基于并联空洞卷积和身体结构约束的人体姿态检测方法 |
CN111414289A (zh) * | 2020-03-16 | 2020-07-14 | 上海威固信息技术股份有限公司 | 一种基于迁移学习的磁盘故障预测方法及装置 |
CN111738092B (zh) * | 2020-05-28 | 2024-03-29 | 华南理工大学 | 一种基于深度学习的恢复被遮挡人体姿态序列方法 |
CN113807150A (zh) * | 2020-06-16 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 数据处理、姿态预测方法、设备及存储介质 |
CN112113570B (zh) * | 2020-09-15 | 2022-05-17 | 电子科技大学 | 一种基于深度迁移和模型参数集成的室内定位方法 |
CN112183255A (zh) * | 2020-09-15 | 2021-01-05 | 西北工业大学 | 一种基于深度学习的水下目标视觉识别与姿态估计方法 |
CN112365577B (zh) * | 2020-11-09 | 2022-08-23 | 重庆邮电大学 | 一种基于卷积神经网络的机械零件增强现实跟踪注册方法 |
KR102660740B1 (ko) * | 2020-12-28 | 2024-04-26 | 한국과학기술원 | 도메인 전이학습을 통한 적외선 카메라 기반의 손 자세 추정 방법 및 시스템 |
CN113255569B (zh) * | 2021-06-15 | 2021-10-01 | 成都考拉悠然科技有限公司 | 一种基于图空洞卷积编码器解码器的3d姿态估计方法 |
CN113691940B (zh) * | 2021-08-13 | 2022-09-27 | 天津大学 | 一种基于csi图像的增量式智能室内定位方法 |
CN115222871B (zh) * | 2021-08-31 | 2023-04-18 | 达闼科技(北京)有限公司 | 模型评估方法、装置、存储介质及电子设备 |
CN113707280B (zh) * | 2021-10-28 | 2022-04-08 | 萱闱(北京)生物科技有限公司 | 标注数据集扩充方法、装置、介质和计算设备 |
CN115270997B (zh) * | 2022-09-20 | 2022-12-27 | 中国人民解放军32035部队 | 基于迁移学习的火箭目标姿态稳定判别方法及相关装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184541A (zh) * | 2011-05-04 | 2011-09-14 | 西安电子科技大学 | 多目标优化人体运动跟踪方法 |
CN109522843A (zh) * | 2018-11-16 | 2019-03-26 | 北京市商汤科技开发有限公司 | 一种多目标跟踪方法及装置、设备和存储介质 |
-
2019
- 2019-05-07 CN CN201910377054.2A patent/CN110210320B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184541A (zh) * | 2011-05-04 | 2011-09-14 | 西安电子科技大学 | 多目标优化人体运动跟踪方法 |
CN109522843A (zh) * | 2018-11-16 | 2019-03-26 | 北京市商汤科技开发有限公司 | 一种多目标跟踪方法及装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110210320A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210320B (zh) | 基于深度卷积神经网络的多目标无标记姿态估计方法 | |
Huang et al. | Retracted: Jointly network image processing: Multi‐task image semantic segmentation of indoor scene based on CNN | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN108764292B (zh) | 基于弱监督信息的深度学习图像目标映射及定位方法 | |
Kim et al. | Beyond classification: Directly training spiking neural networks for semantic segmentation | |
CN107092870B (zh) | 一种高分辨率影像语义信息提取方法 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN110991444B (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN104281853A (zh) | 一种基于3d卷积神经网络的行为识别方法 | |
CN111881731A (zh) | 基于人体骨架的行为识别方法、系统、装置及介质 | |
JPWO2019146057A1 (ja) | 学習装置、実写画像分類装置の生成システム、実写画像分類装置の生成装置、学習方法及びプログラム | |
CN109035300A (zh) | 一种基于深度特征与平均峰值相关能量的目标跟踪方法 | |
CN113673313B (zh) | 一种基于分层卷积神经网络的手势姿态识别方法 | |
CN113223037A (zh) | 一种面向大规模数据的无监督语义分割方法及系统 | |
CN111462132A (zh) | 一种基于深度学习的视频物体分割方法及系统 | |
CN109493370B (zh) | 一种基于空间偏移学习的目标跟踪方法 | |
CN110148152A (zh) | 基于卷积神经网络的sar目标交互行为识别方法 | |
Sun et al. | A Metaverse text recognition model based on character-level contrastive learning | |
CN114170446A (zh) | 一种基于深层融合神经网络的温度、亮度特征提取方法 | |
CN106503647A (zh) | 基于低秩逼近结构化稀疏表示的异常事件检测方法 | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 | |
CN113158756A (zh) | 基于HRNet深度学习的姿态、行为分析模块及分析方法 | |
CN112861678A (zh) | 一种图像识别方法及装置 | |
Gong et al. | Research on an improved KCF target tracking algorithm based on CNN feature extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |