CN117671800A - 面向遮挡的人体姿态估计方法、装置及电子设备 - Google Patents
面向遮挡的人体姿态估计方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117671800A CN117671800A CN202311832493.0A CN202311832493A CN117671800A CN 117671800 A CN117671800 A CN 117671800A CN 202311832493 A CN202311832493 A CN 202311832493A CN 117671800 A CN117671800 A CN 117671800A
- Authority
- CN
- China
- Prior art keywords
- human body
- occlusion
- feature vectors
- key points
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 133
- 239000013598 vector Substances 0.000 claims abstract description 145
- 230000007246 mechanism Effects 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002779 inactivation Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 43
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000002679 ablation Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001795 light effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种面向遮挡的人体姿态估计方法、装置及电子设备,其中所述方法包括:利用自顶向下法对目标人体的图像进行特征提取,获取第一特征,并利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量;利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量;基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计。本发明通过在基准网络中增加空间注意力机制和多头注意力机制的方法来提高在遮挡情况下对人体姿态估计的预测精度,能有效地提高遮挡下人体姿态估计的鲁棒性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种面向遮挡的人体姿态估计方法、装置及电子设备。
背景技术
随着舞台灯的不断发展,其逐渐能够在舞台中呈现出具有强烈视觉冲击感的灯光效果,如通过灯光跟踪,使灯光跟随表演者的不同表演内容投射出相应的奇幻场景,从而使观众犹如身临其境。而灯光跟踪的关键,是进行准确的人体姿态估计(Human PoseEstimation,HPE),特别是存在遮挡下的人体姿态估计。
目前,在进行遮挡下的人体姿态估计时,主要是采用通过增大人体关键点的感受野进行检测或者利用级联金字塔网络模型等对人体不同复杂程度的关键点分别进行检测等基于热图的估计法,来解决遮挡,从而实现人体姿态估计。但是,这类解决方法的模型通常复杂度较高,且鲁棒性不是很好。
发明内容
本发明提供一种面向遮挡的人体姿态估计方法、装置及电子设备,用以解决现有技术鲁棒性差的缺陷,实现有效提高系统鲁棒性的目标。
本发明提供一种面向遮挡的人体姿态估计方法,包括:
利用自顶向下法,对目标人体的图像进行所述目标人体的特征提取,获取第一特征,并利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量;
利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量;
基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计。
根据本发明提供的一种面向遮挡的人体姿态估计方法,所述空间注意力网络包括第一卷积层、第二卷积层和归一化处理,所述利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量,包括:
通过所述第一卷积层,拓展用于处理所述第一特征的通道数,并通过所述第二卷积层,将拓展后的通道数进行降维,以得到降维后各通道下的降维特征,并
将各通道下的所述降维特征进行归一化处理;
将归一化处理后的结果与所述第一卷积层的拓展结果相点乘,获取各所述不同关键点分别对应的所述特征向量。
根据本发明提供的一种面向遮挡的人体姿态估计方法,具体通过归一化指数函数Softmax对所述降维特征进行归一化处理;
相应地,所述获取各所述不同关键点分别对应的所述特征向量,包括:
利用如下公式,计算获取各所述不同关键点分别对应的所述特征向量:
式中,Token表示所述特征向量,A表示所述第一特征经过所述第一卷积层拓展后的结果,表示点乘,Softmax()表示归一化指数函数,Conv()表示进行所述第二卷积层的卷积运算。
根据本发明提供的一种面向遮挡的人体姿态估计方法,所述第一卷积层为1×1卷积层,所述第二卷积层为3×3卷积层。
根据本发明提供的一种面向遮挡的人体姿态估计方法,所述获取具有关联关系的特征向量,包括:
利用所述多头注意力网络中的多头注意力,获取各所述特征向量间的不同权重值,并将所述不同权重值叠加到所述特征向量上;
将叠加权重值后的特征向量分别通过层归一化操作和概率随机失活操作后,传递到前馈神经网络层,获取所述前馈神经网络层的输出,作为所述具有关联关系的特征向量。
根据本发明提供的一种面向遮挡的人体姿态估计方法,在所述获取所述前馈神经网络层的输出之后,还包括:
通过第一全连接层对所述多头注意力网络的通道进行拓展,并在将所述前馈神经网络层的输出利用拓展通道处理后,将处理的结果通过ReLU激活函数;
通过第二全连接层对拓展的通道进行降维,再次进行层归一化操作和概率随机失活操作;
以再次进行概率随机失活操作的输出,作为所述具有关联关系的特征向量。
根据本发明提供的一种面向遮挡的人体姿态估计方法,所述利用所述多头注意力网络中的多头注意力,获取各所述特征向量间的不同权重值,包括:
将所述特征向量按如下公式通过所述多头注意力:
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)Wo;
式中,head i表示第i个自注意力机制头,Q,K,V∈R17×256均为密集特征转换为关键点的特征向量,为第i个自注意力机制头对应关键点特征向量的权重,Wo∈R256 ×256为多头注意力的权重,h表示把各个关键点的特征向量分成的总份数,MultiHead()表示多头注意力函数,Concat()表示连接函数,Attention()表示自注意力函数;
按如下公式,对headi单独做一次注意力机制:
式中,vi=VWi V,qi、ki T和vi均表示headi内的特征向量,dk=32,dk表示尺度标量。
根据本发明提供的一种面向遮挡的人体姿态估计方法,所述对目标人体的图像进行特征提取,获取第一特征,包括:
利用高分辨率网络,搭建图像特征提取模型,并在所述特征提取模型的多个阶段,分别利用3×3卷积进行下采样,利用1×1卷积进行上采样,获取所述第一特征。
根据本发明提供的一种面向遮挡的人体姿态估计方法,还包括:
基于所述具有关联关系的特征向量,预测所述目标人体的各所述不同关键点的遮挡可信度值,并基于所述遮挡可信度值,确定各所述不同关键点的被遮挡情况。
根据本发明提供的一种面向遮挡的人体姿态估计方法,还包括:
利用二分类交叉熵损失,训练用于预测所述遮挡可信度值的预测模型;
相应地,将所述具有关联关系的特征向量输入所述预测模型,获取各所述不同关键点的遮挡可信度值。
根据本发明提供的一种面向遮挡的人体姿态估计方法,所述利用二分类交叉熵损失,训练用于预测所述遮挡可信度值的预测模型,包括:
按照实际被遮挡情况,将样本数据集中样本的人体关键点标记为不可见点、遮挡点或可见点,并将标记后的数据样本集划分为第一样本子集和第二样本子集;
将所述第一样本子集中被标记为遮挡点和不可见点的关键点作为第一类点,并将所述第一样本子集中被标记为可见点的关键点作为第二类点;
根据所述第一类点和所述第二类点,按下式进行遮挡预测BCELoss的二分类交叉熵损失计算:
Lbce=-(y×log(x)+(1-y)×log(1-x));
式中,x表示预测样本经过模型预测出来的遮挡可信度值,y表示标记的遮挡信息,Lbce表示遮挡预测BCELoss的二分类交叉熵损失;
将所述第二样本子集中被标记为不可见点的关键点作为第三类点,并将所述第二样本子集中被标记为遮挡点和可见点的关键点作为第四类点;
根据所述第三类点和所述第四类点,按下式进行遮挡预测RLELoss的二分类交叉熵损失计算:
式中,Lrle表示遮挡预测RLELoss的二分类交叉熵损失,表示标注的关键点在该分布上的概率,其中θ,表示回归模型和归一化流模型参数,x为μg,I为训练的模型分布,μg表示真值坐标;
基于遮挡预测BCELoss的二分类交叉熵损失Lbce和遮挡预测RLELoss的二分类交叉熵损失Lrle,确定整体二分类交叉熵损失如下:
L=Lrle+λLbce;
式中,L表示所述整体二分类交叉熵损失,λ表示系数,为常量;
基于所述整体二分类交叉熵损失,训练用于预测所述遮挡可信度值的所述预测模型。
根据本发明提供的一种面向遮挡的人体姿态估计方法,系数λ的取值为0.01,且将ImageNet作为预训练预测模型进行参数初始化。
本发明还提供一种面向遮挡的人体姿态估计装置,包括:
特征提取与变换模块,用于利用自顶向下法,对目标人体的图像进行所述目标人体的特征提取,获取第一特征,并利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量;
交互模块,用于利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量;
姿态预测模块,用于基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计。
本发明还提供一种舞台灯光追踪方法,包括:
采用如上述任一种所述的面向遮挡的人体姿态估计方法,对目标人体进行人体姿态估计,并根据人体姿态估计的结果,控制舞台灯光自动跟随所述目标人体的各项动作。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述处理器执行所述程序或指令时,实现如上述任一种所述的面向遮挡的人体姿态估计方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有程序或指令,所述程序或指令被计算机执行时,实现如上述任一种所述的面向遮挡的人体姿态估计方法的步骤。
本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行如上述任一种所述的面向遮挡的人体姿态估计方法。
本发明还提供一种面向遮挡的人体姿态估计模型框架,包括依次连接的主干网络、空间注意力网络、信息交互网络和信息输出网络;
所述主干网络用于利用自顶向下法,对目标人体的图像进行所述目标人体的特征提取,获取第一特征;
所述空间注意力网络用于将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量;
所述信息交互网络用于利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量;
所述信息输出网络用于基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计。
本发明提供的面向遮挡的人体姿态估计方法、装置及电子设备,通过在基准网络中增加空间注意力机制和多头注意力机制的方法来提高在遮挡情况下对人体姿态估计的预测精度,能有效地提高遮挡下人体姿态估计的鲁棒性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对本发明实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的面向遮挡的人体姿态估计方法的流程示意图;
图2为根据本发明提供的面向遮挡的人体姿态估计方法中RLE损失函数计算流程示意图;
图3为根据本发明提供的面向遮挡的人体姿态估计方法中COCO人体姿态估计数据集标注关键点的示意图;
图4为本发明提供的面向遮挡的人体姿态估计装置的结构示意图;
图5为本发明提供的电子设备的实体结构示意图;
图6为本发明提供的面向遮挡的人体姿态估计模型框架的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明针对现有技术存在的鲁棒性差等的问题,通过在基准网络中增加空间注意力机制和多头注意力机制的方法来提高在遮挡情况下对人体姿态估计的预测精度,能有效地提高遮挡下人体姿态估计的鲁棒性。以下将结合附图,具体通过多个实施例对本发明进行展开说明和介绍。
图1为本发明提供的面向遮挡的人体姿态估计方法的流程示意图,如图1所示,该方法包括:
S101,利用自顶向下法,对目标人体的图像进行所述目标人体的特征提取,获取第一特征,并利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量。
可以理解为,为了缓解目标人体的遮挡问题,提高遮挡下的人体姿态估计的鲁棒性,本发明提出自顶向下的遮挡感知的人体姿态估计的框架,来显式地学习人体结构信息,即通过在卷积神经网络的基础上引入人体各关键点关联结构来实现人体姿态估计。
首先,对于目标人体,可以实时获取其活动过程中的图像,并对获取的图像按照自顶向下的方法进行特征提取,得到可靠的高分辨率的图像特征,作为第一特征。具体先从图像中检测出目标人体,然后再对目标人体进行特征提取,例如本发明中可以通过主干网络HRNet来实现。
可选地,所述对目标人体的图像进行特征提取,获取第一特征,包括:利用高分辨率网络,搭建图像特征提取模型,并在所述特征提取模型的多个阶段,分别利用3×3卷积进行下采样,利用1×1卷积进行上采样,获取所述第一特征。
可以理解为,本发明可以利用高分辨率网络(High-Resolution,HRNet)作为主干网络来提取图片特征,并利用多个尺度进行融合来确保高分辨率的输出,同时多个阶段分别利用3×3卷积和1×1卷积进行下采样和上采样,使得不同层之间进行连接并行其他分辨率下的子网络,从而使得最后得到可靠的高分辨率的特征。
然而,密集的图像特征很难显式地学习关键点之间的联系,来捕捉人体结构。因此,本发明将第一特征传递到空间注意力网络,以利用空间注意力机制将密集的第一特征转换为各个人体关键点分别对应的特征向量。
S102,利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量。
可以理解为,按照上述步骤得到的特征向量相互间都是独立的,因此在获取目标人体各关键点分别对应的特征向量后,利用多头注意力网络对目标人体不同关键点分别对应的特征向量间进行信息交互,并通过信息交互和前馈神经网络的作用,形成目标人体不同关键点分别对应的特征向量间特定的关联关系,从而可以得到具有相互间关联关系的人体关键点特征向量。
S103,基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计。
可以理解为,在获取目标人体的关键点间具有关联关系的特征向量的基础上,可以将其输入到具体的预测模型,并根据预测模型确定目标人体的各不同关键点分别对应的坐标,从而实现人体姿态估计。
本发明提供的面向遮挡的人体姿态估计方法,通过在基准网络中增加空间注意力机制和多头注意力机制的方法来提高在遮挡情况下对人体姿态估计的预测精度,能有效地提高遮挡下人体姿态估计的鲁棒性。
其中,根据上述各实施例提供的面向遮挡的人体姿态估计方法可选地,所述空间注意力网络包括第一卷积层、第二卷积层和归一化处理,所述利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量,包括:通过所述第一卷积层,拓展用于处理所述第一特征的通道数,并通过所述第二卷积层,将拓展后的通道数进行降维,以得到降维后各通道下的降维特征,并将各通道下的所述降维特征进行归一化处理;将归一化处理后的结果与所述第一卷积层的拓展结果相点乘,获取各所述不同关键点分别对应的所述特征向量。
可以理解为,本发明为了为接下来的空间注意力拓展通道数并最终落脚到目标人体的关键点数量上,分别设置用于通道拓展的第一通道和用于降维的第二通道。
可选地,所述第一卷积层为1×1卷积层,所述第二卷积层为3×3卷积层。
因此,本发明在从用于图像特征提取的主干网络得到第一特征之后,在利用空间注意力把密集的第一特征转换为对应不同关键点的特征向量时,可以通过一个1×1卷积层将通道上升到如256通道,以为接下来的空间注意力拓展通道数。之后,利用3×3卷积层将通道进行降维到N,其中N为对应的数据集对应的人体关键点数。最后,将得到的N个通道的特征向量通过归一化操作后与之前主干网络上的采样所得到的第一特征进行点乘,得到N个通道中长度为256的编码特征,即各关键点分别对应的特征向量。可以理解的是,在进行上述降维后,通道数量与进行特征转换的人体关键点的数量一致。
其中,根据上述各实施例提供的面向遮挡的人体姿态估计方法可选地,具体通过归一化指数函数Softmax对所述降维特征进行归一化处理;相应地,所述获取各所述不同关键点分别对应的所述特征向量,包括:利用如下公式,计算获取各所述不同关键点分别对应的所述特征向量:
式中,Token表示所述特征向量,A表示所述第一特征经过所述第一卷积层拓展后的结果,表示点乘,Softmax()表示归一化指数函数,Conv()表示进行所述第二卷积层的卷积运算。
可以理解为,本发明的归一化操作通过归一化指数函数(Softmax)来实现,具体可以将得到的N个通道的特征通过归一化指数函数(Softmax)后,与用于图像特征提取的主干网络上采样所得到的第一特征进行点乘得到,具体如上述公式所示。其中,A表示主干网络上采样后所获得密集图像特征,Token表示经空间注意力机制转换为N个关键点特征向量。
其中,根据上述各实施例提供的面向遮挡的人体姿态估计方法可选地,所述获取具有关联关系的特征向量,包括:利用所述多头注意力网络中的多头注意力,获取各所述特征向量间的不同权重值,并将所述不同权重值叠加到所述特征向量上;将叠加权重值后的特征向量分别通过层归一化操作和概率随机失活操作后,传递到前馈神经网络层,获取所述前馈神经网络层的输出,作为所述具有关联关系的特征向量。
可以理解为,通过上述各实施例可以得到各关键点的特征向量,然而这些特征向量都是独立的,于是需要将这些独立的特征向量相互关联起来,为此本发明加入了多头注意力网络模块。具体将得到的特征向量通过多头注意力网络,并将每一个偷head单独做一次注意力机制运算,得到N个关键点特性向量之间的不同权重值,并将这些不同的权重值叠加回到N个通道的特征向量上。
可选地,所述利用所述多头注意力网络中的多头注意力,获取各所述特征向量间的不同权重值,包括:将所述特征向量按如下公式通过所述多头注意力:
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)Wo;
式中,head i表示第i个自注意力机制头,Q,K,V∈R17×256均为密集特征转换为关键点的特征向量,为第i个自注意力机制头对应关键点特征向量的权重,Wo∈R256×256为多头注意力的权重,h表示把各个关键点的特征向量分成的总份数,较佳的,h可为8;MultiHead()表示多头注意力函数,Concat()表示连接函数,Attention()表示自注意力函数;
按如下公式,对headi单独做一次注意力机制:
式中,vi=VWi V,qi、ki T和vi均表示headi内的特征向量,dk=32,dk表示尺度标量。
之后,通过层归一化(LayerNorm,LN)操作,并且按0.1的概率随机失活(Dropout)来避免过拟合,最后将通过概率随机失活处理后的数值传递到前馈神经网络(FeedForward Neural Network,FFN)中,以得到前馈神经网络层的输出,并将其作为具有关联关系的特征向量。
其中,根据上述各实施例提供的面向遮挡的人体姿态估计方法可选地,在所述获取所述前馈神经网络层的输出之后,还包括:通过第一全连接层对所述多头注意力网络的通道进行拓展,并在将所述前馈神经网络层的输出利用拓展通道处理后,将处理的结果通过ReLU激活函数;通过第二全连接层对拓展的通道进行降维,再次进行层归一化操作和概率随机失活操作;以再次进行概率随机失活操作的输出,作为所述具有关联关系的特征向量。
可以理解为,本发明在上述各实施例的基础上,再通过一个全连接层将通道例如从256上升到1024,再通过激活函数ReLU后,经过另一个全连接层将通道数从1024降到256,以此来增强特征的表达能力以及提高不同关键点特性向量之间的独立性。最后,再进行一次LayerNorm和Dropout操作,最终得到具有相互关联关系的关键点特征向量。
之后,本发明需要将得到的关键点特征向量转换为需要的每个关键点各自的坐标,于是通过加入N个独立的全连接层,来独立输出各个关键点的信息。
进一步地,根据上述各实施例提供的面向遮挡的人体姿态估计方法可选地,还包括:基于所述具有关联关系的特征向量,预测所述目标人体的各所述不同关键点的遮挡可信度值,并基于所述遮挡可信度值,确定各所述不同关键点的被遮挡情况。
可以理解为,在根据上述各实施例获取目标人体各关键点的坐标的同时,还可以增加遮挡信息预测功能,具体在模型得出目标人体各关键点坐标结果后,多增加一条通道作为判断关键点是否被遮挡的信息通道。
进一步地,根据上述各实施例提供的面向遮挡的人体姿态估计方法可选地,还包括:利用二分类交叉熵损失,训练用于预测所述遮挡可信度值的预测模型;相应地,将所述具有关联关系的特征向量输入所述预测模型,获取各所述不同关键点的遮挡可信度值。
可以理解为,本发明引入二分类交叉熵损失函数用于训练遮挡信息的分类,也即预测关键点的被遮挡情况。具体在预测模型训练过程中,以二分类交叉熵损失函数作为模型训练的损失函数,并在模型训练过程中,通过二分类交叉熵损失函数计算损失误差,并基于损失误差逐步调整预测模型参数,直至损失误差在预设范围内,获取此时参数下的预测模型作为最终的目标预测模型,并利用其预测目标人体各关键点被遮挡的情况。
其中,根据上述各实施例提供的面向遮挡的人体姿态估计方法可选地,所述利用二分类交叉熵损失,训练用于预测所述遮挡可信度值的预测模型,包括:
按照实际被遮挡情况,将样本数据集中样本的人体关键点标记为不可见点、遮挡点或可见点,并将标记后的数据样本集划分为第一样本子集和第二样本子集;
将所述第一样本子集中被标记为遮挡点和不可见点的关键点作为第一类点,并将所述第一样本子集中被标记为可见点的关键点作为第二类点;
根据所述第一类点和所述第二类点,按下式进行遮挡预测BCELoss的二分类交叉熵损失计算:
Lbce=-(y×log(x)+(1-y)×log(1-x));
式中,x表示预测样本经过模型预测出来的遮挡可信度值,y表示标记的遮挡信息,Lbce表示遮挡预测BCELoss的二分类交叉熵损失;
将所述第二样本子集中被标记为不可见点的关键点作为第三类点,并将所述第二样本子集中被标记为遮挡点和可见点的关键点作为第四类点;
根据所述第三类点和所述第四类点,按下式进行遮挡预测RLELoss的二分类交叉熵损失计算:
式中,Lrle表示遮挡预测RLELoss的二分类交叉熵损失,表示标注的关键点在该分布上的概率,其中θ,表示回归模型和归一化流模型参数,x为μg,I为训练的模型分布,μg表示真值坐标;
基于遮挡预测BCELoss的二分类交叉熵损失Lbce和遮挡预测RLELoss的二分类交叉熵损失Lrle,确定整体二分类交叉熵损失如下:
L=Lrle+λLbce;
式中,L表示所述整体二分类交叉熵损失,λ表示系数,为常量;
基于所述整体二分类交叉熵损失,训练用于预测所述遮挡可信度值的所述预测模型。
可以理解为,本发明将每个特征向量传入单独的全连接层上去,得到每个通道各自预测的坐标和遮挡可信度值。利用现有的数据集提供的遮挡信息v对样本数据集中的各样本进行标记或打标签,当v=0时,表示在此样本数据集中该人的对应关键点不可见;当v=1时,表示在此样本数据集中该人的对应关键点被遮挡;当v=2时,表示在此样本数据集中该人的对应关键点可见。
之后,将样本数据集分为两个子样本数据集,即第一样本子集和第二样本子集,并将样本数据集标签分为两类。对于第一样本子集,将其中遮挡点和不可见点归视作一类,即第一类点,将可见点视作为另一类,即第二类点。则用于遮挡预测BCELoss的二分类交叉熵损失计算公式如上所示。其中,x为预测样本经过模型预测出来的遮挡可信度值,通过sigmoid函数计算出每个关键点各自的概率,y为数据集提供的遮挡信息。
对于第二样本子集,将其中不可见点视作一类,即第三类点,将遮挡点和可见点视作为另一类,即第四类点。则用于人体姿态估计的遮挡预测RLELoss的损失计算可如图2所示,为根据本发明提供的面向遮挡的人体姿态估计方法中RLE损失函数计算流程示意图,其中可以利用标准化流模型,将标准分布学习模型的潜在分布表示为并从极大似然估计的角度来计算损失函数,表示了标注关键点在该分布上的概率,其中表示回归模型和归一化流模型参数。
利用重参数化技巧,从流模型中将一个简单的分布变换为复杂的分布并利用公式得到重新缩放和平移后的分布使模型能更好的优化,其中表示为17个全连接层所获得的均值和方差。通过这样的方式,网络可以学习到输入如何偏离标注值。RLELoss的损失函数计算如上所示。
在确定遮挡预测BCELoss的二分类交叉熵损失和遮挡预测的RLELoss的二分类交叉熵损失的基础上,将这两类损失函数按如下公式计算,得到整体的损失函数,即整体二分类交叉熵损失:
L=Lrle+λLbce;
其中,Lbce由BCELoss损失函数给出,Lrle由RLELoss损失函数给出,λ为给定系数,为常量。
可选地,系数λ的取值为0.01,且将ImageNet作为预训练预测模型进行参数初始化。
可以理解为,为了不让遮挡分类的损失函数在训练的过程中影响到坐标回归的损失函数,可以将λ的值设置为0.01,此外还可以将ImageNet作为预训练网络进行参数初始化。
为了验证本发明的有益效果,本发明进行了相关试验,具体采用COCO开源人体姿态估计数据集进行本次模型的训练,COCO数据集包含用于训练的数据集118287张,验证数据集5000张以及测试数据集40670张的多人图片,同时包含大量日常生活场景且存在模糊、遮挡等一系列特殊样例。如图3所示,为根据本发明提供的面向遮挡的人体姿态估计方法中COCO人体姿态估计数据集标注关键点的示意图,图中COCO人体姿态估计数据集的单个人物标注关键点共17个。
本发明同时采用COCO数据集提供的人体关键点度量方法(object keypointsimilarity,OKS),具体如如下公式所示:
其中,p表示第p个行人,i表示第i个关键点,dpi表示当前检测的第p个行人的第i个关键点与数据集提供的对应标记关键点之间的欧式距离,sp表示数据集提供的第p人标注框的坐标值换算为当前面积,ki表示人体关键点归一化因子,不同部位的人体关键点的k值不同,k越大表示标注该部位关键点的越难标注,vpi表示第p人的第i个关键点是否可见,vpi=0表示不可见,vpi=1表示遮挡,vpi=2表示可见。
基于OKS公式可以用于计算COCO的主要评估指标平均精度(Average Precision,AP)和平均召回率(Average Recall,AR),AP表示将OKS作为阈值,范围在0.5到0.95之间按0.05的间隔计算的平均精度,AP50表示阈值在0.5时的准确率,AP75表示阈值在0.75时的准确率,AR表示阈值范围在0.5到0.95之间按0.05的间隔计算的平均召回率。
通过本发明提出的基于坐标回归的方式,利用空间注意力将密集的图像分布转换为关键点特征向量,并利用多头注意力学习整个人体结构。本发明试验结果如表1所示,为根据本发明基于COCO测试集数据实验对比结果示例表。由表1可见,本发明的方法在COCO测试集上取得了超越基于热图回归方法的结果,也取得了优于其他基于坐标回归的方法的结果。
表1,根据本发明基于COCO测试集数据实验对比结果示例表
本发明基于COCO验证集的实验消融结果如表2所示,为根据本发明基于COCO验证集数据的消融对比结果示例表,其中Sp表示空间注意力,MHSA表示多头注意力。本发明试验在Linux端上,使用一张Tesla V100-16G显卡进行,设置训练周期为210,训练时的batch-size设置为40,验证时的batch-size设置为32,设输入图像大小为256×256,训练时采用随机翻转,随机半身增强和随机位移、缩放、旋转变换的数据增强。由表2可见,本发明消融试验的空间注意力方法和多头注意力方法能有效地提升有效结果,且增加遮挡功能不会影响到现有模型的性能。
表2,根据本发明基于COCO验证集数据的消融对比结果示例表
消融实验 | AP |
HRNet-W32+RLE | 0.733 |
HRNet-W32+RLE+BCE | 0.734 |
HRNet-W32+Sp+RLE+BCE | 0.738 |
HRNet-W32+Sp+MHSA+RLE+BCE | 0.743 |
HRNet-W48+Sp+MHSA+RLE+BCE | 0.755 |
基于相同的发明构思,本发明根据上述各实施例还提供一种面向遮挡的人体姿态估计装置,该装置用于在上述各实施例中实现面向遮挡的人体姿态估计。因此,在上述各实施例的面向遮挡的人体姿态估计方法中的描述和定义,可以用于本发明中各个执行模块的理解,具体可参考上述方法实施例,此处不在赘述。
根据本发明的一个实施例,面向遮挡的人体姿态估计装置的结构如图4所示,为本发明提供的面向遮挡的人体姿态估计装置的结构示意图,该装置可以用于实现上述各方法实施例中的面向遮挡的人体姿态估计,该装置包括:特征提取与变换模块401、交互模块402和姿态预测模块403。其中:
特征提取与变换模块401用于利用自顶向下法,对目标人体的图像进行所述目标人体的特征提取,获取第一特征,并利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量;
交互模块402用于利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量;
姿态预测模块403用于基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计。
本发明提供的面向遮挡的人体姿态估计装置,通过在基准网络中增加空间注意力机制和多头注意力机制的方法来提高在遮挡情况下对人体姿态估计的预测精度,能有效地提高遮挡下人体姿态估计的鲁棒性。
可以理解的是,本发明中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且,本发明的面向遮挡的人体姿态估计装置利用上述各程序模块,能够实现上述各方法实施例的面向遮挡的人体姿态估计流程,在用于实现上述各方法实施例中的面向遮挡的人体姿态估计时,本发明的装置产生的有益效果与对应的上述各方法实施例相同,可以参考上述各方法实施例,此处不再赘述。
作为本发明的又一个方面,本发明根据上述各实施例还提供一种电子设备,该电子设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的程序或指令,该处理器执行该程序或指令时,实现如上述各实施例所述的面向遮挡的人体姿态估计方法的步骤。
进一步的,本发明的电子设备还可以包括通信接口和总线。参考图5,为本发明提供的电子设备的结构示意图,包括:至少一个存储器501、至少一个处理器502、通信接口503和总线504。
其中,存储器501、处理器502和通信接口503通过总线504完成相互间的通信,通信接口503用于该电子设备与图像采集或存储设备之间的信息传输;存储器501中存储有可在处理器502上运行的程序或指令,处理器502执行该程序或指令时,实现如上述各实施例所述的面向遮挡的人体姿态估计方法的步骤。
可以理解为,该电子设备中至少包含存储器501、处理器502、通信接口503和总线504,且存储器501、处理器502和通信接口503通过总线504形成相互间的通信连接,并可完成相互间的通信,如处理器502从存储器501中读取面向遮挡的人体姿态估计方法的程序指令等。另外,通信接口503还可以实现该电子设备与图像采集或存储设备之间的通信连接,并可完成相互间信息传输,如通过通信接口503实现目标人体图像的读取等。
电子设备运行时,处理器502调用存储器501中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:利用自顶向下法,对目标人体的图像进行所述目标人体的特征提取,获取第一特征,并利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量;利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量;基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计等。
上述的存储器501中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。或者,实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明还根据上述各实施例提供一种非暂态计算机可读存储介质,其上存储有程序或指令,该程序或指令被计算机执行时,实现如上述各实施例所述的面向遮挡的人体姿态估计方法的步骤,例如包括:利用自顶向下法,对目标人体的图像进行所述目标人体的特征提取,获取第一特征,并利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量;利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量;基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计等。
作为本发明的再一个方面,本实施例根据上述各实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的面向遮挡的人体姿态估计方法,该方法例如包括:利用自顶向下法,对目标人体的图像进行所述目标人体的特征提取,获取第一特征,并利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量;利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量;基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计等。
本发明提供的电子设备、非暂态计算机可读存储介质和计算机程序产品,通过执行上述各实施例所述的面向遮挡的人体姿态估计方法的步骤,在基准网络中增加空间注意力机制和多头注意力机制的方法来提高在遮挡情况下对人体姿态估计的预测精度,能有效地提高遮挡下人体姿态估计的鲁棒性。
作为本发明的又再一个方面,本实施例根据上述各实施例还提供一种面向遮挡的人体姿态估计模型框架,如图6所示,为本发明提供的面向遮挡的人体姿态估计模型框架的结构示意图,包括依次连接的主干网络601、空间注意力网络602、信息交互网络603和信息输出网络604;
所述主干网络601用于利用自顶向下法,对目标人体的图像进行所述目标人体的特征提取,获取第一特征;
所述空间注意力网络602用于将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量;
所述信息交互网络603用于利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量;
所述信息输出网络604用于基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计。
本发明提供的一种面向遮挡的人体姿态估计模型框架,通过在基准网络中增加空间注意力机制和多头注意力机制的方法来提高在遮挡情况下对人体姿态估计的预测精度,能有效地提高遮挡下人体姿态估计的鲁棒性。
可以理解的是,以上所描述的装置、电子设备、存储介质及模型框架的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解,各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令,用以使得一台计算机设备(如个人计算机,服务器,或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。
另外,本领域内的技术人员应当理解的是,在本发明的申请文件中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明的说明书中,说明了大量具体细节。然而应当理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (18)
1.一种面向遮挡的人体姿态估计方法,其特征在于,包括:
利用自顶向下法,对目标人体的图像进行所述目标人体的特征提取,获取第一特征,并利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量;
利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量;
基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计。
2.根据权利要求1所述的面向遮挡的人体姿态估计方法,其特征在于,所述空间注意力网络包括第一卷积层、第二卷积层和归一化处理,所述利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量,包括:
通过所述第一卷积层,拓展用于处理所述第一特征的通道数,并通过所述第二卷积层,将拓展后的通道数进行降维,以得到降维后各通道下的降维特征,并将各通道下的所述降维特征进行归一化处理;
将归一化处理后的结果与所述第一卷积层的拓展结果相点乘,获取各所述不同关键点分别对应的所述特征向量。
3.根据权利要求2所述的面向遮挡的人体姿态估计方法,其特征在于,具体通过归一化指数函数Softmax对所述降维特征进行归一化处理;
相应地,所述获取各所述不同关键点分别对应的所述特征向量,包括:
利用如下公式,计算获取各所述不同关键点分别对应的所述特征向量:
式中,Token表示所述特征向量,A表示所述第一特征经过所述第一卷积层拓展后的结果,表示点乘,Softmax()表示归一化指数函数,Conv()表示进行所述第二卷积层的卷积运算。
4.根据权利要求2或3所述的面向遮挡的人体姿态估计方法,其特征在于,所述第一卷积层为1×1卷积层,所述第二卷积层为3×3卷积层。
5.根据权利要求1-3中任一所述的面向遮挡的人体姿态估计方法,其特征在于,所述获取具有关联关系的特征向量,包括:
利用所述多头注意力网络中的多头注意力,获取各所述特征向量间的不同权重值,并将所述不同权重值叠加到所述特征向量上;
将叠加权重值后的特征向量分别通过层归一化操作和概率随机失活操作后,传递到前馈神经网络层,获取所述前馈神经网络层的输出,作为所述具有关联关系的特征向量。
6.根据权利要求5所述的面向遮挡的人体姿态估计方法,其特征在于,在所述获取所述前馈神经网络层的输出之后,还包括:
通过第一全连接层对所述多头注意力网络的通道进行拓展,并在将所述前馈神经网络层的输出利用拓展通道处理后,将处理的结果通过ReLU激活函数;
通过第二全连接层对拓展的通道进行降维,再次进行层归一化操作和概率随机失活操作;
以再次进行概率随机失活操作的输出,作为所述具有关联关系的特征向量。
7.根据权利要求5所述的面向遮挡的人体姿态估计方法,其特征在于,所述利用所述多头注意力网络中的多头注意力,获取各所述特征向量间的不同权重值,包括:
将所述特征向量按如下公式通过所述多头注意力:
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)Wo;
式中,headi表示第i个自注意力机制头,Q,K,V∈R17×256均为密集特征转换为关键点的特征向量,为第i个自注意力机制头对应关键点特征向量的权重,Wo∈R256 ×256为多头注意力的权重,h表示把各个关键点的特征向量分成的总份数,MultiHead()表示多头注意力函数,Concat()表示连接函数,Attention()表示自注意力函数;
按如下公式,对headi单独做一次注意力机制:
式中,vi=VWi V,qi、ki T和vi均表示headi内的特征向量,dk=32,dk表示尺度标量。
8.根据权利要求1-3中任一所述的面向遮挡的人体姿态估计方法,其特征在于,所述对目标人体的图像进行特征提取,获取第一特征,包括:
利用高分辨率网络,搭建图像特征提取模型,并在所述特征提取模型的多个阶段,分别利用3×3卷积进行下采样,利用1×1卷积进行上采样,获取所述第一特征。
9.根据权利要求1-3中任一所述的面向遮挡的人体姿态估计方法,其特征在于,还包括:
基于所述具有关联关系的特征向量,预测所述目标人体的各所述不同关键点的遮挡可信度值,并基于所述遮挡可信度值,确定各所述不同关键点的被遮挡情况。
10.根据权利要求9所述的面向遮挡的人体姿态估计方法,其特征在于,还包括:
利用二分类交叉熵损失,训练用于预测所述遮挡可信度值的预测模型;
相应地,将所述具有关联关系的特征向量输入所述预测模型,获取各所述不同关键点的遮挡可信度值。
11.根据权利要求10所述的面向遮挡的人体姿态估计方法,其特征在于,所述利用二分类交叉熵损失,训练用于预测所述遮挡可信度值的预测模型,包括:
按照实际被遮挡情况,将样本数据集中样本的人体关键点标记为不可见点、遮挡点或可见点,并将标记后的数据样本集划分为第一样本子集和第二样本子集;
将所述第一样本子集中被标记为遮挡点和不可见点的关键点作为第一类点,并将所述第一样本子集中被标记为可见点的关键点作为第二类点;
根据所述第一类点和所述第二类点,按下式进行遮挡预测BCELoss的二分类交叉熵损失计算:
Lbce=-(y×log(x)+(1-y)×log(1-x));
式中,x表示预测样本经过模型预测出来的遮挡可信度值,y表示标记的遮挡信息,Lbce表示遮挡预测BCELoss的二分类交叉熵损失;
将所述第二样本子集中被标记为不可见点的关键点作为第三类点,并将所述第二样本子集中被标记为遮挡点和可见点的关键点作为第四类点;
根据所述第三类点和所述第四类点,按下式进行遮挡预测RLELoss的二分类交叉熵损失计算:
式中,Lrle表示遮挡预测RLELoss的二分类交叉熵损失,表示标注的关键点在该分布上的概率,其中θ,表示回归模型和归一化流模型参数,x为μg,I为训练的模型分布,μg表示真值坐标;
基于遮挡预测BCELoss的二分类交叉熵损失Lbce和遮挡预测RLELoss的二分类交叉熵损失Lrle,确定整体二分类交叉熵损失如下:
L=Lrle+λLbce;
式中,L表示所述整体二分类交叉熵损失,λ表示系数,为常量;
基于所述整体二分类交叉熵损失,训练用于预测所述遮挡可信度值的所述预测模型。
12.根据权利要求11所述的面向遮挡的人体姿态估计方法,其特征在于,系数λ的取值为0.01,且将ImageNet作为预训练预测模型进行参数初始化。
13.一种面向遮挡的人体姿态估计装置,其特征在于,包括:
特征提取与变换模块,用于利用自顶向下法,对目标人体的图像进行所述目标人体的特征提取,获取第一特征,并利用空间注意力网络,将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量;
交互模块,用于利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量;
姿态预测模块,用于基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计。
14.一种舞台灯光追踪方法,其特征在于,包括:
采用如权利要求1-12中任一所述的面向遮挡的人体姿态估计方法,对目标人体进行人体姿态估计,并根据人体姿态估计的结果,控制舞台灯光自动跟随所述目标人体的各项动作。
15.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令,其特征在于,所述处理器执行所述程序或指令时,实现如权利要求1至12中任一项所述的面向遮挡的人体姿态估计方法的步骤。
16.一种非暂态计算机可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被计算机执行时,实现如权利要求1至12中任一项所述的面向遮挡的人体姿态估计方法的步骤。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行如权利要求1至12中任一项所述的面向遮挡的人体姿态估计方法。
18.一种面向遮挡的人体姿态估计模型框架,其特征在于,包括依次连接的主干网络、空间注意力网络、信息交互网络和信息输出网络;
所述主干网络用于利用自顶向下法,对目标人体的图像进行所述目标人体的特征提取,获取第一特征;
所述空间注意力网络用于将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量;
所述信息交互网络用于利用多头注意力网络,将所述不同关键点的特征向量进行交互,以形成所述不同关键点的特征向量相互间的关联关系,获取具有关联关系的特征向量;
所述信息输出网络用于基于所述具有关联关系的特征向量,确定所述目标人体的各所述不同关键点分别对应的坐标,实现人体姿态估计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311832493.0A CN117671800A (zh) | 2023-12-27 | 2023-12-27 | 面向遮挡的人体姿态估计方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311832493.0A CN117671800A (zh) | 2023-12-27 | 2023-12-27 | 面向遮挡的人体姿态估计方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117671800A true CN117671800A (zh) | 2024-03-08 |
Family
ID=90068270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311832493.0A Pending CN117671800A (zh) | 2023-12-27 | 2023-12-27 | 面向遮挡的人体姿态估计方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671800A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118172412A (zh) * | 2024-05-14 | 2024-06-11 | 中科晶锐(苏州)科技有限公司 | 一种利用2d图像进行3d人体姿态定位还原的方法及装置 |
-
2023
- 2023-12-27 CN CN202311832493.0A patent/CN117671800A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118172412A (zh) * | 2024-05-14 | 2024-06-11 | 中科晶锐(苏州)科技有限公司 | 一种利用2d图像进行3d人体姿态定位还原的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
Alani et al. | Hand gesture recognition using an adapted convolutional neural network with data augmentation | |
Chen et al. | Research on recognition of fly species based on improved RetinaNet and CBAM | |
JP2017062781A (ja) | 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
Ashok Kumar et al. | Enhanced facial emotion recognition by optimal descriptor selection with neural network | |
CN115953665B (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN111008576B (zh) | 行人检测及其模型训练、更新方法、设备及可读存储介质 | |
CN117671800A (zh) | 面向遮挡的人体姿态估计方法、装置及电子设备 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN113822264A (zh) | 一种文本识别方法、装置、计算机设备和存储介质 | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
CN114973222A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN116503399A (zh) | 基于yolo-afps的绝缘子污闪检测方法 | |
Sun et al. | Image target detection algorithm compression and pruning based on neural network | |
CN108985385A (zh) | 基于生成对抗学习的快速弱监督目标检测方法 | |
Nahar et al. | A robust model for translating arabic sign language into spoken arabic using deep learning | |
Luo et al. | Infrared Road Object Detection Based on Improved YOLOv8. | |
Dewi et al. | Deep Learning for Advanced Similar Musical Instrument Detection and Recognition | |
Yang et al. | Robust feature mining transformer for occluded person re-identification | |
Rawat et al. | Indian sign language recognition system for interrogative words using deep learning | |
Zhang et al. | Research on Multitarget Recognition and Detection Based on Computer Vision | |
Gan et al. | Target Detection and Network Optimization: Deep Learning in Face Expression Feature Recognition | |
CN118015687B (zh) | 改进的多尺度注意残差关系感知的表情识别方法及装置 | |
Stylianou-Nikolaidou et al. | A Hybrid Deep Learning Approach for Human Action Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |