CN117456562B - 姿态估计方法及装置 - Google Patents
姿态估计方法及装置 Download PDFInfo
- Publication number
- CN117456562B CN117456562B CN202311788140.5A CN202311788140A CN117456562B CN 117456562 B CN117456562 B CN 117456562B CN 202311788140 A CN202311788140 A CN 202311788140A CN 117456562 B CN117456562 B CN 117456562B
- Authority
- CN
- China
- Prior art keywords
- target
- convolution
- layer
- processing
- cavity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000005070 sampling Methods 0.000 claims abstract description 59
- 238000000605 extraction Methods 0.000 claims abstract description 41
- 238000011176 pooling Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种姿态估计方法及装置。该方法包括:构建流式多尺度级联网络,将残差网络作为特征提取网络,利用特征提取网络、流式多尺度级联网络、卷积层、上采样层和局部最大操作层构建姿态估计模型;获取目标对象的目标图像,将目标图像输入姿态估计模型:通过特征提取网络处理目标图像,得到目标残差特征;通过流式多尺度级联网络处理目标残差特征,得到目标多尺度特征;通过卷积层处理目标多尺度特征,得到目标卷积特征;通过上采样层处理目标卷积特征,得到目标上采样特征;通过局部最大操作层处理目标上采样特征,得到目标姿态估计结果。采用上述技术手段,解决现有技术中,姿态估计算法耗时长和语义丢失的问题。
Description
技术领域
本公开涉及目标检测技术领域,尤其涉及一种姿态估计方法及装置。
背景技术
现有姿态估计算法存在两个问题,第一个问题是需要在估计前进行目标检测,其会带来时间损耗,同时如果检测不到目标身体,则后续完全不能召回;第二个问题是目标的信息会在网络处理过程中随着分辨率的降低(降维)丢失,从而造成估计错误,其在保证推理速度的同时,提取了更加有效的语义来进行估计。
发明内容
有鉴于此,本公开实施例提供了一种姿态估计方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,姿态估计算法耗时长和语义丢失的问题。
本公开实施例的第一方面,提供了一种姿态估计方法,包括:构建流式多尺度级联网络,将残差网络作为特征提取网络,利用特征提取网络、流式多尺度级联网络、卷积层、上采样层和局部最大操作层构建姿态估计模型;获取目标对象的目标图像,将目标图像输入姿态估计模型:通过特征提取网络处理目标图像,得到目标残差特征;通过流式多尺度级联网络处理目标残差特征,得到目标多尺度特征;通过卷积层处理目标多尺度特征,得到目标卷积特征;通过上采样层处理目标卷积特征,得到目标上采样特征;通过局部最大操作层处理目标上采样特征,得到目标姿态估计结果。
本公开实施例的第二方面,提供了一种姿态估计装置,包括:构建模块,被配置为构建流式多尺度级联网络,将残差网络作为特征提取网络,利用特征提取网络、流式多尺度级联网络、卷积层、上采样层和局部最大操作层构建姿态估计模型;获取模块,被配置为获取目标对象的目标图像,将目标图像输入姿态估计模型:第一处理模块,被配置为通过特征提取网络处理目标图像,得到目标残差特征;第二处理模块,被配置为通过流式多尺度级联网络处理目标残差特征,得到目标多尺度特征;第三处理模块,被配置为通过卷积层处理目标多尺度特征,得到目标卷积特征;第四处理模块,被配置为通过上采样层处理目标卷积特征,得到目标上采样特征;第五处理模块,被配置为通过局部最大操作层处理目标上采样特征,得到目标姿态估计结果。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:因为本公开实施例通过构建流式多尺度级联网络,将残差网络作为特征提取网络,利用特征提取网络、流式多尺度级联网络、卷积层、上采样层和局部最大操作层构建姿态估计模型;获取目标对象的目标图像,将目标图像输入姿态估计模型:通过特征提取网络处理目标图像,得到目标残差特征;通过流式多尺度级联网络处理目标残差特征,得到目标多尺度特征;通过卷积层处理目标多尺度特征,得到目标卷积特征;通过上采样层处理目标卷积特征,得到目标上采样特征;通过局部最大操作层处理目标上采样特征,得到目标姿态估计结果。采用上述技术手段,可以解决现有技术中,姿态估计算法耗时长和语义丢失的问题,进而减少姿态估计时间和降低或者避免语义丢失。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例提供的一种姿态估计方法的流程示意图;
图2是本公开实施例提供的另一种姿态估计方法的示意图;
图3是本公开实施例提供的一种流式多尺度级联网络的结构示意图;
图4是本公开实施例提供的一种姿态估计装置的结构示意图;
图5是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
下面将结合附图详细说明根据本公开实施例的一种姿态估计方法和装置。
图1是本公开实施例提供的一种姿态估计方法的流程示意图。图1的姿态估计方法可以由计算机或服务器,或者计算机或服务器上的软件执行。如图1所示,该姿态估计方法包括:
S101,构建流式多尺度级联网络,将残差网络作为特征提取网络,利用特征提取网络、流式多尺度级联网络、卷积层、上采样层和局部最大操作层构建姿态估计模型;
S102,获取目标对象的目标图像,将目标图像输入姿态估计模型:
S103,通过特征提取网络处理目标图像,得到目标残差特征;
S104,通过流式多尺度级联网络处理目标残差特征,得到目标多尺度特征;
S105,通过卷积层处理目标多尺度特征,得到目标卷积特征;
S106,通过上采样层处理目标卷积特征,得到目标上采样特征;
S107,通过局部最大操作层处理目标上采样特征,得到目标姿态估计结果。
需要说明的是,残差网络可以选用resnet50(resnet50是一种残差网络),流式多尺度级联网络是用多个级联的空洞卷积和普通卷积构建的,上采样层用于实现上采样处理,局部最大操作层用于实现特征划分和特征中元素置零操作。本公开构建的姿态估计模型可以用于估计人体姿态以及其它动物姿态等,以估计人体姿态为例,目标对象是人,目标图像是关于目标对象全身的图像。因为本公开构建的姿态估计模型在估计姿态之前,不需要进行目标检测(现有技术在估计目标的姿态之前,需要检测出目标),所以减少姿态估计时间,设计的流式多尺度级联网络通过多个级联的空洞卷积和普通卷积,可以降低或者避免语义丢失。
本公开实施例通过构建流式多尺度级联网络,将残差网络作为特征提取网络,利用特征提取网络、流式多尺度级联网络、卷积层、上采样层和局部最大操作层构建姿态估计模型;获取目标对象的目标图像,将目标图像输入姿态估计模型:通过特征提取网络处理目标图像,得到目标残差特征;通过流式多尺度级联网络处理目标残差特征,得到目标多尺度特征;通过卷积层处理目标多尺度特征,得到目标卷积特征;通过上采样层处理目标卷积特征,得到目标上采样特征;通过局部最大操作层处理目标上采样特征,得到目标姿态估计结果。采用上述技术手段,可以解决现有技术中,姿态估计算法耗时长和语义丢失的问题,进而减少姿态估计时间和降低或者避免语义丢失。
进一步地,通过流式多尺度级联网络处理目标残差特征,得到目标多尺度特征,包括:将目标残差特征输入流式多尺度级联网络:通过全局平均池化层处理目标残差特征,得到目标全局池化特征;依次通过多个空洞卷积层处理目标残差特征,以通过每个空洞卷积层分别输出一个目标空洞特征,其中,多个空洞卷积层的空洞率依次增大;通过连接在每个空洞卷积层之后的卷积层处理该空洞卷积层输出的目标空洞特征,以通过每个空洞卷积层之后的卷积层输出一个目标空洞卷积特征;通过特征拼接层处理目标全局池化特征以及所有目标空洞卷积特征,得到目标多尺度特征。
流式多尺度级联网络,内部包括:全局平均池化层、多个空洞卷积层、多个卷积层、特征拼接层。
比如流式多尺度级联网络内部包括三个空洞卷积层:通过第一空洞卷积层处理目标残差特征,得到第一目标空洞特征;通过第二空洞卷积层处理第一目标空洞特征,得到第二目标空洞特征;通过第三空洞卷积层处理第二目标空洞特征,得到第三目标空洞特征;其中,第一空洞卷积层、第二空洞卷积层和第三空洞卷积层的空洞率依次为第一数值、第二数值和第三数值,第三数值是第一数值的三倍,第二数值是第一数值的二倍;其中,第一空洞卷积层、第二空洞卷积层和第三空洞卷积层的卷积核均为第一预设卷积核;其中,每个空洞卷积层之后的卷积层的卷积核均为第二预设卷积核,第二预设卷积核小于第一预设卷积核。
目标空洞特征包括第一目标空洞特征、第二目标空洞特征和第三目标空洞特征,对应的目标空洞卷积特征包括第一目标空洞卷积特征、第二目标空洞卷积特征和第三目标空洞卷积特征,所以特征拼接层处理目标全局池化特征以及第一目标空洞卷积特征、第二目标空洞卷积特征和第三目标空洞卷积特征,得到目标多尺度特征。
姿态估计模型中流式多尺度级联网络后连接的卷积层的卷积核可以是第一预设卷积核。第二预设卷积核小于第一预设卷积核,比如第一预设卷积核为3*3,第二预设卷积核为1*1。
进一步地,获取目标对象的目标图像,将目标图像输入姿态估计模型之前,方法还包括:依次连接特征提取网络、多个流式多尺度级联网络、多个卷积层、上采样层和局部最大操作层构建姿态估计模型;其中,多个流式多尺度级联网络以及多个卷积层均是串行连接的。
上个实施例中处理目标残差特征的流式多尺度级联网络,可以看作姿态估计模型中的第一个流式多尺度级联网络,那么对于第二个流式多尺度级联网络处理的是第一个流式多尺度级联网络输出的目标多尺度特征,具体地:将第一个流式多尺度级联网络输出的目标多尺度特征输入第二个流式多尺度级联网络:通过全局平均池化层处理第一个流式多尺度级联网络输出的目标多尺度特征,得到第二个目标全局池化特征;依次通过多个空洞卷积层处理第二个目标残差特征,以通过每个空洞卷积层分别输出一个第二个目标空洞特征,其中,多个空洞卷积层的空洞率依次增大;通过连接在每个空洞卷积层之后的卷积层处理该空洞卷积层输出的第二个目标空洞特征,以通过每个空洞卷积层之后的卷积层输出一个第二个目标空洞卷积特征;通过特征拼接层处理第二个目标全局池化特征以及第二个目标空洞卷积特征,得到第二个目标多尺度特征。
图2是本公开实施例提供的另一种姿态估计方法的流程示意图,如图2所示,该方法包括:
S201,将目标图像输入姿态估计模型:
S202,通过特征提取网络处理目标图像,得到目标残差特征;
S203,依次通过多个流式多尺度级联网络处理目标残差特征,得到最后一个流式多尺度级联网络输出的目标多尺度特征;
S204,依次通过多个卷积层处理最后一个流式多尺度级联网络输出的目标多尺度特征,得到最后一个卷积层输出的目标卷积特征;
S205,通过上采样层处理最后一个卷积层输出的目标卷积特征,得到目标上采样特征;
S206,通过局部最大操作层处理目标上采样特征,得到目标姿态估计结果。
进一步地,通过局部最大操作层处理目标上采样特征,得到目标姿态估计结果,包括:将目标上采样特征划分为预设数量个小特征,其中,所有小特征的尺寸相同;对于每个小特征,仅保留该小特征中数值最大的元素,该小特征中其它元素置为零;根据所有经过置零后的小特征确定目标姿态估计结果。
所有经过置零后的小特征可以表示目标图像中目标对象的身体关键点,根据目标对象的身体关键点确定目标姿态估计结果。目标姿态估计结果包括人站立、坐着、躺着、侧立等。根据目标对象的身体关键点确定目标姿态估计结果,和姿态估计设置的规则有关,不在赘述。
进一步地,获取目标对象的目标图像,将目标图像输入姿态估计模型之前,方法还包括:获取训练数据,将训练数据中的图像输入姿态估计模型:通过特征提取网络处理图像,得到残差特征;通过流式多尺度级联网络处理残差特征,得到多尺度特征;通过卷积层处理多尺度特征,得到卷积特征;通过上采样层处理卷积特征,得到上采样特征;通过局部最大操作层处理上采样特征,得到姿态估计结果;计算图像和姿态估计结果之间的损失值,依据损失值优化姿态估计模型的参数,以完成对姿态估计模型的训练。
可以利用交叉熵损失函数计算图像和姿态估计结果之间的损失值。
在一些实施例中:获取训练数据,将训练数据中的图像输入姿态估计模型:通过特征提取网络处理图像,得到残差特征;依次通过多个流式多尺度级联网络处理残差特征,得到最后一个流式多尺度级联网络输出的多尺度特征;依次通过多个卷积层处理最后一个流式多尺度级联网络输出的多尺度特征,得到最后一个卷积层输出的卷积特征;通过上采样层处理最后一个卷积层输出的卷积特征,得到上采样特征;通过局部最大操作层处理上采样特征,得到姿态估计结果;计算图像和姿态估计结果之间的损失值,依据损失值优化姿态估计模型的参数,以完成对姿态估计模型的训练。
图3是本公开实施例提供的一种流式多尺度级联网络的结构示意图,如图3所示,流式多尺度级联网络内部包括:三个空洞卷积层、三个卷积层、全局平均池化层和特征拼接层。
第一空洞卷积层、第二空洞卷积层和第三空洞卷积层的空洞率依次为第一数值、第二数值和第三数值,第三数值是第一数值的三倍,第二数值是第一数值的二倍,三个空洞卷积层的卷积核均为第一预设卷积核,每个空洞卷积层之后的卷积层的卷积核均为第二预设卷积核,第二预设卷积核小于第一预设卷积核。比如第一空洞卷积层是空洞率为6卷积核为3x3卷积层,第二空洞卷积层是空洞率为12卷积核为3x3卷积层,第三空洞卷积层是空洞率为18卷积核为3x3卷积层,三个卷积层的卷积核均为1x1。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图4是本公开实施例提供的一种姿态估计装置的示意图。如图4所示,该姿态估计装置包括:
构建模块401,被配置为构建流式多尺度级联网络,将残差网络作为特征提取网络,利用特征提取网络、流式多尺度级联网络、卷积层、上采样层和局部最大操作层构建姿态估计模型;
获取模块402,被配置为获取目标对象的目标图像,将目标图像输入姿态估计模型:
第一处理模块403,被配置为通过特征提取网络处理目标图像,得到目标残差特征;
第二处理模块404,被配置为通过流式多尺度级联网络处理目标残差特征,得到目标多尺度特征;
第三处理模块405,被配置为通过卷积层处理目标多尺度特征,得到目标卷积特征;
第四处理模块406,被配置为通过上采样层处理目标卷积特征,得到目标上采样特征;
第五处理模块407,被配置为通过局部最大操作层处理目标上采样特征,得到目标姿态估计结果。
本公开实施例通过构建流式多尺度级联网络,将残差网络作为特征提取网络,利用特征提取网络、流式多尺度级联网络、卷积层、上采样层和局部最大操作层构建姿态估计模型;获取目标对象的目标图像,将目标图像输入姿态估计模型:通过特征提取网络处理目标图像,得到目标残差特征;通过流式多尺度级联网络处理目标残差特征,得到目标多尺度特征;通过卷积层处理目标多尺度特征,得到目标卷积特征;通过上采样层处理目标卷积特征,得到目标上采样特征;通过局部最大操作层处理目标上采样特征,得到目标姿态估计结果。采用上述技术手段,可以解决现有技术中,姿态估计算法耗时长和语义丢失的问题,进而减少姿态估计时间和降低或者避免语义丢失。
在一些实施例中,第二处理模块404还被配置为将目标残差特征输入流式多尺度级联网络:通过全局平均池化层处理目标残差特征,得到目标全局池化特征;依次通过多个空洞卷积层处理目标残差特征,以通过每个空洞卷积层分别输出一个目标空洞特征,其中,多个空洞卷积层的空洞率依次增大;通过连接在每个空洞卷积层之后的卷积层处理该空洞卷积层输出的目标空洞特征,以通过每个空洞卷积层之后的卷积层输出一个目标空洞卷积特征;通过特征拼接层处理目标全局池化特征以及所有目标空洞卷积特征,得到目标多尺度特征。
流式多尺度级联网络,内部包括:全局平均池化层、多个空洞卷积层、多个卷积层、特征拼接层。
在一些实施例中,第二处理模块404还被配置为通过第一空洞卷积层处理目标残差特征,得到第一目标空洞特征;通过第二空洞卷积层处理第一目标空洞特征,得到第二目标空洞特征;通过第三空洞卷积层处理第二目标空洞特征,得到第三目标空洞特征;其中,第一空洞卷积层、第二空洞卷积层和第三空洞卷积层的空洞率依次为第一数值、第二数值和第三数值,第三数值是第一数值的三倍,第二数值是第一数值的二倍;其中,第一空洞卷积层、第二空洞卷积层和第三空洞卷积层的卷积核均为第一预设卷积核;其中,每个空洞卷积层之后的卷积层的卷积核均为第二预设卷积核,第二预设卷积核小于第一预设卷积核。
在一些实施例中,构建模块401还被配置为依次连接特征提取网络、多个流式多尺度级联网络、多个卷积层、上采样层和局部最大操作层构建姿态估计模型;其中,多个流式多尺度级联网络以及多个卷积层均是串行连接的。
在一些实施例中,第二处理模块404还被配置为将第一个流式多尺度级联网络输出的目标多尺度特征输入第二个流式多尺度级联网络:通过全局平均池化层处理第一个流式多尺度级联网络输出的目标多尺度特征,得到第二个目标全局池化特征;依次通过多个空洞卷积层处理第二个目标残差特征,以通过每个空洞卷积层分别输出一个第二个目标空洞特征,其中,多个空洞卷积层的空洞率依次增大;通过连接在每个空洞卷积层之后的卷积层处理该空洞卷积层输出的第二个目标空洞特征,以通过每个空洞卷积层之后的卷积层输出一个第二个目标空洞卷积特征;通过特征拼接层处理第二个目标全局池化特征以及第二个目标空洞卷积特征,得到第二个目标多尺度特征。
在一些实施例中,第五处理模块407还被配置为将目标图像输入姿态估计模型:通过特征提取网络处理目标图像,得到目标残差特征;依次通过多个流式多尺度级联网络处理目标残差特征,得到最后一个流式多尺度级联网络输出的目标多尺度特征;依次通过多个卷积层处理最后一个流式多尺度级联网络输出的目标多尺度特征,得到最后一个卷积层输出的目标卷积特征;通过上采样层处理最后一个卷积层输出的目标卷积特征,得到目标上采样特征;通过局部最大操作层处理目标上采样特征,得到目标姿态估计结果。
在一些实施例中,第五处理模块407还被配置为将目标上采样特征划分为预设数量个小特征,其中,所有小特征的尺寸相同;对于每个小特征,仅保留该小特征中数值最大的元素,该小特征中其它元素置为零;根据所有经过置零后的小特征确定目标姿态估计结果。
在一些实施例中,获取模块402还被配置为获取训练数据,将训练数据中的图像输入姿态估计模型:通过特征提取网络处理图像,得到残差特征;通过流式多尺度级联网络处理残差特征,得到多尺度特征;通过卷积层处理多尺度特征,得到卷积特征;通过上采样层处理卷积特征,得到上采样特征;通过局部最大操作层处理上采样特征,得到姿态估计结果;计算图像和姿态估计结果之间的损失值,依据损失值优化姿态估计模型的参数,以完成对姿态估计模型的训练。
在一些实施例中,获取模块402还被配置为获取训练数据,将训练数据中的图像输入姿态估计模型:通过特征提取网络处理图像,得到残差特征;依次通过多个流式多尺度级联网络处理残差特征,得到最后一个流式多尺度级联网络输出的多尺度特征;依次通过多个卷积层处理最后一个流式多尺度级联网络输出的多尺度特征,得到最后一个卷积层输出的卷积特征;通过上采样层处理最后一个卷积层输出的卷积特征,得到上采样特征;通过局部最大操作层处理上采样特征,得到姿态估计结果;计算图像和姿态估计结果之间的损失值,依据损失值优化姿态估计模型的参数,以完成对姿态估计模型的训练。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图5是本公开实施例提供的电子设备5的示意图。如图5所示,该实施例的电子设备5包括:处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者,处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。
电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解,图5仅仅是电子设备5的示例,并不构成对电子设备5的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器501可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器502可以是电子设备5的内部存储单元,例如,电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备,例如,电子设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。
Claims (9)
1.一种姿态估计方法,其特征在于,包括:
构建流式多尺度级联网络,将残差网络作为特征提取网络,利用所述特征提取网络、所述流式多尺度级联网络、卷积层、上采样层和局部最大操作层构建姿态估计模型;
获取目标对象的目标图像,将所述目标图像输入所述姿态估计模型:
通过所述特征提取网络处理所述目标图像,得到目标残差特征;
通过所述流式多尺度级联网络处理所述目标残差特征,得到目标多尺度特征;
通过所述卷积层处理所述目标多尺度特征,得到目标卷积特征;
通过所述上采样层处理所述目标卷积特征,得到目标上采样特征;
通过所述局部最大操作层处理所述目标上采样特征,得到目标姿态估计结果;
其中,通过所述流式多尺度级联网络处理所述目标残差特征,得到目标多尺度特征,包括:将所述目标残差特征输入所述流式多尺度级联网络:通过全局平均池化层处理所述目标残差特征,得到目标全局池化特征;依次通过多个空洞卷积层处理所述目标残差特征,以通过每个空洞卷积层分别输出一个目标空洞特征,其中,多个空洞卷积层的空洞率依次增大;通过连接在每个空洞卷积层之后的卷积层处理该空洞卷积层输出的目标空洞特征,以通过每个空洞卷积层之后的卷积层输出一个目标空洞卷积特征;通过特征拼接层处理所述目标全局池化特征以及所有目标空洞卷积特征,得到所述目标多尺度特征。
2.根据权利要求1所述的方法,其特征在于,依次通过多个空洞卷积层处理所述目标残差特征,以通过每个空洞卷积层分别输出一个目标空洞特征,包括:
通过第一空洞卷积层处理所述目标残差特征,得到第一目标空洞特征;
通过第二空洞卷积层处理所述第一目标空洞特征,得到第二目标空洞特征;
通过第三空洞卷积层处理所述第二目标空洞特征,得到第三目标空洞特征;
其中,所述第一空洞卷积层、所述第二空洞卷积层和所述第三空洞卷积层的空洞率依次为第一数值、第二数值和第三数值,所述第三数值是所述第一数值的三倍,所述第二数值是所述第一数值的二倍;
其中,所述第一空洞卷积层、所述第二空洞卷积层和所述第三空洞卷积层的卷积核均为第一预设卷积核;
其中,每个空洞卷积层之后的卷积层的卷积核均为第二预设卷积核,所述第二预设卷积核小于所述第一预设卷积核。
3.根据权利要求1所述的方法,其特征在于,获取目标对象的目标图像,将所述目标图像输入所述姿态估计模型之前,所述方法还包括:
依次连接所述特征提取网络、多个所述流式多尺度级联网络、多个所述卷积层、所述上采样层和所述局部最大操作层构建所述姿态估计模型;
其中,多个所述流式多尺度级联网络以及多个所述卷积层均是串行连接的。
4.根据权利要求1所述的方法,其特征在于,通过所述局部最大操作层处理所述目标上采样特征,得到目标姿态估计结果,包括:
将所述目标上采样特征划分为预设数量个小特征,其中,所有小特征的尺寸相同;
对于每个小特征,仅保留该小特征中数值最大的元素,该小特征中其它元素置为零;
根据所有经过置零后的小特征确定所述目标姿态估计结果。
5.根据权利要求1所述的方法,其特征在于,获取目标对象的目标图像,将所述目标图像输入所述姿态估计模型之前,所述方法还包括:
获取训练数据,将所述训练数据中的图像输入所述姿态估计模型:
通过所述特征提取网络处理所述图像,得到残差特征;
通过所述流式多尺度级联网络处理所述残差特征,得到多尺度特征;
通过所述卷积层处理所述多尺度特征,得到卷积特征;
通过所述上采样层处理所述卷积特征,得到上采样特征;
通过所述局部最大操作层处理所述上采样特征,得到姿态估计结果;
计算所述图像和所述姿态估计结果之间的损失值,依据所述损失值优化所述姿态估计模型的参数,以完成对所述姿态估计模型的训练。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取训练数据,将所述训练数据中的图像输入所述姿态估计模型:
通过所述特征提取网络处理所述图像,得到残差特征;
依次通过多个所述流式多尺度级联网络处理所述残差特征,得到最后一个所述流式多尺度级联网络输出的多尺度特征;
依次通过多个所述卷积层处理最后一个所述流式多尺度级联网络输出的多尺度特征,得到最后一个所述卷积层输出的卷积特征;
通过所述上采样层处理最后一个所述卷积层输出的卷积特征,得到上采样特征;
通过所述局部最大操作层处理所述上采样特征,得到姿态估计结果;
计算所述图像和所述姿态估计结果之间的损失值,依据所述损失值优化所述姿态估计模型的参数,以完成对所述姿态估计模型的训练。
7.一种姿态估计装置,其特征在于,包括:
构建模块,被配置为构建流式多尺度级联网络,将残差网络作为特征提取网络,利用所述特征提取网络、所述流式多尺度级联网络、卷积层、上采样层和局部最大操作层构建姿态估计模型;
获取模块,被配置为获取目标对象的目标图像,将所述目标图像输入所述姿态估计模型:
第一处理模块,被配置为通过所述特征提取网络处理所述目标图像,得到目标残差特征;
第二处理模块,被配置为通过所述流式多尺度级联网络处理所述目标残差特征,得到目标多尺度特征;
第三处理模块,被配置为通过所述卷积层处理所述目标多尺度特征,得到目标卷积特征;
第四处理模块,被配置为通过所述上采样层处理所述目标卷积特征,得到目标上采样特征;
第五处理模块,被配置为通过所述局部最大操作层处理所述目标上采样特征,得到目标姿态估计结果;
所述第二处理模块还被配置为将所述目标残差特征输入所述流式多尺度级联网络:通过全局平均池化层处理所述目标残差特征,得到目标全局池化特征;依次通过多个空洞卷积层处理所述目标残差特征,以通过每个空洞卷积层分别输出一个目标空洞特征,其中,多个空洞卷积层的空洞率依次增大;通过连接在每个空洞卷积层之后的卷积层处理该空洞卷积层输出的目标空洞特征,以通过每个空洞卷积层之后的卷积层输出一个目标空洞卷积特征;通过特征拼接层处理所述目标全局池化特征以及所有目标空洞卷积特征,得到所述目标多尺度特征。
8.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311788140.5A CN117456562B (zh) | 2023-12-25 | 2023-12-25 | 姿态估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311788140.5A CN117456562B (zh) | 2023-12-25 | 2023-12-25 | 姿态估计方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117456562A CN117456562A (zh) | 2024-01-26 |
CN117456562B true CN117456562B (zh) | 2024-04-12 |
Family
ID=89593275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311788140.5A Active CN117456562B (zh) | 2023-12-25 | 2023-12-25 | 姿态估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117456562B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376571A (zh) * | 2018-08-03 | 2019-02-22 | 西安电子科技大学 | 基于变形卷积的人体姿态估计方法 |
CN112131959A (zh) * | 2020-08-28 | 2020-12-25 | 浙江工业大学 | 一种基于多尺度特征强化的2d人体姿态估计方法 |
CN112651294A (zh) * | 2020-11-05 | 2021-04-13 | 同济大学 | 基于多尺度融合的遮挡人体姿势识别方法 |
US11074711B1 (en) * | 2018-06-15 | 2021-07-27 | Bertec Corporation | System for estimating a pose of one or more persons in a scene |
CN114463856A (zh) * | 2022-04-13 | 2022-05-10 | 深圳金信诺高新技术股份有限公司 | 姿态估计模型的训练与姿态估计方法、装置、设备及介质 |
CN116152199A (zh) * | 2023-02-23 | 2023-05-23 | 西安电子科技大学 | 基于分割图引导与正则约束的手部姿势与形状估计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7379299B2 (ja) * | 2020-08-28 | 2023-11-14 | 株式会社東芝 | 位置姿勢推定装置、位置姿勢推定方法及びプログラム |
-
2023
- 2023-12-25 CN CN202311788140.5A patent/CN117456562B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074711B1 (en) * | 2018-06-15 | 2021-07-27 | Bertec Corporation | System for estimating a pose of one or more persons in a scene |
CN109376571A (zh) * | 2018-08-03 | 2019-02-22 | 西安电子科技大学 | 基于变形卷积的人体姿态估计方法 |
CN112131959A (zh) * | 2020-08-28 | 2020-12-25 | 浙江工业大学 | 一种基于多尺度特征强化的2d人体姿态估计方法 |
CN112651294A (zh) * | 2020-11-05 | 2021-04-13 | 同济大学 | 基于多尺度融合的遮挡人体姿势识别方法 |
CN114463856A (zh) * | 2022-04-13 | 2022-05-10 | 深圳金信诺高新技术股份有限公司 | 姿态估计模型的训练与姿态估计方法、装置、设备及介质 |
CN116152199A (zh) * | 2023-02-23 | 2023-05-23 | 西安电子科技大学 | 基于分割图引导与正则约束的手部姿势与形状估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117456562A (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11915117B2 (en) | Reduced complexity convolution for convolutional neural networks | |
WO2022052367A1 (zh) | 一种用于遥感图像分类的神经网络优化方法、终端以及存储介质 | |
CN107610146B (zh) | 图像场景分割方法、装置、电子设备及计算机存储介质 | |
CN110598714B (zh) | 一种软骨图像分割方法、装置、可读存储介质及终端设备 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
CN111476719A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN111340077B (zh) | 基于注意力机制的视差图获取方法和装置 | |
US11580194B2 (en) | Information processing apparatus, information processing method, and program | |
JP2017068608A (ja) | 演算装置、方法及びプログラム | |
CN110782397A (zh) | 一种图像处理方法、生成式对抗网络、电子设备及存储介质 | |
CN111358430B (zh) | 一种磁共振成像模型的训练方法及装置 | |
CN109034176B (zh) | 辨识系统以及辨识方法 | |
CN110782398A (zh) | 一种图像处理方法、生成式对抗网络、电子设备及存储介质 | |
CN117456562B (zh) | 姿态估计方法及装置 | |
Khan et al. | Multi‐scale GAN with residual image learning for removing heterogeneous blur | |
CN109872275B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN113642510A (zh) | 目标检测方法、装置、设备和计算机可读介质 | |
CN109657523B (zh) | 一种可行驶区域检测方法和装置 | |
CN116912635B (zh) | 目标追踪方法及装置 | |
CN116912634B (zh) | 目标追踪模型的训练方法及装置 | |
CN116912518B (zh) | 图像的多尺度特征处理方法及装置 | |
CN117372818B (zh) | 目标重识别方法及装置 | |
US20230298326A1 (en) | Image augmentation method, electronic device and readable storage medium | |
CN117953217A (zh) | 基于位置敏感的图像分割方法及装置 | |
CN118135186A (zh) | 基于多尺度特征的目标检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |