CN116524546B - 一种基于异构图像协同增强的低分辨率人体姿态估计方法 - Google Patents
一种基于异构图像协同增强的低分辨率人体姿态估计方法 Download PDFInfo
- Publication number
- CN116524546B CN116524546B CN202310807515.1A CN202310807515A CN116524546B CN 116524546 B CN116524546 B CN 116524546B CN 202310807515 A CN202310807515 A CN 202310807515A CN 116524546 B CN116524546 B CN 116524546B
- Authority
- CN
- China
- Prior art keywords
- resolution
- low
- features
- human body
- resolution image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 14
- 239000013589 supplement Substances 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000006798 recombination Effects 0.000 claims description 6
- 238000005215 recombination Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000004148 unit process Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000005728 strengthening Methods 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 claims 2
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明属于人体姿态估计技术领域,公开了一种基于异构图像协同增强的低分辨率人体姿态估计方法,其收集由高、低分辨率人体图像组成异构图像对来构建训练数据集;构建基于跨分辨率异构图像协同增强的低分辨率人体姿态估计网络模型;训练阶段,利用跨分辨率异构图像对训练所述网络模型,得到训练好的模型;测试阶段,使用训练数据集收集过程中得到的高分辨率人体特征库为待检测图像匹配最相关的高分辨率图像,一起输入训练好的网络模型,获得人体姿态估计结果。与传统方法相比,本发明提出的网络模型能够利用异构的高分辨率人体图像中更丰富、更清晰的信息来引导网络生成高质量的低分辨率图像特征,从而提高低分辨率场景下的人体姿态估计准确性。
Description
技术领域
本发明属于人体姿态估计技术领域,具体涉及一种基于异构图像协同增强的低分辨率人体姿态估计方法。
背景技术
人体姿态估计是指通过检测和定位人体上的关键点来重建人体姿态的过程。该任务是计算机视觉领域的重要挑战之一,对于许多计算机视觉应用有着关键性的作用,如动作识别、智能视频监控和人机交互。目前在高分辨率数据的条件下,各种人体姿态估计方法被提出,并取得了不错的效果;然而受限于图像传感器的成像限制、传输限制以及存储限制,现实场景中实际的数据往往是低分辨率的。当图像分辨率降低时,图像信息的丢失会导致现有模型性能骤降,无法满足日益增长的生产和应用需求。
现有方法大多通过超分辨率技术来提高图像或特征的分辨率并补充丢失的图像信息;如Jie Xu, Yuna Liu等人(Image and Graphics: 11th InternationalConference, ICIG.2021.)在文献“Tiny Person Pose Estimation via Image andFeature Super Resolution”中通过设计三个超分辨率模块,分别从图像级、特征级、图像-特征联合级对待检测图像进行超分辨率来提高图像的特征质量,并取得了不错的低分辨率人体姿态估计结果,但这不仅会带来巨大的计算开销,而且由于超分辨率方法固有的不适定性问题,使用超分辨率来提高用于人体姿态估计的图像分辨率可能会产生伪影和假纹理,从而导致身体部位错位,以上两个问题限制了低分辨率人体姿态估计的效率和精度。
发明内容
为解决上述技术问题,本发明提供了一种基于异构图像协同增强的低分辨率人体姿态估计方法,能够在不依赖超分辨率的情况下提高低分辨率图像特征质量,提高低分辨率人体姿态估计的检测精度。
本发明所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法,包括以下步骤:
S1:收集由高分辨率人体图像和低分辨率人体图像组成异构图像对来构建训练数据集;
S2:构建基于异构图像协同增强的低分辨率人体姿态估计网络模型;
所述网络模型包括骨干网络、姿态信息增强模块、细节信息增强模块和回归层;
骨干网络用于提取高分辨率图像和低分辨率图像的多尺度特征;
姿态信息增强模块用于为低分辨率图像特征提供关键点级别的语义指导来提高姿态相关的低分辨率图像特征质量;
细节信息增强模块用于在高分辨率图像特征和低分辨率图像特征间传输细节信息,构建细节信息增强的低分辨率图像特征;
回归层将低分辨率图像的姿态信息增强特征和细节信息增强特征进行融合,并预测出最终的人体姿态估计结果;
S3:训练阶段,利用构建的训练数据集来训练基于异构图像协同增强的低分辨率人体姿态估计网络模型;
S4:测试阶段,使用训练数据集收集过程中得到的高分辨率人体特征库为待检测图像匹配最相关的高分辨率图像,一起输入训练好的网络模型,获得人体姿态估计结果。
进一步地,步骤S1包括如下步骤:
S1.1:从现有的人体图像数据集(如COCO数据集)中,收集高、低分辨率人体图像,并使用VGG网络来提取图像特征,并保存为高、低分辨率人体特征库;
S1.2:通过计算高、低分辨率图像特征之间的相似度,从而为每一个低分辨率人体图像匹配最相关的高分辨率人体图像,进而构建[低分辨率人体图像ID, 高分辨率人体图像ID]的索引列表用于训练。
进一步地,所述骨干网络可以为ResNet、HRNet等任一基于CNN的网络,根据骨干网络提取高分辨率图像和低分辨率图像的多尺度特征的位置,将获取的多尺度特征划分为浅层特征、中间层特征和深层特征。
进一步的,所述姿态信息增强模块由关键点特征提取单元和关键点级特征匹配重组单元组成,关键点特征提取单元将高分辨率图像的深层特征和热图标注处理得到关键点特征,关键点级特征匹配重组单元将关键点特征和低分辨率图像多尺度特征进行特征相似度匹配处理并重组得到姿态信息引导特征,通过将姿态信息引导特征和低分辨率图像特征进行拼接融合,得到姿态信息强化特征。
进一步的,所述细节信息增强模块由块级特征匹配重组单元和特征对齐单元组成,块级特征匹配重组单元将高、低分辨率图像浅层特征块进行特征相似度匹配处理并重组得到细节信息补充特征,特征对齐单元将细节信息补充特征分布与低分辨率图像特征分布对齐,得到分布对齐的细节信息补充特征,通过将分布对齐的细节信息补充特征和低分辨率图像特征进行拼接融合,得到细节信息强化特征。
进一步的,在训练阶段,所述姿态信息增强模块执行如下步骤:
使用高分辨率图像的热力图标注作为掩码与其深层特征相乘,提取人体关键点特征;
通过对关键点特征与低分辨率图像的多尺度融合特征中每个像素位置的特征向量进行相似度匹配,从而得到相似度得分集合,进而筛选出每个像素位置最相关的关键点特征,生成索引图和置信图;
利用索引图将每个像素位置与相应的关键点特征关联来获得姿态信息引导特征,并利用置信图对姿态信息引导特征进行加权;
将加权后的姿态信息引导特征与低分辨率图像特征融合,提供姿态相关的引导信息,获得姿态信息强化特征。
进一步的,在训练阶段,所述细节信息增强模块执行如下步骤:
将高、低分辨率图像浅层特征统一至相同尺寸后,切割成相同大小的块;
在高、低分辨率图像特征块之间进行相似度匹配,为每一个低分辨率图像特征块匹配最相关的高分辨率图像特征块,从而得到对应的索引图和置信图;
将高分辨率图像特征块按照索引图来重新排列并合并,从而得到细节信息补充特征,并利用置信图对细节信息补充特征进行加权;
使用权重和偏差初始化为0的零卷积将细节信息补充特征与低分辨率图像浅层特征融合并计算出对应的残差均值和残差标准差;将残差均值和标准差与低分辨率图像浅层特征的均值和标准差相加,将得到的结果应用在细节信息补充特征上,以得到对齐细节信息补充特征;
将对齐细节信息补充特征和低分辨率图像浅层特征进行融合,得到细节信息更加丰富的细节信息增强特征。
进一步的,步骤S4包含如下步骤:
输入待检测的低分辨率图像;
使用训练数据集收集过程中得到的高分辨率人体特征库为待检测低分辨率图像匹配最相关的高分辨率图像;
将获得的高、低分辨率图像对输入到骨干网络,获得多尺度特征;
将高分辨率图像的深层特征和标注热力图以及低分辨率图像的多尺度融合特征输入到姿态信息增强模块,获得姿态信息增强特征;
将高、低分辨率图像的浅层特征输入到细节信息增强模块,获得细节信息增强特征;
将获得的姿态信息增强特征和细节信息增强特征输入到回归层得到预测的人体姿态估计结果。
本发明所述的有益效果为:本发明通过探索并构建异构的高、低分辨率人体图像之间的关联关系, 提出了一种无需依赖超分辨率提升特征质量,而是利用异构高分辨率图像来辅助进行低分辨率人体姿态估计的方法;所述方法能够直接利用现有数据集中的高、低分辨率人体图像构建跨分辨率的异构图像对,相比基于超分辨率的人体姿态估计方法需要专门收集成对数据,本发明所述的方法更加方便经济;本发明引入了姿态信息增强模块,通过提取高分辨率图像的关键点特征,并将其应用于低分辨率图像特征,相比于传统实例级语义指导方法,该模块能够在为低分辨率图像特征提供关键点级别的语义指导来提升特征质量的同时,显著减少计算开销;还引入了细节信息增强模块,能够有效地在高、低分辨率图像特征之间实现细节信息传输,从而解决低分辨率图像自身的信息缺失问题,相比于超分辨率方法,该模块只需要少量的参数就能重建出细节信息更丰富的低分辨率图像特征。
附图说明
图1是所述方法的流程示意图;
图2是所述训练数据集构建流程图;
图3是所述基于跨分辨率异构图像协同增强的低分辨率人体姿态估计网络模型的结构示意图;
图4是特征匹配工作流程示意图;
图5是跨分辨率特征对齐工作流程示意图。
具体实施方式
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
如图1所示,本发明所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法在基础的人体姿态估计流程上加以改进,在原有的骨干网络和回归层的基础上添加了姿态信息增强模块、细节信息增强模块,从而更容易在低分辨率场景下进行人体姿态估计,提高人体姿态估计的准确率,具体包括以下步骤:
S1:收集由高、低分辨率人体图像组成异构图像对来构建训练数据集;
S2:构建基于跨分辨率异构图像协同增强的低分辨率人体姿态估计网络模型;
S3:训练阶段,利用构建的训练数据集来训练基于异构图像协同增强的低分辨率人体姿态估计网络模型;
S4:测试阶段,使用训练数据集收集过程中得到的高分辨率人体特征库为待检测图像匹配最相关的高分辨率图像,一起输入训练好的网络模型,获得人体姿态估计结果。
如图2所示,步骤S1具体包括如下步骤:
S1.1:从现有的人体图像数据集(如COCO数据集)中,收集高、低分辨率人体图像,并使用VGG网络来提取图像特征,并保存为高、低分辨率人体特征库;
S1.2:通过计算高、低分辨率图像特征之间的相似度,从而为每一个低分辨率人体图像匹配最相关的高分辨率人体图像,进而构建[低分辨率人体图像ID, 高分辨率人体图像ID]的索引列表用于训练,所述索引列表记为,/>,N为低分辨率人体图像个数。
由于目前的超分辨率方法通常使用同构的高、低分辨率图像(不同分辨率下的同一图像)来进行训练,这与人体姿态估计任务关联度较低。这种训练方式容易导致超分辨率结果出现伪影并可能导致肢体错位。然而,为人体姿态估计任务专门收集成对数据是一项耗时且费力的工作。因此,本实施例采用了一种更为便捷且适用于实际场景的方法,即直接利用现有数据集中的高、低分辨率人体图像构建跨分辨率的异构图像对,通过利用异构的高分辨率图像辅助进行低分辨率人体姿态估计,从而能够更方便地进行模型训练,并使其更适应实际应用场景。
如图3所示,构建的基于异构图像协同增强的低分辨率人体姿态估计网络模型,包括骨干网络、姿态信息增强模块、细节信息增强模块和回归层;
骨干网络用于提取高分辨率图像和低分辨率图像的多尺度特征;
姿态信息增强模块用于为低分辨率图像特征提供关键点级别的语义指导来提高姿态相关的低分辨率图像特征质量;
细节信息增强模块用于在高分辨率图像特征和低分辨率图像特征间传输细节信息,从而重建出包含更多细节信息的低分辨率图像特征;
回归层将低分辨率图像的姿态信息增强特征和细节信息增强特征进行融合,并预测出最终的人体姿态估计结果;
其中,所述骨干网络可以为ResNet、HRNet等任一基于CNN的网络,并且根据骨干网络提取特征的位置可以将获取的多尺度特征划分为浅层特征、中间层特征和深层特征。
所述姿态信息增强模块由关键点特征提取单元和关键点级特征匹配重组单元组成,关键点特征提取模块将高分辨率图像的深层特征和热图标注处理得到关键点特征,关键点级特征匹配重组单元将关键点特征和低分辨率图像多尺度特征进行特征相似度匹配处理并重组得到姿态信息引导特征,通过将姿态信息引导特征和低分辨率图像特征进行拼接融合,得到姿态信息强化特征。
所述细节信息增强模块由块级特征匹配重组单元和特征对齐单元组成,块级特征匹配重组单元将高、低分辨率图像浅层特征块进行特征相似度匹配处理并重组得到细节信息补充特征,特征对齐单元将细节信息补充特征分布与低分辨率图像特征分布对齐,得到分布对齐的细节信息补充特征,通过将分布对齐的细节信息补充特征和低分辨率图像特征进行拼接融合,得到细节信息强化特征。
在训练所述网络模型时,姿态信息增强模块执行如下步骤:
首先获得高分辨率图像的深层特征,/>、/>代表低分辨率图像特征的高和宽,C代表图像特征的通道个数;然后将其上采样至对应的高分辨率标注热力图/>相同尺寸大小,并与其相乘,获得对应的高分辨率关键点特征,表达式如下:
,
其中,代表姿态信息增强模块提取的高分辨率图像特征的第k个关键点特征,K为人体总关键点数,/>表示高分辨率图像的第/>个关键点标注热力图,/>代表两矩阵点乘,AvePooling表示平均池化操作,Upsample表示上采样操作;最终获得的高分辨率关键点特征为/>。
将低分辨率图像的多尺度特征进行融合(如使用特征金字塔FPN),得到低分辨率图像的多尺度融合特征,/>、/>代表得到的多尺度融合特征的高和宽,C代表特征的通道个数。
如图4所示,将获得的关键点特征与低分辨率图像多尺度融合特征/>的每一个像素位置的特征向量进行特征匹配操作,表达式如下:
,
其中,代表/>在/>位置的特征向量,/>代表第/>个关键点特征和/>在/>位置的特征向量之间的相似度得分,下标/>表示相似度得分是从姿态信息增强模块中得到。
将获得的相似度得分集合进一步处理,来得到与/>的每一个像素位置最相关的关键点特征的索引和置信分数,并组合成与/>空间尺寸一致的索引图/>和置信图,表达式如下:
,
其中代表/>在/>位置最相关的关键点特征索引,/>代表对应的置信分数。
利用获得的索引图来为每一个像素位置/>关联对应的关键点特征,从而获得与/>相同大小的姿态信息引导特征/>;最后用置信图对姿态信息引导特征进行加权后,与低分辨率图像特征/>进行融合,从而提供姿态相关的引导信息来强化低分辨率图像特征,表达式如下:
,
其中代表通道拼接操作,代表特征融合操作,可以使用卷积实现,代表语义强化后的低分辨率图像特征。
传统的实例级语义引导方法需要扩展单个引导特征至匹配图像特征的大小来提供单一的语义引导,并多次重复此过程,这导致了巨大的成本和复杂的计算。与此不同,本实施例提出了一种动态分配方法,该方法能为图像特征中的每一个像素位置分配引导特征中最相关的引导特征来进行指导,一次性地完成对低分辨率图像特征提供不同语义指导的过程。这种方法在提升低分辨率图像特征质量的同时,显著减少了计算开销。
在训练所述低分辨率人体姿态估计网络模型时,细节信息增强模块执行如下步骤:
首先获得高、低分辨率图像的浅层特征并统一至相同尺寸,设特征间的尺度差异为倍,则需要对特征进行下/上采样/>倍来统一尺寸。得到的特征记为,/>、/>代表特征的高和宽,C代表特征的通道个数。
如图4所示,将统一尺寸的高、低分辨率图像浅层特征切割成同样大小的块,记作,其中N代表块的个数,P代表块的高和宽,C代表通道数;然后进行特征匹配操作,从而获得块之间的相似度得分,表达式如下:
,
其中代表低分辨率图像浅层特征的第/>个块,/>代表高分辨率图像浅层特征的第/>个块,/>代表对应的相似度得分。
将获得的相似度得分进一步处理,从而获得每一个低分辨率图像特征块最相关的高分辨率图像特征块的索引和对应的置信度,并组合成与空间尺寸一致的索引图/>和置信图/>,表达式如下:
,
其中代表第/>个低分辨率图像特征块对应最相关的高分辨率图像特征块索引,代表对应的置信分数。
利用获得的索引图来将高分辨率图像特征块重新排列并合并,然后用置信图对得到的特征进行加权,从而得到细节信息补充特征/>,表达式如下:
,
如图5所示,进一步计算分布的均值/>和标准差/>,并将/>经过一层权重和偏差初始化为0的零卷积与/>融合,并分别通过一层零卷积来计算出对应的残差均值/>和残差标准差/>。将得到的均值和标准差应用在/>,使其与/>对齐,得到对齐特征/>,从而能够进行更好的细节信息传输,表达式如下:
,
最后将和/>进行融合,得到包含更多细节信息的低分辨率图像特征,表达式如下:
,
其中代表通道拼接操作,代表特征融合操作,可以是卷积,代表
包含更多细节信息的低分辨率图像特征。
由于图像是异构的,尽管两张图片中存在相似的内容,但是受颜色、光照以及分辨率的影响,特征分布并不一致,因此直接融合不是最优的,很容易导致细节信息传输失败。本实施例在特征匹配的基础上设计了一种新的跨分辨率特征对齐方式,通过使用零卷积让网络学习如何处理高、低分辨率图像特征之间的分布差异,而不是简单地通过将低分辨率图像的均值和标准差应用于高分辨率图像特征来强制进行特征对齐。
进一步地,如图3所示,步骤S3在训练所述低分辨率人体姿态估计网络模型时,回归层执行以下步骤:
将上述两个模块获得的姿态信息增强特征和细节信息增强特征进行融合,从而获得最终的融合特征,然后输入进回归层回归出最终的姿态估计结果,表达式如下:
,
,
其中代表通道拼接操作,/>代表特征融合操作,可以用/>卷积实现,代表反卷积操作,获得的融合特征为/>,获得的姿态估计结果为热力图/>,/>、/>为人工设置的热力图尺寸超参数。
进一步地,步骤3中训练所述低分辨率人体姿态估计网络模型的损失函数使用MSE损失函数。
步骤S4包含如下步骤:
输入待检测的低分辨率图像;
使用训练数据集收集过程中得到的高分辨率人体特征库为待检测低分辨率图像匹配最相关的高分辨率图像;
将获得的高、低分辨率图像对输入到骨干网络,获得多尺度特征;
将高分辨率图像的深层特征和标注热力图以及低分辨率图像的多尺度融合特征输入到姿态信息增强模块,获得姿态信息增强特征;
将高、低分辨率图像的浅层特征输入到细节信息增强模块,获得细节信息增强特征;
将获得的姿态信息增强特征和细节信息增强特征输入到回归层得到预测的人体姿态估计结果。
以上所述仅为本发明的优选方案,并非作为对本发明的进一步限定,凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。
Claims (7)
1.一种基于异构图像协同增强的低分辨率人体姿态估计方法,其特征在于,包括如下步骤:
S1:收集由高分辨率人体图像和低分辨率人体图像组成异构图像对来构建训练数据集;包括如下步骤:
S1.1:从现有的人体图像数据集中,收集高分辨率人体图像和低分辨率人体图像,并使用VGG网络来提取图像特征,并保存为高、低分辨率人体特征库;
S1.2:通过计算高、低分辨率图像特征之间的相似度,为每一个低分辨率人体图像匹配最相关的高分辨率人体图像,从而构建[低分辨率人体图像ID,高分辨率人体图像ID]的索引列表用于训练;
S2:构建基于异构图像协同增强的低分辨率人体姿态估计网络模型;
所述网络模型包括骨干网络、姿态信息增强模块、细节信息增强模块和回归层;
骨干网络用于提取高分辨率图像和低分辨率图像的多尺度特征;
姿态信息增强模块用于为低分辨率图像特征提供关键点级别的语义指导来提高姿态相关的低分辨率图像特征质量;
细节信息增强模块用于在高分辨率图像特征和低分辨率图像特征间传输细节信息,从而重建出包含更多细节的低分辨率图像特征;
回归层将低分辨率图像的姿态信息增强特征和细节信息增强特征进行融合,并预测出最终的人体姿态估计结果;
S3:训练阶段,利用异构图像对训练所述网络模型,得到训练好的模型;
S4:测试阶段,使用训练数据集收集过程中得到的高分辨率人体特征库为待检测图像匹配最相关的高分辨率图像,一起输入训练好的网络模型,获得人体姿态估计结果。
2.根据权利要求1所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法,其特征在于,所述骨干网络为基于CNN的网络,根据骨干网络提取高分辨率图像和低分辨率图像的多尺度特征的位置,将获取的多尺度特征划分为浅层特征、中间层特征和深层特征。
3.根据权利要求2所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法,其特征在于,所述姿态信息增强模块由关键点特征提取单元和关键点级特征匹配重组单元组成,关键点特征提取单元将高分辨率图像的深层特征和热图标注处理得到关键点特征,关键点级特征匹配重组单元将关键点特征和低分辨率图像多尺度特征进行特征相似度匹配处理并重组得到姿态信息引导特征,通过将姿态信息引导特征和低分辨率图像特征进行拼接融合,得到姿态信息强化特征。
4.根据权利要求2所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法,其特征在于,所述细节信息增强模块由块级特征匹配重组单元和特征对齐单元组成,块级特征匹配重组单元将高、低分辨率图像浅层特征块进行特征相似度匹配处理并重组得到细节信息补充特征,特征对齐单元将细节信息补充特征分布与低分辨率图像特征分布对齐,得到分布对齐的细节信息补充特征,通过将分布对齐的细节信息补充特征和低分辨率图像特征进行拼接融合,得到细节信息强化特征。
5.根据权利要求3所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法,其特征在于,在训练阶段,所述姿态信息增强模块执行如下步骤:
使用高分辨率图像的热力图标注作为掩码与其深层特征相乘,提取人体关键点特征;
通过对关键点特征与低分辨率图像的多尺度融合特征中每个像素位置的特征向量进行相似度匹配,从而得到相似度得分集合,进而筛选出每个像素位置最相关的关键点特征,生成索引图和置信图;
利用索引图将每个像素位置与相应的关键点特征关联来获得姿态信息引导特征,并利用置信图对姿态信息引导特征进行加权;
将加权后的姿态信息引导特征与低分辨率图像特征融合,提供姿态相关的引导信息,获得姿态信息强化特征。
6.根据权利要求4所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法,其特征在于,在训练阶段,所述细节信息增强模块执行如下步骤:
将高、低分辨率图像浅层特征统一至相同尺寸后,切割成相同大小的块;
在高、低分辨率图像特征块之间进行相似度匹配,为每一个低分辨率图像特征块匹配最相关的高分辨率图像特征块,从而得到对应的索引图和置信图;
将高分辨率图像特征块按照索引图来重新排列并合并,从而得到细节信息补充特征,并利用置信图对细节信息补充特征进行加权;
使用权重和偏差初始化为0的零卷积将细节信息补充特征与低分辨率图像浅层特征融合并计算出对应的残差均值和残差标准差;将残差均值和标准差与低分辨率图像浅层特征的均值和标准差相加,将得到的结果应用在细节信息补充特征上,以得到对齐细节信息补充特征;
将对齐细节信息补充特征和低分辨率图像浅层特征进行融合,得到细节信息更加丰富的细节信息增强特征。
7.根据权利要求1所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法,其特征在于,步骤S4包含如下步骤:
输入待检测的低分辨率图像;
使用训练数据集收集过程中得到的高分辨率人体特征库为待检测低分辨率图像匹配最相关的高分辨率图像;
将获得的高、低分辨率图像对输入到骨干网络,获得多尺度特征;
将高分辨率图像的深层特征和标注热力图以及低分辨率图像的多尺度融合特征输入到姿态信息增强模块,获得姿态信息增强特征;
将高、低分辨率图像的浅层特征输入到细节信息增强模块,获得细节信息增强特征;
将获得的姿态信息增强特征和细节信息增强特征输入到回归层得到预测的人体姿态估计结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310807515.1A CN116524546B (zh) | 2023-07-04 | 2023-07-04 | 一种基于异构图像协同增强的低分辨率人体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310807515.1A CN116524546B (zh) | 2023-07-04 | 2023-07-04 | 一种基于异构图像协同增强的低分辨率人体姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116524546A CN116524546A (zh) | 2023-08-01 |
CN116524546B true CN116524546B (zh) | 2023-09-01 |
Family
ID=87404997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310807515.1A Active CN116524546B (zh) | 2023-07-04 | 2023-07-04 | 一种基于异构图像协同增强的低分辨率人体姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524546B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339903A (zh) * | 2020-02-21 | 2020-06-26 | 河北工业大学 | 一种多人人体姿态估计方法 |
CN113011304A (zh) * | 2021-03-12 | 2021-06-22 | 山东大学 | 一种基于注意力多分辨率网络的人体姿态估计方法及系统 |
CN113128446A (zh) * | 2021-04-29 | 2021-07-16 | 南京大学 | 一种基于信念图增强网络的人体姿态估计方法 |
CN113361378A (zh) * | 2021-06-02 | 2021-09-07 | 合肥工业大学 | 一种运用适应性数据增强的人体姿态估计方法 |
CN114677707A (zh) * | 2022-03-17 | 2022-06-28 | 湖北三江航天万峰科技发展有限公司 | 一种基于多分辨率特征融合网络的人体姿态估计方法 |
-
2023
- 2023-07-04 CN CN202310807515.1A patent/CN116524546B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339903A (zh) * | 2020-02-21 | 2020-06-26 | 河北工业大学 | 一种多人人体姿态估计方法 |
CN113011304A (zh) * | 2021-03-12 | 2021-06-22 | 山东大学 | 一种基于注意力多分辨率网络的人体姿态估计方法及系统 |
CN113128446A (zh) * | 2021-04-29 | 2021-07-16 | 南京大学 | 一种基于信念图增强网络的人体姿态估计方法 |
CN113361378A (zh) * | 2021-06-02 | 2021-09-07 | 合肥工业大学 | 一种运用适应性数据增强的人体姿态估计方法 |
CN114677707A (zh) * | 2022-03-17 | 2022-06-28 | 湖北三江航天万峰科技发展有限公司 | 一种基于多分辨率特征融合网络的人体姿态估计方法 |
Non-Patent Citations (1)
Title |
---|
基于ASPP的高分辨率卷积神经网络2D人体姿态估计研究;申小凤;王春佳;;现代计算机(第13期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116524546A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Towards fast and accurate real-world depth super-resolution: Benchmark dataset and baseline | |
CN111091521B (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
An et al. | TR-MISR: Multiimage super-resolution based on feature fusion with transformers | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
Zhou et al. | A lightweight hand gesture recognition in complex backgrounds | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
CN110598537A (zh) | 一种基于深度卷积网络的视频显著性检测方法 | |
CN112800869A (zh) | 图像人脸表情迁移方法、装置、电子设备及可读存储介质 | |
Ayas et al. | Microscopic image super resolution using deep convolutional neural networks | |
CN116934592A (zh) | 一种基于深度学习的图像拼接方法、系统、设备及介质 | |
CN113240584B (zh) | 一种基于图片边缘信息的多任务手势图片超分辨率方法 | |
Wang et al. | Msfnet: multistage fusion network for infrared and visible image fusion | |
CN111311732B (zh) | 3d人体网格获取方法及装置 | |
CN116342675B (zh) | 一种实时单目深度估计方法、系统、电子设备及存储介质 | |
WO2024041235A1 (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
CN116524546B (zh) | 一种基于异构图像协同增强的低分辨率人体姿态估计方法 | |
Liu et al. | Sketch to portrait generation with generative adversarial networks and edge constraint | |
Yan et al. | Effective full-scale detection for salient object based on condensing-and-filtering network | |
CN116469172A (zh) | 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统 | |
CN111369564B (zh) | 一种图像处理的方法、模型训练的方法及装置 | |
CN114627293A (zh) | 基于多任务学习的人像抠图方法 | |
Li et al. | Realistic single-image super-resolution using autoencoding adversarial networks | |
Zengy et al. | Implicit Mutual Learning With Dual-Branch Networks for Face Super-Resolution | |
CN117726822B (zh) | 基于双分支特征融合的三维医学图像分类分割系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |