CN115052147B - 基于生成模型的人体视频压缩方法、系统 - Google Patents

基于生成模型的人体视频压缩方法、系统 Download PDF

Info

Publication number
CN115052147B
CN115052147B CN202210445390.8A CN202210445390A CN115052147B CN 115052147 B CN115052147 B CN 115052147B CN 202210445390 A CN202210445390 A CN 202210445390A CN 115052147 B CN115052147 B CN 115052147B
Authority
CN
China
Prior art keywords
video
bit stream
point sequence
human body
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210445390.8A
Other languages
English (en)
Other versions
CN115052147A (zh
Inventor
毛琪
王若凡
马思伟
贾川民
王诗淇
王荣刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202210445390.8A priority Critical patent/CN115052147B/zh
Publication of CN115052147A publication Critical patent/CN115052147A/zh
Application granted granted Critical
Publication of CN115052147B publication Critical patent/CN115052147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供一种基于生成模型的人体视频压缩方法,首先将源视频序列分为关键帧和其他视频帧;将关键帧输入变分自编码器以获取纹理特征向量,并对关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列;再对纹理特征向量进行熵估计与无损算术编码压缩处理以生成纹理特征比特流,并基于人体姿态关键点序列生成姿态特征比特流;而后将对纹理特征比特流和姿态特征比特流进行解码所获取的还原纹理特征和还原姿态关键点序列输入预设的生成模型中,以使生成模型对所述还原纹理特征和还原姿态关键点序列进行重建处理以获取人体重建视频,如此,重建视频具有特征可分析性,使用特征压缩的方法也可以显著提高编码性能,节约传输带宽。

Description

基于生成模型的人体视频压缩方法、系统
技术领域
本发明涉及数字信号处理技术领域,更为具体地,涉及一种基于生成模型的人体视频压缩方法、系统。
背景技术
随着计算机技术、微电子技术和通信技术的不断进步,人们不仅仅满足于语音、电报、电子邮件等通信方式,视频通信因为其直观性、可靠性一系列优点,成为新的应用需求热点。
随着科技的发展,视频压缩技术日益提高,但是由于视频压缩涉及到码率的限制,视频压缩的质量有待提高。当前传统视频编码框架在极低码率压缩时表现出来的重建视频主观质量不佳。
因此,亟需一种提高视频压缩质量,提高编码性能,同时节约传输带宽的基于生成模型的人体视频压缩方法、系统。
发明内容
鉴于上述问题,本发明的目的是提供一种基于生成模型的人体视频压缩方法、系统,以解决现有技术中传统视频编码框架在极低码率压缩时表现出来的重建视频主观质量不佳的问题。
本发明提供的一种基于生成模型的人体视频压缩方法,包括:
将源视频序列分为关键帧和除所述关键帧之外的其他视频帧;将所述关键帧输入变分自编码器以获取纹理特征向量,并对所述关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列;
对所述纹理特征向量进行熵估计与无损算术编码压缩处理以生成纹理特征比特流,并基于所述人体姿态关键点序列生成姿态特征比特流;
分别对所述纹理特征比特流和所述姿态特征比特流进行解码以获取还原纹理特征和还原姿态关键点序列;
将所述还原纹理特征和所述还原姿态关键点序列输入预设的生成模型中,以使所述生成模型对所述还原纹理特征和所述还原姿态关键点序列进行重建处理以获取人体重建视频。
优选地,在将所述关键帧输入变分自编码器以获取纹理特征向量的过程中,
所述关键帧为所述源视频序列的第一帧;
所述变分自编码器由预采集的样本关键帧和预采集样本其他视频帧通过对比学习的方法训练而成。
优选地,对所述关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列的过程,包括:
通过预训练的姿态编码器对所述关键帧和所述其他视频帧进行姿态提取以获取人体结构信息;
根据所述人体结构信息获取人体姿态关键点序列;其中,
所述人体姿态关键点序列至少包括骨架序列或人体关键点序列。
优选地,所述姿态特征比特流包括结构特征比特流和运动特征比特流;其中,
生成所述结构特征比特流和运动特征比特流的过程,包括:
对所述关键帧所对应的人体姿态关键点序列进行无损算术编码压缩处理以获取结构特征比特流;对所述其他视频帧中相邻帧对应的人体姿态关键点序列的关键点进行残差处理以获取运动信息,并对所述运动信息进行无损算术编码压缩处理以生成运动特征比特流。
优选地,所述熵估计基于超先验的概率分布估计方法。
优选地,训练所述生成模型的过程,包括:
基于预先采集的样本输入视频帧和预先获取的样本重建视频帧通过对比学习方法对预先建立的卷积神经网络模型进行训练,并根据所述卷积神经网络模型所输出的输出结果与所述样本输入视频帧获取目标损失函数,直至所述目标损失函数达到预设的损失阈值,则将最后一次训练的卷积神经网络作为生成模型;其中,
所述生成模型至少包括生成对抗网络,所述生成对抗网络用于基于所述还原隐编码和所述还原姿态信息进行重建处理以获取人体重建视频;其中,
所述生成对抗网络包括生成器和判别器。
优选地,所述目标损失函数包括关于所述输出结果与所述样本输入视频帧的原图的感知损失。
优选地,所述目标损失函数还包括所述输出结果与所述样本输入视频的原图的特征距离损失;其中所述特征距离由预设的特征提取网络获取。
优选地,所述变分自编码器采用预训练的姿态提取网络与端到端训练的语义内容分解网络。
另一方面,本发明还提供一种基于生成模型的人体视频压缩系统,实现如前所述的基于生成模型的人体视频压缩方法,包括:
特征序列提取单元,用于将源视频序列分为关键帧和除所述关键帧之外的其他视频帧;将所述关键帧输入变分自编码器以获取纹理特征向量,并对所述关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列;
比特流生成单元,用于对所述纹理特征向量进行熵估计与无损算术编码压缩处理以生成纹理特征比特流,并基于所述人体姿态关键点序列生成姿态特征比特流;
比特流解码单元,用于分别对所述纹理特征比特流和所述姿态特征比特流进行解码以获取还原纹理特征和还原姿态关键点序列;
生成模型,用于对所述还原纹理特征和所述还原姿态关键点序列进行重建处理以获取人体重建视频。
从上面的技术方案可知,本发明提供的基于生成模型的人体视频压缩方法,首先将源视频序列分为关键帧和除所述关键帧之外的其他视频帧;将关键帧输入变分自编码器以获取纹理特征向量,并对关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列;再对纹理特征向量进行熵估计与无损算术编码压缩处理以生成纹理特征比特流,并基于人体姿态关键点序列生成姿态特征比特流;而后分别对纹理特征比特流和姿态特征比特流进行解码以获取还原纹理特征和还原姿态关键点序列;再将还原纹理特征和还原姿态关键点序列输入预设的生成模型中,以使生成模型对所述还原纹理特征和还原姿态关键点序列进行重建处理以获取人体重建视频,如此,能够集成到人体视频压缩编解码框架中,重建视频具有特征可分析性,使用特征压缩的方法也可以显著提高编码性能,节约传输带宽。
附图说明
通过参考以下结合附图的说明书内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的基于生成模型的人体视频压缩方法的流程图;
图2为根据本发明实施例的基于生成模型的人体视频压缩方法的原理示意图;
图3为本发明实施例的基于生成模型的人体视频压缩方法的生成模型所涉及的对比学习方法的示意图;
图4为采用本发明实施例的基于生成模型的人体视频压缩方法的效果对比图;
图5为根据本发明实施例的基于生成模型的人体视频压缩系统的示意图。
具体实施方式
当前传统视频编码框架在极低码率压缩时表现出来的重建视频主观质量不佳。
针对上述问题,本发明提供一种基于生成模型的人体视频压缩方法、系统,以下将结合附图对本发明的具体实施例进行详细描述。
为了说明本发明提供的基于生成模型的人体视频压缩方法、系统,图1、图2、图3、图4分别对本发明实施例的基于生成模型的人体视频压缩方法进行了示例性标示;图5对本发明实施例的基于生成模型的人体视频压缩系统进行了示例性标示。
以下示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论,但在适当情况下,所述技术和设备应当被视为说明书的一部分。
如图1、图2、图3共同所示,本发明提供一种基于生成模型的人体视频压缩方法,包括:
S1:将源视频序列分为关键帧和除所述关键帧之外的其他视频帧;将所述关键帧输入变分自编码器以获取纹理特征向量,并对所述关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列;
S2:对所述纹理特征向量进行熵估计与无损算术编码压缩处理以生成纹理特征比特流,对所述人体姿态关键点序列进行无损算术编码压缩处理以生成姿态特征比特流;
S3:分别对所述纹理特征比特流和所述姿态特征比特流进行解码以获取还原纹理特征和还原姿态关键点序列;
S4:将所述还原纹理特征和所述还原姿态关键点序列输入预设的生成模型中,以使所述生成模型对所述还原纹理特征和所述还原姿态关键点序列进行重建处理以获取人体重建视频;
在图1、图2共同所示的实施例中,步骤S1为将源视频序列分为关键帧和除所述关键帧之外的其他视频帧;将所述关键帧输入变分自编码器以获取纹理特征向量,并对所述关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列的过程;
在将所述关键帧输入变分自编码器以获取纹理特征向量的过程中,
所述关键帧为所述源视频序列的第一帧;
所述变分自编码器由预采集的样本关键帧和预采集样本其他视频帧通过对比学习的方法训练而成。
对所述关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列的过程,包括:
通过预训练的姿态编码器对所述关键帧和所述其他视频帧进行姿态提取以获取人体结构信息;
根据所述人体结构信息获取人体姿态关键点序列;其中,
所述人体姿态关键点序列至少包括骨架序列或人体关键点序列。
在本实施例中,该变分自编码器采用预训练的姿态提取网络与端到端训练的语义内容分解网络;在提取人体姿态关键点序列时可以采用基于深度网络的姿态检测方法;该人体姿态关键点序列至少包括骨架序列或人体关键点序列。
在图1、图2、图3共同所示的实施例中,步骤S2为对所述纹理特征向量进行熵估计与无损算术编码压缩处理以生成纹理特征比特流,并基于所述人体姿态关键点序列生成姿态特征比特流的过程;其中,
所述姿态特征比特流包括结构特征比特流和运动特征比特流;其中,
生成所述结构特征比特流和运动特征比特流的过程,包括:
对所述关键帧所对应的人体姿态关键点序列进行无损算术编码压缩处理以获取结构特征比特流;对所述其他视频帧中相邻帧对应的人体姿态关键点序列的关键点进行残差处理以获取运动信息,并对所述运动信息进行无损算术编码压缩处理以生成运动特征比特流。
该熵估计基于超先验的概率分布估计方法;具体的,在本实施例中,源视频经过纹理编码器处理后,得到全局纹理信息t。为进一步节省码率,需要对纹理信息进行高效压缩。本发明实施例中采用熵估计的方法对纹理信息进行概率分布的预测,得到超先验分布z,利用该超先验分布信息减纹理信息在算术编码时所需的编码开销。估计传输码流码率的公式如下所示:
Figure BDA0003616570590000061
其中,
Figure BDA0003616570590000062
分别表示经量化后的纹理信息,超先验信息。通过熵模型的使用,进一步降低了纹理信息编码所需的比特数,从而降低了总码率。
该纹理特征比特流的长度根据视频语义划分区域数量确定;
其中,在本实施例中,在进行压缩的压缩框架中,传输的内容是两个分离的比特流。一个是由变分自编码器输出的隐特征编码信息经过熵估计与无损编码后得到的比特流,另一个是人体骨架信息经过无损编码后得到的比特流。传输完成后,在接收端对比特流进行解码还原操作,将骨架作为人体姿态特征、隐编码作为视频风格特征输入到生成对抗网络中,得到重建视频。在具体实施方案中,为压缩任务设计改进了ADGAN生成模型;为进一步节省码率而设计了熵估计与残差编码模块;并通过对比学习方法提升重建视频的稳定性,增强重建视频的主观效果。
在图1、图2共同所示的实施例中,步骤S3为分别对所述纹理特征比特流和所述姿态特征比特流进行解码以获取还原纹理特征和还原姿态关键点序列的过程;
即步骤S3为将步骤S2中的纹理特征比特流和姿态特征比特流进行还原的过程以生成还原纹理特征和还原姿态关键点序列;该还原纹理特征和还原姿态关键点序列和纹理特征向量、人体姿态关键点序列实质相同。
步骤S4为将所述还原纹理特征和所述还原姿态关键点序列输入预设的生成模型中,以使所述生成模型对所述还原纹理特征和所述还原姿态关键点序列进行重建处理以获取人体重建视频的过程,其中,
训练所述生成模型的过程,包括:
基于预先采集的样本输入视频帧和预先获取的样本重建视频帧通过对比学习方法对预先建立的卷积神经网络模型进行训练,并根据所述卷积神经网络模型所输出的输出结果与所述样本输入视频帧获取目标损失函数,直至所述目标损失函数达到预设的损失阈值,则将最后一次训练的卷积神经网络作为生成模型;其中,
所述生成模型至少包括生成对抗网络,所述生成对抗网络用于基于所述还原隐编码和所述还原姿态信息进行重建处理以获取人体重建视频;其中,
所述生成对抗网络包括生成器和判别器。
具体的,在一个实施例中,该生成模型采用预先训练的ADGAN融合模型;其中,训练所述ADGAN融合模型的过程,包括:
基于预先采集的样本输入视频帧和预先获取的样本重建视频帧通过对比学习方法对预先建立的卷积神经网络模型进行训练,并根据所述卷积神经网络模型所输出的输出结果与所述样本输入视频帧获取目标损失函数,直至所述目标损失函数达到预设的损失阈值,则将最后一次训练的卷积神经网络作为ADGAN融合模型;其中,
所述ADGAN融合模型至少包括生成对抗网络,所述生成对抗网络用于基于所述还原隐编码和所述还原姿态信息进行重建处理以获取人体重建视频;其中,
所述生成对抗网络包括生成器和判别器,所述生成器采用StyleGAN生成网络,所述判别器采用patchGAN判别网络。
更为具体的,在一个具体实施例中,ADGAN网络作为预训练网络,用于视频特征提取以及视频重建。本发明采用端到端的训练方式,目标是得到与输入视频序列高度相似的输出视频序列。
该ADGAN融合模型的InfoNCE损失函数为:
Figure BDA0003616570590000071
其中,ti代表输入帧纹理内容,
Figure BDA0003616570590000081
代表正样例纹理内容,
Figure BDA0003616570590000082
代表第j个负样例纹理内容,L,Q分别代表语义区域个数,负样例个数,τ为超参数。
如图2所示,对于输入视频序列v,使用预训练的姿态编码器提取其中的人体结构信息K,并使用内容分解(decomposed component encoding)网络提取其中的全局纹理信息t。对于人体结构信息K,使用残差编码与无损压缩的方式降低编码开销,对于全局纹理信息t,使用熵模型估计t的概率分布,利用得到的超先验信息使用算术编码方法进行压缩。在解码端使用GAN网络完成重建。
在获取姿态特征比特流时,本发明实施例采用计算残差后编码的方式降低编码开销,相关公式如下所示:
ΔKt=Kt-Kt-1
Figure BDA0003616570590000083
其中,Kt,Kt-1表示t,t-1时刻的人体姿态关键点序列(人体姿态信息),
Figure BDA0003616570590000084
表示t,t-1时刻的重建视频帧。
在本实施例中,目标损失函数包括关于所述输出结果与所述样本输入视频帧的原图的感知损失。即为了提高压缩前后的客观与主观一致性,目标损失函数中加入了生成图像与原图的L1损失:
Figure BDA0003616570590000085
其中,I代表输入视频帧,
Figure BDA0003616570590000086
代表重建视频帧。
在另一个具体实施例中,所述目标损失函数还包括所述输出结果与所述样本输入视频的原图的特征距离损失;其中所述特征距离由预设的特征提取网络获取;即为了提升视频特征提取的纹理质量,还可以在目标损失函数中加入了与原图特征对比的感知损失:
Figure BDA0003616570590000087
其中,Wi,Hi,Ci分别代表隐特征的宽度,高度,深度。φl代表VGG19网络结构中第l层的特征。
为了保证重建视频与源视频的纹理特征一致性,使用特征提取网络计算二者之间的特征距离,在目标损失函数中加入特征距离损失:
Figure BDA0003616570590000091
其中,CX代表隐特征表示的高维空间距离。
GAN网络的目标是通过训练使得鉴别器能够成为辨别真实图像与生成图像的最佳分类器,同时鼓励生成器产生的图像能尽可能的符合真实的数据分布,其损失函数为:
Figure BDA0003616570590000092
其中,Et(I),Es(I)分别代表纹理编码器、结构编码器。Dt,Ds分别代表纹理判别器与结构判别器。
另外,用
Figure BDA0003616570590000093
表示估计码流大小,用
Figure BDA0003616570590000094
表示对比学习相关损失函数,用λ表示各项在总损失函数中的系数,整体编解码网络的目标函数为:
Figure BDA0003616570590000095
编码部分保留ADGAN编码器结构。生成器使用StyleGAN融合网络,判别器采用了patchGAN网络中判别器的结构。将编码端得到的隐编码与姿态作为输入连接到生成器的输入端。对于特定的应用,隐编码的维度需要根据视频特征与语义复杂程度来判定。对于本发明中的应用实例fashion数据集与taichi数据集,最佳特征表示维度为8。
如图3所示,更为具体的,在本实施例中,该生成模型基于对比学习方法,为了保持所有视频帧之间的纹理一致性,编码网络与生成网络的训练采用对比学习方法,在训练时,相同源视频内的帧互为正样例对,不同源视频内的帧互为负样例对,相关损失函数如下:
Figure BDA0003616570590000096
其中,ti代表输入帧纹理内容,
Figure BDA0003616570590000097
代表正样例纹理信息,
Figure BDA0003616570590000098
代表第j个负样例纹理信息,L,Q分别代表语义区域个数,负样例个数,τ为超参数。另外,使用重建后的视频帧作为基准,正样例集与负样例集保持不变,计算重建视频帧的纹理信息与正、负样例之间的距离,相关损失函数如下:
Figure BDA0003616570590000101
其中
Figure BDA0003616570590000102
表示重建视频帧的纹理表示,其它同上。
使用对比学习的方法对应效果如图3所示。使用对比学习方法后,与不使用的生成网络生成效果(右侧示意图)相比生成视频(中间示意图)可以更准确地还原源视频(左侧示意图)的特征信息。
再对所述还原纹理特征和所述还原姿态关键点序列进行重建处理以获取人体重建视频的过程中,该步骤依旧由上述生成模型完成。
总而言之,在获取纹理特征向量和人体姿态关键点序列时也包括预训练阶段与应用阶段。预训练时,需要准备源视频的数据集,对选定的数据集使用预训练的姿态提取网络对其进行人体结构信息提取,从而得到对应的人体姿态数据集。在本发明实施例中选用OpenPose网络提取姿态信息(人体姿态关键点序列),使用语义内容分解网络(Semanticdecomposed component encoding network)提取纹理隐特征信息(隐特征序列),而后训练编码网络、熵模型与重建网络至最优。在应用阶段,解耦训练好的网络模型,视频的纹理特征隐编码由编码器编码得到,视频的人体姿态特征信息由预训练的姿态编码器得到。将隐编码进行熵估计,使用算术编码方法进行压缩;将姿态特征信息进行残差计算与无损编码,传递压缩码流。而后使用生成模型在解码端解码姿态、纹理编码信息后完成重建。
如图4所示,在本发明的实施例中,在压缩为极低码率时,压缩性能在节省码率与主观质量两个方面与传统编码器如VVC相比具有明显的优越性,并与其他基于运动预测的深度压缩方法相比具有较大的优势,并且由图4所示的实验结果可见,本发明实施例提出的人体视频压缩方法能使得人体视频在压缩时具有视觉特征可分析性,以特征流取代源视频进行传输的方法极大地节省了编码所需的码率,使码流更低,同时生成模型的应用也有效地提升了主观质量。与传统编码器以及其他深度编码方法相比,提出的方法能在更低的码率下得到更高的重建主观质量。另外,对比学习方法的引入进一步使得提出的方法取得更好的重建效果。
综上所述,本发明实施例的基于生成模型的人体视频压缩方法,首先将源视频序列分为关键帧和除所述关键帧之外的其他视频帧;将关键帧输入变分自编码器以获取纹理特征向量,并对关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列;再对纹理特征向量进行熵估计与无损算术编码压缩处理以生成纹理特征比特流,并基于人体姿态关键点序列生成姿态特征比特流;而后分别对纹理特征比特流和姿态特征比特流进行解码以获取还原纹理特征和还原姿态关键点序列;再将还原纹理特征和还原姿态关键点序列输入预设的生成模型中,以使生成模型对所述还原纹理特征和还原姿态关键点序列进行重建处理以获取人体重建视频,如此,能够集成到人体视频压缩编解码框架中,重建视频具有特征可分析性,使用特征压缩的方法也可以显著提高编码性能,节约传输带宽。
如图5所示,本发明实施例还提供一种基于生成模型的人体视频压缩系统100,实现如前所述的基于生成模型的人体视频压缩方法,包括:
特征序列提取单元101,用于将源视频序列分为关键帧和除所述关键帧之外的其他视频帧;将所述关键帧输入变分自编码器以获取纹理特征向量,并对所述关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列;
比特流生成单元102,用于对所述纹理特征向量进行熵估计与无损算术编码压缩处理以生成纹理特征比特流,并基于所述人体姿态关键点序列生成姿态特征比特流;
比特流解码单元103,用于分别对所述纹理特征比特流和所述姿态特征比特流进行解码以获取还原纹理特征和还原姿态关键点序列。
生成模型104,用于对所述还原纹理特征和所述还原姿态关键点序列进行重建处理以获取人体重建视频
具体的实施方式不做具体描述,可参照上述基于生成模型的人体视频压缩方法的具体实施例。
综上所述,本发明实施例中的基于生成模型的人体视频压缩系统,首先通过特征序列提取单元101将源视频序列分为关键帧和除所述关键帧之外的其他视频帧;将所述关键帧输入变分自编码器以获取纹理特征向量,并对所述关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列,再通过比特流生成单元102对所述纹理特征向量进行熵估计与无损算术编码压缩处理以生成纹理特征比特流,并基于所述人体姿态关键点序列生成姿态特征比特流,而后通过比特流解码单元103分别对所述纹理特征比特流和所述姿态特征比特流进行解码以获取还原纹理特征和还原姿态关键点序列;再通过生成模型对还原纹理特征和所述还原姿态关键点序列进行重建处理以获取人体重建视频;如此,有效地提升视频合成的主观质量,与传统编码器以及其他深度编码方法相比,能够在更低的码率下得到更高的重建主观质量,取得更好的重建效果。
如上参照附图以示例的方式描述了根据本发明提出的基于生成模型的人体视频压缩方法、系统。但是,本领域技术人员应当理解,对于上述本发明所提出的基于生成模型的人体视频压缩方法、系统,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (9)

1.一种基于生成模型的人体视频压缩方法,其特征在于,
将源视频序列分为关键帧和除所述关键帧之外的其他视频帧;将所述关键帧输入变分自编码器以获取纹理特征向量,并对所述关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列;其中,所述关键帧为所述源视频序列的第一帧;
对所述纹理特征向量进行熵估计与无损算术编码压缩处理以生成纹理特征比特流,并基于所述人体姿态关键点序列生成姿态特征比特流;
分别对所述纹理特征比特流和所述姿态特征比特流进行解码以获取还原纹理特征和还原姿态关键点序列;
将所述还原纹理特征和所述还原姿态关键点序列输入预设的生成模型中,以使所述生成模型对所述还原纹理特征和所述还原姿态关键点序列进行重建处理以获取人体重建视频;其中,训练所述生成模型的过程,包括:
基于预先采集的样本输入视频帧和预先获取的样本重建视频帧通过对比学习方法对预先建立的卷积神经网络模型进行训练,并根据所述卷积神经网络模型所输出的输出结果与所述样本输入视频帧获取目标损失函数,直至所述目标损失函数达到预设的损失阈值,则将最后一次训练的卷积神经网络作为最终生成模型;其中,
所述生成模型至少包括生成对抗网络,所述生成对抗网络用于基于所述还原纹理特征和所述还原姿态关键点序列进行重建处理以获取人体重建视频;其中,
所述生成对抗网络包括生成器和判别器。
2.如权利要求1所述的基于生成模型的人体视频压缩方法,其特征在于,在将所述关键帧输入变分自编码器以获取纹理特征向量的过程中,
所述变分自编码器由预采集的样本关键帧和预采集样本其他视频帧通过对比学习的方法训练而成。
3.如权利要求2所述的基于生成模型的人体视频压缩方法,其特征在于,对所述关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列的过程,包括:
通过预训练的姿态编码器对所述关键帧和所述其他视频帧进行姿态提取以获取人体结构信息;
根据所述人体结构信息获取人体姿态关键点序列;其中,
所述人体姿态关键点序列至少包括骨架序列或人体关键点序列。
4.如权利要求1所述的基于生成模型的人体视频压缩方法,其特征在于,
所述姿态特征比特流包括结构特征比特流和运动特征比特流;其中,
生成所述结构特征比特流和运动特征比特流的过程,包括:
对所述关键帧所对应的人体姿态关键点序列进行无损算术编码压缩处理以获取结构特征比特流;对所述其他视频帧中相邻帧对应的人体姿态关键点序列的关键点进行残差处理以获取运动信息,并对所述运动信息进行无损算术编码压缩处理以生成运动特征比特流。
5.如权利要求1所述的基于生成模型的人体视频压缩方法,其特征在于,
所述熵估计基于超先验的概率分布估计方法。
6.如权利要求1所述的基于生成模型的人体视频压缩方法,其特征在于,
所述目标损失函数包括关于所述输出结果与所述样本输入视频帧的原图的感知损失。
7.如权利要求6所述的基于生成模型的人体视频压缩方法,其特征在于,
所述目标损失函数还包括所述输出结果与所述样本输入视频的原图的特征距离损失;其中所述特征距离由预设的特征提取网络获取。
8.如权利要求1所述的基于生成模型的人体视频压缩方法,其特征在于,
所述变分自编码器采用预训练的姿态提取网络与端到端训练的语义内容分解网络。
9.一种基于生成模型的人体视频压缩系统,其特征在于,实现权利要求1-8任一所述的基于生成模型的人体视频压缩方法,包括:
特征序列提取单元,用于将源视频序列分为关键帧和除所述关键帧之外的其他视频帧;将所述关键帧输入变分自编码器以获取纹理特征向量,并对所述关键帧和所述其他视频帧进行姿态提取以获取人体姿态关键点序列;所述关键帧为所述源视频序列的第一帧;
比特流生成单元,用于对所述纹理特征向量进行熵估计与无损算术编码压缩处理以生成纹理特征比特流,并基于所述人体姿态关键点序列生成姿态特征比特流;
比特流解码单元,用于分别对所述纹理特征比特流和所述姿态特征比特流进行解码以获取还原纹理特征和还原姿态关键点序列;
生成模型,用于对所述还原纹理特征和所述还原姿态关键点序列进行重建处理以获取人体重建视频;其中,训练所述生成模型的过程,包括:
基于预先采集的样本输入视频帧和预先获取的样本重建视频帧通过对比学习方法对预先建立的卷积神经网络模型进行训练,并根据所述卷积神经网络模型所输出的输出结果与所述样本输入视频帧获取目标损失函数,直至所述目标损失函数达到预设的损失阈值,则将最后一次训练的卷积神经网络作为最终生成模型;其中,
所述生成模型至少包括生成对抗网络,所述生成对抗网络用于基于所述还原纹理特征和所述还原姿态关键点序列进行重建处理以获取人体重建视频;其中,
所述生成对抗网络包括生成器和判别器。
CN202210445390.8A 2022-04-26 2022-04-26 基于生成模型的人体视频压缩方法、系统 Active CN115052147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210445390.8A CN115052147B (zh) 2022-04-26 2022-04-26 基于生成模型的人体视频压缩方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210445390.8A CN115052147B (zh) 2022-04-26 2022-04-26 基于生成模型的人体视频压缩方法、系统

Publications (2)

Publication Number Publication Date
CN115052147A CN115052147A (zh) 2022-09-13
CN115052147B true CN115052147B (zh) 2023-04-18

Family

ID=83157281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210445390.8A Active CN115052147B (zh) 2022-04-26 2022-04-26 基于生成模型的人体视频压缩方法、系统

Country Status (1)

Country Link
CN (1) CN115052147B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116962713A (zh) * 2022-11-04 2023-10-27 腾讯科技(深圳)有限公司 一种视频压缩方法、视频解码方法和相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596149A (zh) * 2018-05-10 2018-09-28 上海交通大学 基于条件对抗生成网络的运动序列生成方法
CN110381268A (zh) * 2019-06-25 2019-10-25 深圳前海达闼云端智能科技有限公司 生成视频的方法,装置,存储介质及电子设备
CN113139424A (zh) * 2021-03-09 2021-07-20 杭州电子科技大学 面向人体高保真视觉内容的多特征协同生成系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580395B2 (en) * 2018-11-14 2023-02-14 Nvidia Corporation Generative adversarial neural network assisted video reconstruction
CN110290387B (zh) * 2019-05-17 2021-05-04 北京大学 一种基于生成模型的图像压缩方法
CN110781835B (zh) * 2019-10-28 2022-08-23 中国传媒大学 一种数据处理方法、装置、电子设备和存储介质
CN112990078B (zh) * 2021-04-02 2022-05-10 深圳先进技术研究院 一种基于生成式对抗网络的人脸表情生成方法
CN113436187A (zh) * 2021-07-23 2021-09-24 沈阳东软智能医疗科技研究院有限公司 颅脑ct血管造影图像的处理方法、装置、介质及电子设备
CN113822147B (zh) * 2021-08-04 2023-12-15 北京交通大学 一种协同机器语义任务的深度压缩方法
CN114170472A (zh) * 2021-10-19 2022-03-11 阿里云计算有限公司 图像处理方法、可读存储介质及计算机终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596149A (zh) * 2018-05-10 2018-09-28 上海交通大学 基于条件对抗生成网络的运动序列生成方法
CN110381268A (zh) * 2019-06-25 2019-10-25 深圳前海达闼云端智能科技有限公司 生成视频的方法,装置,存储介质及电子设备
CN113139424A (zh) * 2021-03-09 2021-07-20 杭州电子科技大学 面向人体高保真视觉内容的多特征协同生成系统及方法

Also Published As

Publication number Publication date
CN115052147A (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
US8223837B2 (en) Learning-based image compression
CN110290387B (zh) 一种基于生成模型的图像压缩方法
CN110225341A (zh) 一种任务驱动的码流结构化图像编码方法
CN112866694B (zh) 联合非对称卷积块和条件上下文的智能图像压缩优化方法
CN109996073B (zh) 一种图像压缩方法、系统、可读存储介质及计算机设备
CN113259676A (zh) 一种基于深度学习的图像压缩方法和装置
CN110290386B (zh) 一种基于生成对抗网络的低码率人体运动视频编码系统及方法
Zhang et al. Davd-net: Deep audio-aided video decompression of talking heads
Wang et al. Semantic perceptual image compression with a laplacian pyramid of convolutional networks
CN113132727B (zh) 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法
CN111797891A (zh) 基于生成对抗网络的非成对异质人脸图像生成方法、装置
Zebang et al. Densely connected AutoEncoders for image compression
CN115052147B (zh) 基于生成模型的人体视频压缩方法、系统
CN113506224A (zh) 基于多尺度生成对抗网络的图像修复方法
He et al. Beyond coding: Detection-driven image compression with semantically structured bit-stream
Löhdefink et al. GAN-vs. JPEG2000 image compression for distributed automotive perception: Higher peak SNR does not mean better semantic segmentation
CN115988215A (zh) 可变码率图像压缩方法、系统、装置、终端及存储介质
CN116233445A (zh) 视频的编解码处理方法、装置、计算机设备和存储介质
CN115880762B (zh) 面向人机混合视觉的可伸缩人脸图像编码方法、系统
CN111885384B (zh) 带宽受限下基于生成对抗网络的图片处理和传输方法
CN113949880B (zh) 一种极低码率人机协同图像编码训练方法及编解码方法
Li et al. Extreme Underwater Image Compression Using Physical Priors
Peng et al. Multi-metric fusion network for image quality assessment
CN110958417B (zh) 一种基于语音线索的视频通话类视频去除压缩噪声的方法
CN113902000A (zh) 模型训练、合成帧生成、视频识别方法和装置以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant