CN114067258A - 一种面部通话视频的分层编码方法 - Google Patents

一种面部通话视频的分层编码方法 Download PDF

Info

Publication number
CN114067258A
CN114067258A CN202210053055.3A CN202210053055A CN114067258A CN 114067258 A CN114067258 A CN 114067258A CN 202210053055 A CN202210053055 A CN 202210053055A CN 114067258 A CN114067258 A CN 114067258A
Authority
CN
China
Prior art keywords
layer
video
relu
conv
multiplied
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210053055.3A
Other languages
English (en)
Other versions
CN114067258B (zh
Inventor
朱树元
刘宇
刘光辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210053055.3A priority Critical patent/CN114067258B/zh
Publication of CN114067258A publication Critical patent/CN114067258A/zh
Application granted granted Critical
Publication of CN114067258B publication Critical patent/CN114067258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明属于视频压缩和视频质量增强领域,具体提供一种面部通话视频的分层编码方法,用以有效提升通话视频的重建质量和压缩效率。在本发明中,基于面部通话视频的空间冗余和时间冗余较大,本发明对基础层进行高倍下采样,在对大量冗余信息和少量非冗余信息进行丢弃的同时,通过一定数量的高分辨率视频帧(即增强层)来对这部分丢弃的信息进行补全,能够在有效提高压缩率的同时保证优良的通话质量;同时,本发明将压缩后的基础层和增强层输入卷积神经网络,再辅以特征层用于引导基础层和增强层的融合,有效提高重建视频质量;综上所述,本发明通过多层编码,能够显著提升面部通话视频恢复的质量,进而有效提升视频重建质量和压缩效率。

Description

一种面部通话视频的分层编码方法
技术领域
本发明属于视频压缩和视频质量增强领域,具体提供一种面部通话视频的分层编码方法。
背景技术
近年来,远程协同办公迎来井喷式增长,以视频通话为基础的视频会议业务日益增多;此外,社交媒体中的实时视频交流也日渐成为网络用户沟通的主要手段。数字视频其原始数据量巨大,需要占用较大的存储空间和传输带宽;为了节约有限的存储和传输资源,通常需要对数字视频进行有损压缩;压缩率越高,所节约的存储和传输资源就越多,不过带来的压缩失真就越大。
与普通视频不同的是:视频会议或视频通话的内容往往包含用户面部和静态背景,这种视频的质量高度依赖于网络的稳定性和带宽;目前,弱网环境下的视频通话能力无法满足用户的应用需求,为了保证在带宽有限的网络上的稳定传输,有必要设计一种独特的面部通话视频编码方法。
发明内容
本发明的目的在于针对上述现有技术提出的问题,提供一种面部通话视频的分层编码方法,用以有效提升通话视频的重建质量和压缩效率。为实现该目的,本发明采用的技术方法如下:
一种面部通话视频的分层编码方法,其特征在于,包括以下步骤:
步骤1、编码,具体为:
步骤1.1、采用深度卷积神经网络提取通话视频帧的面部特征点得到面部特征点矩阵;
步骤1.2、利用面部特征点从待压缩的通话视频中提取关键帧;
步骤1.3、对通话视频进行高倍下采样,再采用HEVC压缩得到基础层,并再次提取基础层的面部特征点得到面部特征点矩阵;
步骤1.4、将步骤1.1所得面部特征点矩阵与步骤1.3所得面部特征点矩阵做差,将所得残差编码作为特征层;
步骤1.5、将关键帧插入基础层的插值序列采用HEVC压缩得到增强层;
步骤2、解码,具体为:
步骤2.1、分别对基础层、特征层、增强层数据进行解码;
步骤2.2、将解码后基础层、特征层、增强层数据输入至多层视频重建网络,由多层视频重建网络输出重建面部视频。
进一步的,所述步骤2.2中,多层视频重建网络由特征提取模块、特征融合模块和图像重建模块组成;其中,
所述特征提取模块由基础层通道分支、增强层通道分支与特征层通道分支组成,基础层通道分支的输入为基础层图像Ib、输出为Fb,增强层通道分支的输入为关键帧图像Ie、输出为Fe,特征层通道分支的输入为面部特征点图像If、输出为Ff;所述基础层通道分支与增强层通道分支的网络结构相同,均由网络单元U1、网络单元U2、网络单元U3依次连接组成,网络单元U1、网络单元U2与网络单元U3结构相同,均为:输入Uin经过CONV3×3×64+ReLU+Dilated-CONV3×3×64_2+BatchNorm+ReLU+Dilated-CONV3×3×64_2+BatchNorm+ReLU后输出Umid、网络单元U的输出为Uout=Umid+Uin;所述特征层通道分支为:CONV 1×1×64+ReLU+CONV 1×1×64+ReLU+CONV 1×1×64+ReLU;
所述特征融合模块由多级特征融合单元MFFU和带有残差的密集连接残差单元RRDU组成;多级特征融合单元MFFU的输入为Fb、Fe、Ff,输出为Fmffu;带有残差的密集连接残差单元RRDU的输入Fmffu、输出为Frrdu;具体为:输入Ff与Fe各经过CONV 1×1×64+ReLU后输出Ff*与Fe*,Ff*与Fe*沿通道执行concatenation操作、再经过CONV 3×3×64+CONV 3×3×64后输出M;输入Fe经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fe**,Fe**与M进行点乘得到M**;输入Fb经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fb*,Fb*与M**沿通道执行concatenation操作、再经过CONV 3×3×64+ReLU +CONV 3×3×64+ReLU后输出Fmffu;
所述带有残差的密集连接残差单元RRDU由3个RDU组成,具体为:RDU1的输入为RDU1in=Fmffu、输出为RDU1out,RDU2的输入为RDU2in= RDU1out +RDU1in、输出为RDU2out,RDU3的输入为RDU3in=RDU2out+RDU2in、输出为RDU3out,RRDU的输出为Frrdu =RDU3out+RDU3in+RDU1in;
所述图像重建模块为:网络单元U4+网络单元U5+网络单元U6+CONV 3×3×64+ReLU, 网络单元U4、网络单元U5、网络单元U6结构相同,且与网络单元U1相同;图像重建模块的输入为Frrdu、输出为重建人脸图像。
进一步的,所述RDU包括5个卷积层,其中,每个卷积层具体为:CONV 3×3×64+LeakReLU,第一个卷积层的输入为RDU in、输出为CONVout1,CONVout1与 RDU in沿通道执行concatenation操作后得到第二个卷积层的输入CONV in2,第二个卷积层输出为CONVout2,CONVout2与CONV in2沿通道执行concatenation操作后得到第三个卷积层的输入CONV in3,第三个卷积层的输出为CONVout3,CONVout3与CONV in3沿通道执行concatenation操作后得到第四个卷积层的输入CONV in4,第四个卷积层的输出为CONVout4,CONVout4与CONV in4沿通道执行concatenation操作后得到第五个卷积层的输入为CONV in5,第五个卷积层的输出为RDU out。
进一步的,所述步骤1.2中,提取关键帧的具体过程为:计算当前帧和已选关键帧的差异性
Figure 337248DEST_PATH_IMAGE001
Figure 827135DEST_PATH_IMAGE002
其中,
Figure 154211DEST_PATH_IMAGE003
为倍率因子,
Figure 969720DEST_PATH_IMAGE004
代表当前帧和已选关键帧的面部表情相似性、
Figure 647826DEST_PATH_IMAGE005
为当前帧和已选关键帧的面部朝向相似性:
Figure 702589DEST_PATH_IMAGE006
Figure 149751DEST_PATH_IMAGE007
其中,
Figure 605003DEST_PATH_IMAGE008
代表当前帧的面部特征点矩阵中第
Figure 770405DEST_PATH_IMAGE009
组的点坐标减去
Figure 867674DEST_PATH_IMAGE010
得到的相对坐标,
Figure 434922DEST_PATH_IMAGE011
代表当前帧的面部特征点矩阵中第
Figure 61075DEST_PATH_IMAGE009
组的点坐标的平均值,
Figure 713774DEST_PATH_IMAGE012
Figure 349154DEST_PATH_IMAGE013
则代表已选关键帧的相应值;
将与已选关键帧的差异性大于预设阈值的当前帧选为关键帧。
与现有技术相比,本发明是有益效果在于:
本发明提出了一种面部通话视频的分层编码方法,为视频会议和社交媒体中拍摄的视频提供了一种有效的压缩方法;基于面部通话视频的空间冗余和时间冗余较大,本发明对基础层进行高倍下采样,在对大量冗余信息和少量非冗余信息进行丢弃的同时,通过一定数量的高分辨率视频帧(即增强层)来对这部分丢弃的信息进行补全,能够在有效提高压缩率的同时保证优良的通话质量;同时,本发明将压缩后的基础层和增强层输入卷积神经网络,再辅以特征层用于引导基础层和增强层的融合,有效提高重建视频质量;综上所述,本发明通过多层编码,能够显著提升面部通话视频恢复的质量,进而有效提升视频重建质量和压缩效率。
附图说明
图1为本发明实施例中面部视频重建网络结构图。
图2为本发明实施例中面部视频重建网络中网络单元U1-U6的结构图。
图3为本发明实施例中面部视频重建网络中MFFU的结构图。
图4为本发明实施例中面部视频重建网络中RRDU的结构图。
图5为本发明实施例中RRDU中RDU的结构图。
图6为本发明实施例中面部通话视频的分层编码方法的流程图。
图7为本发明实施例与HEVC的R-D曲线对比图。
具体实施方式
下面将结合附图对本发明的实施例中的技术方法进行清楚、完整的描述,显然,下面所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供一种面部通话视频的分层编码方法,其流程如图6所示,具体步骤如下:
步骤1. 编码端设计;
步骤1.1 采用深度卷积神经网络提取视频帧的面部特征点矩阵,具体为从视频中抽取视频帧,对每一视频帧采用face_alignment库中提供的FaceAlignment类进行面部特征点矩阵提取,landmarks_type参数为face_alignment.LandmarksType._2D,flip_input参数为False,提取到的面部特征点矩阵为2×68的矩阵,其第一行为横坐标、第二行为纵坐标,共有68个点,按顺序排列分别描述人脸的下巴、两条眉毛、两只眼睛、鼻子、脸部的外唇和内唇,共8组;
步骤1.2 利用面部特征点矩阵从待压缩的通话视频中提取关键帧,具体为计算当前帧和已选关键帧的差异性
Figure 770908DEST_PATH_IMAGE001
Figure 567963DEST_PATH_IMAGE002
其中,
Figure 442378DEST_PATH_IMAGE004
代表当前帧和已选关键帧的面部表情相似性,
Figure 179652DEST_PATH_IMAGE003
为倍率因子、设置为5,
Figure 721492DEST_PATH_IMAGE005
为当前帧和已选关键帧的面部朝向相似性,又有:
Figure 220606DEST_PATH_IMAGE006
Figure 847897DEST_PATH_IMAGE007
其中,
Figure 825080DEST_PATH_IMAGE008
代表当前帧的面部特征点矩阵中第
Figure 955847DEST_PATH_IMAGE009
组的点坐标减去
Figure 625863DEST_PATH_IMAGE010
得到的相对坐标,
Figure 474870DEST_PATH_IMAGE010
代表当前帧的面部特征点矩阵中第
Figure 990165DEST_PATH_IMAGE009
组的点坐标的平均值,
Figure 241018DEST_PATH_IMAGE012
Figure 816356DEST_PATH_IMAGE013
则代表已选关键帧的相应值;
将与已选关键帧的差异性都大于阈值400的当前帧选为关键帧;
步骤1.3 将原224×224分辨率的视频帧通过bicubic下采样为96×96分辨率,并采用HM软件进行压缩得到基础层;
步骤1.4 将原224×224分辨率的视频帧提取的面部特征点矩阵与96×96分辨率的基础层提取的面部特征点矩阵做差,将所得残差矩阵以4为量化因子量化取整后,每个矩阵元素使用2byte顺序编码作为特征层;
步骤1.5 将224×224分辨率的关键帧插入由96×96的基础层插值得到的224×224序列,并采用HM软件压缩得到增强层;
步骤2. 解码端设计;
步骤2.1 对基础层数据使用HM软件进行解压缩得到解码后的基础层,并从其中提取面部特征点矩阵;对特征层数据进行直接解码得到面部特征点矩阵残差,用面部特征点矩阵残差与从解码后的基础层中提取的面部特征点矩阵相加得到解码后的特征层,对增强层数据使用HM软件进行解压缩得到解码后的增强层;
步骤2.2. 将解码后基础层、特征层、增强层数据输入至多层视频重建网络,由多层视频重建网络输出重建面部视频。
所述多层视频重建网络的结构如图1所示,其中,卷积层对应的卷积核大小为3×3和1×1,除RRDU块中激活函数为LeakRelu函数外,其余卷积层激活函数均为Relu函数;具体网络结构如图1~图5所示,图中“CONV 3×3×64”表示一层卷积层、且对应的卷积核的大小为3×3、卷积的输出通道为64、padding参数为“same”,“Dilated-CONV 3×3×64_2”表示一层空洞卷积层、且对应的卷积核的大小为3×3、卷积的输出通道为64、padding参数为2、dilation参数为2,“CONCAT”表示沿通道尺度的concatenation操作,“
Figure 654124DEST_PATH_IMAGE014
”表示像素级的点乘操作;
更为具体的讲:所述多层视频重建网络由特征提取模块、特征融合模块和图像重建模块组成;
所述特征提取模块由基础层通道分支、增强层通道分支与特征层通道分支三部分组成,其中,基础层通道分支的输入为基础层图像Ib、输出为Fb,增强层通道分支的输入为关键帧图像Ie、输出为Fe,特征层通道分支的输入为面部特征点图像If、输出为Ff;
所述基础层通道分支与增强层通道分支的网络结构相同,由3个相同的网络单元U1、U2、U3依次连接组成,如图2所示,具体为:
网络单元U1的输入为U1in,U1in经过CONV 3×3×64+ReLU+Dilated-CONV 3×3×64_2+BatchNorm +ReLU+ Dilated-CONV 3×3×64_2+BatchNorm+ReLU后输出U1mid,网络单元U1的输出为U1out=U1mid+U1in;
网络单元U2的输入为U1out,U1out经过CONV 3×3×64+ReLU+Dilated-CONV 3×3×64_2+BatchNorm +ReLU+ Dilated-CONV 3×3×64_2+BatchNorm+ReLU后输出U2mid,网络单元U2的输出为U2out=U2mid+U1out;
网络单元U3的输入为U2out,U2out经过CONV 3×3×64+ReLU+Dilated-CONV 3×3×64_2+BatchNorm +ReLU+ Dilated-CONV 3×3×64_2+BatchNorm+ReLU后输出U3mid,网络单元U3的输出为U3out=U3mid+U2out,U3out即为Fb/Fe;
所述特征层通道分支由3个1×1的卷积层依次连接组成,具体为:
CONV 1×1×64+ReLU+CONV 1×1×64+ReLU+CONV 1×1×64+ReLU,其输出为Ff;
所述特征融合模块由1个多级特征融合单元MFFU和1个带有残差的密集连接残差单元RRDU依次连接组成,其中,多级特征融合单元MFFU的输入为Fb、Fe、Ff,输出为Fmffu;带有残差的密集连接残差单元RRDU的输入Fmffu、输出为Frrdu;
多级特征融合单元MFFU如图3所示,具体结构为:输入Ff与Fe各经过CONV 1×1×64+ReLU后输出Ff*与Fe*,Ff*与Fe*沿通道执行concatenation操作、再经过CONV 3×3×64+CONV 3×3×64后输出M;输入Fe经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fe**,Fe**与M进行点乘得到M**;输入Fb经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fb*,Fb*与M**沿通道执行concatenation操作、再经过CONV 3×3×64+ReLU +CONV 3×3×64+ReLU后输出Fmffu;
所述带有残差的密集连接残差单元RRDU包含3个相同的RDU,如图4所示,具体结构为:RDU1的输入为RDU1in=Fmffu、输出为RDU1out,RDU2的输入为RDU2in= RDU1out +RDU1in、输出为RDU2out,RDU3的输入为RDU3in=RDU2out+RDU2in、输出为RDU3out,RRDU的输出为Frrdu =RDU3out+RDU3in+RDU1in;
所述RDU包含5个卷积层,如图5所示,具体结构为:每个卷积层具体为:CONV 3×3×64+LeakReLU,第一个卷积层的输入为RDU in、输出为CONVout1,CONVout1与 RDU in沿通道执行concatenation操作后得到第二个卷积层的输入CONV in2,第二个卷积层输出为CONVout2,CONVout2与CONV in2沿通道执行concatenation操作后得到第三个卷积层的输入CONV in3,第三个卷积层的输出为CONVout3,CONVout3与CONV in3沿通道执行concatenation操作后得到第四个卷积层的输入CONV in4,第四个卷积层的输出为CONVout4,CONVout4与CONV in4沿通道执行concatenation操作后得到第五个卷积层的输入为CONV in5,第五个卷积层的输出为RDU out;
所述图像重建模块由3个相同的网络单元U4、U5、U6与一个卷积层依次连接组成,具体为:网络单元U4+网络单元U5+网络单元U6+CONV 3×3×64+ReLU,其中,U4、U5、U6的结构与网络单元U1、U2、U3相同;图像重建模块的输入为Frrdu、输出为重建人脸图像。
基于训练集对上述多层视频重建网络进行离线训练,具体为:
采用VoxCeleb2数据集中的108个面部视频作为训练视频,对训练视频执行步骤1.1、步骤1.2、步骤1.3、步骤1.4、步骤1.5的编码端处理;并在解码端执行步骤2.1以获得基础层、特征层、增强层数据;再以三层数据的RGB图作为输入、原始高分辨率面部视频的RGB高清图作为标签,形成训练样本,进而构建得训练集;
采用Adam优化器对面部视频重建网络进行训练;所述训练参数为:初始学习率为0.0001、批尺寸为16、训练周期为60,并在第50周期将学习率下降10倍,所述损失函数为:
Figure 973110DEST_PATH_IMAGE015
其中,Y 1表示面部视频重建网络输出的重建视频的RGB高清图,Y 0表示标签,Y(i,j)表示图像Y的第i行、第j列的像素值,NM分别表示输入图像的高、宽;本实施例中,N=M=224。
基于上述技术方案,本实施例在VoxCeleb2数据集中的除去108个训练视频外的8个视频上进行测试,与传统的HEVC方法进行对比,其测试结果如图7中所示,其中,横轴为Bit-Rate(kbps)(表示传输过程中每秒所需的字节数),纵轴为CPSNR(峰值信噪比、大小与图像质量成正相关),“Ours”表示面部通话视频的分层编码方法得到重建视频RGB三通道的率失真曲线,“HEVC”表示由HEVC直接编码得到重建视频RGB三通道的率失真曲线;由图7可知,本发明实施例所用的面部通话视频的分层编码方法优于传统的HEVC编码方法,测试结果表明在对面部通话视频的一部分冗余信息进行丢弃的同时,通过一定数量的高分辨率视频帧来对这部分信息进行补全,可以在有效提高压缩率的同时保证一定的通话质量,证明了本发明方法的有效性及优越性。
综上所述,本发明所提出的面部通话视频的分层编码方法具有出色的表现,在测试集中,相较于HEVC,在同等的码率下,可将重建视频图像CPSNR提高1.2dB以上。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (4)

1.一种面部通话视频的分层编码方法,其特征在于,包括以下步骤:
步骤1、编码,具体为:
步骤1.1、采用深度卷积神经网络提取通话视频帧的面部特征点得到面部特征点矩阵;
步骤1.2、利用面部特征点从待压缩的通话视频中提取关键帧;
步骤1.3、对通话视频进行高倍下采样,再采用HEVC压缩得到基础层,并再次提取基础层的面部特征点得到面部特征点矩阵;
步骤1.4、将步骤1.1所得面部特征点矩阵与步骤1.3所得面部特征点矩阵做差,将所得残差编码作为特征层;
步骤1.5、将关键帧插入基础层的插值序列采用HEVC压缩得到增强层;
步骤2、解码,具体为:
步骤2.1、分别对基础层、特征层、增强层数据进行解码;
步骤2.2、将解码后基础层、特征层、增强层数据输入至多层视频重建网络,由多层视频重建网络输出重建面部视频。
2.按权利要求1所述面部通话视频的分层编码方法,其特征在于,所述步骤2.2中,多层视频重建网络由特征提取模块、特征融合模块和图像重建模块组成;其中,
所述特征提取模块由基础层通道分支、增强层通道分支与特征层通道分支组成,基础层通道分支的输入为基础层图像Ib、输出为Fb,增强层通道分支的输入为关键帧图像Ie、输出为Fe,特征层通道分支的输入为面部特征点图像If、输出为Ff;所述基础层通道分支与增强层通道分支的网络结构相同,均由网络单元U1、网络单元U2、网络单元U3依次连接组成;网络单元U1、网络单元U2与网络单元U3结构相同,均为:输入Uin经过CONV3×3×64+ReLU+Dilated-CONV3×3×64_2+BatchNorm+ReLU+Dilated-CONV3×3×64_2+BatchNorm+ReLU后输出Umid、网络单元U的输出为Uout=Umid+Uin;所述特征层通道分支为:CONV 1×1×64+ReLU+CONV 1×1×64+ReLU+CONV 1×1×64+ReLU;
所述特征融合模块由多级特征融合单元MFFU和带有残差的密集连接残差单元RRDU组成;多级特征融合单元MFFU的输入为Fb、Fe、Ff,输出为Fmffu;带有残差的密集连接残差单元RRDU的输入Fmffu、输出为Frrdu;具体为:输入Ff与Fe各经过CONV 1×1×64+ReLU后输出Ff*与Fe*,Ff*与Fe*沿通道执行concatenation操作、再经过CONV 3×3×64+CONV 3×3×64后输出M;输入Fe经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fe**,Fe**与M进行点乘得到M**;输入Fb经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fb*,Fb*与M**沿通道执行concatenation操作、再经过CONV 3×3×64+ReLU +CONV 3×3×64+ReLU后输出Fmffu;
所述带有残差的密集连接残差单元RRDU由3个RDU组成,具体为:RDU1的输入为RDU1in=Fmffu、输出为RDU1out,RDU2的输入为RDU2in= RDU1out +RDU1in、输出为RDU2out,RDU3的输入为RDU3in=RDU2out+RDU2in、输出为RDU3out,RRDU的输出为Frrdu =RDU3out+RDU3in+RDU1in;
所述图像重建模块为:网络单元U4+网络单元U5+网络单元U6+CONV 3×3×64+ReLU,网络单元U4、网络单元U5、网络单元U6结构相同,且与网络单元U1相同;图像重建模块的输入为Frrdu、输出为重建人脸图像。
3.按权利要求2所述面部通话视频的分层编码方法,其特征在于,所述RDU包括5个卷积层,其中,每个卷积层具体为:CONV 3×3×64+LeakReLU,第一个卷积层的输入为RDU in、输出为CONVout1,CONVout1与 RDU in沿通道执行concatenation操作后得到第二个卷积层的输入CONV in2,第二个卷积层输出为CONVout2,CONVout2与CONV in2沿通道执行concatenation操作后得到第三个卷积层的输入CONV in3,第三个卷积层的输出为CONVout3,CONVout3与CONV in3沿通道执行concatenation操作后得到第四个卷积层的输入CONV in4,第四个卷积层的输出为CONVout4,CONVout4与CONV in4沿通道执行concatenation操作后得到第五个卷积层的输入为CONV in5,第五个卷积层的输出为RDUout。
4.按权利要求1所述面部通话视频的分层编码方法,其特征在于,所述步骤1.2中,提取关键帧的具体过程为:计算当前帧和已选关键帧的差异性
Figure 186245DEST_PATH_IMAGE001
Figure 572227DEST_PATH_IMAGE002
其中,
Figure 679860DEST_PATH_IMAGE003
为倍率因子,
Figure 340649DEST_PATH_IMAGE004
代表当前帧和已选关键帧的面部表情相似性、
Figure 358283DEST_PATH_IMAGE005
为当前帧和已选关键帧的面部朝向相似性:
Figure 446325DEST_PATH_IMAGE006
Figure 542719DEST_PATH_IMAGE007
其中,
Figure 7199DEST_PATH_IMAGE008
代表当前帧的面部特征点矩阵中第
Figure 879340DEST_PATH_IMAGE009
组的点坐标减去
Figure 138283DEST_PATH_IMAGE010
得到的相对坐标,
Figure 220508DEST_PATH_IMAGE011
代表当前帧的面部特征点矩阵中第
Figure 223099DEST_PATH_IMAGE009
组的点坐标的平均值,
Figure 949747DEST_PATH_IMAGE012
Figure 973067DEST_PATH_IMAGE013
则代表已选关键帧的相应值;
将与已选关键帧的差异性大于预设阈值的当前帧选为关键帧。
CN202210053055.3A 2022-01-18 2022-01-18 一种面部通话视频的分层编码方法 Active CN114067258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210053055.3A CN114067258B (zh) 2022-01-18 2022-01-18 一种面部通话视频的分层编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210053055.3A CN114067258B (zh) 2022-01-18 2022-01-18 一种面部通话视频的分层编码方法

Publications (2)

Publication Number Publication Date
CN114067258A true CN114067258A (zh) 2022-02-18
CN114067258B CN114067258B (zh) 2022-05-03

Family

ID=80231277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210053055.3A Active CN114067258B (zh) 2022-01-18 2022-01-18 一种面部通话视频的分层编码方法

Country Status (1)

Country Link
CN (1) CN114067258B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103281531A (zh) * 2013-05-10 2013-09-04 北方工业大学 面向hevc的质量可伸缩层间预测编码
US20150156501A1 (en) * 2013-12-02 2015-06-04 Nokia Corporation Video encoding and decoding
CN105046725A (zh) * 2015-07-10 2015-11-11 清华大学 低比特率视频通话中基于模型和对象的头肩图像重建方法
CN111937401A (zh) * 2018-04-13 2020-11-13 皇家Kpn公司 基于块级超分辨率的视频编码
CN113378775A (zh) * 2021-06-29 2021-09-10 武汉大学 一种基于深度学习的视频阴影检测与消除方法
EP3934254A1 (en) * 2020-06-29 2022-01-05 Nokia Technologies Oy Encoding and decoding of extracted features for use with machines

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103281531A (zh) * 2013-05-10 2013-09-04 北方工业大学 面向hevc的质量可伸缩层间预测编码
US20150156501A1 (en) * 2013-12-02 2015-06-04 Nokia Corporation Video encoding and decoding
CN105046725A (zh) * 2015-07-10 2015-11-11 清华大学 低比特率视频通话中基于模型和对象的头肩图像重建方法
CN111937401A (zh) * 2018-04-13 2020-11-13 皇家Kpn公司 基于块级超分辨率的视频编码
EP3934254A1 (en) * 2020-06-29 2022-01-05 Nokia Technologies Oy Encoding and decoding of extracted features for use with machines
CN113378775A (zh) * 2021-06-29 2021-09-10 武汉大学 一种基于深度学习的视频阴影检测与消除方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MING LI等: "Multi⁃Layer Extension of the High Efficiency Video Coding (HEVC) Standard", 《ZTE COMMUNICATIONS》 *
WASSIM HAMIDOUCHE等: "4K Real-Time and Parallel Software Video Decoder for Multilayer HEVC Extensions", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
蔡晓霞: "高清视频可伸缩编码快速算法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
贺杰等: "基于增强层残差编码的分布式可分级HEVC压缩研究", 《计算机应用研究》 *

Also Published As

Publication number Publication date
CN114067258B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
Li et al. Convolutional neural network-based block up-sampling for intra frame coding
CN108012157B (zh) 用于视频编码分数像素插值的卷积神经网络的构建方法
CN112203093B (zh) 一种基于深度神经网络的信号处理方法
Zhang et al. Davd-net: Deep audio-aided video decompression of talking heads
CN112053408B (zh) 基于深度学习的人脸图像压缩方法及装置
CN113298894A (zh) 一种基于深度学习特征空间的视频压缩方法
Wang et al. Multi-scale convolutional neural network-based intra prediction for video coding
CN110880194A (zh) 一种基于卷积神经网络的图像压缩方法
Akbari et al. Learned multi-resolution variable-rate image compression with octave-based residual blocks
Chung et al. Adaptive chroma subsampling-binding and luma-guided chroma reconstruction method for screen content images
WO2023050720A1 (zh) 图像处理方法、图像处理装置、模型训练方法
CN111050170A (zh) 基于gan的图片压缩系统构建方法、压缩系统及方法
Pinheiro et al. Nf-pcac: Normalizing flow based point cloud attribute compression
Chen et al. Generative Visual Compression: A Review
CN116437089B (zh) 一种基于关键目标的深度视频压缩方法
CN114067258B (zh) 一种面部通话视频的分层编码方法
CN104363454A (zh) 一种高码率图像的视频编、解码方法及系统
CN115460415B (zh) 一种面向人机混合视觉的视频压缩方法
CN116600107A (zh) 基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法及装置
Yang et al. Graph-convolution network for image compression
Zuo et al. Bi-layer texture discriminant fast depth intra coding for 3D-HEVC
WO2023225808A1 (en) Learned image compress ion and decompression using long and short attention module
US9398314B2 (en) Entropy coding efficiency enhancement utilizing energy distribution remapping
CN111212288B (zh) 视频数据的编解码方法、装置、计算机设备和存储介质
CN114245126B (zh) 一种纹理协同的深度特征图压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant