CN112040231B - 一种基于感知噪声信道模型的视频编码方法 - Google Patents

一种基于感知噪声信道模型的视频编码方法 Download PDF

Info

Publication number
CN112040231B
CN112040231B CN202010934766.2A CN202010934766A CN112040231B CN 112040231 B CN112040231 B CN 112040231B CN 202010934766 A CN202010934766 A CN 202010934766A CN 112040231 B CN112040231 B CN 112040231B
Authority
CN
China
Prior art keywords
noise
visual
video
jnd
perceptual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010934766.2A
Other languages
English (en)
Other versions
CN112040231A (zh
Inventor
彭宗举
崔鑫
彭醇陵
陈芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Yingna Communication Technology Co.,Ltd.
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202010934766.2A priority Critical patent/CN112040231B/zh
Publication of CN112040231A publication Critical patent/CN112040231A/zh
Application granted granted Critical
Publication of CN112040231B publication Critical patent/CN112040231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于感知噪声信道模型的视频编码方法,包括:S1、建立考虑视觉抖动噪声和恰可察觉失真(Just Noticeable Distortion,JND)噪声的感知噪声信道模型;S2、对视觉抖动的量化步长进行动态估计并计算视觉抖动噪声,计算JND噪声;S3、计算感知噪声权重因子;S4、根据感知噪声权重因子优化率失真代价函数;S5、基于优化后的率失真代价函数进行编码树单元(Code Tree Unit,CTU)编码。与现有技术相比,本发明引入了人眼视觉感知特性,在确保编码后视频主观质量良好的基础上,可有效节省视频编码码率,提升视频压缩性能。

Description

一种基于感知噪声信道模型的视频编码方法
技术领域
本发明涉及多视点视频比特分配领域,具体涉及一种基于感知噪声信道模型的视频编码方法。
背景技术
与高清(High Definition,HD)视频相比,超高清(Ultra-high Definition,UHD)视频具有更宽广的视场和更精细的视频图像,为观看者提供了沉浸式的视觉体验。另外,随着5G通信的逐步推广使用,UHD视频未来将成为多媒体主流的播放制式,具有更加广泛的应用前景,如教育、娱乐和体育等各个领域。不幸的是,UHD视频在现实应用过程中,需要占用大量的带宽进行传输以及消耗硬件更多的存储空间,因此限制了UHD视频的推广和应用。与HD视频一样,UHD视频中除了存在空间和时间上的冗余外,还广泛存在视觉冗余。因此,基于感知模型的感知视频编码(Perceptual Video Coding,PVC)技术应运而生,并被用于去除视频图像的视觉冗余,进一步提高编码压缩性能。
PVC技术的核心是视频编码过程中引入了符合人类视觉系统(Human VisualSystem,HVS)的感知模型。目前基于不同应用或者场景下的视频图像感知模型多种多样,这其中恰可察觉失真(Just Noticeable Distortion,JND)模型是一个应用比较广泛的技术。目前已出现了不少基于JND模型的PVC方案,并成功应用于高清视频/图像压缩中。通常,根据JND模型作用域的不同,可分为两种类型:基于像素域的JND模型和基于子带域的JND模型(如离散余弦变换(Discrete Cosine Transform,DCT)域和小波变换域等)。具体来说,基于像素域的JND模型主要考虑了亮度掩蔽效应和对比度掩蔽效应的影响。但是基于像素域的JND模型没有充分考虑人眼感知特性,比如未考虑每个频率分量的HVS敏感度。相比之下,基于子带域的JND模型一般在频率域建模,因此具有更好的感知性能,特别是基于DCT域中的JND模型更符合现有的视频编码框架。但是以上传统的PVC方案中仍然存在以下不足:(1)当前传统PVC方案采用的JND模型都是基于8-bit位深视频图像,还没有针对10-bit位深UHD视频图像的JND模型和相关PVC方案。(2)HVS是由视频图像特征和外界环境变化引起的干扰共同决定的。这种干扰通常会产生外部视觉抖动信号,对HVS有明显的影响。然而,传统PVC方案只考虑了前者而忽略了后者。综上所述,传统的PVC在保证视频主观质量的前提下,没有充分发掘感知冗余来进一步提高视频编码压缩效率。
本发明针对10-bit位深的UHD或者HD视频提出了一种基于感知噪声信道模型的视频编码方法。
发明内容
针对现有技术中存在的不足,本发明针对10-bit位深的UHD或者HD视频提出了一种基于感知噪声信道模型的视频编码方法,在保证用户视觉体验的同时,能够有效地提升视频压缩效率。
为解决上述技术问题,本发明采用了如下的技术方案:
一种基于感知噪声信道模型的视频编码方法,包括:
S1、建立考虑视觉抖动噪声和JND噪声的感知噪声信道模型;
S2、对视觉抖动的量化步长进行动态估计,并计算视觉抖动噪声和JND噪声;
S3、计算感知噪声权重因子;
S4、根据感知噪声权重因子优化率失真代价函数;
S5、基于优化后的率失真代价函数进行编码树单元编码。
优选地,步骤S1中,视频图像特征和外界环境变化的感知噪声信道模型为:
Figure GDA0003758275110000021
式中,Ik为第k个原始视频编码图像块的像素值集合,
Figure GDA0003758275110000022
为第k个视频编码图像块的视觉抖动噪声集合,
Figure GDA0003758275110000023
为第k个视频编码图像块的JND噪声集合,I′k为第k个遭受噪声攻击后的视频编码图像块的像素值集合;
Figure GDA0003758275110000024
式中,
Figure GDA0003758275110000025
为第k个视频编码图像块中第(i,j)个像素值的视觉抖动噪声,Ik,i,j为第k个原始视频编码图像块中第(i,j)个像素值,
Figure GDA0003758275110000026
为Ik,i,j对应的恰可察觉失真的量化索引调制模型,bk,i,j为Ik,i,j对应的外界视觉抖动信号;
Figure GDA0003758275110000027
式中,
Figure GDA0003758275110000028
为第k个视频编码图像块中第(i,j)个像素值的恰可察觉失真噪声,
Figure GDA0003758275110000029
为第k个视频编码图像块中第(u,v)受噪声干扰后DCT系数,
Figure GDA0003758275110000031
为受噪声干扰后系数的DCT反变换。
优选地,步骤S2包括:
S201、初始化变量
Figure GDA0003758275110000032
Δk
Figure GDA0003758275110000033
Δk表示视觉抖动量化步长;
S202、根据接收到的遭受噪声攻击后的视频编码图像块的亮度值和变量节点右行或左行消息更新噪声节点上行消息:
Figure GDA0003758275110000034
式中,μ(·)表示从原始节点到目标节点的消息,δ(·)是单位脉冲函数,Ik,i,j为遭受噪声攻击后的视频编码图像块中第(i,j)个像素值,
Figure GDA0003758275110000035
表示视觉抖动模型,
Figure GDA0003758275110000036
表示JND噪声的概率密度函数;
S203、利用视觉抖动节点,根据噪声节点上行消息和变量节点左行或者右行消息,得到随机视觉抖动信号的最大后验概率,视觉抖动节点上行消息传递算法可以表示为:
Figure GDA0003758275110000037
式中Λ0和Λ1表示量化格点o和×,Qbk(Ik)表示视觉抖动。
若bk=0,则视觉抖动节点上行消息传递可以表示为:
Figure GDA0003758275110000038
式中,Qb0(Ik)表示视觉抖动。
若bk=1bk=1,则视觉抖动节点上行消息传递可以表示为:
Figure GDA0003758275110000041
Figure GDA0003758275110000042
则译码后的视觉抖动信号
Figure GDA0003758275110000043
否则
Figure GDA0003758275110000044
S204、当解码精度β<90%时,增加量化步长以降低译码误比特率,新的量化步长可以表示为:
Figure GDA0003758275110000045
其中
Figure GDA0003758275110000046
式中,
Figure GDA0003758275110000047
表示JGDE-S噪声方差,JGDE-S表示由对比度敏感函数和亮度掩蔽效应因子,以及高斯微分滤波和显著性权重因子抑制后的组成的JND阈值。
Figure GDA0003758275110000048
表示JLM的噪声方差,JLM表示由对比度敏感函数和亮度掩蔽效应因子组成的JND阈值;
S205、当β>90%时,以当前
Figure GDA0003758275110000049
为最终量化步长,更新所有变量并重新计算视觉抖动噪声和JND噪声;否则,更新所有变量并返回步骤S202。
优选地,步骤S3中:
感知噪声权重因子(Perceptual Noise Weight Factor,PNWF)βCF表示为:
Figure GDA00037582751100000410
Figure GDA00037582751100000411
Figure GDA00037582751100000412
式中,Co表示原始视频重建帧的信道容量,V表示原始视频图像的方差,No表示采用不同量化参数(Quantization Parameter,QP)编码后的重建视频图像的方差,CDither表示感知信道容量,
Figure GDA00037582751100000413
表示视觉抖动噪声方差。
优选地,优化后的率失真代价函数J′RDC如下:
J′RDC=D+λ·βCF·R
式中,D表示函数失真,λ表示拉格朗日因子,R表示比特率。
优选地,优化后的率失真代价函数J′RDC如下:
Figure GDA0003758275110000051
Figure GDA0003758275110000052
式中,ψq表示失真控制因子(Distortion Control Factor,DCF),D表示函数失真,λ表示拉格朗日因子,R表示比特率,RA表示视频编码标准HM16.20的随机访问配置(RandomAccess,RA),LD表示低延迟配置(Low Delay,LD)。
综上所述,与现有技术相比,本发明的优点在于:为了可靠地反映用户实际观看视频时的视觉特征,建立了视觉抖动模型,模拟了外部环境变化引起的视觉抖动。基于自由能和含边信息的通信原理,建立了感知噪声信道模型,设计了基于因子图模型上的消息传递算法。同时,在保证可靠传输和视觉特性的前提下,将该消息传递算法模型引入到视频编码过程中,动态估计视觉抖动量化步长,构建了视觉抖动噪声模型。为了有效地控制在不同视频编码QP下的失真补偿,在视频编码率失真优化过程中加入了PNWF和DCF。因此,与传统的感知编码方案相比,本发明在保证编码后视频主观质量的前提下,可有效提升超高清视频编码压缩效率。
附图说明
图1为本发明方法的总体实现框图;
图2为本发明所提方案中视觉抖动模块原理图;
图3为基于因子图上消息传递算法的量化步长估计算法总体流程图;
图4为8路噪声节点上行消息;
图5为8路视觉抖动节点上行消息;
图6(a)和(b)分别为统计视频序列RitualDance第5帧的视觉抖动量化步长分布和动态估计视觉抖动量化步长算法的迭代次数直方图;
图7(a)至(f)分别为10-bit位深的视频序列的第一帧的原始图像、被CM-JND噪声污染的图像、被J-SEF噪声污染的图像、被J-SEF和视觉抖动噪声污染的图像、(a)和(d)对应的差分图像以及J-SEF阈值的分布;
图8(a)至(c)分别为在LD编码配置下的基于SSIM的PVC性能的率失真曲线;
图9(a)至(c)分别为在RA编码配置下的基于SSIM的PVC性能的率失真曲线;
图10(a)和(b)为在本发明所提方案中,分别在LD和RA编码配置下的ΔT与QP的变化;
图11(a)和(b)为在本发明所提方案与其他PVC方案分别在LD和RA编码配置下的ΔT比较;
图12为在LD配置下DMOS值的比较;
图13为在配置下DMOS值的比较;
图14(a)至(d)分别为在LD配置,已编码视频序列ToddlerFountain2第30帧的视频主观图像的原始视频图像、本发明提出的PVC方案对应的图像、基于J-SEF模型的PVC方案对应的图像以及Kim等人提出的PVC方案(QP=32)对应的图像;
图15(a)至(d)分别为在RA配置,已编码视频序列CatRobot1第30帧的视频主观图像的原始视频图像、本发明提出的PVC方案对应的图像、基于J-SEF模型的PVC方案对应的图像以及Kim等人提出的PVC方案(QP=32)对应的图像。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
如图1所示,一种基于感知噪声信道模型的视频感知编码方法,包括:
S1、建立考虑视觉抖动噪声和恰可察觉失真噪声的感知噪声信道模型;
S2、对视觉抖动的量化步长进行动态估计,并计算视觉抖动噪声和JND噪声;
S3、计算感知噪声权重因子;
S4、根据感知噪声权重因子优化率失真代价函数;
S5、基于优化后的率失真代价函数进行编码树单元编码。
本发明首先设计了感知噪声信道模型,然后基于感知噪声信道模型设计了感知控制因子来控制编码的率失真优化过程,通过优化了率失真函数来提高编码过程的压缩效率。
具体实施时,本发明所针对的感知噪声攻击类型主要包括:(1)视觉抖动噪声的攻击在像素域实施,即在视频编码过程中,首先编码树单元(Code Tree Unite,CTU)划分为若干编码单元(Code Unite,CU)图像块,并对CU图像块进行视觉抖动攻击;然后将原始CU与被噪声污染后CU的差值作为视觉抖动噪声。(2)JND噪声的攻击在DCT域实施,即在视频编码过程中,首先对CU进行DCT变换,并获得变换系数;然后在系数上添加加性JND噪声;最后将遭受JND噪声攻击后的CU反变换到像素域,并将原始CU与噪声污染后的CU的差值作为JND噪声,综合以上两种攻击类型,步骤S1中,视频图像特征和外界环境变化的感知噪声信道模型为:
Figure GDA0003758275110000071
式中,Ik为第k个原始视频编码图像块的像素值集合,
Figure GDA0003758275110000072
为第k个视频编码图像块的视觉抖动噪声集合,
Figure GDA0003758275110000073
为第k个视频编码图像块的恰可察觉失真噪声集合,I′k为第k个遭受噪声攻击后的视频编码图像块的像素值集合;
如图2所示为本发明利用量化索引调制(Quantized Index Modulation,QIM)提出的视觉抖动原理图,其中红色圆点表示原始CU的像素值,“×”或者“o”表示遭受视觉抖动攻击后的像素值。具体地,在视频编码过程,当第k个视频编码图像块的视觉抖动信号bk用来表示外界视觉刺激,当bk=0时,选择均匀量化器将对应的原始亮度值量化到“o”格点;否则,选择均匀量化器将原始亮度值量化为“×”格点。因此,针对当前输入的8×8尺寸大小CU块,根据bk和初始的量化步长Δk,得到视觉抖动模型为:
Figure GDA0003758275110000074
其中Ik,i,j为第k个原始视频编码图像块中第(i,j)个像素值,
Figure GDA0003758275110000075
表示视觉都懂后的第k个原始视频编码图像块中第(i,j)个像素值;
考虑到人眼感知特性,在图像不同区域或者不同亮度范围内,视觉抖动对人眼干扰的程度不同,本发明进一步建立了基于JND的视觉抖动模型,称为QIM-JND模型,其步骤如下:
(1)本发明中的感知噪声信道容量只跟视觉抖动噪声E和信道的噪声方差N有关,信道遭受的噪声对于接收端来说是未知的,因此信道容量可以表达为:
Figure GDA0003758275110000076
其中
Figure GDA0003758275110000077
表示JND噪声方差。
(2)在均匀量化时一般会产生量化失真,通常用最小均方误差来表示:
Figure GDA0003758275110000081
在传统的QIM中当噪声的幅度大于Δk/4,往往会产生失真。因此可以得出错误概率的上限为:
Figure GDA0003758275110000082
其中,
Figure GDA0003758275110000083
为右尾积分函数。误码率随着视觉抖动量化步长的增加而减少。但是当视觉抖动强度过大时,容易造成图像的主观失真。通过最小信噪比可以推出:
Figure GDA0003758275110000084
其中r是信道编码码率。当利用QIM对图像信号编码时r=1。
由以上分析,视觉抖动量化步长的下限可以表示为:
Figure GDA0003758275110000085
可以看出,视觉抖动的强度由量化步长决定,同时量化步长与JND噪声的方差有关,因此,视觉抖动噪声可以表示为:
Figure GDA0003758275110000086
式中,
Figure GDA0003758275110000087
为第k个视频编码图像块中第(i,j)个像素值的视觉抖动噪声,Ik,i,j为第k个原始视频编码图像块中第(i,j)个像素值,
Figure GDA0003758275110000088
为Ik,i,j对应的量化索引调制模型,bk,i,j为Ik,i,j对应的外界视觉抖动信号;
针对10-bit位深视频图像,建立基于高斯微分熵(Gaussian DifferentialEntropy,GDE)滤波和显著性权重因子的JND模型,称为J-SEF模型,可以表示为:
Figure GDA0003758275110000089
其中J-SEF模型的基本框架可以表示为:
Figure GDA0003758275110000091
式中,γ∈(0,1]为显著性权重因子,σ为图像标准差,wu,v为第(u,v)个DCT系数的空间频率,
Figure GDA0003758275110000092
为第(u,v)个DCT系数的方向角,HCSF为对比度敏感函数,HGDE为GDE滤波器,其作用是将JND阈值分布控制在HGDE范围内,MFLM为本发明提出的基于10-bit位深的亮度掩蔽效应因子模型,可以表示为:
Figure GDA0003758275110000093
根据设计合理的主观实验和公式拟合,可以得到A1=4,A2=5,B=1.5,α=0.5,β=0.8。
另外,μp表示当前CU块的平均像素密度,表示为:
Figure GDA0003758275110000094
式中,M为当前CU尺寸,K为最大像素值,可以表示为:
K=2bit-1
因此,当bit=8位深图像时,最大像素为255,当bit=10位深图像时,最大像素为1023。
将JND阈值直接作用于当前CU的DCT系数中,公式为:
Figure GDA0003758275110000095
式中,Ck,u,v表示当前第k个CU的第(u,v)个DCT系数,
Figure GDA0003758275110000096
表示受噪声干扰后的DCT系数,JNDk,u,v表示作用于第(u,v)个DCT系数上的JND阈值,Sk,u,v表示作用于第(u,v)个DCT系数上的随机噪声,其值为+1和-1。
考虑到人眼在像素域的感知特性,可以得到JND噪声模型为
Figure GDA0003758275110000097
式中,
Figure GDA0003758275110000098
为第k个视频编码图像块中第(i,j)个像素值的恰可察觉失真噪声,
Figure GDA0003758275110000099
为第k个视频编码图像块中第(u,v)受噪声干扰后的离散余弦变换系数,
Figure GDA00037582751100000910
为受噪声干扰后系数的DCT反变换
此外,J-SEF模型是由JLM经过GDE滤波和显著性因子抑制后的阈值,因此,仍然存在一些感知冗余来容纳视觉抖动噪声。令
Figure GDA0003758275110000101
为JLM的方差,则可以得到视觉抖动量化步长的搜索范围为:
Figure GDA0003758275110000102
继续简化为:
Figure GDA0003758275110000103
式中,
Figure GDA0003758275110000104
表示JGDE-S噪声方差,因此在量化步长处于上下限之间时,视觉抖动是不可察觉的。
如图3所示,为本发明提出的QIM-JND-FFG模型,具体实施时,步骤S2包括:
S201、初始化变量
Figure GDA0003758275110000105
Δk
Figure GDA0003758275110000106
Δk表示视觉抖动量化步长;
S202、根据接收到的遭受噪声攻击后的视频编码图像块的亮度值和变量节点右行或左行消息更新噪声节点上行消息:
Figure GDA0003758275110000107
式中,μ(·)表示从原始节点到目标节点的消息,δ(·)是单位脉冲函数,Ik,i,j为遭受噪声攻击后的视频编码图像块中第(i,j)个像素值,
Figure GDA0003758275110000108
表示视觉抖动模型,
Figure GDA0003758275110000109
表示JND噪声的概率密度函数
图4显示了噪声节点上行消息的概率分布。在10-bit位深的视频序列RitualDance中,选择尺寸大小为8×8的CU块中的任意8个已接收的被噪声污染的亮度值。显然,噪声节点上行消息的概率分布基本上围绕在已接收亮度值。
S203、利用视觉抖动节点,根据噪声节点上行消息和变量节点左行或者右行消息,得到随机视觉抖动信号的最大后验概率,视觉抖动节点上行消息传递算法可以表示为:
Figure GDA00037582751100001010
Figure GDA0003758275110000111
式中Λ0和Λ1表示量化格点o和×;
Figure GDA0003758275110000112
表示视觉抖动。
若bk=0,则视觉抖动节点上行消息传递可以表示为:
Figure GDA0003758275110000113
式中,
Figure GDA0003758275110000114
表示视觉抖动;
若bk=1,则视觉抖动节点上行消息传递可以表示为:
Figure GDA0003758275110000115
Figure GDA0003758275110000116
则译码后的视觉抖动信号
Figure GDA0003758275110000117
否则
Figure GDA0003758275110000118
图5描绘了视觉抖动节点上行消息概率分布。可以明显看出,解码后的随机视觉抖动信号的最大后验概率分布于0或1。
S204、更新量化步长。当JND噪声增大时,译码精度降低,因此JND噪声具有较大的方差时表明当前的CU块包含更复杂的纹理。所以,当量化步长增加时,人眼不容易察觉到图像失真。当解码精度β<90%时,增加量化步长以降低译码误比特率,新的量化步长可以表示为:
Figure GDA0003758275110000119
其中
Figure GDA00037582751100001110
S205、当β>90%时,以当前
Figure GDA00037582751100001111
为最终量化步长,更新所有变量并重新计算视觉抖动噪声和JND噪声;否则,更新所有变量并返回步骤S202。
如图6(a)和图6(b)所示,分别描述了不同CU块中的量化步长分布和算法迭代次数的统计直方图,图中
Figure GDA00037582751100001112
Figure GDA00037582751100001113
分别为根据JGDE-S模型和JLM模型得到的视觉抖动量化步长。显然,
Figure GDA00037582751100001114
总是低于
Figure GDA00037582751100001115
说明还存在额外的感知空间来容纳更多的视觉抖动噪声。此外,在图像的不同纹理区域,视觉冗余是不同的。如图6(b)所示,算法迭代次数一般在1到5之间。因此,根据感知和解码精度阈值确保算法不会过于复杂。
为了验证迭代QIM-JND-FFG模型对4K超高清视频图像的有效性,采用双刺激连续质量量表(Double-stimulus Continuous Quality-scale,DSCQS)方法进行主观观看测试。对于静态4K超高清图片的主观评价,采用3-4秒时长的序列并重复5次(在最后两次进行打分)。测试静态图片是从4K UHD视频序列中随机选取。表1为显示器设备和主观测试的实验设置。对于55英寸4K UHD显示器,视距一般设置为1.2米。15名受试者参加主观质量评价实验,均视力正常。
表1主观实验设置
Figure GDA0003758275110000121
根据ITU-R Rec.BT.2020-2b主观打分标准,参考序列和测试序列均采用平均主观分值法(Mean Opinion Score,MOS)进行主观打分,其取值范围为1到5,其中1表示感知质量,5表示最佳质量。根据获得的MOS值,差分主观分值法(Differential Mean OopinionScore,DMOS)定义为:
DMOS=MOSJND-MOSORI
其中MOSJND和MOSORI分别是来自被JND模型污染的图像和原始图像的MOS值。
表2比较了CM-JND、J-SEF和QIM-JND-FFG模型的峰值信噪比(Peak Signal toNoise Ratio,PSNR)和DMOS值,其中CM-JND为基于对比度掩蔽效应的JND模型。如表2所示,CM-JND、J-SEF和QIM-JND-FFG模型的平均PSNR值分别为88.93dB、85.96dB和79.96dB,相应的平均DMOS值均为-0.2。DMOS值为-0.2,表明失真图像与原始图像的主观质量基本一致。因此,在相同的视觉质量水平下,QIM-JND-FFG模型的平均PSNR值分别比CM-JND和J-SEF模型低8.97dB和6.00dB。主观实验结果表明,与对比的JND模型相比,QIM-JND-FFG模型利用了更多的感知冗余。
图7显示了被感知噪声污染后的原始视频图像。特别是图7(b)和(c)分别是原始图像被CM-JND和J-SEF噪声污染后的图像,如图7(d)所示,为原始图像同时受到J-SEF噪声和视觉抖动噪声的污染。如图7(b)-(d)所示,所有受污染图像主观上与原始图像一致。图7(e)是图7(a)和(d)的差值图像,显示了感知噪声的分布。可以清楚地看出,感知噪声分布与图7(f)中的J-SEF阈值分布一致,其中亮和暗区域分别表示受到更多和较少感知噪声的污染。图7(e)和(f)也说明了感知噪声主要分布在纹理复杂的区域。
表2主观对比实验
Figure GDA0003758275110000131
具体实施时,步骤S3中:
感知噪声权重因子(Perceptual Noise Weight Factor,PNWF)βCF表示为:
Figure GDA0003758275110000132
输入的编码视频的噪声是采用不同的量化参数(Quantization Parameter,QP)编码引起的视频重建失真。因此,原始视频重建帧的信道容量可以表示为:
Figure GDA0003758275110000133
考虑到JND和视觉抖动噪声,感知信道容量可以表示为:
Figure GDA0003758275110000134
式中,Co表示原始视频重建帧的信道容量,V表示原始视频图像的方差,No表示采用不同QP编码后的重建视频图像的方差,CDither表示感知信道容量,
Figure GDA0003758275110000141
表示视觉抖动噪声方差。
具体实施时,在常规的编码的率失真优化过程中引入b2得到的感知噪声编码因子。通常,率失真代价值(Rate Distortion Cost,RDC)通常作为判断CU模式选择和划分的依据。RDC函数公式为:
JRDC=D+λ·R
然后,优化后的率失真代价函数J′RDC如下:
J′RDC=D+λ·βCF·R
式中,D表示函数失真,λ表示拉格朗日因子,R表示比特率。
可以看出,加入感知噪声后,RDC值增加。
具体实施时,考虑到使用小QP对视频编码后的主观和客观视频质量要优于使用大QP编码视频。因此,使用小QP编码后的视频可以容纳更多的噪声或失真。因此,本发明继续设计了失真控制因子(Distortion Control Factor,DCF):
Figure GDA0003758275110000142
优化后的率失真代价函数J′RDC如下:
Figure GDA0003758275110000143
式中,ψq表示失真控制因子,D表示函数失真,λ表示拉格朗日因子,R表示比特率,RA表示视频编码标准HM16.20的随机访问配置,LD表示低延迟配置。
结构相似性指数(Structural Similarity Index Measurement,SSIM)是一种主观评价标准,在PVC中得到了广泛的应用。通常,SSIM描述的是感知特征,重点关注HVS所注意到的结构内容的差异。因此,SSIM是PVC性能的可靠指标。图10和11描述了在LD和RA配置下,本发明提出的采用PNWF的PVC方案(如图中带十字的曲线)与本发明提出的采用DCF和PNWF的PVC方案(图中带圆圈的曲线)之间的基于SSIM的率失真视频编码性能曲线。测试视频序列MarketPlace、RitualDance和Timeplace都是10-bit位深,视频格式为4:2:0。显然,与不使用DCF的PVC方案相比,本发明提出的同时采用DCF和PNWF的PVC方案具有更好的率失真性能,特别是对于采用较小QP的编码视频。此外,由于RA配置下的编码预测错误少于LD配置,因此与RA配置相比,LD配置在编码性能方面有更明显的改进。
综上所述,与现有技术相比,本发明的优点在于:为了可靠地反映用户实际观看视频时的视觉特征,建立了视觉抖动模型,它模拟了外部环境变化引起的视觉抖动。基于自由能和含边信息的通信原理,建立了感知噪声信道模型。另外,建立了基于因子图模型上的消息传递算法用于感知噪声信道解码。同时,在保证可靠传输和视觉特性的前提下,将该解码模型引入视频编码过程中,动态估计了视觉抖动量化步长,并得到视觉抖动噪声模型。为了有效地控制在不同视频编码QP下的失真补偿,在视频编码的率失真优化(Rate DistortionOptimization,RDO)过程中加入了PNWF和DCF。因此,与传统的感知编码方案相比,本发明在保证编码后视频主观质量的前提下,可有效提升超高清视频编码压缩效率,尤其对于采用小QP编码时的码率节省尤为明显。
为了进一步说明本发明方法的可行性和有效性,进行下列实验。
利用码率节省ΔR和编码时间节省ΔT评价本发明所提方案的率失真性能和编码器复杂度,分别表示为:
Figure GDA0003758275110000151
Figure GDA0003758275110000152
其中RORI和TORI分别是原始HM16.20编码平台的码率和编码时间,而RPVC和TPVC分别是本发明所提方案或对比PVC方案的码率和编码时间。
由表3和4所示,本发明提出的PVC方案分别在LD和RA配置下测试了编码性能,并与其他的最新的PVC方案和原始HM16.20编码平台进行了对比。如表3和4所示,Kim表示Kim等人提出的感知编码方案,J-SEF为基于DCF和J-SEF模型的PVC方案,而Pro表示本发明提出的PVC方案。通过表3和4可以明显看出,在不同编码QP下,本发明提出的感知编码方案平均节省的码率要多于对比PVC方案,在LD和RA配置,平均节省码率分别为ΔR=35.93%和△R=24.93%。特别地,在LD和RA配置下,最大的码率节省分别是测试序列“DaylightRoad2”和“Drums100”采用QP=22编码时得到的,为ΔR=82.55%和△R=56.23%。原因是“DaylightRoad2”和“Drums100”序列中包含比较丰富的纹理区域,因此根据以上分析,在率失真编码过程中可以获得较大的感知噪声控制因子。相反地,由于如“Campfire”和“ParkRunning3”序列由于存在较多平滑纹理区域,因此码率节省稍弱于对比PVC方案。
此外,从表3和4可以看出,本发明所提出的PVC方案比对比的PVC方案节省更多的码率,特别是采用较大QP编码。一般来说,对比PVC方案都是基于DCT系数抑制的方法,在较小的QP下JND阈值可以抑制更多的DCT系数,因此获得更大的码率节省。然而,在较大的QP下,DCT系数被抑制的机会降低了。因此,基于DCT系数抑制的PVC方案受到不同QP的限制,不能充分反映感知特性。不同的是,本发明提出的PVC方案是基于感知噪声信道容量的方法。在不同的图像区域引入了两种类型的感知噪声,同时利用PNWF和DCF权重因子来控制码率。因此,码率的节省与真实场景中不同纹理区域的感知特性密切相关。另外,由于本发明提出的PVC方案仅仅影响了CU模式选择和划分,因此,与对比PVC方案相比,可以获得更好的码率节省和主观视频质量。特别地,本发明所提出的PVC方案在RA配置下的平均码率节省小于在LD配置下的平均比特率节省。
另外,如表3和4所示,本发明提出的PVC方案的平均PSNR值优于对比PVC方案。这是因为对比PVC方案采用了基于DCT系数抑制的方法节省码率,但是不可避免的会带来额外的编码失真,失真主要是由于JND阈值抑制当前变换单元的DCT系数以及在RDO过程中引入感知控制因子从而影响CU模式选择和划分方式,导致重建视频质量下降。然而,本发明提出的PVC方案中,重建视频质量的失真仅仅是由于CU模式选择和划分造成的。
如图10和11所示,与原始的HM 16.20相比,在LD和RA配置下,所提出的PVC方案的平均编码时间分别增加了约13.53%和19.26%。特别地,在QP=22时,编码时间与原始HM16.20相比增加很少甚至减少。原因是DCF和PNWF随着QP的降低而增加。因此在RDO过程中,有更多的机会提前终止CU模式选择和划分。另外,在RA和LD配置下,针对不同QP下的所有视频测试序列,本发明提出的PVC方案的平均编码时间都要低于Kim和J-SEF方案。其主要原因是,本发明提出的PVC编码方案中,每一个8×8尺寸CU块的感知因子被其他更大尺寸的CU块按照“Z-order”编码顺序进行重用。
如图12和13所示,利用本发明提出的PVC方案得到的DMOS值在LD配置和RA配置下的平均值均为-0.1。主观测试结果表明,本发明提出的PVC方案得到的编码视频的主观质量要优于对比PVC方案。
表3在LD配置下本发明所提PVC方案与其他方案的对比实验
Figure GDA0003758275110000171
其中表3中视频测试序列缩写的全称为:Cam.=Campfire;Cat.=CatRobot1;Day.=DaylightRoad2;Dru.=Drums100;Foo.=FoodMarket4;Par.=ParkRunning3;Rol.=Rollercoaster2;Tan.=Tango2;Tod.=ToddlerFountain2;Traf.=TrafficFlow.
图14和15为编码后的视频图像及其局部放大区域。显然,使用本发明提出的PVC方案获得的编码视频图像在纹理细节和边缘上比采用对比方案得到的编码视频图像更清晰。这是因为所提出的PVC方案不仅充分考虑了不同QP下主观和客观视频的感知特性,而且与基于DCT系数抑制的感知编码方案相比,引入了较少的编码失真。因此,本发明所提出的PVC方案可以更有效地实现码率节省,并保证编码视频的主观质量。
通过以上主客观实验结果表明,本发明提出的PVC方案能够在保证主客观视频质量的前提下节省更多的码率。与原始HM16.20平台相比,编码复杂度几乎没有增加,同时复杂度要低于对比方案。
表4在RA配置下本发明所提PVC方案与其他方案的对比实验
Figure GDA0003758275110000181
Figure GDA0003758275110000191
以上仅是本发明优选的实施方式,需指出是,对于本领域技术人员在不脱离本技术方案的前提下,还可以做出若干变形和改进,上述变形和改进的技术方案应同样视为落入本申请要求保护的范围。

Claims (5)

1.一种基于感知噪声信道模型的视频编码方法,其特征在于,包括:
S1、建立考虑视觉抖动噪声和JND噪声的感知噪声信道模型;其中,视频图像特征和外界环境变化的感知噪声信道模型为:
Figure FDA0003758275100000011
式中,Ik为第k个原始视频编码图像块的像素值集合,
Figure FDA0003758275100000012
为第k个视频编码图像块的视觉抖动噪声集合,
Figure FDA0003758275100000013
为第k个视频编码图像块的JND噪声集合,I′k为第k个遭受噪声攻击后的视频编码图像块的像素值集合;
Figure FDA0003758275100000014
式中,
Figure FDA0003758275100000015
为第k个视频编码图像块中第(i,j)个像素值的视觉抖动噪声,Ik,i,j为第k个原始视频编码图像块中第(i,j)个像素值,
Figure FDA0003758275100000016
为Ik,i,j对应的JND量化索引调制模型,bk,i,j为Ik,i,j对应的外界视觉抖动信号;
Figure FDA0003758275100000017
式中,
Figure FDA0003758275100000018
为第k个视频编码图像块中第(i,j)个像素值的JND噪声,
Figure FDA0003758275100000019
为第k个视频编码图像块中第(u,v)受噪声干扰后的离散余弦变换系数,
Figure FDA00037582751000000110
为受噪声干扰后系数的DCT反变换;
S2、对视觉抖动的量化步长进行动态估计,并计算视觉抖动噪声和JND噪声;
S3、计算感知噪声权重因子;
S4、根据感知噪声权重因子优化率失真代价函数;
S5、基于优化后的率失真代价函数进行编码树单元编码。
2.如权利要求1所述的基于感知噪声信道模型的视频编码方法,其特征在于,步骤S2包括:
S201、初始化变量
Figure FDA00037582751000000111
Δk
Figure FDA00037582751000000112
Δk表示视觉抖动量化步长;
S202、根据接收到的遭受噪声攻击后的视频编码图像块的亮度值和变量节点右行或左行消息更新噪声节点上行消息:
Figure FDA00037582751000000113
Figure FDA0003758275100000021
式中,μ(·)表示从原始节点到目标节点的消息,δ(·)是单位脉冲函数,Ik,i,j为遭受噪声攻击后的视频编码图像块中第(i,j)个像素值,
Figure FDA0003758275100000022
表示视觉抖动模型,
Figure FDA0003758275100000023
表示JND噪声的概率密度函数;
S203、利用视觉抖动节点,根据噪声节点上行消息和变量节点左行或者右行消息,得到随机视觉抖动信号的最大后验概率,视觉抖动节点上行消息传递算法可以表示为:
Figure FDA0003758275100000024
式中Λ0和Λ1表示量化格点o和×;Qbk(Ik)表示视觉抖动,
若bk=0,则视觉抖动节点上行消息传递可以表示为:
Figure FDA0003758275100000025
式中,
Figure FDA0003758275100000026
表示视觉抖动,
若bk=1,则视觉抖动节点上行消息传递可以表示为:
Figure FDA0003758275100000027
Figure FDA0003758275100000028
则译码后的视觉抖动信号
Figure FDA0003758275100000029
否则
Figure FDA00037582751000000210
S204、当解码精度β<90%时,增加量化步长以降低译码误比特率,新的量化步长可以表示为:
Figure FDA00037582751000000211
其中
Figure FDA00037582751000000212
式中,
Figure FDA00037582751000000213
表示JGDE-S噪声方差,JGDE-S表示由对比度敏感函数和亮度掩蔽效应因子组成,并经过高斯微分滤波和显著性权重因子抑制后的JND阈值;
Figure FDA00037582751000000214
表示JLM噪声方差,JLM表示由对比度敏感函数和亮度掩蔽效应因子组成的JND阈值;
S205、当β>90%时,以当前
Figure FDA0003758275100000031
为最终量化步长,更新所有变量并重新计算视觉抖动噪声和JND噪声;否则,更新所有变量并返回步骤S202。
3.如权利要求2所述的基于感知噪声信道模型的视频编码方法,其特征在于,步骤S3中:
感知噪声权重因子βCF表示为:
Figure FDA0003758275100000032
Figure FDA0003758275100000033
Figure FDA0003758275100000034
式中,Co表示原始视频重建帧的信道容量,V表示原始视频图像的方差,No表示采用不同量化参数编码后的重建视频图像的方差,CDither表示感知信道容量,
Figure FDA0003758275100000035
表示视觉抖动噪声方差。
4.如权利要求3所述的基于感知噪声信道模型的视频编码方法,其特征在于,优化后的率失真代价函数J′RDC如下:
J′RDC=D+λ·βCF·R
式中,D表示函数失真,λ表示拉格朗日因子,R表示比特率。
5.如权利要求3所述的基于感知噪声信道模型的视频编码方法,其特征在于,优化后的率失真代价函数J′RDO如下:
Figure FDA0003758275100000036
Figure FDA0003758275100000037
式中,ψq表示失真控制因子,D表示函数失真,λ表示拉格朗日因子,R表示比特率,RA表示视频编码标准HM16.20的随机访问配置,LD表示低延迟配置。
CN202010934766.2A 2020-09-08 2020-09-08 一种基于感知噪声信道模型的视频编码方法 Active CN112040231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010934766.2A CN112040231B (zh) 2020-09-08 2020-09-08 一种基于感知噪声信道模型的视频编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010934766.2A CN112040231B (zh) 2020-09-08 2020-09-08 一种基于感知噪声信道模型的视频编码方法

Publications (2)

Publication Number Publication Date
CN112040231A CN112040231A (zh) 2020-12-04
CN112040231B true CN112040231B (zh) 2022-10-25

Family

ID=73585634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010934766.2A Active CN112040231B (zh) 2020-09-08 2020-09-08 一种基于感知噪声信道模型的视频编码方法

Country Status (1)

Country Link
CN (1) CN112040231B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560667B (zh) * 2020-12-14 2023-12-12 惠州学院 行人重识别标记代价优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104219525A (zh) * 2014-09-01 2014-12-17 国家广播电影电视总局广播科学研究院 基于显著性和最小可察觉失真的感知视频编码方法
WO2015122726A1 (ko) * 2014-02-13 2015-08-20 한국과학기술원 시각적 인지 특성을 이용한 pvc 방법
WO2017004889A1 (zh) * 2015-07-08 2017-01-12 北京大学深圳研究生院 基于jnd因子的超像素高斯滤波预处理方法
CN107241607A (zh) * 2017-07-18 2017-10-10 厦门大学 一种基于多域jnd模型的视觉感知编码方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150312575A1 (en) * 2012-04-16 2015-10-29 New Cinema, LLC Advanced video coding method, system, apparatus, and storage medium
US9237343B2 (en) * 2012-12-13 2016-01-12 Mitsubishi Electric Research Laboratories, Inc. Perceptually coding images and videos

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015122726A1 (ko) * 2014-02-13 2015-08-20 한국과학기술원 시각적 인지 특성을 이용한 pvc 방법
CN104219525A (zh) * 2014-09-01 2014-12-17 国家广播电影电视总局广播科学研究院 基于显著性和最小可察觉失真的感知视频编码方法
WO2017004889A1 (zh) * 2015-07-08 2017-01-12 北京大学深圳研究生院 基于jnd因子的超像素高斯滤波预处理方法
CN107241607A (zh) * 2017-07-18 2017-10-10 厦门大学 一种基于多域jnd模型的视觉感知编码方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hadi Hadizadeh ; Ahmad Reza Heravi ; et.al..A Perceptual Distinguishability Predictor For JND-Noise-Contaminated Images.《 IEEE Transactions on Image Processing》.2018,2242 - 2256. *
基于视觉感知的HDR视频编码方法研究;佘航飞;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200615;I136-294 *

Also Published As

Publication number Publication date
CN112040231A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN107197256B (zh) 用于对图像的序列进行编码和解码的方法和装置
CN111726633B (zh) 基于深度学习和显著性感知的压缩视频流再编码方法
CN108322747B (zh) 一种面向超高清视频的编码单元划分优化方法
US20200068200A1 (en) Methods and apparatuses for encoding and decoding video based on perceptual metric classification
CN104378636B (zh) 一种视频图像编码方法及装置
CN113727106A (zh) 视频编码、解码方法、装置、电子设备及存储介质
CN117480778A (zh) 残差编码和视频编码方法、装置、设备和系统
CN117136540A (zh) 残差编码方法及设备、视频编码方法及设备、存储介质
CN112040231B (zh) 一种基于感知噪声信道模型的视频编码方法
KR100621003B1 (ko) 디지털 영상 데이터의 복호화 방법
Zhao et al. Fast CU partition decision strategy based on human visual system perceptual quality
CN116527909A (zh) 编码参数的传输方法、装置、设备、存储介质及程序产品
US20120218440A1 (en) Visually optimized quantization
CN105141967A (zh) 基于恰可觉察失真模型的快速自适应环路滤波算法
CN110493597B (zh) 一种高效感知视频编码优化方法
WO2021263251A1 (en) State transition for dependent quantization in video coding
CN113242430B (zh) 视频编码方法
EP2536144A1 (en) Method and device of lossy compress-encoding an image
WO2023130899A1 (zh) 环路滤波方法、视频编解码方法、装置、介质及电子设备
CN113225556B (zh) 视频编码方法
WO2021238606A1 (zh) 视频编码、解码方法、装置、电子设备及存储介质
Chen Image and video processing for denoising, coding and content protection
Wu et al. Self-training-based no-reference SSIM estimation for single video frame
Luo et al. Improving H. 264/AVC video coding with adaptive coefficient suppression
Chen et al. Learned Image Compression Guided Adaptive Quantization for Perceptual Quality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240403

Address after: 509 Kangrui Times Square, Keyuan Business Building, 39 Huarong Road, Gaofeng Community, Dalang Street, Longhua District, Shenzhen, Guangdong Province, 518000

Patentee after: Shenzhen lizhuan Technology Transfer Center Co.,Ltd.

Country or region after: China

Address before: No. 69 lijiatuo Chongqing District of Banan City Road 400054 red

Patentee before: Chongqing University of Technology

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240414

Address after: 300000 Tianjin Binhai New Area Zhongxin Ecological City, west of Zhongcheng Avenue and south of Zhongbin Avenue, Ecological Construction Apartment Building 9, 3rd Floor, Room 301-477

Patentee after: Tianjin Yingna Communication Technology Co.,Ltd.

Country or region after: China

Address before: 509 Kangrui Times Square, Keyuan Business Building, 39 Huarong Road, Gaofeng Community, Dalang Street, Longhua District, Shenzhen, Guangdong Province, 518000

Patentee before: Shenzhen lizhuan Technology Transfer Center Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right