CN111314704A - 图像级jnd阈值的预测方法、装置、设备及存储介质 - Google Patents
图像级jnd阈值的预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111314704A CN111314704A CN201811519189.XA CN201811519189A CN111314704A CN 111314704 A CN111314704 A CN 111314704A CN 201811519189 A CN201811519189 A CN 201811519189A CN 111314704 A CN111314704 A CN 111314704A
- Authority
- CN
- China
- Prior art keywords
- image
- detected
- compressed
- compressed image
- distortion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000008447 perception Effects 0.000 claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000007906 compression Methods 0.000 claims abstract description 17
- 230000006835 compression Effects 0.000 claims abstract description 15
- 206010021403 Illusion Diseases 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 38
- 230000004927 fusion Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 238000007477 logistic regression Methods 0.000 claims description 17
- 238000012417 linear regression Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013441 quality evaluation Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 14
- 230000000873 masking effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000005286 illumination Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/94—Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明适用图像/视频压缩技术领域,提供了一种图像级JND阈值的预测方法、装置、设备及存储介质,该方法包括:通过训练好的多分类感知失真判别器对待测图像和与待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,得到感知失真判别结果集合,再通过图像级JND搜索策略对感知失真判别结果集合进行容错处理,以预测得到待测图像的图像级JND阈值,从而降低图像级JND阈值的预测偏差,提高了图像级JND阈值预测的准确度,使得预测得到JND阈值更贴近人眼视觉系统对整幅图像质量的感知。
Description
技术领域
本发明属于图像/视频压缩技术领域,尤其涉及一种图像级JND阈值的预测方法、装置、设备及存储介质。
背景技术
通过对人类视觉系统的研究发现,人类视觉系统对视觉信息的感知是一个非均匀、非线性的信息处理过程,人眼在观测图像时存在一定的视觉心理冗余,从而会对图像中的特征或内容选择性地进行忽略或屏蔽。基于人类视觉系统的各种屏蔽特性,人眼不能察觉图像中处于一定阈值以下的图像像素细微的变化,即人眼不能感知的变化,该阈值就是人眼的恰可感知失真(Just Noticeable Distortion,简称JND)阈值,代表着图像中的视觉冗余度。JND阈值描述了人眼能感知的图像最小失真,反映了人类视觉系统的感知能力及敏感度,因此,JND阈值被广泛应用于图像/视频处理中,例如:图像/视频编码、流媒体应用和水印技术等。
目前已经有多个JND模型被提出,这些JND模型可以大致分为两类:基于像素域的JND模型和基于频率域的JND模型。像素域JND模型主要考虑亮度自适应效应以及空间掩蔽效应对JND阈值的影响,例如,吴等人采用空间结构规则性来度量空间掩蔽效应,结合光照自适应效应在2012年提出了新的JND模型来提高对不规则纹理区域JND阈值估计的准确度;吴等人认为存在一种无序的隐藏效应将导致无序区域的JND阈值比有效区域的要高,因此,在2013年提出了一个基于自由能量原理的JND模型;同时,吴等人结合光照自适应效应和结构不确定性在2013年提出了一个模式掩蔽效应函数,进一步提出了一种基于模式掩蔽效应的JND模型;王等人在2016年中提出了一种基于边缘轮廓重建的屏幕图像JND模型,该模型将边缘轮廓JND阈值的计算分解为对亮度自适应、掩蔽效应、和结构掩蔽效应的单独估计;Hadizadeh等人将视觉注意力机制因素考虑进来,提出了融合视觉注意力机制的JND模型。频率域JND模型主要考虑对比敏感度函数(Contrast Sensitivity Function,CSF)、对比掩蔽效应、光照自适应效应和视网膜中央凹掩蔽效应,例如,Z.Wei等人在2009年提出的基于CSF的时空JND模型,在该模型中引入了伽马系数对光照效应进行了补偿;Bae等人考虑了不同频率对光照自适应的影响,进而提出了一种新的光照自适应JND模型;H.Ko等人通过计算纹理复杂性来计算对比掩蔽效应,在2014年提出了一个能适应于任意大小离散余弦变换(Discrete Cosine Transform,简称DCT)核的JND模型;Ki等人考虑了在压缩过程中量化带来的能量损失对JND阈值的影响,在2018年提出了一种基于学习的JND预测计算方法。
目前,像素域JND模型是为图像的每个像素计算一个JND阈值,而频率域JND模型是先将图像从像素域转换到频率域,再为每一个子频率计算一个JND阈值,由此可看出,像素域JND模型和频率域JND模型都是局部JND阈值估计模型,只估计了单个像素/频率的JND阈值,然而,整幅图像的质量是由某些关键区域以及质量差的区域来决定的,因此,以上两种JND模型难以准确估计人眼对整幅图像的JND阈值;另外,传统的JND模型主要是考虑了对原始图像JND阈值的估计,没有考虑对任意质量图像JND阈值的估计,然而现实的图像/视频处理系统接收的大部分是有失真的图像/视频,因此,传统的JND模型在实际的应用中是受限制的。为此,针对任意质量图像的JND阈值的预测研究尤为重要。
发明内容
本发明的目的在于提供一种图像级JND阈值的预测方法、装置、设备及存储介质,旨在解决由于现有技术无法提供一种有效的图像级JND阈值的预测方法,导致针对整幅图像的JND阈值预测偏差较大的问题。
一方面,本发明提供了一种图像级JND阈值的预测方法,所述方法包括下述步骤:
通过训练好的多分类感知失真判别器对待测图像和与所述待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,得到感知失真判别结果集合,所述感知失真判别结果集合中的感知失真判别结果包括真值和假值;
通过预设的图像级JND搜索策略对所述感知失真判别结果集合进行容错处理,以预测得到所述待测图像的图像级JND阈值。
另一方面,本发明提供了一种图像级JND阈值的预测装置,所述装置包括:
感知失真判别单元,用于通过训练好的多分类感知失真判别器对待测图像和与所述待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,得到感知失真判别结果集合,所述感知失真判别结果集合中的感知失真判别结果包括真值和假值;以及
JND阈值预测单元,用于通过预设的图像级JND搜索策略对所述感知失真判别结果集合进行容错处理,以预测得到所述待测图像的图像级JND阈值。
另一方面,本发明还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述图像级JND阈值的预测方法所述的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述图像级JND阈值的预测方法所述的步骤。
本发明通过训练好的多分类感知失真判别器对待测图像和与待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,得到感知失真判别结果集合,再通过图像级JND搜索策略对感知失真判别结果集合进行容错处理,以预测得到待测图像的图像级JND阈值,从而降低图像级JND阈值的预测偏差,提高了图像级JND阈值预测的准确度,使得预测得到JND阈值更贴近人眼视觉系统对整幅图像质量的感知。
附图说明
图1是本发明实施例一提供的图像级JND阈值的预测方法的实现流程图;
图2是本发明实施例二提供的对待测图像和压缩图像进行感知失真判别的实现流程图;
图3是本发明实施例三提供的对感知失真判别结果集合进行容错处理的实现流程图;
图4是本发明实施例三提供的滑动窗口示意图;
图5是本发明实施例四提供的图像级JND阈值的预测装置的结构示意图;
图6是本发明实施例五提供的图像级JND阈值的预测装置的结构示意图;以及
图7是本发明实施例六提供的计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的图像级JND阈值的预测方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,通过训练好的多分类感知失真判别器对待测图像和与待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,得到感知失真判别结果集合。
本发明实施例适用于图像/视频处理平台、系统或设备,例如:个人计算机、服务器等。在本发明实施例中,待测图像通过不同的压缩方式进行压缩,可以得到不同质量的压缩图像,所有的、不同质量的压缩图像组成压缩图像集合。将待测图像x和与待测图像对应的压缩图像集合中的第i个压缩图像xi输入到训练好的多分类感知失真判别器中,通过该多分类感知失真判别器对待测图像x和压缩图像xi进行感知失真判别,得到感知失真判别结果,所有的压缩图像对应的感知失真判别结果构成感知失真判别结果集合,其中,感知失真判别结果包括真值(例如:1)和假值(例如:0)。
在通过训练好的多分类感知失真判别器对待测图像和与待测图像对应的压缩图像集合中的压缩图像进行感知失真判别之前,优选地,构建多分类感知失真判别器,并采用有监督、半监督或者无监督的图像训练样本对该多分类感知失真判别器进行训练,从而使得该多分类感知失真判别器能够判别两幅内容相同但质量不同的图像是否存在感知失真。
在对多分类感知失真判别器进行训练时,优选地,通过卷积神经网络、线性回归函数以及逻辑回归函数构建二分类感知质量判别器,以通过该二分类感知质量判别器构成多分类感知失真判别器,根据预先生成的训练图像样本对二分类感知质量判别器进行学习,并根据训练图像样本的样本标签对卷积神经网络的第一参数集、线性回归函数的第二参数集以及逻辑回归函数的第三参数集进行调整,以利用学习好的二分类感知质量判别器,实现对待测图像和与待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,从而通过将多分类感知失真判别器的训练分解为对二分类感知质量判别器的训练,提高了判别器模型的训练速度和效率。
在根据预先生成的训练图像样本对二分类感知质量判别器进行学习时,优选地,通过下述步骤实现对二分类感知质量判别器进行学习:
1)从MCL_JCI数据集中生成预设数量个(例如:50)训练图像样本,该训练图像样本包含正负图像样本,记为{xt,yt},xt为样本图像数据,且xt包括原始图像样本和该原始图像样本对应的压缩图像样本集合,yt为样本图像数据的样本标签;
2)将原始图像样本x与该原始图像样本对应的压缩图像样本集合中的第i个压缩图像样本xi分别划分成大小为M×M的图像块,将x和xi的第j个图像块分别记为Px,j和其中j∈[1,2,...S/M],S为原始图像样本x的大小,原始图像样本与压缩图像样本的图像块排列的顺序相同;
4)采用卷积神经网络(Convolutional Neural Network,CNN)对{Px,1,Px,2,...,Px,N}和中的样本图像块和压缩样本图像块进行特征提取,得到对应的样本图像块特征集合和压缩样本图像块特征集合,记为{Fx,1,Fx,2,...,Fx,N}和
7)通过逻辑回归函数将{S1,S2,...,SN}映射到0至1之间的值,记为r,当r≥0.5则认为压缩图像样本xi与原始图像样本x存在感知失真,得到感知失真判别结果,并判断该感知失真判别结果与对应样本标签是否一致,当不一致时,则调整卷积神经网络的第一参数集、线性回归函数的第二参数集以及逻辑回归函数的第三参数集,并跳转到步骤4)继续对二分类感知质量判别器进行学习,直至感知失真判别结果与对应样本标签一致或者学习次数到达了预设的迭代阈值。
在本发明实施例中,通过上述步骤1)~7)将多分类感知失真判别器的训练问题转换成对二分类感知质量判别器的训练问题,从而提高了对多分类感知失真判别器的训练速度和效率,并降低了后续对图像级JND阈值预测的难度。
在根据预先生成的训练图像样本对二分类感知质量判别器进行学习之前,优选地,将学习效率初始化为1×10-4,并采用Adam算法作为梯度下降方法,同时将批梯度下降(mini-batch)的大小设定为4,以处理完一个mini-batch,则将第一参数集、第二参数集以及第三参数集进行更新,从而提高了对多分类感知失真判别器的训练速度和效率。
在步骤S102中,通过预设的图像级JND搜索策略对感知失真判别结果集合进行容错处理,以预测得到待测图像的图像级JND阈值。
在本发明实施例中,多分类感知失真判别器对待测图像和压缩图像的感知失真判别存在误判的情况,导致得到的感知失真判别结果不准确,因此,通过预设的图像级JND搜索策略对感知失真判别结果集合进行容错处理,最终预测出待测图像的图像级JND阈值,从而提高了对图像级JND阈值预测的准确度。
在本发明实施例中,通过训练好的多分类感知失真判别器对待测图像和与待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,得到感知失真判别结果集合,再通过图像级JND搜索策略对感知失真判别结果集合进行容错处理,以预测得到待测图像的图像级JND阈值,从而降低图像级JND阈值的预测偏差,提高了图像级JND阈值预测的准确度,使得预测得到JND阈值更贴近人眼视觉系统对整幅图像质量的感知。
实施例二:
图2示出了本发明实施例二提供的实施例一中步骤S101对待测图像和压缩图像进行感知失真判别的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S201中,根据预设的图像块大小,分别将待测图像和压缩图像进行图像块划分,得到对应的待测图像块集合和压缩图像块集合。
在本发明实施例中,根据预设的图像块大小,分别将待测图像x和与待测图像对应的第i个压缩图像xi进行图像块划分,得到对应的待测图像块集合和压缩图像块集合,在待测图像块集合和压缩图像块集合中,待测图像块和压缩图像块的排列顺序相同,例如,待测图像x划分的第j个待测图像块为Px,j,则在压缩图像xi上与待测图像块Px,j在待测图像x中的图像位置相同的地方被划分的块为第j个压缩图像块,即为。
优选地,图像块大小为32×32,从而避免图像块过大或过小而降低后续对图像块进行特征提取的效果。
在步骤S202中,根据图像块位置,分别在待测图像块集合和压缩图像块集合中选取预设数量个对应的待测图像块和压缩图像块。
在本发明实施例中,分别在待测图像块集合和压缩图像块集合中随机选取预设数量个对应的待测图像块和压缩图像块,选取出的待测图像块和压缩图像块满足待测图像块在待测图像中的位置与压缩图像块在压缩图像中的位置相同。
优选地,选取的待测图像块和压缩图像块的数量分别为32,从而避免特征提取的图像块数量过多或过少而降低后续对图像块进行特征提取的效果。
在步骤S203中,通过预设的卷积神经网络分别对选取出的待测图像块和压缩图像块进行特征提取,得到对应的待测图像块特征集合和压缩图像块特征集合。
在本发明实施例中,优选地,卷积神经网络的网络结构为每个巻积层后接一个激活层,每两个巻积层后接一个池化层,从而提高待测图像块和压缩图像块提取的特征的显著性。
进一步优选地,卷积神经网络卷积层的卷积层数为10,卷积核大小为3,卷积步长为2,从而进一步提高待测图像块和压缩图像块提取的特征的显著性。
又一优选地,卷积神经网络的激活函数采用修正线性单元(Rectified linearunit,ReLU),池化方式采用最大池化法,从而提高了卷积神经网络卷的计算速度和收敛速度。
在步骤S204中,根据预设的特征融合方式将待测图像块特征集合中的待测图像块特征和压缩图像块特征集合中的压缩图像块特征进行特征融合,得到融合特征集合。
在本发明实施例中,采用特征融合方式或者将待测图像块特征集合{Fx,1,Fx,2,...,Fx,N}中的第l个待测图像块特征Fx,l和压缩图像块特征集合中相应的第l个压缩图像块特征进行特征融合,得到融合特征集合{F1′,F2′,...,FN′},其中N为选取出的待测图像块和压缩图像块的数量。
在步骤S205中,根据融合特征集合,通过预设的线性回归函数对压缩图像块进行质量评价,得到对应的质量评分集合。
在本发明实施例中,根据融合特征集合,通过任意的线性回归函数(例如:支持向量机(Support Vector Machine,SVM))对压缩图像块集合中的每个压缩图像块进行质量评价,得到对应的质量评分,例如,第j块压缩图像块的质量评分记为Sj,所有压缩图像块的质量评分组成质量评分集合,记为{S1,S2,...,SN}。
在本发明实施例中,优选地,采用多层感知器(MultilayerPerceptron,MLP)作为线性回归函数,且将多层感知器中间层的层数设置为1,从而提高了质量评分的准确性。
在步骤S206中,根据质量评分集合,通过预设的逻辑回归函数判别待测图像和压缩图像之间是否存在感知失真,得到感知失真判别结果。
在本发明实施例中,得到压缩图像块的质量评分集合{S1,S2,...,SN},采用逻辑回归函数将{S1,S2,...,SN}映射到0至1之间的值,记为r,当r≥0.5则认为压缩图像xi与待测图像x存在感知失真,输出真值(1),否则认为xi与x不存在感知失真,输出假值(0),其中,N为选取出的待测图像块和压缩图像块的数量,Ψ(.)为sigmod函数,wi为第i个压缩图像块的权重,所有压缩图像块的权重构成逻辑回归函数的第三参数集,b为逻辑回归函数的偏置参数。
在本发明实施例中,首先,通过将待测图像和压缩图像进行图像块划分,然后,对划分的待测图像块和压缩图像块进行特征提取和特征融合,最后,根据融合的特征对压缩图像块进行质量评分,进而得到压缩图像和待测图像的感知失真判别结果,从而提高了感知失真判别结果的准确性。
实施例三:
图3示出了本发明实施例三提供的实施例一中步骤S102对感知失真判别结果集合进行容错处理的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S301中,根据感知失真判别结果集合对应的压缩图像序列,将预设窗口大小的滑动窗口按照预设的滑动方向进行滑动,并统计滑动窗口内感知失真判别结果为真值对应的压缩图像的压缩图像数量,该滑动方向为从右向左或者从左向右。
在本发明实施例中,感知失真判别结果集合中的一个感知失真判别结果对应一个压缩图像,感知失真判别结果集合对应的压缩图像序列x1,x2,...,xN和感知失真判别结果构成一个XY轴坐标系,压缩图像序列x1,x2,...,xN构成X轴坐标点,感知失真判别结果的真值(1)和假值(0)构成Y轴坐标点,将预设窗口大小的滑动窗口从该坐标系的X轴右端最后一个压缩图像(即第N个压缩图像xN)开始向左端XY轴坐标系的原点滑动(即沿X轴从右向左的滑动方向),或者从靠近该坐标系原点的X轴上第一个压缩图像(即第1个压缩图像x1)开始沿X轴向右滑动(即沿X轴从左向右的滑动方向),在滑动窗口滑动过程中,统计滑动窗口内感知失真判别结果为真值对应的压缩图像的压缩图像数量,也即统计滑动窗口内有多少个压缩图像的感知失真判别结果为真值。
作为示例地,如图4示出的滑动窗口沿X轴从右向左滑动的示意图,在图4所示的XY轴坐标系,感知失真判别结果集合对应的压缩图像序列x1,x2,...,xN构成X轴坐标点,感知失真判别结果的真值(1)和假值(0)构成Y轴坐标点,将滑动窗口从该坐标系的X轴右端最后一个压缩图像(即第N个压缩图像xN)开始向左端XY轴坐标系的原点滑动。
在将预设窗口大小的滑动窗口从右向左滑动之前,优选地,将滑动窗口的窗口大小设置为6,从而提高对感知失真判别结果集合中的误判结果进行修正和恢复的成功率。
在步骤S302中,当滑动方向为从右向左,且压缩图像数量不小于预设的窗口阈值时,将滑动窗口内窗口最右端对应的压缩图像判定为JND压缩图像,当滑动方向为从左向右,且压缩图像数量不大于窗口阈值时,将滑动窗口内窗口最左端对应的压缩图像判定为JND压缩图像。
在本发明实施例中,当滑动方向为从右向左时,判断滑动窗口内感知失真判别结果为真值的压缩图像的数量是否大于等于预设的窗口阈值,是则,滑动窗口停止滑动,且将滑动窗口内窗口最右端对应的压缩图像判定为JND压缩图像,如图4所示A点所在的第k个压缩图像xk,否则,滑动窗口继续滑动,直至滑动窗口内感知失真判别结果为真值的压缩图像的数量大于等于预设的窗口阈值。而当滑动方向为从左向右时,判断滑动窗口内感知失真判别结果为真值的压缩图像的数量是否小于等于窗口阈值,是则,滑动窗口停止滑动,且将滑动窗口内窗口最左端对应的压缩图像判定为JND压缩图像,否则,滑动窗口继续滑动,直至滑动窗口内感知失真判别结果为真值的压缩图像的数量小于等于窗口阈值。
优选地,预设的窗口阈值为5,从而提高对感知失真判别结果集合中的误判结果进行修正和恢复的成功率。
在步骤S303中,将JND压缩图像所采用的图像压缩指标设置为待测图像的图像级JND阈值。
在本发明实施例中,JND压缩图像(即第k个压缩图像xk)是将原始的待测图像通过相应的图像压缩指标进行压缩而得到的,将压缩图像xk压缩过程中所采用的压缩因子、比特率或者其它的图像质量指标(例如:峰值信噪比(Peak Signal to Noise Ratio,PSNR))作为待测图像的图像级恰可感知失真(JND)阈值。
在本发明实施例中,采用基于滑动窗口的图像级JND搜索策略进行容错处理,最终预测出待测图像的图像级JND阈值,从而提高了图像级JND阈值预测的准确性。
实施例四:
图5示出了本发明实施例四提供的图像级JND阈值的预测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
感知失真判别单元51,用于通过训练好的多分类感知失真判别器对待测图像和与待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,得到感知失真判别结果集合;以及
JND阈值预测单元52,用于通过预设的图像级JND搜索策略对感知失真判别结果集合进行容错处理,以预测得到待测图像的图像级JND阈值。
在本发明实施例中,图像级JND阈值的预测装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。具体地,各单元的实施方式可参考前述方法实施例的描述,在此不再赘述。
实施例五:
图6示出了本发明实施例五提供的图像级JND阈值的预测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
二分类器构建单元61,用于通过卷积神经网络、线性回归函数以及逻辑回归函数构建二分类感知质量判别器,以通过该二分类感知质量判别器构成多分类感知失真判别器;
判别器学习单元62,用于根据预先生成的训练图像样本对二分类感知质量判别器进行学习,并根据训练图像样本的样本标签对卷积神经网络的第一参数集、线性回归函数的第二参数集以及逻辑回归函数的第三参数集进行调整,以通过学习好的二分类感知质量判别器对待测图像和压缩图像集合中的压缩图像进行感知失真判别;
感知失真判别单元63,用于通过训练好的多分类感知失真判别器对待测图像和与待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,得到感知失真判别结果集合;以及
JND阈值预测单元64,用于通过预设的图像级JND搜索策略对感知失真判别结果集合进行容错处理,以预测得到待测图像的图像级JND阈值。
其中,优选地,感知失真判别单元63包括:
图像块划分单元631,用于根据预设的图像块大小,分别将待测图像和压缩图像进行图像块划分,得到对应的待测图像块集合和压缩图像块集合;
图像块选取单元632,用于根据图像块位置,分别在待测图像块集合和压缩图像块集合中选取预设数量个对应的待测图像块和压缩图像块;
特征提取单元633,用于通过预设的卷积神经网络分别对选取出的待测图像块和压缩图像块进行特征提取,得到对应的待测图像块特征集合和压缩图像块特征集合;
特征融合单元634,用于根据预设的特征融合方式将待测图像块特征集合中的待测图像块特征和压缩图像块特征集合中的压缩图像块特征进行特征融合,得到融合特征集合;
质量评价单元635,用于根据融合特征集合,通过预设的线性回归函数对压缩图像块进行质量评价,得到对应的质量评分集合;以及
失真判别子单元636,用于根据质量评分集合,通过预设的逻辑回归函数判别待测图像和压缩图像之间是否存在感知失真,得到感知失真判别结果。
JND阈值预测单元64包括:
图像数量统计单元641,用于根据感知失真判别结果集合对应的压缩图像序列,将预设窗口大小的滑动窗口按照预设的滑动方向进行滑动,并统计滑动窗口内感知失真判别结果为真值对应的压缩图像的压缩图像数量,滑动方向为从右向左或者从左向右;
JND图像判定单元642,用于当滑动方向为从右向左,且压缩图像数量不小于预设的窗口阈值时,将滑动窗口内窗口最右端对应的压缩图像判定为JND压缩图像,当滑动方向为从左向右,且压缩图像数量不大于窗口阈值时,将滑动窗口内窗口最左端对应的压缩图像判定为所述JND压缩图像;以及
JND阈值设置单元643,用于将JND压缩图像所采用的图像压缩指标设置为待测图像的图像级JND阈值。
在本发明实施例中,图像级JND阈值的预测装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。具体地,各单元的实施方式可参考前述方法实施例的描述,在此不再赘述。
实施例六:
图7示出了本发明实施例六提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的计算设备7包括处理器70、存储器71以及存储在存储器71中并可在处理器70上运行的计算机程序72。该处理器70执行计算机程序72时实现上述图像级JND阈值的预测方法实施例中的步骤,例如图1所示的步骤S101至S102。或者,处理器70执行计算机程序72时实现上述各装置实施例中各单元的功能,例如图5所示单元51至52的功能。
在本发明实施例中,通过训练好的该多分类感知失真判别器对待测图像和与待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,得到感知失真判别结果集合,再通过图像级JND搜索策略对感知失真判别结果集合进行容错处理,以预测得到待测图像的图像级JND阈值,从而降低图像级JND阈值的预测偏差,提高了图像级JND阈值预测的准确度,使得预测得到JND阈值更贴近人眼视觉系统对整幅图像质量的感知。
本发明实施例的计算设备可以为个人计算机、服务器。该计算设备7中处理器70执行计算机程序72时实现图像级JND阈值的预测方法时实现的步骤可参考前述方法实施例的描述,在此不再赘述。
实施例七:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述图像级JND阈值的预测方法实施例中的步骤,例如,图1所示的步骤S101至S102。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图5所示单元51至52的功能。
在本发明实施例中,通过训练好的该多分类感知失真判别器对待测图像和与待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,得到感知失真判别结果集合,再通过图像级JND搜索策略对感知失真判别结果集合进行容错处理,以预测得到待测图像的图像级JND阈值,从而降低图像级JND阈值的预测偏差,提高了图像级JND阈值预测的准确度,使得预测得到JND阈值更贴近人眼视觉系统对整幅图像质量的感知。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像级JND阈值的预测方法,其特征在于,所述方法包括下述步骤:
通过训练好的多分类感知失真判别器对待测图像和与所述待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,得到感知失真判别结果集合,所述感知失真判别结果集合中的感知失真判别结果包括真值和假值;
通过预设的图像级JND搜索策略对所述感知失真判别结果集合进行容错处理,以预测得到所述待测图像的图像级JND阈值。
2.如权利要求1所述的方法,其特征在于,通过训练好的多分类感知失真判别器对待测图像和与所述待测图像对应的压缩图像集合中的压缩图像进行感知失真判别的步骤,包括:
根据预设的图像块大小,分别将所述待测图像和所述压缩图像进行图像块划分,得到对应的待测图像块集合和压缩图像块集合;
根据图像块位置,分别在所述待测图像块集合和所述压缩图像块集合中选取预设数量个对应的待测图像块和压缩图像块;
通过预设的卷积神经网络分别对选取出的所述待测图像块和所述压缩图像块进行特征提取,得到对应的待测图像块特征集合和压缩图像块特征集合;
根据预设的特征融合方式将所述待测图像块特征集合中的待测图像块特征和所述压缩图像块特征集合中的压缩图像块特征进行特征融合,得到融合特征集合;
根据所述融合特征集合,通过预设的线性回归函数对所述压缩图像块进行质量评价,得到对应的质量评分集合;
根据所述质量评分集合,通过预设的逻辑回归函数判别所述待测图像和所述压缩图像之间是否存在感知失真,得到所述感知失真判别结果。
3.如权利要求2所述的方法,其特征在于,通过训练好的多分类感知失真判别器对待测图像和与所述待测图像对应的压缩图像集合中的压缩图像进行感知失真判别的步骤之前,所述方法还包括:
通过所述卷积神经网络、所述线性回归函数以及所述逻辑回归函数构建二分类感知质量判别器,以通过所述二分类感知质量判别器构成所述多分类感知失真判别器;
根据预先生成的训练图像样本对所述二分类感知质量判别器进行学习,并根据所述训练图像样本的样本标签对所述卷积神经网络的第一参数集、所述线性回归函数的第二参数集以及所述逻辑回归函数的第三参数集进行调整,以通过学习好的二分类感知质量判别器对所述待测图像和所述压缩图像集合中的压缩图像进行感知失真判别。
4.如权利要求1所述的方法,其特征在于,通过预设的图像级JND搜索策略对所述感知失真判别结果集合进行容错处理的步骤,包括:
根据所述感知失真判别结果集合对应的压缩图像序列,将预设窗口大小的滑动窗口按照预设的滑动方向进行滑动,并统计所述滑动窗口内所述感知失真判别结果为真值对应的压缩图像的压缩图像数量,所述滑动方向为从右向左或者从左向右;
当所述滑动方向为从右向左,且所述压缩图像数量不小于预设的窗口阈值时,将所述滑动窗口内窗口最右端对应的压缩图像判定为JND压缩图像,当所述滑动方向为从左向右,且所述压缩图像数量不大于所述窗口阈值时,将所述滑动窗口内窗口最左端对应的压缩图像判定为所述JND压缩图像;
将所述JND压缩图像所采用的图像压缩指标设置为所述待测图像的图像级JND阈值。
5.一种图像级JND阈值的预测装置,其特征在于,所述装置包括:
感知失真判别单元,用于通过训练好的多分类感知失真判别器对待测图像和与所述待测图像对应的压缩图像集合中的压缩图像进行感知失真判别,得到感知失真判别结果集合,所述感知失真判别结果集合中的感知失真判别结果包括真值和假值;以及
JND阈值预测单元,用于通过预设的图像级JND搜索策略对所述感知失真判别结果集合进行容错处理,以预测得到所述待测图像的图像级JND阈值。
6.如权利要求5所述的装置,其特征在于,所述感知失真判别单元包括:
图像块划分单元,用于根据预设的图像块大小,分别将所述待测图像和所述压缩图像进行图像块划分,得到对应的待测图像块集合和压缩图像块集合;
图像块选取单元,用于根据图像块位置,分别在所述待测图像块集合和所述压缩图像块集合中选取预设数量个对应的待测图像块和压缩图像块;
特征提取单元,用于通过预设的卷积神经网络分别对选取出的所述待测图像块和所述压缩图像块进行特征提取,得到对应的待测图像块特征集合和压缩图像块特征集合;
特征融合单元,用于根据预设的特征融合方式将所述待测图像块特征集合中的待测图像块特征和所述压缩图像块特征集合中的压缩图像块特征进行特征融合,得到融合特征集合;
质量评价单元,用于根据所述融合特征集合,通过预设的线性回归函数对所述压缩图像块进行质量评价,得到对应的质量评分集合;以及
失真判别子单元,用于根据所述质量评分集合,通过预设的逻辑回归函数判别所述待测图像和所述压缩图像之间是否存在感知失真,得到所述感知失真判别结果。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
二分类器构建单元,用于通过所述卷积神经网络、所述线性回归函数以及所述逻辑回归函数构建二分类感知质量判别器,以通过所述二分类感知质量判别器构成所述多分类感知失真判别器;以及
判别器学习单元,用于根据预先生成的训练图像样本对所述二分类感知质量判别器进行学习,并根据所述训练图像样本的样本标签对所述卷积神经网络的第一参数集、所述线性回归函数的第二参数集以及所述逻辑回归函数的第三参数集进行调整,以通过学习好的二分类感知质量判别器对所述待测图像和所述压缩图像集合中的压缩图像进行感知失真判别。
8.如权利要求5所述的装置,其特征在于,所述JND阈值预测单元包括:
图像数量统计单元,用于根据所述感知失真判别结果集合对应的压缩图像序列,将预设窗口大小的滑动窗口按照预设的滑动方向进行滑动,并统计所述滑动窗口内所述感知失真判别结果为真值对应的压缩图像的压缩图像数量,所述滑动方向为从右向左或者从左向右;
JND图像判定单元,用于当所述滑动方向为从右向左,且所述压缩图像数量不小于预设的窗口阈值时,将所述滑动窗口内窗口最右端对应的压缩图像判定为JND压缩图像,当所述滑动方向为从左向右,且所述压缩图像数量不大于所述窗口阈值时,将所述滑动窗口内窗口最左端对应的压缩图像判定为所述JND压缩图像;以及
JND阈值设置单元,用于将所述JND压缩图像所采用的图像压缩指标设置为所述待测图像的图像级JND阈值。
9.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811519189.XA CN111314704B (zh) | 2018-12-12 | 2018-12-12 | 图像级jnd阈值的预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811519189.XA CN111314704B (zh) | 2018-12-12 | 2018-12-12 | 图像级jnd阈值的预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111314704A true CN111314704A (zh) | 2020-06-19 |
CN111314704B CN111314704B (zh) | 2023-01-17 |
Family
ID=71146550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811519189.XA Active CN111314704B (zh) | 2018-12-12 | 2018-12-12 | 图像级jnd阈值的预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111314704B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111726613A (zh) * | 2020-06-30 | 2020-09-29 | 福州大学 | 一种基于最小可觉差的视频编码优化方法 |
CN111768327A (zh) * | 2020-06-30 | 2020-10-13 | 苏州科达科技股份有限公司 | 基于深度学习的水印添加、提取方法、设备及存储介质 |
CN114359784A (zh) * | 2021-12-03 | 2022-04-15 | 湖南财政经济学院 | 一种面向视频压缩的人眼恰可察觉失真的预测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6075884A (en) * | 1996-03-29 | 2000-06-13 | Sarnoff Corporation | Method and apparatus for training a neural network to learn and use fidelity metric as a control mechanism |
US20130266237A1 (en) * | 2010-12-16 | 2013-10-10 | Beihang University | Wavelet coefficient quantization method using human visual model in image compression |
US20140169451A1 (en) * | 2012-12-13 | 2014-06-19 | Mitsubishi Electric Research Laboratories, Inc. | Perceptually Coding Images and Videos |
CN105635743A (zh) * | 2015-12-30 | 2016-06-01 | 福建师范大学 | 基于显著性检测和全变分的最小可察觉失真方法及系统 |
CN106023267A (zh) * | 2016-05-23 | 2016-10-12 | 郑州轻工业学院 | 稀疏性相关度图像质量评价方法 |
-
2018
- 2018-12-12 CN CN201811519189.XA patent/CN111314704B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6075884A (en) * | 1996-03-29 | 2000-06-13 | Sarnoff Corporation | Method and apparatus for training a neural network to learn and use fidelity metric as a control mechanism |
US20130266237A1 (en) * | 2010-12-16 | 2013-10-10 | Beihang University | Wavelet coefficient quantization method using human visual model in image compression |
US20140169451A1 (en) * | 2012-12-13 | 2014-06-19 | Mitsubishi Electric Research Laboratories, Inc. | Perceptually Coding Images and Videos |
CN105635743A (zh) * | 2015-12-30 | 2016-06-01 | 福建师范大学 | 基于显著性检测和全变分的最小可察觉失真方法及系统 |
CN106023267A (zh) * | 2016-05-23 | 2016-10-12 | 郑州轻工业学院 | 稀疏性相关度图像质量评价方法 |
Non-Patent Citations (2)
Title |
---|
SEBASTIAN BOSSE等: "Deep Neural Networks for No-Reference and Full-Reference Image Quality Assessment", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, 10 October 2017 (2017-10-10), pages 206 - 219 * |
SEHWAN KI 等: "Learning-Based Just-Noticeable-Quantization-Distortion Modeling for Perceptual Video Coding", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, 1 July 2018 (2018-07-01), pages 3178 - 3193, XP055804367, DOI: 10.1109/TIP.2018.2818439 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111726613A (zh) * | 2020-06-30 | 2020-09-29 | 福州大学 | 一种基于最小可觉差的视频编码优化方法 |
CN111768327A (zh) * | 2020-06-30 | 2020-10-13 | 苏州科达科技股份有限公司 | 基于深度学习的水印添加、提取方法、设备及存储介质 |
CN111726613B (zh) * | 2020-06-30 | 2021-07-27 | 福州大学 | 一种基于最小可觉差的视频编码优化方法 |
CN114359784A (zh) * | 2021-12-03 | 2022-04-15 | 湖南财政经济学院 | 一种面向视频压缩的人眼恰可察觉失真的预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111314704B (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875676B (zh) | 活体检测方法、装置及系统 | |
CN108416250B (zh) | 人数统计方法及装置 | |
WO2020118588A1 (zh) | 图像级jnd阈值的预测方法、装置、设备及存储介质 | |
CN111314704B (zh) | 图像级jnd阈值的预测方法、装置、设备及存储介质 | |
CN112950581B (zh) | 质量评估方法、装置和电子设备 | |
CN111046959A (zh) | 模型训练方法、装置、设备和存储介质 | |
CN108564066B (zh) | 一种人物识别模型训练方法以及人物识别方法 | |
CN108805016B (zh) | 一种头肩区域检测方法及装置 | |
JP7007829B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN110765860A (zh) | 摔倒判定方法、装置、计算机设备及存储介质 | |
CN111918130A (zh) | 视频封面确定方法、装置、电子设备及存储介质 | |
CN110782413B (zh) | 一种图像处理方法、装置、设备及存储介质 | |
US11062210B2 (en) | Method and apparatus for training a neural network used for denoising | |
CN110827265B (zh) | 基于深度学习的图片异常检测方法 | |
CN111291817A (zh) | 图像识别方法、装置、电子设备和计算机可读介质 | |
CN111126347B (zh) | 人眼状态识别方法、装置、终端及可读存储介质 | |
CN111901594B (zh) | 面向视觉分析任务的图像编码方法、电子设备及介质 | |
CN112801536B (zh) | 图像处理方法、装置和电子设备 | |
CN112712068A (zh) | 一种关键点检测方法、装置、电子设备及存储介质 | |
CN117237279A (zh) | 一种非均匀失真全景图像盲质量评价方法及系统 | |
WO2011134110A1 (en) | Method and apparatus for measuring video quality using at least one semi -supervised learning regressor for mean observer score prediction | |
WO2021047453A1 (zh) | 图像质量确定方法、装置及设备 | |
CN116113952A (zh) | 用于图像的属于分布内度量的分布之间的距离 | |
CN111539250A (zh) | 一种基于神经网络的图像雾浓度估计方法、系统和终端 | |
CN111832601A (zh) | 状态检测方法、模型训练方法、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |