CN101534448A - 视频编码中基于人类视觉容差的编码工具选择 - Google Patents
视频编码中基于人类视觉容差的编码工具选择 Download PDFInfo
- Publication number
- CN101534448A CN101534448A CN200810149681A CN200810149681A CN101534448A CN 101534448 A CN101534448 A CN 101534448A CN 200810149681 A CN200810149681 A CN 200810149681A CN 200810149681 A CN200810149681 A CN 200810149681A CN 101534448 A CN101534448 A CN 101534448A
- Authority
- CN
- China
- Prior art keywords
- human visual
- parameter
- coding
- cost
- view data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/189—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
- H04N19/19—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/12—Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Discrete Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
在一个实施例中,提供了一种编码模式选择方法,用于提高编码后的视频序列的视觉质量。根据人类视觉容差度来选择所述编码模式。接收图像数据用于视频编码处理。然后,分析图像数据以确定人类视觉容差调整信息。例如,可以根据人类视觉容差度来调整成本方程式的参数,所述人类视觉容差度可以是基于人类视觉系统能够容忍的失真限度的容差。可以在认为是视觉敏感区域的位置分析图像数据,所述区域例如是拖尾可疑区域、条带化可疑区域、图像边界区域和/或块化可疑区域。根据在图像数据中找到何种视觉敏感区域,可以根据不同的视觉容差阈值来调整成本方程式中的参数。然后根据成本来确定编码模式。
Description
技术领域
具体实施例一般涉及视频编码。
背景技术
在诸如H.264/高级视频编码(AVC)的视频压缩内,获得了比其它编码标准高的编码效率。在AVC中,提供多个编码工具,以通过对比特流不同地进行编码来提高压缩效率。例如,每个编码工具可以表示为压缩比特流中的一种编码模式。编码模式选择集中关注客观速率/失真(R/D)性能。例如,通过使用相同的比特率获得较好的峰值信噪比(PSNR)或者通过使用较小的比特率保持相同的PSNR来测量性能。使用所述R/D手段可以大大地提高压缩效率。然而,客观上有效的事物在视觉上不一定让用户满意。例如,即使使用客观的R/D手段压缩视频,人眼还是可能被编码后的视频中的失真烦扰。
发明内容
在一个实施例中,提供了一种编码模式选择方法,用于提高编码后的视频序列的视觉质量。根据人类视觉容差度(human visual tolerancelevel)来选择所述编码模式。接收图像数据用于视频编码处理。然后,分析所述图像数据以确定人类视觉容差调整信息。例如,可以根据人类视觉容差度来调整成本方程式的参数,所述人类视觉容差度可以是基于人类视觉系统能够容忍的失真限度的容差。
图像数据可以在认为是视觉敏感区域的位置进行分析,所述区域例如是拖尾可疑区域、条带化可疑区域、图像边界区域和/或块化可疑区域。根据在图像数据内找到的是何种视觉敏感区域,则可以根据不同的视觉容差阈值来调整成本方程式中的参数。在调整了成本方程式内的参数后,计算用于视频编码处理的成本。然后,根据成本来确定编码模式。因此,使用基于人类视觉容差度而调整的成本方程式来选择所确定的编码模式。
通过参考说明书的剩余部分和附图可以实现对于在此公开的具体实施例的特性和优点的进一步理解。
附图说明
图1描述了根据一个实施例的编码器的示例。
图2描述了根据一个实施例的编码器的更详细示例。
图3描述了根据一个实施例的拖尾伪影检测和视觉容差参数调整的示例。
图4描述了根据一个实施例的用于检测条带化伪影和调整视觉容差参数的流程图的示例。
具体实施方式
概述
图1描述了根据一个实施例的编码器100的示例。编码器100包括视觉容差参数调整器102、成本估计器104和编码工具选择器106。
可以通过编码器100接收和编码图像数据。所述图像数据可以是任何数据,并且可以由宏块构成。编码器100可以使用视频编码规范来编码所述宏块。在一个实施例中,由编码器100使用H.264/AVC。虽然描述了H.264/AVC,但是可以理解,可以使用其它的视频编码规范,诸如任何动态图像专家组(MPEG)规范。
视觉容差参数调整器102可以分析所述图像数据,以确定是否应当调整成本方程式中的参数。所述成本方程式可以是用于确定在编码处理中使用的编码模式的任何量度,例如,能够量化要使用的值以确定可以使用哪个编码模式的任何方程式。如以下更详细的描述,可以分析诸如拖尾可疑区域、条带化可疑区域或者图像边界区域的视觉敏感区域以确定是否应当调整成本方程式中的参数。在所述分析中,可以将图像数据的信息与视觉容差阈值相比较。根据所述比较,可以调整所述参数。
成本估计器104估计编码处理的编码成本。所估计的成本用于选择将用于编码图像数据的编码模式。使用不同的编码模式来编码图像数据,除了可以产生不同的视觉质量之外,还可以产生不同的压缩。例如,从编码处理可能产生某些伪影(artifact)。所述伪影可以包括拖尾伪影、条带化伪影或者图像边界伪影。对于人类视觉系统(即对于观看在已编码数据解码之后所显示的图像数据的人)而言,这些伪影可能在视觉上是恼人的。所使用的编码模式可能引起或者加剧伪影的存在。因此,具体实施例根据人类视觉容差度来确定要使用的编码模式。人类视觉容差度可以是所认为的人类视觉系统可以容许的失真度。例如,在测试期间,对用户进行测试以确定可以容许的失真度。这个度被用作图像区域(宏块)的失真限度。人类视觉容差度用于选择引起小于所述失真限度的失真而不是导致大于所述失真限度的失真的编码工具。因此,选择引起小于所述失真限度的失真的编码工具并且将其用于编码。这个处理可以导致从编码处理产生的视觉伪影的减少。虽然编码模式可能不优化编码处理中的速率/失真,但是预期,对于用户而言,视觉体验将更好。
首先描述如何会导致视觉伪影的示例,然后将描述具体实施例如何选择编码模式以最小化伪影的存在的处理。在一个示例中,对于每个宏块,可以使用方程式1来计算编码模式的编码成本:
Coding_cost=Distortion(QP)+λ(QP)Rate(QP) (1)
在方程式(1)内,QP代表量化位阶,λ是依赖于所述量化位阶的参数。所述Rate(速率)和Distortion(失真)也可以是已知的,并且是编码处理的比特率和失真。所述量化位阶越大,则λ的值越大。变量λ可以对平衡所述失真和所使用的比特率起重要作用。例如,考虑存在两种编码模式,编码模式1产生distortion1和rate1的值,编码模式2产生distortion2和rate2的值,可以满足下面的方程式:
Distortion1(QP)=Distortion2(QP)+λ(QP)
Rate1(QP)=Rate2(QP)-1
因此,coding_cost1=coding_cost2,其表示编码模式1的编码成本等于编码模式2的编码成本。在一个示例内,可以总是选择编码模式1,即使其导致比Distortion2大λ(QP)的更大的失真。如果λ(QP)太大,则可能产生视觉上恼人的伪影。因此,如果确定视觉容差度指示应当调整的参数(即λ),则可以由视觉容差参数调整器102调整参数λ。这可以减少失真,并且导致较少的视觉恼人的伪影。
在AVC中,帧内编码支持许多预测模式(即预测方向)。根据周围的条件,一种模式可以使用比其它模式更少的比特。这种模式被称为最合适的模式。根据速率/失真传统编码模式选择,可以使用方程式(2)来计算每个模式的帧内编码成本:
Coding_cost(most_probable_mode)=SAD/SATD(most_probable_mode)
(2)
Coding_cost(other_mode)=SAD/SATD(other_mode)+Bias(QP)
在上面的方程式中,SAD代表绝对差的和,而SATD代表绝对变换差的和。在方程式(2)内,当bias(QP)大时,可能产生视觉上恼人的伪影。因此,当根据视觉容差阈值而确定会产生视觉伪影时,视觉容差参数调整器102可以调整所述偏移参数。这可以减少视觉上恼人的伪影的存在。
然后,成本估计器104确定成本。例如,方程式(1)和/或(2)可以用于估计成本。因为视觉容差参数调整器102可能已经根据视觉容差调整了所述参数,因此每个编码模式的成本基于人类视觉容差度。即,调整成本,以便选择可以提供小于人类视觉容差度的失真水平的编码工具。因此,成本可以与使用客观速率/失真方法不同。
然后,编码工具选择器106选择编码模式。例如,可以在视频编码处理中提供不同的编码模式。在一个示例内,在AVC中,不同的编码工具可以提供不同的编码模式。所述编码模式可以使用宏块中不同大小的子块预测、不同的预测方向或者其它变化形式来编码图像数据。本技术领域的技术人员可以理解可以使用的不同的编码模式。
图2描述了根据一个实施例的编码器100的更详细的示例。可能接收不同种类的图像数据。在一个实施例中,可以不同地处理不同的图像数据。例如,可以不同地处理动画视频序列和自然视频序列。视频类型确定器202可以分析图像数据以确定其类型。在一个实施例中,可以将图像数据划分为动画视频或者自然视频。虽然描述了动画视频和自然视频,但是应当明白,可以鉴别其它的视频类型。根据视频类型,容差度选择器204选择视觉容差度。可以针对不同的视频类型确定不同的视觉容差度。在一个示例内,动画序列的视觉容差度可能低于自然视频序列的视觉容差度。较低的视觉容差度意味着人类视觉系统可能对于从编码处理产生的任何伪影较敏感。根据所选择的视觉容差度,可以确定一组阈值。这些阈值对于可能产生的不同视觉伪影可能不同。
除了确定视频类型之外,图像类型确定器206还用于确定图像类型。在一个示例内,可以将图像类型确定为帧内图像或者帧间图像。可以使用在本领域内已知的帧内编码或者帧间编码来编码当前图像(例如宏块)。所述处理现在可以称为宏块处理;然而,可以理解,图像数据可以是任何数据集。宏块可以是图像数据的一部分。如果宏块被编码为帧内宏块,则如果当前图像被确定为帧间图像,则可以使用用于视觉敏感区域的不同分析。
视觉伪影分析器207配置为分析宏块,以确定所述宏块是否容易受到所述视觉伪影中一个或多个的影响。对于帧内图像,条带化分析器208可以确定所述宏块是否容易受到条带化伪影的影响。边界宏块检测器210可以确定所述宏块是否容易受到图像边界伪影的影响。而且,如果所述图像被确定为帧间图像,则拖尾分析器212配置为确定所述宏块是否容易受到拖尾伪影的影响。而且,类似于条带化分析器208,条带化分析器214确定所述宏块是否容易受到条带化伪影的影响。
根据所执行的不同分析,可以调整不同的视觉容差参数。条带化分析器208可以分析所述宏块以确定其是否容易受到条带化伪影的影响。条带化伪影可以存在于某一非自然图案沿着一个方向重复的位置,其对于人类视觉系统而言可能看起来像条带。如果条带化分析器208确定所述宏块容易受到条带化伪影的影响,则可以根据视觉容差阈值来调整方程式(2)中的方向bias(QP)参数。例如,方向偏移调整器216可以从容差度选择器204接收视觉容差阈值。然后可以根据视觉容差阈值调整所述bias(QP)参数。下面更详细地描述这个处理。
边界宏块检测器210分析所述宏块以确定其是否容易受到图像边界伪影的影响。这些伪影可能明显地沿着图像的图像边界(例如在显示平面的上部/下部或者侧面上的图像的水平的或者垂直的黑条)。如果边界宏块检测器210确定所述宏块检测为图像边界宏块,则量化参数(QP)调整器218可以根据视觉容差阈值来调整量化位阶。例如,QP调整器218从容差度选择器204接收视觉容差阈值,并且可以根据其来调整所述量化位阶。
如果所述图像是帧间图像,则所述图像中的宏块可以被编码为帧间宏块或者帧内宏块。对于帧内宏块,拖尾分析器212确定所述宏块是否容易受到拖尾伪影的影响。拖尾伪影可存在于在当显示视频序列时观察到某一非自然运动图案的位置。如果拖尾伪影是可能的,则可以根据视觉容差阈值来调整在方程式(1)中的λ参数。例如,λ适配器220从容差度选择器204接收视觉容差阈值,并且根据其来调整λ值。
对于帧内宏块,条带化分析器214确定所述宏块是否容易受到条带伪影的影响。如果是,则方向偏移调整器222可以根据视觉容差阈值来调整参数bias(QP)。在这种情况下,可以从容差度选择器204接收视觉容差阈值,并且调整偏移。同样,如果在宏块内存在胶片颗粒条件,则补偿相加器224可以为每个方向的预测成本添加补偿。即,可能使用的每个模式可能具有添加到其上的补偿,使得对于帧内编码后的胶片颗粒宏块而言,成本较高。
然后,成本估计器226估计可以用于编码宏块的每个编码模式的成本。例如,每个编码模式可以使用方程式(1)和/或方程式(2)来计算成本。可以在估计成本中使用对于所述参数的调整。在执行成本计算之前,调整所述参数值的一些。例如,如果确定宏块容易受到条带化伪影的影响,则可以调整偏移。可以不调整其它参数,例如量化参数和λ。因此,成本估计器226可以使用已调整的方向偏移来估计每个不同模式的成本。然后,成本估计器226向编码模式选择器228输出所述成本。
然后,编码模式选择器228配置为选择编码模式。例如,可以选择提供最低成本的编码模式。然后可以使用所选择的编码模式来编码所述宏块。
下面的部分将分析不同的视觉敏感区域的确定,并且示出已调整的视觉容差参数。第一部分分析拖尾伪影,第二部分分析条带化伪影,第三部分分析图像边界检测。
拖尾伪影
在拖尾伪影中,当显示视频序列时,人类视觉系统可以观察到在帧间图像内移动的某些非自然图案。例如,当示出诸如普通的黑色背景的平面背景并且所述场景移动时,可以看见拖尾伪影在所述背景中移动。在一个示例中,如果在墙上有一个点,则当图像序列显示移动时,人可以看到所述点移动。
在一个实施例中,拖尾伪影通常因跳跃模式或者全零系数宏块的选择引起。跳跃模式是对宏块使用复制预测的情况。即,同一宏块可以被复制或者用于另一个宏块。因为单调区域具有较少的纹理,因此选择跳跃模式和/或全零系数宏块的可能性很高。而且,具有非常不分明的(thin)边缘的宏块也容易受到拖尾伪影的影响,因为包含不分明边的所述宏块可能通过跳跃模式进行编码。参考宏块和当前宏块之间的任何不匹配都可能引起拖尾伪影。在一个示例内,可以减小量化位阶。但是,如果使用跳跃模式,并且所述量减少得不够多,则不会消除所述伪影。而且,如果所述量被减小得太多,则成本可能是使用太多的比特。
拖尾伪影可能以很小的残余误差传播。当选择帧内模式时,预测误差逐个图像相互独立。这意味着帧内模式能够防止误差传播。而且,由于帧内预测的特性,解码后的宏块具有一致的分布。因此,对于帧内编码的宏块而言,产生小的拖尾伪影状的纹理分布的可能性很小。因此,应当在帧间图像的拖尾可疑区域内使用帧内模式。即,拖尾分析器212可以用于确定图像是否可能包括拖尾伪影。
图3描述了根据一个实施例的拖尾伪影检测和视觉容差参数调整的一个示例。在步骤302内,执行方差(variance)检测。例如,提取8×8的方差。所述方差可以反映图像中的对比度。
在步骤304中,从方差检测提取最小和最大方差。阈值TH1用于确定拖尾伪影是否是可能的。在步骤306中,将最小方差与第一阈值(TH1)相比较。如果最小方差大于第一阈值,则确定拖尾伪影的可能性很小。因此,可以使用方程式(1)来应用正常的编码成本估计。因此,在这种情况下,不可以根据视觉容差度来调整参数。
如果最小方差小于或者等于第一阈值,则当前宏块可能受到拖尾伪影的影响。在步骤308中,将最大方差与第二阈值(TH2)相比较。如果最大方差大于第二阈值,则在步骤310,选择视觉容差阈值。例如,可以从自在图2内的视觉水平选择器204接收的两个预先产生的阈值选择视觉容差阈值。在一个示例内,如果宏块具有不分明边,则选择较小的容差度。如果当前宏块具有清晰边(strong edge),则选择较大的容差度。不分明边可以是在沿着边缘对比度小的位置,清晰边可以是在沿着边缘对比度存在明显差异的位置。具有清晰边的宏块的运动估计可以比具有不分明边的宏块更准确。相比于具有不分明边的宏块,在清晰边宏块内比较不可能有拖尾伪影。因此,使用不同的容差度,但是不是必须使用。
然后,在步骤312,可以根据所选择的视觉容差阈值调整在方程式(1)内的λ参数。例如,将λ(QP)与所选择的视觉容差阈值相比较。如果λ(QP)大于所选择的视觉容差阈值,则将λ(QP)重新设置为所选择的视觉容差阈值的值。但是,如果λ(QP)不大于所选择的视觉容差阈值,则可以将λ(QP)保持不变。如果λ(QP)大于视觉容差阈值,则将λ(QP)设置为所述视觉容差阈值,因为这可能减少拖尾伪影的存在。如果所述阈值是失真限度,则调整λ(QP)的值可能引起编码工具的选择,所述编码工具引起小于所述失真限度的失真。
向前参见步骤308,如果最大方差不大于第二阈值,则在步骤314,执行周围运动查看。所述周围运动查看可以针对运动查看周围宏块。例如,可能已经在当前宏块之前对宏块进行了编码或者解码。可以分析这些宏块以确定周围宏块中的任何一个是否都具有大于第三阈值的运动和大于第四阈值(TH4)的16×16方差。例如,所述参考用于确定周围宏块中的任何一个是否都可能经历大于阈值的运动。这指示背景可能不是单调的,而是运动的。因此,拖尾伪影的可能性较大。
在这种情况下,在步骤316中,如果周围宏块具有大于阈值TH3的运动和大于TH4的方差,则调整视觉容差度。例如,可以使用下面的方程式来选择容差阈值:
ToleranceINTRA=V1,ToleranceINTER=V2
其中V1<V2。
如果V1不小于V2,则ToleranceINTRA=ToleranceINTER=V2。V1和V2是经验获取作为视觉阈值的两个常数。
在步骤318中,执行预测精度查看。这查看运动预测是否等于或者小于原始容差阈值。如果是,则在步骤312中可以不改变λ(QP)。如果预测失真大于所述视觉容差度,则将λ(QP)与视觉容差度相比较,并且如果其更大,则将λ(QP)重新设置为视觉容差度的值。
向前参见步骤302,所述处理也可以分支到步骤320,其中,可以执行纯单调查看。纯单调查看查看方差是否等于0。这意味着背景可能是纯黑的。在这种情况下,人类视觉系统能够观察很小的失真。
在这种情况下,在步骤316,容差度可以被设置为0,即可以将toleranceintra设置为0。可以如上所述执行步骤318和312。然而,在这种情况下,因为容差度可以是0,因此λ(QP)总是被设置为0。因为容差阈值是0,因此λ(QP)将大于阈值,并且总是被设置为0。具有拖尾伪影的可能性在这种情况下是高的,因此,容差阈值被设置为0以减少拖尾伪影可能存在的可能性。
在步骤312中调整了λ(QP)后,在步骤322,执行编码成本估计。使用已调整的λ参数来执行编码成本估计。
条带化伪影
图4描述了用于描述根据一个实施例的检测条带化伪影并且调整视觉容差参数的流程图的一个示例。当人类视觉系统观察到在一个方向上重复其本身的某些非自然图案时,可能发生条带化伪影。例如,可能在水平和垂直方向上发生条带。在一个示例内,可能在I图像内发生条带化伪影,然后其传播到下面的P和B图像。
条带化伪影通常发生在单调区域、胶片颗粒区域(film grain area)或者在宏块的锐边中。单调区域可以是单色——诸如黑色——的区域。胶片颗粒区域可以是粒状的并且包括大量点的区域。边缘可以是在边缘包括在宏块中的位置,诸如一个部分可以是黑色的,而其它部分可以是不同的颜色,诸如更浅的颜色。
经由不适当的帧内编码模式选择可能引起条带化伪影。在单调区域中,每个预测方向(编码模式)可以具有类似的预测失真(SAD/SATD)。传统的基于R/D的方法强烈地偏向最合适的模式。因此,可能沿着一个方向重复同一编码模式。如果预测不完美并且量化不能重现余数,则将沿着一个方向重复同一图案。而且,如果量化位阶不是很小,则在胶片颗粒区域或者锐边区域上也可能发生条带化伪影。例如,在锐边区域中,如果宏块的一个部分是单色的黑并且其它部分不是,则某些黑色将沿着边缘泄漏到另一个区域。而且,在胶片颗粒区域内,如果量化不是足够小,则粒状的图案也可能变得条带化。
图4描述了根据一个实施例的用于条带化伪影处理的流程图400。在图4,查看每个宏块以确定其是否是单调的宏块、胶片颗粒宏块或者边缘宏块。如果其是这三个宏块的任何一个,则可以查看所述预测精度,并且可以调整所述参数bias(QP)。如果宏块不属于所述三个的任何一个,则所述参数bias(QP)可以保持不变。
在步骤402,执行宏块方差检测。如果存在小的方差,则可以确定所述宏块是单调的。因此,在步骤404,执行单调度查看。如果所述宏块是单调的,则在步骤412查看预测精度。下面将描述这个处理。
也可以执行胶片颗粒查看。在步骤406,执行宏块平均绝对差(MAD)检测以计算MAD。在步骤408中,执行胶片颗粒条件查看。在这种情况下,如果16×16方差小于第一阈值(F1)并且大于第二阈值(F2),则执行宏块平均绝对差(MAD)条件查看。如果所述方差不在所述两个阈值内,则不认为所述宏块是胶片颗粒宏块。
查看对于当前宏块的平均绝对差的条件。在一个示例内,可以使用下面的方程式来确定所述宏块是否是胶片颗粒宏块:
MB_Var/MB_Mad<((MB_Mad+c1)>>8)+c2
MB_Var是宏块方差,MB_Mad是宏块的MAD,并且c1和c2是常数。如果所述方程式的左侧大于右侧,则不认为当前宏块是胶片颗粒宏块。虽然提供了这种胶片颗粒宏块检测方法,但是,可以理解可以使用其它的检测方法。如果认为宏块是胶片颗粒宏块,则所述处理进行到步骤412,其中,执行预测精度查看。
现在描述边缘检测。在步骤410,执行边缘检测。在这种情况下,如果在宏块中检测到边缘,则确定所述宏块是边缘宏块。因此,所述处理进行到步骤412。
如果认为宏块是单调的、胶片颗粒的或者边缘的宏块,则在步骤412,执行预测精度查看。如果预测失真(SAD/SATD)小于视觉容差阈值,则这表示应当在步骤414调整bias(QP)。如果预测失真大于视觉阈值,则有可能导致条带化伪影。在步骤414,将参数bias(QP)与视觉容差阈值相比较。所述视觉容差度可以根据是否认为所述宏块是单调的、胶片颗粒的或者边缘的宏块而不同。如果其大于视觉容差阈值,则其被重置为那个视觉容差阈值。如果其不大于视觉容差阈值,则将bias(QP)保持不变。
在步骤416,使用已调整的bias(QP)来估计编码成本。编码成本可以依赖于宏块被当作何种类型而不同。
图像边界
现在说明图像边界伪影检测。在许多视频序列中,特别是在电影序列内,存在沿着每个图像的侧面或者上部/下部的条带状的黑色边界。虽然它们不包含任何信息,但是编码器100必须编码它们,并且将它们当作锐边。如果沿着所述锐边边界的区域是平滑的,则垂直模式可以是左右边界的最佳帧内模式;并且水平模式总是上下边界的最佳帧内模式。在低的比特率,对于垂直条带,有可能下面的宏块从其上面的宏块复制完全相同的图案,并且在水平条带中,右面的宏块从左宏块复制完全相同的图案。在这种情况下,人类视觉系统可以观察到在边界宏块和其相邻的宏块之间的差。为了避免图像边界伪影问题,可以检测图像边界宏块,并且可以减小量化位阶。这可以减少可能从编码产生的视觉恼人的伪影。
对于图像中的每个宏块行,查看从图像的左侧开始的前N个左面的宏块。N可以是小于4的整数常数。在步骤503,计算每个8×8块的8×8方差,并且提取最小和最大的方差。
对于第一个已选择的宏块,如果最大的8×8方差大于大的阈值(B1)并且最小的8×8方差小于小的阈值(S1),则确定其为边界宏块。这是因为所述方差指示宏块的一部分是单调的,并且一部分具有高对比度(例如非黑的条带)。也可以检测在图像的右侧的宏块和与所检测的宏块中心对称的宏块。如果它们满足这些标准,则它们也可以被注解为边界模块。在当前的行内的所有的其它宏块可以表示为非边界宏块。
如果第一宏块的最大8×8方差小于阈值B1,则使用与以上所述相同的步骤来查看下面N-1个宏块,直到检测到边界宏块,或者查看了在当前行内的所有的宏块。
如果所有的N个左面的宏块不是边界宏块,则从图像的右侧开始查看N个右面的宏块。对于每个右面的宏块,如果最大8×8方差大于大阈值B2并且最小8×8方差小于小阈值S2,则确定其是边界宏块。在当前行内的所有的其它宏块表示为非边界宏块。
如果第一宏块的最大8×8方差小于阈值B1,则使用在步骤510中所述的步骤查看下面N-1个右面的宏块,直到检测到边界宏块或者查看了所有的N个右面的宏块。可以执行下面的步骤,直到查看了所有的行。
可以使用上面的步骤来执行水平条带(上下边界宏块)的检测。对于检测到的边界宏块,如果未选择帧内DC模式,并且帧内预测成本(SAD/SATD)大于阈值,则将当前的量化位阶与诸如量化参数值的视觉容差阈值相比较。如果当前的量化位阶大于量化参数值,则当前的宏块将作为预选的量化参数值的视觉容差阈值用作量化位阶。如果量化位阶不大于视觉容差阈值,则不改变量化位阶。
可以提高边界宏块的质量,使得如果大于预选的量化参数值的量化位阶被改变成预选的量化参数,则不能观察到伪影。如果量化位阶小于预选的量化参数,则预期观察不到伪影。
结论
因此,具体实施例检测视觉敏感区域并且根据人类视觉容差度调整编码模式。这产生包括较少的视觉恼人的伪影的图像序列。因此,对于用户而言,观看经历可能更令人愉快。
虽然已经对本发明的具体实施例进行了描述,但是这些具体实施例仅仅是说明性的,而不是限定性的。虽然描述了H.264/AVC,但是可以使用其它的编码规范。
可以使用任何适当的编程语言来实现具体实施例的例程,包括C、C++、Java、汇编语言等。可以采用的不同的编程技术,诸如面向程序或者面向对象的。所述规程可以在单个处理装置或者多个处理器上执行。虽然可以以特定的顺序来表示步骤、操作或者计算,但是,可以在不同的具体实施例中改变这个顺序。在一些具体实施例中,可以同时执行在本说明书内示为顺序的多个步骤。
用于具体实施例的“计算机可读介质”可以是任何介质,所述介质可以包含、存储、传输、传播或者传送由指令执行系统、设备、系统或者装置使用或与其相结合使用的程序。所述计算机可读介质可以是——仅以举例的方式而非限定性的——电、磁、光、电磁、红外线或者半导体系统、设备、系统、装置、传播介质或者计算机存储器。可以以软件或者硬件或者两者的组合中的控制逻辑的形式来实现具体实施例。所述控制逻辑当被一个或多个处理器执行时可以操作用于执行在具体实施例中所述的内容。
可以通过使用编程的通用数字计算机、通过使用专用集成电路、可编程逻辑装置、现场可编程门阵列、光、化学、生物、量子或者纳米工程的系统、组件和机制来实现具体实施例。一般,可以通过本领域内已知的任何装置来实现具体实施例的功能。可以使用分布式的、联网的系统、组件和/或电路。数据的通信或者传送可以是有线的、无线的或者通过任何其它手段的。
还可以理解,也可以以更分离或者集成的方式来实现在附图内所述的元件中的一个或多个,甚至在某些情况中将其去除或者使其不可操作,这根据特定应用是有益的。实现可以被存储在机器可读介质内的程序或者代码以允许计算机执行如上所述的任何一种方法也在所述精神和范围内。
在此的说明书和所附的权利要求内使用的“一个”和“所述”包括多个引用,除非上下文另外清楚地指示。而且,在此的说明书和所附的权利要求内使用的“在...内”的含义包括“在...内”和“在...上”,除非上下文清除地另外指示。
因此,虽然已经在此说明了具体实施例,但是多种修改、各种改变和替代意欲在上述的公开内,并且可以理解,在一些情况下,不脱离所阐述的范围和精神,将实现具体实施例的一些特征,而没有其它特征的对应实现。因此,可以进行许多修改以使特定的情况或者材料适合所述实质范围和精神。
Claims (20)
1.一种用于选择视频编码处理的编码工具的方法,所述方法包括:
接收用于所述视频编码处理的图像数据;
分析所述图像数据以确定人类视觉容差调整信息,根据相对于在所述视频编码处理中可能发生的视觉伪影的人类视觉容差度确定所述人类视觉容差信息;
根据所述人类视觉容差调整信息来选择编码工具。
2.根据权利要求1所述的方法,还包括:根据所述人类视觉容差调整信息来计算视频编码处理的成本,其中,选择所述编码工具基于所计算的成本。
3.根据权利要求2所述的方法,还包括:根据所述人类视觉容差信息调整用于确定所述成本的成本估计中的参数。
4.根据权利要求3所述的方法,其中,根据视觉阈值调整所述参数。
5.根据权利要求2所述的方法,其中,所调整的参数包括下述方程式中的λ(QP)参数:
Coding_cost=Distortion(QP)+λ(QP)Rate(QP)
其中,QP代表量化位阶,λ是依赖于所述量化位阶的参数,Distortion是所述编码处理的失真,并且Rate是所述编码处理的比特率。
6.根据权利要求2所述的方法,其中,所调整的参数是下述方程式中的bias(QP)参数:
Coding_cost(other_mode)=SAD/SATD(other_mode)+Bias(QP)
其中,SAD代表绝对差的和,SATD代表绝对变换差的和。
7.根据权利要求1所述的方法,其中,分析所述图像数据包括确定在图像数据内是否存在视觉敏感区域。
8.根据权利要求7所述的方法,其中,分析所述图像数据包括执行分析以确定是否存在条带化伪影可疑区域、拖尾伪影可疑区域、图像边界区域和/或块化可疑区域。
9.根据权利要求1所述的方法,还包括:检测可能在所述图像数据的编码处理中发生的视觉伪影,其中,根据所检测的视觉伪影来确定所述人类视觉容差信息。
10.根据权利要求9所述的方法,还包括:根据失真限度来确定不同的人类视觉容差调整信息。
11.一种配置为选择视频编码处理的编码工具的设备,所述设备包括:
一个或更多处理器;以及
在一个或更多有形介质中编码的逻辑,用于由所述一个或更多处理器执行,并且所述逻辑被执行时用于:
接收视频编码处理的图像数据;
分析所述图像数据以确定人类视觉容差调整信息,根据相对于在所述视频编码处理中可能发生的视觉伪影的人类视觉容差度确定所述人类视觉容差信息;
根据所述人类视觉容差调整信息来选择编码工具。
12.根据权利要求11所述的设备,其中,所述逻辑被执行时还用于根据人类视觉容差调整信息来计算视频编码处理的成本,其中,基于所计算的成本选择所述编码工具。
13.根据权利要求12所述的设备,其中,所述逻辑执行时还用于根据所述人类视觉容差信息调整在用于确定所述成本的成本估计中的参数。
14.根据权利要求13所述的设备,其中,根据视觉阈值调整所述参数。
15.根据权利要求12所述的设备,其中,所调整的参数包括在下述方程式中的λ(QP)参数:
Coding_cost=Distortion(QP)+λ(QP)Rate(QP)
其中,QP代表量化位阶,λ是依赖于所述量化位阶的参数,Distortion是所述编码处理的失真,并且Rate是所述编码处理的比特率。
16.根据权利要求12所述的设备,其中,所调整的参数是在下述方程式内的bias(QP)参数:
Coding_cost(other_mode)=SAD/SA TD(other_mode)+Bias(QP)
其中,SAD代表绝对差的和,SATD代表绝对变换差的和。
17.根据权利要求11所述的设备,其中,用于分析所述图像数据的逻辑包括当执行时用于确定在图像数据内是否存在视觉敏感的区域的逻辑。
18.根据权利要求17所述的设备,其中,用于分析所述图像数据的逻辑包括执行时还用于执行分析以确定是否存在条带化伪影可疑区域、拖尾伪影可疑区域、图像边界区域和/或块化可疑区域的逻辑。
19.根据权利要求11所述的设备,还包括:所述逻辑执行时还用于检测可能在图像数据的编码处理中发生的视觉伪影,其中,根据所检测的视觉伪影来确定所述人类视觉容差信息。
20.根据权利要求19所述的设备,还包括:根据失真限度来确定不同的人类视觉容差调整信息。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/855,888 US20090074058A1 (en) | 2007-09-14 | 2007-09-14 | Coding tool selection in video coding based on human visual tolerance |
US11/855,888 | 2007-09-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101534448A true CN101534448A (zh) | 2009-09-16 |
Family
ID=40454418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810149681A Pending CN101534448A (zh) | 2007-09-14 | 2008-09-16 | 视频编码中基于人类视觉容差的编码工具选择 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20090074058A1 (zh) |
EP (1) | EP2061254A3 (zh) |
JP (1) | JP5553979B2 (zh) |
KR (1) | KR20090028441A (zh) |
CN (1) | CN101534448A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013174132A1 (zh) * | 2012-05-22 | 2013-11-28 | 华为技术有限公司 | 评估视频质量的方法和装置 |
CN103841417A (zh) * | 2012-11-23 | 2014-06-04 | 联发科技股份有限公司 | 数据处理装置及数据处理方法 |
CN111901594A (zh) * | 2020-06-29 | 2020-11-06 | 北京大学 | 面向视觉分析任务的图像编码方法、电子设备及介质 |
US11019343B2 (en) | 2016-07-28 | 2021-05-25 | Huawei Technologies Co., Ltd. | Data block encoding method and apparatus |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9223387B2 (en) * | 2011-06-02 | 2015-12-29 | Intel Corporation | Rescheduling active display tasks to minimize overlapping with active platform tasks |
US9420289B2 (en) * | 2012-07-09 | 2016-08-16 | Qualcomm Incorporated | Most probable mode order extension for difference domain intra prediction |
CN105409215B (zh) * | 2013-01-11 | 2018-10-09 | 华为技术有限公司 | 深度预测模式选择方法及装置 |
US9641853B2 (en) | 2013-04-15 | 2017-05-02 | Futurewei Technologies, Inc. | Method and apparatus of depth prediction mode selection |
US20170272778A9 (en) * | 2014-01-06 | 2017-09-21 | Samsung Electronics Co., Ltd. | Image encoding and decoding methods for preserving film grain noise, and image encoding and decoding apparatuses for preserving film grain noise |
US11272192B2 (en) * | 2019-03-04 | 2022-03-08 | Comcast Cable Communications, Llc | Scene classification and learning for video compression |
US11363306B2 (en) * | 2019-04-05 | 2022-06-14 | Comcast Cable Communications, Llc | Methods, systems, and apparatuses for processing video by adaptive rate distortion optimization |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6175650B1 (en) * | 1998-01-26 | 2001-01-16 | Xerox Corporation | Adaptive quantization compatible with the JPEG baseline sequential mode |
US6782135B1 (en) * | 2000-02-18 | 2004-08-24 | Conexant Systems, Inc. | Apparatus and methods for adaptive digital video quantization |
US7173971B2 (en) * | 2002-11-20 | 2007-02-06 | Ub Video Inc. | Trailing artifact avoidance system and method |
US20040120398A1 (en) * | 2002-12-19 | 2004-06-24 | Ximin Zhang | System and method for adaptive field and frame video encoding using rate-distortion characteristics |
US7194035B2 (en) * | 2003-01-08 | 2007-03-20 | Apple Computer, Inc. | Method and apparatus for improved coding mode selection |
US7280597B2 (en) * | 2003-06-24 | 2007-10-09 | Mitsubishi Electric Research Laboratories, Inc. | System and method for determining coding modes, DCT types and quantizers for video coding |
JP4130617B2 (ja) * | 2003-09-04 | 2008-08-06 | 株式会社東芝 | 動画像符号化方法および動画像符号化装置 |
US8005139B2 (en) * | 2004-06-27 | 2011-08-23 | Apple Inc. | Encoding with visual masking |
WO2006070614A1 (ja) * | 2004-12-28 | 2006-07-06 | Nec Corporation | 画像符号化装置、画像符号化方法及びそのプログラム |
EP1677252A1 (en) | 2005-01-03 | 2006-07-05 | Thomson Licensing | Method and apparatus for calculating a lambda value controlling the coding mode in a video encoder. |
US20060222074A1 (en) * | 2005-04-01 | 2006-10-05 | Bo Zhang | Method and system for motion estimation in a video encoder |
US20070030894A1 (en) * | 2005-08-03 | 2007-02-08 | Nokia Corporation | Method, device, and module for improved encoding mode control in video encoding |
US7995649B2 (en) * | 2006-04-07 | 2011-08-09 | Microsoft Corporation | Quantization adjustment based on texture level |
US20070237237A1 (en) * | 2006-04-07 | 2007-10-11 | Microsoft Corporation | Gradient slope detection for video compression |
US20070274396A1 (en) * | 2006-05-26 | 2007-11-29 | Ximin Zhang | Complexity adaptive skip mode estimation for video encoding |
US8036270B2 (en) * | 2006-07-27 | 2011-10-11 | Sharp Laboratories Of America, Inc. | Intra-frame flicker reduction in video coding |
US8737485B2 (en) * | 2007-01-31 | 2014-05-27 | Sony Corporation | Video coding mode selection system |
US8259793B2 (en) * | 2007-03-19 | 2012-09-04 | Sony Corporation | System and method of fast MPEG-4/AVC quantization |
-
2007
- 2007-09-14 US US11/855,888 patent/US20090074058A1/en not_active Abandoned
-
2008
- 2008-09-11 EP EP08253000A patent/EP2061254A3/en not_active Withdrawn
- 2008-09-11 KR KR1020080089665A patent/KR20090028441A/ko not_active Application Discontinuation
- 2008-09-16 CN CN200810149681A patent/CN101534448A/zh active Pending
- 2008-09-16 JP JP2008237152A patent/JP5553979B2/ja not_active Expired - Fee Related
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013174132A1 (zh) * | 2012-05-22 | 2013-11-28 | 华为技术有限公司 | 评估视频质量的方法和装置 |
CN103428523A (zh) * | 2012-05-22 | 2013-12-04 | 华为技术有限公司 | 评估视频质量的方法和装置 |
CN103428523B (zh) * | 2012-05-22 | 2015-07-08 | 华为技术有限公司 | 评估视频质量的方法和装置 |
US10045051B2 (en) | 2012-05-22 | 2018-08-07 | Huawei Technologies Co., Ltd. | Method and apparatus for assessing video quality |
CN103841417A (zh) * | 2012-11-23 | 2014-06-04 | 联发科技股份有限公司 | 数据处理装置及数据处理方法 |
US9535489B2 (en) | 2012-11-23 | 2017-01-03 | Mediatek Inc. | Data processing system for transmitting compressed multimedia data over camera interface |
US9568985B2 (en) | 2012-11-23 | 2017-02-14 | Mediatek Inc. | Data processing apparatus with adaptive compression algorithm selection based on visibility of compression artifacts for data communication over camera interface and related data processing method |
CN103841415B (zh) * | 2012-11-23 | 2017-08-01 | 联发科技股份有限公司 | 数据处理装置及数据处理方法 |
US10200603B2 (en) | 2012-11-23 | 2019-02-05 | Mediatek Inc. | Data processing system for transmitting compressed multimedia data over camera interface |
US11019343B2 (en) | 2016-07-28 | 2021-05-25 | Huawei Technologies Co., Ltd. | Data block encoding method and apparatus |
CN111901594A (zh) * | 2020-06-29 | 2020-11-06 | 北京大学 | 面向视觉分析任务的图像编码方法、电子设备及介质 |
CN111901594B (zh) * | 2020-06-29 | 2021-07-20 | 北京大学 | 面向视觉分析任务的图像编码方法、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
US20090074058A1 (en) | 2009-03-19 |
JP2009071837A (ja) | 2009-04-02 |
KR20090028441A (ko) | 2009-03-18 |
EP2061254A2 (en) | 2009-05-20 |
JP5553979B2 (ja) | 2014-07-23 |
EP2061254A3 (en) | 2011-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101534448A (zh) | 视频编码中基于人类视觉容差的编码工具选择 | |
EP1958454B1 (en) | Non-intrusive video quality measurement | |
US20140321552A1 (en) | Optimization of Deblocking Filter Parameters | |
US9313526B2 (en) | Data compression for video | |
CN101715146B (zh) | 压缩视频质量评价方法及评价系统 | |
EP2553935B1 (en) | Video quality measurement | |
KR101558636B1 (ko) | 비디오 품질 측정 방법 | |
AU2011381970B2 (en) | Video quality measurement | |
US20130293725A1 (en) | No-Reference Video/Image Quality Measurement with Compressed Domain Features | |
KR101416265B1 (ko) | 하이브리드 방식 기반 영상의 화질을 평가하기 위한 장치 및 그 방법 | |
JP2006519565A (ja) | ビデオ符号化 | |
US9838690B1 (en) | Selective prediction signal filtering | |
CN101416512A (zh) | 基于纹理水平的量化调整 | |
US20100303364A1 (en) | Image quality evaluation method, image quality evaluation system and image quality evaluation program | |
US10440384B2 (en) | Encoding method and equipment for implementing the method | |
JP2005527159A (ja) | 圧縮された映像データの客観的な品質を見積もる方法およびシステム | |
KR20100116216A (ko) | 비디오 품질의 객관적 평가 방법, 장치 및 프로그램 | |
US8644388B2 (en) | Method and device for approximating a DC coefficient of a block of pixels of a frame | |
US20120207212A1 (en) | Visually masked metric for pixel block similarity | |
US20110135211A1 (en) | Method for modifying a reference block of a reference image, method for encoding or decoding a block of an image by help of a reference block and device therefore and storage medium or signal carrying a block encoded by help of a modified reference block | |
KR20190062284A (ko) | 인지 특성에 기반한 영상 처리 방법 및 장치 | |
MX2014007041A (es) | Metodo y aparato para medicion de calidad de video. | |
Yu et al. | A perceptual bit allocation scheme for H. 264 | |
Lee et al. | A rate perceptual-distortion optimized video coding HEVC | |
JP2005217746A (ja) | 動き予測情報検出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20090916 |