CN112771570A - 视频保真度度量 - Google Patents
视频保真度度量 Download PDFInfo
- Publication number
- CN112771570A CN112771570A CN201880098156.4A CN201880098156A CN112771570A CN 112771570 A CN112771570 A CN 112771570A CN 201880098156 A CN201880098156 A CN 201880098156A CN 112771570 A CN112771570 A CN 112771570A
- Authority
- CN
- China
- Prior art keywords
- picture
- pixel
- determining
- distorted
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002776 aggregation Effects 0.000 claims abstract description 94
- 238000004220 aggregation Methods 0.000 claims abstract description 94
- 238000000034 method Methods 0.000 claims description 177
- 238000010586 diagram Methods 0.000 claims description 50
- 230000015654 memory Effects 0.000 claims description 45
- 230000000007 visual effect Effects 0.000 claims description 40
- 238000003860 storage Methods 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 28
- 230000003287 optical effect Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 description 176
- 238000004891 communication Methods 0.000 description 121
- 230000006870 function Effects 0.000 description 68
- 241000282414 Homo sapiens Species 0.000 description 27
- 230000005540 biological transmission Effects 0.000 description 22
- 238000004422 calculation algorithm Methods 0.000 description 18
- 238000012549 training Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- 230000010354 integration Effects 0.000 description 16
- 238000001303 quality assessment method Methods 0.000 description 15
- 230000008901 benefit Effects 0.000 description 13
- 230000015556 catabolic process Effects 0.000 description 12
- 238000006731 degradation reaction Methods 0.000 description 12
- 230000002123 temporal effect Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 230000001413 cellular effect Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000005259 measurement Methods 0.000 description 10
- 239000003086 colorant Substances 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000003491 array Methods 0.000 description 6
- 238000007430 reference method Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013479 data entry Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000013442 quality metrics Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 102100032723 Structural maintenance of chromosomes protein 3 Human genes 0.000 description 1
- 101710117918 Structural maintenance of chromosomes protein 3 Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000004271 bone marrow stromal cell Anatomy 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 1
- RGNPBRKPHBKNKX-UHFFFAOYSA-N hexaflumuron Chemical compound C1=C(Cl)C(OC(F)(F)C(F)F)=C(Cl)C=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F RGNPBRKPHBKNKX-UHFFFAOYSA-N 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000008672 reprogramming Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000004256 retinal image Effects 0.000 description 1
- 238000009738 saturating Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 230000003245 working effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
- H04N17/004—Diagnosis, testing or measuring for television systems or their details for digital television systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/14—Coding unit complexity, e.g. amount of activity or edge presence estimation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/189—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
- H04N19/19—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/189—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
- H04N19/192—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive
- H04N19/194—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive involving only two passes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Abstract
通过确定失真差异图片(30)和原始差异图片(40)作为失真图片(10)中的像素(14、24)和原始图片(20)中的对应像素(24)之间以及先前失真图片(11)中的像素和先前原始图片(21)中的对应像素之间的逐像素差异来确定视频序列(1)的视频保真度度量。确定表示失真图片(10)和原始图片(20)之间以及失真差异图片(30)和原始差异图片(40)之间的像素值失真的第一图和第二图。确定第三图和第六图分别作为失真图片(10)和原始图片(20)中的像素值的局部可变性以及失真差异图片(30)和原始差异图片(40)中的像素值的局部可变性的各自的聚合。然后基于第一图至第三图和第六图来确定视频保真度度量。
Description
技术领域
本发明总体上涉及用于确定视频保真度度量的方法、设备、编码器、计算机程序和载体。
背景技术
任何视频处理技术的成功部署都需要某种形式的质量分析,以验证处理结果。这可以用于预处理阶段,例如,颗粒噪声去除、颜色空间转换和视频去隔行;视频压缩,例如,环内率失真优化、简档创建和调整;和/或作为验证和/或比较某些视频处理器结果的外部程序,例如,编码器比较。
当前最好的视频质量分析是使用主观得分作为评估标准。这些得分由人类观众分配,并且映射到平均意见得分(MOS)或差异平均意见得分(DMOS)范围。在考虑视频统计和人类视觉系统(HVS)属性并由人类(即,为其创建视频的目标接收者)判断视频质量的意义上,它们是最佳的。
获得可靠的主观得分需要进行心理物理实验,并满足遵循实验方案和数据分析阶段的观看条件要求。对许多视频内容和/或许多观众执行这样的主观实验通常是不切实际的,而且成本很高。由于这些原因,并且为了能够将视频质量分析包括在连续的集成过程中,优选自动的、数据驱动的方法。这些方法属于以下三个类别之一:
·全参考法,其中,原始视频和失真视频均可用于质量评估算法;
·简化参考法,其中,从原始视频中提取一些信息,并经由辅助通道发送该信息,以便与失真视频一起用于质量评估;以及
·非参考法,也称为单端法,其中,仅失真视频可用于质量评估。
在上述三种类型中,全参考法是最可靠的,因为所有信息都在质量评估中可用,而非参考法的可靠性最低,但是除了失真视频之外,不需要任何附加信息。
全参考法通常使用强度通道或所有三个颜色通道来比较原始视频和失真视频,并以定量的方式判断失真。该类别中最常见的方法取决于原始视频和失真视频之间的差异的L2范数,并且包括均方误差(MSE)和峰值信噪比(PSNR)。其他方法基于更抽象的属性(例如,视频内用于结构相似性(SSIM)及其衍生形式的图片结构)执行质量评估。这些视频保真度指标也可以通过了解人类倾向于注视的图片中的位置来进行改进[1]。
当前大多数视频质量评估方法都面临执行速度(即,度量的运行时间)和复杂性(即,建模能力)之间的权衡。最快的视频保真度指标不使用任何HVS属性,从而导致与主观质量判断的相关性较差。然而,模型越复杂,评估视频质量所花费的时间就越多。这使其不适用于受时间限制的环境,尤其是在需要实时操作的情况下。
因此,需要一种例如在视频处理期间可用于评估视频序列质量的视频保真度度量。
发明内容
总体目标是提供一种与人类视觉系统具有良好相关性并且执行速度仍然较低的视频保真度度量。
该目的和其它目的由本文公开的实施例来满足。
实施例的一个方面涉及一种确定视频序列的视频保真度度量的方法。该方法包括:针对视频序列中的至少一个失真图片,确定失真差异图片作为视频序列中的失真图片的至少一部分和失真图片之前的先前失真图片的至少对应的一部分之间的逐像素差异。该方法还包括:确定原始差异图片作为原始图片的至少对应的一部分和原始图片之前的先前原始图片的至少对应的一部分之间的逐像素差异。该方法还包括:确定第一图,该第一图针对失真图片的至少一部分中的每个像素表示该像素和原始图片中的对应像素之间的像素值失真。该方法还包括:确定第二图,该第二图针对失真差异图片中的每个像素表示该像素和原始差异图片中的对应像素之间的像素值失真。该方法还包括:确定第三图作为第四图和第五图的聚合,第四图针对失真图片的至少一部分中的每个像素表示像素值的局部可变性,并且第五图针对原始图片中的每个对应像素表示像素值的局部可变性。该方法还包括:确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片中的每个像素表示像素值的局部可变性,并且第八图针对原始差异图片中的每个对应像素表示像素值的局部可变性。该方法还包括:基于第一图、第二图、第三图和第六图确定视频保真度度量。
实施例的另一方面涉及一种对视频序列进行编码的方法。该方法包括:根据多种编码模式,对视频序列中的原始图片的至少一部分进行编码,以获得多个编码后的候选图片部分,并对多个编码后的候选图片部分进行解码,以获得多个解码后的候选图片部分。该方法还包括:根据上述方面,针对多个解码后的候选图片部分中的每一部分,确定各自的视频保真度度量。该方法还包括:在多个编码后的候选图片部分中,至少部分地基于各自的视频保真度度量,选择编码后的候选图片部分作为原始图片的至少一部分的编码表示。
实施例的另一方面涉及一种选择用于编码器的编码器简档的方法。该方法包括:使用多个编码器简档对视频序列中的至少一个原始图片进行编码,以获得多个编码图片,并对该多个编码图片进行解码,以获得多个解码图片。该方法还包括:根据上述方面,针对多个解码图片中的每一个,确定各自的视频保真度度量。该方法还包括:至少部分地基于各自的视频保真度度量,在多个编码器简档中选择用于编码器的编码器简档。
实施例的一个方面涉及一种用于确定视频序列的视频保真度度量的设备。该设备被配置为:针对视频序列中的至少一个失真图片,确定失真差异图片作为视频序列中的失真图片的至少一部分和失真图片之前的先前失真图片的至少对应的一部分之间的逐像素差异。该设备还被配置为:确定原始差异图片作为原始图片的至少对应的一部分和原始图片之前的先前原始图片的至少对应的一部分之间的逐像素差异。该设备还被配置为:确定第一图,该第一图针对失真图片的至少一部分中的每个像素表示该像素和原始图片中的对应像素之间的像素值失真。该设备还被配置为:确定第二图,该第二图针对失真差异图片中的每个像素表示该像素和原始差异图片中的对应像素之间的像素值失真。该设备还被配置为:确定第三图作为第四图和第五图的聚合,第四图针对失真图片的至少一部分中的每个像素表示像素值的局部可变性,并且第五图针对原始图片中的每个对应像素表示像素值的局部可变性。该设备还被配置为:确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片中的每个像素表示像素值的局部可变性,并且第八图针对原始差异图片中的每个对应像素表示像素值的局部可变性。该设备还被配置为:基于第一图、第二图、第三图和第六图确定视频保真度度量。
实施例的另一方面涉及一种编码器,该编码器包括根据上述用于确定视频序列的视频保真度度量的设备。该编码器被配置为:根据多种编码模式,对视频序列中的原始图片的至少一部分进行编码,以获得多个编码后的候选图片部分,并对多个编码后的候选图片进行解码,以获得多个解码后的候选图片部分。编码器还被配置为:在多个编码后的候选图片部分中,至少部分地基于由设备针对多个解码后的候选图片部分中的每一部分确定的各自的视频保真度度量,选择编码后的候选图片部分作为原始图片的至少一部分的编码表示。
实施例的另一方面涉及一种用于选择编码器的编码器简档的设备。该设备包括根据上述用于确定视频序列的视频保真度度量的设备。用于选择编码器简档的设备被配置为:使用多个编码器简档对视频序列中的至少一个原始图片进行编码,以获得多个编码图片,并对该多个编码图片进行解码,以获得多个解码图片。该设备还被配置为:在多个编码器简档中,至少部分地基于由用于确定视频保真度度量的设备确定的各自的视频保真度度量来选择用于编码器的编码器简档。
实施例的相关方面定义了一种网络设备,该网络设备包括根据上述的设备和/或根据上述的编码器。
实施例的另一方面涉及一种包括指令的计算机程序,该指令在由至少一个处理器执行时,使至少一个处理器针对视频序列中的至少一个失真图片确定失真差异图片作为视频序列中的失真图片的至少一部分和先前失真图片的至少对应的一部分之间的逐像素差异。还使至少一个处理器:针对视频序列中的至少一个失真图片,确定原始差异图片作为原始图片的至少对应的一部分和先前原始图片的至少对应的一部分之间的逐像素差异。还使至少一个处理器:针对视频序列中的至少一个失真图片确定第一图,该第一图针对失真图片的至少一部分中的每个像素表示该像素和原始图片中的对应像素之间的像素值失真。附加地使至少一个处理器:针对视频序列中的至少一个失真图片确定第二图,该第二图针对失真差异图片中的每个像素表示该像素和原始差异图片中的对应像素之间的像素值失真。还使至少一个处理器:针对视频序列中的至少一个失真图片,确定第三图作为第四图和第五图的聚合,第四图针对失真图片的至少一部分中的每个像素表示像素值的局部可变性,并且第五图针对原始图片中的每个对应像素表示像素值的局部可变性。还使至少一个处理器:针对视频序列中的至少一个失真图片,确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片中的每个像素表示像素值的局部可变性,并且第八图针对原始差异图片中的每个对应像素表示像素值的局部可变性。还使至少一个处理器:针对视频序列中的至少一个失真图片,基于第一图、第二图、第三图和第六图确定视频保真度度量。
实施例的相关方面定义了一种包括如上所述的计算机程序的载体。载体是电子信号、光信号、电磁信号、磁信号、电信号、无线电信号、微波信号或计算机可读存储介质之一。
视频保真度度量与使用主观得分的线性和等级相关性评估的人类视觉系统具有良好的相关性。就执行速度而言,它是快速的。视频保真度度量在统计上优于许多现有技术指标,并且与此类现有指标相比,MOS/DMOS得分的平均绝对误差和均方根误差更小。
附图说明
通过参考以下结合附图的描述,可以最佳地理解实施例及其其他的目的和优点,在附图中:
图1示意性地示出了视频序列中原始图片的处理导致图片失真;
图2是示出了根据实施例的确定视频序列的视频保真度度量的方法的流程图;
图3是示出了根据实施例的图2中的方法的附加的、可选的步骤的流程图;
图4是示出了图2中确定视频保真度度量的实施例的流程图;
图5是示出了根据实施例的图2中的方法的附加的、可选的步骤的流程图;
图6是示出了根据实施例的图2或图5中的方法的附加的、可选的步骤的流程图;
图7是示出了根据实施例的对视频序列进行编码的方法的流程图;
图8是示出了根据实施例的图7中的方法的附加的、可选的步骤的流程图;
图9是选择用于对视频序列进行编码的编码器简档的方法的流程图;
图10示意性地示出了确定视频序列的视频保真度度量的实施例;
图11示意性地示出了针对图10所示的实施例确定图片质量等级的实施例;
图12示意性地示出了针对图11所示的实施例确定平均误差的实施例;
图13是根据实施例的用于确定视频序列的视频保真度度量的设备的框图;
图14是根据另一实施例的用于确定视频序列的视频保真度度量的设备的框图;
图15是根据另一实施例的用于确定视频序列的视频保真度度量的设备的框图;
图16示意性地示出了实施例的基于计算机程序的实现;
图17是根据另一实施例的用于确定视频序列的视频保真度度量的设备的框图;
图18是根据实施例的编码器的框图;
图19是根据实施例的用于选择用于对视频序列进行编码的编码器简档的设备的框图;
图20示意性地示出了网络设备之间的分布式实现;
图21是根据实施例的具有一个或多个基于云的网络设备的无线通信系统的示例的示意图;
图22是示出了根据一些实施例的无线网络的示例的示意图;
图23是示出了根据一些实施例的无线设备的实施例的示例的示意图;
图24是示出了虚拟化环境的示例的示意性框图,其中可以虚拟化由一些实施例实现的功能;
图25是示出了根据一些实施例的经由中间网络与主机计算机连接的电信网络的示例的示意图;
图26是示出了根据一些实施例的通过部分无线连接经由基站与用户设备通信的主机计算机的示例的示意图;
图27是示出了根据实施例的在通信系统中实现的方法的流程图;
图28是示出了根据实施例的在通信系统中实现的方法的流程图;
图29是示出了根据实施例的在通信系统中实现的方法的流程图;
图30是示出了根据实施例的在通信系统中实现的方法的流程图;
图31是比较针对各种现有技术的视频保真度度量的四个视频质量评估(VQA)数据库(LIVE数据库[2,3]、MCL-V数据库[4]、VMAF数据库[5]和视频质量专家组(VQEG)数据库[6])之间的平均皮尔森(Pearson)线性相关系数(PLCC);峰值信噪比(PSNR)、结构相似度(SSIM)、多尺度SSIM(MS-SSIM)、信息内容加权PSNR(IW-PSNR)、PSNR、人眼视觉系统(PSNR-HVS)、具有对比遮罩的PSNR-HVS(PSNR-HVS-M)、视觉信息保真度(VIF)和视频多方法评估融合(VMAF)以及根据实施例的视频保真度度量(VIVIQA)的图;以及
图32是比较图31中针对各种现有技术的视频保真度度量的四个VQA数据库之间的PLCC的标准偏差和根据实施例的视频保真度度量的图。
具体实施方式
贯穿附图,相同的附图标记用于类似或对应的元素。
本发明总体上涉及确定视频保真度度量,并且具体涉及确定适合于视频质量分析和评估的这种视频保真度度量。
实施例的视频保真度度量是在访问原始图片(有时称为参考图片)和失真图片(也称为劣化图片或处理后的图片)两者的全参考法中确定的。图1示意性地示出了处理输入视频序列或流2中的原始图片20、21(本文中也称为原始图像或原始帧)导致输出视频序列或流1中的失真图片10、11(也称为失真图像或失真帧)的一般概念。在这样的图片或视频处理中输入的原始图片20、21可以是视频序列2的图片,例如由摄像机捕捉的图片或计算机生成的图片。如图1所示的图片或视频处理可以是应用于原始图片20、21并且由于原始图片20、21中的像素24的像素值变化可能导致原始图片20、21的质量失真或劣化的任何处理。这样的图片或视频处理的非限制性示例包括视频编码(也称为视频压缩)以及在这样的视频编码之前的各种预处理阶段。例如,实施例的视频保真度度量可以与环内率失真优化(RDO)、编码器简档创建和调整等结合使用,即,通常控制或优化视频编码。视频保真度度量还可以或备选地用于例如在编码器竞争或比较中验证和/或比较不同视频编码器或编码器简档的结果。结合预处理阶段,实施例的视频保真度度量可以例如用于控制或优化和/或验证或比较噪声去除处理、颜色空间转换、去隔行和其他这样的视频预处理阶段。
如本文中用于原始图片20、21的“原始”指示原始图片20、21将被输入到引起失真的图片或视频处理中。然而,不应将“原始”解释为仅限于指代从摄像机或基于计算机的视频生成源直接输出的图片。实际上,原始图片20、21可能已经进行了上游图片或视频处理操作,包括可能导致像素值失真并由此导致质量劣化的这样的图片或视频处理操作。因此,应与当前图片或视频处理操作相关地解释“原始”,而与任何先前的或上游的这种视频处理操作无关。
术语“视频保真度”和“视频质量”有时在视频质量评估领域被互换使用。然而,视频保真度与区分两个视频序列1、2的能力有关。另一方面,视频质量与一个视频序列相对于另一个视频序列的优先级更相关。因此,视频保真度和视频保真度度量与全参考法有关,全参考法中,原始图片20、21和失真图片10、11均可用于评估,而视频质量和视频质量度量与非参考法更相关,非参考法中,仅失真图片10、11在评估中可用。
各种颜色空间和格式均可用,并用于表示图片10、11、20、21和视频序列1、2中的像素14、24的颜色。这样的颜色空间或格式的非限制性但说明性的示例包括红色(R)、绿色(G)、蓝色(B)(即,RGB颜色);亮度(Y’)和彩度(Cb、Cr)颜色(即,Y’CbCr颜色);明度(Y)和色度(X、Z)颜色(即,XYZ颜色);亮度或强度(I)和彩度(Ct、Cp)颜色(即,ICtCp颜色)。在这种情况下,本文使用的像素值可以是任何颜色分量值,例如,R、G、B、Y’、Cb、Cr、X、Y、Z、I、Ct或Cp值。在特定实施例中,像素值是亮度值(Y')或彩度值(Cb或Cr)。
视频序列1、2中的图片10、11、20、21的像素14、24和像素值14、24在本领域中也被称为样本和样本值。
图2是示出了确定视频序列1的视频保真度度量的方法的流程图,也参见图1。该方法包括如图2所示的各个步骤S1至S7。针对视频序列1中的至少一个失真图片10执行这些步骤S1至S7。该方法包括:在步骤S1中,确定失真差异图片30作为视频序列1中的失真图片10的至少一部分12和失真图片10之前的先前失真图片11的至少对应的一部分13之间的逐像素差异。该方法还包括:在步骤S2中,确定原始差异图片40作为原始图片20的至少对应的一部分22和原始图片20之前的先前原始图片21的至少对应的一部分23之间的逐像素差异。该方法还包括:在步骤S3中,确定第一图,该第一图针对失真图片10的至少一部分12中的每个像素14表示该像素14和原始图片20中的对应像素24之间的像素值失真。该方法还包括:在步骤S4中,确定第二图,该第二图针对失真差异图片30中的每个像素34表示该像素34和原始差异图片40中的对应像素44之间的像素值失真。该方法还包括:在步骤S5中,确定第三图作为第四图和第五图的聚合,第四图针对失真图片10的至少一部分12中的每个像素14表示像素值的局部可变性,并且第五图针对原始图片20中的每个对应像素24表示像素值的局部可变性。步骤S6相应地包括:确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片30中的每个像素34表示像素值的局部可变性,并且第八图针对原始差异图片40中的每个对应像素44表示像素值的局部可变性。该方法还包括:在步骤S7中,基于第一图、第二图、第三图和第六图确定视频保真度度量。
图2的步骤S1和S2、步骤S3和S4以及步骤S5和S6可以以任何顺序(例如,步骤S1先于步骤S2,或步骤S2先于步骤S1)串行或至少部分地并行执行。相应地,步骤S3+S4和步骤S5+S6可以以任何顺序串行或至少部分地并行执行。
本文中使用的对应像素24、34、44指示在先前失真图片11、原始图片20、先前原始图片21、失真差异图片30和/或原始差异图片40中的像素24、34、44,该像素在先前失真图片11、原始图片20、先前原始图片21、失真差异图片30和/或原始差异图片40中具有与失真图片10中的像素14相同的坐标或位置。例如,在失真图片10中具有坐标(i,j)的像素14具有在原始图片20中的坐标(i,j)处的对应像素24和在失真差异图片30或原始差异图片40中的坐标(i,j)处的对应像素34、44。
实施例的视频保真度度量基于反映空间域中(即,在引起失真的图片或视频处理之前的原始图片20和在引起失真的图片或视频处理之后的原始图片20的失真版本(即,图1中的失真图片10)之间)的像素值失真的空间分量。因此,(输出)视频序列1中的失真图片10是(输入)视频序列2中的原始图片20的失真或劣化版本。相应地,(输出)视频序列1中的先前失真图片11是(输入)视频序列2中的先前原始图片21的失真或劣化版本。因此,失真图片10具有与原始图片20相同的图片或帧号,并且先前失真图片11具有与先前原始图片21相同的图片或帧号。
视频保真度度量的空间分量由在步骤S3中确定的第一图和在步骤S5中确定的第三图表示。
实施例的视频保真度度量还基于反映时域中(即,在原始差异图片30和该原始差异图片30的失真版本(即,失真差异图片40)之间)的像素值失真的时间分量。基于在视频序列1中的失真图片10的至少一部分12和失真图片10之前的失真图片(即,先前失真图片11)的至少对应的一部分13之间的逐像素差异,获得失真差异图片30。相应地,基于视频序列2中的原始图片20的至少对应的一部分22和原始图片20之前的原始图片(即,先前原始图片21)的至少对应的一部分23之间的逐像素差异,获得原始差异图片40。
本文中使用的“先前”涉及在视频序列1、2中的失真图片10、11和原始图片20、21的顺序。在实施例中,本文中使用“先前”涉及输出或显示顺序。例如,可以在视频编码器中以所谓的编码顺序对视频序列2的原始图片20、21进行编码。然后,可以在视频解码器中以与编码顺序相同的所谓的解码顺序对编码的原始图片的比特流进行解码,以获得失真图片10、11。然后可以将失真图片10、11显示在屏幕上,或者出于显示以外的其他目的,以其他方式输出。然后,以所谓的显示或输出顺序显示或输出这些失真图片10、11。该显示或输出顺序通常与原始图片20、21被输入到视频编码器的顺序(即,视频序列2中的顺序)相同。然而,显示或输出顺序可以与编码/解码顺序不同。显示或输出顺序通常由原始和失真图片20、21、10、11的图片或帧号定义。这样的图片或帧号的示例是图片顺序计数(POC)。
因此,在视频序列1、2中,按照显示顺序,先前失真/原始图片11、21优选地在失真/原始图片10、20之前。例如,如果失真图片10并且因此原始图片20具有图片或帧号t,则先前失真图片11并且因此先前原始图片21具有图片或帧号t-k,其中,t、k是整数。在特定实施例中,k=1,即,在视频序列1中,先前失真图片11直接或紧接在失真图片10之前,并且在视频序列2中,先前原始图片21直接或紧接在原始图片20之前。在其他实施例中,k是大于1的正整数,即,在视频序列1、2中,先前失真/原始图片11、21在失真/原始图片之后。
视频保真度度量的时间分量由在步骤S4中确定的第二图和在步骤S6中确定的第六图表示。
在步骤S3和步骤S4中确定的第一图和第二图均优选地表示像素值失真。这些图之间的区别在于,第一图与空间域有关,而第二图与时域有关。相应地,在步骤S5和步骤S6中确定的第三图和第六图均优选地与视觉注意力或显著性(即,当人类在观看失真图片10、11时倾向于注视的地方)相关,从而指示对于HVS重要的图片区域。这些图之间的区别在于,第三图与空间域有关,而第六图与时域有关。
关于确定各个图的步骤S4和步骤S6中的处理优选地与步骤S3和步骤S5中的处理基本相同,但是不同之处在于,在步骤S3和步骤S5中,失真图片10和原始图片20中的像素值用于确定第一图和第三图,而在步骤S4和步骤S6中,失真差异图片30和原始差异图片40中的像素值用于确定第二图和第六图。
实施例的视频保真度度量基于针对失真图片10的至少一部分12确定的四个图。本文中使用的“图”表示在数据条目和像素的数量方面具有与失真图片10的至少一部分12相同分辨率的数据集。更详细地,失真图片10的至少一部分12可以作为说明性但非限制性的示例,被定义为包括m×n个像素14,这些像素具有一些整数值m,n的各自的像素值。然后,该图具有相同的分辨率(即,m×n个数据条目),一个这样的数据条目用于失真图片10的至少一部分12中的每个像素14。因此,该图可以被视为数组(例如,二维(2D)数组)或者具有数据条目的矩阵,并且其中,该数组或矩阵的分辨率与失真图片10的至少一部分12的像素分辨率相同。
在步骤S3、S4中确定的第一图和第二图表示像素值失真,即,失真图片10的至少一部分12中的像素14和原始图片20的对应部分22中的对应像素24之间的像素值劣化或差异,或者失真差异图片30中的像素34和原始差异图片40中的对应像素44之间的像素值劣化或差异。因此,该第一图和第二图反映了原始图片20和失真图片10之间或原始差异图片40和失真差异图片30之间的像素值差异,并且其中,这些差异是由于对原始图片20、21应用图片或视频处理以形成失真图片10、11作为原始图片20、21的失真或劣化版本而引起的。在步骤S5和步骤S6中确定的第三图和第六图包括在视频保真度度量的确定中,因为失真图片10上的误差(即,像素值失真)不会对人类视觉系统(HVS)产生相同的视觉影响。第三图和第六图与视觉注意力或显著性(即,当人类在观看图片时倾向于注视的地方)相关,从而指示对于HVS重要的图片区域。因此,与失真图片10中的对于HVS不太重要的其他区域相比,第三图和第六图可以用于在重要图片区域中对第一图和第二图中的失真进行更重的加权。因此,获得了适用于HVS的视频保真度度量。
在步骤S5中确定第三图作为第四图和第五图的聚合,并且在步骤S6中确定第六图作为第七图和第八图的聚合。第四图和第五图分别表示失真图片10和原始图片20中的像素值的局部可变性,并且第七图和第八图分别表示失真差异图片30和原始差异图片40中的像素值的局部可变性。关于失真图片10中的像素14、原始图片20中的对应像素24、失真差异图片30中的对应像素34或原始差异图片40中的对应像素44的像素值的这种局部可变性对应于失真图片10、原始图片20、失真差异图片30或原始差异图片40中相对于像素14或对应像素24、34、44的邻域中的像素值可变性。例如,关于失真图片10中的像素14的像素值的局部可变性反映了失真图片10中的相邻或邻近像素14的像素值如何变化和/或变化了多少。
在实施例中,在步骤S3中确定的第一图是第一失真图,该第一失真图针对失真图片10的至少一部分12中的每个像素14表示该像素14和原始图片20中的对应像素24之间的像素值失真。在步骤S4中确定的第二图是第二失真图,该第二失真图针对失真差异图片30中的每个像素34表示该像素34和原始差异图片40中的对应像素44之间的像素值失真。在步骤S5中确定的第三图是第一视觉重要性图,该第一视觉重要性图被确定为第一可变性图和第二可变性图的聚合,第一可变性图针对失真图片10的至少一部分12中的每个像素14表示像素值的局部可变性,并且第二可变性图针对原始图片20中的每个对应像素24表示像素值的局部可变性。在步骤S6中确定的第六图是第二视觉重要性图,该第二视觉重要性图被确定为第三可变性图和第四可变性图的聚合,第三可变性图针对失真差异图片30中的每个像素34表示像素值的局部可变性,并且第四可变性图针对原始差异图片40中的每个对应像素44表示像素值的局部可变性。在该实施例中,基于第一失真图和第二失真图以及第一视觉重要性图和第二视觉重要性图来确定视频保真度度量。
如上所述,可以针对失真图片10的至少一部分12确定在图2中确定的图。然后,该部分12可以构成失真图片10的一部分,但不是全部。例如,部分12可以对应于像素14的宏块、像素14的块、编码块、编码单元、帧或图片的切片、或失真图片10的一些其他划分成像素14组或像素14集的部分。
在另一实施例中,针对整个失真图片10确定图,从而针对整个原始图片20确定图。在这样的实施例中,步骤S1包括:确定失真差异图片30作为视频序列1中的失真图片10和先前失真图片11之间的逐像素差异。在该实施例中,步骤S2包括:确定原始差异图片40作为原始图片20和先前原始图片21之间的逐像素差异。在该实施例中,步骤S3包括:确定第一图,该第一图针对失真图片10中的每个像素14表示该像素14和原始图片20中的对应像素24之间的像素值失真。在该实施例中,步骤S5包括:确定第三图作为第四图和第五图的聚合,第四图针对失真图片10中的每个像素14表示像素值的局部可变性,并且第五图针对原始图片20中的每个对应像素24表示像素值的局部可变性。
在步骤S1中,确定失真差异图片30作为失真图片10的至少一部分12和先前失真图片11的至少对应的一部分13之间的逐像素差异,例如,IΔ1,t(i,j)=I1,t(i,j)-I1,t-1(i,j),其中,I1,t(i,j)表示失真图片10中的坐标或位置(i,j)处的像素14的像素值,并且I1,t-1(i,j)表示先前失真图片11中的坐标或位置(i,j)处的对应像素的像素值。在步骤S2中相应地确定原始差异图片40作为原始图片20的至少对应的一部分22和先前原始图片21的至少对应的一部分23之间的逐像素差异,例如,IΔ2,t(i,j)=I2,t(i,j)-I2,t-1(i,j),其中,I2,t(i,j)表示原始图片20中的坐标或位置(i,j)处的像素24的像素值,并且I2,t-1(i,j)表示先前原始图片21中的坐标或位置(i,j)处的对应像素的像素值。在下面,I1/2(i,j)和IΔ1/2(i,j)用于表示I1/2,t(i,j)和IΔ1/2,t(i,j),即,省略下标t。
在步骤S3和步骤S4中确定的第一图和第二图表示像素值失真。因此,这样的失真反映了由应用于原始图片20、21以获得作为原始图片20、21的相应失真或劣化版本的失真图片10、11的图片或视频处理而导致的像素值的差异或劣化。因此,对于某些函数f1(x,y),第一图可以定义为f1(I1(i,j),I2(i,j)),例如,f1(I1(i,j)-I2(i,j))。对于某些函数f2(x,y),第二图可以相应地定义为f2(IΔ1(i,j),IΔ2(i,j)),例如,f2(IΔ1(i,j)-IΔ2(i,j)),其中,IΔ1(i,j)表示失真差异图片30中的坐标或位置(i,j)处的像素34的像素值,并且IΔ2(i,j)表示原始差异图片40中的坐标或位置(i,j)处的对应像素44的像素值。这两个函数f1(x,y),f2(x,y)可以是不同的函数。然而,在优选实施例中,这两个函数是相同的函数,即,f1(x,y)=f2(x,y)=f(x,y),因此,在实施例中,第一图是失真图片10的至少一部分12中的像素14和原始图片20中的对应像素24之间的像素值的逐像素差异的函数,并且第二图是失真差异图片30中的像素34和原始差异图片40中的对应像素44之间的像素值的逐像素差异的函数。
可以在步骤S3和步骤S4中使用各种函数f1(x),f2(x)来确定第一图和第二图。例如,步骤S3可以包括:确定第一图,该第一图针对失真图片10的至少一部分12中的每个像素14表示该像素14和原始图片20中的对应像素24之间的像素值的绝对差,例如,f1(|I1(i,j)-I2(i,j)|)。然后,步骤S4优选地包括:确定第二图,该第二图针对失真差异图片30中的每个像素34表示该像素34和原始差异图片40中的对应像素44之间的像素值的绝对差,例如,f2(|IΔ1(i,j)-IΔ2(i,j)|)。
在特定实施例中,步骤S3包括基于(例如等于)|I1(i,j)-I2(i,j)|p来确定第一图DM1(i,j),其中,p是正幂参数,并且步骤S4包括基于(例如等于)|IΔ1(i,j)-IΔ2(i,j)|p来确定第二图DM2(i,j)。
幂参数p是大于零的正数。该幂参数可以用于增强像素值的小差异和/或使像素值的大差异饱和。通常,较大的幂参数值增强像素值的大差异,同时抑制像素值的小差异,而较小的幂参数值增强像素值的小差异,同时使失真图片10或失真差异图片30中的像素14、34和原始图片20或原始差异图片40中的对应像素24、44之间的像素值的这种较大差异饱和。
在实施例中,幂参数p在0.0001至0.50的范围内,优选地在0.005至0.30的范围内,并且更优选地在0.01至0.20的范围内。例如,幂参数p可以为0.025,其已经在针对H.264失真类型的训练视频质量评估(VQA)数据库上进行了优化。
其他函数f1(x)可以在步骤S3中用于确定第一图,例如,使用例如幂参数a=0.5或a=1的闵可夫斯基(Minkowski)距离|I1(i,j)-I2(i,j)|a,后者(a=1)也表示为城市区块(City-Block)指标;洛伦兹(Lorentzian)范式方程log(1+|I1(i,j)-I2(i,j)|);詹森(Jensen)差 或托普索(Topsoe)差 通过将I1(i,j),I2(i,j)替换为IΔ1(i,j),IΔ2(i,j),也可以在步骤S4中使用这些相同的函数来确定第二图。
图2中的步骤S5确定第三图VIM1(i,j)作为第四图VM1(i,j)和第五图VM2(i,j)的聚合,例如,对于某些聚合函数g1(x,y),VIM1(i,j)=g1(VM1(i,j),VM2(i,j))。相应地,步骤S6包括确定第六图VIM2(i,j)作为第七图VM3(i,j)和第八图VM4(i,j)的聚合,例如,对于某些聚合函数g2(x,y),VIM2(i,j)=g2(VM3(i,j),VM4(i,j))。在特定实施例中,g1(x,y)=g2(x,y)=g(x,y)。在实施例中,该聚合是第四图VM1(i,j)和第五图VM2(i,j)的逐像素最大值的聚合VIM1(i,j)=max(VM1(i,j),VM2(i,j)),以及第七图VM3(i,j)和第八图VM4(i,j)的逐像素最大值的聚合,VIM2(i,j)=max(VM3(i,j),VM4(i,j))。因此,在该实施例中,第三图在每个像素或坐标(i,j),中反映了失真图片10和原始图片20中的给定像素14、24或坐标(i,j)的像素值的最大局部可变性,并且因此第六图在每个像素或坐标(i,j),中反映了失真差异图片30和原始差异图片40中的给定像素34、44或坐标(i,j)的像素值的最大局部可变性。
然而,实施例不限于逐像素最大值作为第三图和第四图或第七图和第八图的聚合的示例。其他示例包括算术平均值或平均值VIM1/2(i,j)=(VM1/3(i,j)+VM2/4(i,j))/2、几何平均值 谐波平均值VIM1/2(i,j)=VM1/3(i,j)×VM2/4(i,j)/(VM1/3(i,j)+VM2/4(i,j))、 或作为说明性但非限制性的其他示例。
如前所述,由第四图和第五图以及第七图和第八图表示的局部可变性优选地分别是失真图片10和原始图片20中以及失真差异图片30和原始差异图片40中的像素邻域中的像素值的局部可变性。因此,在实施例中,步骤S5包括:确定第三图作为第四图和第五图的聚合,第四图针对失真图片10的至少一部分12中的每个像素14表示失真图片10中像素14的像素邻域中的像素值的局部可变性,并且第五图针对原始图片20中的每个对应像素24表示原始图片20中对应像素24的像素邻域中的像素值的局部可变性。在该实施例中,步骤S6包括:确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片30中的每个像素34表示失真差异图片30中像素34的像素邻域中的像素值的局部可变性,并且第八图针对原始差异图片40中的每个对应像素44表示原始差异图片40中对应像素44的像素邻域中的像素值的局部可变性。
根据实施例,可以使用像素值的各种局部可变性。例如,第四图和第五图以及第七图和第八图可以分别表示失真图片10和原始图片20中以及失真差异图片30和原始差异图片40中的像素值的局部方差。在这样的实施例中,步骤S5包括:确定第三图作为第四图和第五图的聚合,第四图针对失真图片10的至少一部分12中的每个像素14表示像素值的局部方差,并且第五图针对原始图片20中的每个对应像素24表示像素值的局部方差。该实施例还包括:在步骤S6中,确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片30中的每个像素34表示像素值的局部方差,并且第八图表示针对原始差异图片40中的每个对应像素44表示像素值的局部方差。
在实施例中,第四图VM1(i,j)等于像素值的局部方差,即,VM1(i,j)=var1(i,j),其中,var1(i,j)是第一方差图,该第一方差图表示在失真图片10中的坐标(i,j)处的像素14的像素邻域中的像素值的局部方差,并且第五图VM2(i,j)等于像素值的局部方差,即,VM2(i,j)=var2(i,j),其中,var2(i,j)是第二方差图,该第二方差图表示原始图片20中的坐标(i,j)处的对应像素24的像素邻域中的像素值的局部方差。在该实施例中,第七图VM3(i,j)等于像素值的局部方差,即,VM3(i,j)=var3(i,j),其中,var3(i,j)是第三方差图,该第三方差图表示在失真差异图片30中的坐标(i,j)处的像素34的像素邻域中的像素值的局部方差,并且第八图VM4(i,j)等于像素值的局部方差,即,VM4(i,j)=var4(i,j),其中,var4(i,j)是第四方差图,该第四方差图表示原始差异图片40中的坐标(i,j)处的对应像素44的像素邻域中的像素值的局部方差。
在另一实施例中,第四图、第五图、第七图和第八图基于各自的像素值的非线性映射的和归一化的局部方差。在该实施例中,步骤S5包括:确定第三图作为第四图和第五图的聚合,第四图针对失真图片10的至少一部分12中的每个像素14表示像素值的非线性映射的和归一化的局部方差,并且第五图针对原始图片20中的每个对应像素24表示像素值的非线性映射的和归一化的局部方差。步骤S6包括:确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片30中的每个像素34表示像素值的非线性映射的和归一化的局部方差,并且第八图针对原始差异图片40中的每个对应像素44表示像素值的非线性映射的和归一化的局部方差。
图3是示出了根据特定实施例的使用非线性映射的和归一化的局部方差的图2中的方法的附加步骤的流程图。该方法从图2中的步骤S4继续。下一步骤S10包括:确定第一方差图,该第一方差图针对失真图片10的至少一部分12中的每个像素14表示像素值的局部方差。步骤S11包括:确定第一可变性图作为第一方差图的非线性映射的和归一化的版本。步骤S12包括:确定第二方差图,该第二方差图针对原始图片20中的每个对应像素24表示像素值的局部方差,并且步骤S13包括:确定第二可变性图作为第二方差图的非线性映射的和归一化的版本。下一步骤S14包括:确定第三方差图,该第三方差图针对失真差异图片30中的每个像素34表示像素值的局部方差。步骤S15包括:确定第三可变性图作为第三方差图的非线性映射的和归一化的版本。步骤S16包括:确定第四方差图,该第四方差图针对原始差异图片40中的每个对应像素44表示像素值的局部方差,并且步骤S17包括:确定第四可变性图作为第四方差图的非线性映射的和归一化的版本。
步骤S10+S11、S12+S13、S14+S15和S16+S17可以以任何顺序串行或至少部分地并行执行。然后,该方法继续进行到图2中的步骤S5,在该实施例中,该步骤S5包括:确定第三图作为第一可变性图和第二可变性图的聚合,并且在该实施例中,步骤S6包括:确定第六图作为第三可变性图和第四可变性图的聚合。
在特定实施例中,图3的步骤S11包括:基于(例如等于)确定第一可变性图VM1(i,j),其中,var1(i,j)表示第一方差图,并且q是正幂参数。在该特定实施例中,步骤S13相应地包括:基于(例如等于)确定第二可变性图VM2(i,j),其中,var2(i,j)表示第二方差图。在该特定实施例中,步骤S15包括:基于(例如等于)确定第三可变性图VM3(i,j),其中,var3(i,j)表示第三方差图,并且步骤S17包括:基于(例如等于)确定第四可变性图VM4(i,j),其中,var4(i,j)表示第四方差图。
参数q定义了方差图的非线性。在实施例中,q在0.05至2.00的范围内,优选地在0.10至1.50的范围内,并且更优选地在0.20至1.20的范围内。例如,参数q可以是1.05,其已经在针对H.264失真类型的训练VQA数据库上进行了优化。
在特定实施例中,图3的步骤S10包括:基于(例如等于)确定第一方差图var1(i,j),其中,和N是正奇数整数,并且步骤S12相应地包括:基于(例如等于) 确定第二方差图var2(i,j)。在该特定实施例中,步骤S14包括:基于(例如等于)确定第三方差图var3(i,j),并且步骤S16相应地包括:基于(例如等于)确定第四方差图var4(i,j)。
正奇数参数N定义了像素邻域的大小,在该像素邻域内确定了局部方差。正奇数参数N优选地大于1,并且优选地选自由3、5、7、9、11和13组成的组,更优选地选自由3、5、7和9组成的组,例如选自由3、5和7组成的组,并且更优选地为3或5。例如,参数N可以是5,其已经在针对H.264失真类型的训练VQA数据库上进行了优化。
在以上所述的特定实施例中,使用具有由正奇数参数N定义的滤波器大小的盒式滤波器(即,均匀滤波器)来确定局部方差。其他类型的滤波器可以用于计算局部方差,例如,加号或十字形滤波器、高斯滤波器或二项式滤波器。
在上述特定实施例中,确定第三图(也称为第一视觉重要性图)作为第四图(也称为第一可变性图)和第五图(也称为第二可变性图)的聚合,其中,第一可变性图和第二可变性图被确定为第一方差图和第二方差图的非线性映射的和归一化的版本。相应地,确定第六图(也称为第二视觉重要性图)作为第七图(也称为第三可变性图)和第八图(也称为第四可变性图)的聚合,其中,第三可变性图和第四可变性图被确定为第三方差图和第四方差图的非线性映射的和归一化的版本。
在其他实施例中,第一可变性图至第四可变性图可以替代地表示像素邻域的标准偏差,例如,替代确定可变性图作为表示像素值的局部方差(例如,像素值的非线性映射的和归一化的局部方差),可变性图可以表示像素值的其他类型的局部可变性,例如,在[7]中第619页上的“纹理特征2)对比度”中定义的对比度f2、在[7]中第619页上的“纹理特征3)相关性”中定义的相关性f3、或在[7]中第619页上的“纹理特征12)相关性的信息度量”中定义的相关性的信息度量f12,其关于计算对比度f2、相关性f3和相关性的信息度量f12的教导通过引用并入本文。
在实施例中,如图4所示执行图2中的步骤S7。在该实施例中,该方法从图2中的步骤S6继续。下一步骤S20包括:通过由第三图对第一图进行逐像素加权来确定第九图(也称为第一视觉失真图)。可以在步骤S20之前、之后或至少部分与之并行地执行的下一步骤S21包括:通过由第六图对第二图进行逐像素加权来确定第十图(也称为第二视觉失真图)。然后在步骤S26中基于第九图和第十图确定视频保真度度量。
通过第三图/第六图对第一图/第二图进行“逐像素加权”意味着,在第一图/第二图中的坐标或像素(i,j)处的值由与第三图/第六图中的坐标或像素(i,j)处的值对应的权重加权。因此,逐像素加权是逐坐标或逐位置的加权。
在实施例中,步骤S20包括:确定第九图VDM1(i,j)=VIM1(i,j)×DM1(i,j),其中,DM1(i,j)表示第一图(也称为第一失真图),并且VIM1(i,j)表示第三图(也称为第一视觉重要性图)。在该实施例中,步骤S21包括:确定第十图VDM2(i,j)=VIM2(i,j)×DM2(i,j),其中,DM2(i,j)表示第二图(也称为第二失真图),并且VIM2(i,j)表示第六图(也称为第二视觉重要性图)。
因此,第一视觉失真图或第二视觉失真图优选地通过由第一视觉重要性图或第二视觉重要性图对第一失真图或第二失真图进行逐像素加权而构成。这意味着,与失真图片10或失真差异图片30中其他不太重要的像素区域中的失真相比,具有高HVS重要性的像素区域中的失真可以被更重地加权。
在实施例中,该方法包括如图4所示的附加步骤S22。该步骤S22包括:基于第九图的和∑i∑jVDM1(i,j)确定第一平均误差ME1(I1,I2),其中,I1,I2表示像素值,并且(i,j)表示失真图片10中的像素14以及原始图片20中的对应像素24的坐标。该方法还包括下一步骤S23,该步骤包括:基于第十图的和∑i∑j VDM2(i,j)确定第二平均误差ME2(IΔ1,IΔ2),其中,IΔ1,IΔ2表示像素值,并且(i,j)表示失真差异图片30中的像素34以及原始差异图片40中的对应像素44的坐标。然后,该方法继续进行到步骤S26,在该实施例中,该步骤包括:基于第一平均误差和第二平均误差来确定视频保真度度量。步骤S22和步骤S23可以以任何顺序串行或至少部分地并行执行。
在灰度图片10、11、20、21的情况下,或者当希望减少计算量时,仅计算一种类型的像素值的平均误差,并将其用作视频保真度度量。然后,这种类型的像素值优选地是用于强度通道的像素值,例如是亮度值(Y’)、明度值(Y)或强度值(I)。
在彩色图片的情况下,优选地在所有三个颜色通道(例如,强度通道(Y'、Y或I)和彩色通道(即,彩度值(Cb、Cr)或色度值(X、Z))上执行上述计算平均误差的过程。
在该实施例中,步骤S22优选地包括:确定强度通道的第一平均误差ME1(Y1,Y2)和彩色通道的第一平均误差ME1(U1,U2),ME1(V1,V2)。Y1/2表示失真图片10/原始图片20的亮度(Y')、明度(Y)或强度(I)通道,并且U1/2,V1/2表示失真图片10/原始图片20的彩度(Cb、Cr)或色度(X、Z)通道。在该实施例中,步骤S23包括:确定强度通道的第二平均误差ME2(YΔ1,YΔ2)和彩色通道的第二平均误差ME2(UΔ1,UΔ2),ME2(VΔ,VΔ2)。YΔ1/Δ2表示失真差异图片30/原始差异图片40的亮度(Y')、明度(Y)或强度(I)通道,并且UΔ1/Δ2,VΔ1/Δ2表示失真差异图片30/原始差异图片40的彩度(Cb、Cr)或色度(X、Z)通道。在该实施例中,步骤S26包括:基于强度通道的第一平均误差、彩色通道的第一平均误差、强度通道的第二平均误差和彩色通道的第二平均误差来确定视频保真度度量。
在特定实施例中,该方法包括如图4所示的附加步骤S24和S25。这些步骤可以以任何顺序串行或至少部分地并行执行。步骤S24包括:基于强度通道的第一平均误差和彩色通道的第一平均误差的归一化的线性组合,确定第一图片质量等级PQR1(I1,I2)。步骤S25包括:基于强度通道的第二平均误差和彩色通道的第二平均误差的归一化的线性组合,确定第二图片质量等级PQR2(IΔ1,IΔ2)。在该实施例中,步骤S26包括:基于第一图片质量等级和第二图片质量等级的组合来确定视频保真度度量。
在特定实施例中,步骤S24包括:基于(例如等于) 确定第一图片质量等级,其中,c是大于0但小于1的正数,并且nY,nC是基于失真图片10和原始图片20的比特深度来定义的归一化系数。在该特定实施例中,步骤S25包括:基于(例如等于) 确定第二图片质量等级,其中,nΔY,nΔC是基于失真差异图片30和原始差异图片40的比特深度来定义的归一化系数。
线性化参数c(也称为凸混合参数)优选地在0.10至0.95的范围内,优选在0.30至0.90的范围内,并且更优选在0.50至0.90的范围内。例如,参数c可以是0.69,其已经在针对H.264失真类型的训练VQA数据库上进行了优化。
基于失真图片10和原始图片20的比特深度(nY,nC)或失真差异图片30和原始差异图片40的比特深度(nΔY,nΔC),并且可选地还基于用于对参考图片20进行编码的编码方案来定义归一化系数nY,nC,nΔY,nΔC。
在实施例中,归一化系数nY,nC由nY=(219·2BD-8)-p,nC=(224·2BD-8)-p定义,其中,BD是颜色通道的比特深度,并且p是先前描述的正幂参数。相应地,归一化系数nΔY,nΔC由以下等式定义:
nΔY=(2·219·2BD-8)-p,nΔC=(2·224·2BD-8)-p。
在彩色图片的情况下,通常优选地针对每个颜色通道计算各自的平均误差,然后将这些平均误差合并到如上所述的图片质量等级中。然而,为了减少执行时间,可以通过例如避免计算彩色通道的平均误差并因此仅计算强度通道的平均误差来简化处理。这对应于将参数c设置为1。
线性化参数d(也称为凸混合参数)优选地在0.10至0.95的范围内,优选在0.30至0.90的范围内,并且更优选在0.50至0.90的范围内。例如,参数d可以是0.70,其已经在针对H.264失真类型的训练VQA数据库上进行了优化。
幂参数r优选地在0.001至1.5的范围内,优选地在0.005至1.25的范围内,并且更优选地在0.01至1.00的范围内。例如,幂参数r可以是0.08,其已经在针对H.264失真类型的训练VQA数据库上进行了优化。
根据实施例,也可以使用将空间分量(第一图片质量等级PQR1(I1,I2))和时间分量(第二图片质量等级PQR2(IΔ1,IΔ2))合并或聚合到视频保真度度量中的其他实施例。
例如,可以基于第一图片质量等级和第二图片质量等级的最大值(即,max(PQR1(I1,I2),PQR2(IΔ1,IΔ2)))来确定视频保真度度量。其他备选方案包括:基于第一图片质量等级和第二图片质量等级的平均值(即,(PQR1(I1,I2)+PQR2(IΔ1,IΔ2))/2)确定视频保真度度量,几何平均值谐波平均值PQR1(I1,I2)×PQR2(IΔ1,IΔ2)/(PQR1(I1,I2)+PQR2(IΔ1,IΔ2))、 或作为说明性但非限制性的其他示例。
在实施例中,对视频序列1中的多个(即,至少两个)失真图片10、11执行图2中的步骤S1至步骤S7,这在图2中由线L1示意性地示出。例如,可以对视频序列1中的所有失真图片10、11执行步骤S1至步骤S7,并且可以作为图片或视频处理的输出。备选地,可以对视频序列1中的失真图片10、11的子集执行步骤S1至步骤S7。
因此,在实施例中,如图2所示的方法包括:在步骤S1中并针对视频序列1中的多个失真图片10、11中的每个失真图片10,确定失真差异图片30作为视频序列1中的失真图片10的至少一部分12和失真图片10之前的先前失真图片11的至少对应的一部分13之间的逐像素差异。该方法还包括:在步骤S2中并针对多个失真图片10、11中的每个失真图片10,确定原始差异图片40作为原始图片20的至少对应的一部分22和原始图片20之前的先前原始图片21的至少对应的一部分23之间的逐像素差异。该方法还包括:在步骤S3中并针对多个失真图片10、11中的每个失真图片10确定第一图,该第一图针对失真图片10的至少一部分12中的每个像素14表示该像素14和原始图片20中的对应像素24之间的像素值失真。该方法还包括:在步骤S4中并针对多个失真图片10、11中的每个失真图片10确定第二图,该第二图针对失真差异图片30中的每个像素34表示该像素34和原始差异图片40中的对应像素44之间的像素值失真。该方法包括:在步骤S5中并针对多个失真图片10、11中的每个失真图10确定第三图作为第四图和第五图的聚合,第四图针对失真图片10的至少一部分12中的每个像素14表示像素值的局部可变性,并且第五图针对原始图片20中的每个对应像素24表示像素值的局部可变性。该方法还包括:在步骤S6中并针对多个失真图片10、11中的每个失真图片10确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片30的每个像素34表示像素值的局部可变性,并且第八图针对原始差异图片40中的每个对应像素44表示像素值的局部可变性。该方法还包括:在步骤S7中并针对多个失真图片10、11中的每个失真图片10,基于第一图、第二图、第三图和第六图确定失真图片10的视频保真度度量。
在视频序列1中的第一失真图片的情况下,则没有先前失真图片和先前原始图片可用。因此,无法确定视频保真度度量的时间分量。在这种情况下,仅能确定空间分量。这对应于省略图2中的步骤S1、S2、S4和S6,然后基于在图5中的步骤S3中确定的第一图和在图5中的步骤S5中确定的第三图来确定视频保真度度量。相应地,在图5所示的实施例中,步骤S14至步骤S17将被省略,并且图4所示的实施例可以省略步骤S21、S23和S25。
优选地,针对多个失真图片10、11中的每一个确定各自的视频保真度度量。在这样的实施例中,该方法可以包括如图5所示的附加的、可选的步骤。该方法从图2中的步骤S7或者实际上从图4中的步骤S26继续。下一步骤S8包括:在针对多个失真图片10、11确定的多个视频保真度度量中,选择视频保真度度量,作为视频序列1的视频保真度度量。
在实施例中,步骤S8中的选择包括:在多个视频保真度度量中选择表示最低视频保真度的视频保真度度量。通常,图像保真度度量的值越高,质量或保真度越低。因此,在这样的实施例中,步骤S8包括:在多个视频保真度度量中选择最大或最高的视频保真度度量。
在另一实施例中,步骤S8中的选择包括:选择多个视频保真度度量中的平均或均值视频保真度度量。在该实施例中,由此针对视频序列1中的多个失真图片10、11确定平均视频保真度度量。该实施例的另一变型是在步骤S8中选择多个视频保真度度量的中值。
在另一实施例中,步骤S8不一定涉及选择单个视频保真度度量。形成鲜明对比的是,步骤S8包括:选择针对视频序列1中的多个连续失真图片10、11确定的视频保真度度量的范围。例如,用户可能对获得视频序列1的一部分的视频保真度度量感兴趣,该视频序列1的一部分包含例如通常难以处理(例如,编码)的视频内容。在这种情况下,可以在步骤S8中选择针对视频序列1的该部分中的失真图片10、11确定的视频保真度度量。
在另一实施例中,多个视频保真度度量被保持在缓冲器或数组(例如,环形缓冲器或数组)中,该缓冲器或数组首先以升序排序,即,从最小的视频保真度度量到最大的视频保真度度量。在该实施例中,从排序后的缓冲器或数组中选择与位置或索引round(h×(BL-1)相对应的视频保真度度量,并将其用作视频保真度度量。在这种情况下,round(x)是舍入到最接近的整数函数,h是在0.5到1.0的范围内、优选地在0.75到1.0的范围内、并且更优选地在0.9到1.0的范围内选择的实验选择参数。例如,参数h可以是0.998,其已经在针对H.264失真类型的训练VQA数据库上进行了优化。BL表示缓冲器或数组的长度。在实施例中,缓冲器或数组索引遵循基于C的约定,即,索引从0开始。
以上所述的实施例是概率汇集(pooling),并且本质上是基于百分位数的选择过程。对于较短的分析间隔和值接近1(例如,0.998)的h,索引将指向排序后的缓冲器或数组中的最后一个元素。这是预期的行为,并且对应于使用最大值(即,最大视频保真度度量)作为视频序列1的视频保真度度量。
根据实施例,也可以使用选择或暂时汇集视频保真度度量的其他实施例。这样的其他实施例包括闵可夫斯基(Minkowski)汇集其中,针对视频质量等级,VQRt表示视频序列1中的第t个失真图片10的视频保真度度量,L表示视频序列1中的失真图片10、11的总数,并且γ是闵可夫斯基(Minkowski)的幂参数,其大于2。
另一种选择是应用指数平滑滤波器(例如,自回归1(AR(1))滤波器),例如对于t>0,VQR′t=ρ×VQRt+(1-ρ)×VQR′t-1,并且其中,VQR′0=VQR0。ρ是接近0的平滑因子,例如,ρ<10-2。
传统上使用平均意见得分(MOS)范围和差分MOS(DMOS)范围以比较各种视频保真度和质量指标或度量。
在实施例中,该方法包括如图6所示的附加步骤S9。然后该方法从图2中的步骤S7、图4中的步骤S26或图5中的步骤S8继续。步骤S9包括将视频保真度度量转换为DMOS范围或MOS范围。
在实施例中,可以根据以下等式,将实施例的视频质量度量(以下表示为VQR)映射到DMOS范围或刻度:
α参数α1,α2是由本算法产生的对训练图片数据库中包含的人类主观质量判断的得分的非线性最小二乘(NLS)拟合的解决方案。在实施例中,在7到15的范围内选择α参数α1,并且在0.7到1.4的范围内选择α参数α2。例如,已经针对H.264失真类型在训练VQA数据库上对α参数α1=9.7467和α参数α2=1.2251进行了优化,并且当对集成区域使用可选校正时,已经针对H.264失真类型在训练VQA数据库上对α参数α1=11.5328和α参数α2=1.0354进行了优化。
在备选实施例中,视频质量专家组(VQEG)提出的标准S形映射可以用于DMOS刻度,请参见[8]中的等式3和4:
然后,可以使用以下等式将计算出的DMOS值重新映射到MOS范围或刻度:
MOS(DMOS(VQR))=γ1×DMOS+γ2
其中,γ1=-4/100和γ2=5用于反转DMOS刻度,并将其重新映射到[1,5]MOS范围。
在图5的步骤S8中选择的该最终视频保真度度量表示每个像素的时空合并和时间汇集的失真。对于一些观看场景,局部失真(例如,8×8像素块中的失真)对较小分辨率视频(例如,176×144)的视觉影响比对较大分辨率视频(例如,3840×2160)的视觉影响大得多。对于这些场景,视频保真度应优选地分配给相同的局部失真(其在较小分辨率视频上具有更大的重要性),并随着分辨率的提高而降低。在当前视频保真度算法(本文中表示为用于视觉上重要的视频和图像质量评估的VIVIQA)中,由于在VIM计算期间引入了归一化方案,因此优选地自动进行此操作。
然而,在某个点之后,在保持相同的观看距离的同时提高视频分辨率不应进一步降低失真的重要性,因为一旦在某些图片区域中出现明显失真,检查剩余的图片区域将不会降低已经获得的劣化感觉及其程度。通过根据视角分析视频分辨率并使用眼睛整合区的概念,可以实现此行为。
考虑到最佳观看距离(其中,一个像素对应于一弧分的视角[9]),图片(亮度通道)的角度尺寸(以度为单位)变为(H是图片高度,W是图片宽度):
假设人眼可以在有限的空间范围Smax上(默认值为12°,对应于[10]中提出的整合区的最大角度尺寸)整合视觉刺激,则调整后的图片或帧尺寸(平滑限制为Smax)可以表示为:
iArea=iX·iY
在上述整合区上累积视频保真度度量(VQR)值,并通过原始图片或帧角度大小对其进行归一化,得到校正后的VQR值(cVQR):
该公式也可以理解为,对于较小视频分辨率(即,小于整合区),整个图片的失真空间整合是最佳的,而对于大于整合区的分辨率,失真像素的剩余部分将对已经检测和整合的部分产生有限的影响。
应当注意的是,Smax参数不一定需要与用于可见性阈值下的心理物理实验的眼睛整合区相对应,并且可以微调到特定的视频数据库,该视频数据库中提供了各种视频分辨率。该参数的初始值可以设置为60°。
在该实施例中,DMOS算法中的VQR度量输入可以由此被替换为cVQR度量。
一些实施例使用对原始视频的宽度和高度的认知。在一些观看场景和质量评估条件下,精确的视频分辨率可能不可用,并且例如可以从对显示设备的尺寸及其观看距离的认知中推断出来。
这种缺乏对视频分辨率的认知可能是由复杂的视频处理管道(其中,视频被多次缩放)导致的,或者在视频保真度评估应模仿人类观察者的主观测试条件的情况下导致的。在这样的场景下,可能仅最终分辨率是可用的,其可以不对应于例如通过在处理链的某个部分中重新缩放原始视频和失真视频来对视频进行编码和/或劣化的分辨率。
为了确保各个视频处理方案中的视频保真度度量的一致性,可以按照模仿视网膜图像的方式对视频进行重新缩放,并且这可以在根据视角分析视频尺寸、显示大小和观看距离时实现。
考虑一种显示设备,其特征在于屏幕的对角线大小ds和长宽比ar。屏幕的物理宽度dw和高度dh可以计算为:
dw=ds·cos(cot-1(ar)),dh=ds·sin(cot-1(ar))
如果dd以设备高度为单位表示到显示设备的距离(即,dd=3表示该距离是三个显示高度),则到显示设备的物理距离为pd=dd·dh,并且下面对于水平视角θH的等式成立:
类似地,对于竖直视角θV:
对于视频保真度评估算法输入处可用的输入视频分辨率iW x iH,每水平ppdH和竖直ppdV视角度的像素数分别变为:
假设在最佳观看距离下,1个像素对应于1弧分的视角,或者备选地,如果像素密度大于每视角度60个像素,人眼无法辨别更多细节,则为了最佳地处理输入视频,并且为了避免处理由于观看距离而看不到的细节,可以通过以下水平重新缩放比例因子对视频进行水平重新缩放:
并且,在竖直尺寸上类似,通过竖直重新缩放比例因子:
然后,根据观看距离进行调整,输入视频的新尺寸变为:
其中,round[x]是舍入到最接近的整数运算符,并且应使用W和H作为调整大小操作的目标,该调整大小操作用于在实际视频保真度评估算法之前处理图片。
应注意的是,由于每视角度60个像素的密度是任意的,并且一些作者报告在中央凹处每度多达240个像素,因此可以调整上述等式,以确保满足特定的存储要求,以精确地保留长宽比和/或确保所得到的视频宽度和高度是某个整数的倍数,例如,4的倍数。
作为示例,考虑长宽比ar=16/9和到显示设备dd=6个图片高度的距离,然后使用以上对于W和H的等式,视频的大小应调整为1012×572。将其舍入为更常见的1280×720分辨率仍然可以被认为是最佳的,因为在这种情况下,对应的密度为≈每视角度76个像素,即,在当前技术水平限制下的值。
还应注意,上述等式用于视频重新缩放,其目的是避免处理普通人眼看不到的细节。它们形成视频分辨率的上限,但是,如果没有在空间频域中进行更详尽的分析,就不可能恢复原始的视频分辨率。
例如,将原始的640×360视频重新缩放为2560×1440,并从6个图片高度的距离处观看,则需要使用先前示例将其缩小为1280×720。它仍然是原始分辨率的两倍,因此从视频处理的角度来看,它是次优的,因为放大只能减少图像中的信息量,因此使用高于必要分辨率的分辨率没有任何好处。
所提出的用于计算视频保真度度量的VIVIQA算法接受两个视频序列、流或文件1、2作为其输入。两个视频序列1、2(即,一个包括失真图片10、11,并且一个包括原始图片20、21)例如可以从内部或外部存储或流媒体设备中加载。两个视频序列1、2优选地具有相同的尺寸(即,在像素数方面具有相同高度和宽度的失真图片和原始图片10、11、20、21);优选地具有相同的帧速率;优选地具有相同的扫描类型(例如,逐行扫描或隔行扫描);优选地具有相同数量的颜色通道,例如,灰度(一个或三个颜色通道)vs.颜色(三个颜色通道);并且优选地具有相同的色域。
例如,参照图1和图10,失真图片和原始图片被表示为整数Y’CbCr数据。如果失真图片和原始图片未表示为整数Y'CbCr数据,则可以将它们转换为整数Y'CbCr表示(例如,整数BT.709Y'CbCr表示),并且其比特深度和彩度采样与原始视频序列相同。如果原始视频序列和失真视频序列的比特深度和彩度采样方案不同,则可以将它们放大到两个比特深度中的较大者,然后彩度重新采样到两个彩度采样方案中的更精细者。如果原始视频序列和失真视频序列的色域和/或动态范围不同,则可选的颜色转换还可以包括色域映射(GM)和/或色调映射(TM)操作。
一旦两个视频序列在颜色编码方面统一,就优选地将它们表示为平面强度通道(例如,BT.709术语中的亮度通道Y')和两个彩色通道(例如,BT.709术语中的Cb和Cr通道)。在此阶段,可以使用相同的构造块来处理灰度视频和彩色视频,并且仅通过在强度通道上执行计算就可以加快彩色视频的处理速度,与彩色通道相比,从HVS角度来看,这被认为是最重要的。
BT.709(也称为ITU-R建议书BT.709或Rec.709)仅应被视为色域的说明性示例,并且实施例不限于此,而是还可以应用于其他色域,例如,DCI-P3(也称为CDI/P3);BT.2100(也称为ITU-R建议书BT.2100或Rec.2100);BT.2020(也称为ITU-R建议书BT.2020或Rec.2020);BT.601(也称为ITU-R建议书BT.601或Rec.601;以及sRGB。
然后将原始视频序列和失真视频序列的可选转换的(Y’CbCr)颜色通道馈送到VIVIQA算法,并在两条路径中进行处理。第一条路径“空间失真路径”使用当前原始图片和失真图片(图片编号t)的像素数据来估计空间失真或劣化的平均误差。并行地,使用当前原始图片和失真图片(图片编号t)和各自先前(优选地按照显示顺序)的原始图片和失真图片(图片编号t-1)来计算在“时间劣化路径”中处理的逐像素差异(即,失真差异图片和原始差异图片)。对于每个颜色通道,优选地按照以下方式计算逐像素差异:
YΔ(i,j)=Yt(i,j)-Yt-1(i,j)
UΔ(i,j)=Ut(i,j)-Ut-1(i,j)
VΔ(i,j)=Vt(i,j)-Vt-1(i,j)
其中,Yt(i,j),Ut(i,j),Vt(i,j)表示在时刻t处相应的亮度、第一彩度和第二彩度通道的坐标(i,j)处的像素的像素值。逐像素差异具有与原始通道相同的尺寸,但其动态范围增加了一倍。
然后,在时刻t处的原始图片和失真图片以及在时刻t处的原始差异图片和失真差异图片分别馈送到图10中的平均误差计算块,以(优选地)估计视频序列中每个失真图片的空间误差和时间误差。然后,将这些平均误差合并以形成每个失真图片的时空平均误差,并及时汇集以获取整个视频序列的平均误差。在最后阶段,可选地将该误差转换为标准MOS/DMOS间隔刻度。该计算结束了由所提出的VIVIQA算法完成的处理。
图11示意性地示出了针对各自的颜色通道更详细地计算图10中的平均误差的实施例。首先,分别针对强度通道和两个彩色通道计算原始颜色通道和失真颜色通道之间的平均误差,然后将其聚合以形成图片质量等级(PQR)。图片质量等级的这种计算既在空间域中使用失真图片10和原始图片20完成,又在时间域中使用失真差异图片30和原始差异图片40完成。
图12示意性地示出了针对各自的颜色通道更详细地计算图11中的平均误差的实施例。首先,确定失真图作为像素值失真或原始颜色通道和失真颜色通道之间的差异的表示。针对原始颜色通道和失真颜色通道确定各自的可变性图,并将其聚合为视觉重要性图。视觉重要性图与失真图组合成视觉失真图,将其相加以获得特定颜色通道的平均误差。平均误差的这种计算既在空间域中使用失真图片10和原始图片20完成,又在时间域中使用失真差异图片30和原始差异图片40完成。
本实施例的视频保真度度量可以有利地与视频编码结合使用,而不是现有技术评估指标和度量(例如,绝对差之和(SAD)和平方误差之和(SSE))。然后,可以在编码过程和编码器内部使用视频保真度度量,以选择编码模式和/或编码参数。
图7是示出了对视频序列2进行编码的方法的流程图。该方法包括步骤S30至S33,其针对视频序列2中的至少一个原始图片20执行。该方法包括:在步骤S30中根据多种编码模式对原始图片20的至少一部分22进行编码,以获得多个编码后的候选图片部分。在步骤S31中对多个编码后的候选图片部分进行解码,以获得多个解码后的候选图片部分12。接下来的步骤S32包括:根据任何实施例,针对多个解码后的候选图片部分12中的每一部分确定各自的视频保真度度量。下一步骤S33包括:在多个编码后的候选图片部分中,至少部分地基于各自的视频保真度度量,选择编码后的候选图片部分作为原始图片20的至少一部分22的编码表示。
因此,根据多种编码模式对原始图片20的至少一部分22进行编码。原始图片20的该至少一部分22可以是像素24的宏块、像素24或样本的编码块或编码单元(在本文中通常称为像素24的块)的形式。各种编码模式包括例如不同的帧内编码模式,例如,平面模式、DC模式和各种角度模式;帧间编码模式,例如,单向(P)或双向(B)帧间编码;不同的帧内或帧间划分,例如,32×32像素、16×16像素、8×8像素或4×4像素。每个这样的编码模式产生各自的编码后的候选图片部分。然后,对编码后的候选图片部分进行解码,以获得与图1中的失真图片10的至少一部分12相对应的解码后的候选图片部分12。
视频编码(例如,视频序列2)通常包括变换到频域、量化、然后是熵编码。相应地,视频解码包括这些操作的逆过程,即,解码、逆量化和逆变换。因此,本文所定义的编码可以包括变换、量化和(熵)编码的这些子步骤,而解码可以包括解码、逆量化和逆变换的子步骤。
在步骤S32中针对多个解码后的候选图片部分12中的每一部分计算实施例的视频保真度度量,然后在步骤S33中将其用于选择多个编码后的候选图片部分中的哪一个用作原始图片20的至少一部分22的编码表示。因此,由此采用视频保真度度量来识别编码模式和所产生的编码后的候选图片部分,该编码后的候选图片部分在某种意义上以至少部分地基于视频保真度度量定义的方式是最佳或最优的。
在特定实施例中,在步骤S32中确定的视频保真度度量用于确定率失真度量,该率失真度量继而在步骤S33中用于选择编码后的候选图片部分。该特定实施例在图8中示出。该方法从图7中的步骤S32继续。下一步骤S40包括:针对多个解码后的候选图片部分12中的每一部分,基于各自的视频保真度度量和表示用编码后的候选部分表示原始图片20的至少一部分22的比特成本的比率,确定各自的率失真度量。然后,该方法继续到步骤S33,在该实施例中,该步骤S33包括:在多个编码后的候选图片部分中,基于各自的率失真度量,选择编码后的候选图片部分作为原始图片20的至少一部分22的编码表示。
在实施例中,步骤S33包括:选择最小化率失真度量的编码后的候选图片部分。
在该特定实施例中,使用基于实施例的视频保真度度量确定的率失真度量,在所谓的率失真优化(RDO)中选择编码模式,从而选择编码的候选图片部分。RDO的目标是通过对编码模式和参数的合适选择最小化给定速率RC的失真D,即:
min{D},subject to R≤RC
然而,这种最小化是一个受约束的问题,其难以解决。因此,通常基于最小化拉格朗日(Lagrangian)成本函数J,将上述最小化转换为RDO:
min{J},J=D+λR
其中,λ是拉格朗日乘数。
现有技术的RDO经常使用SAD或SSE作为拉格朗日成本函数中失真D的度量。然而,从HVS的角度来看,这种失真度量并不是最佳的。因此,本实施例的视频保真度度量被有利地用作拉格朗日成本函数中的失真参数D。
除了选择编码模式和编码后的候选图片部分之外,本实施例的视频保真度度量还可以找到与视频编码相关的其他用途。例如,视频保真度度量也可以或可替代地用于选择编码器的编码器简档。编码器简档是高级参数(例如,运动估计搜索的大小、所考虑的编码单元或块分割方案的数量、熵编码器选择、编码树单元的深度等)的组合。
图9是示出了选择用于编码器的编码器简档的方法的流程图。该方法包括:在步骤S50中,使用多个编码器简档对视频序列2中的至少一个原始图片20进行编码以获得多个编码图片。下一步骤S51包括:对多个编码图片进行解码以获得多个解码图片10。然后,在步骤S52中,针对多个解码图片10中的每一个确定根据实施例的各自的视频保真度度量。接下来的步骤S53包括:至少部分地基于各自的视频保真度度量,在多个编码器简档中选择用于编码器的编码器简档。
在特定实施例中,步骤S53包括:选择编码器简档,其产生基于各自的视频保真度度量定义的最佳视频保真度或质量。
可以在图8的方法中使用原始图片20的各种视频序列2以选择编码器简档。例如,视频序列2可以是例如既包括通常难以编码的内容又包括易于编码的内容的各种原始图片20的预定义视频序列2,其可以用于测试和评估各种编码器和编码器简档。在另一实施例中,原始图片20的多个视频序列2是可用的,并且可以适合于不同的内容。例如,第一视频序列2包括体育内容,第二视频序列2包括电影内容,第三视频序列2包括新闻内容,第四视频序列2包括卡通内容,等等。在这种情况下,可以基于将由编码器编码的视频的内容来选择适当的视频序列2,从而在选择编码器的编码器简档时具有最合适的视频序列2。在另一实施例中,视频序列2可以构成将由编码器进行编码的视频序列2的一部分,该编码器的编码器简档将被选择。例如,可以在图9所示的方法中使用视频序列2的初始部分,以基于实施例的视频保真度度量来选择适当的编码器简档。一旦选择了合适的编码器简档,视频序列2的原始图片20就可以由编码器使用所选择的编码器简档进行编码。
本文提及的各种参数(例如,正幂参数p,q和N、以及可选的线性化参数c,d、幂参数r、参数h和/或α参数α1,α2)的实际值可以在各种VQA数据库的训练阶段确定。例如,训练阶段可能涉及用相关联的主观得分最大化相关性,例如,在可用的VQA数据库上的平均斯皮尔曼(Spearman)等级相关性。因此,本实施例不限于本文所呈现的实际参数值,并且可以基于对更多VQA数据库的访问和/或在使用不同图片编码器或编码器简档的情况下,在附加训练阶段中调整这些值。
实施例的另一方面涉及一种用于确定视频序列1的视频保真度度量的设备。该设备被配置为:针对视频序列1中的至少一个失真图片10,确定失真差异图片30作为视频序列1中的失真图片10的至少一部分12和失真图片10之前的先前失真图片11的至少对应的一部分13之间的逐像素差异。该设备还被配置为:确定原始差异图片40作为原始图片20的至少对应的一部分22和原始图片20之前的先前原始图片21的至少对应的一部分23之间的逐像素差异。该设备还被配置为:确定第一图,该第一图针对失真图片10的至少一部分12中的每个像素14表示该像素14和原始图片20中的对应像素24之间的像素值失真。该设备附加地被配置为:确定第二图,该第二图针对失真差异图片30中的每个像素34表示该像素34和原始差异图片40中的对应像素44之间的像素值失真。该设备还被配置为:确定第三图作为第四图和第五图的聚合,第四图针对失真图片10的至少一部分12中的每个像素14表示像素值的局部可变性,并且第五图针对原始图片20中的每个对应像素24表示像素值的局部可变性。该设备还被配置为:确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片30中的每个像素34表示像素值的局部可变性,并且第八图针对原始差异图片40中的每个对应像素44表示像素值的局部可变性。该设备还被配置为:基于第一图、第二图、第三图和第六图确定视频保真度度量。
在实施例中,该设备被配置为:确定失真差异图片30作为视频序列1中的失真图片10和先前失真图片11之间的逐像素差异,并且确定原始差异图片40作为原始图片20和先前原始图片21之间的逐像素差异。在该实施例中,该设备还被配置为:确定第一图,该第一图针对失真图片10中的每个像素14表示该像素14和原始图片20中的对应像素24之间的像素值失真,并确定第三图作为第四图和第五图的聚合,第四图针对失真图片10中的每个像素14表示像素值的局部可变性,并且第五图针对原始图片20中的每个对应像素24表示像素值的局部可变性。
在实施例中,该设备被配置为:确定第一图,该第一图针对失真图片10的至少一部分12中的每个像素14表示该像素14和原始图片20中的对应像素24之间的像素值的绝对差。在该实施例中,该设备还被配置为:确定第二图,该第二图针对失真差异图片30中的每个像素34表示该像素34和原始差异图片40中的对应像素44之间的像素值的绝对差。
在实施例中,该设备被配置为:基于|I1(i,j)-I2(i,j)|p确定第一图DM1(i,j),其中,I1(i,j)表示失真图片10中的坐标(i,j)处的像素14的像素值,I2(i,j)表示原始图片20中的坐标(i,j)处的对应像素24的像素值,并且p为正幂参数。在该实施例中,该设备还被配置为:基于|IΔ1(i,j)-IΔ2(i,j)|p确定第二图DM2(i,j),其中,IΔ1(i,j)表示失真差异图片30中的坐标(i,j)处的像素34的像素值,并且IΔ2(i,j)表示原始差异图片40中的坐标(i,j)处的对应像素44的像素值。
在实施例中,该设备被配置为:确定第三图VIM1(i,j)作为第四图VM1(i,j)和第五图VM2(i,j)的逐像素最大值的聚合VIM1(i,j)=max(VM1(i,j),VM2(i,j))。在该实施例中,该设备还被配置为:确定第六图VIM2(i,j)作为第七图VM3(i,j)和第八图VM4(i,j)的逐像素最大值的聚合VIM2(i,j)=max(VM3(i,j),VM4(i,j))。
在实施例中,该设备被配置为:确定第三图作为第四图和第五图的聚合,第四图针对失真图片10的至少一部分12中的每个像素14表示失真图片10中像素14的像素邻域中的像素值的局部可变性,并且第五图针对原始图片20中的每个对应像素24表示原始图片20中对应像素24的像素邻域中的像素值的局部可变性。在该实施例中,该设备还被配置为:确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片30中的每个像素34表示失真差异图片30中像素34的像素邻域中的像素值的局部可变性,并且第八图针对原始差异图片40中的每个对应像素44表示原始差异图片40中对应像素44的像素邻域中的像素值的局部可变性。
在实施例中,该设备被配置为:确定第三图作为第四图和第五图的聚合,第四图针对失真图片10的至少一部分12中的每个像素14表示像素值的局部方差,并且第五图针对原始图片20中的每个对应像素24表示像素值的局部方差。在该实施例中,该设备还被配置为:确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片30中的每个像素34表示像素值的局部方差,并且第八图表示针对原始差异图片40中的每个对应像素44表示像素值的局部方差。
在实施例中,该设备被配置为:确定第三图作为第四图和第五图的聚合,第四图针对失真图片10的至少一部分12中的每个像素14表示像素值的非线性映射的和归一化的局部方差,并且第五图针对原始图片20中的每个对应像素24表示像素值的非线性映射的和归一化的局部方差。在该实施例中,该设备还被配置为:确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片30中的每个像素34表示像素值的非线性映射的和归一化的局部方差,并且第八图针对原始差异图片40中的每个对应像素44表示像素值的非线性映射的和归一化的局部方差。
在该实施例中,该设备还被配置为:确定第一方差图,该第一方差图针对失真图片10的至少一部分12中的每个像素14表示像素值的局部方差,并且确定第一可变性图作为第一方差图的非线性映射的和归一化的版本。在该实施例中,该设备还被配置为:确定第二方差图,该第二方差图针对原始图片20中的每个对应像素24表示像素值的局部方差,并且确定第二可变性图作为第二方差图的非线性映射的和归一化的版本。在该实施例中,该设备还被配置为:确定第三方差图,该第三方差图针对失真差异图片30中的每个像素34表示像素值的局部方差,并且确定第三可变性图作为第三方差图的非线性映射的和归一化的版本。在该实施例中,该设备附加地被配置为:确定第四方差图,该第四方差图针对原始差异图片40中的每个对应像素44表示像素值的局部方差,并且确定第四可变性图作为第四方差图的非线性映射的和归一化的版本。在该实施例中,该设备还被配置为:确定第三图作为第一可变性图和第二可变性图的聚合,并且确定第六图作为第三可变性图和第四可变性图的聚合。
在实施例中,该设备被配置为:基于确定第一可变性图VM1(i,j),其中,var1(i,j)表示第一方差图,并且q是正幂参数。在该实施例中,该设备还被配置为:基寸确定第二可变性图VM2(i,j),其中,var2(i,j)表示第二方差图。在该实施例中,该设备还被配置为:基于确定第三可变性图VM3(i,j),其中,var3(i,j)表示第三方差图。在该实施例中,该设备附加地被配置为:基于确定第四可变性图VM4(i,j),其中,var4(i,j)表示第四方差图。
在实施例中,该设备被配置为:基于 确定第一方差图var1(i,j),其中,I1(i,j)表示失真图片10中的坐标(i,j)处的像素14的像素值,并且N是正奇数整数。在该实施例中,该设备还被配置为:基于确定第二方差图var2(i,j),其中,I2(i,j)表示原始图片20中坐标(i,j)处的对应像素24的像素值。在该实施例中,该设备还被配置为:基于确定第三方差图var3(i,j),其中,IΔ1(i,j)表示失真差异图片30中的坐标(i,j)处的像素34的像素值。在该实施例中,该设备附加地被配置为:基于确定第四方差图var4(i,j),其中,IΔ2(i,j)表示原始差异图片40中的坐标(i,j)处的对应像素44的像素值。
在实施例中,该设备被配置为:通过第三图对第一图进行逐像素加权来确定第九图,并且通过第六图对第二图进行逐像素加权来确定第十图。在该实施例中,该设备还被配置为:基于第九图和第十图来确定视频保真度度量。
在实施例中,该设备被配置为:确定第九图VDM1(i,j)=VIM1(i,j)×DM1(i,j),其中,DM1(i,j)表示第一图,并且VIM1(i,j)表示第三图。在该实施例中,该设备还被配置为:确定第十图VDM2(i,j)=VIM2(i,j)×DM2(i,j),其中,DM2(i,j)表示第二图,并且VIM2(i,j)表示第六图。
在实施例中,该设备被配置为:基于第九图的和∑i∑jVDM1(i,j)确定第一平均误差ME1(I1,I2),其中,I1,I2表示像素值,并且(i,j)表示失真图片10中的像素14以及原始图片20中的对应像素24的坐标。在该实施例中,该设备还被配置为:基于第十图的和∑i∑jVDM2(i,j)确定第二平均误差ME2(IΔ2,IΔ2),其中,IΔ1,IΔ2表示像素值,并且(i,j)表示失真差异图片30中的像素34以及原始差异图片40中的对应像素44的坐标。在该实施例中,该设备还被配置为:基于第一平均误差和第二平均误差确定视频保真度度量。
在实施例中,该设备被配置为:确定强度通道的第一平均误差ME1(Y1,Y2)和彩色通道的第一平均误差ME1(U1,U2),ME1(V1,V2),并确定强度通道的第二平均误差ME2(YΔ1,YΔ2)和彩色通道的第二平均误差ME2(UΔ1,UΔ2),ME2(VΔ1,VΔ2)。在该实施例中,该设备还被配置为:基于强度通道的第一平均误差和彩色通道的第一平均误差的归一化线性组合来确定第一图片质量等级PQR1(I1,I2),并基于强度通道的第二平均误差和彩色通道的第二平均误差的归一化线性组合来确定第二图片质量等级PQR2(IΔ1,IΔ2)。在该实施例中,该设备还被配置为:基于第一图片质量等级和第二图片质量等级的组合来确定视频保真度度量。
在实施例中,该设备被配置为:基于 确定第一图片质量等级,其中,c是大于0但小于1的正数,并且nY,nC是基于失真图片10和原始图片20的比特深度定义的归一化系数。在该实施例中,该设备还被配置为:基于确定第二图片质量等级,其中,nΔY,nΔC是基于失真差异图片30和原始差异图片40的比特深度定义的归一化系数。
在实施例中,该设备被配置为:确定视频序列1的多个失真图片10、11的相应视频质量。
因此,在实施例中,该设备被配置为:针对视频序列中的多个失真图片10、11中的每个失真图片10确定失真差异图片30作为视频序列1中的失真图片10的至少一部分12和失真图片10之前的先前失真图片11的至少对应的一部分13之间的逐像素差异。该设备还被配置为:针对多个失真图片10、11中的每个失真图片10确定原始差异图片40作为原始图片20的至少对应的一部分22和原始图片20之前的先前原始图片21的至少对应的一部分23之间的逐像素差异。该设备还被配置为:针对多个失真图片10、11中的每个失真图片10确定第一图,该第一图针对失真图片10的至少一部分12中的每个像素14表示像素14和原始图片20中的对应像素24之间的像素值失真。该设备还被配置为:针对多个失真图片10、11中的每个失真图片10确定第二图,该第二图针对失真差异图片30中的每个像素34表示像素34和原始差异图片40中的对应像素44之间的像素值失真。该设备还被配置为:针对多个失真图片10、11中的每个失真图10确定第三图作为第四图和第五图的聚合,第四图针对失真图片10的至少一部分12中的每个像素14表示像素值的局部可变性,并且第五图针对原始图片20中的每个对应像素24表示像素值的局部可变性。该设备还被配置为:针对多个失真图片10、11中的每个失真图片10确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片30的每个像素34表示像素值的局部可变性,并且第八图针对原始差异图片40中的每个对应像素44表示像素值的局部可变性。该设备还被配置为:针对多个失真图片10、11中的每个失真图片10,基于第一图、第二图、第三图和第六图确定失真图片10的视频保真度度量。
在实施例中,该设备被配置为:在针对多个失真图片10、11确定的多个各自的视频保真度度量中,选择视频保真度度量,作为视频序列1的视频保真度度量。
在实施例中,该设备被配置为:在多个视频保真度度量中选择表示最差视频保真度的视频保真度度量。
在实施例中,该设备被配置为:选择针对视频序列1中的多个连续失真图片10、11确定的视频保真度度量的范围。
在实施例中,该设备被配置为:将视频保真度度量转换为差异平均意见得分(DMOS)范围或平均意见得分(MOS)范围。
应当理解,本文描述的方法、方法步骤和设备、设备功能可以以各种方式实现、组合和重新布置。
例如,实施例可以用硬件、或用由适当的处理电路执行的软件、或其组合来实现。
本文所述的步骤、功能、过程、模块和/或框可以使用任何常规技术在硬件中实现,例如使用分立电路或集成电路技术,包括通用电子电路和专用电路二者。
备选地,或者作为补充,本文描述的步骤、功能、过程、模块和/或框中的至少一些可以在软件中实现,例如由合适的处理电路(例如一个或多个处理器或处理单元)来执行的计算机程序。
处理电路的示例包括但不限于:一个或多个微处理器、一个或多个数字信号处理器(DSP)、一个或多个中央处理单元(CPU)、视频加速硬件、和/或任何合适的可编程逻辑电路,如一个或多个现场可编程门阵列(FPGA)或者一个或多个可编程逻辑控制器(PLC)。
还应当理解,可以重用实现所提出技术的任何常规设备或单元的通用处理能力。例如,也可以通过对现有软件进行重新编程或通过添加新的软件组件来重用现有的软件。
图13是示出了根据实施例的用于确定视频序列的视频保真度度量的设备100的示例的示意性框图。在该特定示例中,设备100包括处理器101(例如,处理电路)以及存储器102。存储器102包括能够由处理器101执行的指令。
在实施例中,处理器101可操作用于:确定失真差异图片30作为视频序列1中的失真图片10的至少一部分12和先前失真图片11的至少对应的一部分13之间的逐像素差异。处理器101还可操作用于:确定原始差异图片40作为原始图片20的至少对应的一部分22和先前原始图片21的至少对应的一部分23之间的逐像素差异。处理器101还可操作用于:确定第一图,该第一图针对失真图片10的至少一部分12中的每个像素14表示该像素14和原始图片20中的对应像素24之间的像素值失真;以及确定第二图,该第二图针对失真差异图片30中的每个像素34表示该像素34和原始差异图片40中的对应像素44之间的像素值失真。处理器101附加地可操作用于:确定第三图作为第四图和第五图的聚合,第四图针对失真图片10的至少一部分12中的每个像素14表示像素值的局部可变性,并且第五图针对原始图片20中的每个对应像素24表示像素值的局部可变性。处理器101还可操作用于:确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片30中的每个像素34表示像素值的局部可变性,并且第八图针对原始差异图片40中的每个对应像素44表示像素值的局部可变性。处理器101还可操作用于:基于第一图、第二图、第三图和第六图确定视频保真度度量。
可选地,设备100还可以包括通信电路,由图13中的相应输入/输出(I/O)单元103表示。I/O单元103可以包括用于与有线或无线通信网络中的其他设备、服务器和/或网络节点进行有线和/或无线通信的功能。在特定示例中,I/O单元103可以基于用于与一个或多个其他节点进行通信(包括发送和/或接收信息)的无线电电路。I/O单元103可以互连到处理器101和/或存储器102。作为示例,I/O单元103可以包括以下中的任何一个:接收机、发射机、收发机、I/O电路、输入端口和/或输出端口。
图14是根据实施例的用于基于硬件电路实现来确定视频序列的视频保真度度量的设备110的示意性框图。合适的硬件电路的具体示例包括:一个或多个适当配置的或可能可重新配置的电子电路、专用集成电路(ASIC)、FPGA或任何其他硬件逻辑,诸如基于互连的分立逻辑门和/或触发器的用以与合适的寄存器(REG)和/或存储单元(MEM)一起执行专用功能的电路。
图15是示出了设备120的另一示例的示意性框图,该设备120用于基于处理器122、123和硬件电路124、125的组合并结合合适的存储器单元121来确定视频序列的视频保真度度量。因此,整体功能在用于在一个或多个处理器122、123上执行的编程软件与一个或多个预配置的或可能可重新配置的硬件电路124、125之间划分。实际的硬件-软件划分可以由系统设计人员根据众多因素来决定,所述因素包括处理速度、实施成本和其他要求。
图16是根据实施例的用于确定视频序列的视频保真度度量的设备200的基于计算机程序的实现。在该具体示例中,用计算机程序240来实现本文描述的步骤、功能、过程、模块和/或框中的至少一些,其中计算机程序240被加载到存储器220中,用于由包括一个或更多个处理器210的处理电路执行。处理器210和存储器220彼此互连,以实现正常的软件执行。可选的I/O单元230还可以互连到处理器210和/或存储器220,以实现相关数据(例如,图片和视频保真度度量)的输入和/或输出。
术语“处理器”应该在一般意义上解释为能够执行程序代码或计算机程序指令以执行特定的处理、确定或计算任务的任何电路、系统或设备。
因此,包括一个或多个处理器210的处理电路被配置为:在执行计算机程序240时执行例如本文描述的明确定义的处理任务。
处理电路不必须是专用于仅执行上述步骤、功能、过程和/或框,而是还可以执行其他任务。
在实施例中,计算机程序240包括指令,该指令当由至少一个处理器210执行时,使至少一个处理器210针对视频序列中的至少一个失真图片确定失真差异图片作为视频序列中的失真图片的至少一部分和先前失真图片的至少对应的一部分之间的逐像素差异。还使至少一个处理器210:针对视频序列中的至少一个失真图片,确定原始差异图片作为原始图片的至少对应的一部分和先前原始图片的至少对应的一部分之间的逐像素差异。还使至少一个处理器210:针对视频序列中的至少一个失真图片,确定第一图,该第一图针对失真图片的至少一部分中的每个像素表示该像素和原始图片中的对应像素之间的像素值失真。附加地使至少一个处理器210:针对视频序列中的至少一个失真图片,确定第二图,该第二图针对失真差异图片中的每个像素表示该像素和原始差异图片中的对应像素之间的像素值失真。还使至少一个处理器210:针对视频序列中的至少一个失真图片,确定第三图作为第四图和第五图的聚合,第四图针对失真图片的至少一部分中的每个像素表示像素值的局部可变性,并且第五图针对原始图片中的每个对应像素表示像素值的局部可变性。还使至少一个处理器210:针对视频序列中的至少一个失真图片,确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片中的每个像素表示像素值的局部可变性,并且第八图针对原始差异图片中的每个对应像素表示像素值的局部可变性。还使至少一个处理器210:针对视频序列中的至少一个失真图片,基于第一图、第二图、第三图和第六图确定视频保真度度量。
所提出的技术还提供了包括计算机程序240的载体250。载体250是电子信号、光信号、电磁信号、磁信号、电信号、无线电信号、微波信号或计算机可读存储介质中的一种。
作为示例,软件或计算机程序240存储在计算机可读存储介质(例如,存储器220),特别是非易失性介质上。计算机可读介质可包括一个或多个可移除或不可移除的存储设备,包括(但不限于):只读存储器(ROM)、随机存取存储器(RAM)、高密度盘(CD)、数字多用途盘(DVD)、蓝光盘、通用串行总线(USB)存储器、硬盘驱动器(HDD)存储设备、闪存、磁带或任何其它常规存储设备。因此,计算机程序240可以被加载到操作存储器220中,用于由处理电路210执行。
当由一个或多个处理器执行时,本文介绍的流程图可以被认为是计算机流程图。对应的设备可以被定义为一组功能模块,其中由处理器执行的每个步骤与功能模块相对应。在这种情况下,功能模块被实现为在处理器上运行的计算机程序。
因此,驻留在存储器中的计算机程序可以被组织为适当的功能模块,所述功能模块被配置为,当被处理器执行时,执行本文所述的步骤和/或任务的至少一部分。
图17是用于确定视频序列的视频保真度度量的设备130的框图。设备130包括第一差异确定模块131,其用于针对视频序列中的至少一个失真图片,确定失真差异图片作为视频序列中的失真图片的至少一部分和先前失真图片的至少对应的一部分之间的逐像素差异。设备130还包括第二差异确定模块132,其用于针对视频序列中的至少一个失真图片,确定原始差异图片作为原始图片的至少对应的一部分和先前原始图片的至少对应的一部分之间的逐像素差异。设备130还包括第一图确定模块133,其用于针对视频序列中的至少一个失真图片确定第一图,该第一图针对失真图片的至少一部分中的每个像素表示该像素和原始图片中的对应像素之间的像素值失真。设备130还包括第二图确定模块134,其用于针对视频序列中的至少一个失真图片确定第二图,该第二图针对失真差异图片中的每个像素表示该像素和原始差异图片中的对应像素之间的像素值失真。设备130还包括第三图确定模块135,其用于针对视频序列中的至少一个失真图片,确定第三图作为第四图和第五图的聚合,第四图针对失真图片的至少一部分中的每个像素表示像素值的局部可变性,并且第五图针对原始图片中的每个对应像素表示像素值的局部可变性。设备130还包括第六图确定模块136,其用于针对视频序列中的至少一个失真图片,确定第六图作为第七图和第八图的聚合,第七图针对失真差异图片中的每个像素表示像素值的局部可变性,并且第八图针对原始差异图片中的每个对应像素表示像素值的局部可变性。设备130还包括度量确定模块137,其用于针对视频序列中的至少一个失真图片,基于第一图、第二图、第三图和第六图确定视频保真度度量。
实施例的另一方面涉及如图18所示的编码器140。编码器140包括用于根据任何实施例确定视频序列的视频保真度度量的设备100、110、120、130,例如在图13-图17中的任何一个中所示。编码器140被配置为:根据多种编码方式,对视频序列中的原始图片的至少一部分进行编码,以获得多个编码后的候选图片部分,并对多个编码后的候选图片进行解码,以获得多个解码后的候选图片部分。编码器140还被配置为:在多个编码后的候选图片部分中,至少部分地基于由设备100、110、120、130针对多个解码后的候选图片部分中的每一部分确定的各自的视频保真度度量,选择编码后的候选图片部分作为原始图片的至少一部分的编码表示。
在实施例中,编码器140被配置为:针对多个解码后的候选图片部分中的每一部分,基于各自的视频保真度度量和表示用编码后的候选图片部分表示原始图片的至少一部分的比特成本的比率,确定各自的率失真度量。在该实施例中,编码器140还被配置为:在多个编码后的候选图片部分中,基于各自的率失真度量,选择编码后的候选图片部分作为原始图片的至少一部分的编码表示。
实施例的另一方面涉及用于选择编码器的编码器简档的设备150,如图19所示。设备150包括根据任何实施例的用于确定视频序列的视频保真度度量的设备100、110、120、130,例如在图13-图17中的任何一个中所示。设备150被配置为:使用多个编码器简档对视频序列中的至少一个原始图片进行编码,以获得多个编码图片,并对该多个编码图片进行解码,以获得多个解码图片。设备150还被配置为:在多个编码器简档中,至少部分地基于由用于确定视频保真度度量的设备100、110、120、130确定的各自的视频保真度度量来选择用于编码器的编码器简档。
在诸如网络节点和/或服务器之类的网络设备中提供计算服务(硬件和/或软件)也变得日益普遍,其中资源被作为服务通过网络提供给远程位置。举例而言,这意味着如本文所述的功能可被分布或重新定位到一个或多个分离的物理节点或服务器。该功能可被重新定位或分布到可位于分离的物理节点的一个或多个联合工作的物理和/或虚拟机器中,即在所谓的云中。这有时也被称为云计算,云计算是一种支持对诸如网络、服务器、存储设备、应用和通用或定制服务等可配置计算资源的池的随时随地的按需网络访问的模型。
存在在这种上下文中可能有用的不同形式的虚拟化,包括以下一种或多种:
·将网络功能统一到运行在定制或通用硬件上的虚拟化软件中。这有时被称为网络功能虚拟化。
·将在分离的硬件上运行的一个或多个应用堆栈(包括操作系统)共同定位在单个硬件平台上。这有时被称为系统虚拟化或平台虚拟化。
·硬件和/或软件资源的共同定位的目的是使用一些高级的域级别调度和协调技术来获得改善的系统资源利用率。这有时被称为资源虚拟化、或者集中式和协调式资源汇集。
虽然将功能集中到所谓的通用数据中心经常是期望的,但在其他场景中实际上将功能分布在网络的不同部分上可能是有利的。
网络设备通常可以被视为通信连接到网络中的其他电子设备的电子设备。作为示例,网络设备可以用硬件、软件或其组合来实现。例如,网络设备可以是专用网络设备或通用网络设备或其混合。
专用网络设备可以使用定制处理电路和专有操作系统(OS)来执行软件以提供本文公开的特征或功能中的一个或多个。
通用网络设备可以使用公共现成(COTS)处理器和标准OS来执行软件,所述软件配置为提供本文公开的特征或功能中的一个或多个。
作为示例,专用网络设备可以包括硬件、物理网络接口(NI)以及其上存储有软件的非暂时性机器可读存储介质,所述硬件包括处理或计算资源,其通常包括一个或多个处理器构成的集合,所述物理网络接口(NI)有时被称为物理端口。物理NI可被视为网络设备中的用于进行网络连接的硬件,所述网络连接例如通过无线网络接口控制器(WNIC)以无线方式来进行或者通过将缆线插入连接到网络接口控制器(NIC)的物理端口来进行。在操作期间,软件可以被硬件执行,以实例化一个或多个软件实例的集合。每个软件实例以及执行该软件实例的硬件的部分可以形成单独的虚拟网络单元。
作为另一示例,通用网络设备可以例如包括硬件和NIC以及其上存储有软件的非暂时性机器可读存储介质,所述硬件包括一个或多个处理器(通常是COTS处理器)的集合。在操作期间,处理器执行软件以实例化一个或多个应用的一个或多个集合。虽然一个实施例不实现虚拟化,但是备选实施例可以使用不同形式的虚拟化——例如由虚拟化层和软件容器来表示。例如,一个这样的备选实施例实现了操作系统级别的虚拟化,在这种情况下,虚拟化层代表允许创建多个软件容器的操作系统内核或在基础操作系统上执行的垫片(shim),每个软件容器可被用来执行应用集合之一。在示例实施例中,每个软件容器(也称为虚拟化引擎、虚拟专用服务器或空间(jail))是用户空间实例(通常是虚拟存储空间)。这些用户空间实例可以彼此分离并与执行操作系统的内核空间分离。然后,除非明确允许,否则在给定用户空间中运行的应用集合不能访问其他进程的存储器。另一个这样的备选实施例实现完全虚拟化,在这种情况下:1)虚拟化层表示管理程序(有时称为虚拟机监视器(VMM)),或者管理程序在主机操作系统之上执行;以及,2)每个软件容器表示由管理程序执行的并且可以包括客户操作系统的被称为虚拟机的软件容器的严格隔离形式。
管理程序是负责创建和管理各种虚拟化实例以及在某些情况下创建和管理实际物理硬件的软件/硬件。管理程序管理底层资源并将它们呈现为虚拟化实例。管理程序虚拟化以作为单个处理器呈现的内容实际上可以包括多个分开的处理器。从操作系统的角度,虚拟化实例看起来是实际的硬件组件。
虚拟机是运行程序的物理机器的软件实现,在运行程序时就好像它们在物理的非虚拟化的机器上执行一样;以及,应用一般不知道它们运行在虚拟机上而不是运行在“纯金属”的主机电子设备上,然而出于优化目的,一些系统提供允许操作系统或应用能够意识到存在虚拟化的半虚拟化(para-virtualization)。
一个或多个应用的一个或多个集合的实例化以及虚拟化层和软件容器(如果实现)统称为软件实例。每个应用集合、相应的软件容器(如果实现)以及执行它们的硬件的部分(其是专用于该执行的硬件和/或被软件容器在时间上共享的硬件的时间片)形成单独的虚拟网络元件。
虚拟网络元件可以执行与虚拟网络元件(VNE)类似的功能。这种硬件虚拟化有时被称为网络功能虚拟化(NFV)。因此,NFV可以用于将许多网络设备类型统一到工业标准高容量服务器硬件、物理交换机和物理存储器,它们可以位于数据中心、网络设备、和用户驻地设备(CPE)中。然而,不同实施例可以用不同方式来实现软件容器中的一个或多个。例如,虽然使用与VNE对应的每个软件容器说明了各个实施例,但是备选实施例能够在更精细的粒度级别实现软件容器-VNE之间的这种对应关系或映射。应当理解,本文参考软件容器与VNE的对应关系来描述的技术同样适用于使用这种更精细粒度级别的实施例。
根据另一实施例,提供了一种混合网络设备,其在网络设备(例如,在网络设备内的卡或电路板)中既包括定制处理电路/专有OS也包括COTS处理器/标准OS。在这种混合网络设备的某些实施例中,平台虚拟机(VM)(如实现专用网络设备的功能的VM)可以向混合网络设备中存在的硬件提供半虚拟化。
图20是示出了一般情况下如何在不同网络设备之间分布或划分功能的示例的示意图。在该示例中,至少有两个单独的但互连的网络设备300、310,它们可以具有在网络设备300、310之间划分的不同的功能,或者相同功能的部分。可能存在附加的网络设备320,其是这种分布式实现的一部分。网络设备300、310、320可以是同一无线或有线通信系统的一部分,或者一个或多个网络设备可以是位于无线或有线通信系统外部的所谓的基于云的网络设备。
如本文所使用的,术语“网络设备”可以指与通信网络相关定位的任何设备,包括但不限于接入网络、核心网络和类似网络结构中的设备。术语“网络设备”还可以包括基于云的网络设备。
因此,实施例的另一方面涉及一种网络设备,该网络设备包括:根据实施例的用于确定视频的视频保真度度量的设备,例如图13-图17中的任一个所示;根据实施例的编码器,例如图18所示;和/或根据实施例的用于选择编码器的编码器简档的设备,例如图19所示。
图21是示出了无线通信系统的示例的示意图,该无线通信系统包括与一个或多个基于云的网络设备300协作的无线电接入网(RAN)51和核心网52以及可选地运营支撑系统(OSS)53。该图还示出了连接到RAN 31并且能够与RAN节点50(例如,网络节点、基站、节点B(NB)、演进型节点B(eNB)、下一代节点B(gNB)等)进行无线通信的无线设备55。
在图21中示出为基于云的网络设备300的网络设备300可以备选地与RAN节点50结合(例如在RAN节点50处)实现。
特别地,所提出的技术可以应用于特定的应用和通信场景,包括在无线网络内提供各种服务,包括所谓的过顶(Over-the-Top)(OTT)服务。例如,所提出的技术可以实现和/或包括无线通信中的相关用户数据和/或控制数据的传输和/或发送和/或接收。
在下文中,现在将参照图22至图26描述一组说明性的非限制性示例。
图22是示出了根据一些实施例的无线网络的示例的示意图。
虽然本文所述的主题可以使用任何合适的组件在任何适合类型的系统中实现,但是本文公开的实施例是关于无线网络(例如,图22中所示的示例无线网络)描述的。为简单起见,图22的无线网络仅描绘了网络QQ106、网络节点QQ160和QQ160B、以及无线设备(WD)QQ110、QQ110B和QQ110C。实际上,无线网络还可以包括适于支持无线设备之间或无线设备与另一通信设备(例如,陆线电话、服务提供商或任何其他网络节点或终端设备)之间的通信的任何附加元件。在所示组件中,以附加细节描绘网络节点QQ160和WD QQ110。无线网络可以向一个或多个无线设备提供通信和其他类型的服务,以便于无线设备接入和/或使用由无线网络提供或经由无线网络提供的服务。
无线网络可以包括任何类型的通信、电信、数据、蜂窝和/或无线电网络或其他类似类型的系统,和/或与任何类型的通信、电信、数据、蜂窝和/或无线电网络或其他类似类型的系统接口连接。在一些实施例中,无线网络可以被配置为根据特定标准或其他类型的预定义规则或过程来操作。因此,无线通信网络的特定实施例可以实现诸如全球移动通信系统(GSM)、通用移动电信系统(UMTS)、长期演进(LTE)和/或其他合适的2G、3G、4G或5G标准之类的通信标准;诸如IEEE 802.11标准之类的无线局域网(WLAN)标准;和/或诸如全球微波接入互操作性(WiMax)、蓝牙、Z-Wave和/或ZigBee标准之类的任何其他适合的无线通信标准。
网络QQ106可以包括一个或多个回程网络、核心网络、IP网络、公共交换电话网络(PSTN)、分组数据网络、光网络、广域网(WAN)、局域网(LAN)、无线局域网(WLAN)、有线网络、无线网络、城域网和其他网络,以实现设备之间的通信。
网络节点QQ160和WD QQ110包括下面更详细描述的各种组件。这些组件一起工作以提供网络节点和/或无线设备功能,例如在无线网络中提供无线连接。在不同的实施例中,无线网络可以包括任何数量的有线或无线网络、网络节点、基站、控制器、无线设备、中继站和/或可以促进或参与数据和/或信号的通信(无论是经由有线连接还是经由无线连接)的任何其他组件或系统。
如本文所使用的,“网络节点”指的是能够、被配置、被布置和/或可操作以直接或间接地与无线设备和/或与无线网络中的其他网络节点或设备通信,以实现和/或提供向无线设备的无线接入和/或执行无线网络中的其他功能(例如,管理)的设备。网络节点的示例包括但不限于接入点(AP)(例如,无线电接入点)、基站(BS)(例如,无线电基站、节点B(NodeB)、演进NodeB(eNB)和NR NodeB(gNB))。基站可以基于它们提供的覆盖的量(或者换言之,基于它们的发射功率水平)来分类,于是它们还可以被称为毫微微基站、微微基站、微基站或宏基站。基站可以是中继节点或控制中继的中继宿主节点。网络节点还可以包括分布式无线电基站的一个或多个(或所有)部分,例如集中式数字单元和/或远程无线电单元(RRU)(有时被称为远程无线电头端(RRH))。这种远程无线电单元可以与或可以不与天线集成为天线集成无线电。分布式无线电基站的部分也可以称为分布式天线系统(DAS)中的节点。网络节点的又一些示例包括多标准无线电(MSR)设备(如MSR BS)、网络控制器(如无线电网络控制器(RNC)或基站控制器(BSC))、基站收发机站(BTS)、传输点、传输节点、多小区/多播协调实体(MCE)、核心网络节点(例如,MSC、MME)、O&M节点、OSS节点、SON节点、定位节点(例如,E-SMLC)和/或MDT。作为另一示例,网络节点可以是虚拟网络节点,如下面更详细描述的。然而,更一般地,网络节点可以表示如下的任何合适的设备(或设备组):该设备(或设备组)能够、被配置、被布置和/或可操作以实现和/或向无线设备提供对无线网络的接入,或向已接入无线网络的无线设备提供某种服务。
在图22中,网络节点QQ160包括处理电路QQ170、设备可读介质QQ180、接口QQ190、辅助设备QQ184、电源QQ186、电源电路QQ187和天线QQ162。尽管图22的示例无线网络中示出的网络节点QQ160可以表示包括所示硬件组件的组合的设备,但是其他实施例可以包括具有不同组件组合的网络节点。应当理解,网络节点包括执行本文公开的任务、特征、功能和方法所需的硬件和/或软件的任何适合组合。此外,虽然网络节点QQ160的组件被描绘为位于较大框内或嵌套在多个框内的单个框,但实际上,网络节点可包括构成单个图示组件的多个不同物理组件(例如,设备可读介质QQ180可以包括多个单独的硬盘驱动器以及多个RAM模块)。
类似地,网络节点QQ160可以由多个物理上分离的组件(例如,NodeB组件和RNC组件、或BTS组件和BSC组件等)组成,每个这些组件可以具有其各自的相应组件。在网络节点QQ160包括多个分离的组件(例如,BTS和BSC组件)的某些场景中,可以在若干网络节点之间共享这些分离的组件中的一个或多个。例如,单个RNC可以控制多个NodeB。在这种场景中,每个唯一的NodeB和RNC对在一些实例中可以被认为是单个单独的网络节点。在一些实施例中,网络节点QQ160可被配置为支持多种无线电接入技术(RAT)。在这种实施例中,一些组件可被复制(例如,用于不同RAT的单独的设备可读介质QQ180),并且一些组件可被重用(例如,可以由RAT共享相同的天线QQ162)。网络节点QQ160还可以包括用于集成到网络节点QQ160中的不同无线技术(例如,GSM、WCDMA、LTE、NR、WiFi或蓝牙无线技术)的多组各种所示组件。这些无线技术可以被集成到网络节点QQ160内的相同或不同芯片或芯片组和其他组件中。
处理电路QQ170被配置为执行本文描述为由网络节点提供的任何确定、计算或类似操作(例如,某些获得操作)。由处理电路QQ170执行的这些操作可以包括通过以下操作对由处理电路QQ170获得的信息进行处理:例如,将获得的信息转换为其他信息,将获得的信息或转换后的信息与存储在网络节点中的信息进行比较,和/或基于获得的信息或转换后的信息执行一个或多个操作,并根据所述处理的结果做出确定。
处理电路QQ170可以包括下述中的一个或多个的组合:微处理器、控制器、微控制器、中央处理单元、数字信号处理器、专用集成电路、现场可编程门阵列、或者任何其它合适的计算设备、资源、或硬件、软件和/或编码逻辑的组合,其可操作为单独地或与其他网络节点QQ160组件(例如,设备可读介质QQ180)相结合来提供网络节点QQ160功能。例如,处理电路QQ170可以执行存储在设备可读介质QQ180中或存储在处理电路QQ170内的存储器中的指令。这样的功能可以包括提供本文讨论的各种无线特征、功能或益处中的任何一个。在一些实施例中,处理电路QQ170可以包括片上系统(SOC)。
在一些实施例中,处理电路QQ170可以包括射频(RF)收发机电路QQ172和基带处理电路QQ174中的一个或多个。在一些实施例中,射频(RF)收发机电路QQ172和基带处理电路QQ174可以位于单独的芯片(或芯片组)、板或单元(例如无线电单元和数字单元)上。在备选实施例中,RF收发机电路QQ172和基带处理电路QQ174的部分或全部可以在同一芯片或芯片组、板或单元上。
在某些实施例中,本文描述为由网络节点、基站、eNB或其他这样的网络设备提供的一些或所有功能可由处理电路QQ170执行,处理电路QQ170执行存储在设备可读介质QQ180或处理电路QQ170内的存储器上的指令。在备选实施例中,功能中的一些或全部可以例如以硬连线方式由处理电路QQ170提供,而无需执行存储在单独的或分立的设备可读介质上的指令。在任何这些实施例中,无论是否执行存储在设备可读存储介质上的指令,处理电路QQ170都可以被配置为执行所描述的功能。由这种功能提供的益处不仅限于处理电路QQ170或不仅限于网络节点QQ160的其他组件,而是作为整体由网络节点QQ160和/或总体上由终端用户和无线网络享有。
设备可读介质QQ180可以包括任何形式的易失性或非易失性计算机可读存储器,包括但不限于永久存储设备、固态存储器、远程安装存储器、磁介质、光学介质、随机存取存储器(RAM)、只读存储器(ROM)、大容量存储介质(例如,硬盘)、可移除存储介质(例如,闪存驱动器、致密盘(CD)或数字视频盘(DVD))和/或任何其他易失性或非易失性、非暂时性设备可读和/或计算机可执行存储器设备,其存储可由处理电路QQ170使用的信息、数据和/或指令。设备可读介质QQ180可以存储任何合适的指令、数据或信息,包括计算机程序、软件、包括逻辑、规则、代码、表等中的一个或多个的应用、和/或能够由处理电路QQ170执行并由网络节点QQ160使用的其他指令。设备可读介质QQ180可以用于存储由处理电路QQ170做出的任何计算和/或经由接口QQ190接收的任何数据。在一些实施例中,可以认为处理电路QQ170和设备可读介质QQ180是集成的。
接口QQ190用于网络节点QQ160、网络QQ106和/或WD QQ110之间的信令和/或数据的有线或无线通信。如图所示,接口QQ190包括端口/端子QQ194,用于例如通过有线连接向网络QQ106发送数据和从网络QQ106接收数据。接口QQ190还包括无线电前端电路QQ192,其可以耦合到天线QQ162,或者在某些实施例中是天线QQ162的一部分。无线电前端电路QQ192包括滤波器QQ198和放大器QQ196。无线电前端电路QQ192可以连接到天线QQ162和处理电路QQ170。无线电前端电路可以被配置为调节天线QQ162和处理电路QQ170之间通信的信号。无线电前端电路QQ192可以接收数字数据,该数字数据将通过无线连接向外发送给其他网络节点或WD。无线电前端电路QQ192可以使用滤波器QQ198和/或放大器QQ196的组合将数字数据转换为具有适合信道和带宽参数的无线电信号。然后可以通过天线QQ162发送无线电信号。类似地,当接收数据时,天线QQ162可以收集无线电信号,然后由无线电前端电路QQ192将其转换为数字数据。数字数据可以被传递给处理电路QQ170。在其他实施例中,接口可包括不同组件和/或组件的不同组合。
在某些备选实施例中,网络节点QQ160可以不包括单独的无线电前端电路QQ192,作为替代,处理电路QQ170可以包括无线电前端电路并且可以连接到天线QQ162,而无需单独的无线电前端电路QQ192。类似地,在一些实施例中,RF收发机电路QQ172的全部或一些可以被认为是接口QQ190的一部分。在其他实施例中,接口QQ190可以包括一个或多个端口或端子QQ194、无线电前端电路QQ192和RF收发机电路QQ172(作为无线电单元(未示出)的一部分),并且接口QQ190可以与基带处理电路QQ174(是数字单元(未示出)的一部分)通信。
天线QQ162可以包括被配置为发送和/或接收无线信号的一个或多个天线或天线阵列。天线QQ162可以耦合到无线电前端电路QQ190,并且可以是能够无线地发送和接收数据和/或信号的任何类型的天线。在一些实施例中,天线QQ162可以包括一个或多个全向、扇形或平板天线,其可操作用于发送/接收在例如2GHz和66GHz之间的无线电信号。全向天线可以用于在任何方向上发送/接收无线电信号,扇形天线可以用于向/从在特定区域内的设备发送/接收无线电信号,以及平板天线可以是用于以相对直线的方式发送/接收无线电信号的视线天线。在一些情况下,使用多于一个天线可以称为MIMO。在某些实施例中,天线QQ162可以与网络节点QQ160分离,并且可以通过接口或端口连接到网络节点QQ160。
天线QQ162、接口QQ190和/或处理电路QQ170可以被配置为执行本文描述为由网络节点执行的任何接收操作和/或某些获得操作。可以从无线设备、另一网络节点和/或任何其他网络设备接收任何信息、数据和/或信号。类似地,天线QQ162、接口QQ190和/或处理电路QQ170可以被配置为执行本文描述的由网络节点执行的任何发送操作。可以将任何信息、数据和/或信号发送给无线设备、另一网络节点和/或任何其他网络设备。
电源电路QQ187可以包括电源管理电路或耦合到电源管理电路,并且被配置为向网络节点QQ160的组件提供电力以执行本文描述的功能。电源电路QQ187可以从电源QQ186接收电力。电源QQ186和/或电源电路QQ187可以被配置为以适合于各个组件的形式(例如,在每个相应组件所需的电压和电流水平处)向网络节点QQ160的各种组件提供电力。电源QQ186可以被包括在电源电路QQ187和/或网络节点QQ160中或在电源电路QQ187和/或网络节点QQ160外部。例如,网络节点QQ160可以经由输入电路或诸如电缆的接口连接到外部电源(例如,电源插座),由此外部电源向电源电路QQ187供电。作为另一个示例,电源QQ186可以包括电池或电池组形式的电源,其连接到或集成在电源电路QQ187中。如果外部电源发生故障,电池可以提供备用电力。也可以使用其他类型的电源,例如光伏器件。
网络节点QQ160的备选实施例可以包括超出图22中所示的组件的附加组件,所述附加组件可以负责提供网络节点的功能(包括本文描述的功能中的任一者和/或支持本文描述的主题所需的任何功能)的某些方面。例如,网络节点QQ160可以包括用户接口设备,以允许将信息输入到网络节点QQ160中并允许从网络节点QQ160输出信息。这可以允许用户针对网络节点QQ160执行诊断、维护、修复和其他管理功能。
如本文所使用的,WD指的是能够、被配置为、被布置为和/或可操作以与网络节点和/或其他无线设备无线通信的设备。除非另有说明,否则术语WD在本文中可与用户设备(UE)互换使用。无线传送可以包括使用电磁波、无线电波、红外波和/或适于通过空气传送信息的其他类型的信号来发送和/或接收无线信号。在一些实施例中,WD可以被配置为在没有直接人类交互的情况下发送和/或接收信息。例如,WD可以被设计为当由内部或外部事件触发时,或者响应于来自网络的请求,以预定的调度向网络发送信息。WD的示例包括但不限于智能电话、移动电话、蜂窝电话、IP语音(VoIP)电话、无线本地环路电话、台式计算机、个人数字助理(PDA)、无线摄像头、游戏控制台或设备、音乐存储设备、回放设备、可穿戴终端设备、无线端点、移动台、平板计算机、便携式计算机、便携式嵌入式设备(LEE)、便携式安装设备(LME)、智能设备、无线客户驻地设备(CPE)、车载无线终端设备等。WD可以例如通过实现用于副链路通信的3GPP标准来支持设备到设备(D2D)通信、车辆到车辆(V2V)通信,车辆到基础设施(V2I)通信,车辆到任何事物(V2X)通信,并且在这种情况下可以被称为D2D通信设备。作为又一特定示例,在物联网(IoT)场景中,WD可以表示执行监视和/或测量并将这种监测和/或测量的结果发送给另一WD和/或网络节点的机器或其他设备。在这种情况下,WD可以是机器到机器(M2M)设备,在3GPP上下文中它可以被称为MTC设备。作为一个具体示例,WD可以是实现3GPP窄带物联网(NB-IoT)标准的UE。这种机器或设备的具体示例是传感器、计量设备(例如,电表)、工业机器、或者家用或个人设备(例如,冰箱、电视等)、个人可穿戴设备(例如,手表、健身追踪器等)。在其他场景中,WD可以表示能够监视和/或报告其操作状态或与其操作相关联的其他功能的车辆或其他设备。如上所述的WD可以表示无线连接的端点,在这种情况下,该设备可以被称为无线终端。此外,如上所述的WD可以是移动的,在这种情况下,它也可以称为移动设备或移动终端。
如图所示,无线设备QQ110包括天线QQ111、接口QQ114、处理电路QQ120、设备可读介质QQ130、用户接口设备QQ132、辅助设备QQ134、电源QQ136和电源电路QQ137。WD QQ110可以包括用于WD QQ110支持的不同无线技术(例如,GSM、WCDMA、LTE、NR、WiFi、WiMAX或蓝牙无线技术,仅提及一些)的多组一个或多个所示组件。这些无线技术可以集成到与WD QQ110内的其他组件相同或不同的芯片或芯片组中。
天线QQ111可以包括被配置为发送和/或接收无线信号的一个或多个天线或天线阵列,并且连接到接口QQ114。在某些备选实施例中,天线QQ111可以与WD QQ110分开并且可以通过接口或端口连接到WD QQ110。天线QQ111、接口QQ114和/或处理电路QQ120可以被配置为执行本文描述为由WD执行的任何接收或发送操作。可以从网络节点和/或另一个WD接收任何信息、数据和/或信号。在一些实施例中,无线电前端电路和/或天线QQ111可以被认为是接口。
如图所示,接口QQ114包括无线电前端电路QQ112和天线QQ111。无线电前端电路QQ112包括一个或多个滤波器QQ118和放大器QQ116。无线电前端电路QQ114连接到天线QQ111和处理电路QQ120,并且被配置为调节在天线QQ111和处理电路QQ120之间传送的信号。无线电前端电路QQ112可以耦合到天线QQ111或者是天线QQ111的一部分。在某些备选实施例中,WD QQ110可以不包括单独的无线电前端电路QQ112;而是,处理电路QQ120可以包括无线电前端电路,并且可以连接到天线QQ111。类似地,在一些实施例中,RF收发机电路QQ122中的一些或全部可以被认为是接口QQ114的一部分。无线电前端电路QQ112可以接收数字数据,该数字数据将通过无线连接向外发送给其他网络节点或WD。无线电前端电路QQ112可以使用滤波器QQ118和/或放大器QQ116的组合将数字数据转换为具有适合信道和带宽参数的无线电信号。然后可以通过天线QQ111发送无线电信号。类似地,当接收数据时,天线QQ111可以收集无线电信号,然后由无线电前端电路QQ112将其转换为数字数据。数字数据可以被传递给处理电路QQ120。在其他实施例中,接口可包括不同组件和/或组件的不同组合。
处理器电路QQ120可以包括下述中的一个或多个的组合:微处理器、控制器、微控制器、中央处理单元、数字信号处理器、专用集成电路、现场可编程门阵列、或者任何其它合适的计算设备、资源、或硬件、软件和/或编码逻辑的组合,其可操作为单独地或与其他WDQQ110组件(例如设备可读介质QQ130)相结合来提供WD QQ110功能。这样的功能可以包括提供本文讨论的各种无线特征或益处中的任何一个。例如,处理电路QQ120可以执行存储在设备可读介质QQ130中或处理电路QQ120内的存储器中的指令,以提供本文公开的功能。
如图所示,处理电路QQ120包括RF收发机电路QQ122、基带处理电路QQ124和应用处理电路QQ126中的一个或多个。在其他实施例中,处理电路可以包括不同的组件和/或组件的不同组合。在某些实施例中,WD QQ110的处理电路120可以包括SOC。在一些实施例中,RF收发机电路QQ122、基带处理电路QQ124和应用处理电路QQ126可以在单独的芯片或芯片组上。在备选实施例中,基带处理电路QQ124和应用处理电路QQ126的一部分或全部可以组合成一个芯片或芯片组,并且RF收发机电路QQ122可以在单独的芯片或芯片组上。在另外的备选实施例中,RF收发机电路QQ122和基带处理电路QQ124的一部分或全部可以在同一芯片或芯片组上,并且应用处理电路QQ126可以在单独的芯片或芯片组上。在其他备选实施例中,RF收发机电路QQ122、基带处理电路QQ124和应用处理电路QQ126的一部分或全部可以组合在同一芯片或芯片组中。在一些实施例中,RF收发机电路QQ122可以是接口QQ114的一部分。RF收发机电路QQ122可以调节RF信号以用于处理电路QQ120。
在某些实施例中,本文描述为由WD执行的一些或所有功能可以由处理电路QQ120提供,处理电路QQ120执行存储在设备可读介质QQ130上的指令,在某些实施例中,设备可读介质QQ130可以是计算机可读存储介质。在备选实施例中,功能中的一些或全部可以例如以硬连线方式由处理电路QQ120提供,而无需执行存储在单独的或分立的设备可读存储介质上的指令。在任何这些特定实施例中,无论是否执行存储在设备可读存储介质上的指令,处理电路QQ120都可以被配置为执行所描述的功能。由这种功能提供的益处不仅限于处理电路QQ120或者不仅限于WD QQ110的其他组件,而是作为整体由WD QQ110和/或总体上由终端用户和无线网络享有。
处理电路QQ120可以被配置为执行本文描述为由WD执行的任何确定、计算或类似操作(例如,某些获得操作)。由处理电路QQ120执行的这些操作可以包括通过以下操作对由处理电路QQ120获得的信息进行处理:例如,将获得的信息转换为其他信息,将获得的信息或转换后的信息与由WD QQ110存储的信息进行比较,和/或基于获得的信息或转换后的信息执行一个或多个操作,并根据所述处理的结果做出确定。
设备可读介质QQ130可操作以存储计算机程序、软件、包括逻辑、规则、代码、表等中的一个或多个的应用、和/或能够由处理电路QQ120执行的其他指令。设备可读介质QQ130可以包括计算机存储器(例如,随机存取存储器(RAM)或只读存储器(ROM))、大容量存储介质(例如,硬盘)、可移除存储介质(例如,致密盘(CD)或数字视频盘(DVD))、和/或任何其他易失性或非易失性、非暂时性设备可读和/或计算机可执行存储器设备,其存储可由处理电路QQ120使用的信息、数据和/或指令。在一些实施例中,可以认为处理电路QQ120和设备可读介质QQ130是集成的。
用户接口设备QQ132可以提供允许人类用户与WD QQ110交互的组件。这种交互可以具有多种形式,例如视觉、听觉、触觉等。用户接口设备QQ132可操作以向用户产生输出,并允许用户向WD QQ110提供输入。交互的类型可以根据安装在WD QQ110中的用户接口设备QQ132的类型而变化。例如,如果WD QQ110是智能电话,则交互可以经由触摸屏进行;如果WDQQ110是智能仪表,则交互可以通过提供用量的屏幕(例如,使用的加仑数)或提供可听警报的扬声器(例如,如果检测到烟雾)进行。用户接口设备QQ132可以包括输入接口、设备和电路、以及输出接口、设备和电路。用户接口设备QQ132被配置为允许将信息输入到WD QQ110中,并且连接到处理电路QQ120以允许处理电路QQ120处理输入信息。用户接口设备QQ132可以包括例如麦克风、接近或其他传感器、按键/按钮、触摸显示器、一个或多个相机、USB端口或其他输入电路。用户接口设备QQ132还被配置为允许从WD QQ110输出信息,并允许处理电路QQ120从WD QQ110输出信息。用户接口设备QQ132可以包括例如扬声器、显示器、振动电路、USB端口、耳机接口或其他输出电路。通过使用用户接口设备QQ132的一个或多个输入和输出接口、设备和电路,WD QQ110可以与终端用户和/或无线网络通信,并允许它们受益于本文描述的功能。
辅助设备QQ134可操作以提供可能通常不由WD执行的更具体的功能。这可以包括用于针对各种目的进行测量的专用传感器,用于诸如有线通信等之类的其他类型通信的接口等。辅助设备QQ134的组件的包括和类型可以根据实施例和/或场景而变化。
在一些实施例中,电源QQ136可以是电池或电池组的形式。也可以使用其他类型的电源,例如外部电源(例如电源插座)、光伏器件或电池单元。WD QQ110还可以包括用于从电源QQ136向WD QQ110的各个部分输送电力的电源电路QQ137,WD QQ110的各个部分需要来自电源QQ136的电力以执行本文描述或指示的任何功能。在某些实施例中,电源电路QQ137可以包括电源管理电路。电源电路QQ137可以附加地或备选地可操作以从外部电源接收电力;在这种情况下,WD QQ110可以通过输入电路或诸如电力线缆的接口连接到外部电源(例如电源插座)。在某些实施例中,电源电路QQ137还可操作以将电力从外部电源输送到电源QQ136。例如,这可以用于电源QQ136的充电。电源电路QQ137可以对来自电源QQ136的电力执行任何格式化、转换或其他修改,以使电力适合于被供电的WD QQ110的各个组件。
图23是示出了根据本文所描述的各个方面的UE的实施例的示例的示意图。如本文中所使用的,“用户设备”或“UE”可能不一定具有在拥有和/或操作相关设备的人类用户的意义上的“用户”。作为替代,UE可以表示意在向人类用户销售或由人类用户操作但可能不或最初可能不与特定的人类用户相关联的设备(例如,智能喷水控制器)。备选地,UE可以表示不意在向终端用户销售或由终端用户操作但可以与用户的利益相关联或针对用户的利益操作的设备(例如,智能电表)。UE QQ2200可以是由第三代合作伙伴计划(3GPP)识别的任何UE,包括NB-IoT UE、机器类型通信(MTC)UE和/或增强型MTC(eMTC)UE。如图23所示,UEQQ200是根据第三代合作伙伴计划(3GPP)发布的一个或多个通信标准(例如3GPP的GSM、UMTS、LTE和/或5G标准)被配置用于通信的WD的一个示例。如前所述,术语WD和UE可以互换使用。因此,尽管图23是UE,但是本文讨论的组件同样适用于WD,反之亦然。
在图23中,UE QQ200包括处理电路QQ201,其可操作地耦合到输入/输出接口QQ205、射频(RF)接口QQ209、网络连接接口QQ211、包括随机存取存储器(RAM)QQ217、只读存储器(ROM)QQ219和存储介质QQ221等的存储器QQ215、通信子系统QQ231、电源QQ233和/或任何其他组件,或其任意组合。存储介质QQ221包括操作系统QQ223、应用程序QQ225和数据QQ227。在其他实施例中,存储介质QQ221可以包括其他类似类型的信息。某些UE可以使用图21中所示的所有组件,或者仅使用这些组件的子集。组件之间的集成水平可以从一个UE到另一个UE而变化。此外,某些UE可以包含组件的多个实例,例如多个处理器、存储器、收发机、发射机、接收机等。
在图23中,处理电路QQ201可以被配置为处理计算机指令和数据。处理电路QQ201可以被配置为实现任何顺序状态机,其可操作为执行存储为存储器中的机器可读计算机程序的机器指令,所述状态机例如是:一个或多个硬件实现的状态机(例如,以离散逻辑、FPGA、ASIC等来实现);可编程逻辑连同适当的固件;一个或多个存储的程序、通用处理器(例如,微处理器或数字信号处理器(DSP))连同适合的软件;或以上的任何组合。例如,处理电路QQ201可以包括两个中央处理单元(CPU)。数据可以是适合于由计算机使用的形式的信息。
在所描绘的实施例中,输入/输出接口QQ205可以被配置为向输入设备、输出设备或输入和输出设备提供通信接口。UE QQ200可以被配置为经由输入/输出接口QQ205使用输出设备。输出设备可以使用与输入设备相同类型的接口端口。例如,USB端口可用于提供向UE QQ200的输入和从UE QQ200的输出。输出设备可以是扬声器、声卡、视频卡、显示器、监视器、打印机、致动器、发射机、智能卡、另一输出设备或其任意组合。UE QQ200可以被配置为经由输入/输出接口QQ205使用输入设备以允许用户将信息捕获到UE QQ200中。输入设备可以包括触摸敏感或存在敏感显示器、相机(例如,数字相机、数字摄像机、网络相机等)、麦克风、传感器、鼠标、轨迹球、方向板、触控板、滚轮、智能卡等。存在敏感显示器可以包括电容式或电阻式触摸传感器以感测来自用户的输入。传感器可以是例如加速度计、陀螺仪、倾斜传感器、力传感器、磁力计、光学传感器、接近传感器、另一类似传感器或其任意组合。例如,输入设备可以是加速度计、磁力计、数字相机、麦克风和光学传感器。
在图23中,RF接口QQ209可以被配置为向诸如发射机、接收机和天线之类的RF组件提供通信接口。网络连接接口QQ211可以被配置为提供对网络QQ243A的通信接口。网络QQ243A可以包括有线和/或无线网络,诸如局域网(LAN)、广域网(WAN)、计算机网络、无线网络、电信网络、另一类似网络或其任意组合。例如,网络QQ243A可以包括Wi-Fi网络。网络连接接口QQ211可以被配置为包括接收机和发射机接口,接收机和发射机接口用于根据一个或多个通信协议(例如,以太网、TCP/IP、SONET、ATM等)通过通信网络与一个或多个其他设备通信。网络连接接口QQ211可以实现适合于通信网络链路(例如,光学的、电气的等)的接收机和发射机功能。发射机和接收机功能可以共享电路组件、软件或固件,或者备选地可以分离地实现。
RAM QQ217可以被配置为经由总线QQ202与处理电路QQ201接口连接,以在诸如操作系统、应用程序和设备驱动之类的软件程序的执行期间提供数据或计算机指令的存储或高速缓存。ROM QQ219可以被配置为向处理电路QQ201提供计算机指令或数据。例如,ROMQQ219可以被配置为存储用于存储在非易失性存储器中的基本系统功能的不变低层系统代码或数据,基本系统功能例如基本输入和输出(I/O)、启动或来自键盘的击键的接收。存储介质QQ221可以被配置为包括存储器,诸如RAM、ROM、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁盘、光盘、软盘、硬盘、可移除磁带盒或闪存驱动器。在一个示例中,存储介质QQ221可以被配置为包括操作系统QQ223、诸如web浏览器应用的应用程序QQ225、小部件或小工具引擎或另一应用以及数据文件QQ227。存储介质QQ221可以存储供UE QQ200使用的各种操作系统中的任何一种或操作系统的组合。
存储介质QQ221可以被配置为包括多个物理驱动单元,如独立磁盘冗余阵列(RAID)、软盘驱动器、闪存、USB闪存驱动器、外部硬盘驱动器、拇指盘驱动器、笔式随身盘驱动器、钥匙盘驱动器、高密度数字多功能盘(HD-DVD)光盘驱动器、内置硬盘驱动器、蓝光光盘驱动器、全息数字数据存储(HDDS)光盘驱动器,外置迷你双列直插式存储器模块(DIMM),同步动态随机存取存储器(SDRAM),外部微DIMM SDRAM,诸如用户身份模块或可移除用户身份(SIM/RUIM)模块的智能卡存储器,其他存储器或其任意组合。存储介质QQ221可以允许UEQQ200访问存储在暂时性或非暂时性存储器介质上的计算机可执行指令、应用程序等,以卸载数据或上载数据。诸如利用通信系统的制品之类的制品可以有形地体现在存储介质QQ221中,存储介质QQ221可以包括设备可读介质。
在图23中,处理电路QQ201可以被配置为使用通信子系统QQ231与网络QQ243B通信。网络QQ243A和网络QQ243B可以是一个或多个相同的网络或一个或多个不同的网络。通信子系统QQ231可以被配置为包括用于与网络QQ243B通信的一个或多个收发机。例如,通信子系统QQ231可以被配置为包括用于根据一个或多个通信协议(例如IEEE 802.QQ2、CDMA、WCDMA、GSM、LTE、UTRAN、WiMax等)与能够进行无线通信的另一设备(例如,另一WD、UE)或无线电接入网(RAN)的基站的一个或多个远程收发机通信的一个或多个收发机。每个收发机可以包括发射机QQ233和/或接收机QQ235,以分别实现适合于RAN链路的发射机或接收机功能(例如,频率分配等)。此外,每个收发机的发射机QQ233和接收机QQ235可以共享电路组件、软件或固件,或者替代地可以分离地实现。
在所示实施例中,通信子系统QQ231的通信功能可以包括数据通信、语音通信、多媒体通信、诸如蓝牙的短程通信、近场通信、基于位置的通信(诸如用于确定位置的全球定位系统(GPS)的使用)、另一个类似通信功能,或其任意组合。例如,通信子系统QQ231可以包括蜂窝通信、Wi-Fi通信、蓝牙通信和GPS通信。网络QQ243B可以包括有线和/或无线网络,诸如局域网(LAN)、广域网(WAN)、计算机网络、无线网络、电信网络、另一类似网络或其任意组合。例如,网络QQ243B可以是蜂窝网络、Wi-Fi网络和/或近场网络。电源QQ213可以被配置为向UE QQ200的组件提供交流(AC)或直流(DC)电力。
本文描述的特征、益处和/或功能可以在UE QQ200的组件之一中实现,或者在UEQQ200的多个组件之间划分。此外,本文描述的特征、益处和/或功能可以以硬件、软件或固件的任何组合来实现。在一个示例中,通信子系统QQ231可以被配置为包括本文描述的任何组件。此外,处理电路QQ201可以被配置为通过总线QQ202与任何这样的组件通信。在另一个示例中,任何这样的组件可以由存储在存储器中的程序指令表示,当由处理电路QQ201执行时,程序指令执行本文描述的对应功能。在另一示例中,任何这样的组件的功能可以在处理电路QQ201和通信子系统QQ231之间划分。在另一示例中,任何这样的组件的非计算密集型功能可以用软件或固件实现,并且计算密集型功能可以用硬件实现。
图24是示出了虚拟化环境QQ300的示例的示意性框图,其中可以虚拟化由一些实施例实现的功能。在本上下文中,虚拟化意味着创建装置或设备的虚拟版本,这可以包括虚拟化硬件平台、存储设备和网络资源。如本文所使用的,虚拟化可以应用于节点(例如,虚拟化基站或虚拟化无线电接入节点)或设备(例如,UE、无线设备或任何其他类型的通信设备)或其组件,并且涉及一种实现,其中至少一部分功能被实现为一个或多个虚拟组件(例如,通过在一个或多个网络中的一个或多个物理处理节点上执行的一个或多个应用、组件、功能、虚拟机或容器)。
在一些实施例中,本文描述的一些或所有功能可以被实现为由在一个或多个硬件节点QQ330托管的一个或多个虚拟环境QQ300中实现的一个或多个虚拟机执行的虚拟组件。此外,在虚拟节点不是无线电接入节点或不需要无线电连接的实施例(例如,核心网络节点)中,网络节点此时可以完全虚拟化。
这些功能可以由一个或多个应用QQ320(其可以替代地被称为软件实例、虚拟设备、网络功能、虚拟节点、虚拟网络功能等)来实现,一个或多个应用QQ320可操作以实现本文公开的一些实施例的一些特征、功能和/或益处。应用QQ320在虚拟化环境QQ300中运行,虚拟化环境QQ300提供包括处理电路QQ360和存储器QQ390的硬件QQ330。存储器QQ390包含可由处理电路QQ360执行的指令QQ395,由此应用QQ320可操作以提供本文公开的一个或多个特征、益处和/或功能。
虚拟化环境QQ300包括通用或专用网络硬件设备QQ330,其包括一组一个或多个处理器或处理电路QQ360,其可以是商用现货(COTS)处理器、专用集成电路(ASIC)或包括数字或模拟硬件组件或专用处理器的任何其他类型的处理电路。每个硬件设备可以包括存储器QQ390-1,其可以是用于临时存储由处理电路QQ360执行的指令QQ395或软件的非永久存储器。每个硬件设备可以包括一个或多个网络接口控制器(NIC)QQ370,也被称为网络接口卡,其包括物理网络接口QQ380。每个硬件设备还可以包括其中存储有可由处理电路QQ360执行的软件QQ395和/或指令的非暂时性、永久性机器可读存储介质QQ390-2。软件QQ395可以包括任何类型的软件,包括用于实例化一个或多个虚拟化层QQ350的软件(也被称为管理程序)、用于执行虚拟机QQ340的软件以及允许其执行与本文描述的一些实施例相关地描述的功能、特征和/或益处的软件。
虚拟机QQ340包括虚拟处理、虚拟存储器、虚拟联网或接口和虚拟存储、并且可以由对应的虚拟化层QQ350或管理程序运行。可以在虚拟机QQ340中的一个或多个上实现虚拟设备QQ320的实例的不同实施例,并且可以以不同方式做出所述实现。
在操作期间,处理电路QQ360执行软件QQ395以实例化管理程序或虚拟化层QQ350,其有时可被称为虚拟机监视器(VMM)。虚拟化层QQ350可以呈现虚拟操作平台,其在虚拟机QQ340看来像是联网硬件。
如图24所示,硬件QQ330可以是具有通用或特定组件的独立网络节点。硬件QQ330可以包括天线QQ3225并且可以通过虚拟化实现一些功能。备选地,硬件QQ330可以是更大的硬件集群的一部分(例如,在数据中心或客户驻地设备(CPE)中),其中许多硬件节点一起工作并且通过管理和协调(MANO)QQ3100来管理,MANO QQ3100监督应用QQ320的生命周期管理等等。
在一些上下文中,硬件的虚拟化被称为网络功能虚拟化(NFV)。NFV可以用于将众多网络设备类型统一到可以位于数据中心和客户驻地设备中的工业标准高容量服务器硬件、物理交换机和物理存储上。
在NFV的上下文中,虚拟机QQ340可以是物理机器的软件实现,其运行程序如同它们在物理的非虚拟化机器上执行一样。每个虚拟机QQ340以及硬件QQ330中执行该虚拟机的部分(其可以是专用于该虚拟机的硬件和/或由该虚拟机与虚拟机QQ340中的其它虚拟机共享的硬件)形成了单独的虚拟网元(VNE)。
仍然在NFV的上下文中,虚拟网络功能(VNF)负责处理在硬件网络基础设施QQ330之上的一个或多个虚拟机QQ340中运行的特定网络功能,并且对应于图24中的应用QQ320。
在一些实施例中,每个包括一个或多个发射机QQ3220和一个或多个接收机QQ3210的一个或多个无线电单元QQ3200可以耦合到一个或多个天线QQ3225。无线电单元QQ3200可以经由一个或多个适合的网络接口直接与硬件节点QQ330通信,并且可以与虚拟组件结合使用以提供具有无线电能力的虚拟节点,例如无线电接入节点或基站。
在一些实施例中,可以使用控制系统QQ3230来实现一些信令,控制系统QQ3230可以替代地用于硬件节点QQ330和无线电单元QQ3200之间的通信。
图25是示出了根据一些实施例的经由中间网络与主机计算机连接的电信网络的示例的示意图。
参照图25,根据实施例,通信系统包括电信网络QQ410(例如,3GPP类型的蜂窝网络),电信网络QQ410包括接入网QQ411(例如,无线电接入网)和核心网络QQ414。接入网QQ411包括多个基站QQ412a、QQ412b、QQ412c(例如,NB、eNB、gNB或其他类型的无线接入点),每个基站定义对应覆盖区域QQ413a、QQ413b、QQ413c。每个基站QQ412a、QQ412b、QQ412c通过有线或无线连接QQ415可连接到核心网络QQ414。位于覆盖区域QQ413c中的第一UE QQ491被配置为以无线方式连接到对应基站QQ412c或被对应基站QQ412c寻呼。覆盖区域QQ413a中的第二UE QQ492以无线方式可连接到对应基站QQ412a。虽然在该示例中示出了多个UEQQ491、QQ492,但所公开的实施例同等地适用于唯一的UE处于覆盖区域中或者唯一的UE正连接到对应基站QQ412的情形。
电信网络QQ410自身连接到主机计算机QQ430,主机计算机QQ430可以以独立服务器、云实现的服务器、分布式服务器的硬件和/或软件来实现,或者被实现为服务器集群中的处理资源。主机计算机QQ430可以处于服务提供商的所有或控制之下,或者可以由服务提供商或代表服务提供商来操作。电信网络QQ410与主机计算机QQ430之间的连接QQ421和QQ422可以直接从核心网络QQ414延伸到主机计算机QQ430,或者可以经由可选的中间网络QQ420进行。中间网络QQ420可以是公共、私有或承载网络中的一个或多于一个的组合;中间网络QQ420(若存在)可以是骨干网或互联网;具体地,中间网络QQ420可以包括两个或更多个子网络(未示出)。
图25的通信系统作为整体实现了所连接的UE QQ491、QQ492与主机计算机QQ430之间的连接。该连接可被描述为过顶(over-the-top,OTT)连接QQ450。主机计算机QQ430和所连接的UE QQ491、QQ492被配置为使用接入网QQ411、核心网络QQ414、任何中间网络QQ420和可能的其他基础设施(未示出)作为中介,经由OTT连接QQ450来传送数据和/或信令。在OTT连接QQ450所经过的参与通信设备未意识到上行链路和下行链路通信的路由的意义上,OTT连接QQ450可以是透明的。例如,可以不向基站QQ412通知或者可以无需向基站QQ412通知具有源自主机计算机QQ430的要向所连接的UE QQ491转发(例如,移交)的数据的输入下行链路通信的过去的路由。类似地,基站QQ412无需意识到源自UE QQ491向主机计算机QQ430的输出上行链路通信的未来的路由。
图26是示出了根据一些实施例的通过部分无线连接经由基站与用户设备通信的主机计算机的示例的示意图。
现将参照图26来描述根据实施例的在先前段落中所讨论的UE、基站和主机计算机的示例实现方式。在通信系统QQ500中,主机计算机QQ510包括硬件QQ515,硬件QQ515包括通信接口QQ516,通信接口QQ516被配置为建立和维护与通信系统QQ500的不同通信设备的接口的有线或无线连接。主机计算机QQ510还包括处理电路QQ518,其可以具有存储和/或处理能力。具体地,处理电路QQ518可以包括适用于执行指令的一个或多个可编程处理器、专用集成电路、现场可编程门阵列或它们的组合(未示出)。主机计算机QQ510还包括软件QQ511,其被存储在主机计算机QQ510中或可由主机计算机QQ510访问并且可由处理电路QQ518来执行。软件QQ511包括主机应用QQ512。主机应用QQ512可操作为向远程用户(例如,UE QQ530)提供服务,UE QQ530经由在UE QQ530和主机计算机QQ510处端接的OTT连接QQ550来连接。在向远程用户提供服务时,主机应用QQ512可以提供使用OTT连接QQ550来发送的用户数据。
通信系统QQ500还包括在电信系统中提供的基站QQ520,基站QQ520包括使其能够与主机计算机QQ510和与UE QQ530进行通信的硬件QQ525。硬件QQ525可以包括:通信接口QQ526,其用于建立和维护与通信系统QQ500的不同通信设备的接口的有线或无线连接;以及无线电接口QQ527,其用于至少建立和维护与位于基站QQ520所服务的覆盖区域(图26中未示出)中的UE QQ530的无线连接QQ570。通信接口QQ526可以被配置为促进到主机计算机QQ510的连接QQ560。连接QQ560可以是直接的,或者它可以经过电信系统的核心网络(图26中未示出)和/或经过电信系统外部的一个或多个中间网络。在所示实施例中,基站QQ520的硬件QQ525还包括处理电路QQ528,处理电路QQ528可以包括适用于执行指令的一个或多个可编程处理器、专用集成电路、现场可编程门阵列或它们的组合(未示出)。基站QQ520还具有内部存储的或经由外部连接可访问的软件QQ521。
通信系统QQ500还包括已经提及的UE QQ530。硬件QQ535可以包括无线电接口QQ537,其被配置为建立和维护与服务于UE QQ530当前所在的覆盖区域的基站的无线连接QQ570。UE QQ530的硬件QQ535还包括处理电路QQ538,其可以包括适用于执行指令的一个或多个可编程处理器、专用集成电路、现场可编程门阵列或它们的组合(未示出)。UE QQ530还包括软件QQ531,其被存储在UE QQ530中或可由UE QQ530访问并可由处理电路QQ538执行。软件QQ531包括客户端应用QQ532。客户端应用QQ532可操作为在主机计算机QQ510的支持下经由UE QQ530向人类或非人类用户提供服务。在主机计算机QQ510中,执行的主机应用QQ512可以经由端接在UE QQ530和主机计算机QQ510处的OTT连接QQ550与执行客户端应用QQ532进行通信。在向用户提供服务时,客户端应用QQ532可以从主机应用QQ512接收请求数据,并响应于请求数据来提供用户数据。OTT连接QQ550可以传送请求数据和用户数据二者。客户端应用QQ532可以与用户进行交互,以生成其提供的用户数据。
注意,图26所示的主机计算机QQ510、基站QQ520和UE QQ530可以分别与图23的主机计算机QQ430、基站QQ412a、QQ412b、QQ412c之一和UE QQ491、QQ492之一相似或相同。也就是说,这些实体的内部工作可以如图26所示,并且独立地,周围网络拓扑可以是图25的网络拓扑。
在图26中,已经抽象地绘制OTT连接QQ550,以示出经由基站QQ520在主机计算机QQ510与UE QQ530之间的通信,而没有明确地提到任何中间设备以及经由这些设备的消息的精确路由。网络基础设施可以确定该路由,该路由可以被配置为向UE QQ530隐藏或向操作主机计算机QQ510的服务提供商隐藏或向这二者隐藏。在OTT连接QQ550活动时,网络基础设施还可以(例如,基于负载均衡考虑或网络的重新配置)做出其动态地改变路由的决策。
UE QQ530与基站QQ520之间的无线连接QQ570根据贯穿本公开所描述的实施例的教导。各种实施例中的一个或多个实施例改进了使用OTT连接QQ550向UE QQ530提供的OTT服务的性能,其中无线连接QQ570形成OTT连接QQ550中的最后一段。
出于监控一个或多个实施例改进的数据速率、时延和其他因素的目的,可以提供测量过程。还可以存在用于响应于测量结果的变化而重新配置主机计算机QQ510与UEQQ530之间的OTT连接QQ550的可选网络功能。用于重新配置OTT连接QQ550的测量过程和/或网络功能可以以主机计算机QQ510的软件QQ511和硬件QQ515或以UE QQ530的软件QQ531和硬件QQ535或以这二者来实现。在实施例中,传感器(未示出)可被部署在OTT连接QQ550经过的通信设备中或与OTT连接QQ550经过的通信设备相关联地来部署;传感器可以通过提供以上例示的监控量的值或提供软件QQ511、QQ531可以用来计算或估计监控量的其他物理量的值来参与测量过程。对OTT连接QQ550的重新配置可以包括消息格式、重传设置、优选路由等;该重新配置不需要影响基站QQ520,并且其对于基站QQ520来说可以是未知的或不可感知的。这种过程和功能在本领域中可以是已知的和已被实践的。在特定实施例中,测量可以涉及促进主机计算机QQ510对吞吐量、传播时间、时延等的测量的专有UE信令。该测量可以如下实现:软件QQ511和QQ531在其监控传播时间、差错等的同时使得能够使用OTT连接QQ550来发送消息(具体地,空消息或“假”消息)。
图27和28是示出了根据一些实施例的在包括例如主机计算机以及可选地还有基站和用户设备的通信系统中实现的方法的示例的示意性流程图。
图27是示出了根据一个实施例的在通信系统中实现的方法的流程图。该通信系统包括主机计算机、基站和UE,其可以是参照图22至图26描述的主机计算机、基站和UE。为了本公开的简明,在本部分中将仅包括对图27的图引用。在步骤QQ610中,主机计算机提供用户数据。在步骤QQ610的子步骤QQ611(其可以是可选的)中,主机计算机通过执行主机应用来提供用户数据。在步骤QQ620中,主机计算机发起向UE的携带用户数据的传输。在步骤QQ630(其可以是可选的)中,根据贯穿本公开所描述的实施例的教导,基站向UE发送在主机计算机发起的传输中所携带的用户数据。在步骤QQ640(其也可以是可选的)中,UE执行与主机计算机所执行的主机应用相关联的客户端应用。
图28是示出了根据一个实施例的在通信系统中实现的方法的流程图。该通信系统包括主机计算机、基站和UE,其可以是参照图22至图26描述的主机计算机、基站和UE。为了本公开的简明,在本部分中将仅包括对图28的图引用。在方法的步骤QQ710中,主机计算机提供用户数据。在可选子步骤(未示出)中,主机计算机通过执行主机应用来提供用户数据。在步骤QQ720中,主机计算机发起向UE的携带用户数据的传输。根据贯穿本公开描述的实施例的教导,该传输可以经由基站。在步骤QQ730(其可以是可选的)中,UE接收传输中所携带的用户数据。
图29和图30是示出了根据一些实施例的在包括主机计算机、基站和用户设备的通信系统中实现的方法的示例的示意图。
图29是示出了根据一个实施例的在通信系统中实现的方法的流程图。该通信系统包括主机计算机、基站和UE,其可以是参照图22至图26描述的主机计算机、基站和UE。为了本公开的简明,在本部分中将仅包括对图29的图引用。在步骤QQ810(其可以是可选的)中,UE接收由主机计算机所提供的输入数据。附加地或备选地,在步骤QQ820中,UE提供用户数据。在步骤QQ820的子步骤QQ821(其可以是可选的)中,UE通过执行客户端应用来提供用户数据。在步骤QQ810的子步骤QQ811(其可以是可选的)中,UE执行客户端应用,该客户端应用回应于接收到的主机计算机提供的输入数据来提供用户数据。在提供用户数据时,所执行的客户端应用还可以考虑从用户接收的用户输入。无论提供用户数据的具体方式如何,UE在子步骤QQ830(其可以是可选的)中都发起用户数据向主机计算机的传输。在方法的步骤QQ840中,根据贯穿本公开描述的实施例的教导,主机计算机接收从UE发送的用户数据。
图30是示出了根据一个实施例的在通信系统中实现的方法的流程图。该通信系统包括主机计算机、基站和UE,其可以是参照图22至图26描述的主机计算机、基站和UE。为了本公开的简明,在本部分中将仅包括对图30的图引用。在步骤QQ910(其可以是可选的)中,根据贯穿本公开描述的实施例的教导,基站从UE接收用户数据。在步骤QQ920(其可以是可选的)中,基站发起接收到的用户数据向主机计算机的传输。在步骤QQ930(其可以是可选的)中,主机计算机接收由基站所发起的传输中所携带的用户数据。
在下文中,将给出说明性和非限制性编号的实施例的示例。
A组实施例
1、一种由无线设备执行的用于确定视频保真度度量的方法。所述方法包括,针对视频序列中的至少一个失真图片:
-确定失真差异图片作为所述视频序列中的所述失真图片的至少一部分和所述失真图片之前的先前失真图片的至少对应的一部分之间的逐像素差异;
-确定原始差异图片作为原始图片的至少对应的一部分和所述原始图片之前的先前原始图片的至少对应的一部分之间的逐像素差异;
-确定第一图,所述第一图针对所述失真图片的至少一部分中的每个像素表示所述像素和所述原始图片中的对应像素之间的像素值失真;
-确定第二图,所述第二图针对所述失真差异图片中的每个像素表示所述像素和所述原始差异图片中的对应像素之间的像素值失真;
-确定第三图作为第四图和第五图的聚合,所述第四图针对所述失真图片的至少一部分中的每个像素表示像素值的局部可变性,并且所述第五图针对所述原始图片中的每个对应像素表示像素值的局部可变性;
-确定第六图作为第七图和第八图的聚合,所述第七图针对所述失真差异图片中的每个像素表示像素值的局部可变性,并且所述第八图针对所述原始差异图片中的每个对应像素表示像素值的局部可变性;以及
-基于所述第一图、所述第二图、所述第三图和所述第六图确定所述视频保真度度量。
2、一种由无线设备执行的用于对视频序列进行编码的方法。所述方法包括:
-根据多种编码方式对所述视频序列中的原始图片的至少一部分进行编码,以获得多个编码后的候选图片部分;
-对所述多个编码后的候选图片部分进行解码,以获得多个解码后的候选图片部分;
-根据实施例1,针对多个解码后的候选图片部分中的每一部分,确定各自的视频保真度度量;以及
-在所述多个编码后的候选图片部分中,至少部分地基于各自的视频保真度度量,选择编码后的候选图片部分作为所述原始图片的至少一部分的编码表示。
3、一种由无线设备执行的用于选择编码器的编码器简档的方法。所述方法包括:
-使用多个编码器简档对视频序列中的至少一个原始图片进行编码,以获得多个编码图片;
-对所述多个编码图片进行解码,以获得多个解码图片;
根据实施例1,针对所述多个解码图片中的每一个,使用至少一个原始图片作为参考图片来确定各自的视频保真度度量;以及
至少部分地基于各自的视频保真度度量,在所述多个编码器简档中选择用于所述编码器的编码器简档。
4、根据实施例1至3中任一项所述的方法,还包括:
-提供用户数据;以及
-经由向所述目标网络节点的传输,将所述用户数据转发到主机计算机。
B组实施例
5、一种由网络节点或设备执行的用于确定视频保真度度量的方法。所述方法包括,针对视频序列中的至少一个失真图片:
-确定失真差异图片作为所述视频序列中的所述失真图片的至少一部分和所述失真图片之前的先前失真图片的至少对应的一部分之间的逐像素差异;
-确定原始差异图片作为原始图片的至少对应的一部分和所述原始图片之前的先前原始图片的至少对应的一部分之间的逐像素差异;
-确定第一图,所述第一图针对所述失真图片的至少一部分中的每个像素表示所述像素和所述原始图片中的对应像素之间的像素值失真;
-确定第二图,所述第二图针对所述失真差异图片中的每个像素表示所述像素和所述原始差异图片中的对应像素之间的像素值失真;
-确定第三图作为第四图和第五图的聚合,所述第四图针对所述失真图片的至少一部分中的每个像素表示像素值的局部可变性,并且所述第五图针对所述原始图片中的每个对应像素表示像素值的局部可变性;
-确定第六图作为第七图和第八图的聚合,所述第七图针对所述失真差异图片中的每个像素表示像素值的局部可变性,并且所述第八图针对所述原始差异图片中的每个对应像素表示像素值的局部可变性;以及
-基于所述第一图、所述第二图、所述第三图和所述第六图确定所述视频保真度度量。
6、一种由网络节点或设备执行的用于对视频序列进行编码的方法。所述方法包括:
-根据多种编码方式对所述视频序列中的原始图片的至少一部分进行编码,以获得多个编码后的候选图片部分;
-对所述多个编码后的候选图片部分进行解码,以获得多个解码后的候选图片部分;
-根据实施例5,针对多个解码后的候选图片部分中的每一部分,确定各自的视频保真度度量;以及
-在所述多个编码后的候选图片部分中,至少部分地基于各自的视频保真度度量,选择编码后的候选图片部分作为所述原始图片的至少一部分的编码表示。
7、一种由网络节点或设备执行的用于选择编码器的编码器简档的方法。所述方法包括:
-使用多个编码器简档对视频序列中的至少一个原始图片进行编码,以获得多个编码图片;
-对所述多个编码图片进行解码,以获得多个解码图片;
根据实施例5,针对所述多个解码图片中的每一个,确定各自的视频保真度度量;以及
至少部分地基于各自的视频保真度度量,在所述多个编码器简档中选择用于所述编码器的编码器简档。
8、根据实施例5至7中任一项所述的方法,还包括:
-获取用户数据;以及
-将所述用户数据转发到主机计算机或无线设备。
C组实施例
9、一种无线设备,包括处理电路,所述处理电路被配置为执行根据A组实施例中任一项所述的任何步骤。
10、一种网络节点或设备,例如基站,包括处理电路,所述处理电路被配置为执行根据B组实施例中任一项所述的任何步骤。
11、一种用户设备(UE),包括:
-天线,被配置为发送和接收无线信号;
-无线电前端电路,其与所述天线和处理电路连接,并被配置为调节在所述天线和所述处理电路之间传送的信号;
-处理电路,被配置为执行根据A组实施例中任一项所述的任何步骤;
-输入接口,其与所述处理电路连接,并被配置为允许信息输入到所述UE中以由所述处理电路处理;
-输出接口,其与所述处理电路连接,并被配置为从所述UE输出已由所述处理电路处理的信息;以及
-电池,其与所述处理电路连接,并被配置为向所述UE供电。
12、一种通信系统,包括主机计算机,所述主机计算机包括:
-处理电路,被配置为提供用户数据;以及
-通信接口,被配置为将所述用户数据转发到蜂窝网络以用于向用户设备(UE)传输,
-其中,所述蜂窝网络包括具有无线电接口和处理电路的基站,所述基站的处理电路被配置为执行根据B组实施例中任一项所述的任何步骤。
13、根据实施例12所述的通信系统,还包括所述基站。
14、根据实施例12或13所述的通信系统,还包括所述UE,其中,所述UE被配置为与所述基站通信。
15、根据实施例12至14中任一项所述通信系统,其中:
-所述主机计算机的处理电路被配置为执行主机应用,从而提供所述用户数据;以及
-所述UE包括处理电路,所述处理电路被配置为执行与所述主机应用相关联的客户端应用。
16、一种在包括主机计算机、基站和用户设备(UE)的通信系统中实现的方法,所述方法包括:
-在所述主机计算机处提供用户数据;以及
-在所述主机计算机处,经由包括所述基站在内的蜂窝网络向所述UE发起携带所述用户数据的传输,其中,所述基站执行根据B组实施例中任一项所述的任何步骤。
17、根据实施例16所述的方法,还包括:在所述基站处发送所述用户数据。
18、根据实施例16或17所述的方法,其中,通过执行主机应用在所述主机计算机处提供所述用户数据,所述方法还包括在所述UE处执行与所述主机应用相关联的客户端应用。
19、一种用户设备(UE),被配置为与基站通信,所述UE包括无线电接口和处理电路,所述处理电路被配置为执行根据A组实施例中任一项所述的任何步骤。
20、一种通信系统,包括主机计算机,所述主机计算机包括:
-处理电路,被配置为提供用户数据;以及
-通信接口,被配置为将用户数据转发到蜂窝网络以传输到用户设备(UE),
-其中,所述UE包括无线电接口和处理电路,所述UE的组件被配置为执行根据A组实施例中任一项所述的任何步骤。
21、根据实施例20所述的通信系统,其中,所述蜂窝网络还包括基站,所述基站被配置为与所述UE通信。
22、根据实施例20或21所述的通信系统,其中:
-所述主机计算机的处理电路被配置为执行主机应用,从而提供所述用户数据;以及
-所述UE处理电路被配置为执行与所述主机应用相关联的客户端应用。
23、一种在包括主机计算机、基站和用户设备(UE)的通信系统中实现的方法,所述方法包括:
-在所述主机计算机处提供用户数据;以及
-在所述主机计算机处,经由包括所述基站在内的蜂窝网络向所述UE发起携带所述用户数据的传输,其中,所述UE执行根据A组实施例中任一项所述的任何步骤。
24、根据实施例23所述的方法,还包括:在所述UE处,从所述基站接收所述用户数据。
25、一种通信系统,包括主机计算机,所述主机计算机包括:
-通信接口,被配置为接收用户数据,所述用户数据源自从用户设备(UE)到基站的传输,
-其中,所述UE包括无线电接口和处理电路,所述UE的处理电路被配置为执行根据A组实施例中任一项所述的任何步骤。
26、根据实施例25所述的通信系统,还包括所述UE。
27、根据实施例25或26所述的通信系统,还包括所述基站,其中所述基站包括:无线电接口,被配置为与所述UE通信;以及通信接口,被配置为将从所述UE到所述基站的传输所携带的所述用户数据转发到所述主机计算机。
28、根据实施例25至27中任一项所述的通信系统,其中:
-所述主机计算机的处理电路被配置为执行主机应用;以及
-所述UE的处理电路被配置为执行与所述主机应用相关联的客户端应用,从而提供所述用户数据。
29、根据实施例24至28中任一项所述的通信系统,其中:
-所述主机计算机的处理电路被配置为执行主机应用,从而提供请求数据;以及
-所述UE的处理电路被配置为执行与所述主机应用相关联的客户端应用,从而响应于所述请求数据来提供所述用户数据。
30、一种在包括主机计算机、基站和用户设备(UE)的通信系统中实现的方法,所述方法包括:
-在所述主机计算机处,接收从所述UE向所述基站传输的用户数据,其中所述UE执行根据A组实施例中任何一项所述的任何步骤。
31、根据实施例30所述的方法,还包括:在所述UE处,向所述基站提供所述用户数据。
32、根据实施例30或31所述的方法,还包括:
-在所述UE处,执行客户端应用,从而提供要发送的用户数据;以及
-在所述主机计算机处,执行与所述客户端应用相关联的主机应用。
33、根据实施例30至32中任一项所述的方法,还包括:
-在所述UE处,执行客户端应用;以及
-在所述UE处,接收对所述客户端应用的输入数据,所述输入数据是通过执行与所述客户端应用相关联的主机应用在所述主机计算机处提供的,
-其中,要发送的所述用户数据是由所述客户端应用响应于所述输入数据而提供的。
34、一种通信系统,包括主机计算机,所述主机计算机包括通信接口,所述通信接口被配置为接收源自从用户设备(UE)到基站的传输的用户数据,其中,所述基站包括无线电接口和处理电路,所述基站的处理电路被配置为执行根据B组实施例中任何一项所述的任何步骤。
35、根据实施例34所述的通信系统,还包括所述基站。
36、根据实施例34或35所述的通信系统,还包括所述UE,其中,所述UE被配置为与所述基站通信。
37、根据实施例34至36中任一项所述的通信系统,其中:
-所述主机计算机的处理电路被配置为执行主机应用;
-所述UE被配置为执行与所述主机应用相关联的客户端应用,从而提供要由所述主机计算机接收的所述用户数据。
38、一种在包括主机计算机、基站和用户设备(UE)的通信系统中实现的方法,所述方法包括:
-在所述主机计算机处,从所述基站接收用户数据,所述用户数据源自所述基站已从所述UE接收的传输,其中,所述UE执行根据A组实施例中任一项所述的任何步骤。
39、根据实施例38所述的方法,还包括:在所述基站处,从所述UE接收所述用户数据。
40、根据实施例38或39所述的方法,还包括:在所述基站处,发起向所述主机计算机传输所接收到的用户数据。
D组实施例
41、一种用于确定视频序列的视频保真度度量的方法。所述方法包括,针对视频序列中的至少一个失真图片:
-确定失真差异图片作为所述视频序列中的所述失真图片的至少一部分和所述失真图片之前的先前失真图片的至少对应的一部分之间的逐像素差异;
-确定原始差异图片作为原始图片的至少对应的一部分和所述原始图片之前的先前原始图片的至少对应的一部分之间的逐像素差异;
-确定第一图,所述第一图针对所述失真图片的至少一部分中的每个像素表示所述像素和所述原始图片中的对应像素之间的像素值失真;
-确定第二图,所述第二图针对所述失真差异图片中的每个像素表示所述像素和所述原始差异图片中的对应像素之间的像素值失真;
-确定第三图作为第四图和第五图的聚合,所述第四图针对所述失真图片的至少一部分中的每个像素表示像素值的局部可变性,并且所述第五图针对所述原始图片中的每个对应像素表示像素值的局部可变性;
-确定第六图作为第七图和第八图的聚合,所述第七图针对所述失真差异图片中的每个像素表示像素值的局部可变性,并且所述第八图针对所述原始差异图片中的每个对应像素表示像素值的局部可变性;以及
-基于所述第一图、所述第二图、所述第三图和所述第六图确定所述视频保真度度量。
42、一种用于对视频序列进行编码的方法。所述方法包括:
-根据多种编码方式对所述视频序列中的原始图片的至少一部分进行编码,以获得多个编码后的候选图片部分;
-对所述多个编码后的候选图片部分进行解码,以获得多个解码后的候选图片部分;
-根据实施例41,针对多个解码后的候选图片部分中的每一部分,确定各自的视频保真度度量;以及
-在所述多个编码后的候选图片部分中,至少部分地基于各自的视频保真度度量,选择编码后的候选图片部分作为所述原始图片的至少一部分的编码表示。
43、一种用于选择编码器的编码器简档的方法。所述方法包括:
-使用多个编码器简档对视频序列中的至少一个原始图片进行编码,以获得多个编码图片;
-对所述多个编码图片进行解码,以获得多个解码图片;
根据实施例41,针对所述多个解码图片中的每一个,确定各自的视频保真度度量;以及
至少部分地基于各自的视频保真度度量,在所述多个编码器简档中选择用于所述编码器的编码器简档。
44、一种被配置为确定图片的视频保真度度量的设备。该设备被配置为针对视频序列中的至少一个失真图片:
-确定失真差异图片作为所述视频序列中的所述失真图片的至少一部分和所述失真图片之前的先前失真图片的至少对应的一部分之间的逐像素差异;
-确定原始差异图片作为原始图片的至少对应的一部分和所述原始图片之前的先前原始图片的至少对应的一部分之间的逐像素差异;
-确定第一图,所述第一图针对所述失真图片的至少一部分中的每个像素表示所述像素和所述原始图片中的对应像素之间的像素值失真;
-确定第二图,所述第二图针对所述失真差异图片中的每个像素表示所述像素和所述原始差异图片中的对应像素之间的像素值失真;
-确定第三图作为第四图和第五图的聚合,所述第四图针对所述失真图片的至少一部分中的每个像素表示像素值的局部可变性,并且所述第五图针对所述原始图片中的每个对应像素表示像素值的局部可变性;
-确定第六图作为第七图和第八图的聚合,所述第七图针对所述失真差异图片中的每个像素表示像素值的局部可变性,并且所述第八图针对所述原始差异图片中的每个对应像素表示像素值的局部可变性;以及
-基于所述第一图、所述第二图、所述第三图和所述第六图确定所述视频保真度度量。
45、一种被配置为对视频序列进行编码的设备。所述设备被配置为:
-根据多种编码方式对所述视频序列中的原始图片的至少一部分进行编码,以获得多个编码后的候选图片部分;
-对所述多个编码后的候选图片部分进行解码,以获得多个解码后的候选图片部分;
-使用根据实施例44的设备,针对所述多个解码后的候选图片部分中的每一部分,确定各自的视频保真度度量;以及
-在所述多个编码后的候选图片部分中,至少部分地基于各自的视频保真度度量,选择编码后的候选图片部分作为所述原始图片的至少一部分的编码表示。
46、一种被配置选择编码器的编码器简档的设备。所述设备被配置为:
-使用多个编码器简档对视频序列中的至少一个原始图片进行编码,以获得多个编码图片;
-对所述多个编码图片进行解码,以获得多个解码图片;
使用根据实施例44的设备,针对所述多个解码图片中的每一个,确定各自的视频保真度度量;以及
至少部分地基于各自的视频保真度度量,在所述多个编码器简档中选择用于所述编码器的编码器简档。
47、一种无线设备,包括根据实施例44至46中任一项所述的设备。
48、一种网络节点,包括根据实施例44至46中任一项所述的设备。
49、一种网络设备,包括根据实施例44至46中任一项所述的设备。
50、一种包括指令的计算机程序,所述指令当由至少一个处理器执行时,使所述至少一个处理器针对视频序列中的至少一个失真图片:
-确定失真差异图片作为所述视频序列中的所述失真图片的至少一部分和所述失真图片之前的先前失真图片的至少对应的一部分之间的逐像素差异;
-确定原始差异图片作为原始图片的至少对应的一部分和所述原始图片之前的先前原始图片的至少对应的一部分之间的逐像素差异;
-确定第一图,所述第一图针对所述失真图片的至少一部分中的每个像素表示所述像素和所述原始图片中的对应像素之间的像素值失真;
-确定第二图,所述第二图针对所述失真差异图片中的每个像素表示所述像素和所述原始差异图片中的对应像素之间的像素值失真;
-确定第三图作为第四图和第五图的聚合,所述第四图针对所述失真图片的至少一部分中的每个像素表示像素值的局部可变性,并且所述第五图针对所述原始图片中的每个对应像素表示像素值的局部可变性;
-确定第六图作为第七图和第八图的聚合,所述第七图针对所述失真差异图片中的每个像素表示像素值的局部可变性,并且所述第八图针对所述原始差异图片中的每个对应像素表示像素值的局部可变性;以及
-基于所述第一图、所述第二图、所述第三图和所述第六图确定所述视频保真度度量。
51、一种包括指令的计算机程序,所述指令当由至少一个处理器执行时,使所述至少一个处理器:
-根据多种编码方式对视频序列中的原始图片的至少一部分进行编码,以获得多个编码后的候选图片部分;
-对所述多个编码后的候选图片部分进行解码,以获得多个解码后的候选图片部分;
-使用根据实施例50的计算机程序,针对所述多个解码后的候选图片部分中的每一部分,确定各自的视频保真度度量;以及
-在所述多个编码后的候选图片部分中,至少部分地基于各自的视频保真度度量,选择编码后的候选图片部分作为所述原始图片的至少一部分的编码表示。
52、一种包括指令的计算机程序,所述指令当由至少一个处理器执行时,使所述至少一个处理器:
-使用多个编码器简档对视频序列中的至少一个原始图片进行编码,以获得多个编码图片;
-对所述多个编码图片进行解码,以获得多个解码图片;
使用根据实施例50的计算机程序,针对所述多个解码图片中的每一个,确定各自的视频保真度度量;以及
至少部分地基于各自的视频保真度度量,在所述多个编码器简档中选择用于所述编码器的编码器简档。
53、一种计算机程序产品,包括计算机可读介质,所述计算机可读介质上存储有根据实施例50至52中任一项所述的计算机程序。
54、一种用于确定图片的视频保真度度量的装置。所述装置包括:
-用于针对视频序列中的至少一个失真图片确定失真差异图片作为所述视频序列中的失真图片的至少一部分和失真图片之前的先前失真图片的至少对应的一部分之间的逐像素差异的模块;
-用于针对所述至少一个失真图片确定原始差异图片作为原始图片的至少对应的一部分和所述原始图片之前的先前原始图片的至少对应的一部分之间的逐像素差异的模块;
-用于针对所述至少一个失真图片确定第一图的模块,所述第一图针对所述失真图片的至少一部分中的每个像素表示所述像素和所述原始图片中的对应像素之间的像素值失真。
-用于针对所述至少一个失真图片确定第二图的模块,所述第二图针对所述失真差异图片中的每个像素表示所述像素和所述原始差异图片中的对应像素之间的像素值的失真;
-用于针对所述至少一个失真图片确定第三图作为第四图和第五图的聚合的模块,所述第四图针对所述失真图片的至少一部分中的每个像素表示像素值的局部可变性,并且所述第五图针对所述原始图片中的每个对应像素表示像素值的局部可变性;
-用于针对所述至少一个失真图片确定第六图作为第七图和第八图的聚合的模块,所述第七图针对所述失真差异图片中的每个像素表示像素值的局部可变性,并且所述第八图针对所述原始差异图片中的每个对应像素表示像素值的局部可变性;以及
-用于针对所述至少一个失真图片,基于所述第一图、所述第二图、所述第三图和所述第六图确定所述视频保真度度量的模块。
55、一种用于对原始图片进行编码的装置。所述装置包括:
-用于根据多种编码方式对视频序列中的原始图片的至少一部分进行编码以获得多个编码后的候选图片部分的模块;
-用于对所述多个编码后的候选图片部分进行解码以获得多个解码后的候选图片部分的模块;
-根据实施例54的用于针对所述多个解码后的候选图片部分中的每一部分确定各自的视频保真度度量的装置;以及
-用于在所述多个编码后的候选图片部分中、至少部分地基于各自的视频保真度度量选择编码后的候选图片部分作为所述原始图片的至少一部分的编码表示的模块。
56、一种用于选择编码器的编码器简档的装置。所述装置包括:
-用于使用多个编码器简档对视频序列中的至少一个原始图片进行编码以获得多个编码图片的模块;
-用于对所述多个编码图片进行解码以获得多个解码图片的模块;
根据实施例54的用于针对所述多个解码后的图片中的每一个确定各自的视频保真度度量的装置;以及
用于至少部分地基于所述各自的视频保真度度量在所述多个编码器简档中选择用于所述编码器的编码器简档的模块。
示例
在四个VQA数据库中,将本发明的视频保真度度量与现有技术的视频保真度度量进行了比较:
LIVE数据库[2,3];
MCL-V数据库[4];
VMAF数据库[5];以及
VQEG数据库[6]。
比较中使用的现有技术视频保真度度量为:
峰值信噪比(PSNR);
结构相似性(SSIM);
多尺度SSIM(MS-SSIM);
信息内容加权PSNR(IW-PSNR);
PSNR,人类视觉系统(PSNR-HVS);
具有对比遮罩的PSNR-HVS(PSNR-HVS-M);
视觉信息保真度(VIF);以及
视频多方法评估融合(VMAF)。
本发明的视频保真度度量是在如下定义的VIVIQA算法中得出的。在VIVIQA算法中,原始视频序列和失真视频序列的Y’CbCr颜色通道在两条路径中进行处理。第一路径“空间劣化路径”使用当前原始图片和失真图片的像素数据来估计空间劣化的平均误差。并行地,使用当前图片和前一图片(按显示顺序)来计算逐像素图片差异(即,失真差异图片和原始差异图片),其在“时间劣化路径”中进行了处理。针对每个颜色通道,失真差异图片和原始差异图片如下计算:
其中,Yt(i,j)、Ut(i,j)和Vt(i,j)分别表示在时刻t的亮度、第一彩度和第二彩度通道的坐标(i,j)处的像素。失真差异图片和原始差异图片具有与原始颜色通道相同的尺寸,但其动态范围增加了一倍。
确定平均误差ME(I1,I2)是视觉失真图(VDM)的整个图片之和,视觉失真图(VDM)本身是通过用视觉重要性图VIM对失真图(DM)进行逐像素加权来构造的:
其中,H是图片高度,W是图片宽度,并且根据两个图片计算DM,如下所示:
DM(i,j)=|U1(i,j)-I2(i,j)|p (3)
其中,I1(i,j)和I2(i,j)分别表示第一(失真)图片和第二(原始)图片的坐标(i,j)处的像素,图片表示像素数据(失真图片和原始图片)或图片差异数据(失真差异图片和原始差异图片),并且参数p是在训练阶段期间推断出的并且具有在[0.001,0.20]范围内的值的幂参数。
另一方面,VIM是两个可变性图(VM)的逐像素最大值形式的聚合结果,如下所示:
VIM(i,j)=max(VM1(i,j),VM2(i,j)) (4)
它们本身是根据以下非线性映射的和归一化的方差图计算的:
其中,q是在训练阶段期间推断出的并且具有在[0.2,1.2]范围内的值的幂参数。
方差图varx(i,j)表示在位置(i,j)处的当前像素周围的小邻域中计算出的方差。该局部方差是使用盒式滤波器(均匀滤波器)计算的,并且可以显式地写为:
其中,N指定局部分析窗口的大小,x对于失真图片为1,并且对于原始图片为2,并且在算法的训练阶段期间推断其属于集合N∈{3,5,7}。
当输入图片表示图片差异数据(即,失真差异图片和原始差异图片)时,修改了上述(6)中的方差估计方法。在这种情况下,图片的平均值预期为0,并且将等式(6)简化为:
其中,x对于失真差异图片为1,并且对于原始差异图片为2。
在灰度视频的情况下,或者为了加快计算速度,仅计算强度通道的平均误差,并且其成为图片质量等级(PQR)。对于彩色视频,在所有三个颜色通道(亮度通道加两个彩度通道)上执行了上述平均误差的计算过程。
然后将这三个误差归一化并线性混合以产生彩色图片的PQR:
其中,ME(Y1,Y2)、ME(U1,U2)和ME(V1,V2)分别是亮度通道和两个彩度通道的平均误差;c是实验性地推断为在[0.5,0.9]范围内的线性混合系数;并且归一化系数nY和nC分别确保亮度和色度误差的缩放比例(根据BT.709),并被表示为:
nY=(219·2BD-8)-p,nC=(224·2BD-8)-p (9)
其中,p是先前定义的幂参数,并且BD是输入颜色通道的比特深度。
当计算了PQR的图片是图片差异数据(即,失真差异图片和原始差异图片)时,代替像素数据Y,U,V,输入是图片差异数据YΔ,UΔ,VΔ,上述(9)中的归一化系数成为:
nY=(2·219·2BD-8)-p,nC=(2·224·2BD-8)-p (10)
并且得到的质量等级被表示为PQRΔ(IΔ1,IΔ2),其中,Δ强调了对图片差异数据进行了处理。
然后,将空间图片质量等级和时间图片质量等级都馈送到时空合并中,以使用凸混合和闵可夫斯基汇集将它们合并为一个帧质量等级(FQR):
其中,d是实验性地推断为在[0.5,0.9]范围内的线性混合系数;r是在训练阶段期间推断出的并且具有在[0.01,1]范围内的值的幂参数;并且PQR是分别根据像素数据和图片差异数据计算的空间等级和时间等级。然后将这些FQR保留在与视频序列持续时间相对应的所需大小的环形缓冲器中。
当要输出质量等级时,首先以升序(从最小误差到最大误差)对这个缓冲器中的值进行排序,然后对以下位置处的值进行排序:
idx=round[h·(BL-1)] (12)
是从排序后的缓冲器中提取的,并成为了视频质量等级(VQR)。在以上等式(12)中,round[x]是舍入到最接近的整数运算符;h是实验性地选择的[0.9,1.0]范围内的参数;BL表示环形缓冲器的长度;并且缓冲器索引遵循基于C的约定,即,索引从0开始。
该最终的VQR值表示每个像素的时空合并的和时间汇集的失真。对于一些观看场景,局部失真(例如,8×8像素块中的失真)对较小分辨率视频(例如,176×144)的视觉影响比对较大分辨率视频(例如,3840×2160)的视觉影响大得多。对于这些场景,视频保真度度量应优选地分配给相同的局部失真(其在较小分辨率视频上具有更大的重要性),并随着分辨率的提高而降低。在当前的VIVIQA算法中,由于在VIM计算期间引入了归一化方案,因此优选地自动进行此操作。
然而,在某个点之后,在保持相同的观看距离的同时提高视频分辨率不应进一步降低失真的重要性,因为一旦在某些图片区域中出现明显失真,检查剩余的图片区域将不会降低已经获得劣化感觉及其程度。通过根据视角分析视频分辨率并使用眼睛整合区的概念,可以实现此行为。
考虑到最佳观看距离(其中,一个像素对应于一弧分的视角[9]),图片(亮度通道)的角度尺寸(以度为单位)变为:
假设人眼可以在有限的空间范围Smax上(默认值为12°,对应于[10]中提出的整合区的最大角度尺寸)整合视觉刺激,则调整后的图片或帧尺寸(平滑限制为Smax)可以表示为:
在上述整合区上累积VQR值,并通过原始图片或帧角度大小对其进行归一化,得到校正后的VQR值(cVQR):
该公式也可以理解为,对于较小视频分辨率(即,小于整合区),整个图片的失真空间整合是最佳的,而对于大于整合区的分辨率,失真像素的剩余部分将对已经检测和整合的部分产生有限的影响。
应当注意的是,Smax参数不一定需要与用于可见性阈值下的心理物理实验的眼睛整合区相对应,并且可以微调到特定的视频数据库,该视频数据库中提供了各种视频分辨率。该参数的初始值被设置为60°。
为了使VIVIQA输出与人类观察者判断的主观得分一致,将VQR或可选地cVQR(通过将等式16中的VQR替换为cVQR)映射到DMOS间隔刻度:
其中,参数α是由本算法产生的对训练数据库中包含的人类主观质量判断的得分的非线性最小二乘(NLS)拟合的解决方案。它们具有以下范围:α1∈[7,15]和α2∈[0.7,1.4]。
最后,为了确保附加的符合MOS间隔刻度中表示的主观得分,可以使用以下等式将所计算出的DMOS值重新映射到MOS范围:
MOS(DMOS)=β1·DMOS+β2 (17)
所有算法的参数都是根据在可用的培训视频数据库上的实验推断出的,并针对与H.264视频压缩相关的失真类型进行了调整。对于所考虑的H.264失真类型,算法参数具有以下值:p=0.025,q=1.05,c=0.69,r=0.08,d=0.7,h=0.998,N=5,并且对于原始VQR计算(即,在等式16中使用VQR),α1=9.7467,α2=1.2251,或者如果启用了整合区的可选校正(即,在等式16中使用cVQR),则α1=11.5328,α2=1.0354。
在根据S形映射的线性化得分计算皮尔森(Pearson)线性相关系数(PLCC)之前,根据[8]中的等式3和4应用了S形映射。通过使S形映射的视频保真度度量和人类观看者针对所有数据库分配给每个图片对的MOS或DMOS值之间的均方根误差(RMSE)最小化找到β参数β1-β5。
图31是比较四个VQA数据库的平均PLCC的图。图32针对各种现有技术的视频保真度度量和根据本发明的视频保真度度量比较了图32中的四个VIQA数据库的PLCC的标准偏差。
在不同的VQA数据库上执行的结果证实了本发明的视频保真度度量与人类主观得分及其鲁棒性和跨数据库的一致行为的非常良好的相关性。当评估PLCC和PLCC的标准偏差两者时,本发明的视频保真度度量优于现有技术的视频保真度度量,后者(PLCC的标准差)是对视频保真度度量的一致性的度量。
以上描述的实施例将被理解为本发明的几个说明性示例。本领域技术人员将理解,在不脱离本发明的范围的前提下,可以对实施例作出各种修改、组合和改变。尤其是,在技术上可行的情况下,在其他配置中可以组合不同实施例中的不同部分解决方案。然而,本发明的范围由所附权利要求限定。
参考文献
【1】Larson等人,“Can visual fixation patterns improve video fidelityassessment?”,2008年15th IEEE International Conference on Picture Processing(ICIP 2008),San Diego,CA,USA,2008年10月12-15日,2572-2575
【2】Seshadrinathan等人,“Study of Subjective and Objective QualityAssessment of Video”,IEEE Transactions on Image Processing,19(6):1427-1441,2010年,
http://live.ece.utexas.edu/research/quality/live_video.html
【3】Seshadrinathan等人,“A Subjective Study to Evaluate Video QualityAssessment Algorithms”,SPIE Proceedings Human Vision and Electronic Imaging,2010年
【4】Lin等人,“MCL-V:A streaming video quality assessment database”,Journal of Visusl Communication and Image Representation,30:1-9,2015年,http://mcl.usc.edu/mcl-v-database/
【5】https://github.com/Netflix/vmaf/blob/master/resource/doc/datasets.md;https://drive.google.com/folderview?id=0B3YWNICYMBIweGdJbERlUG9zc0k&usp=sharing
【6】http://www.cdvl.org/
【7】Haralock等人,“Textural Features for Picture Classification,IEEETransactions on Systems”,Man,and Cybernetics,SMC-3(6):610-621,1973年
【8】Sheikh等人,“A Statistical Evaluation of Recent Full ReferencePicture quality Assessment Algorithms”,IEEE Transactions on PictureProcessing,15(11):3441-3452,2006年
【9】Recommendation ITU-R BT.2022.“General viewing conditions forsubjective assessment of quality of SDTV and HDTV television pictures on flatpanel displays”,BT Series Broadcasting Service,2012年
【10】“Contrast Sensitivity of the Human Eye and Its Effects on ImageQuality”,P.G.J.Barten,SPIE Press,1999年。
Claims (55)
1.一种确定视频序列(1)的视频保真度度量的方法,所述方法包括,针对所述视频序列(1)中的至少一个失真图片(10):
确定(S1)失真差异图片(30)作为所述视频序列(1)中的失真图片(10)的至少一部分(12)和所述失真图片(10)之前的先前失真图片(11)的至少对应的一部分(13)之间的逐像素差异;
确定(S2)原始差异图片(40)作为原始图片(20)的至少对应的一部分(22)和所述原始图片(20)之前的先前原始图片(21)的至少对应的一部分(23)之间的逐像素差异;
确定(S3)第一图,所述第一图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示所述像素(14)和所述原始图片(20)中的对应像素(24)之间的像素值失真;
确定(S4)第二图,所述第二图针对所述失真差异图片(30)中的每个像素(34)表示所述像素(34)和所述原始差异图片(40)中的对应像素(44)之间的像素值失真;
确定(S5)第三图作为第四图和第五图的聚合,所述第四图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的局部可变性,并且所述第五图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部可变性;
确定(S6)第六图作为第七图和第八图的聚合,所述第七图针对所述失真差异图片(30)中的每个像素(34)表示像素值的局部可变性,并且所述第八图针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的局部可变性;以及
基于所述第一图、第二图、第三图和第六图确定(S7)所述视频保真度度量。
2.根据权利要求1所述的方法,其中
确定(S3)所述第一图包括:确定(S2)第一失真图,所述第一失真图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示所述像素(14)和所述原始图片(20)中的对应像素(24)之间的像素值失真;
确定(S4)所述第二图包括:确定(S4)第二失真图,所述第二失真图针对所述失真差异图片(30)中的每个像素(34)表示所述像素(34)和所述原始差异图片(40)中的对应像素(44)之间的像素值失真;
确定(S5)所述第三图包括:确定(S5)第一视觉重要性图作为第一可变性图和第二可变性图的聚合,所述第一可变性图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的局部可变性,并且所述第二可变性图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部可变性;
确定(S6)所述第六图包括:确定(S6)第二视觉重要性图作为第三可变性图和第四可变性图的聚合,所述第三可变性图针对所述失真差异图片(30)中的每个像素(34)表示像素值的局部可变性,并且所述第四可变性图针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的局部可变性;以及
确定(S7)所述视频保真度度量包括:基于所述第一失真图、第二失真图、第一视觉重要性图和第二视觉重要性图来确定(S7)所述视频保真度度量。
3.根据权利要求1或2所述的方法,其中
确定(S1)所述失真差异图片(30)包括:确定(S1)所述失真差异图片(30)作为所述视频序列(1)中的所述失真图片(10)和所述先前失真图片(11)之间的逐像素差异;
确定(S2)所述原始差异图片(40)包括:确定(S2)所述原始差异图片(40)作为所述原始图片(20)和所述先前原始图片(21)之间的逐像素差异;
确定(S3)所述第一图包括:确定(S3)所述第一图,所述第一图针对所述失真图片(10)中的每个像素(14)表示所述像素(14)和所述原始图片(20)中的对应像素(24)之间的像素值失真;以及
确定(S5)所述第三图包括:确定(S5)所述第三图作为所述第四图和所述第五图的聚合,所述第四图针对所述失真图片(10)中的每个像素(14)表示像素值的局部可变性,并且所述第五图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部可变性。
4.根据权利要求1至3中任一项所述的方法,其中
确定(S3)所述第一图包括:确定(S3)所述第一图,所述第一图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示所述像素(14)和所述原始图片(20)中的对应像素(24)之间的像素值的绝对差;以及
确定(S4)所述第二图包括:确定(S4)所述第二图,所述第二图针对所述失真差异图片(30)中的每个像素(34)表示所述像素(34)和所述原始差异图片(40)中的对应像素(44)之间的像素值的绝对差。
5.根据权利要求4所述的方法,其中
确定(S3)所述第一图包括:基于|I1(i,j)-I2(i,j)|p确定(S3)所述第一图DM1(i,j),其中,I1(i,j)表示所述失真图片(10)中的坐标(i,j)处的像素(14)的像素值,I2(i,j)表示所述原始图片(20)中的坐标(i,j)处的对应像素(24)的像素值,并且p为正幂参数;以及
确定(S4)所述第二图包括:基于|IΔ1(i,j)-IΔ2(i,j)|p确定(S4)所述第二图DM2(i,j),其中,IΔ1(i,j)表示所述失真差异图片(30)中的坐标(i,j)处的像素(34)的像素值,并且IΔ2(i,j)表示所述原始差异图片(40)中的坐标(i,j)处的对应像素(44)的像素值。
6.根据权利要求1至5中任一项所述的方法,其中
确定(S5)所述第三图包括:确定(S5)所述第三图VIM1(i,j)作为所述第四图VM1(i,j)和所述第五图VM2(i,j)的逐像素最大值的聚合VIM1(i,j)=max(VM1(i,j),VM2(i,j));以及
确定(S6)所述第六图包括:确定(S6)所述第六图VIM2(i,j)作为所述第七图VM3(i,j)和所述第八图VM4(i,j)的逐像素最大值的聚合VIM2(i,j)=max(VMa(i,j),VM4(i,j))。
7.根据权利要求1至6中任一项所述的方法,其中
确定(S5)所述第三图包括:确定(S5)所述第三图作为所述第四图和所述第五图的聚合,所述第四图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示所述失真图片(10)中所述像素(14)的像素邻域中的像素值的局部可变性,并且所述第五图针对所述原始图片(20)中的每个对应像素(24)表示所述原始图片(20)中对应像素(24)的像素邻域中的像素值的局部可变性;以及
确定(S6)所述第六图包括:确定(S6)所述第六图作为所述第七图和所述第八图的聚合,所述第七图针对所述失真差异图片(30)中的每个像素(34)表示所述失真差异图片(30)中的所述像素(34)的像素邻域中的像素值的局部可变性,并且所述第八图针对所述原始差异图片(40)中的每个对应像素(44)表示所述原始差异图片(40)中的所述对应像素(44)的像素邻域中的像素值的局部可变性。
8.根据权利要求1至7中任一项所述的方法,其中
确定(S5)所述第三图包括:确定(S5)所述第三图作为所述第四图和第五图的聚合,所述第四图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的局部方差,并且第五图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部方差;以及
确定(S6)所述第六图包括:确定(S6)所述第六图作为所述第七图和第八图的聚合,所述第七图针对所述失真差异图片(30)中的每个像素(34)表示像素值的局部方差,并且所述第八图表示针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的局部方差。
9.根据权利要求8所述的方法,其中
确定(S5)所述第三图包括:确定(S5)所述第三图作为所述第四图和第五图的聚合,所述第四图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的非线性映射的和归一化的局部方差,并且所述第五图针对所述原始图片(20)中的每个对应像素(24)表示像素值的非线性映射的和归一化的局部方差;以及
确定(S6)所述第六图包括:确定(S6)所述第六图作为所述第七图和第八图的聚合,所述第七图针对所述失真差异图片(30)中的每个像素(34)表示像素值的非线性映射的和归一化的局部方差,并且所述第八图针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的非线性映射的和归一化的局部方差。
10.根据权利要求8或9所述的方法,还包括:
确定(S10)第一方差图,所述第一方差图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的局部方差;
确定(S11)第一可变性图作为所述第一方差图的非线性映射的和归一化的版本;
确定(S12)第二方差图,所述第二方差图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部方差;
确定(S13)第二可变性图作为所述第二方差图的非线性映射的和归一化的版本;
确定(S14)第三方差图,所述第三方差图针对所述失真差异图片(30)中的每个像素(34)表示像素值的局部方差;
确定(S15)第三可变性图作为所述第三方差图的非线性映射的和归一化的版本;
确定(S16)第四方差图,所述第四方差图针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的局部方差;以及
确定(S17)第四可变性图作为所述第四方差图的非线性映射的和归一化的版本,其中
确定(S5)所述第三图包括:确定(S5)所述第三图作为所述第一可变性图和所述第二可变性图的聚合;以及
确定(S6)所述第六图包括:确定(S6)所述第六图作为所述第三可变性图和所述第四可变性图的聚合,其中
确定(S5)所述第三图包括:确定(S5)所述第三图作为所述第一可变性图和所述第二可变性图的聚合;以及
确定(S6)所述第六图包括:确定(S6)所述第六图作为所述第三可变性图和所述第四可变性图的聚合。
12.根据权利要求10或11所述的方法,其中
13.根据权利要求1至12中任一项所述的方法,其中,确定(S7)所述视频保真度度量包括:
通过由所述第三图对所述第一图进行逐像素加权来确定(S20)第九图;
通过由所述第六图对所述第二图进行逐像素加权来确定(S21)第十图;以及
基于所述第九图和所述第十图来确定(S26)所述视频保真度度量。
14.根据权利要求13所述的方法,其中
确定(S20)所述第九图包括:确定(S20)所述第九图VDM1(i,j)=VIM1(i,j)×DM1(i,j),其中,DM1(i,j)表示所述第一图,并且VIM1(i,j)表示所述第三图;以及
确定(S21)所述第十图包括:确定(S21)所述第十图VDM2(i,j)=VIM2(i,j)×DM2(i,j),其中,DM2(i,j)表示所述第二图,并且VIM2(i,j)表示所述第六图。
15.根据权利要求13或14所述的方法,还包括:
基于所述第九图的和∑i∑jVDM1(i,j)确定(S22)第一平均误差ME1(I1,I2),其中,I1,I2表示像素值,并且(i,j)表示所述失真图片(10)中的像素(14)以及所述原始图片(20)中的对应像素(24)的坐标;以及
基于所述第十图的和∑i∑jVDM2(i,j)确定(S23)第二平均误差ME2(IΔ1,IΔ2),其中,IΔ1,IΔ2表示像素值,并且(i,j)表示所述失真差异图片(30)中的像素(34)以及所述原始差异图片(40)中的对应像素(44)的坐标,其中,确定(S26)所述视频保真度度量包括:基于所述第一平均误差和所述第二平均误差确定(S26)所述视频保真度度量。
16.根据权利要求15所述的方法,其中
确定(S22)所述第一平均误差包括:确定(S22)强度通道的第一平均误差ME1(Y1,Y2)和彩色通道的第一平均误差ME1(U1,U2),ME1(V1,V2);以及
确定(S23)所述第二平均误差包括:确定(S23)强度通道的第二平均误差ME2(YΔ1,YΔ2)和彩色通道的第二平均误差ME2(UΔ1,UΔ2),ME2(VΔ1,VΔ2),其中,所述方法还包括:
基于所述强度通道的第一平均误差和所述彩色通道的第一平均误差的归一化的线性组合,确定(S24)第一图片质量等级PQR1(I1,I2);以及
基于所述强度通道的第二平均误差和所述彩色通道的第二平均误差的归一化的线性组合,确定(S25)第二图片质量等级PQR2(IΔ1,IΔ2),其中
确定(S26)所述视频保真度度量包括:基于所述第一图片质量等级和所述第二图片质量等级的组合来确定(S26)所述视频保真度度量。
19.根据权利要求1至18中任一项所述的方法,其中
确定(S1)所述失真差异图片(30)包括:针对所述视频序列中的多个失真图片(10、11)中的每个失真图片(10),确定(S1)失真差异图片(30)作为所述视频序列(1)中的所述失真图片(10)的至少一部分(12)和所述失真图片(10)之前的先前失真图片(11)的至少对应的一部分(13)之间的逐像素差异;
确定(S2)所述原始差异图片(40)包括:针对所述多个失真图片(10、11)中的每个失真图片(10),确定(S2)原始差异图片(40)作为原始图片(20)的至少对应的一部分(22)和所述原始图片(20)之前的先前原始图片(21)的至少对应的一部分(23)之间的逐像素差异;
确定(S3)所述第一图包括:针对所述多个失真图片(10、11)中的每个失真图片(10)确定(S3)第一图,所述第一图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示所述像素(14)和所述原始图片(20)中的对应像素(24)之间的像素值失真;
确定(S4)所述第二图包括:针对所述多个失真图片(10、11)中的每个失真图片(10)确定(S4)第二图,所述第二图针对所述失真差异图片(30)中的每个像素(34)表示所述像素(34)和所述原始差异图片(40)中的对应像素(44)之间的像素值失真;
确定(S5)所述第三图包括:针对所述多个失真图片(10、11)中的每个失真图片(10)确定(S5)第三图作为第四图和第五图的聚合,所述第四图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的局部可变性,并且所述第五图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部可变性;
确定(S6)所述第六图包括:针对所述多个失真图片(10、11)中的每个失真图片(10)确定(S6)第六图作为第七图和第八图的聚合,所述第七图针对所述失真差异图片(30)中的每个像素(34)表示像素值的局部可变性,并且所述第八图针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的局部可变性;以及
确定(S7)所述视频保真度度量包括:针对所述多个失真图片(10、11)中的每个失真图片(10),基于所述第一图、第二图、第三图和第六图确定(S7)所述失真图片(10)的视频保真度度量。
20.根据权利要求19所述的方法,还包括:在针对所述多个失真图片(10、11)确定的所述多个视频保真度度量中,选择(S8)视频保真度度量,作为所述视频序列(1)的视频保真度度量。
21.根据权利要求20所述的方法,其中,选择(S8)所述视频保真度度量包括:选择(S8)表示所述多个视频保真度度量中的最差视频保真度的视频保真度度量。
22.根据权利要求20所述的方法,其中,选择(S8)所述视频保真度度量包括:选择(S8)针对所述视频序列(1)中的多个连续失真图片(10、11)确定的视频保真度度量的范围。
23.根据权利要求1至22中任一项所述的方法,还包括:将所述视频保真度度量转换(S9)为差异平均意见得分DMOS范围或平均意见得分MOS范围。
24.一种对视频序列(2)进行编码的方法,所述方法包括,针对所述视频序列(2)中的至少一个原始图片(20):
根据多种编码模式对所述原始图片(20)的至少一部分(22)进行编码(S30),以获得多个编码后的候选图片部分;
对所述多个编码后的候选图片部分进行解码(S31),以获得多个解码后的候选图片部分(12);
针对所述多个解码后的候选图片部分(12)中的每一部分,根据权利要求1至23中任一项确定(S32)各自的视频保真度度量;以及
至少部分地基于各自的视频保真度度量,在所述多个编码后的候选图片部分中,选择(S33)编码后的候选图片部分作为所述原始图片(20)的至少一部分(22)的编码表示。
25.根据权利要求24所述的方法,还包括:针对所述多个解码后的候选图片部分(12)中的每一部分,基于各自的视频保真度度量和表示用所述编码后的候选图片部分表示所述原始图片(20)的至少一部分(22)的比特成本的比率,确定(S40)各自的率失真度量,其中,选择(S33)所述编码后的候选图片部分包括:基于各自的率失真度量,在所述多个编码后的候选图片部分中选择(S33)编码后的候选图片部分作为图片(20)的至少一部分(22)的编码表示。
26.一种选择用于编码器的编码器简档的方法(140),所述方法包括:
使用多个编码器简档对视频序列(2)中的至少一个原始图片(20)进行编码(S50)以获得多个编码图片;
对所述多个编码图片进行解码(S51)以获得多个解码图片(10);
针对所述多个解码图片(10)中的每一个,根据权利要求1至23中任一项确定(S52)各自的视频保真度度量;以及
至少部分地基于各自的视频保真度度量,在所述多个编码器简档中选择(S53)用于所述编码器(140)的编码器简档。
27.一种用于确定视频序列(1)的视频保真度度量的设备(100、110、120、130),其中,所述设备(100、110、120、130)被配置为针对所述视频序列(1)中的至少一个失真图片(10):
确定失真差异图片(30)作为所述视频序列(1)中的失真图片(10)的至少一部分(12)和所述失真图片(10)之前的先前失真图片(11)的至少对应的一部分(13)之间的逐像素差异;
确定原始差异图片(40)作为原始图片(20)的至少对应的一部分(22)和所述原始图片(20)之前的先前原始图片(21)的至少对应的一部分(23)之间的逐像素差异;
确定第一图,所述第一图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示所述像素(14)和所述原始图片(20)中的对应像素(24)之间的像素值失真;
确定第二图,所述第二图针对所述失真差异图片(30)中的每个像素(34)表示所述像素(34)和所述原始差异图片(40)中的对应像素(44)之间的像素值失真;
确定第三图作为第四图和第五图的聚合,所述第四图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的局部可变性,并且所述第五图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部可变性;
确定第六图作为第七图和第八图的聚合,所述第七图针对所述失真差异图片(30)中的每个像素(34)表示像素值的局部可变性,并且所述第八图针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的局部可变性;以及
基于所述第一图、第二图、第三图和第六图确定所述视频保真度度量。
28.根据权利要求27所述的设备,其中,所述设备(100、110、120、130)被配置为确定所述失真差异图片(30)作为所述视频序列(1)中的所述失真图片(10)和所述先前失真图片(11)之间的逐像素差异;
确定所述原始差异图片(40)作为所述原始图片(20)和所述先前原始图片(21)之间的逐像素差异;
确定所述第一图,所述第一图针对所述失真图片(10)中的每个像素(14)表示所述像素(14)和所述原始图片(20)中的对应像素(24)之间的像素值失真;以及
确定所述第三图作为所述第四图和所述第五图的聚合,所述第四图针对所述失真图片(10)中的每个像素(14)表示像素值的局部可变性,并且所述第五图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部可变性。
29.根据权利要求27或28所述的设备,其中,所述设备(100、110、120、130)被配置为
确定所述第一图,所述第一图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示所述像素(14)和所述原始图片(20)中的对应像素(24)之间的像素值的绝对差;以及
确定所述第二图,所述第二图针对所述失真差异图片(30)中的每个像素(34)表示所述像素(34)和所述原始差异图片(40)中的对应像素(44)之间的像素值的绝对差。
30.根据权利要求29所述的设备,其中,所述设备(100、110、120、130)被配置为
基于|I1(i,j)-I2(i,j)|p确定所述第一图DM1(i,j),其中,I1(i,j)表示所述失真图片(10)中的坐标(i,j)处的像素(14)的像素值,I2(i,j)表示所述原始图片(20)中的坐标(i,j)处的对应像素(24)的像素值,并且p为正幂参数;以及
基于|IΔ1(i,j)-IΔ2(i,j)|p确定所述第二图DM2(i,j),其中,IΔ1(i,j)表示所述失真差异图片(30)中的坐标(i,j)处的像素(34)的像素值,并且IΔ2(i,j)表示所述原始差异图片(40)中的坐标(i,j)处的对应像素(44)的像素值。
31.根据权利要求27至30中任一项所述的设备,其中,所述设备(100、110、120、130)被配置为
确定所述第三图VIM1(i,j)作为所述第四图VM1(i,j)和所述第五图VM2(i,j)的逐像素最大值的聚合VIM1(i,j)=max(VM1(i,j),VM2(i,j));以及
确定所述第六图VIM2(i,j)作为所述第七图VM3(i,j)和所述第八图VM4(i,j)的逐像素最大值的聚合VIM2(i,j)=max(VM3(i,j),VM4(i,j))。
32.根据权利要求27至31中任一项所述的设备,其中,所述设备(100、110、120、130)被配置为
确定所述第三图作为所述第四图和所述第五图的聚合,所述第四图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示所述失真图片(10)中所述像素(14)的像素邻域中的像素值的局部可变性,并且所述第五图针对所述原始图片(20)中的每个对应像素(24)表示所述原始图片(20)中的所述对应像素(24)的像素邻域中的像素值的局部可变性;以及
确定所述第六图作为所述第七图和所述第八图的聚合,所述第七图针对所述失真差异图片(30)中的每个像素(34)表示所述失真差异图片(30)中的所述像素(34)的像素邻域中的像素值的局部可变性,并且所述第八图针对所述原始差异图片(40)中的每个对应像素(44)表示所述原始差异图片(40)中的所述对应像素(44)的像素邻域中的像素值的局部可变性。
33.根据权利要求27至32中任一项所述的设备,其中,所述设备(100、110、120、130)被配置为
确定所述第三图作为所述第四图和第五图的聚合,所述第四图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的局部方差,并且第五图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部方差;以及
确定所述第六图作为所述第七图和第八图的聚合,所述第七图针对所述失真差异图片(30)中的每个像素(34)表示像素值的局部方差,并且所述第八图针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的局部方差。
34.根据权利要求33所述的设备,其中,所述设备(100、110、120、130)被配置为
确定所述第三图作为所述第四图和第五图的聚合,所述第四图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的非线性映射的和归一化的局部方差,并且所述第五图针对所述原始图片(20)中的每个对应像素(24)表示像素值的非线性映射的和归一化的局部方差;以及
确定所述第六图作为所述第七图和第八图的聚合,所述第七图针对所述失真差异图片(30)中的每个像素(34)表示像素值的非线性映射的和归一化的局部方差,并且所述第八图针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的非线性映射的和归一化的局部方差。
35.根据权利要求33或34所述的设备,其中,所述设备(100、110、120、130)被配置为
确定第一方差图,所述第一方差图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的局部方差;
确定第一可变性图作为所述第一方差图的非线性映射的和归一化的版本;
确定第二方差图,所述第二方差图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部方差;
确定第二可变性图作为所述第二方差图的非线性映射的和归一化的版本;
确定第三方差图,所述第三方差图针对所述失真差异图片(30)中的每个像素(34)表示像素值的局部方差;
确定第三可变性图作为所述第三方差图的非线性映射的和归一化的版本;
确定第四方差图,所述第四方差图针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的局部方差;
确定第四可变性图作为所述第四方差图的非线性映射的和归一化的版本;
确定所述第三图作为所述第一可变性图和所述第二可变性图的聚合;以及
确定所述第六图作为所述第三可变性图和所述第四可变性图的聚合。
37.根据权利要求35或36所述的设备,其中,所述设备(100、110、120、130)被配置为
38.根据权利要求27至37中任一项所述的设备,其中,所述设备(100、110、120、130)被配置为
通过由所述第三图对所述第一图进行逐像素加权来确定第九图;
通过由所述第六图对所述第二图进行逐像素加权来确定第十图;以及
基于所述第九图和所述第十图来确定所述视频保真度度量。
39.根据权利要求38所述的设备,其中,所述设备(100、110、120、130)被配置为
确定所述第九图VDM1(i,j)=VIM1(i,j)×DM1(i,j),其中,DM1(i,j)表示所述第一图,并且VIM1(i,j)表示所述第三图;以及
确定所述第十图VDM2(i,j)=VIM2(i,j)×DM2(i,j),其中,DM2(i,j)表示所述第二图,并且VIM2(i,j)表示所述第六图。
40.根据权利要求38或39所述的设备,其中,所述设备(100、110、120、130)被配置为
基于所述第九图的和∑i∑jVDM1(i,j)确定第一平均误差ME1(I1,I2),其中,I1,I2表示像素值,并且(i,j)表示所述失真图片(10)中的像素(14)以及所述原始图片(20)中的对应像素(24)的坐标;
基于所述第十图的和∑i∑jVDM2(i,j)确定第二平均误差ME2(IΔ2,IΔ2),其中,IΔ1,IΔ2表示像素值,并且(i,j)表示所述失真差异图片(30)中的像素(34)以及所述原始差异图片(40)中的对应像素(44)的坐标;以及
基于所述第一平均误差和所述第二平均误差确定所述视频保真度度量。
41.根据权利要求40所述的设备,其中,所述设备(100、110、120、130)被配置为
确定强度通道的第一平均误差ME1(Y1,Y2)和彩色通道的第一平均误差ME1(U1,U2),ME1(V1,V2);
确定强度通道的第二平均误差ME2(YΔ1,YΔ2)和彩色通道的第二平均误差ME2(UΔ1,UΔ2),ME2(VΔ1,VΔ2);
基于所述强度通道的第一平均误差和所述彩色通道的第一平均误差的归一化的线性组合,确定第一图片质量等级PQR1(I1,I2);以及
基于所述强度通道的第二平均误差和所述彩色通道的第二平均误差的归一化的线性组合,确定第二图片质量等级PQR2(IΔ1,IΔ2);以及
基于所述第一图片质量等级和所述第二图片质量等级的组合来确定所述视频保真度度量。
44.根据权利要求27至43中任一项所述的设备,其中,所述设备(100、110、120、130)被配置为
针对所述视频序列中的多个失真图片(10、11)中的每个失真图片(10),确定失真差异图片(30)作为所述视频序列(1)中的所述失真图片(10)的至少一部分(12)和所述失真图片(10)之前的先前失真图片(11)的至少对应的一部分(13)之间的逐像素差异;
针对所述多个失真图片(10、11)中的每个失真图片(10),确定原始差异图片(40)作为原始图片(20)的至少对应的一部分(22)和所述原始图片(20)之前的先前原始图片(21)的至少对应的一部分(23)之间的逐像素差异;
针对所述多个失真图片(10、11)中的每个失真图片(10)确定第一图,所述第一图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示所述像素(14)和所述原始图片(20)中的对应像素(24)之间的像素值失真;
针对所述多个失真图片(10、11)中的每个失真图片(10)确定第二图,所述第二图针对所述失真差异图片(30)中的每个像素(34)表示所述像素(34)和所述原始差异图片(40)中的对应像素(44)之间的像素值失真;
针对所述多个失真图片(10、11)中的每个失真图片(10)确定第三图作为第四图和第五图的聚合,所述第四图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的局部可变性,并且所述第五图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部可变性;
针对所述多个失真图片(10、11)中的每个失真图片(10)确定第六图作为第七图和第八图的聚合,所述第七图针对所述失真差异图片(30)的每个像素(34)表示像素值的局部可变性,并且所述第八图针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的局部可变性;以及
针对所述多个失真图片(10、11)中的每个失真图片(10),基于所述第一图、第二图、第三图和第六图确定所述失真图片(10)的视频保真度度量。
45.根据权利要求44所述的设备,其中,所述设备(100、110、120、130)被配置为:在针对所述多个失真图片(10、11)确定的多个各自的视频保真度度量中,选择视频保真度度量,作为所述视频序列(1)的视频保真度度量。
46.根据权利要求45所述的设备,其中,所述设备(100、110、120、130)被配置为:选择在所述多个视频保真度度量中表示最差视频保真度的视频保真度度量。
47.根据权利要求45所述的设备,其中,所述设备(100、110、120、130)被配置为:选择针对所述视频序列(1)中的多个连续失真图片(10、11)确定的视频保真度度量的范围。
48.根据权利要求27至47中任一项所述的设备,其中,所述设备(100、110、120、130)被配置为:将所述视频保真度度量转换为差异平均意见得分DMOS范围或平均意见得分MOS范围。
49.根据权利要求27至48中任一项所述的设备,还包括:
处理器(101);以及
存储器(102),包括所述处理器(102)能够执行的指令,其中,所述处理器(101)能够操作用于:
确定所述失真差异图片(30)作为所述视频序列(1)中的所述失真图片(10)的至少一部分(12)和所述先前失真图片(11)的至少对应的一部分(13)之间的逐像素差异;
确定所述原始差异图片(40)作为原始图片(20)的至少对应的一部分(22)和所述先前原始图片(21)的至少对应的一部分(23)之间的逐像素差异;
确定所述第一图,所述第一图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示所述像素(14)和所述原始图片(20)中的对应像素(24)之间的像素值失真;
确定所述第二图,所述第二图针对所述失真差异图片(30)中的每个像素(34)表示所述像素(34)和所述原始差异图片(40)中的对应像素(44)之间的像素值失真;
确定所述第三图作为所述第四图和所述第五图的聚合,所述第四图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的局部可变性,并且所述第五图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部可变性;
确定所述第六图作为所述第七图和所述第八图的聚合,所述第七图针对所述失真差异图片(30)中的每个像素(34)表示像素值的局部可变性,并且所述第八图针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的局部可变性;以及
基于所述第一图、第二图、第三图和第六图确定所述视频保真度度量。
50.一种编码器(140),包括根据权利要求27至49中任一项所述的用于确定视频序列(2)的视频保真度度量的设备(100、110、120、130),其中,所述编码器(140)被配置为
根据多种编码模式对所述视频序列(2)中的原始图片(20)的至少一部分(22)进行编码,以获得多个编码后的候选图片部分;
对多个编码后的候选图片进行解码,以获得多个解码后的候选图片部分(12);以及
至少部分地基于由所述设备(100、110、120、130)针对所述多个解码后的候选图片部分(12)中的每一部分确定的各自的视频保真度度量,在所述多个编码后的候选图片部分中选择编码后的候选图片部分作为所述原始图片(20)的至少一部分(22)的编码表示。
51.根据权利要求50所述的编码器,其中,所述编码器(140)被配置为
针对所述多个解码后的候选图片部分(12)中的每一部分,基于各自的视频保真度度量和表示用所述编码后的候选图片部分表示所述原始图片(20)的至少一部分(22)的比特成本的比率,确定各自的率失真度量;以及
基于各自的率失真度量,在所述多个编码后的候选图片部分中选择编码后的候选图片部分作为所述原始图片(20)的至少一部分(22)的编码表示。
52.一种用于选择编码器(140)的编码器简档的设备(150),所述设备(150)包括根据权利要求27至49中任一项的用于确定视频序列(1)的视频保真度度量的设备(100、110、120、130),其中,所述用于选择编码器简档的设备(150)被配置为:
使用多个编码器简档对所述视频序列(2)中的至少一个原始图片(20)进行编码,以获得多个编码图片;
对所述多个编码图片进行解码,以获得多个解码图片(10);以及
至少部分地基于由用于确定视频保真度度量的所述设备(100、110、120、130)确定的各自的视频保真度度量,在所述多个编码器简档中选择用于所述编码器(140)的编码器简档。
53.一种网络设备(30、300),包括根据权利要求27至49、52中任一项所述的设备(100、110、120、130、150)和/或根据权利要求50或51所述的编码器(140)。
54.一种计算机程序(240),包括指令,所述指令当由至少一个处理器(210)执行时使所述至少一个处理器(210):
针对所述视频序列(1)中的至少一个失真图片(10),确定失真差异图片(30)作为所述视频序列(1)中的所述失真图片(10)的至少一部分(12)和先前失真图片(11)的至少对应的一部分之间的逐像素差异;
针对所述视频序列(1)中的至少一个失真图片(10),确定原始差异图片(40)作为原始图片(20)的至少对应的一部分(22)和先前原始图片(21)的至少对应的一部分(23)之间的逐像素差异;
针对所述视频序列(1)中的至少一个失真图片(10)确定第一图,所述第一图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示所述像素(14)和所述原始图片(20)中的对应像素(24)之间的像素值失真;
针对所述视频序列(1)中的至少一个失真图片(10)确定第二图,所述第二图针对所述失真差异图片(30)中的每个像素(34)表示所述像素(34)和所述原始差异图片(40)中的对应像素(44)之间的像素值失真;
针对所述视频序列(1)中的至少一个失真图片(10),确定第三图作为第四图和第五图的聚合,所述第四图针对所述失真图片(10)的至少一部分(12)中的每个像素(14)表示像素值的局部可变性,并且所述第五图针对所述原始图片(20)中的每个对应像素(24)表示像素值的局部可变性;
针对所述视频序列(1)中的至少一个失真图片(10),确定第六图作为第七图和第八图的聚合,所述第七图针对所述失真差异图片(30)中的每个像素(34)表示像素值的局部可变性,并且所述第八图针对所述原始差异图片(40)中的每个对应像素(44)表示像素值的局部可变性;以及
针对所述视频序列(1)中的至少一个失真图片(10),基于所述第一图、第二图、第三图和第六图确定所述视频保真度度量。
55.一种载体(250),包括根据权利要求54所述的计算机程序(240),其中,所述载体(250)是电子信号、光信号、电磁信号、磁信号、电信号、无线电信号、微波信号或计算机可读存储介质之一。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2018/073237 WO2020043279A1 (en) | 2018-08-29 | 2018-08-29 | Video fidelity measure |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112771570A true CN112771570A (zh) | 2021-05-07 |
Family
ID=63517857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880098156.4A Pending CN112771570A (zh) | 2018-08-29 | 2018-08-29 | 视频保真度度量 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11394978B2 (zh) |
EP (1) | EP3844711A1 (zh) |
CN (1) | CN112771570A (zh) |
WO (1) | WO2020043279A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11615542B2 (en) * | 2019-11-14 | 2023-03-28 | Panasonic Avionics Corporation | Automatic perspective correction for in-flight entertainment (IFE) monitors |
CN112655201B (zh) * | 2020-04-23 | 2022-02-11 | 华为技术有限公司 | 一种图像编解码的方法、装置及系统、和存储介质 |
EP3907991A1 (en) * | 2020-05-04 | 2021-11-10 | Ateme | Method for image processing and apparatus for implementing the same |
US11532077B2 (en) | 2020-08-17 | 2022-12-20 | Netflix, Inc. | Techniques for computing perceptual video quality based on brightness and color components |
US11557025B2 (en) * | 2020-08-17 | 2023-01-17 | Netflix, Inc. | Techniques for training a perceptual quality model to account for brightness and color distortions in reconstructed videos |
US11751144B2 (en) * | 2021-09-23 | 2023-09-05 | Apple Inc. | Preferred device selection |
CN114630111B (zh) * | 2022-05-13 | 2022-10-14 | 电子科技大学 | 一种基于编码信息的无参考压缩视频质量评估方法 |
CN115174919B (zh) * | 2022-09-05 | 2022-11-22 | 腾讯科技(深圳)有限公司 | 一种视频处理方法、装置、设备及介质 |
US20240121402A1 (en) * | 2022-09-30 | 2024-04-11 | Netflix, Inc. | Techniques for predicting video quality across different viewing parameters |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1727088A1 (en) * | 2005-05-25 | 2006-11-29 | Thomson Licensing | Method for assessing image quality |
WO2012171113A1 (en) * | 2011-06-14 | 2012-12-20 | Zhou Wang | Method and system for structural similarity based rate-distortion optimization for perceptual video coding |
US20140321552A1 (en) * | 2011-11-18 | 2014-10-30 | Dolby Laboratories Licensing Corporation | Optimization of Deblocking Filter Parameters |
CN104361593A (zh) * | 2014-11-14 | 2015-02-18 | 南京大学 | 一种基于hvs和四元数的彩色图像质量评价方法 |
US20160073111A1 (en) * | 2014-03-10 | 2016-03-10 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
CN105763876A (zh) * | 2015-12-21 | 2016-07-13 | 中国计量学院 | 一种基于时域失真波动和感兴趣区域的视频质量评价方法 |
US20170070745A1 (en) * | 2014-03-10 | 2017-03-09 | Euclid Discoveries, Llc | Perceptual Optimization for Model-Based Video Encoding |
WO2018140158A1 (en) * | 2017-01-30 | 2018-08-02 | Euclid Discoveries, Llc | Video characterization for smart enconding based on perceptual quality optimization |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2540846C2 (ru) * | 2010-01-11 | 2015-02-10 | Телефонактиеболагет Л М Эрикссон (Пабл) | Технология для оценки качества видео |
-
2018
- 2018-08-29 CN CN201880098156.4A patent/CN112771570A/zh active Pending
- 2018-08-29 US US17/271,301 patent/US11394978B2/en active Active
- 2018-08-29 WO PCT/EP2018/073237 patent/WO2020043279A1/en unknown
- 2018-08-29 EP EP18765588.1A patent/EP3844711A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1727088A1 (en) * | 2005-05-25 | 2006-11-29 | Thomson Licensing | Method for assessing image quality |
WO2012171113A1 (en) * | 2011-06-14 | 2012-12-20 | Zhou Wang | Method and system for structural similarity based rate-distortion optimization for perceptual video coding |
US20140321552A1 (en) * | 2011-11-18 | 2014-10-30 | Dolby Laboratories Licensing Corporation | Optimization of Deblocking Filter Parameters |
US20160073111A1 (en) * | 2014-03-10 | 2016-03-10 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
US20170070745A1 (en) * | 2014-03-10 | 2017-03-09 | Euclid Discoveries, Llc | Perceptual Optimization for Model-Based Video Encoding |
CN104361593A (zh) * | 2014-11-14 | 2015-02-18 | 南京大学 | 一种基于hvs和四元数的彩色图像质量评价方法 |
CN105763876A (zh) * | 2015-12-21 | 2016-07-13 | 中国计量学院 | 一种基于时域失真波动和感兴趣区域的视频质量评价方法 |
WO2018140158A1 (en) * | 2017-01-30 | 2018-08-02 | Euclid Discoveries, Llc | Video characterization for smart enconding based on perceptual quality optimization |
Also Published As
Publication number | Publication date |
---|---|
EP3844711A1 (en) | 2021-07-07 |
US11394978B2 (en) | 2022-07-19 |
US20210409725A1 (en) | 2021-12-30 |
WO2020043279A1 (en) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11394978B2 (en) | Video fidelity measure | |
CN112106370B (zh) | 基于优先化排序的变换而优化动态点云的系统和方法 | |
TW201637449A (zh) | 區塊間複製檢索 | |
CN102067603A (zh) | 在多个失真约束下的视频压缩 | |
KR101586954B1 (ko) | 디지털 영상에서의 컬러 아티팩트 감소 기법 | |
US20240195994A1 (en) | Method to determine encoder parameters | |
KR20180080713A (ko) | 가상 현실 이미지들의 이미지 개선을 위한 방법 및 장치 | |
US20230176915A1 (en) | Method and device for providing split computing based on device capability | |
CN110870317B (zh) | 用于对360度视频内容进行编码的方法和装置 | |
US20240163471A1 (en) | Generating a motion vector predictor list | |
US11694346B2 (en) | Object tracking in real-time applications | |
CN111527753A (zh) | 使用参考值提供视频编码和/或解码的方法及相关设备 | |
CN109922348A (zh) | 图像编解码方法和装置 | |
WO2020043280A1 (en) | Image fidelity measure | |
EP4115641A1 (en) | Method, electronic device and non-transitory computer-readable storage medium for determining indoor radio transmitter distribution | |
TW202404367A (zh) | 空間幾何分割模式 | |
WO2020141123A1 (en) | History-based intra most probable mode derivation | |
US11727602B2 (en) | Resolution of a picture | |
KR101556381B1 (ko) | 터미널 서버에서의 화면프레임 전송방법 및 이를 이용하는 터미널 서버 | |
US20240354971A1 (en) | System and Method for Optimizing Dynamic Point Clouds Based on Prioritized Transformations | |
KR20240089399A (ko) | 깊이 모션 기반 다중 유형 트리 분할 | |
WO2022157537A1 (en) | Method and system to identify network nodes/cells with performance seasonality based on time series of performance data and external reference data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |