CN114641998A - 用于机器视频编码的方法和装置 - Google Patents

用于机器视频编码的方法和装置 Download PDF

Info

Publication number
CN114641998A
CN114641998A CN202180006264.6A CN202180006264A CN114641998A CN 114641998 A CN114641998 A CN 114641998A CN 202180006264 A CN202180006264 A CN 202180006264A CN 114641998 A CN114641998 A CN 114641998A
Authority
CN
China
Prior art keywords
picture quality
coding efficiency
coding
scheme
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180006264.6A
Other languages
English (en)
Inventor
刘杉
高文
许晓中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN114641998A publication Critical patent/CN114641998A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开的各方面提供了用于在机器视频编码中使用的方法和装置。在一些示例中,一种用于机器视频编码的装置包括处理电路。该处理电路确定用于机器视频编码(VCM)的第一编码方案的第一图片质量对编码效率特性,以及确定用于机器视频编码的第二编码方案的第二图片质量对编码效率特性。然后,基于第一图片质量对编码效率特性和第二图片质量对编码效率特性,处理电路确定用于比较第一编码方案和第二编码方案的
Figure DDA0003628028750000011
delta(BD)度量。

Description

用于机器视频编码的方法和装置
援引并入
本申请要求于2021年6月28日提交的标题为“METHOD AND APPARATUS IN VIDEOCODING FOR MACHINES”的美国专利申请第17/360,838号(其要求了于2020年10月12日提交的标题为“WEIGHTED PERFORMANCE METRIC FOR VIDEO CODING FOR MACHINE”的美国临时申请第63/090,555号,以及于2020年10月9日提交的题为“PERFORMANCE METRIC FOR VIDEOCODING FOR MACHINE”的美国临时申请第63/089,858号的优先权权益)的优先权权益,前述申请的全部公开内容通过引用并入本文。
技术领域
本公开描述了总体上涉及机器视频编码的实施例。
背景技术
本文所提供的背景描述是出于总体上呈现本公开的内容的目的。在该背景技术部分以及本说明书的各个方面中所描述的目前已署名的发明人的工作所进行的程度,并不表明其在本申请提交时作为现有技术,且从未明示或暗示其被承认为本公开的现有技术。
传统上,视频或图像被人们用于各种用途,例如,娱乐、教育等。因此,视频编码或图像编码通常利用人类视觉系统的特性以在保持良好主观质量的同时提高压缩效率。
近年来,随着机器学习应用的兴起以及传感器的丰富,许多平台利用视频来用于机器视觉任务,例如,目标检测、分割或跟踪等。用于由机器任务消耗的视频或图像编码成为关注的并具有挑战性的领域。
发明内容
本公开的各方面提供了用于在机器视频编码中使用的方法和装置。在一些示例中,一种用于机器的视频编码装置包括处理电路。处理电路确定用于机器视频编码(videocoding for machine,VCM)的第一编码方案的第一图片质量对编码效率特性,以及确定用于机器视频编码的第二编码方案的第二图片质量对编码效率特性。然后,基于第一图片质量对编码效率特性和第二图片质量对编码效率特性,处理电路确定用于比较第一编码方案和第二编码方案的
Figure BDA0003628028730000021
delta(BD)度量。
在一些实施例中,处理电路以下述中的至少一个计算BD度量:平均精度均值(mAP)、每像素位数(BPP)、多目标跟踪准确度(MOTA)、交并比阈值为50%的平均精度(AP50)、交并比阈值为75%的平均精度(AP75)、以及平均准确度。
在一些示例中,第一图片质量对编码效率特性包括针对图片质量和编码效率的二维平面中的第一曲线,以及第二图片质量对编码效率特性包括针对图片质量和编码效率的二维平面中的第二曲线。在一个示例中,处理电路计算BD度量作为第一曲线和第二曲线之间的平均间隙。
在一些示例中,第一图片质量对编码效率特性包括用于针对第一轴上的图片质量和第二轴上的编码效率的二维平面中的第一编码方案的第一多个图片质量对编码效率曲线,以及第二图片质量对编码效率特性包括用于针对图片质量和编码效率的二维平面中的第二编码方案的第二多个图片质量对编码效率曲线。处理电路计算用于第一编码方案的第一多个图片质量对编码效率曲线的第一帕累托前曲线,以及计算用于第二编码方案的第二多个图片质量对编码效率曲线的第二帕累托前曲线。然后,处理电路基于第一帕累托前曲线和第二帕累托前曲线计算BD度量。
在一个示例中,第二多个图片质量对编码效率特性曲线分别对应于第一多个图片质量对编码效率特性曲线。然后,处理电路基于第一多个图片质量对编码效率特性曲线和对应的第二多个图片质量对编码效率特性曲线,分别计算BD度量值。然后,处理电路计算多个BD度量值的加权和作为用于比较第一编码方案和第二编码方案的总体BD度量。
在一些示例中,第一编码方案和第二编码方案是用于针对机器视觉和人类视觉的视频编码的。处理电路计算针对机器视觉的每像素位数(BPP)的第一BD率(BD-rate)以及针对人类视觉的第二BD率,并计算第一BD率和第二BD率的加权和作为用于比较第一编码方案和第二编码方案的总体BD度量。
在一些示例中,第一编码方案和第二编码方案是用于针对机器视觉和人类视觉的视频编码的。处理电路通过第一编码方案基于针对机器视觉和人类视觉的失真的加权和计算第一总体失真,并基于第一编码方案的第一总体失真和第一率信息计算第一成本度量值。然后,处理电路通过第二编码方案基于针对机器视觉和人类视觉的失真的加权和计算第二总体失真,并基于第二编码方案的第二总体失真和第二率信息计算第二成本度量值。处理电路基于第一成本度量值和第二成本度量值,比较第一编码方案和第二编码方案。
在一些示例中,第一编码方案和第二编码方案是用于针对机器视觉和人类视觉的视频编码的。处理电路通过第一编码方案,基于针对机器视觉和人类视觉的失真的加权和来确定第一图片质量,并通过第二编码方案,基于针对机器视觉和人类视觉的失真的加权和来确定第二图片质量。
在一些示例中,第一编码方案和第二编码方案是用于针对多个视觉任务的视频编码的。处理电路通过第一编码方案,基于针对多个视觉任务的失真的加权和,确定第一图片质量,以及通过第二编码方案,基于针对多个视觉任务的失真的加权和,确定第二图片质量。
本公开的各方面还提供了一种非瞬态计算机可读介质,用于存储指令,该指令在由计算机执行以进行机器视频编码时,使计算机执行视频编码的方法。
附图说明
通过以下详细描述和附图,所公开主题的其他特征、性质和各种优点将更加明显,在附图中:
图1示出了根据本公开实施例的VCM系统的框图。
图2示出了根据本公开的一些实施例的用于机器视频编码的BD度量的计算的图。
图3示出了根据本公开的一些实施例的用于机器视频编码的BD度量的计算的另一图。
图4至图7示出了根据本公开的一些实施例的伪代码的示例。
图8示出了根据本公开实施例的概述处理示例的流程图。
图9是根据实施例的计算机系统的示意图。
具体实施方式
本公开的各方面提供了用于机器视频编码(VCM)的性能度量技术。性能度量技术可用于根据另一编码工具对编码工具的性能进行评估以进行有意义的比较。
图1示出了根据本公开的实施例的VCM系统(100)的框图。VCM系统(100)可用于各种用途应用,例如,增强现实(AR)应用、自动驾驶应用、视频游戏护目镜应用、体育游戏动画应用、监控应用等。
VCM系统(100)包括通过网络(105)连接的VCM编码子系统(101)和VCM解码子系统(102)。在一个示例中,VCM编码子系统(101)可包括具有用于机器功能的视频编码的一个或多个装置。在一个示例中,VCM编码子系统(101)包括单个计算装置,例如,台式计算机、膝上型计算机、服务器计算机、平板计算机等。在另一示例中,VCM编码子系统(101)包括(一个或多个)数据中心、(一个或多个)服务器场等。VCM编码子系统(101)可接收视频内容,例如,从传感器装置输出的视频帧序列,并根据针对机器视觉的视频编码和/或针对人类视觉的视频编码将视频内容压缩成已编码比特流。已编码比特流可以经由网络(105)传送到VCM解码子系统(102)。
VCM解码子系统(102)包括具有用于机器功能的视频编码的一个或多个装置。在一个示例中,VCM解码子系统(102)包括计算装置,例如,台式计算机、膝上型计算机、服务器计算机、平板计算机、可穿戴计算装置、头戴式显示器(HMD)等。VCM解码子系统(102)可根据针对机器视觉的视频编码和/或针对人类视觉的视频编码对已编码比特流进行解码。解码的视频内容可用于机器视觉和/或人类视觉。
可以使用任何合适的技术来实现VCM编码子系统(101)。在图1示例中,VCM编码子系统(101)包括耦接在一起的处理电路(120)、接口电路(111)和多路复用器(112)。
处理电路(120)可包括任何合适的处理电路,例如,一个或多个中央处理单元(CPU)、一个或多个图形处理单元(GPU)、专用集成电路等。在图1示例中,处理电路(120)可以被配置为包括两个编码器,例如,针对人类视觉的视频编码器(130)和针对机器视觉的特征编码器(140)。在一个示例中,一个或多个CPU和/或GPU可以执行软件以用作视频编码器(130),并且一个或多个CPU和/或GPU可以执行软件以用作特征编码器(140)。在另一示例中,可以使用专用集成电路来实现视频编码器(130)和/或特征编码器(140)。
在一些示例中,视频编码器(130)可以对视频帧序列执行针对人类视觉的视频编码并生成第一比特流,以及特征编码器(140)可以对视频帧序列执行针对机器视觉的特征编码并生成第二比特流。多路复用器(112)可以将第一比特流与第二比特流组合以生成已编码比特流。
在一些示例中,特征编码器(140)包括特征提取模块(141)、特征转换模块(142)和特征编码模块(143)。特征提取模块(141)可以从视频帧序列中检测和提取特征。特征转换模块(142)可以将提取的特征转换为适当的特征表示,例如,特征映射、特征矢量等。特征编码模块(143)可以将特征表示编码到第二比特流中。在一些实施例中,特征提取可由人工神经网络执行。
接口电路(111)可以将VCM编码子系统(101)与网络(105)连接。接口电路(111)可以包括从网络(105)接收信号的接收部分和向网络(105)发送信号的发送部分。例如,接口电路(111)可以通过网络(105)将携带已编码比特流的信号发送到其他装置,例如,VCM解码子系统(102)。
通过有线和/或无线连接(例如,以太网连接、光纤连接、WI-FI连接、蜂窝网络连接等)将网络(105)适当地耦接至VCM编码子系统(101)和VCM解码子系统(102)。网络(105)可包括网络服务器装置、存储装置、网络装置等。通过有线和/或无线连接将网络(105)的组件适当地耦接在一起。
VCM解码子系统(102)被配置为对机器视觉和/或人类视觉的已编码比特流进行解码。在一个示例中,VCM解码子系统(102)可以执行视频解码以重建可显示给人类视觉的视频帧序列。在另一示例中,VCM解码子系统(102)可以执行特征解码以重建可用于机器视觉的特征表示。
可以使用任何合适的技术来实现VCM解码子系统(102)。在图1示例中,VCM解码子系统(102)包括如图1所示的耦接在一起的接口电路(161)、解复用器(162)和处理电路170。
接口电路(161)可以将VCM解码子系统(102)与网络(105)连接。接口电路(161)可包括从网络(105)接收信号的接收部分和向网络(105)发送信号的发送部分。例如,接口电路(161)可从网络(105)接收携带数据的信号,例如,携带已编码比特流的信号。
解复用器(162)可将所接收的已编码比特流分离成第一已编码视频比特流和第二已编码特征比特流。
处理电路(170)可包括适当的处理电路,例如,CPU、GPU、专用集成电路等。处理电路(170)可被配置为包括各种解码器,例如,视频解码器、特征解码器等。例如,处理电路(170)被配置为包括视频解码器(180)和特征解码器(190)。
在一个示例中,GPU被配置为视频解码器(180)。在另一示例中,CPU可执行软件指令以用作视频解码器(180)。在另一示例中,GPU被配置为特征解码器(190)。在另一示例中,CPU可执行软件指令以用作特征解码器(190)。
视频解码器(180)可对第一已编码视频比特流中的信息进行解码,并重建已解码视频(例如,图片帧序列)。可以为人类视觉显示解码的视频。在一些示例中,可以为机器视觉提供解码的视频。
特征解码器(190)可对第二已编码特征比特流中的信息进行解码,并以合适的表示形式重建特征。可以为机器视觉提供解码的特征。在一些示例中,可以为人类视觉提供解码的特征。
机器视频编码可在VCM系统(100)中通过各种编码工具或根据编码工具的各种配置来执行。本公开的各方面提供了性能度量技术,以评估各种编码工具和/或编码工具的各种配置的性能,然后可以基于性能度量技术来帮助选择编码工具和合适的配置。
在图1示例中,VCM编码子系统(101)包括耦接到视频编码器(130)和特征编码器(140)的控制器(150)。控制器(150)可使用性能度量技术来执行性能评估,并且可以根据性能评估选择用于在视频编码器(130)和特征编码器(140)中使用的编码工具和/或配置。可以通过各种技术来实现控制器(150)。在一个示例中,控制器(150)作为执行用于性能评估以及编码工具和配置的选择的软件指令的处理器来实现。在另一示例中,使用专用集成电路来实现控制器(150)。
根据本发明的一些方面,使用不同的图片质量度量和编码效率度量来评估针对人类视觉和机器视觉的视频/图像编码质量。
在用于评估针对人类视觉的视频/图像编码质量的一些示例中,可以使用性能度量,例如,均方误差(mean squared error,MSE)/峰值信噪比(peak signal-to-noiseratio,PSNR)、结构相似性指数度量(structure similarity index measure,SSIM)/多尺度SSIM(MS-SSIM)、视频多方法评估融合(video multimethod assessment fusion,VMAF)等。在一个示例中,MSE可用于计算原始图像和原始图像的重建的图像之间的均方误差,以及重建的图像是在编码工具下或在编码工具的配置下的操作结果。PSNR可计算为信号的最大可能功率与影响其呈现的保真度的破坏噪声功率之间的比值。可基于MSE来限定PSNR。MSE或PSNR是基于绝对误差来计算的。
在另一示例中,SSIM可用于测量原始图像与原始图像的重建的图像的相似性。SSIM使用结构信息,即像素之间,特别是当它们空间接近时,有很强的相互相关性。相关性承载了关于视觉场景中目标的结构的重要信息。可通过多个阶段的子采样过程在多个尺度上进行MS-SSIM。
在用于评估用于机器视觉的视频/图像编码质量的一些示例中,性能度量(例如,mAP、MOTA等)可用于测量机器视觉任务的性能,例如,目标检测、分割或跟踪等。此外,BPP可用于测量针对VCM的生成的比特流的存储或传输的成本。
具体地,在一些示例中,mAP被计算为查准率-查全率曲线(precision-recallcurve,PR曲线)下的面积,其中,x轴为查全率,y轴为查准率。在一些示例中,根据图像分辨率(例如,原始图像分辨率)来计算BPP。
在一些示例中,可以为用于VCM的编码工具确定图片质量对编码效率特性,以及可以基于图片质量对编码效率特性来确定编码工具的性能评估。通过使用用于编码视频的编码工具,针对编码工具的图片质量对编码效率特性表示图片质量与编码效率的关系。在一些示例中,编码工具的图片质量对编码效率特性可表示为二维平面中的曲线,其中,图片质量在第一轴上,编码效率在第二轴上。在一些示例中,编码工具的图片质量对编码效率的特性可由基于图片质量计算编码效率的等式来表示。在一些示例中,可使用将图片质量与编码效率相关联的查找表来表示编码工具的图片质量与编码效率特性。
在示例中,基于mAP(或MOTA)来测量图片质量,并基于BPP来测量编码效率。mAP(或MOTA)与BPP之间的关系可以绘制为指示图片质量对编码效率特性的曲线,并可用于表示针对机器视觉的编码方案(也称为编码工具)的性能。此外,在视频/图像编码和裁剪之前,可通过填充或缩放来对视频/图像进行预处理以实现原始内容的不同分辨率,例如,原始分辨率的100%、75%、50%和25%。在针对机器视觉任务解码之后,解码后的视频/图像可以缩放回原始分辨率。在一些实施例中,可以为针对机器视觉的编码方案绘制多个mAP(或MOTA)对BPP曲线。
本公开的一些方面提供了例如从mAP(或MOTA)和BPP之间的一个或多个关系曲线来计算单个性能值(性能度量)的技术,因此,针对机器视觉的多个编码方案的比较是可基于多个编码方案的性能值的。例如,控制器(150)可针对多个编码方案分别计算性能度量值,并可基于多个性能度量值从多个编码方案中选择编码方案。
需要注意的是,在下面的描述中,mAP对BPP的关系曲线用于描述根据本公开的一些方面的性能度量技术。性能度量技术可用于其他关系曲线。例如,mAP可改为其他合适的性能度量,例如,MOTA、交并比阈值为50%的平均精度(AP50)、交并比阈值为75%的平均精度、平均准确度等。在另一示例中,当输入是视频时,可以将BPP改为比特率。
根据本公开的一些方面,BD度量,例如,BD平均精度均值(BD-mAP)、BD每像素位数(BD-rate,BD率),可用于针对机器视频编码的性能评估。
图2示出了根据本公开的一些实施例的用于机器视频编码的BD度量的计算的图(200)。图(200)包括针对第一VCM方案的第一mAP对BPP曲线(210),以及针对第二VCM方案的第二mAP对BPP曲线(220)。在一些示例中,可以根据不同的量化参数(quantizationparameter,QP)值,例如所有I切片的QP(QPISlice),来确定mAP和BPP值。
例如,为了使用第一VCM方案对视频进行编码,控制器(150)设置QPISlice值,视频编码器(130)和特征编码器(140)可基于QPISlice值使用第一VCM方案对视频进行编码,并生成第一已编码比特流。基于第一已编码比特流,可例如通过控制器(150)确定与QPISlice值相关联的mAP和BPP值。控制器(150)可针对使用第一VCM方案设置不同的QPISlice值,并确定与各QPISlice值相关联的mAP和BPP值。然后,使用mAP和BPP值形成第一曲线(210)。例如,对于QPISlice值,与QPISlice值相关联的mAP值和BPP值用于形成第一曲线(210)上的点。
类似的,为了使用第二VCM方案对视频进行编码,控制器(150)设置QPISlice值,视频编码器(130)和特征编码器(140)可基于QPISlice值使用第二VCM方案对视频进行编码,并生成第二已编码比特流。基于第二已编码比特流,可例如通过控制器(150)确定与QPISlice值相关联的mAP和BPP值。控制器(150)可针对使用第二VCM方案设置不同的QPISlice值,并确定与各QPISlice值相关联的mAP和BPP值。然后,使用mAP和BPP值形成第二曲线(220)。例如,对于QPISlice值,与QPISlice值相关联的mAP值和BPP值用于形成第二曲线(220)上的点。
根据本发明的一个方面,BD-mAP可确定为第一曲线(210)和第二曲线(220)之间的平均间隙,以及可以根据第一曲线(210)和第二曲线(220)之间的面积(230)(由灰色阴影示出)来计算平均间隙。在一些示例中,控制器(150)可执行与用于计算两条曲线(例如,第一曲线(210)和第二曲线(220))之间的间隙的面积的算法相对应的软件指令,并例如基于面积确定BD-mAP值。
在一些示例中,第一VCM方案可以是参考方案(也称为锚),第二VCM方案是正在评估(或正在测试)的方案。在一个示例中,参考方案应用于未缩放(或缩放为100%)的视频,以及正在评估的方案可应用于视频的75%缩放的视频。关于参考方案的第二VCM方案的BD度量可用于将第二VCM方案与(除第一VCM方案和第二VCM方案之外的)其他VCM方案的性能进行比较。
在一些实施例中,可以类似地确定BD率。
图3示出了根据本公开的一些实施例的用于机器视频编码的BD度量的计算的图(300)。图(300)包括针对第一VCM方案的第一BPP对mAP曲线(310),以及针对第二VCM方案的第二BPP对mAP曲线(320)。在一些示例中,以与如参考图2所述的相同方式,根据QPISlice的不同值来确定mAP和BPP值。
根据本发明的一个方面,BD率可确定为第一曲线(310)和第二曲线(320)之间的平均间隙,以及可以根据第一曲线(310)和第二曲线(320)之间的面积(330)来计算平均间隙。在一些示例中,控制器(150)可执行与用于计算两条曲线(例如,第一曲线(310)和第二曲线(320))之间的间隙的面积的算法相对应的软件指令,并例如基于面积确定BD率值。
在一些示例中,第一VCM方案可以是参考方案,第二VCM方案是正在评估的方案。在一个示例中,参考方案应用于未缩放(或缩放为100%)的视频,以及正在评估的方案可应用于视频的75%缩放的视频。在一个示例中,第一曲线(310)和第二曲线(320)之间的平均间隙指示当实现等效质量时使用第二VCM方案发送或存储的比特少14.75%。关于参考方案的第二VCM方案的BD度量可用于将第二VCM方案与(除第一VCM方案和第二VCM方案之外的)其他VCM方案的性能进行比较。例如,当第三VCM方案的BD率指示要发送或存储的比特少10%时,则确定第二VCM方案具有比第三VCM方案更好的VCM性能。
根据本发明的一方面,当比较两个VCM方案时,可为每个方案生成多个BPP对mAP(或mAP对BPP)曲线,并使用一些技术来确定指示用于性能比较的性能差值的总体总结的单个性能度量,例如,BD度量。
在一个实施例中,可以基于针对第一VCM方案的多个BPP对mAP(或mAP对BPP)曲线形成第一帕累托前曲线,以及可以基于针对第二VCM方案的多个mAP对BPP曲线形成第二帕累托前曲线。例如,对于第一VCM方案,当特定BPP对mAP曲线总是优于其他BPP对mAP曲线时,该特定BPP对mAP曲线可用作第一帕累托前曲线。然而,当多个BPP与mAP曲线可能相交时,可选择多个BPP对mAP曲线的最优截面来形成第一帕累托前曲线。对于第二VCM方案,可以类似地形成第二帕累托前曲线。然后,可以使用第一方案的第一帕累托前曲线和第二方案的第二帕累托前曲线来计算BD度量。
在另一实施例中,可以为VCM方案的多个BPP对mAP曲线分别计算BD度量,并可使用多个BD度量值的平均(例如,加权平均)来进行性能比较。
在一些示例中,可以对视频进行预处理以获得原始内容的不同分辨率,然后可以使用第一VCM方案和第二VCM方案分别对预处理后的视频进行编码,以及针对不同分辨率可分别计算BD率。在一个示例中,对视频进行预处理以获得四个不同分辨率的视频,例如,100%分辨率的第一视频、75%分辨率的第二视频、50%分辨率的第三视频和25%分辨率的第四视频。在一个示例中,第一VCM方案和第二VCM方案可应用于第一视频以计算第一BD率;第一VCM方案和第二VCM方案可应用于第二视频以计算第二BD率;第一VCM方案和第二VCM方案可应用于第三视频以计算第三BD率;第一VCM方案和第二VCM方案可应用于第四视频以计算第四BD率。然后,可以计算第一BD率、第二BD率、第三BD率和第四BD率的平均值作为总体BD率,以用于第一VCM方案和第二VCM方案的性能比较。
在一些示例中,可以对BD率进行相等地或不同地加权以计算总体BD率。在一个示例中,特定缩放具有比其他缩放更重要的重要性,并可将更高的权重分配给特定缩放。在一些示例中,所有权重之和等于1。应注意的是,以针对各种分辨率缩放的BPP对mAP曲线为例,示出两种VCM方案的比较,每种方案具有多条曲线。处理多条曲线的技术并不限于具有各种分辨率缩放的技术。
根据本发明的一些方面,在某些应用中,已解码视频可由机器视觉和人类视觉消耗,性能度量可用于同时考虑两种使用情况(机器视觉和人类视觉两者消耗)来比较两种编码方案。在一个实施例中,可分别计算针对机器视觉的第一BD率和针对人类视觉的第二BD率,然后适当地组合针对机器视觉的第一BD率和针对人类视觉的第二BD率以形成用于两个编码方案的性能比较的性能度量。
在一些示例中,当比较两个编码方案时,可使用机器视觉度量(例如,BPP对mAP曲线)来计算针对机器视觉的第一BD率(表示为BDm)。然后,可使用人类视觉度量(例如,比特率曲线对PSNR、比特率曲线对MS-SSIM、比特率曲线对SSIM等)来计算针对人类视觉的第二BD率(表示为BDh)。应注意的是,除了PSNR、MS-SSIM或SSIM之外,类似的与人类视觉相关的性能度量可用于测量针对人类视觉的编码性能。
在一些示例中,可以将针对机器视觉的第一BD率和针对人类视觉的第二BD率进行组合以计算由BDoverall表示的最终性能比较结果。例如,公式(1)可用于将针对机器视觉的第一BD率BDm和针对人类视觉的第二BD率BDh进行组合:
BDoverall=(1-w)×BDm+w×BDh 公式(1)
其中,w表示[0,1]范围内的权重,并指示人类视觉对总体编码性能的相对重要性。
在一些实施例中,可以计算成本度量作为用于比较编码方案的性能度量。成本度量(表示为C)可包括针对失真的第一部分和针对率信息的第二部分(表示为RT)。失真可以是作为针对人类视觉的失真(表示为Dh)和针对机器视觉的失真(表示为Dm)的组合而生成的总体失真(表示为D)。在一个示例中,率信息(表示为RT)可以是用于表示已编码视频的比特流长度。在一个示例中,可以使用公式(2)和公式(3)来计算总体失真D和成本度量C。
D=(1-w1)×Dm+w1×Dh 公式(2)
C=D+λ×RT 公式(3)
其中,w1是[0,1]范围内的权重,并用于指示在人类视觉和机器视觉的组合的总体应用中人类视觉的相对重要性。参数λ是非负标量,用于表示失真和率的相对重要性。
在某些示例中,人类视觉的失真Dh可作为归一化平均误差(normalized meanerror,NME)来计算,例如,使用公式(4)来计算:
Figure BDA0003628028730000141
其中,N表示图像或视频中的像素的总数;P通常是1或2;‖P‖表示对应的P-范数运算;‖P‖max表示原始图像或视频中像素的最大P-范数;P(i)表示原始图像或视频中的第i个像素;而P'(i)表示已解码图像或视频中的第i个像素。可以注意的是,NME在[0,1]的范围内。
在一些示例中,例如,当图像或视频是只有单个颜色通道的单色时,P-范数运算‖P‖可以转换为绝对值操作。在一个示例中,当使用彩色图像或视频时,像素可以由三值元组表示,例如(R,G,B),其中,R、G、B表示RGB颜色空间中的三个颜色通道值。在另一示例中,当使用彩色图像或视频时,像素可以由三值元组表示,例如(Y,Cb,Cr),其中,Y、Cb和Cr表示YCbCr颜色空间中的三个通道值。使用RGB颜色空间的示例,例如,可以使用公式(5)来计算P-范数运算:
Figure BDA0003628028730000151
其中,wR,wG,wB表示每个颜色通道的权重,这些权重可能相同,也可能不相同。在一些示例中,如果三个通道具有不同的分辨率,那么可将较小的权重应用于具有较低分辨率的通道以反映这种差异。
在一些示例中,可以首先例如使用公式(6)至公式(8)来计算每个信道的归一化平均误差(NME):
Figure BDA0003628028730000152
Figure BDA0003628028730000153
Figure BDA0003628028730000154
其中,NR、Ng和Nb分别表示R、G、B通道中的像素数;Rmax,Gmax和Bmax表示R、G和B通道中的最大值,且在一些示例中通常被设置为相同的值。(R(i),G(i),B(i))表示原始图像或视频中的第i个像素,以及(R′(i),G′(i),B′(i))表示已解码图像或视频中的第i个像素。此外,在一个示例中,P通常设置为1或2。可以将总体归一化平均误差NME作为NMER,NMEG,NMEB的加权平均来计算,例如使用公式(9):
NME=wR×NMER+wG×NMEG+wB×NMEB 公式(9)
其中,wR,wG,wB为非负权重,表示三个颜色通道的相对重要性,以及wR+wG+wB=1。
可以注意的是,(6)-(8)中的上述基于通道的NME计算可以适当地转换到其他颜色格式,例如,具有4:2:0子采样或4:4:4子采样的Y'CbCr(YUV)。在一个示例中,权重1可以仅分配给Y分量,而权重0分配给其他两个分量Cb和Cr。在另一示例中,权重是基于每个通道的样本分辨率来决定的。例如,在4:2:0中,由于Y的分辨率比UV高,因此UV分量的权重应小于Y分量的权重。
根据本发明的一方面,取决于机器任务,机器视觉的失真可以表示为(1-mAP)或(1-MOTA)。可以注意的是,mAP和MOTA在[0,1]的范围内。还可以注意的是,在机器视觉的失真的计算中,也可以用其他类似的机器视觉性能指标(例如,平均准确度)来代替mAP或MOTA。
在一些示例中,当针对人类视觉的失真大于针对人类视觉的阈值(表示为Threshh)时,已解码图像对于人类视觉和机器视觉的组合可能不是有用的。类似地,当针对机器视觉的失真大于针对机器视觉的阈值(表示为Threshm)时,已解码图像对于人类视觉和机器视觉的结合来说变得无用。在任一情况下,总体失真D被设置为预定值,例如,其最大值(例如,1)。
图4示出了当考虑机器视觉和人类视觉两者时的示例中用于计算总体失真D和总体成本度量C的伪代码(400)的示例。在图4示例中,w1是[0,1]范围内的权重,并用于指示在人类视觉和机器视觉的组合的总体应用中人类视觉的相对重要性。参数Dh是针对人类视觉的失真以及参数Dm是针对机器视觉的失真。参数λ是非负标量,用于表示失真和速率的相对重要性。参数Threshh是针对人类视觉的失真阈值,参数Threshm是针对机器视觉的失真阈值。
在一些示例中,机器视觉任务的失真可被认为比人类视觉任务更重要,而人类视觉透视的质量应维持在最低的可接受水平。
图5示出了在机器视觉任务的失真被认为比人类视觉任务更重要的示例中用于计算总体失真D和总体成本度量C的伪代码(500)的示例。人类视觉透视的质量可维持在可接受的最低水平。在图5示例中,w1是[0,1]范围内的权重,并用于指示在人类视觉和机器视觉的组合的总体应用中人类视觉的相对重要性。参数Dm是针对机器视觉的失真。参数λ是非负标量,用于表示失真和速率的相对重要性。参数Threshh是针对人类视觉的失真阈值。
在一些示例中,当人类视觉的失真低于最低可接受水平时,可以考虑人类视觉的失真。
图6示出了在机器视觉任务的失真被认为比人类视觉任务更重要的示例中用于计算总体失真D和总体成本度量C的伪代码(600)的示例。当人类视觉的失真低于最低可接受水平时,可考虑人类视觉的失真。在图6示例中,w1是[0,1]范围内的权重,并用于指示在人类视觉和机器视觉的组合的总体应用中人类视觉的相对重要性。参数Dh是针对人类视觉的失真以及参数Dm是针对机器视觉的失真。参数λ是非负标量,用于表示失真和率的相对重要性。参数Threshh是针对人类视觉的失真阈值。
在一些示例中,除对针对人类视觉和机器视觉的编码性能进行组合外,还可以对针对多个任务(例如,两个以上的任务)的编码性能进行组合。多个任务可以包括目标检测任务、目标分割任务、目标跟踪任务等。在M个任务(M是大于2的整数)的示例中,总体BD率可以是针对多个单独任务的BD率的加权组合,例如,使用公式(10):
BDoverall=w(0)×BD0+w(1)×BD1+…+w(M-1)×BDM-1 公式(10)
其中,w(i),i=0,1,…,M-1是非负权重因子,且w(0)+w(1)+…+w(M-1)=1。BDi,i=0,…,M-1是M个任务的相应BD率。
在M个任务(M是大于2的整数)的示例中,总体失真可以是例如使用公式(11)的针对多个单独任务的失真的加权组合,然后可以例如使用公式(12)计算成本度量C:
D=w(0)×D0+w(1)×D1+…+w(M-1)×DM-1 公式(11)
C=D+λ×RT 公式(12)
其中,w(i),i=0,1,…,M-1是非负权重因子,且w(0)+w(1)+…+w(M-1)=1。Di,i=0,…,M-1是M个任务的相应失真。
在一些示例中,当任务的失真大于任务的阈值时,对于多个任务的组合,已解码图像可能不是有用的。
图7示出了当针对每个任务分别使用阈值时的示例中用于计算总体失真D和总体成本度量C的伪代码(700)的示例。当任务的失真大于任务的阈值时,对于多个任务的组合,已解码图像可能不是有用的。在图7示例中,w(i),i=0,1,…,M-1是非负权重因子,且w(0)+w(1)+…+w(M-1)=1。Di,i=0,…,M-1是M个任务的相应失真。Threshi,i=0,…,M-1是M个任务的相应失真。
在一些示例中,基于所计算的总体失真,可以例如使用公式(13)计算表示为wmAP的总体加权精度:
wmAP=1-D 公式(13)
此外,可以形成wmAP对BPP曲线。然后,可以计算用于比较两个wmAP对BPP曲线的相应BD率。
在一个实施例中,为了比较两个编码方案,例如,锚编码方案和测试编码方案,可以计算总体BD率。如果总体BD率为负,则测试编码方案比锚编码方案具有更好的性能。
在一个实施例中,为了比较两个编码方案,例如,锚编码方案和测试编码方案,可以计算相应的成本度量值。总体成本度量值较小的编码方案被认为具有更好的性能。
可以注意的是,可以适当地修改上述技术。在一些示例中,可以使用转换函数。在一个示例中,机器视觉质量度量,例如,mAP或MOTA,可用作转换函数的输入。然后,转换函数的输出可用于BD率计算。转换函数可以包括线性缩放、平方根运算、对数域变换等。
图8示出了根据本公开实施例的对处理(800)进行概述的流程图。处理(800)可用于编码方案的比较,例如,用于VCM系统(100)等。在各实施例中,处理(800)由例如处理电路(120)等的处理电路执行。在一些实施例中,以软件指令实现处理(800),因此当处理电路执行软件指令时,处理电路执行处理(800)。处理从(S801)开始并进行到(S810)。
在(S810)处,确定用于机器视频编码的第一编码方案的第一图片质量对编码效率特性。
在(S820)处,确定用于机器视频编码的第二编码方案的第二图片质量对编码效率特性。
在一些示例中,图片质量可以通过任何合适的机器视觉质量度量来测量,例如,mAP、MOTA、交并比阈值为50%的平均进度(AP50)、交并比阈值为75%的平均精度(AP75)、平均准确度等。编码效率可以通过用于VCM的任何合适的度量来测量,例如,BPP等。
在(S830)处,基于第一图片质量对编码效率特性和第二图片质量对编码效率特性,确定用于比较第一编码方案和第二编码方案的BD度量。
在一些示例中,第一图片质量对编码效率特性包括针对图片质量和编码效率的二维平面中的第一曲线,以及第二图片质量对编码效率特性包括针对图片质量和编码效率的二维平面中的第二曲线。然后,可计算BD度量作为第一曲线和第二曲线之间的平均间隙。可根据第一曲线和第二曲线之间的面积来计算平均间隙。
在一个示例中,可根据mAP来计算BD度量,例如,由BD-mAP表示。在另一示例中,BD度量是根据BPP来计算的,例如由BD-BPP或BD率表示。在一个示例中,根据MOTA来计算BD度量,例如,由BD-MOTA表示。在一个示例中,根据交并比阈值为50%的平均精度(AP50)来计算BD度量,例如由BD-AP50表示。在一个示例中,根据交并比阈值为75%的平均精度(AP75)来计算BD度量,例如由BD-AP75表示。在一个示例中,根据平均精度来计算BD度量。
在一些示例中,第一图片质量对编码效率特性包括用于针对图片质量和编码效率的二维平面中的第一编码方案的第一多个图片质量对编码效率曲线,以及第二图片质量对编码效率特性包括用于针对图片质量和编码效率的二维平面中的第二编码方案的第二多个图片质量对编码效率曲线。在一个示例中,基于用于第一编码方案的第一多个图片质量对编码效率曲线,计算第一帕累托前曲线,以及基于用于第二编码方案的第二多个图片质量对编码效率曲线,计算第二帕累托前曲线。然后,基于第一帕累托前曲线和第二帕累托前曲线计算BD度量。
在另一示例中,第二多个图片质量对编码效率特性曲线分别对应于第一多个图片质量对编码效率特性曲线。然后,基于第一多个图片质量对编码效率特性曲线和对应的第二多个图片质量对编码效率特性曲线,分别计算BD度量值。然后,计算多个BD度量值的加权和作为用于比较第一编码方案和第二编码方案的总体BD度量。
在一些示例中,第一编码方案和第二编码方案用于针对机器视觉和人类视觉的视频编码。在一个示例中,计算针对机器视觉的每像素位数的第一BD率,以及针对人类视觉的第二BD率。然后,计算第一BD率和第二BD率的加权和作为用于比较第一编码方案和第二编码方案的总体BD度量。
在另一实施例中,通过第一编码方案,基于针对机器视觉和人类视觉的失真的加权和来计算第一总体失真。然后,基于第一编码方案的第一总体失真和第一率信息,计算第一成本度量值。进一步地,通过第二编码方案,基于针对机器视觉和人类视觉的失真的加权和来计算第二总体失真,以及基于第二编码方案的第二总体失真和第二率信息,计算第二成本度量值。可基于第一成本度量值和第二成本度量值,比较第一编码方案和第二编码方案
在另一实施例中,通过第一编码方案,基于针对机器视觉和人类视觉的失真的加权和来确定第一图片质量。通过第二编码方案,基于针对机器视觉和人类视觉的失真的加权和来确定第二图片质量。然后,可计算BD度量并用于比较第一编码方案和第二编码方案。
在一些示例中,第一编码方案和第二编码方案是用于针对多个视觉任务的视频编码的。然后,通过第一编码方案,基于针对多个视觉任务的失真的加权和,确定第一图片质量。通过第二编码方案,基于针对多个视觉任务的失真的加权和,确定第二图片质量。然后,可计算BD度量并用于比较第一编码方案和第二编码方案。
然后,处理进行到(S899)并结束。
可以将上述技术实现为计算机软件,该计算机软件使用计算机可读指令,且物理地存储在一个或多个计算机可读介质中。例如,图9示出了适于实施所公开主题的某些实施例的计算机系统(900)。
可以使用任何合适的机器代码或计算机语言对计算机软件进行编码,任何合适的机器代码或计算机语言可以经受汇编、编译、链接或类似的机制以创建包括指令的代码,该指令可以由一个或多个计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行或通过解释、微代码等执行。
指令可以在各种类型的计算机或其组件上执行,例如包括个人计算机、平板计算机、服务器、智能电话、游戏装置、物联网装置等。
图9中所示的计算机系统(900)的组件本质上是示例性的,并且不旨在对实施本公开的实施例的计算机软件的使用范围或功能提出任何限制。组件的配置也不应被解释为具有与计算机系统(900)的示例性实施例中所示的组件中的任何一个组件或组件的组合有关的任何依赖或要求。
计算机系统(900)可以包括某些人机接口输入装置。此类人机接口输入装置可以响应于一个或多个人类用户通过例如下述的输入:触觉输入(例如:击键、划动,数据手套移动)、音频输入(例如:语音、拍手)、视觉输入(例如:手势)、嗅觉输入(未描绘)。人机接口装置还可以用于捕获不一定与人的意识输入直接相关的某些媒介,例如音频(例如:语音、音乐、环境声音)、图像(例如:扫描的图像、从静止图像相机获取摄影图像)、视频(例如二维视频、包括立体视频的三维视频)等。
输入人机接口设备可以包括下述中的一项或多项(每种中仅示出一个):键盘(901)、鼠标(902)、触控板(903)、触摸屏(910)、数据手套(未示出)、操纵杆(905)、麦克风(906)、扫描仪(907)、相机(908)。
计算机系统(900)可以包括某些人机接口输出装置。这样的人机接口输出装置可以例如通过触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感官。此类人机接口输出装置可以包括触觉输出装置(例如触摸屏(910)的触觉反馈、数据手套(未示出)或操纵杆(905),但也可以是不作为输入装置的触觉反馈装置)、音频输出装置(例如:扬声器(909)、耳机(未描绘))、视觉输出装置(例如包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕的屏幕(910),每种屏幕都有或没有触摸屏输入功能,每种屏幕都有或没有触觉反馈功能-其中的一些屏幕能够通过诸如立体图像输出之类的装置、虚拟现实眼镜(未描绘)、全息显示器和烟箱(未描绘)以及打印机(未描绘)来输出二维视觉输出或超过三维的输出。
计算机系统(900)还可以包括人类可访问存储装置及其关联介质,例如,包括具有CD/DVD等介质(921)的CD/DVDROM/RW(920)的光学介质、指状驱动器(922),可拆卸硬盘驱动器或固态驱动器(923)、诸如磁带和软盘之类的传统磁性介质(未描绘)、诸如安全软件狗之类的基于专用ROM/ASIC/PLD的装置(未描绘)等。
本领域技术人员还应该理解,结合当前公开的主题使用的术语“计算机可读介质”不涵盖传输介质、载波或其它暂时性信号。
计算机系统(900)还可以包括到一个或多个通信网络(955)的接口(954)。网络可以例如是无线网络、有线网络、光网络。网络还可以是本地网络、广域网络、城域网络、车辆和工业网络、实时网络、延迟容忍网络等。网络的示例包括诸如以太网之类的局域网、无线LAN、包括GSM、3G、4G、5G、LTE等的蜂窝网络、包括有线电视、卫星电视和地面广播电视的电视有线或无线广域数字网络、包括CANBus的车辆和工业用电视等等。某些网络通常需要连接到某些通用数据端口或外围总线(949)的外部网络接口适配器(例如,计算机系统(900)的USB端口);如下所述,其它网络接口通常通过连接到系统总线而集成到计算机系统(900)的内核中(例如,连接到PC计算机系统中的以太网接口或连接到智能手机计算机系统中的蜂窝网络接口)。计算机系统(900)可以使用这些网络中的任何一个网络与其它实体通信。此类通信可以是仅单向接收的(例如,广播电视)、仅单向发送的(例如,连接到某些CANbus装置的CANbus)或双向的,例如,使用局域网或广域网数字网络连接到其它计算机系统。如上所述,可以在那些网络和网络接口中的每一个上使用某些协议和协议栈。
上述人机接口装置、人机可访问的存储装置和网络接口可以附接到计算机系统(900)的内核(940)。
内核(940)可以包括一个或多个中央处理单元(CPU)(941),图形处理单元(GPU)(942),现场可编程门区域(FPGA)(943)形式的专用可编程处理单元、用于某些任务的硬件加速器(940),图形适配器(950)等。这些装置以及只读存储器(ROM)(945)、随机存取存储器(946)、诸如内部非用户可访问的硬盘驱动器、SSD等之类的内部大容量存储器(947)可以通过系统总线(948)连接。在一些计算机系统中,可以以一个或多个物理插头的形式访问系统总线(948),以能够通过附加的CPU、GPU等进行扩展。外围装置可以直接连接到内核的系统总线(948)或通过外围总线(949)连接到内核的系统总线(1848)。在一个示例中,屏幕(910)可以连接到图形适配器(950)。外围总线的体系结构包括PCI、USB等。
CPU(941)、GPU(942)、FPGA(943)和加速器(944)可以执行某些指令,这些指令可以组合来构成上述计算机代码。该计算机代码可以存储在ROM(945)或RAM(946)中。过渡数据也可以存储在RAM(946),而永久数据可以例如存储在内部大容量存储器(947)中。可以通过使用高速缓存来进行到任何存储装置的快速存储及检索,该高速缓存可以与下述紧密关联:一个或多个CPU(941)、GPU(942)、大容量存储器(947)、ROM(945)、RAM(946)等。
计算机可读介质可以在其上具有用于执行各种由计算机实现的操作的计算机代码。介质和计算机代码可以是出于本公开的目的而专门设计和构造的介质和计算机代码,或者介质和计算机代码可以是计算机软件领域的技术人员公知且可用的类型。
作为非限制性示例,可以由于一个或多个处理器(包括CPU、GPU、FPGA、加速器等)执行包含在一种或多种有形的计算机可读介质中的软件而使得具有架构(900),特别是内核(940)的计算机系统提供功能。此类计算机可读介质可以是与如上所述的用户可访问的大容量存储相关联的介质,以及某些非暂时性的内核(940)的存储器,例如内核内部大容量存储器(947)或ROM(945)。可以将实施本公开的各实施例的软件存储在此类装置中并由内核(940)执行。根据特定需要,计算机可读介质可以包括一个或多个存储器装置或芯片。软件可以使得内核(940),特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文所描述的特定过程或特定过程的特定部分,包括定义存储在RAM(946)中的数据结构以及根据由软件定义的过程来修改此类数据结构。附加地或替换地,可以由于硬连线或以其它方式体现在电路(例如,加速器(944))中的逻辑而使得计算机系统提供功能,该电路可以替换软件或与软件一起运行以执行本文描述的特定过程或特定过程的特定部分。在适当的情况下,提及软件的部分可以包含逻辑,反之亦然。在适当的情况下,提及计算机可读介质的部分可以包括存储用于执行的软件的电路(例如集成电路(IC))、体现用于执行的逻辑的电路或包括两者。本公开包括硬件和软件的任何合适的组合。
尽管本公开已经描述了多个示例性实施例,但是存在落入本公开的范围内的修改、置换和各种替换等效物。因此,应当理解,本领域技术人员将能够设计出许多虽然未在本文中明确示出或描述,但是体现了本公开的原理,因此落入本公开的精神和范围内的系统和方法。

Claims (20)

1.一种用于视频编码的方法,包括:
由处理电路确定用于机器视频编码VCM的第一编码方案的第一图片质量对编码效率特性;
由所述处理电路确定用于VCM的第二编码方案的第二图片质量对编码效率特性;以及
基于所述第一图片质量对编码效率特性和所述第二图片质量对编码效率特性,由所述处理电路确定用于比较所述第一编码方案和所述第二编码方案的
Figure FDA0003628028720000011
delta BD度量。
2.根据权利要求1所述的方法,还包括:
以下述中的至少一个计算所述BD度量:平均精度均值mAP、每像素位数BPP、多目标跟踪准确度MOTA、交并比阈值为50%的平均精度AP50、交并比阈值为75%的平均精度AP75、以及平均准确度。
3.根据权利要求1所述的方法,其中,所述第一图片质量对编码效率特性包括针对图片质量和编码效率的二维平面中的第一曲线,以及所述第二图片质量对编码效率特性包括针对所述图片质量和编码效率的所述二维平面中的第二曲线。
4.根据权利要求3所述的方法,还包括:
计算所述BD度量,作为所述第一曲线和所述第二曲线之间的平均间隙。
5.根据权利要求1所述的方法,其中,所述第一图片质量对编码效率特性包括用于针对图片质量和编码效率的二维平面中的所述第一编码方案的第一多个图片质量对编码效率曲线,以及所述第二图片质量对编码效率特性包括用于针对所述图片质量和编码效率的所述二维平面中的所述第二编码方案的第二多个图片质量对编码效率曲线,以及所述方法还包括:
计算用于所述第一编码方案的所述第一多个图片质量对编码效率曲线的第一帕累托前曲线;以及
计算用于所述第二编码方案的所述第二多个图片质量对编码效率曲线的第二帕累托前曲线;以及
基于所述第一帕累托前曲线和所述第二帕累托前曲线计算所述BD度量。
6.根据权利要求1所述的方法,其中,所述第一图片质量对编码效率特性包括用于针对图片质量和编码效率的二维平面中的所述第一编码方案的第一多个图片质量对编码效率曲线,以及所述第二图片质量对编码效率特性包括用于针对所述图片质量和编码效率的所述二维平面中的所述第二编码方案的第二多个图片质量对编码效率曲线,所述第二多个图片质量对编码效率特性曲线分别对应于所述第一多个图片质量对编码效率特性曲线,以及所述方法还包括:
基于所述第一多个图片质量对编码效率特性曲线和对应的所述第二多个图片质量对编码效率特性曲线,分别计算BD度量值;以及
计算多个BD度量值的加权和作为用于比较所述第一编码方案和所述第二编码方案的总体BD度量。
7.根据权利要求1所述的方法,其中,所述第一编码方案和所述第二编码方案用于针对机器视觉和人类视觉的视频编码,所述方法包括:
计算针对机器视觉的每像素位数的第一BD率;
计算针对人类视觉的第二BD率;以及
计算所述第一BD率和所述第二BD率的加权和,作为用于比较所述第一编码方案和所述第二编码方案的总体BD度量。
8.根据权利要求1所述的方法,其中,所述第一编码方案和所述第二编码方案用于针对机器视觉和人类视觉的视频编码,所述方法包括:
通过所述第一编码方案,基于针对所述机器视觉和所述人类视觉的失真的加权和来计算第一总体失真;
基于所述第一编码方案的所述第一总体失真和第一率信息,计算第一成本度量值;
通过所述第二编码方案,基于针对所述机器视觉和所述人类视觉的失真的加权和来计算第二总体失真;
基于所述第二编码方案的所述第二总体失真和第二率信息,计算第二成本度量值;以及
基于所述第一成本度量值和所述第二成本度量值,比较所述第一编码方案和所述第二编码方案。
9.根据权利要求1所述的方法,其中,所述第一编码方案和所述第二编码方案用于针对机器视觉和人类视觉的视频编码,所述方法包括:
通过所述第一编码方案,基于针对所述机器视觉和所述人类视觉的失真的加权和来确定所述第一图片质量;以及
通过所述第二编码方案,基于针对所述机器视觉和所述人类视觉的失真的加权和来确定所述第二图片质量。
10.根据权利要求1所述的方法,其中,所述第一编码方案和所述第二编码方案用于针对多个视觉任务的视频编码,所述方法包括:
通过所述第一编码方案,基于针对所述多个视觉任务的失真的加权和来确定所述第一图片质量;以及
通过所述第二编码方案,基于针对所述多个视觉任务的失真的加权和来确定所述第二图片质量。
11.一种用于视频编码的装置,所述装置包括处理电路以被配置为:
确定用于机器视频编码VCM的第一编码方案的第一图片质量对编码效率特性;
确定用于VCM的第二编码方案的第二图片质量对编码效率特性;以及
基于所述第一图片质量对编码效率特性和所述第二图片质量对编码效率特性,确定用于比较所述第一编码方案和所述第二编码方案的
Figure FDA0003628028720000031
delta BD度量。
12.根据权利要求11所述的装置,其中,所述处理电路被配置为:
以下述中的至少一个中计算所述BD度量:平均精度均值mAP、每像素位数BPP、多目标跟踪准确度MOTA、交并比阈值为50%的平均精度AP50、交并比阈值为75%的平均精度AP75、以及平均准确度。
13.根据权利要求11所述的装置,其中,所述第一图片质量对编码效率特性包括针对图片质量和编码效率的二维平面中的第一曲线,以及所述第二图片质量对编码效率特性包括针对所述图片质量和编码效率的所述二维平面中的第二曲线。
14.根据权利要求13所述的装置,其中,所述处理电路被配置为:
计算所述BD度量,作为所述第一曲线和所述第二曲线之间的平均间隙。
15.根据权利要求11所述的装置,其中,所述第一图片质量对编码效率特性包括用于针对图片质量和编码效率的二维平面中的所述第一编码方案的第一多个图片质量对编码效率曲线,以及所述第二图片质量对编码效率特性包括用于针对所述图片质量和编码效率的所述二维平面中的所述第二编码方案的第二多个图片质量对编码效率曲线,以及所述处理电路被配置为:
计算用于所述第一编码方案的所述第一多个图片质量对编码效率曲线的第一帕累托前曲线;以及
计算用于所述第二编码方案的所述第二多个图片质量与编码效率曲线的第二帕累托前曲线;以及
基于所述第一帕累托前曲线和所述第二帕累托前曲线计算所述BD度量。
16.根据权利要求11所述的装置,其中,所述第一图片质量对编码效率特性包括用于针对图片质量和编码效率的二维平面中的所述第一编码方案的第一多个图片质量对编码效率曲线,以及所述第二图片质量对编码效率特性包括用于针对所述图片质量和编码效率的所述二维平面中的所述第二编码方案的第二多个图片质量对编码效率曲线,所述第二多个图片质量对编码效率特性曲线分别对应于所述第一多个图片质量对编码效率特性曲线,以及所述处理电路被配置为:
基于所述第一多个图片质量对编码效率特性曲线和对应的所述第二多个图片质量对编码效率特性曲线,分别计算BD度量值;以及
计算多个BD度量值的加权和作为用于比较所述第一编码方案和所述第二编码方案的总体BD度量。
17.根据权利要求11所述的方法,其中,所述第一编码方案和所述第二编码方案用于针对机器视觉和人类视觉的视频编码,所述处理电路被配置为:
计算针对机器视觉的每像素位数的第一BD率;
计算针对人类视觉的第二BD率;以及
计算所述第一BD率和所述第二BD率的加权和作为用于比较所述第一编码方案和所述第二编码方案的总体BD度量。
18.根据权利要求11所述的装置,其中,所述第一编码方案和所述第二编码方案用于针对机器视觉和人类视觉的视频编码,所述处理电路被配置为:
通过所述第一编码方案,基于针对所述机器视觉和所述人类视觉的失真的加权和来计算第一总体失真;
基于所述第一编码方案的所述第一总体失真和第一率信息,计算第一成本度量值;
通过所述第二编码方案,基于针对所述机器视觉和所述人类视觉的失真的加权和来计算第二总体失真;
基于所述第二编码方案的所述第二总体失真和第二率信息,计算第二成本度量值;以及
基于所述第一成本度量值和所述第二成本度量值,比较所述第一编码方案和所述第二编码方案。
19.根据权利要求11所述的装置,其中,所述第一编码方案和所述第二编码方案用于针对机器视觉和人类视觉的视频编码,所述处理电路被配置为:
通过所述第一编码方案,基于针对所述机器视觉和所述人类视觉的失真的加权和来确定所述第一图片质量;以及
通过所述第二编码方案,基于针对所述机器视觉和所述人类视觉的失真的加权和来确定所述第二图片质量。
20.根据权利要求11所述的装置,其中,所述第一编码方案和所述第二编码方案用于针对多个视觉任务的视频编码,所述处理电路被配置为:
通过所述第一编码方案,基于针对所述多个视觉任务的失真的加权和来确定所述第一图片质量;以及
通过所述第二编码方案,基于针对所述多个视觉任务的失真的加权和来确定所述第二图片质量。
CN202180006264.6A 2020-10-09 2021-07-01 用于机器视频编码的方法和装置 Pending CN114641998A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202063089858P 2020-10-09 2020-10-09
US63/089,858 2020-10-09
US202063090555P 2020-10-12 2020-10-12
US63/090,555 2020-10-12
US17/360,838 2021-06-28
US17/360,838 US11451790B2 (en) 2020-10-09 2021-06-28 Method and apparatus in video coding for machines
PCT/US2021/040058 WO2022076051A1 (en) 2020-10-09 2021-07-01 Method and apparatus in video coding for machines

Publications (1)

Publication Number Publication Date
CN114641998A true CN114641998A (zh) 2022-06-17

Family

ID=81079454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180006264.6A Pending CN114641998A (zh) 2020-10-09 2021-07-01 用于机器视频编码的方法和装置

Country Status (6)

Country Link
US (1) US11451790B2 (zh)
EP (1) EP4046382A4 (zh)
JP (1) JP7405989B2 (zh)
KR (1) KR20220119706A (zh)
CN (1) CN114641998A (zh)
WO (1) WO2022076051A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11665363B2 (en) * 2020-11-26 2023-05-30 Electronics And Telecommunications Research Institute Method, apparatus, system and computer-readable recording medium for feature map information
US20240195994A1 (en) * 2021-04-15 2024-06-13 Telefonaktiebolaget Lm Ericsson (Publ) Method to determine encoder parameters
CN117897954A (zh) * 2021-06-08 2024-04-16 Op解決方案公司 用于组合式无损和有损编码的机器视频编码(vcm)编码器和解码器
WO2024039166A1 (ko) * 2022-08-18 2024-02-22 삼성전자 주식회사 Ai를 이용하는 영상 복호화 장치, 영상 부호화 장치 및 이들에 의한 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8934538B2 (en) * 2011-10-17 2015-01-13 Google Inc. Rate-distortion-complexity optimization of video encoding
US11166034B2 (en) * 2017-02-23 2021-11-02 Netflix, Inc. Comparing video encoders/decoders using shot-based encoding and a perceptual visual quality metric
US10715814B2 (en) 2017-02-23 2020-07-14 Netflix, Inc. Techniques for optimizing encoding parameters for different shot sequences
US11361416B2 (en) 2018-03-20 2022-06-14 Netflix, Inc. Quantifying encoding comparison metric uncertainty via bootstrapping
US10674152B2 (en) * 2018-09-18 2020-06-02 Google Llc Efficient use of quantization parameters in machine-learning models for video coding
US11409998B2 (en) * 2019-10-02 2022-08-09 Apple Inc. Trimming search space for nearest neighbor determinations in point cloud compression

Also Published As

Publication number Publication date
US11451790B2 (en) 2022-09-20
WO2022076051A1 (en) 2022-04-14
KR20220119706A (ko) 2022-08-30
US20220116627A1 (en) 2022-04-14
JP2023507968A (ja) 2023-02-28
JP7405989B2 (ja) 2023-12-26
EP4046382A4 (en) 2022-12-07
EP4046382A1 (en) 2022-08-24

Similar Documents

Publication Publication Date Title
US10944996B2 (en) Visual quality optimized video compression
JP7405989B2 (ja) マシン向け映像符号化における方法及び装置
US10721471B2 (en) Deep learning based quantization parameter estimation for video encoding
US11553187B2 (en) Frequency component selection for image compression
CN109952763B (zh) 利用高水平和低水平之间的差异的视频压缩
US20180192063A1 (en) Method and System for Virtual Reality (VR) Video Transcode By Extracting Residual From Different Resolutions
US20210067785A1 (en) Video encoding rate control for intra and scene change frames using machine learning
CN113196761A (zh) 用于评估视频的主观质量的方法及装置
JP2020010331A (ja) 画質を向上させる方法
JP6109956B2 (ja) ビデオコンテンツを前処理するエンコーダハードウェアの活用
TWI557683B (zh) Mipmap壓縮技術
TW201904294A (zh) 數位內容串流壓縮
CN115298710A (zh) 基于人脸复原的视频会议框架
US20220382053A1 (en) Image processing method and apparatus for head-mounted display device as well as electronic device
CN111052738B (zh) 用于在视频编码中延迟后处理的系统和方法
CN116847087A (zh) 视频处理方法、装置、存储介质及电子设备
CN111246249A (zh) 一种图像编码方法、编码装置、解码方法、解码装置及存储介质
NL2029548B1 (en) Determining adaptive quantization matrices using machine learning for video coding
CN109413445B (zh) 一种视频传输方法及装置
WO2018123202A1 (ja) 動画像処理装置、表示装置、動画像処理方法、および制御プログラム
US20240163477A1 (en) 3d prediction method for video coding
US20240163476A1 (en) 3d prediction method for video coding
US20240127490A1 (en) Connectivity coding for symmetry mesh
US11854165B2 (en) Debanding using a novel banding metric
US20240087173A1 (en) Base mesh coding by using surface reflection symmetry

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40071739

Country of ref document: HK