CN118020298A - 基于后期分析和重构要求的自适应视频精简 - Google Patents

基于后期分析和重构要求的自适应视频精简 Download PDF

Info

Publication number
CN118020298A
CN118020298A CN202280065137.8A CN202280065137A CN118020298A CN 118020298 A CN118020298 A CN 118020298A CN 202280065137 A CN202280065137 A CN 202280065137A CN 118020298 A CN118020298 A CN 118020298A
Authority
CN
China
Prior art keywords
picture
video
reduction process
perform
machine vision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280065137.8A
Other languages
English (en)
Inventor
米特拉·达姆汉尼安
雅各布·斯特罗姆
克里斯托弗·霍尔曼
皮尔·温纳斯滕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN118020298A publication Critical patent/CN118020298A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4621Controlling the complexity of the content stream or additional data, e.g. lowering the resolution or bit-rate of the video stream for a mobile client with a small screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于精简包括图片序列的视频的方法(400)。该方法包括:决定是否对视频的图片执行视频精简过程。该方法还包括:作为决定执行视频精简过程的结果,对视频的图片执行视频精简过程。该方法还包括:决定是否对视频的另一图片执行视频精简过程。该方法还包括:在决定不对该另一图片执行视频精简过程之后,对该另一图片进行编码以生成编码图片。该方法还包括:将该编码图片添加至比特流。

Description

基于后期分析和重构要求的自适应视频精简
技术领域
本公开涉及视频精简(thinning)。
背景技术
1.视频压缩
视频由一系列图片(也被称为图像或帧)组成。因此,视频通常被称为视频序列。视频序列的每个图片都由一个或多个分量组成。每个分量可以被描述为样本值的二维矩形阵列(也被称为像素值或被简称为像素)。图片通常由三个分量组成:一个亮度分量(Y)(其中,像素值是亮度值)和两个色度分量(Cb和Cr)(其中,像素值是色度值)。分量有时被称为“颜色分量”。
视频是当今网络中的数据流量的主要形式,并且预计其份额仍将增加。减少每个视频的数据流量的一种方式是压缩。这里,视频被编码为包括编码视频的比特流,然后可以存储该比特流并将其发送给终端用户。终端用户可以使用解码器来提取视频数据并将其显示在屏幕上。然而,由于编码器可能不知道编码比特流将被发送给什么类型的设备,因此编码器通常根据标准化压缩方案和格式来压缩视频。然后,支持所选择的标准的所有设备都可以对该视频进行解码。
压缩可以是无损的(即,解码视频将与提供给编码器的源相同)或有损的(其中接受内容的一定降级)。这对比特率(即,压缩比率有多高)具有重大影响,因为诸如噪声之类的因素可能使无损压缩变得相当昂贵。
2.常用视频编码标准
视频标准通常由国际组织来制定。目前应用最多的视频压缩标准是由ITU-T和ISO联合制定的H.264/AVC。H.264/AVC的第一版本于2003年最终确定,在随后的几年中进行了若干次更新。H.264/AVC的后继版本(也由ITU-T和ISO制定)被称为H.265/HEVC(高效视频编码),并且于2013年最终确定。
高效视频编码(HEVC)是一种基于块的视频编解码,并且利用时间预测和空间预测两者。使用来自当前图片内的帧内(I)预测来实现空间预测。根据先前解码的参考图片,使用块级别上的单向(P)预测或双向(B)帧间预测来实现时间预测。在编码器中,原始像素数据与预测像素数据之间的差值(被称为残差)被变换到频域、被量化,然后在与诸如预测模式和运动向量的必要预测参数一起被发送之前被熵编码。解码器执行熵解码、逆量化和逆变换以获得残差,并然后将残差加至帧内预测或帧间预测以重构图片。
MPEG和ITU-T在联合视频探索小组(JVET)内已经完成了HEVC的后继版本。该视频编解码的名称是通用视频编码(VVC),并且VVC规范的版本1已经被发布为Rec.ITU-T H.266|ISO/IEC 23090-3,“Versatile Video Coding(多功能视频编码)”2020。
3.图片顺序计数(POC)
HEVC和VVC中的图片由图片顺序计数(POC)值来标识。编码器和解码器均跟踪POC,并将POC值分配给被编码/解码的每个图片。
存在三种常用类型的图片:I帧、P帧和B帧。I帧独立于所有其他帧进行编码,并且在没有参考图片的情况下进行解码。视频通常以I帧开始。P帧和B帧使用根据其他帧的帧间预测。P帧可以根据一个其他帧进行预测,而B帧可以根据至少一个其他帧进行预测。例如,由于I帧通常是以高质量编码的,因此无论参考帧是什么类型,根据I帧进行预测都是非常常见的。
4.压缩视频的结构
编码视频序列以独立编码的图像(例如,I帧)开始。之后,通常存在根据至少一个其他帧进行预测的若干帧,我们将其称为为B帧。通常,分层地进行编码。首先对帧0进行编码,然后对根据0进行预测的帧16进行编码,然后对根据0和16进行预测的帧8进行编码,依此类推。这被称为图片组(GOP)结构。
GOP结构定义了图片如何相互参考以及每个图片的特定配置。GOP可以被划分为如图7所示的时间子层。在该示例中,存在5个时间子层,其ID(TId)为0至4。某个时间子层处的图片可以不参考更高时间子层处的图片。该图示出了HEVC中的用于随机接入的典型GOP结构。每个GOP具有16个图片,其从TId 0处的图片开始。箭头示出了参考,例如,POC8用作对POC 4、6、7、9、10和12的参考。通常对解码顺序(即,解码器处理图片的顺序)进行优化,使得参考图片尽可能地接近图片,以最小化时延和存储器使用。
发明内容
目前存在某些挑战。例如,许多视频(即使在它们被压缩之后)通常由大量数据组成,并且发送和/或存储如此大量的数据可能成本很高。此外,视频数据中的一些可能不如视频数据的其他部分重要(即,具有比视频数据的其他部分更低的优先级)。在视频主要旨在用于机器视觉任务的用例中,发送和/或存储成本高昂的一些图片或图像细节并不总是对在解码器侧执行的机器视觉任务的质量或准确性有贡献。解码视频的人类消费有时甚至不需要这些图片或图像细节。
因此,在一方面,提供了一种用于精简包括图片序列的视频的视频编码方法。该视频编码方法包括:决定是否对视频的图片执行视频精简过程。该方法还包括:作为决定执行视频精简过程的结果,对视频的图片执行视频精简过程。该方法还包括:决定是否对视频的另一图片执行视频精简过程。该方法还包括:在决定不对该另一图片执行视频精简过程之后,对该另一图片进行编码以生成编码图片。该方法还包括:将该编码图片添加至比特流。
在另一方面,提供了一种包括指令的计算机程序,该指令在由视频编码装置的处理电路执行时,使视频编码装置执行本文公开的视频编码方法。在又一方面,提供了一种包含计算机程序的载体,其中,所述载体是电信号、光信号、无线电信号和计算机可读存储介质中的一种。
在另一方面,提供了一种视频编码装置,其中,该视频编码装置适于执行本文公开的视频编码方法。在一些实施例中,该视频编码装置包括处理电路和存储器,该存储器包含可由处理电路执行的指令,由此该视频编码装置可操作以执行本文公开的视频编码方法。
另一方面,提供了一种用于对编码视频进行解码的视频解码方法,其中,视频的至少一个图片经历了视频精简过程,并且该图片包括机器视觉特征。该方法包括:获得包括编码视频的比特流。该方法还包括:识别用于重构机器视觉特征的规则。该方法还包括:使用该规则和从比特流获得的信息来重构机器视觉特征。
在另一方面,提供了一种包括指令的计算机程序,该指令在由视频解码装置的处理电路执行时,使视频解码装置执行本文公开的视频解码方法。在又一方面,提供了一种包含计算机程序的载体,其中,所述载体是电信号、光信号、无线电信号和计算机可读存储介质中的一种。
在另一方面,提供了一种视频解码装置,其中,该视频解码装置适于执行本文公开的任何视频解码方法。在一些实施例中,该视频解码装置包括处理电路和存储器,该存储器包含可由处理电路执行的指令,由此该视频解码装置可操作以执行本文公开的视频解码方法。
实施例的优点是更好地利用带宽来发送和存储视频内容。这可以是较小的总的所需带宽的形式,或者在一些实施例中,可以是解码器中的机器视觉任务的提高的准确性的形式。这通过在对机器视觉任务至关重要的视频细节上花费较多的带宽以及在不太重要的视频细节上花费较少的带宽的形式的较好折衷来获得。另外,由于可能较少数量的图片和/或较高的量化参数,因此与原始比特流相比,可以更快地对精简的视频比特流进行解码。此外,由于可能较少数量的图片,因此与原始比特流相比,可以使用较少量的能量和/或处理能力来对精简的视频比特流进行解码。这对于其中解码资源具有硬限制的用例非常重要。
附图说明
本文中所包含并形成说明书一部分的附图示出了各种实施例。
图1示出了根据实施例的系统。
图2是根据一个实施例的视频编码器的示意性框图。
图3是根据一个实施例的视频解码器的示意性框图。
图4是示出了根据实施例的过程的流程图。
图5是示出了根据实施例的过程的流程图。
图6是根据实施例的装置的框图。
图7示出了分层GOP结构。
具体实施方式
如上所述,视频可能由大量数据组成,并且该数据中的一些(例如,视频的某些图片)可能具有边际价值,特别是在机器视觉应用的上下文中。因此,本公开提供了一种可操作以“精简”视频的视频编码器。在该上下文中,精简视频意味着从视频中“移除”数据(特别是低价值数据)。移除这种低价值数据可以更好地利用传输带宽和存储空间,并且不会显著恶化可以在解码器侧执行的机器视觉任务。精简过程包括:(1)仅对图片的子集进行编码(即,移除图片);(2)使用相对较高的量化参数(QP)来对不太重要的帧进行编码和解码;和/或(3)以较低分辨率对高优先级图片进行编码。
机器视觉
机器视觉是一种越来越多地用于工业应用和消费应用两者的技术。一般而言,机器视觉应用从传感器(通常为相机)获得输入,执行某种处理,并且提供输出。应用范围非常广泛,包括:条形码扫描仪、装配线处的产品检测、用于电话的增强现实应用、以及自动驾驶汽车中的决策做出。
机器视觉应用中的处理可以通过在不同硬件上运行的不同算法来完成。在某些应用中,简单的数字信号处理器可能就足够,而在其他情况下,需要一个或多个图形处理单元(GPU)。近年来,由于神经网络的多功能性及其通常优于其他机器视觉方法的性能,因此用神经网络处理输入已经获得了许多充分理由。
由处理算法生成的结果也可能变化非常大。商店中的条形码扫描仪可以为您提供产品编号,产品检测系统可以告知产品是否有缺陷,电话上的增强现实应用可以为您提供具有附加信息的经滤波的图片,并且自动驾驶汽车中的算法可以给您提供车辆是否需要减速的提示。
简而言之,存在可以由机器视觉算法执行的许多不同任务,例如包括:
(1)对象检测-输入图像或视频中的对象与它们的位置和尺寸相对应地进行定位。还可以提取关于检测到的对象的性质的信息。例如,这可以用于图像数据库的自动标记;
(2)对象跟踪-基于对象检测任务,通过输入视频的不同帧来跟踪对象。示例应用是商店中的用于跟踪顾客的移动的监控系统;
(3)对象分割-将图像或视频划分为更容易进行分析或处理的不同区域。例如,替换视频流中背景的应用使用分割;以及
(4)事件检测-基于输入,该算法确定是否发生某种类型的事件,例如汽车中的系统可以检测另一辆车是否正在改变其车道。
相关应用
视频编码器可以分析一个或多个帧,然后基于检测到的内容做出决策以调整编码参数。这种系统的实现的示例在以下文件中进行了描述:Axis Communications,“AxisZipstream technology”,Whitepaper,January 2018(安讯士通信的“安讯士压缩流技术”,白皮书,2018年1月)(可获自host=www(dot)axis(dot)com;path=/files/whitepaper/;filename=wp_zipstream_71496_en_1801_lo.pdf)。这里,可以调整编码的三个不同方面:
(1)感兴趣区域(ROI)--视频的一部分以比其余视频更高的质量进行编码;
(2)图片组(GOP)--基于内容,当检测到非常小的运动时,可以省略I帧(其独立于其他帧)以降低比特率;以及
(3)每秒帧数(fps)--当检测到该内容的很小改变时,可以降低每秒编码帧数。在某些情况下,可以通过发送空帧(仅由跳过块组成的帧)而不是实际视频帧来解决该问题,以保持恒定帧率的出现。
图1示出了根据实施例的系统100。系统100包括视频编码器102和视频解码器104,其中,编码器102经由网络110(例如,互联网或其他网络)与解码器104进行通信。即,编码器102将视频序列101编码为包括编码视频序列的比特流,并经由网络108将该比特流发送给解码器104。在一些实施例中,不是将比特流发送给解码器104,而是将比特流存储在数据存储单元中。
解码器对编码视频序列中包括的图片进行解码以生成用于显示的视频数据。因此,解码器104可以是具有显示设备105的设备103的一部分。设备103可以是移动设备、机顶设备、头戴式显示器等。
图2示出了根据实施例的视频编码器102。在该实施例中,视频编码器102包括视频精简功能(VTF)201。视频精简功能201接收源视频的图片,并分析图片以确定是否应该对图片执行视频精简过程。即,例如,VTF 201确定图片是否是“低优先级”图片。在一个实施例中,视频的图片是“高优先级”图片(即,不应用视频精简过程的图片)或“低优先级”图片(即,应用视频精简过程的图片)。在一个特定实施例中,视频精简过程包括丢弃图片——即,丢弃每个低优先级图片,同时输出每个高优先级图片以用于进一步处理(然而,在一些实施例中,甚至输出低优先级图片以用于进一步处理)。
在所示实施例中,从VTF 201输出的每个图片被传递到运动估计/补偿块250和帧内预测器249。来自运动估计/补偿块250和帧内预测器249的输出被输入到选择器251,该选择器251针对当前像素块选择帧内预测或帧间预测。来自选择器251的输出被输入到加法器241形式的误差计算器,该加法器241还接收当前像素块的像素值。加法器241计算并输出残差,作为像素块与其预测之间的像素值的差。该误差在变换器242中(例如,通过离散余弦变换)进行变换,并通过量化器243进行量化,然后在编码器244中(例如,通过熵编码器)进行编码。在帧间编码中,所估计的运动矢量也被带到编码器244,以生成当前像素块的编码表示。当前像素块的经变换和量化的残差也被提供给逆量化器245和逆变换器246,以获取原始残差。该误差通过加法器247加至从运动补偿器250或帧内预测器249输出的块预测,以创建可以用于下一个像素块的预测和编码的参考像素块。该新的参考块首先通过对块伪影进行滤波的去块滤波器200进行处理。然后经处理的新的参考块被临时存储在帧缓冲器248中,在其中该经处理的新参考块对帧内预测器249和运动估计器/补偿器250可用。
图3是根据一些实施例的解码器104的示意性框图。解码器104包括解码器361(例如,熵解码器),该解码器361用于对块的编码表示进行解码以得到经量化和经变换的残差集合。这些残差在逆量化器362中被去量化,并通过逆变换器363逆变换以得到残差集合。这些残差在加法器364中被加至参考块的像素值。根据是执行帧间预测还是帧内预测,通过运动估计器/补偿器367或帧内预测器366来确定参考块。由此,选择器368与加法器364以及运动估计器/补偿器367和帧内预测器366连接。从加法器364输出的所得解码块被输入到去块滤波器单元300(其可以执行与编码器1 02的滤波单元200相同的功能)。经滤波的块从解码器104输出,而且优选地临时提供给帧缓冲器365,并且可以用作要解码的后续块的参考块。帧缓冲器365由此连接到运动估计器/补偿器367,以使所存储的像素块可用于运动估计器/补偿器367。加法器364的输出优选地也输入到帧内预测器366,以用作未滤波的参考块。
视频精简功能(VTF)201
如上所述,在一个实施例中,编码器102包括VTF 201,并且在一个特定实施例中,按照正常过程仅对视频图片的子集(例如,仅对非低优先级图片)进行编码和解码,而被确定为低优先级的图片经历视频精简过程-例如,低优先级图片被丢弃或以导致视频的精简的特定方式进行编码。因此,在实施例中,VTF 201针对每个输入图片决定分配给该图片的优先级(例如,VTF 201确定该图片是否是低优先级)。用于将图片确定为低优先级的VTF201决策可以基于但不限于以下情况中的一种或多种。
在一个实施例中,对于每个输入图片,VTF 201获得(例如,计算)相似度度量,该相似度度量指示该图片与一个或多个其他图片(先前或未来图片)相似的程度。如果相似度度量大于阈值,则该图片被确定为低优先级图片--即,经历视频精简。存在用于确定相似度度量的许多已知方法。例如,在一个实施例中,VTF 201通过计算下式来计算均方误差(MSE):MSE=(1/n)SUM[(Ai-Bi)2],其中i=1至n,其中,Ai是图片A的第i个像素,并且Bi是图片B的第i个像素。MSE提供了指示图片A和图片B之间的相似度的相似度度量。在另一实施例中,VTF 201使用MSE来计算峰值信噪比(PSNR)-即,VTF 201计算:PSNR=20log10(Max/(MSE)1/2),其中,Max是预定最大信号值。PSNR也提供了指示图片A和图片B之间的相似度的相似度度量。在其他实施例中,相似度度量是图像处理领域中已知的结构相似度(SSIM)度量或多尺度SSIM(MS-SSIM)度量。
在另一实施例中,对于每个输入图片,VTF 201获得(例如,计算)相似度度量,该相似度度量指示该图片的内容与一个或多个其他图片(先前或未来图片)的内容相似的程度。图片的内容可以通过例如机器视觉算法来检测。如果该内容与其他图片中的一个或多个的内容足够相似(例如,如果相似度度量大于阈值),则VTF 201可以决定该图片是低优先级图片。作为示例,该机器视觉任务可以在图片0中检测到对象,并且也可以在图片1中检测到相同的对象。如果该对象在图片0和图片1之间没有移动超过一定距离(例如,若干个像素),由于在解码器中重用图片0将生成足够好的非常相似的结果,因此VTF 201可以决定图片1是不必要的,并且因此,VTF 201决定该图片1是低优先级图片。
在另一实施例中,VTF 201分析一部分或整个视频序列,并且基于该视频序列的该部分中的事件的速度来决定每第n个图片是低优先级图片。
在另一实施例中,对于每个输入图片,除非满足条件,否则VTF 201中的默认决策为:该图片是低优先级。
例如,在一个实施例中,除非以下情况,否则图片将被确定为低优先级:i)VTF 201检测到图片中的新对象(例如,图片包括对象,例如红色气球,并且先前的M个图片均不包括该对象,其中,M是>0的整数);ii)VTF 201检测到两个对象之间的新重叠区域;iii)VTF 201检测到先前定义的事件,如对象A撞击对象B;iv)VTF 201检测到先前定义的事件,如对象A超出视频图片中的定义区域;和/或v)VTF 201检测到对象的预测轨迹的改变。
作为另一示例,对于每个输入图片,VTF 201对该图片(并且可能与一些其他图片一起)执行机器视觉任务,并且基于该机器视觉任务的输出,VTF 201决定该图片不是低优先级。
作为另一示例,如果低优先级图片的数量已经达到预设限制,则满足该条件。在一个示例中,一行中可以被认为是低优先级的图片的最大数量被设置为N,并且当VTF 201决定N个连续图片是低优先级时,VTF 201将决定图片N+1不是低优先级。
作为另一示例,除了所谓的“关键图片”之外,所有图片都是低优先级。在一个实施例中,关键图片是具有某种图片类型或包括预定义GOP结构中的某种片类型的任何图片。在一个示例中,GOP结构中的所有I帧(或者备选地,包括一个或多个I片的图片)被指定为关键图片。在另一示例中,只要该图片不是B帧,该图片就是关键图片(即,I帧和P帧是关键图片)。
在一个实施例中,使用两遍方案对视频进行编码。在第一遍中,分析视频的每个图片。基于但不限于以下项中的一项或多项来做出关于图片是否是关键图片的决策:i)在该图片中检测到新事件或对象,ii)指示该图片与一个或多个先前图片之间的显著差异的相似度度量,和/或iii)用于确定关键图片的神经网络(指示当前图片应用作关键图片)。在第二遍中,将关键图片编码到比特流中。
在一个实施例中,当丢弃低优先级图片时,编码器可以暂时降低帧率。例如,编码器可以以每秒60帧(fps)输出视频流,但当满足一些条件时,它通过丢弃每隔一个图片而降至30fps。在备选实施例中,编码器可以不丢弃低优先级图片,而是“跳过”该帧-即,尽可能便宜地对低优先级图片进行编码。这样做的一种典型方式是使用运动矢量0对低优先级图片中的所有块进行编码。这将生成具有与上一图片完全相同的内容的图片。这样,编码器可以保持60fps的恒定帧率,这对于无法处理变化的帧率的某些解码器而言是必要的。使用跳过发信号通知图片的这种方式并不是完全免费的,但通常在比特方面比将其编码为常规图片要便宜得多。
在一个实施例中,不丢弃或跳过低优先级图片,而是使用指示较低视觉质量的较高QP值进行编码。正如在利用跳过对低优先级图片进行编码的情况下一样,这将具有可以在不改变帧率的情况下降低比特率的副作用。然而,在该实施例中,低优先级图片通常将与先前图片不同,这可能是有帮助的,因为它可以粗略地保留该序列中的运动。这可能很有用,特别是如果视频除了由机器视觉算法处理之外还要由人类观看的话。
解码器功能:
在一个实施例中,解码器104被配置为使用规则来重构低优先级图片中的机器视觉特征。这些规则可以是(但不限于)插值规则、外推规则、或定义的轨迹。
在实施例中,用于重构低优先级图片中的特征的规则在编码器侧进行定义,并且在精简后的比特流中(带内)或通过另一信道(带外)发送给解码器。解码器104对比特流进行解码以生成解码图片,并且解码器104使用该解码图片和所接收到的规则来重构低优先级图片中的机器视觉特征。
插值规则示例:
在一个示例中,根据编码器侧的图片A、B和C的序列,图片B被确定为低优先级图片,并且因此,编码器102丢弃图片B。对图片A和C进行编码,并且将该编码图片A和C与插值规则一起发送给解码器104。解码器104对编码图像A和C进行解码,并且使用该插值规则对从解码图像A和C提取的特征进行插值以重构图像B中的特征。
外推规则示例:
在一个示例中,根据编码器侧的输入图片A和B的序列,编码器决定丢弃图片B。图片A被编码并与外推规则一起被发送,该外推规则指示特征的位置相对于图片A中的特征X的位置的特定改变。解码器104对该图片A进行解码,并且使用从图片A提取的特征X的位置和经解码的外推规则来计算所丢弃的图片B中的特征的位置。通过将该外推规则应用于图片A中的特征X的位置来确定图片B中特征X’的位置。例如,图片A可以包括对象(例如,被踢的足球),并且图片B也可以包括该对象。编码器可以将delta-y值和delta-x值包括在比特流中,并且解码器可以通过计算x+delta-x和y+delta-y来确定图片B中的足球的位置,其中,x,y是图片A中的足球的位置。
在一个实施例中,该规则不是用信号通知给解码器104而是被假定(例如,解码器104预先配置有该规则)。在一个示例中,丢弃的图片中的机器视觉特征的位置总是被假设为直接在该丢弃的图片之前和之后的图片中的特征的位置的平均值。
在另一示例中,根据编码器处的输入图片A、B、C和D的序列,编码器决定丢弃图片B和C。图片A中的特征X(例如,图片A中的对象,例如足球)正在移动到图片D中的新位置。指示该对象从图片A中的位置到图片D中的位置所采取的路径的轨迹信息被编码到比特流中。使用比特流中包括的轨迹信息,解码器可以确定所丢弃的图片B中的足球的位置以及所丢弃的图片C中的足球的位置。例如,在实施例中,假设对象的轨迹是其中所有点都沿着该圆的圆周等距间隔开的圆形路径,则由于解码器可以自行确定图片A和D中的特征的位置,该轨迹信息仅需要包括该圆的中心点,并且一旦解码器知道该圆的中心以及图片A和D中的特征的位置,解码器就可以使用基本几何形状来计算图片B和C中的特征的位置。在特征是投射物的另一实施例中,该轨迹信息标识用于确定该投射物的y坐标的第一多项式(例如,y=-4.9t2+5t+7)和用于确定投射物的x坐标(例如,x=.8t)的第二多项式。在该投射物实施例中,也可以丢弃图片A和D。
适配现有编解码
在一个实施例中,在比特流中用信号通知画面跳过。在一个实施例中,在比特流中(例如,在补充增强信息(SEI)消息中)用信号通知用于重构所丢弃的图片中的特征的规则。在一个实施例中,在比特流中(例如,在SEI消息中)用信号通知所丢弃的图片中的位置以及用于重构所丢弃的图片中的特征的规则。
改变GOP尺寸或结构
在一个实施例中,编码器102修改经精简的视频序列的GOP结构。作为示例,编码器102可以具有如图7所示的默认的分层GOP结构。然而,当编码器决定该视频可以被精简时,该GOP结构可以被替换为例如:
(1)简单的IPPPPP...块结构,其中,所有P帧都根据前一图片进行预测(如果编码器决定应丢弃GOP中的除了第一图片之外的所有图片,则这可以是很好的);
(2)具有相同结构但具有不同QP值的GOP结构;
(3)具有较少图片的GOP结构;
(4)具有不同数量的时间子层的GOP结构;以及
(5)不对称的GOP结构,例如,针对GOP的某个部分使用多个时间子层,而针对GOP的另一部分仅使用单个时间子层。
图4是示出了由编码器102执行的视频编码过程400的流程图。过程400可以开始于步骤s402。
步骤s402包括:决定是否对视频的图片执行视频精简过程。
步骤s404包括:作为决定执行视频精简过程的结果,对视频的图片执行视频精简过程。
步骤s406包括:决定是否对该视频的另一图片执行视频精简过程。
步骤s408包括:在决定不对该另一图片执行视频精简过程之后,对该另一图片进行编码以生成编码图片。
步骤s410包括:将该编码图片添加至比特流。
在一些实施例中,对该图片执行视频精简过程包括:丢弃该图片,跳过该图片,使用与低优先级图片相关联的量化参数QP值来对该图片进行编码,或者对该图片进行编码以生成低分辨率编码图片。
在一些实施例中,该图片包括亮度值集和色度值集,并且对图片执行视频精简过程包括:将亮度值的至少子集设置为预定亮度值,并且将色度值的至少子集设置为预定色度值。
在一些实施例中,决定是否对图片执行视频精简过程包括:确定该图片的图片顺序计数POC,并且使用该POC来决定是否对该图片执行视频精简过程。在一些实施例中,使用该POC来决定是否对该图片执行视频精简过程包括:确定该POC是否是N的倍数,其中,N是大于或等于2的预定义整数。在一些实施例中,该视频编码器对每第n个图片执行视频精简过程。
在一些实施例中,该视频编码过程还包括:获得机器视觉任务信息,该机器视觉任务信息指示机器视觉应用将处理编码图片,其中,决定是否对视频的图片执行视频精简过程包括:使用该机器视觉任务信息来决定是否对该图片执行视频精简过程。在一些实施例中,该机器视觉任务信息标识机器视觉任务,并且使用该机器视觉任务信息来决定是否对图片执行视频精简过程包括:使用所标识的机器视觉任务的阈值来决定是否对该图片执行视频精简过程。在一些实施例中,该机器视觉任务是以下项之一:对象检测任务、对象跟踪任务、对象分割任务、事件检测任务。
在一些实施例中,该机器视觉任务是事件检测任务,并且该事件检测任务包括以下项中的一项或多项:检测新对象、检测两个对象之间的新重叠区域、检测先前定义的事件(如对象A撞击对象B)、检测先前定义的事件(如对象A超出视频帧中的定义区域)、或检测对象的预测轨迹的改变。
在一些实施例中,决定是否对图片执行视频精简过程包括:获得相似度度量,该相似度度量指示该图片与该视频的一个或多个其他图片之间的相似度。
在一些实施例中,决定是否对图片执行视频精简过程包括:获得相似度度量,该相似度度量指示该图片的内容与该视频的一个或多个其他图片的内容之间的相似度。
在一些实施例中,决定是否对图片执行视频精简过程包括:使用神经网络来基于机器视觉任务确定视频精简过程对该图片的适用性。
在一些实施例中,该视频编码过程还包括:将一个或多个语法元素编码到比特流中,其中,该一个或多个语法元素指定用于重构该图片的至少一个机器视觉特征的规则。在一些实施例中,该规则是以下项中的一项或多项:插值规则、外推规则、或定义的轨迹。
在一些实施例中,在比特流中的补充增强信息SEI消息中用信号通知指定该规则的一个或多个语法元素。
在一些实施例中,指定该规则的一个或多个语法元素还指定该图片的位置(例如,该图片的POC)。
在一些实施例中,该视频编码过程还包括:作为执行视频精简过程的结果,使用修改后的图片组GOP尺寸或结构。
在一些实施例中,对该图片执行视频精简过程包括:跳过该图片,并且跳过该图片包括:将帧跳过语法元素编码到比特流中。
在一些实施例中,该视频的该图片属于图片组(GOP)。图7中示出了示例GOP。如图7所示,该组中的每个图片与时间子层标识符相关联。在一些实施例中,该视频编码过程还包括:作为决定对该图片执行视频精简过程的结果,对该组中的与比该图片的时间子层标识符更大的时间子层标识符相关联的每个图片执行视频精简过程。在一些实施例中,该过程还包括:作为决定对该图片执行视频精简过程的结果,对该组中的与等于该图片的时间子层标识符的时间子层标识符相关联的每个图片执行视频精简过程。
在一些实施例中,该视频的该图片属于一组图片,该组中的一个或多个图片依赖于该图片,并且视频编码过程还包括:作为决定对该图片执行视频精简过程的结果,对该组中包括的依赖于该图片的每个图片执行视频精简过程。
图5是示出了由解码器104执行的过程500的流程图。过程500可以开始于步骤s502。
步骤s502包括:获得包括编码视频的比特流。
步骤s504包括:识别用于重构机器视觉特征的规则。
步骤s506包括:使用该规则和从比特流获得的信息来重构机器视觉特征。
在一些实施例中,识别规则包括:从比特流中解码一个或多个语法元素,其中,该一个或多个语法元素指定该规则。在一些实施例中,一个或多个语法元素被包括在补充增强信息(SEI)消息中。
在一些实施例中,该规则是以下项中的一项或多项:插值规则、外推规则、或定义的轨迹。
在一些实施例中,该规则是插值规则,从比特流获得的信息包括该视频的第二图片的编码版本和第三图片的编码版本,并且使用该规则和从比特流获得的信息来重构机器视觉特征包括:对第二图片进行解码,并且从所解码的第二图片中提取第一特征;对第三图片进行解码,并且从所解码的第三图片中提取第二特征;以及对所提取的特征进行插值以重构机器视觉特征。
在一些实施例中,该规则是外推规则,从比特流获得的信息包括该视频的第二图片的编码版本,并且使用该规则和从比特流获得的信息来重构机器视觉特征包括:对第二图片进行解码,并且从所解码的第二图片中提取第一特征;确定从第二图片中提取的第一特征的位置;以及使用以下项来计算机器视觉特征的位置:i)从第二图片中提取的第一特征的位置,以及ii)外推规则。
在一些实施例中,该规则是定义的轨迹,从比特流获得的信息包括该视频的第二图片的编码版本和第三图片的编码版本,并且使用该规则和从比特流获得的信息来重构机器视觉特征包括:对第二图片进行解码,并且从所解码的第二图片中提取第一特征;对第三图片进行解码,并且从所解码的第三图片中提取第二特征;以及应用所定义的轨迹来重构机器视觉特征。
图6是根据一些实施例的用于实现编码器102和/或解码器104的装置600的框图。当装置600实现解码器时,装置600可以被称为“解码装置600”,而当装置600实现编码器时,装置600可以被称为“编码装置600”。
如图6所示,装置600可以包括处理电路(PC)602,该PC 602可以包括一个或多个处理器(P)655(例如,通用微处理器和/或一个或多个其他处理器,例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)等),这些处理器可以共址于单个外壳中或单个数据中心中,或者可以在地理上分布。即,装置600可以是分布式计算装置。例如,该装置的一些处理器可以用于实现VTF 201,而该装置的其他处理器可以用于实现常规视频编码功能,并且这些处理器可以或可以不共址。
装置600还可以包括:至少一个网络接口648,包括发射器(Tx)645和接收器(Rx)647,用于使得装置600能够向连接到网络110(例如,互联网协议(IP)网络)的其他节点发送数据以及从其接收数据,网络接口648(直接地或间接地)连接到网络110(例如,网络接口648可以无线连接到网络110,在这种情况下,网络接口648连接到天线布置);以及存储单元(也被称为“数据存储系统”)608,其可以包括一个或多个非易失性存储设备和/或一个或多个易失性存储设备。在PC 602包括可编程处理器的实施例中,可以提供计算机程序产品(CPP)641。CPP 641包括计算机可读介质(CRM)642,其存储包括计算机可读指令(CRI)644的计算机程序(CP)643。CRM 642可以是非暂时性计算机可读介质,例如磁介质(例如,硬盘)、光介质、存储器件(例如,随机存取存储器、闪存)等。在一些实施例中,计算机程序643的CRI644被配置为使得当由PC 602执行时,CRI使装置600执行本文所描述的步骤(例如,本文参考流程图描述的步骤)。在其他实施例中,装置600可以被配置为在不需要代码的情况下执行本文所描述的步骤。即,例如,PC 602可以仅由一个或多个ASIC组成。因此,本文描述的实施例的特征可以以硬件和/或软件方式来实现。
各种实施例的概述
A1.一种用于精简包括图片序列的视频的方法,该方法包括:决定是否对视频的图片执行视频精简过程;作为决定执行视频精简过程的结果,对该视频的该图片执行视频精简过程;决定是否对该视频的另一图片执行视频精简过程;在决定不对该另一图片执行视频精简过程之后,对该另一图片进行编码以生成编码图片;以及将该编码图片添加至比特流。
A2.根据实施例A1所述的方法,其中,对该图片执行视频精简过程包括:丢弃该图片。
A3.根据实施例A1所述的方法,其中,对该图片执行视频精简过程包括:跳过该图片。
A4.根据实施例A1所述的方法,其中,对该图片执行视频精简过程包括:使用与低优先级图片相关联的量化参数QP值对该图片进行编码。
A5a.根据实施例A1所述的方法,其中,对该图片执行视频精简过程包括:对该图片进行编码,以生成低分辨率编码图片。
A5b.根据实施例A1所述的方法,其中,对该图片执行视频精简过程包括:对该图片进行编码以生成编码图片,该编码图片具有比通过对该另一图片进行编码而生成的编码图片更低的分辨率。
A6.根据实施例A1所述的方法,其中,该图片包括亮度值集和色度值集,并且对该图片执行视频精简过程包括:将亮度值的至少子集设置为预定亮度值,并且将色度值的至少子集设置为预定色度值。
A7.根据实施例A1至A6中任一实施例所述的方法,其中,决定是否对该图片执行视频精简过程包括:确定该图片的图片顺序计数POC,并且使用该POC来决定是否对该图片执行视频精简过程。
A8.根据实施例A7所述的方法,其中,使用该POC来决定是否对该图片执行视频精简过程包括:确定该POC是否是N的倍数,其中,N是大于或等于2的预定义整数。
A9.根据实施例A1至A8中任一实施例所述的方法,其中,对每第个n图片执行上述视频精简过程。
A10.根据实施方案A1至A9中任一实施例所述的方法,还包括:获得机器视觉任务信息,该机器视觉任务信息指示机器视觉应用将处理编码图片,其中,决定是否对该视频的该图片执行视频精简过程包括:使用该机器视觉任务信息来决定是否对该图片执行视频精简过程。
A11.根据实施例A10所述的方法,其中,该机器视觉任务信息标识机器视觉任务,并且使用该机器视觉任务信息来决定是否对该图片执行视频精简过程包括:使用所标识的机器视觉任务的阈值来决定是否对该图片执行视频精简过程。
A12.根据实施例A1 1所述的方法,其中,该机器视觉任务是以下项中的至少一项:对象检测任务、对象跟踪任务、对象分割任务、或事件检测任务。
A13.根据实施例A11所述的方法,其中,该机器视觉任务是事件检测任务,并且该事件检测任务包括以下项中的一项或多项:检测新对象、检测两个对象之间的新重叠区域、检测先前定义的事件(如对象A撞击对象B)、检测先前定义的事件(如对象A超出视频帧中的定义区域)、或检测对象的预测轨迹的改变。
A14.根据实施例A1至A13中任一实施例所述的方法,其中,决定是否对该图片执行视频精简过程包括:获得相似度度量,该相似度度量指示该图片与该视频的一个或多个其他图片之间的相似度。
A15.根据实施例A1至A13中任一实施例所述的方法,其中,决定是否对该图片执行视频精简过程包括:获得相似度度量,该相似度度量指示该图片的内容与该视频的一个或多个其他图片的内容之间的相似度。
A16.根据实施例A1至A15中任一实施例所述的方法,其中,决定是否对该图片执行视频精简过程包括:使用神经网络来基于机器视觉任务确定视频精简过程对该图片的适用性。
A17.根据实施例A1至A16中任一实施例所述的方法,还包括:将一个或多个语法元素编码到比特流中,其中,该一个或多个语法元素指定用于重构该图片的至少一个机器视觉特征的规则。
A1 8.根据实施例A1 7所述的方法,其中,该规则是以下项中的一项或多项:插值规则、外推规则、或定义的轨迹。
A19.根据实施例A17或A18所述的方法,其中,在比特流中的补充增强信息SEI消息中用信号通知指定该规则的一个或多个语法元素。
A20.根据实施例A17至A19中任一实施例所述的方法,其中,指定该规则的一个或多个语法元素还指定该图片的位置(例如,该图片的POC)。
A21.根据实施例A1至A20中任一实施例所述的方法,还包括:作为执行视频精简过程的结果,使用修改后的图片组GOP尺寸或结构。
A22.根据实施例A1至A21中任一实施例所述的方法,其中,对该图片执行视频精简过程包括:跳过该图片,并且跳过该图片包括:将帧跳过语法元素编码到比特流中。
A23.根据实施例A1至A22中任一实施例所述的方法,其中,该视频的该图片属于图片组,该组中的每个图片与时间子层标识符相关联,并且该方法还包括:作为决定对该图片执行视频精简过程的结果,对该组中的与比该图片的时间子层标识符更大的时间子层标识符相关联的一个或多个图片执行视频精简过程。
A24.根据实施例A23所述的方法,其中,该方法还包括:作为决定对该图片执行视频精简过程的结果,对该组中的与等于该图片的时间子层标识符的时间子层标识符相关联的每个图片执行视频精简过程。
A25.根据实施例A1至A22中任一实施例所述的方法,其中,该视频的该图片属于一组图片,该组中的一个或多个图片依赖于该图片,并且该方法还包括:作为决定对该图片执行视频精简过程的结果,对该组中包括的依赖于该图片的每个图片执行视频精简过程。
B1.一种包括指令的计算机程序,该指令在由视频编码装置的处理电路执行时,使视频编码装置执行根据实施例A1至A25中任一实施例所述的方法。
B2.一种包括根据实施例B1所述的计算机程序的载体,其中,该载体是电信号、光信号、无线电信号和计算机可读存储介质之一。
C1.一种视频编码装置,该视频编码装置适于:决定是否对视频的图片执行视频精简过程;作为决定执行视频精简过程的结果,对该视频的该图片执行视频精简过程;决定是否对该视频的另一图片执行视频精简过程;在决定不对该另一图片执行视频精简过程之后,对该另一图片进行编码以生成编码图片;以及将该编码图片添加至比特流。
C2.根据实施例C1的视频编码装置,其中,该视频编码装置还适于执行根据实施例A2至A25中任一实施例所述的方法。
D1.一种视频编码装置,包括:处理电路;以及存储器,该存储器包含可由处理电路执行的指令,由此该视频编码装置可操作以执行根据实施例A1至A25中任一实施例所述的方法。
F 1.一种由视频解码器执行的用于对编码视频进行解码的视频解码方法,其中,该视频的至少一个图片经历了视频精简过程,并且该图片包括机器视觉特征,该方法包括:获得包括编码视频的比特流;识别用于重构机器视觉特征的规则;使用该规则和从比特流获得的信息来重构机器视觉特征。
F2.根据实施例F1所述的方法,其中,识别该规则包括:从比特流中解码一个或多个语法元素,其中,该一个或多个语法元素指定该规则。
F3.根据实施例F2所述的方法,其中,该一个或多个语法元素被包括在补充增强信息SEI消息中。
F4.根据实施例F1、F2或F3所述的方法,其中,该规则是以下项中的一项或多项:插值规则、外推规则、或定义的轨迹。
F5.根据实施例F1至F3中任一实施例所述的方法,其中,该规则是插值规则,从比特流获得的信息包括该视频的第二图片的编码版本和第三图片的编码版本,并且使用该规则和从比特流获得的信息来重构机器视觉特征包括:对第二图片进行解码,并且从所解码的第二图片中提取第一特征;对第三图片进行解码,并且从所解码的第三图片中提取第二特征;以及对所提取的特征进行插值以重构机器视觉特征。
F6.根据实施例F1至F3中任一实施例所述的方法,其中,该规则是外推规则,从比特流获得的信息包括该视频的第二图片的编码版本,并且使用该规则和从比特流获得的信息重构机器视觉特征包括:对第二图片进行解码,并且从所解码的第二图片中提取第一特征;确定从第二图片中提取的第一特征的位置;以及使用以下项来计算机器视觉特征的位置:i)从第二图片中提取的第一特征的位置,以及ii)外推规则。
F7.根据实施例F1至F3中任一实施例所述的方法,其中,该规则是定义的轨迹,从比特流获得的信息包括该视频的第二图片的编码版本和第三图片的编码版本,并且使用该规则和从比特流获得的信息来重构机器视觉特征包括:对第二图片进行解码,并且从所解码的第二图片中提取第一特征;对第三图片进行解码,并且从所解码的第三图片中提取第二特征;以及应用所定义的轨迹来重构机器视觉特征。
G1.一种包括指令的计算机程序,该指令在由视频解码装置的处理电路执行时,使视频解码装置执行根据实施例F1至F7中任一实施例所述的方法。
G2.一种包括根据实施例G1所述的计算机程序的载体,其中,该载体是电信号、光信号、无线电信号和计算机可读存储介质之一。
H1.一种视频解码装置,该视频解码装置适于:获得包括编码视频的比特流;识别用于重构机器视觉特征的规则;使用该规则和从比特流获得的信息来重构机器视觉特征。
H2.根据实施例H1的视频解码装置,其中,该视频解码装置还适于执行根据实施例F2至F7中任一实施例所述的方法。
I1.一种视频解码装置,包括:处理电路;以及存储器,该存储器包含可由处理电路执行的指令,由此该视频解码装置可操作以执行根据实施例F1至F7中任一实施例所述的方法。
尽管本文描述了各种实施例,但应当理解,它们仅以示例而非限制的方式提出。因此,本公开的广度和范围不应受到任何上述示例性实施例的限制。此外,上述要素以其所有可能变体进行的任何组合都涵盖在本公开中,除非另外指示或以其他方式与上下文明确冲突。
另外,尽管上面描述并在附图中示出的处理被示为一系列步骤,但其仅用于说明目的。因此,可以想到,可以增加一些步骤、可以省略一些步骤,可以重新布置步骤顺序,以及可以并行执行一些步骤。

Claims (42)

1.一种用于精简包括图片序列的视频的方法(400),所述方法包括:
决定(s402)是否对视频的图片执行视频精简过程;
作为决定执行视频精简过程的结果,对所述视频的所述图片执行(s404)视频精简过程;
决定(s406)是否对所述视频的另一图片执行视频精简过程;
在决定不对所述另一图片执行视频精简过程之后,对所述另一图片进行编码(s408)以生成编码图片;以及
将所述编码图片添加(s410)至比特流。
2.根据权利要求1所述的方法,其中,对所述图片执行视频精简过程包括:丢弃所述图片。
3.根据权利要求1所述的方法,其中,对所述图片执行所述视频精简过程包括:跳过所述图片。
4.根据权利要求1所述的方法,其中,对所述图片执行所述视频精简过程包括:使用与低优先级图片相关联的量化参数QP值对所述图片进行编码。
5.根据权利要求1所述的方法,其中,对所述图片执行所述视频精简过程包括:对所述图片进行编码以生成编码图片,所述编码图片具有比通过对所述另一图片进行编码而生成的编码图片更低的分辨率。
6.根据权利要求1所述的方法,其中,
所述图片包括亮度值集和色度值集,并且
对所述图片执行所述视频精简过程包括:将所述亮度值的至少子集设置为预定亮度值,并且将所述色度值的至少子集设置为预定色度值。
7.根据权利要求1至6中任一项所述的方法,其中,决定是否对所述图片执行视频精简过程包括:确定所述图片的图片顺序计数POC,并且使用所述POC来决定是否对所述图片执行视频精简过程。
8.根据权利要求7所述的方法,其中,使用所述POC来决定是否对所述图片执行视频精简过程包括:确定所述POC是否是N的倍数,其中,N是大于或等于2的预定义整数。
9.根据权利要求1至8中任一项所述的方法,其中,对每第n个图片执行所述视频精简过程。
10.根据权利要求1至9中任一项所述的方法,还包括:
获得机器视觉任务信息,所述机器视觉任务信息指示机器视觉应用将处理所述编码图片,其中,
决定是否对所述视频的所述图片执行视频精简过程包括:使用所述机器视觉任务信息来决定是否对所述图片执行视频精简过程。
11.根据权利要求10所述的方法,其中,
所述机器视觉任务信息标识机器视觉任务,并且
使用所述机器视觉任务信息来决定是否对所述图片执行视频精简过程包括:使用所标识的机器视觉任务的阈值来决定是否对所述图片执行视频精简过程。
12.根据权利要求11所述的方法,其中,所述机器视觉任务是以下项中的至少一项:
对象检测任务,
对象跟踪任务,
对象分割任务,或者
事件检测任务。
13.根据权利要求11所述的方法,其中,所述机器视觉任务是事件检测任务,并且所述事件检测任务包括以下项中的一项或多项:
检测新对象,
检测两个对象之间的新重叠区域,
检测先前定义的事件,如对象A撞击对象B,
检测先前定义的事件,如对象A超出视频帧中的定义区域,或者
检测对象的预测轨迹的改变。
14.根据权利要求1至13中任一项所述的方法,其中,决定是否对所述图片执行视频精简过程包括:获得相似度度量,所述相似度度量指示所述图片与所述视频的一个或多个其他图片之间的相似度。
15.根据权利要求1至13中任一项所述的方法,其中,决定是否对所述图片执行视频精简过程包括:获得相似度度量,所述相似度度量指示所述图片的内容与所述视频的一个或多个其他图片的内容之间的相似度。
16.根据权利要求1至15中任一项所述的方法,其中,决定是否对所述图片执行视频精简过程包括:使用神经网络来基于机器视觉任务确定所述视频精简过程对所述图片的适用性。
17.根据权利要求1至16中任一项所述的方法,还包括:将一个或多个语法元素编码到所述比特流中,其中,所述一个或多个语法元素指定用于重构所述图片的至少一个机器视觉特征的规则。
18.根据权利要求17所述的方法,其中,所述规则是以下项中的一项或多项:
插值规则,
外推规则,或者
定义的轨迹。
19.根据权利要求17或18所述的方法,其中,在所述比特流中的补充增强信息SEI消息中用信号通知指定所述规则的一个或多个语法元素。
20.根据权利要求17至19中任一项所述的方法,其中,指定所述规则的一个或多个语法元素还指定所述图片的位置(例如,所述图片的POC)。
21.根据权利要求1至20中任一项所述的方法,还包括:作为执行所述视频精简过程的结果,使用修改后的图片组GOP尺寸或结构。
22.根据权利要求1至21中任一项所述的方法,其中,对所述图片执行所述视频精简过程包括:跳过所述图片,并且跳过所述图片包括:将帧跳过语法元素编码到所述比特流中。
23.根据权利要求1至22中任一项所述的方法,其中,
所述视频的所述图片属于一组图片,
所述组中的每个图片与时间子层标识符相关联,并且
所述方法还包括:作为决定对所述图片执行所述视频精简过程的结果,对所述组中的与比所述图片的时间子层标识符更大的时间子层标识符相关联的一个或多个图片执行视频精简过程。
24.根据权利要求23所述的方法,其中,所述方法还包括:作为决定对所述图片执行所述视频精简过程的结果,对所述组中的与等于所述图片的时间子层标识符的时间子层标识符相关联的每个图片执行视频精简过程。
25.根据权利要求1至22中任一项所述的方法,其中,
所述视频的所述图片属于一组图片,
所述组中的一个或多个图片依赖于所述图片,并且
所述方法还包括:作为决定对所述图片执行所述视频精简过程的结果,对所述组中包括的依赖于所述图片的每个图片执行视频精简过程。
26.一种包括指令(644)的计算机程序(643),所述指令(644)在由视频编码装置(600)的处理电路(602)执行时,使所述视频编码装置(600)执行根据权利要求1至25中任一项所述的方法。
27.一种载体,包含根据权利要求26所述的计算机程序,其中,所述载体是电信号、光信号、无线电信号和计算机可读存储介质(642)之一。
28.一种视频编码装置(600),所述视频编码装置(600)适于:
决定(s402)是否对视频的图片执行视频精简过程;
作为决定执行视频精简过程的结果,对所述视频的所述图片执行(s404)视频精简过程;
决定(s406)是否对所述视频的另一图片执行视频精简过程;
在决定不对所述另一图片执行视频精简过程之后,对所述另一图片进行编码(s408)以生成编码图片;以及
将所述编码图片添加(s410)至比特流。
29.根据权利要求28所述的视频编码装置(600),其中,所述视频编码装置(600)还适于执行根据权利要求2至25中任一项所述的方法。
30.一种视频编码装置(600),包括:
处理电路(602);以及
存储器(642),所述存储器包含能够由所述处理电路执行的指令(644),由此所述视频编码装置(102)能够操作以执行根据权利要求1至25中任一项所述的方法。
31.一种由视频解码器(104)执行的用于对编码视频进行解码的视频解码方法(500),其中,所述视频的至少一个图片经历了视频精简过程,并且所述图片包括机器视觉特征,所述方法包括:
获得(s502)包括编码视频的比特流;
识别(s504)用于重构所述机器视觉特征的规则;
使用(s506)所述规则和从所述比特流获得的信息来重构所述机器视觉特征。
32.根据权利要求31所述的方法,其中,识别所述规则包括:从所述比特流中解码一个或多个语法元素,其中,所述一个或多个语法元素指定所述规则。
33.根据权利要求32所述的方法,其中,所述一个或多个语法元素被包括在补充增强信息SEI消息中。
34.根据权利要求31、32或33所述的方法,其中,所述规则是以下项中的一项或多项:
插值规则,
外推规则,或者
定义的轨迹。
35.根据权利要求31至33中任一项所述的方法,其中,
所述规则是插值规则,
从所述比特流获得的信息包括:所述视频的第二图片的编码版本和所述视频的第三图片的编码版本,并且
使用所述规则和从所述比特流获得的信息来重构所述机器视觉特征包括:
对所述第二图片进行解码,并且从所解码的第二图片中提取第一特征;
对所述第三图片进行解码,并且从所解码的第三图片中提取第二特征;以及
对所提取的特征进行插值以重构所述机器视觉特征。
36.根据权利要求31至33中任一项所述的方法,其中,
所述规则是外推规则,
从所述比特流获得的信息包括:所述视频的第二图片的编码版本,并且
使用所述规则和从所述比特流获得的信息来重构所述机器视觉特征包括:
对所述第二图片进行解码,并且从所解码的第二图片中提取第一特征;
确定从所述第二图片中提取的第一特征的位置;以及
使用以下项来计算所述机器视觉特征的位置:i)从所述第二图片中提取的第一特征的位置,以及ii)所述外推规则。
37.根据权利要求31至33中任一项所述的方法,其中,
所述规则是定义的轨迹,
从所述比特流获得的信息包括:所述视频的第二图片的编码版本和所述视频的第三图片的编码版本,并且
使用所述规则和从所述比特流获得的信息来重构所述机器视觉特征包括:
对所述第二图片进行解码,并且从所解码的第二图片中提取第一特征;
对所述第三图片进行解码,并且从所解码的第三图片中提取第二特征;以及
应用所定义的轨迹来重构所述机器视觉特征。
38.一种包括指令(644)的计算机程序(643),所述指令(644)在由视频解码装置(600)的处理电路(602)执行时,使所述视频解码装置(600)执行根据权利要求31至37中任一项所述的方法。
39.一种载体,包含根据权利要求38所述的计算机程序,其中,所述载体是电信号、光信号、无线电信号和计算机可读存储介质(642)之一。
40.一种视频解码装置(600),所述视频解码装置(600)适于:
获得(s502)包括编码视频的比特流;
识别(s504)用于重构所述机器视觉特征的规则;
使用(s506)所述规则和从所述比特流获得的信息来重构所述机器视觉特征。
41.根据权利要求40所述的视频解码装置(600),其中,所述视频解码装置(600)还适于执行根据权利要求32至37中任一项所述的方法。
42.一种视频解码装置(600),包括:
处理电路(602);以及
存储器(642),所述存储器包含能够由所述处理电路执行的指令(644),由此所述视频解码装置(104)能够操作以执行根据权利要求31至37中任一项所述的方法。
CN202280065137.8A 2021-10-01 2022-09-16 基于后期分析和重构要求的自适应视频精简 Pending CN118020298A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163251182P 2021-10-01 2021-10-01
US63/251,182 2021-10-01
PCT/EP2022/075856 WO2023052159A1 (en) 2021-10-01 2022-09-16 Adaptive video thinning based on later analytics and reconstruction requirements

Publications (1)

Publication Number Publication Date
CN118020298A true CN118020298A (zh) 2024-05-10

Family

ID=83693118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280065137.8A Pending CN118020298A (zh) 2021-10-01 2022-09-16 基于后期分析和重构要求的自适应视频精简

Country Status (3)

Country Link
EP (1) EP4409896A1 (zh)
CN (1) CN118020298A (zh)
WO (1) WO2023052159A1 (zh)

Also Published As

Publication number Publication date
WO2023052159A1 (en) 2023-04-06
EP4409896A1 (en) 2024-08-07

Similar Documents

Publication Publication Date Title
US11902581B2 (en) Method and system for processing video content
US7920628B2 (en) Noise filter for video compression
EP3777189A1 (en) Block-level super-resolution based video coding
US11146829B2 (en) Quantization parameter signaling in video processing
US9414086B2 (en) Partial frame utilization in video codecs
EP4192014A1 (en) Representing motion vectors in an encoded bitstream
US20100021071A1 (en) Image coding apparatus and image decoding apparatus
US11743475B2 (en) Advanced video coding method, system, apparatus, and storage medium
US20150312575A1 (en) Advanced video coding method, system, apparatus, and storage medium
GB2488830A (en) Encoding and decoding image data
CN111010495A (zh) 一种视频降噪处理方法及装置
WO2015105661A1 (en) Video encoding of screen content data
US12047578B2 (en) Lossless coding of video data
US20220060684A1 (en) Methods and apparatuses for signaling picture header
US8396127B1 (en) Segmentation for video coding using predictive benefit
US20140029663A1 (en) Encoding techniques for banding reduction
CN118020298A (zh) 基于后期分析和重构要求的自适应视频精简
CN118216148A (zh) 一种视频编码方法及其相关装置
CN117616751A (zh) 动态图像组的视频编解码
US20230101318A1 (en) Edge offset for cross component sample adaptive offset (ccsao) filter
US20240283952A1 (en) Adaptive coding tool selection with content classification
US20240283927A1 (en) Adaptive in-loop filtering in video encoding
WO2016193949A1 (en) Advanced video coding method, system, apparatus and storage medium
KR20240090151A (ko) 크로스 컴포넌트 샘플 적응적 오프셋(ccsao) 필터를 위한 에지 오프셋
WO2024002579A1 (en) A method, an apparatus and a computer program product for video coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication