CN104160703A - 经对象检测所通知的编码 - Google Patents

经对象检测所通知的编码 Download PDF

Info

Publication number
CN104160703A
CN104160703A CN201380011624.7A CN201380011624A CN104160703A CN 104160703 A CN104160703 A CN 104160703A CN 201380011624 A CN201380011624 A CN 201380011624A CN 104160703 A CN104160703 A CN 104160703A
Authority
CN
China
Prior art keywords
block
pixels
coding
frame
subject area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380011624.7A
Other languages
English (en)
Inventor
D·S·普莱斯
H-J·吴
周小松
张大忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Computer Inc filed Critical Apple Computer Inc
Publication of CN104160703A publication Critical patent/CN104160703A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20012Locally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20116Active contour; Active surface; Snakes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20121Active appearance model [AAM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20124Active shape model [ASM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20128Atlas-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20152Watershed segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20156Automatic seed setting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20161Level set
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20164Salient point detection; Corner detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20168Radial search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/181Segmentation; Edge detection involving edge growing; involving edge linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明的实施例提供用于基于视频序列内的对象检测来有效地对视频数据进行编码的技术。视频编码器可对帧执行对象检测,并且在检测到对象时,产生对象所在的帧的区域的统计值。视频编码器可将邻近于对象位置的像素与对象的统计值进行比较并且可定义对象区域以包括对应于对象位置的像素块以及对应于具有与所检测对象类似的统计值的相邻像素的像素块。所述编码器可根据基于块的压缩算法来对所述视频帧进行编码,其中所述对象区域的像素块根据生成相对高质量编码的编码参数而被编码,并且所述对象区域外的像素块根据生成相对较低质量编码的编码参数而被编码。

Description

经对象检测所通知的编码
背景技术
本发明涉及视频编码,并且具体地涉及节省带宽同时保存图像质量的视频编码技术。
视频编码/解码系统正被部署在种类日益增加的消费设备中。视频编解码器可见于例如现代智能电话和平板电脑中,其中通信带宽由无线网络或提供相对低且不可预测的带宽的其他基础结构来提供。此类应用明显不同于其中大得多的带宽可用于已编码视频数据的其他编解码器应用,诸如例如DVD播放器。因此,此类编解码器的现代应用对编解码器设计者提出了较高的性能要求,以尽可能多地降低已编码视频的比特率同时仍提供良好的图像质量。
发明人觉察到本领域对视频编码器的需要,该视频编码器识别视频帧内的感兴趣对象并选择编码参数以提供包括这些对象的区域的高质量编码,节省帧的其他区域的带宽,以及提供各个区域之间的平滑编码转换。
附图说明
图1示出了根据本发明的一个实施例的视频编码系统的简化框图。
图2示出了根据本发明的一个实施例的可由视频编码器处理的视频数据的示例性帧。
图3示出了根据本发明的一个实施例的对视频数据的一个帧的像素块进行编码的方法。
图4-6示出了应用于图2所示的帧数据的本发明的各种实施例的例子。
图7示出了根据本发明的一个实施例的像素块编码系统的简化框图。
具体实施方式
本发明的实施例提供用于基于对视频序列内的对象的检测来有效地对视频数据进行编码的技术。根据这些实施例,视频编码器可对帧执行对象检测,并且在检测到对象时产生该对象所在的帧的区域的统计值。视频编码器可将邻近于所述对象位置的像素与所述对象的统计值进行比较并且可定义对象区域以包括对应于所述对象位置的像素块以及对应于具有与所检测对象类似的统计值的相邻像素的像素块。编码器可根据基于块的压缩算法来对视频帧进行编码,其中对象区域的像素块根据生成相对高质量编码的编码参数而被编码,并且对象区域外的像素块根据生成相对较低质量编码的编码参数而被编码。
其他实施例提供更复杂的编码技术。例如,视频编码器可从各个像素块内将为所检测对象部分的像素块部分与不为所检测对象部分的像素块的其他部分加以区分。这些实施例可进一步向像素块的不同部分应用预处理操作,以保存对属于所检测对象的部分的高质量编码并且提供对非对象部分的高压缩编码。例如,编码器可在编码之前向像素块的非对象部分应用模糊滤波器。
图1(a)示出了根据本发明的一个实施例的视频编码系统100的简化框图。系统100可包括经由网络130互连的多个终端110,120。终端110,120各自可在局部位置捕捉视频数据并对视频数据进行编码以用于经由网络130传输至另一个终端。每个终端110,120可从网络130接收另一个终端的已编码视频数据,对已编码数据进行解码并显示复原的视频数据。
在图1(a)中,将终端110,120示出为智能电话,但本发明的原理并不限于此。本发明的实施例可应用于个人计算机(台式计算机和膝上型计算机两者)、平板电脑、计算机服务器、媒体播放器和/或专用视频会议设备。网络130表示在终端110,120之间传递已编码视频数据的任意数量的网络,包括例如有线通信网络和/或无线通信网络。通信网络130可在电路交换信道和/或分组交换信道中交换数据。代表性网络包括电信网、局域网、广域网和/或互联网。出于本论述的目的,除非下文作出解释,否则网络130的体系结构和拓扑结构对本发明的操作是无关紧要的。
图1(b)进一步示出了在系统100中可操作的视频编码器140和解码器150的功能框图。终端110可包括照相机160、视频编码器140和发射器170。视频编码器140可对在照相机160处捕捉的视频数据进行编码并可将已编码数据传送至由网络130提供的信道131。视频编码器140可基于视频数据的内容来选择编码参数。发射器170可将由视频编码器140提供的已编码视频数据与由音频编解码器或其他数据源(未示出)提供的一个或多个其他数据流进行合并,并且可调节数据以用于传输至另一个终端120。
第二终端120可包括接收器180、视频解码器150和显示器190。接收器180可接收来自信道131的数据,并将该信道数据解析成一个或多个各种数据流,包括已编码视频的流。视频解码器150可对已编码视频数据进行解码,从而使由视频编码器140执行的编码过程反转以从中复原视频数据。视频数据可由显示器190呈现,或者可被存储以供稍后使用。
如图所示,视频编码器140可包括预处理器142、编码引擎143、本地解码器144、参考图片高速缓存145、对象检测器146及控制器147。预处理器142可接受来自照相机160的源视频,并且可对源视频执行各种处理操作以对其进行调节以用于编码。编码引擎143可对经预处理的视频执行压缩操作以减少其中的空间和/或时间冗余。编码引擎143可将已编码视频数据输出至发射器170。解码器144可对参考帧的已编码视频数据进行解码并且可将已解码参考帧存储在参考图片高速缓存145中以用于对稍后接收的视频进行编码。
正如其名称所暗指的,对象检测器146可识别源视频内的对象,例如脸部或其他预先确定类型的对象。对象检测器146可向控制器147生成数据,该数据指示是否在帧内检测到对象;如果检测到,那么该对象是在何处发现的。作为响应,控制器147可在帧内定义一个或多个编码区域并且可针对编码区域中的每一者将编码调整提供至编码引擎143。
预处理器142可对从照相机输出的源视频执行各种视频处理操作以调节源视频以用于编码。预处理器142可包括滤波器阵列(未示出),所述滤波器诸如去噪滤波器、锐化滤波器、平滑滤波器、双边滤波器等,其可基于在视频内观察到的特征而动态地应用到源视频。预处理器142可包括其自身的控制器(未示出)以查看来自照相机的源视频数据并选择滤波器中的一者或多者以用于应用。通常,预处理器142调节源视频数据以使压缩更为有效地呈现或者依据在编码引擎143进行操作时可能引起的数据损失而保存图像质量。
编码引擎143可根据各种不同的编码技术来对输入视频数据进行编码以实现压缩。编码引擎143可通过经运动补偿的预测来压缩图像。可为输入视频的帧分配编码类型,诸如帧内编码(I编码)、单向预测编码(P编码)或双向预测编码(B编码)。帧可被进一步解析成多个像素块并且可通过变换编码、量化及熵编码而被编码。编码引擎143可协同控制器147来选择截断低能量变换系数的量化参数。可预测性地对经P编码和B编码的帧的像素块进行编码。在这种情况下,编码引擎可计算对存储在参考图片高速缓存145中的已解码的帧的像素块进行识别的运动矢量,所述像素块充当正被编码的像素块的预测,并且可在参与变换编码之前生成预测残差。在一个实施例中,视频编码器可根据由ITU H.263、H.264等定义的编码协议来进行操作。
编码引擎143还可指定某些已编码帧可用作用于对稍后接收到的输入帧进行编码的参考帧。解码器144可对参考帧的已编码视频数据进行解码,并将从中复原的视频数据存储在参考图片高速缓存145中。这样,视频编码器140具有如将在视频解码器150处被解码的参考帧的已解码副本。
如所指出的,对象检测器146可检测源视频帧中预先确定类型的对象的存在。通常,对象检测器146可输出表示源视频帧内所检测对象的像素坐标的数据。控制器147可将所检测对象的坐标与源帧的像素块相关联,并且可从中定义预定数量的编码区域。控制器147可为编码引擎143提供编码参数以供在对帧的像素块进行编码时使用。一般来讲,可将编码参数设置为提供对最接近一个或多个所检测对象的区域中的像素块的高质量编码并且提供对更远离所检测对象的像素块的相对较低质量编码。
发射器170可将已编码视频数据传输至信道131。这样,发射器170可将已编码视频数据与将要传输的其他数据诸如已编码音频数据和控制数据(由图1中未示出的处理源来提供)进行多路传输。发射器170可执行信道编码操作,诸如错误校正编码、交错、分组等,并且可调制数据并将数据传输至网络130。
视频解码器150可包括解码引擎152、参考图片高速缓存154、后处理器156和控制器158。解码引擎152可参考存储在参考图片高速缓存154中的参考图片来对经由信道131接收的已编码视频数据进行解码。解码引擎152可将已解码视频数据输出至后处理器156,该后处理器可对已解码视频数据执行附加操作以对其进行调节以用于显示。参考帧的已解码视频数据还可存储至参考图片高速缓存154以供在对随后接收的已编码视频数据进行解码期间使用。
解码引擎152可执行使由编码引擎143所执行的编码操作反转的解码操作。解码引擎152可执行熵解码、反量化及变换解码以生成复原的像素块数据。量化/反量化操作是有损耗的过程,因此复原的像素块数据可能将为视频编码器140所编码的源像素块的复制但将包括某些错误。对于预测性地编码的像素块而言,变换解码可生成残差数据;解码引擎152可使用与像素块相关联的运动矢量(其在一些情况下可以是暗指的)来从参考图片高速缓存154检索要与预测残差进行组合的预测的像素块。已解码像素块可重新组装成帧并输出至后处理器156。
在解码引擎152对新参考帧进行解码时,其可将已解码参考帧存储在参考图片高速缓存154中以用于对随后接收的已编码视频数据进行解码。
后处理器156可执行附加视频处理以调节复原的视频数据以用于呈现(通常在显示设备处)。典型的后处理操作可包括应用去块滤波器、边缘检测滤波器、振铃滤波器等。后处理器156可输出复原的视频序列以用于在显示器190上呈现,或者任选地存储至存储器以供稍后检索和显示。
图1(b)中所示的功能块仅支持在一个方向上的视频编码和解码。对于双向通信,终端120可包括用于对本地捕捉的视频进行视频编码的功能块(未示出),并且终端110可包括用于对经由网络130从终端120处接收的已编码视频数据进行解码的功能块(也未示出)。尽管据设想本发明的原理可在驻留于任一终端110,120处的编码器处应用,但图1省略了针对在终端120至终端110编码方向所提供的功能块仅是为了简化本论述。
图2示出了根据本发明的一个实施例的可由视频编码器处理的视频数据的示例性帧。图2示出了已被解析成像素块阵列的帧200。每个像素块可包含预定数量的像素,通常正方形像素阵列(例如,8×8像素或16×16像素)或矩形像素阵列(例如,4×8像素、4×16像素、16×8像素等)。因此,帧可包含像素块阵列。示例性N×M像素块阵列在图2中示出。
图2还示出了应用于帧200的示例性对象检测的操作。在该例子中,对象检测为脸部检测。脸部检测算法可识别图像数据内的脸部的存在,并生成对在帧200内检测到脸部的位置进行识别的一对坐标(X1,Y1)、(X2,Y2)。坐标可定义例如表示脸部的矩形的相对拐角。
图3示出了根据本发明的一个实施例的对视频数据的一个帧的像素块进行编码的方法300。方法300可使用表示所检测对象的位置的坐标数据来开始。方法300可识别对应于所检测对象的位置的帧的像素块(框310)。方法300可对所述对象位置内的像素的数据进行取样以确定对象的统计值(框320)。相关统计值可包括像素块内的颜色、亮度/明度、空间复杂度和像素值方差以及像素块之间的像素值的相对方差。然后,方法300可在邻近于所检测对象的像素块中搜索与在所检测对象的像素块内发现的那些统计值类似的统计值。对于每个相邻像素块,方法300可确定相邻像素块是否具有与对象的那些统计值类似的统计值;如果是,则方法可将相邻像素块添加至对象区域(框330-340)。对象可对邻近于所检测对象的所有像素块进行迭代,直至具有类似的统计值的所有相邻像素块均已添加至对象区域。
一旦定义了对象区域,方法300即可构建延伸远离对象区域达预先确定的距离的多个子区域(框350)。然后,方法300可根据运动补偿预测来对帧的像素块进行编码。可选择对象区域及每个子区域的编码参数,以强调对象区域内的高编码质量以及在与对象区域依次相距更大的距离时子区域中愈发较低水平的编码质量(框360)。
如上所述,可基于已包括在对象区域中的像素块的统计值与邻近于对象区域中的一个像素块的候选像素块的统计值之间的比较,来执行是否将像素块包括到对象区域中的决定(框330)。在一个实施例中,所述比较可涉及相似度阈值;如果候选像素块与对象区域的像素块的统计值之间的差值小于相似度阈值,则可准许候选像素块进入对象区域(框340)。迭代操作可使对象区域根据所观察的统计值在不同方向上扩展。在一些情形下,给定像素块可能未被准许进入对象区域但却可能被准许进入对象区域的像素块部分地或完全地围绕。在一个实施例中,方法300可修正邻近于对象区域的多个像素块的或者,作为另外一种选择,被对象区域的像素块完全地围绕的像素块的相似度阈值。在此类情形下,可降低阈值。在实际应用中,当像素块在所有侧面上均被属于所检测对象的像素块所围绕时,该像素块的图像内容往往也属于该对象。降低此类像素块的相似度阈值可有利于准许被围绕的像素块进入对象区域,尤其是在被围绕的像素块的统计值通常与对象区域的那些统计值一致而不是如此接近以至于在默认相似度阈值下通过时。
图4示出了图3的方法对于图2的示例性帧的应用。在图4(a)中,将区域410中所示的像素块分配至对象区域,因为那些像素块覆盖了通过图3的框310中的对象识别所输出的矩形。然后,在方法300搜索具有与区域410内的像素块类似的统计值的相邻像素块时,方法300可包括区域420中的那些像素块。出于编码目的,区域420可被视为对象区域。
一旦识别了对象区域,则该方法便可定义其他区域430-470以用于围绕对象区域。在图4(a)的例子中,可定义每个连续区域以包括在任何方向上均邻近于先前区域的像素块。因此,区域430包括在任何方向上均邻近于区域420的所有像素块,并且区域440包括邻近于区域430的所有像素块。该过程可继续,直至帧的所有像素块均被分配至区域。在该例子中,每个区域有效地表示围绕之前区域的“晕圈”。
在已将像素块分配至区域之后,方法300(图3)可将编码参数调整分配至区域。在图4所示的实施例中,可将量化参数调整(Qp)应用于每个区域中的像素块。如所讨论,量化参数截断在像素块编码期间获得的变换系数,并且对于低能量系数,可完全将其删除。量化可引起数据损失,因为在解码器处的反量化期间,被截断的数据不会被完全复原。因此,在解码器处获得的复原的视频可能是源视频的复制但却可能由于编码而具有明显的图像伪影。
根据本发明的一个实施例,可将量化参数调整分配至帧的各个区域以在对象区域处提供较低的量化参数并且在远离对象区域的区域处提供愈发高的量化参数。图4(b)示出了可分配至图4(a)的第5行所示的像素块的示例性量化参数调整。如图4(b)所示,量化参数调整可从对应于区域470的像素块位置处的最大值通过区域460-430的中间值变化至对应于区域420的像素块位置处的最小值。尽管图4(b)示出了量化参数调整的均匀步长大小,但图4(c)示出了量化参数调整以不均匀方式变化的另一个实施例。
本发明的实施例适应以定义编码区域的方式而变化。图5示出了仅定义两个子区域530,540以围绕对象区域520的实施例。在该实施例中,第一子区域530围绕对象区域520,并且帧的所有其他像素块被分配至背景区域540。该例子中的子区域530在每个方向上从区域520延伸两个像素块的距离。可针对对象区域520将量化参数调整设置为最低水平,针对子区域530将量化参数调整设置为中间水平,并且针对背景子区域540将量化参数调整设置为最高水平。
在图6的实施例中,由每个子区域消耗的区域可变化。例如,子区域630在每个方向上从对象区域620延伸单个像素块的距离,但子区域640在每个方向上从子区域630延伸两个像素块的距离。
图3的方法在诸如视频编码系统等的许多实时编码环境中是有效的以准确地估计所需对象的位置。在许多此类应用中,对象检测器146(图1)的输出与正由编码引擎143编码的帧之间存在延迟。换句话讲,编码引擎143可能正使用来自帧X-Off的位置数据对帧X进行编码。图3的方法可通过对由对象检测器146所识别的对象矩形的位置进行微调而减少以其他方式出现的可见伪影。如果用高质量对脸部的部分进行编码,而用低质量对相同脸部的其他部分进行编码,则在脸部检测系统的情境下此类伪影将是尤其麻烦的。
在本发明的其他实施例中,预处理操作可在帧的不同空间区域上根据这些区域与所检测对象的距离而变化。例如,预处理器142(图1)可向帧应用模糊滤波器以降低远离屏幕的区域处的锐度。在该实施例中,预处理器142可使模糊滤波器的强度基于与所检测对象的距离而变化。这样做可降低帧的背景元素(在所检测对象的区域内不存在那些元素)的质量,但却可提高压缩效率,因为背景元素的较高频率分量将可能得以降低。
在另一个实施例中,预处理器142可使模糊滤波器的强度基于帧的所估计的运动而变化。可由预处理器142根据视频序列的分析来估计运动,或者可根据在终端110内提供的运动传感器(未示出)来估计运动。模糊滤波器的强度可随着所估计运动增加而增加。
图7示出了根据本发明的另一个实施例的视频编码器700。这里,视频编码器被示出为包括帧缓冲器710、像素块编码器720、解码器730、参考图片高速缓存740、对象检测器750及控制器760。帧缓冲器710可存储源视频的帧并可将从其得到的像素块提供至像素块编码器720。像素块编码器720可根据下文所讨论的运动补偿编码技术来对像素块进行编码。从像素块编码器720输出的已编码像素块数据可存储在输出缓冲器(未示出)中,直至所述已编码像素块数据已准备好被传输。解码器730可对参考帧的已编码视频数据进行解码,并将由此复原的视频数据存储在参考图片高速缓存740中。对象检测器750和控制器760可协作以识别视频的每个帧内的对象并从其定义子区域和一个或多个对象区域。
如所指出的,像素块编码器720可根据运动补偿预测技术来对像素块进行编码,其中可在帧内基础(I块)或帧间基础(P或B块)上对输入像素块进行编码。此外,可将给定像素块作为SKIP块进行编码,其中像素块的内容根本不编码而是从一些先前已编码/已解码帧的协同定位的像素块中复制。
像素块编码器720可包括减法器721、变换单元722、量化器723、熵编码器724、运动估计器725和控制器726。在给出输入像素块的情况下,运动估计器725可在已高速缓存的参考图片帧中对用作该输入像素块的预测参考的像素块执行搜索。如果发现一个或多个适当的匹配,则像素块编码器720可将源像素块编码为P或B块。如果未发现适当的匹配,则像素块编码器720可将源像素块编码为I块。在适当的情形下,像素块编码器720还可在SKIP模式中对像素块进行编码。一旦选择了编码模式,运动估计器725(或者,在适当的情形下,控制器726)即可生成表示应用于源像素块的编码模式的元数据。在许多情况下,对于经帧间编码的块,运动估计器725可生成对所选择的参考像素块进行识别的运动矢量。
为预测性地对输入像素块进行编码,参考图片高速缓存740可将已预测的像素块数据输出至减法器721。减法器721可生成表示源像素块与已预测像素块之间的差值的数据。减法器721可在逐个像素的基础上操作,在像素块上的每个像素位置处产生残差。如果要非预测性地对给定像素块进行编码,则不会将已预测像素块提供至减法器721;减法器721可输出与源像素数据相同的像素残差。
变换单元722可将由减法器721输出的像素块数据变换成变换系数阵列,诸如通过离散余弦变换(DCT)过程或小波变换。通常,从其生成的变换系数的数量将与提供至变换单元722的像素的数量相同。因此,可将8×8、8×16或16×16块的像素数据变换为8×8、8×16或16×16块的系数数据。量化器单元723可通过量化参数Qp来量化(除以)块的每个变换系数。熵编码器724可通过游程值编码、游程长度编码等来对已量化的系数数据进行编码。来自熵编码器724的数据可作为像素块的已编码视频数据输出至信道。
像素块编码器的控制器726可根据表示预期编码质量、已编码视频数据的预期比特率以及针对编码错误的稳健性之间的平衡的编码策略来选择像素块的编码模式。因此,即使在针对给定源像素块可发现适当的预测匹配时,控制器726也可施加将像素块编码为I块的模式选择。尽管I块通常消耗比P或B块较高的比特率,但I块可降低传输错误等。类似地,控制器726可为像素块选择量化参数以满足比特率目标。
根据本发明的一个实施例,控制器760可将编码参数调整提供至像素块编码器的控制器726,这可影响对给定源像素块的编码参数的选择。因此,在像素块编码器720正在属于对象区域(如图4(a)的区域420)的像素块上操作时,控制器760可使像素块编码器720针对帧使用相对低的量化参数,并且在像素块编码器720正在属于子区域(图4(a)的区域430-470)的像素块上操作时,控制器760可使像素块编码器720使用适用于那些区域的量化参数。
在另一个实施例中,控制器760可将编码模式施加到子区域中的某些子区域上。使用图5作为例子,控制器760可使像素块编码器720在SKIP模式中对区域540的像素块进行编码,并将量化参数调整分别施加至区域520(最低Qp)和530(较高Qp)。
在另一个实施例,还可基于所检测对象的其他已观察特征来选择编码参数。例如,在使用脸部检测时,脸部检测器可检测脸部是否展现特定特征(例如,脸部是在眨眼还是在微笑、脸部转动了多少、以屏幕的百分比计的脸部尺寸)。编码器可基于这些特征来选择编码参数。以举例的方式,已转动的脸部与直视前方的脸部相比可能分配有较低优先级,并且因此分配有相对较低质量编码参数。另外,对象检测器可指示在视频序列中识别的多个对象(例如,多个脸部)。例如,在仅具有两个脸部的场景中,编码器可为脸部分配比在具有五十个脸部的场景中的脸部较高的优先级。另外,较高优先级分配可引起对生成相对较高质量编码的编码参数的选择。
在其他实施例中,可为对象的特定子区域分配不同的质量编码水平。例如,所检测脸部的眼和嘴可由脸部检测器来检测并且相比脸部的其他所检测的元素被给予较高编码优先级。在该实施例中,系统可生成一对对象区域——对应于所检测对象的高优先级元素的第一对象区域(例如,由眼和嘴占据的区域)以及对应于所检测对象的其他元素的第二对象区域(例如,脸部的其余部分),以及占据帧的其余部分的子区域。
前述讨论已在编码器和解码器的情境下描述了本发明的实施例的操作。通常,视频编码器作为电子设备而提供。它们可嵌入到集成电路,诸如专用集成电路、现场可编程门阵列和/或数字信号处理器中。或者,它们可嵌入到在个人计算机、笔记本或平板电脑或计算机服务器上执行的计算机程序中。类似地,解码器可嵌入到集成电路,诸如专用集成电路、现场可编程门阵列和/或数字信号处理器中,或者它们可嵌入到在个人计算机、笔记本电脑或计算机服务器上执行的计算机程序中。解码器通常封装在消费电子设备诸如游戏系统、智能电话、DVD播放器、便携式媒体播放器等中,并且它们还可封装在消费软件应用诸如视频游戏、基于浏览器的媒体播放器等中。
本文具体示出和/或描述了本发明的若干实施例。然而,应当理解的是,在不脱离本发明的实质和预期范围的情况下,本发明的修改和变型由上述教导内容涵盖并且在所附权利要求的范围内。

Claims (31)

1.一种视频编码方法,包括:
将要被编码的帧解析成多个像素块,
对所述帧执行对象检测,
在检测到对象时,产生所述对象所在的所述帧的区域的统计值,
将邻近于所述对象位置的像素与所述对象统计值进行比较,
定义对象区域以包括对应于所述对象位置的像素块以及对应于由所述比较所识别的相邻像素的像素块,以及
根据基于块的压缩算法来对所述视频帧进行编码,其中所述对象区域的像素块根据生成相对高质量编码的编码参数而被编码,并且所述对象区域外的像素块根据生成相对较低质量编码的编码参数而被编码。
2.根据权利要求1所述的方法,其中所述编码参数包括量化参数,并且所述对象区域像素块的所述量化参数通常低于所述非对象区域像素块的所述量化参数。
3.根据权利要求1所述的方法,其中所述编码参数包括编码模式选择,并且非对象区域像素块的编码模式选择被设置为SKIP。
4.根据权利要求1所述的方法,还包括在编码之前向所述对象位置外的空间区域中的像素应用模糊滤波器。
5.根据权利要求1所述的方法,还包括:
定义所述帧的多个子区域,
根据所述像素块距所述对象区域的距离将所述对象区域外的所述像素块分配至相应子区域,以及
根据它们的相应子区域来调整所述像素块的所述编码参数。
6.根据权利要求5所述的方法,其中所述调整为量化参数调整。
7.根据权利要求5所述的方法,其中所述子区域在所述对象区域周围形成像素块的晕圈。
8.根据权利要求1所述的方法,其中所述对象检测为脸部检测。
9.一种视频编码方法,包括:
将要被编码的帧解析成多个像素块,
对所述帧执行对象检测,
在检测到对象时,产生所述对象所在的所述帧的区域的统计值,
将邻近于所述对象位置的像素与所述对象统计值进行比较,
定义对象区域以包括对应于所述对象位置的像素块以及对应于由所述比较所识别的相邻像素的像素块,以及
根据基于块的压缩算法来对所述视频帧进行编码,其中所述对象区域的像素块根据相对较低的量化参数而被编码,并且所述对象区域外的像素块根据通常较高的量化参数而被编码。
10.根据权利要求9所述的方法,还包括:
定义所述帧的多个子区域,
根据所述像素块距所述对象区域的距离将所述对象区域外的所述像素块分配至相应子区域,以及
根据它们的相应子区域来调整所述像素块的所述编码参数。
11.根据权利要求10所述的方法,其中所述像素块调整基于每个子区域距所述对象区域的距离而线性地变化。
12.根据权利要求10所述的方法,其中所述像素块调整基于每个子区域距所述对象区域的距离而不均匀地变化。
13.根据权利要求10所述的方法,其中所述子区域在所述对象区域周围形成像素块的晕圈。
14.根据权利要求9所述的方法,其中根据每个像素块距所述对象区域的距离来调整所述像素块的量化参数。
15.根据权利要求9所述的方法,还包括在编码之前向所述对象位置外的空间区域中的像素应用模糊滤波器。
16.根据权利要求9所述的方法,其中所述对象检测为脸部检测。
17.一种视频编码方法,包括:
对要被编码的视频帧执行脸部检测,
在检测到脸部时,沿着由所述脸部检测所识别的脸部矩形的边界来对像素的内容进行取样,
将所取样的像素的内容与所述脸部矩形内的像素的内容进行比较,
将所述比较所确定的非脸部的一部分的像素内容滤除,以及
根据采用量化参数的基于块的压缩算法来对所述视频帧进行编码,所述量化参数对于所述脸部矩形内的块比对于所述脸部矩形外的块具有更低的值。
18.根据权利要求17所述的方法,还包括:
定义所述脸部矩形周围的所述帧的多个子区域,
根据所述像素块距所述脸部矩形的距离将所述脸部矩形外的所述像素块分配至相应子区域,以及
根据它们的相应子区域来调整所述像素块的所述编码参数。
19.根据权利要求18所述的方法,其中所述子区域在所述脸部矩形周围形成像素块的晕圈。
20.编码装置,包括:
编码引擎,所述编码引擎根据应用于所述帧的像素块的预测编码技术来对视频序列的帧进行编码,
对象检测器,所述对象检测器识别所述视频序列的帧内的对象的位置,
控制器,所述控制器用于定义所述帧内的编码区域,所述编码区域包括对象区域以及多个子区域,所述控制器调整由所述编码引擎所应用的编码参数,从而根据所述子区域距所述对象区域的距离来为所述对象区域中的像素块提供相对高质量的编码,并且为每个子区域中的所述像素块提供逐渐降低质量的编码。
21.根据权利要求20所述的装置,还包括模糊滤波器,所述模糊滤波器在被所述编码引擎编码之前向所述视频序列应用预处理,所述模糊滤波器用于向对应于所述子区域的帧数据来应用模糊。
22.根据权利要求21所述的装置,其中所述模糊滤波器针对与所述对象区域相距更大距离的像素来应用渐增水平的模糊,并且针对与所述对象区域相距更小距离的像素来应用较低水平的模糊。
23.根据权利要求21所述的装置,还包括运动估计器,
其中所述模糊滤波器针对具有较高运动水平的帧的所述对象区域外的像素来应用渐增水平的模糊,并且针对具有较低运动水平的帧的所述对象区域外的像素来应用较低水平的模糊。
24.根据权利要求20所述的装置,其中所述对象检测器为脸部检测器。
25.根据权利要求20所述的装置,其中所述控制器将量化参数调整提供至所述编码引擎,包括将较高量化参数调整提供至所述子区域的像素块。
26.根据权利要求20所述的装置,其中所述控制器将编码模式选择提供至所述编码引擎,包括提供SKIP模式分配以选择所述子区域的像素块。
27.存储程序指令的计算机可读介质,所述程序指令在被处理器执行时使所述处理器:
将要被编码的帧解析成多个像素块,
对所述帧执行对象检测,
在检测到对象时,产生所述对象所在的所述帧的区域的统计值,
将邻近于所述对象位置的像素与所述对象统计值进行比较,
定义对象区域以包括对应于所述对象位置的像素块以及对应于由所述比较所识别的相邻像素的像素块,以及
根据基于块的压缩算法来对所述视频帧进行编码,其中所述对象区域的像素块根据生成相对高质量编码的编码参数而被编码,并且所述对象区域外的像素块根据生成相对较低质量编码的编码参数而被编码。
28.根据权利要求27所述的介质,其中所述编码参数包括量化参数,并且所述对象区域像素块的所述量化参数通常低于所述非对象区域像素块的所述量化参数。
29.根据权利要求27所述的介质,其中所述编码参数包括编码模式选择,并且非对象区域像素块的编码模式选择被设置为SKIP。
30.根据权利要求27所述的介质,其中所述指令还使所述处理器在编码之前向所述对象位置外的空间区域中的像素应用模糊滤波器。
31.存储由编码器生成的已编码的视频数据的物理计算机可读存储介质,所述物理计算机可读存储介质:
将要被编码的帧解析成多个像素块,
对所述帧执行对象检测,
在检测到对象时,产生所述对象所在的所述帧的区域的统计值,
将邻近于所述对象位置的像素与所述对象统计值进行比较,
定义对象区域以包括对应于所述对象位置的像素块以及对应于由所述比较所识别的相邻像素的像素块,以及
根据基于块的压缩算法来对所述视频帧进行编码,其中所述对象区域的像素块根据生成相对高质量编码的编码参数而被编码,并且所述对象区域外的像素块根据生成相对较低质量编码的编码参数而被编码。
CN201380011624.7A 2012-01-26 2013-01-25 经对象检测所通知的编码 Pending CN104160703A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/359,377 2012-01-26
US13/359,377 US10205953B2 (en) 2012-01-26 2012-01-26 Object detection informed encoding
PCT/US2013/023118 WO2013112814A1 (en) 2012-01-26 2013-01-25 Object detection informed encoding

Publications (1)

Publication Number Publication Date
CN104160703A true CN104160703A (zh) 2014-11-19

Family

ID=47664457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380011624.7A Pending CN104160703A (zh) 2012-01-26 2013-01-25 经对象检测所通知的编码

Country Status (8)

Country Link
US (1) US10205953B2 (zh)
EP (1) EP2807822A1 (zh)
JP (1) JP2015508954A (zh)
KR (1) KR20140110008A (zh)
CN (1) CN104160703A (zh)
AU (1) AU2013212013A1 (zh)
TW (1) TW201347549A (zh)
WO (1) WO2013112814A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018006825A1 (zh) * 2016-07-08 2018-01-11 腾讯科技(深圳)有限公司 视频编码方法和装置
CN107872677A (zh) * 2016-09-26 2018-04-03 韩华泰科株式会社 用于处理图像的设备和方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9094681B1 (en) * 2012-02-28 2015-07-28 Google Inc. Adaptive segmentation
US20160112707A1 (en) * 2014-10-15 2016-04-21 Intel Corporation Policy-based image encoding
KR101886485B1 (ko) 2015-12-30 2018-08-07 이화여자대학교 산학협력단 객체를 포함하는 영상에 대한 인코딩 방법 및 객체 정보를 포함하는 영상 데이터에 대한 디코딩 방법
WO2017138761A1 (ko) * 2016-02-11 2017-08-17 삼성전자 주식회사 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
JP6784032B2 (ja) * 2016-02-22 2020-11-11 沖電気工業株式会社 符号化装置、符号化方法、プログラム、及び画像処理システム
JP2017188739A (ja) * 2016-04-04 2017-10-12 株式会社Ihiエアロスペース 画像取得圧縮送信方法、移動体の遠隔操縦方法、画像取得圧縮送信装置、及び移動体の遠隔操縦システム
JP6694902B2 (ja) * 2018-02-28 2020-05-20 株式会社日立国際電気 映像符号化装置及び映像符号化方法
US10893281B2 (en) * 2018-10-12 2021-01-12 International Business Machines Corporation Compression of a video stream having frames with relatively heightened quality parameters on blocks on an identified point of interest (PoI)
CN110267041B (zh) * 2019-06-28 2021-11-09 Oppo广东移动通信有限公司 图像编码方法、装置、电子设备和计算机可读存储介质
CN113011210B (zh) * 2019-12-19 2022-09-16 北京百度网讯科技有限公司 视频处理方法和装置
US11653047B2 (en) * 2021-07-29 2023-05-16 International Business Machines Corporation Context based adaptive resolution modulation countering network latency fluctuation
KR20230069817A (ko) 2021-11-12 2023-05-19 한국전자통신연구원 가변 양자화 파라미터 기반의 영상 부호화 및 복호화 방법 및 장치
WO2023190053A1 (ja) * 2022-03-31 2023-10-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法
WO2023223901A1 (ja) * 2022-05-17 2023-11-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211411A (zh) * 2007-12-21 2008-07-02 北京中星微电子有限公司 一种人体检测的方法和装置
CN101316366A (zh) * 2008-07-21 2008-12-03 北京中星微电子有限公司 图像编/解码方法和图像编/解码装置
JP2009005238A (ja) * 2007-06-25 2009-01-08 Sony Computer Entertainment Inc 符号化処理装置および符号化処理方法
US20090010328A1 (en) * 2007-07-02 2009-01-08 Feng Pan Pattern detection module, video encoding system and method for use therewith

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5852669A (en) 1994-04-06 1998-12-22 Lucent Technologies Inc. Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video
US6453069B1 (en) * 1996-11-20 2002-09-17 Canon Kabushiki Kaisha Method of extracting image from input image using reference image
US6173069B1 (en) 1998-01-09 2001-01-09 Sharp Laboratories Of America, Inc. Method for adapting quantization in video coding using face detection and visual eccentricity weighting
JP2000172852A (ja) 1998-09-28 2000-06-23 Canon Inc 画像処理方法、装置および記録媒体
US7031517B1 (en) * 1998-10-02 2006-04-18 Canon Kabushiki Kaisha Method and apparatus for segmenting images
US6795577B2 (en) * 1999-12-03 2004-09-21 Canon Research Centre France S.A. Digital signal analysis, with hierarchical segmentation
JP2002300581A (ja) 2001-03-29 2002-10-11 Matsushita Electric Ind Co Ltd 映像符号化装置、及び映像符号化プログラム
US6987889B1 (en) 2001-08-10 2006-01-17 Polycom, Inc. System and method for dynamic perceptual coding of macroblocks in a video frame
US7397937B2 (en) * 2001-11-23 2008-07-08 R2 Technology, Inc. Region growing in anatomical images
DE10300048B4 (de) 2002-01-05 2005-05-12 Samsung Electronics Co., Ltd., Suwon Verfahren und Vorrichtung zur Bildcodierung und -decodierung
US20040130546A1 (en) * 2003-01-06 2004-07-08 Porikli Fatih M. Region growing with adaptive thresholds and distance function parameters
US7620218B2 (en) * 2006-08-11 2009-11-17 Fotonation Ireland Limited Real-time face tracking with reference images
US7269292B2 (en) 2003-06-26 2007-09-11 Fotonation Vision Limited Digital image adjustable compression and resolution using face detection information
JP3955953B2 (ja) * 2003-09-12 2007-08-08 国立大学法人広島大学 画像分割処理装置、画像分割処理方法及び画像分割処理集積化回路
US7310435B2 (en) * 2003-11-25 2007-12-18 General Electric Company Method and apparatus for extracting multi-dimensional structures using dynamic constraints
US9667980B2 (en) 2005-03-01 2017-05-30 Qualcomm Incorporated Content-adaptive background skipping for region-of-interest video coding
WO2006107280A1 (en) * 2005-04-08 2006-10-12 Agency For Science, Technology And Research Method for encoding a picture, computer program product and encoder
US7643659B2 (en) * 2005-12-31 2010-01-05 Arcsoft, Inc. Facial feature detection on mobile devices
US7995649B2 (en) * 2006-04-07 2011-08-09 Microsoft Corporation Quantization adjustment based on texture level
US8315466B2 (en) * 2006-12-22 2012-11-20 Qualcomm Incorporated Decoder-side region of interest video processing
JP2008199521A (ja) 2007-02-15 2008-08-28 Canon Inc 画像処理装置およびその方法
US7873214B2 (en) * 2007-04-30 2011-01-18 Hewlett-Packard Development Company, L.P. Unsupervised color image segmentation by dynamic color gradient thresholding
JP5109697B2 (ja) * 2008-02-07 2012-12-26 ソニー株式会社 画像送信装置、画像受信装置、画像送受信システム、画像送信プログラムおよび画像受信プログラム
TWI420401B (zh) * 2008-06-11 2013-12-21 Vatics Inc 一種回授式物件偵測演算法
KR20100002632A (ko) 2008-06-30 2010-01-07 에스케이 텔레콤주식회사 영상 인코딩/디코딩 방법 및 그 장치 및 영상 서비스시스템
US8385688B2 (en) * 2008-08-27 2013-02-26 International Business Machines Corporation System and method for automatic recognition and labeling of anatomical structures and vessels in medical imaging scans
DE102008056600A1 (de) * 2008-11-10 2010-05-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Erkennen von Objekten
WO2010057170A1 (en) 2008-11-17 2010-05-20 Cernium Corporation Analytics-modulated coding of surveillance video
KR20100095833A (ko) 2009-02-23 2010-09-01 주식회사 몬도시스템즈 Roi 의존형 압축 파라미터를 이용하여 영상을 압축하는 장치 및 방법
US8787662B2 (en) * 2010-11-10 2014-07-22 Tandent Vision Science, Inc. Method and system for identifying tokens in an image
US8655102B2 (en) * 2011-06-10 2014-02-18 Tandent Vision Science, Inc. Method and system for identifying tokens in an image
JP6253331B2 (ja) * 2012-10-25 2017-12-27 キヤノン株式会社 画像処理装置及び画像処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009005238A (ja) * 2007-06-25 2009-01-08 Sony Computer Entertainment Inc 符号化処理装置および符号化処理方法
US20090010328A1 (en) * 2007-07-02 2009-01-08 Feng Pan Pattern detection module, video encoding system and method for use therewith
CN101211411A (zh) * 2007-12-21 2008-07-02 北京中星微电子有限公司 一种人体检测的方法和装置
CN101316366A (zh) * 2008-07-21 2008-12-03 北京中星微电子有限公司 图像编/解码方法和图像编/解码装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
F.MOSCHETTI: "Automatic object extraction and dynamic bitrate allocation for second generation video coding", 《IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018006825A1 (zh) * 2016-07-08 2018-01-11 腾讯科技(深圳)有限公司 视频编码方法和装置
CN107872677A (zh) * 2016-09-26 2018-04-03 韩华泰科株式会社 用于处理图像的设备和方法
CN107872677B (zh) * 2016-09-26 2023-08-18 韩华视觉株式会社 用于处理图像的设备和方法

Also Published As

Publication number Publication date
AU2013212013A1 (en) 2014-08-07
US20130195178A1 (en) 2013-08-01
US10205953B2 (en) 2019-02-12
EP2807822A1 (en) 2014-12-03
WO2013112814A1 (en) 2013-08-01
TW201347549A (zh) 2013-11-16
JP2015508954A (ja) 2015-03-23
KR20140110008A (ko) 2014-09-16

Similar Documents

Publication Publication Date Title
CN104160703A (zh) 经对象检测所通知的编码
US10586312B2 (en) Method for image processing and video compression with sparse zone salient features
CN108780499B (zh) 基于量化参数的视频处理的系统和方法
Liu et al. Neural video coding using multiscale motion compensation and spatiotemporal context model
CN105681795B (zh) 用于对帧序列进行视频编码的方法和编码器
Zhang et al. An efficient coding scheme for surveillance videos captured by stationary cameras
CN107071440B (zh) 使用先前帧残差的运动矢量预测
TW201004357A (en) Rate-distortion quantization for context-adaptive variable length coding (CAVLC)
JP2013537380A (ja) ビデオ圧縮のための動き補償学習型超解像を用いてビデオ信号を符号化する方法と装置
CN109819260B (zh) 基于多嵌入域融合的视频隐写方法和装置
US10812832B2 (en) Efficient still image coding with video compression techniques
CN116916036A (zh) 视频压缩方法、装置及系统
CN113489976A (zh) 预测编码方法、装置和电子设备
US9210424B1 (en) Adaptive prediction block size in video coding
Paul Efficient video coding using optimal compression plane and background modelling
JP2014514808A (ja) 画像ブロックを再構成および符号化する方法
Wood Task Oriented Video Coding: A Survey
US20220245449A1 (en) Method for training a single non-symmetric decoder for learning-based codecs
Jinzenji et al. MPEG-4 Very Low Bit-rate Video Compression Using Sprite Coding.
Ko et al. An energy-efficient wireless video sensor node with a region-of-interest based multi-parameter rate controller for moving object surveillance
KR101247024B1 (ko) 루프 내 전처리 필터링을 이용한 움직임 추정 및 보상 방법
US20240137502A1 (en) Systems and methods for encoding and decoding video with memory-efficient prediction mode selection
Xu et al. State-of-the-art video coding approaches: A survey
US20240244229A1 (en) Systems and methods for predictive coding
WO2024082971A1 (zh) 一种视频处理方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141119