CN1315115A - 数字视频的运动估值 - Google Patents

数字视频的运动估值 Download PDF

Info

Publication number
CN1315115A
CN1315115A CN00801164A CN00801164A CN1315115A CN 1315115 A CN1315115 A CN 1315115A CN 00801164 A CN00801164 A CN 00801164A CN 00801164 A CN00801164 A CN 00801164A CN 1315115 A CN1315115 A CN 1315115A
Authority
CN
China
Prior art keywords
pixels
measure
error
field
macro block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00801164A
Other languages
English (en)
Other versions
CN1197385C (zh
Inventor
M·巴赫穆茨基
K·维蒂希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=23171500&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN1315115(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1315115A publication Critical patent/CN1315115A/zh
Application granted granted Critical
Publication of CN1197385C publication Critical patent/CN1197385C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/112Selection of coding mode or of prediction mode according to a given display mode, e.g. for interlaced or progressive display mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Abstract

一种对诸如MPEG-2数字视频数据流之类的一个未压缩数字视频数据流进行运动编码的方法。本方法包括步骤:将一幅当前被编码图像中一个第一像素阵列的诸像素与至少一个参考图像中多个第二像素阵列的诸像素进行比较,并就多种不同的预测模式之每一种同时进行运动估值,以便确定出哪一种预测模式是一种最佳预测模式,确定出在最佳预测模式下诸第二像素阵列中的哪一个阵列形成一个最好的匹配,并根据该确定步骤对于该第一像素阵列产生出一个运动矢量。本方法可在一个装置中实施,诸如在一种数字视频编码器内的一个运动估值搜索系统中实施。一个实施例中,本方法和装置能够对MPEG-2标准中规定的六种不同可能之预测模式的每一种同时确定出所实施的运动估值结果。

Description

数字视频的运动估值
本发明一般地涉及数字视频压缩,更具体地,涉及用于数字视频编码器的一种运动估值方法和搜索引擎。
过去,对于视频和音频信息的数字编码(此后总称为“数字视频数据流”)已经开发出许多不同的压缩算法,以使在一种给定的图像质量下传输此种数字视频数据流所需的带宽最小。数个多媒体技术规范委员会对于音频和视频信息的编码/压缩和解码/去压缩已经建立和提出了一些标准。运动图像专家组(MPEG)已经提出了最广泛地被接受的一些国际标准,它们总体上称作MPEG-1和MPEG-2标准。正式地,MPEG-1标准规定在ISO/IEC 11172-2标准的技术规范文件中,MPEG-2标准规定在ISO/IEC 13818-2标准的技术规范文件中。这类用于运动图像压缩的MPEG标准应用于当前多种多样的视频重放产品中,包括数字通用(或数字视频)光盘(DVD)播放机、带有DVD重放能力的多媒体PC、卫星广播数字视频以及通过地面和有线电视网的数字HDTV传输等。
一般地,按照MPEG标准,包含有一种多媒体数据流(或称“比特流”)的音频和视频数据应用一种通常称为“运动编码”的压缩技术在智能工作状态下进行编码/压缩。一般地,针对于应用差分或“残余”值视频(也即所谓的“运动矢量”)而在称为参考图像或“标定”图像内先前传输的图像元素或“像素”,可规范出一幅图像中的图像元素或“像素”,由此可确定出当前图像内16×16像素阵列或即“宏块”之位置相对于标定图像内其原来的位置。MPEG中规定了三种主要的视频帧或视频图像类型,即I型、P型和B型图像。
I型图像只应用该图像内包含的信息进行编码,因此,称之为“帧内编码”图像或者简称为“帧内”图像。
P型图像根据来自一幅过去的参考(或称“标定”)图像(或为I型、或为P型)之信息应用运动补偿预测(或称“运动估值”)进行编码/压缩,因此,称之为“预测”图像。
B型图像根据来自或是一幅过去的或是一幅将来的参考图像(或为I型、或为P型)、或者来自过去和将来两者的参考图像之信息,应用运动补偿预测(或称“运动估值”)进行编码/压缩,因此,称之为“双向”图像。B型图像通常插入于I型或P型图像之间,或者是它们之一的各种组合。
术语“帧内图像”在这里应用来指I型图像,术语“非帧内图像”在这里应用来兼指P型和B型图像。应当说明,虽然由一个MPEG特流表示的视频数据之帧频是恒定的。但表示的每帧图像所需的数据量可以不同,例如,一帧视频数据(例如其重放时间为1/30秒)可以由已编码数据x字节表示,而另一帧视频数据可以只由已编码数据x字节的一个分数(例如是5%)表示。因此,在重放期间图像帧的更新频率是恒定的,而数据率是可变的。
一般地,MPEG视频数据流的编码需要多个步骤。这些步骤中的第一步是将每幅图像划分成由诸多宏块组成。然后,在理论上,将MPEG视频数据流中每幅“非帧内”图像内的每个宏块与所有可能的16×16像素阵列进行比较,这些像素阵列位于对标定图像中当前宏块之对应位置所规定的垂直和水平搜索范围内。MPEG图像和宏块结构概略地表示在图1中。
对于一种给定的预测模式,由上述的搜索或“运动估值”程序可得出一个运动矢量,它对应于在规定的搜索范围内标定图像中(按照一种规定的匹配准则时)最密切地匹配之宏块的位置。在确定预测模式和运动矢量之后,将最密切宏块的诸像素值从相应的当前宏块之像素值中减去,然后,将得到的16×16阵列的差分像素值变换成8×8的“像块”,再对每个像块实施离散余弦变换(DCT),将得出的每个DCT系数进行量化,并经过霍夫曼编码(象属于宏块的预测类型、运动矢量和其它信息那样)以产生出MPEG比特流。如果在标定图像中检测不到满足要求的匹配宏块,或者如果当前图像是一个帧内或即I型图像,则上面的程序只在当前宏块的实际像素(即不相对于任一其它图像中的像素求差值)上实施,并将该宏块命名为“帧内”宏块。
对于所有的MPEG-2预测模式,运动估值的基本技术由下列部分组成:将当前宏块与标定图像中一个给定的16×16像素阵列进行比较;按照规定的量度来估值匹配的质量;以及对位于搜索范围内的每个这样的16×16像素阵列重复此种程序。实现此种搜索的硬件和软件装置通常称为“搜索引擎”,并且对于确定匹配质量水平存在着多种周知的准则。其中最为熟知的准则是最小绝对误差(MAE),这里,匹配量度取决于宏块内256个像素值之每一个与匹配的标定图像宏块内相应像素值之差的绝对值总和;还有最小方差准则(MSE),这里,匹配量度取决于上面诸像素差值之平方的总和。任一种准则情况下,以具有最小值的相应总和之匹配选择作为在规定之搜索范围内的最佳匹配,从而其水平和垂直方向上相对于当前宏块的位置构成了运动矢量。如果所得到的最小值总和还是认为太大,则对于该当前宏块来说不存在合适的匹配宏块,它应作为帧内宏块进行编码。对于本发明的场合,上面的两种匹配准则或是任何其它合适的匹配准则,都是可以应用的。
按照MPEG-2标准,对于要编码的每个各别宏块可以应用多种所谓“预测模式”中的任一种。最佳预测模式同时取决于被编码图像的类型以及给定的被编码宏块所在之图像部分上的特性。当前已知的各种运动编码方法容许使用不同的预测模式,但在实施实际的运动估值之前对于一个给定的宏块通常先需要一种预测模式。尽管对于如此一种模式确定,根据图像或图形源特性上的先验知识往往能够作出,但在许多场合下不能得知最佳预测模式,除非对涉及的宏块实施一种以上的运动估值。对于运动估值通常涉及耗时的搜索程序,那时要比较两种相应宏块的全部256个像素值,并且对大量的宏块要重复此种比较,因而实施一种以上的运动估值是一种不现实的做法。
对于一个给定宏块的运动矢量之计算,典型地借助于一种耗时的搜索程序来实施。将述及的当前宏块与标定图像内一个相应宏块大小的像素阵列进行“比较”,该像素阵列的偏置量小于称为“搜索范围”的、规定的垂直和水平距离,并应用一种规范的准则或即“量度”对该宏块的此种特定“匹配”计算一个“误差”值,所规范的匹配准则给出了该误差为多大的计量值。在有关的搜索范围内对每种垂直和水平偏置量之组合实现这种做法,并以按照所选择之量度而产生出最小误差的偏置量作为当前宏块相对于标定图像的运动矢量。显然,这种程序在计算上是十分繁重的。
本发明的一个目的是提供出更为高效的编码。为此,本发明如独立的权利要求书中定义的那样提供出了用于运动编码的一种方法和装置。
按照本发明的第一方面,一个未压缩数字视频序列的运动编码这样地实施,即对于每个个别宏块的预测模式连同实际运动矢量是一起确定为运动估值来处理的,而不需要预先作出预测模式规定;对此只需知道当前被编码图像的类型。由于比之宏块层来说图像类型必须在视频编码的一个更高层级上作出确定,所以这种方法比之应用常规的运动估值方法可能做到的来说将能实现有效得多且优化得多的视频压缩程度。此外,本发明提供出一种新型方案用于在对给定之宏块的同一搜索操作期间,按照多种运动预测模式之每一种模式在合适的标定图像内同时地搜索最佳的匹配宏块,而不需要对每种预测模式在同一宏块上实施独立的搜索。由于此种搜索程序在运动估值上对时间和硬件两方面都有着独特地最综合和耗费的特性,所以本发明的这样一种方法在视频编码和压缩上比之当前可应用技术中的上述实际限制来说,显然可给出更高效率。
本发明可以与使用诸如MPEG之类视频压缩方案的任何数字视频传输或存储系统相结合地应用,而在MPEG视频压缩方案中有着多种预测模式的运动编码方法可供应用。
本发明提供一种方法,用于对诸如一个MPEG-2数字视频数据流之类的未压缩数据视频数据流进行运动编码,本方法包括有步骤:将当前被编码图像中一个第一像素阵列的诸像素与至少一个参考图像中多个第二像素阵列的诸像素进行比较,并对多种不同预测模式之每一种同时进行运动估值,以便确定出哪种预测模式为最佳预测模式;对于该最佳预测模式确定出哪个第二像素阵列相对于第一像素阵列构成了一个最好的匹配;以及根据上面的确定步骤对第一像素阵列产生出一个运动矢量。本方法可在诸如数字视频编码器内一个运动估值搜索系统之类的装置中实施。一个实施例中,本方法和装置能在MPEG-2标准所规定的六种不同可能性的预测模式中同时确定出运动估值的实施结果。
本发明又提供一种方法,用于对包含有顶场和底场之图像序列的数字视频数据流进行运动编码,本方法包括有步骤:将一幅当前图像之顶场内一个当前宏块(例如是16×16像素组成的宏块)中第一部分(例如是16×8像素组成的部分)的诸像素与按照一种指定的搜索量度在一个标定图像之顶场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第一误差量度;将该当前图像之顶场内该当前宏块中该第一部分(例如是16×8像素组成的部分)的诸像素与按照该指定的搜索量在该标定图像之底场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第二误差量度;将当前图像之底场内一个当前宏块(例如是16×16像素组成的宏块)中第二部分(例如是16×8像素组成的部分)的诸像素与按照指定的搜索量度在该标定图像之顶场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第三误差量度;将当前图像之该底场内该当前宏块中该第二部分(例如是16×8像素组成的部分)的诸像素与按照指定的搜索量度在该标定图像之底场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第四误差量度;使第一和第四误差量度相加以产生出一个第一复合误差量度;使第二和第三误差量度相加以产生出一个第二复合误差量度;以及确定出第一、第二、第三和第四误差量度与第一和第二复合误差量度共六个中哪个具有最小值,并在此种判定的基础上从多种可能的运动估值预测模式中选择出一种。可取且有利地,所有比较步骤是同时实施的,两个相加步骤也是同时实施的。多种可能的运动估值预测模式中可包括有按照MPEG-2标准下对各个帧图像的帧预测模式和场预测模式。
本发明又提供一种方法,用于对包含一个图像序列的数字视频数据流进行运动编码,这里,本方法包括有步骤:将一幅当前图像内一个当前宏块(例如是16×16像素组成的宏块)中顶部一半的一个第一部分(例如是16×8像素组成的部分)的诸像素与按照一种指定的搜索量度在一个标定图像之顶场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第一误差量度;将该当前图像内该当前宏块中顶部一半的该第一部分(例如是16×8像素组成的部分)的诸像素与按照该指定的搜索量度在该标定图像之底场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第二误差量度;将该当前图像内一个当前宏块(例如是16×16像素组成的宏块)中一个底部一半的一个第二部分(例如是16×8像素组成的部分)的诸像素与按照指定的搜索量度在该标定图像之顶场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第三误差量度;将该当前图像内该当前宏块中底部一半的该第二部分(例如是16×8像素组成的部分)的诸像素与按照指定的搜索量度在该标定图像之底场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第四误差量度;使第一和第三误差量度相加,以产生出一个第一复合误差量度;使第二和第四误差量度相加,以产生出一个第二复合误差量度;以及确定出第一、第二、第三和第四误差量度与第一和第二复合误差量度共六个中哪个具有最小值,并在此种判定的基础上从多种可能的运动估值预测模式中选择出一种。可取且有利地,所有比较步骤是同时实施的,两个相加步骤也是同时实施的。多种可能的运动估值预测模式中可包括有按照MPEG-2标准下对各个场图像的场预测模式和16×8预测模式。
本发明又提供一种方法,用于对包含顶场和底场的一个图像序列之数字视频数据流进行运动编码,本方法包括有步骤:将一幅当前图像之顶场内一个当前宏块(例如是16×16像素组成的宏块)中一个第一部分(例如是16×8像素组成的部分)的诸像素与按照一种指定的搜索量度在一个标定图像之顶场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第一误差量度;将该当前图像之顶场内该当前宏块中该第一部分(例如是16×8像素组成的部分)的诸像素与按照该指定的搜索量度在该标定图像之底场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第二误差量度;将该当前图像之底场内一个当前宏块(例如是16×16像素组成的宏块)中一个第二部分(例如是16×8像素组成的部分)的诸像素与按照指定的搜索量度在该标定图像之顶场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第三误差量度;将该当前图像之底场内该当前宏块中该第二部分(例如是16×8像素组成的部分)的诸像素与按照指定的搜索量度在该标定图像之底场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第四误差量度;在第一、第二、第三和第四误差量度的基础上分别产生出第一、第二、第三和第四运动矢量;以及检测第一、第二、第三和第四运动矢量以确定出在它们之间是否存在一种指定的关系,而如果是这样,则选择一个帧图像双基运动估值预测模式。可取且有利地,所有比较步骤是同时实施的。
本发明又提供一种方法,用于对包含一个图像序列的数字视频数据流进行运动编码,这里,本方法包括有步骤:将一幅当前图像内一个当前宏块(例如是16×16像素组成的宏块)中顶部一半之一个第一部分(例如是16×8像素组成的部分)的诸像素与按照一种指定的搜索量度在一个标定图像之顶场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第一误差量度;将该当前图像内该当前宏块中顶部一半之该第一部分(例如是16×8像素组成的部分)的诸像素与按照该指定的搜索量度在该标定图像之底场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第二误差量度;将该当前图像内一个当前宏块(例如是16×16像素组成的宏块)中底部一半之一个第二部分(例如是16×8像素组成的部分)的诸像素与按照指定的搜索量度在该标定图像之顶场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第三误差量度;将该当前图像内该当前宏块中底部一半之该第二部分(例如是16×8像素组成的部分)的诸像素与按照指定的搜索量度在该标定图像之底场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,对每次比较产生一个第四误差量度;使第一和第三误差量度相加,以产生出一个第一复合误差量度;使第二和第四误差量度相加,以产生出一个第二复合误差量度;在第一和第二复合误差量度的基础上分别产生出第一和第二运动矢量;以及检测第一和第二运动矢量以确定出在它们之间是否存在一种指定的关系,而如果是这样,则选择一个场图像双基运动估值预测模式。可取且有利地,所有比较步骤是同时实施的,两个产生复合误差量度的步骤也是同时实施的。
本发明还提供出一种诸如用于数字视频编码器的运动估值搜索系统之类的装置,它可以同时实施在任意组合方式下本发明之上述各种方法中的任一个方法。
从下面结合各附图的详细说明中,能容易理解本发明的这些和另一些目的、特性和优点,附图中:
图1是一个示意图,示例出一个MPEG图像和宏块结构;
图2是一个示意图,示例出对于帧图像应用帧预测和场预测的运动估值;
图3是按照本发明之一个示例实施例构成的一个运动估值搜索系统的方框图,用于对帧图像同时实施按帧预测模式和场预测模式的运动估值;
图4是一个示意图,示例出对于场图像按场(16×16像素)和16×8像素两种预测模式的运动估值;
图5是按照本发明之一个示例实施例构成的一个运动估值搜索系统的方框图,用于对场图像按场预测模式和16×8预测模式实施运动估值;
图6是一个示意图,示例出应用双基预测的运动估值;
图7是按照本发明之一个示例实施例构成的一个运动估值搜索系统的方框图,用于实施帧图像双基运动估值;以及
图8是按照本发明之一个示例实施例构成的一个运动估值搜索系统的方框图,用于实施场图像双基运动估值。
图2以示意图示明一种MPEG-2运动估值处理,用于对帧图像分别应用帧预测模式和场预测模式。帧预测中,将复合标定图像作为一幅连接的图像对待,将复合宏块作为一个连接的16×16像素阵列对待。运动估值程序按上面说明的方式实施。
然而,场预测中,将当前宏块划分成由顶场中的各行(自0行计数起的偶数行)构成的第一16×8阵列和由底场中的各行(自1行计数起的奇偶行)构成的第二16×8阵列。标定图像也划分成一个顶场图像(由偶数行构成)和一个底场图像(由奇偶行构成)。然后,以类同于上面所说明的情况使顶场的16×8像素阵列与标定图像顶场中搜索范围内的每一个16×8像素阵列进行匹配,以寻找出最好的匹配。
然后,重复该程序,应用同样的顶场16×8像素阵列在底场图像中寻找出最好的匹配。再将得到的两个匹配进行比较,两者中较好的一个匹配选择作为对该宏块中顶场部分的最好匹配。该匹配由规范出该标定场图像(顶场或底场)来表示,从其中可以寻找出连同的相应运动矢量。
对于底场16×8阵列再重复整个程序,又一次以上面说明的情况应用标定帧中的顶场和底场两者来确定匹配,两种场内的哪一个包含更好的最佳匹配,并给出相应的运动矢量。最后结果是得到一个标定图像的场选择,以及对于当前宏块中顶场和底场内16×8阵列之每一个的运动矢量值。
如果当前图像是一个预测图像或即P图像,则唯一地使用前向编码。然而,在双向预测图像或即B图像的场合下,则预测可以是前向预测、反向预测或双向预测。前两种情况下,按需求可分别应用前向标定图像或反向标定图像来进行上面的运动估值。然而,在双向编码情况下,对前向和反向标定图像两者必须实施相同的运动估值。在一个B图像中,对于当前图像的每个宏块是各别地规范其预测方向的。
在计算周知的运动估值方法中,对于每个宏块在运动估值之前必须规范出预测模式,实施其组成成分的搜索。然而,按照本发明,在它的诸特点之一中,运动估值可以于一个帧图像中按帧预测模式和场预测模式两者在对标定图像的同一搜索中同时地实施。
观察表明,对于相同的水平和垂直偏置量,在标定帧之顶场内的顶场16×8阵列和标定帧之底场内的底场16×8阵列方面(两种场合下均使用场预测),运动估值匹配准则或即量度之和等于复合帧中复合的16×16宏块方面(使用帧预测)相应的量度,这表明在单一种搜索期间可以按一种以上的预测模式进行运动估值。为了做到这一点,必须对标定图像之每个顶场和底场中每一个顶场16×8和底场16×8阵列确定出最佳匹配。如果所有搜索均这样地实施,也即在任一给定的时间上当前尝试的匹配中水平和垂直偏置量总相同(这是鉴于下列事实的一种合理假定,即在一个实际的运动估值系统中,标定图像的诸像素对应于诸存储器位置,而在常规的存储器技术中它们典型地一次只能估值出一个),于是对于其四种尝试的匹配之每一个产生出一个量度值。如果将标定图像之顶场内的顶场16×8阵列的当前量度加到标定图像之底场内的底场16×8阵列的当前量度上,则在偶数垂直偏置量场合下,其结果等于复合标定帧中复合的16×16宏块的当前量度。就象在规定的搜索范围上对四种场预测搜索之每一个确定出各最佳量度值那样,从上面的求和值中也能确定出帧预测方面的最佳量度值。在奇数垂直偏置量场合下,是使顶场16×16像素阵列在标定图像之底场中进行匹配,并使底场16×16像素阵列在标定图像之顶场中进行匹配;这种情况下,在有关的各标定场图像内之各个垂直像素位置也将相差数值1。
图3中示明了一个运动估值搜索系统30,它可实现上面说明的本发明的运动估值方法。现在,对此作出解说。更具体地,运动估值搜索系统30中包括四个并行的搜索引擎32、34、36和38,它们按照例如是最小绝对误差(MAE)的一种指定的搜索量度以上面说明的方式将顶场和底场内被编码宏块中的各有关部分与标定图像之顶场和底场内的各个合适部分进行比较。对于搜索引擎32、34、36和38实施的每一次比较操作,它们将产生出各别的误差量度。特别地,由搜索引擎32产生的诸误差量度加到一个逻辑单元39的输入端上,该逻辑单元39确定出标定图像之顶场内哪一个宏块对于被编码的顶场宏块形成最好的匹配,然后在其输出端产生出该最好匹配的结果。由搜索引擎34产生的诸误差量度加到一个逻辑单元40的输入端上,该逻辑单元40确定出标定图像之底场内哪一个宏块对于被编码的顶场宏块形成最好的匹配,然后在其输出端产生出该最好匹配的结果。由搜索引擎36产生的诸误差量度加到一个逻辑单元41的输入端上,该逻辑单元41确定出标定图像之顶场内哪一个宏块对于被编码的底场宏块形成最好的匹配,然后在其输出端产生出该最好匹配的结果。由搜索引擎38产生的诸误差量度加到一个逻辑单元42的输入端上,该逻辑单元42确定出标定图像之底场内哪一个宏块对于被编码的底场宏块形成最好的匹配,然后在其输出端产生出该最好匹配的结果。使搜索引擎32和38产生的误差量度在一个加法器电路45中组合起来,并将得到的复合误差量度加到一个逻辑单元43的输入端上,该逻辑单元43确定出标定图像诸宏块中的哪一个在偶数的垂直偏置量场合下对于被编码宏块形成最好的匹配,然后在其输出端产生出该最好匹配的结果。使搜索引擎34和36产生的误差量度在一个加法器电路46中组合起来,并将得到的复合误差量度加到一个逻辑单元44的输入端上,该逻辑单元44确定出标定图像诸宏块中的哪一个在奇数的垂直偏置量场合下对于被编码宏块形成最好的匹配,然后在其输出端产生出该最好匹配的结果。各个并行的比较逻辑单元47对逻辑单元39-44产生的各个最好匹配的结果进行比较,然后在此基础上对该被编码宏块确定出哪一种预测模式(也即对于帧图像的场预测模式或帧预测模式)是最佳的。然后,输出由选定的预测模式产生出最好匹配下所对应的运动矢量,以供运动估值搜索系统作进一步处理。
对应于MPEG-2标准中主型高级的ATSC标准,它容许多至六种不同的预测模式。其中,有两种在上面的说明中述及了,就是帧图像中分别的帧预测模式和场预测模式。对于场图像,有两种类似的模式,就是场预测和16×8预测。场预测中,将当前场图像中的一个16×16像素组成的宏块与两个先前的标定场图像之一进行匹配,使用的方式类同于帧图像中作帧预测时使用的方式;16×8预测中,将当前宏块中的上一半16×8像素与先前两个标定场图像(和/或在B图像中的反向预测编码场合下则是随后两个标定场图像)之某一个进行匹配,并将同一宏块中的下一半16×8像素独立地与两个先前的标定场图像之某一个进行匹配,这时使用的方式类同于帧图像中作场预测时使用的方式。对于场图像的这两种预测模式以示意图示明于图4中。
如前面那样,所有的搜索是这样进行的,也即在任一给定的时间上,四种当前尝试的匹配中其水平和垂直偏置量都相同,并对每一种匹配产生一个误差量度值。由于当前宏块之上一半宏块对于两个标定场之一中所尝试的匹配宏块之上一半宏块来说的相对偏置量,与当前宏块之下一半宏块对于两个标定场之一中相同地尝试的匹配宏块之下一半宏块来说的相对偏置量是同一值的,所以对于当前宏块之上一半和下一半来说,在完全的宏块搜索期间可以计算出各别的误差量度。如果将标定图像之顶场内上一半16×8阵列的误差量度值与标定图像之顶场内下一半16×8阵列的误差量度值相加,结果将等于该标定图像之顶场内复合的16×16宏块的误差量度值。对于标定图像之底场方面,这种结果同样成立。就象在规定的搜索范围上对四种16×8预测搜索之每一个确定出各最佳误差量度值那样,从上面的求和值中也可以确定出两种场预测之每一个的最佳误差量度值。
图5中示明了一个运动估值搜索系统50,它可实现上面说明的本发明之运动估值方法。现在,对此作出解说。更具体地,运动估值搜索系统50中包括四个并行的搜索引擎50、54、56和58,它们按照例如是最小绝对误差(MAE)的一种指定的搜索量度以上面说明的方式将顶场和底场内被编码宏块之各半中的有关部分与标定图像之顶场和底场内的各个合适部分进行比较。对于搜索引擎52、54、56和58实施的每一次比较操作,它们将产生出各别的误差量度。特别地,由搜索引擎52产生的诸误差量度加到一个逻辑单元59的输入端上,该逻辑单元59确定出标定图像之顶场内哪一个宏块对于被编码的顶场宏块之一半形成最好的匹配,然后在其输出端产生出该最好匹配的结果。
由搜索引擎54产生的诸误差量度加到一个逻辑单元60的输入端上,该逻辑单元60确定出标定图像之底场内哪一个宏块对于被编码的顶场宏块之一半形成最好的匹配,然后在其输出端产生出该最好匹配的结果。
由搜索引擎56产生的诸误差量度加到一个逻辑单元61的输入端上,该逻辑单元61确定出标定图像之顶场内哪一个宏块对于被编码的底场宏块之一半形成最好的匹配,然后在其输出端产生出该最好匹配的结果。由搜索引擎58产生的诸误差量度加到一个逻辑单元62的输入端上,该逻辑单元62确定出标定图像之底场内哪一个宏块对于被编码的底场宏块之一半形成最好的匹配,然后在其输出端产生出该最好匹配的结果。
使搜索引擎52和56产生的误差量度在一个加法器电路65中组合起来,并将得到的复合误差量度加到一个逻辑单元63的输入端上,由该逻辑单元63确定出标定图像之顶场内哪一个宏块对于被编码宏块形成最好的匹配,然后在其输出端产生出该最好匹配的结果。
使搜索引擎54和58产生的误差量度在一个加法器电路66中组合起来,并将得到的复合误差量度加到一个逻辑单元64的输入端上,由该逻辑单元64确定出标定图像之底场内哪一个宏块对于被编码宏块形成最好的匹配,然后在其输出端产生出该最好匹配的结果。
各个并行的比较逻辑单元67将逻辑单元59-64产生的最好匹配的结果进行比较,然后在此基础上对该被编码宏块确定出哪一种预测模式(也即对于场图像的场预测模式或16×8预测模式)是最佳的。然后,输出由选定的预测模式产生出最好匹配时所对应的运动矢量,以供运动估值搜索系统作进一步处理。
最后,剩下的一种MPEG-2运动预模式是所谓的“双基”模式,它可以应用于视频信号源为隔行扫描的以及在编码处理中只应用I和P图像(也即不允许使用B图像)的场合下。此种模式中,可以应用能满足上述准则的帧图像或是场图像,它利用了一个隔行视频序列内物体运动的物理特性,只应用一个编码运动矢量来表示多个运动矢量(在帧图像场合下为四个,在场图像场合下为两个)。这使得对每个宏块仅需传输或存储较少的信息,由此得到了更为有效视频压缩。
在隔行扫描视频下,每个完整的帧划分成两个独立的场,其第一个命名为顶场,由复合视频帧中的全部偶数行(自0行开始)构成,其第二个命名为底场,由全部奇数行(自1行开始)构成。在隔行视频模式的工作中,一个给定帧的顶场图像作为一个整体产生出来,该同一帧的底场图像随后也作为一个整体产生出来。然后,对后面的帧、并对全部随后的帧重复这程序。在一个具有规定帧频的视频系统中(例如,在美国应用的NTSC制式其帧频为每秒30帧),相应的场频精确地为帧频的两倍(NTSC制式场合下为每秒60场)。这意味着,两个相继的视频场之间的时间差精确地为两个相继的视频帧之间的时间差之一半。由于诸如摄像机和录像机之类最普通的视频源以顺序的光栅扫描格式产生出各视频行,而光栅扫描有恒定的垂直频率,所以相继各场中对应各行(也即具有相同垂直位置的各行)之间的时间差总是有着相同的值,然而与同一场内不同行相关联的各个时间是不同的。
视频序列中,在两个相继帧之间的时间期内,一个以均匀速度运动的物体在图像画面内的垂直方向和水平方向上将移动一个有限的距离。然而,在两个相继场之间的时间内,按照上一节段中说明的原理,该物体将精确地移动上述距离之一半。然而,更一般的情况下运动不是匀速的,这时,在相继两帧之间的微小时间段内(甚至是相继两场之间更微小的时间段内)通常能确保该物体运动的二阶导数和高价导数可予以忽略,从而在此小的时间段内可稳妥地将该运动作为匀速运动来处理。这意味着,即使对于非匀速运动,上面关于相继帧之间和相继场之间的物体运动距离,以及关于此种各场之间运动的恒定性,都有效地保持正确。运动预测的双基模式广延地利用了上面的关系。
帧图像和场图像两者中双基预测模式用的MPEG-2技术规范示意地表明于图6中。从图示中可以看出,由一个给定的场别(例如是顶场)相对于前一个同样的场别(例如是顶场)的运动矢量有着一定长度。在一个帧图像中,两个子成分场之每一个是相对于先前的标定帧中两个子成分场之每一个进行运动编码的;可以见到,顶场对顶场和底场对底场的矢量有同样的长度。按照上面的分析这是可以预期的,因为在两种情况下矢量长度代表了该物体在两个视频场期间的历程中行进的距离。然而,就一个顶、底场相对于另一个底、顶场的运动矢量来说,它或是代表了一场期间所行进的距离(在一个顶场相对于先前之底场的情况下),或是代表了三场期间所行进的距离(在一个底场相对于先前之顶场的情况下)。前一种情况,运动矢量的长度将是上述两种运动矢量长度值的一半;后一种情况,运动矢量的长度将是那种运动矢量长度值之半的三倍。
在场图像中,它是相对于两个先前的标定场进行运动编码的,对于同样场别(顶场或底场)的场,它们的运动矢量再一次代表了在两个视频场时间的历程中物体行进的距离,并有一定的长度。然而,对于不同场别的场,它们的运动矢量总是指对于前一场而言的,所以,它代表了在一场时间内物体行进的距离,因而将为上述运动矢量之值的一半。
在初始检测之后将显现出,相对于当前宏块必须搜索位于不同的水平和垂直偏置量上的不同场用于匹配,以便确定出上面的准则按照双基预测模式是否可得到满足。要考虑到这样的事实,一个隔行扫描视频源中,这些准则自然是由二维图像中运动的性质引起的,从而可得出结论,如果对于所需之标定图像内的当前宏块应用场预测模式实施了所有合适的搜索,则得到的最佳运动矢量应自动具有对于双基预测模式所需的相对关系;也就是,对应于相同的场别之场的运动矢量其长度应为上面的运动矢量之一半或是该运动矢量之半的三倍,具体取决于两个场之间的特定关系。所以,对于场预测应用于帧图像或场图像来说,只需要进行平常的运动估值,然后检测所得到的各运动矢量以确定出是否存在双基预测模式所需的相对关系。如果存在,则应用双基预测模式对宏块进行简单的编码,如果不存在,则代之以选择其它的预测模式。
在帧图像或场图像中,很可能或是由于运动的不匀速性,或是由于对图像简单的空间量化,用于运动矢量所需的相对关系是十分接近但不是准确地得到满足的。此外,由于隔行扫描的性质,一个视频帧的顶场与底场之间总有一行的垂直偏置量。通过对编码矢量之垂直和水平分量中每一个容许有所谓的“差分运动矢量”(它限制于三个值:-1,0,+1),MPEG-2标准可适应这些状态中的第一种状态。通过对所有导得的运动矢量始终提供一个垂直校正(它始终预测一个给定场别的场相对于不同场别的场),MPEG-2标准又适应于第二种状态。在所需的关系仍然未准确地满足的情况下,总有可能对于这不相符的场合选取一种稍微不同的运动矢量值,尽管它不是精确的优化值,而双基编码的总体优越性依然可使它在如此场合下是可取的。
一个帧图像的双基预测由当前宏块相对于先前标定帧中两场的场预测组成。这意味着,当前宏块的顶场部分与标定帧中的顶场和底场两者均进行匹配(不同于对帧图像的常规场预测,那里仅仅是选择出能获得较好预测的标定场),对当前宏块的底场部分也进行同样的匹配。所以,需要四个运动矢量。在场预测中应用时,图3中示明的运动估值系统30设计得可确定出最佳运动矢量,用于给出在一个帧图像中进行双基预测所需的四个精确的匹配。于是,只需对得到的四个运动矢量进行检测,以确定出在上面的讨论中给出的所需相对关系在四个运动矢量中是否保持。同样的结构可用于在一个帧图像中同时进行帧预测和场预测,并选择出较好的模式;这样,就能实现双基预测模式,并且它如果优于另外两种预测模式便选择它而不是那两种模式。对于帧图像的运动估值和编码所形成的运动估值系统70的结构,示明于图7中。
特定地参考图7,运动估值系统70中包括四个并行的搜索引擎72、74、76和78,它们将被编码宏块顶场和底场的有关部分按照一种指定的搜索量度例如是最小绝对误差(MAE)、以上面说明的方式与标定图像顶场和底场内的合适部分进行比较。搜索引擎72、74、76和78在它们每次实施的比较中产生出有关的误差量度。特别地,由搜索引擎72产生的误差量度加到一个逻辑单元79的输入端上,由该逻辑单元79确定出标定图像顶场宏块中的哪一个对于被编码宏块顶场形成最好的匹配,然后在其输出端产生出相应的运动矢量。由搜索引擎74产生的误差量度加到一个逻辑单元80的输入端上,由该逻辑单元80确定出标定图像底场宏块中的哪一个对于被编码宏块顶场形成最好的匹配,然后在其输出端产生出相应的运动矢量。由搜索引擎76产生的误差量度加到一个逻辑单元81的输入端上,由该逻辑单元81确定出标定图像顶场宏块中的哪一个对于被编码宏块底场形成最好的匹配,然后在其输出端产生出相应的运动矢量。由搜索引擎78产生的误差量度加到一个逻辑单元82的输入端上,由该逻辑单元82确定出标定图像底场宏块中的哪一个对于被编码宏块底场形成最好的匹配,然后在其输出端产生出相应的运动矢量。由逻辑电路90检测逻辑单元79-82产生的运动矢量是否存在3∶2∶2∶1的关系,如果确定出在这些运动矢量之间存在这样一种关系,则选择帧图像双基运动估值预测模式,并产生相应的运动矢量。
一个场图像的双基预测由当前宏块相对于两个先前的标定场的场预测组成。这意味着,当前宏块与先前的顶和底标定场均进行匹配(不同于对场图像的常规场预测,那里仅仅是选择出能获得较好预测的标定场)。所以,需要两个运动矢量。当应用于场预测时,其运动估值系统50示明于图5中,它设计得可确定出最佳运动矢量,应用来给出在一个场图像中进行双基预测所需的两个精确的匹配。于是,只需对这两个运动矢量进行检测,以确定出在上面的讨论中给出的所需相对关系在两个运动矢量中是否保持。同样的结构应用来在一个场图像中同时进行场预测和16×8预测,并选择出较好的模式;这样,就能实现双基预测模式,并且它如果优于另外两种预测模式便选择它而不是那两种模式。对于场图像的运动估值和编码所形成的运动估值系统100的结构,示明于图8中。
特定地参考图8,运动估值系统100中包括四个并行的搜索引擎102、104、106和108,它们将被编码宏块顶部一半和底部一半的有关部分按照一种指定的搜索量度例如是最小绝对误差(MAE)、以上面说明的方式与标定图像顶场和底场内的合适部分进行比较。搜索引擎102、104、106和108在它们每次实施的比较中产生出有关的误差量度。特别地,由搜索引擎102产生的误差量度加到一个第一加法器110的第一输入端上,由搜索引擎106产生的误差量度加到该第一加法器110的第二输入端上,第一加法器110在其输出端产生出加到其第一和第二输入端之误差量度的总和,作为一个第一复合误差量度。该第一复合误差量度加到一个逻辑单元111上,由逻辑单元111确定出标定图像顶场宏块中的哪一个对于被编码宏块形成最好的匹配,然后在其输出端产生相应的运动矢量。由搜索引擎104产生的误差量度加到一个第二加法器112的第一输入端上,由搜索引擎108产生的误差量度加到该第二加法器112的第二输入端上,第二加法器在其输出端产生出加到其第一和第二输入端之误差量度的总和,作为一个第二复合误差量度。该第二复合误差量度加到一个逻辑单元113上,由逻辑单元113确定出标定图像底场宏块中的哪一个对于被编码宏块形成最好的匹配,然后在其输出端产生相应的运动矢量。由逻辑电路115检测逻辑单元111和113产生的运动矢量是否存在2∶1的关系,如果确定出在这些运动矢量之间存在这样一种关系,则选择场图像双基运动估值预测模式,并产生相应的运动矢量。
帧图像和场图像之运动估值上说明的技术方面和结构方面之间的类同性立即可提出,能够实现一种统一的结构,它支持帧图像中容许的全部三种预测模式以及场图像中容许的全部三种预测模式。将前面说明的所有技术综合起来,如此一种结构中只需要知道图像的构造(帧或场)和类型(I、P或B型)便可确定最佳预测模式(也即给出最小误差量度值的模式)以及关于任一宏块其相应的运动矢量,且仅需进行单一的搜索操作来做到这一点。当诸如实时视频(例如是实况广播)所需的那样而应用定制的硬件来实现时,在数字视频编码系统中运动估值将是最需要大量硬件和耗时的操作。当通常所做那样地不需要进行实时的编码(例如是对DVD的编码)而由计算机软件来实现时,运动估值算法是数字视频编码算法中最为复杂和繁重的计算部分。无论哪一种情况,本发明的方法和结构都给出了一种显著地改进视频压缩效率的措施,从而有改善的图像质量,它既不需要较大的硬件费用,也不需较高的计算复杂性。
虽然,上面已经详细说明了本发明的优选实施例,但显然可以明白,本领域的普通技术人员对这里所讲的基本的发明概念可作出许多种变型和/或修正,但仍归于如所附之权利要求书规定的本发明的范畴之内。
权利要求书中,处于括号间的任何标号均不应认为是对权利要求书的限制。名词“包含”并不排除权利要求书中所列出之外的那些其它元素或步骤。本发明的实施可借助于包含有若干特殊元素的硬件,以及借助于合适地编程的计算机。在一种装置中,权利要求列出了若干措施,这些措施中的若干个可以由一个或同样产品的硬件来实现。事实就在于,在相互不同从属的权利要求中所述的某些措施,并不表明这些措施的组合不能应用来体现它们的优点。

Claims (9)

1.一种运动估值搜索方法,包括步骤:
应用多种不同的运动估值预测模式中的每一种对运动进行估值;以及
选择出诸预测模式中的一种预测模式。
2.如权利要求1所述的方法,还包括步骤:
将当前被编码图像中一个第一像素阵列的诸像素与至少一个参考图像中多个第二像素阵列的诸像素进行比较,并就多种不同的预测模式中的每一种同时进行运动估值,以便确定出哪一种预测模式为最佳预测模式;
对于最佳预测模式中的第一像素阵列,产生出一个运动矢量。
3.如权利要求1所述的方法,用于对包含有顶场和底场的一个图像序列之数字视频数据流进行运动编码,该方法包括步骤:
将一个当前图像顶场内一个当前宏块中第一部分的诸像素按照一种指定的搜索量度与一个标定图像顶场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第一误差量度;
将该当前图像顶场内该当前宏块中该第一部分的诸像素按照该指定的搜索量度与该标定图像底场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第二误差量度;
将该当前图像底场内一个当前宏块中第二部分的诸像素按照该指定的搜索量度与该标定图像顶场内该当前宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第三误差量度;
将该当前图像底场内该当前宏块中该第二部分的诸像素按照该指定的搜索量度与该标定图像底场内该当前宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第四误差量度;
使第一和第四误差量度相加,产生出一个第一复合误差量度;
使第二和第三误差量度相加,产生出一个第二复合误差量度;以及
确定出第一、第二、第三和第四误差量度以及第一和第二复合误差量度中哪一个具有最小值,在此种判定的基础上选择出多种可能的运动估值预测模式中的一种预测模式。
4.如权利要求3所述的方法,其中,多种可能的运动估值预测模式中包括按照MPEG-2标准中对帧图像的帧预测模式和场预测模式。
5.如权利要求1所述的方法,用于对包含有一个图像序列的数字视频数据流进行运动编码,该方法包括步骤:
将一个当前图像内一个当前宏块中顶部一半第一部分的诸像素按照一种指定的搜索量度与一个标定图像顶场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第一误差量度;
将该当前图像内该当前宏块中顶部一半该第一部分的诸像素按照该指定的搜索量度与该标定图像底场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第二误差量度;
将该当前图像内一个当前宏块中底部一半第二部分的诸像素按照该指定的搜索量度与该标定图像顶场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第三误差量度;
将该当前图像内该当前宏块中底部一半该第二部分的诸像素按照该指定的搜索量度与该标定图像底场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第四误差量度;
使第一和第三误差量度相加,产生出一个第一复合误差量度;
使第二和第四误差量度相加,产生出一个第二复合误差量度;以及
确定出第一、第二、第三和第四误差量度以及第一和第二复合误差量度中哪一个具有最小值,在此种判定的基础上选择出多种可能的运动估值预测模式中的一种预测模式。
6.如权利要求5所述的方法,其中,多种可能的运动估值预测模式中包括按照MPEG-2标准中对场图像的场预测模式和16×8预测模式。
7.如权利要求1所述的方法,用于对包含有顶场和底场的一个图像序列之数字视频数据流进行运动编码,本方法包含有步骤:
将一个当前图像顶场内一个当前宏块中第一部分的诸像素按照一种指定的搜索量度与一个标定图像顶场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第一误差量度;
将该当前图像顶场内该当前宏块中该第一部分的诸像素按照该指定的搜索量度与该标定图像底场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第二误差量度;
将该当前图像底场内一个当前宏块中第二部分的诸像素按照该指定的搜索量度与该标定图像顶场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第三误差量度;
将该当前图像底场内该当前宏块中该第二部分的诸像素按照该指定的搜索量度与该标定图像底场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第四误差量度;
在第一、第二、第三和第四误差量度的基础上分别产生出第一、第二、第三和第四运动矢量;以及
检测这第一、第二、第三和第四运动矢量,以确定出在它们之间是否存在一种指定的关系,如果存在,则选择一种帧图像双基运动估值预测模式。
8.如权利要求1所述的方法,用于对包含有一个图像序列的数字视频数据流进行运动编码,本方法包含有步骤:
将一个当前图像内一个当前宏块中顶部一半第一部分的诸像素按照一种指定的搜索量度与一个标定图像顶场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第一误差量度;
将该当前图像内该当前宏块中顶部一半该第一部分的诸像素按照该指定的搜索量度在该标定图像底场内一个宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第二误差量度;
将该当前图像内一个当前宏块中底部一半第二部分的诸像素按照该指定的搜索量度与该标定图像顶场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第三误差量度;
将该当前图像内该当前宏块中底部一半该第二部分的诸像素按照该指定的搜索量度与该标定图像底场内该宏块中多个相应大小部分之每一个部分的诸像素进行比较,并对每次比较产生一个第四误差量度;
使第一和第三误差量度相加,产生出一个第一复合误差量度;
使第二和第四误差量度相加,产生出一个第二复合误差量度;
在第一和第二复合误差量度的基础上分别产生出第一和第二运动矢量;以及
检测这第一和第二运动矢量,以确定出在它们之间是否存在一种指定的关系,如果存在,则选择一种场图像双基运动估值预测模式。
9.一种运动估值装置,包括:
一个装置,用于应用多种不同的运动估值预测模式之每一种进行运动估值;以及一个装置,用于选择出诸种预测模式中的一种预测模式。
CNB008011648A 1999-04-30 2000-04-20 数字视频的运动估值 Expired - Fee Related CN1197385C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/303,316 1999-04-30
US09/303,316 US6519005B2 (en) 1999-04-30 1999-04-30 Method of concurrent multiple-mode motion estimation for digital video

Publications (2)

Publication Number Publication Date
CN1315115A true CN1315115A (zh) 2001-09-26
CN1197385C CN1197385C (zh) 2005-04-13

Family

ID=23171500

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008011648A Expired - Fee Related CN1197385C (zh) 1999-04-30 2000-04-20 数字视频的运动估值

Country Status (6)

Country Link
US (1) US6519005B2 (zh)
EP (1) EP1092320A1 (zh)
JP (1) JP2002543713A (zh)
KR (1) KR20010071705A (zh)
CN (1) CN1197385C (zh)
WO (1) WO2000067485A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115206B (zh) * 2007-08-30 2011-01-19 四川长虹电器股份有限公司 视频编码运动估计中标志位的设定方法
CN102176752B (zh) * 2002-06-28 2013-02-13 杜比实验室认证公司 改进的视频压缩帧插值

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6707853B1 (en) * 2000-01-10 2004-03-16 Intel Corporation Interface for performing motion compensation
US6907080B1 (en) * 2000-06-07 2005-06-14 Intel Corporation Adaptive early exit techniques in image correlation
US6654502B1 (en) * 2000-06-07 2003-11-25 Intel Corporation Adaptive early exit techniques in image correlation
US7079579B2 (en) * 2000-07-13 2006-07-18 Samsung Electronics Co., Ltd. Block matching processor and method for block matching motion estimation in video compression
US6765964B1 (en) * 2000-12-06 2004-07-20 Realnetworks, Inc. System and method for intracoding video data
US6633612B2 (en) * 2000-12-13 2003-10-14 Genesis Microchip Inc. Method and apparatus for detecting motion between odd and even video fields
US6987866B2 (en) * 2001-06-05 2006-01-17 Micron Technology, Inc. Multi-modal motion estimation for video sequences
US7242717B2 (en) * 2001-06-08 2007-07-10 Sharp Laboratories Of America, Inc. Wavelet domain motion compensation system
US7386048B2 (en) * 2002-05-28 2008-06-10 Sharp Laboratories Of America, Inc. Methods and systems for image intra-prediction mode organization
US20030235338A1 (en) * 2002-06-19 2003-12-25 Meetrix Corporation Transmission of independently compressed video objects over internet protocol
JP3791922B2 (ja) * 2002-09-06 2006-06-28 富士通株式会社 動画像復号化装置及び方法
KR20040070490A (ko) * 2003-02-03 2004-08-11 삼성전자주식회사 비월 주사 방식의 동영상 부호화/복호화 방법 및 그 장치
KR100517504B1 (ko) * 2003-07-01 2005-09-28 삼성전자주식회사 B-픽처의 움직임 보상 모드 결정방법 및 장치
US7453940B2 (en) * 2003-07-15 2008-11-18 Lsi Corporation High quality, low memory bandwidth motion estimation processor
US20050013498A1 (en) * 2003-07-18 2005-01-20 Microsoft Corporation Coding of motion vector information
US7724827B2 (en) * 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
US7567617B2 (en) * 2003-09-07 2009-07-28 Microsoft Corporation Predicting motion vectors for fields of forward-predicted interlaced video frames
US8064520B2 (en) * 2003-09-07 2011-11-22 Microsoft Corporation Advanced bi-directional predictive coding of interlaced video
TWI224465B (en) * 2003-09-12 2004-11-21 Weltrend Semiconductor Inc Separating method of dynamic and static image for de-interlacing process by using expansible/retractable method in temporal domain and space domain
US20050111545A1 (en) 2003-11-25 2005-05-26 Ram Prabhakar Dynamic packet size control for MPEG-4 data partition mode
GB2409029A (en) * 2003-12-11 2005-06-15 Sony Uk Ltd Face detection
KR100667806B1 (ko) * 2005-07-07 2007-01-12 삼성전자주식회사 영상 부호화 및 복호화 방법 및 장치
US8705630B2 (en) * 2006-02-10 2014-04-22 Nvidia Corporation Adapting one type of encoder to another type of encoder
US8665967B2 (en) * 2006-02-15 2014-03-04 Samsung Electronics Co., Ltd. Method and system for bit reorganization and packetization of uncompressed video for transmission over wireless communication channels
US20070230461A1 (en) * 2006-03-29 2007-10-04 Samsung Electronics Co., Ltd. Method and system for video data packetization for transmission over wireless channels
US8437396B2 (en) * 2006-08-10 2013-05-07 Vixs Systems, Inc. Motion search module with field and frame processing and methods for use therewith
US8175041B2 (en) 2006-12-14 2012-05-08 Samsung Electronics Co., Ltd. System and method for wireless communication of audiovisual data having data size adaptation
JP4650461B2 (ja) * 2007-07-13 2011-03-16 ソニー株式会社 符号化装置、符号化方法、プログラム、及び記録媒体
JP4678015B2 (ja) * 2007-07-13 2011-04-27 富士通株式会社 動画像符号化装置及び動画像符号化方法
KR100939917B1 (ko) 2008-03-07 2010-02-03 에스케이 텔레콤주식회사 움직임 예측을 통한 부호화 시스템 및 움직임 예측을 통한부호화 방법
US8176524B2 (en) * 2008-04-22 2012-05-08 Samsung Electronics Co., Ltd. System and method for wireless communication of video data having partial data compression
US8917769B2 (en) * 2009-07-03 2014-12-23 Intel Corporation Methods and systems to estimate motion based on reconstructed reference frames at a video decoder
US8462852B2 (en) 2009-10-20 2013-06-11 Intel Corporation Methods and apparatus for adaptively choosing a search range for motion estimation
US9654792B2 (en) 2009-07-03 2017-05-16 Intel Corporation Methods and systems for motion vector derivation at a video decoder
US8289447B1 (en) * 2009-07-14 2012-10-16 Altera Corporation Cadence detection for film mode de-interlacing
JP5721851B2 (ja) 2010-12-21 2015-05-20 インテル・コーポレーション Dmvd処理のシステムおよび方法の改善
US20150016530A1 (en) * 2011-12-19 2015-01-15 James M. Holland Exhaustive sub-macroblock shape candidate save and restore protocol for motion estimation
US10385392B2 (en) * 2011-12-30 2019-08-20 Abbott Molecular Inc. Nucleic acid hybridization probes
GB2502047B (en) * 2012-04-04 2019-06-05 Snell Advanced Media Ltd Video sequence processing
WO2019069782A1 (ja) * 2017-10-06 2019-04-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法及び復号方法
CN113170150B (zh) 2018-12-03 2024-02-27 北京字节跳动网络技术有限公司 基于历史的运动矢量预测(hmvp)模式的部分修剪方法
US11410243B2 (en) * 2019-01-08 2022-08-09 Clover Health Segmented actuarial modeling
US11317094B2 (en) * 2019-12-24 2022-04-26 Tencent America LLC Method and apparatus for video coding using geometric partitioning mode
JP2023501726A (ja) * 2019-12-30 2023-01-18 鴻穎創新有限公司 ビデオデータをコーディングするデバイス及び方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW199257B (zh) 1991-07-30 1993-02-01 Sony Co Ltd
US5412435A (en) 1992-07-03 1995-05-02 Kokusai Denshin Denwa Kabushiki Kaisha Interlaced video signal motion compensation prediction system
IT1262305B (it) 1993-02-23 1996-06-19 Procedimento e impianto per confezionare prodotti fluidi o semifluidi entro contenitori in resina sintetica termoformabile.
JP3500634B2 (ja) 1993-04-08 2004-02-23 ソニー株式会社 動きベクトル検出装置
JP3050736B2 (ja) 1993-12-13 2000-06-12 シャープ株式会社 動画像符号化装置
JPH0846971A (ja) 1994-07-29 1996-02-16 Sharp Corp 動画像符号化装置
US5812197A (en) * 1995-05-08 1998-09-22 Thomson Consumer Electronics, Inc. System using data correlation for predictive encoding of video image data subject to luminance gradients and motion
US5963673A (en) * 1995-12-20 1999-10-05 Sanyo Electric Co., Ltd. Method and apparatus for adaptively selecting a coding mode for video encoding
US6049362A (en) * 1996-02-14 2000-04-11 International Business Machines Corporation Dual prime motion estimation system and method
US5768537A (en) * 1996-02-22 1998-06-16 International Business Machines Corporation Scalable MPEG2 compliant video encoder
US5905542A (en) * 1996-12-04 1999-05-18 C-Cube Microsystems, Inc. Simplified dual prime video motion estimation
US6144323A (en) * 1998-12-09 2000-11-07 Lsi Logic Corporation Method and apparatus for decoding video data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176752B (zh) * 2002-06-28 2013-02-13 杜比实验室认证公司 改进的视频压缩帧插值
CN101115206B (zh) * 2007-08-30 2011-01-19 四川长虹电器股份有限公司 视频编码运动估计中标志位的设定方法

Also Published As

Publication number Publication date
KR20010071705A (ko) 2001-07-31
US20020176500A1 (en) 2002-11-28
JP2002543713A (ja) 2002-12-17
EP1092320A1 (en) 2001-04-18
CN1197385C (zh) 2005-04-13
US6519005B2 (en) 2003-02-11
WO2000067485A1 (en) 2000-11-09

Similar Documents

Publication Publication Date Title
CN1197385C (zh) 数字视频的运动估值
US6959044B1 (en) Dynamic GOP system and method for digital video encoding
US9036713B2 (en) Image encoding device, image decoding device, image encoding method, and image decoding method
EP1135934B1 (en) Efficient macroblock header coding for video compression
CN100581252C (zh) 改进熵编码的方法
JP2002502158A (ja) 符号化システムを改善するために付随情報を使用する装置及び方法
CN1166204C (zh) 对视频信号进行编码的方法及装置
CN1695381A (zh) 在数字视频信号的后处理中使用编码信息和局部空间特征的清晰度增强
US7072399B2 (en) Motion estimation method and system for MPEG video streams
CN1643608A (zh) 已编码a/v序列的编辑
EP0825778A2 (en) Method for motion estimation
CN1134084A (zh) 用在图象编码系统中的改进的运动补偿装置
AU2001293994B2 (en) Compression of motion vectors
EP1374599B1 (en) Video encoder and recording apparatus
CN1302666C (zh) 编码运动图像的装置和方法
AU2001293994A1 (en) Compression of motion vectors
KR100566290B1 (ko) 스캔 테이블을 이용한 영상 주사방법과 그를 적용한 이산코사인 변환 장치
CN1568009A (zh) 用于视频编码的运动矢量预测方法
EP0923250A1 (en) Method and apparatus for adaptively encoding a binary shape signal
EP0793388A2 (en) Method and apparatus to calculate field motion estimations in frame pictures
CN1221291A (zh) 自适应编码二进制形状信号的方法及装置
Reichel et al. Comparison of texture coding methods in a unified motion prediction/compensation video compression algorithm
Miura et al. A simple compression method using movion vector of video encoder in the destributed system
Das et al. Development of Coding Schemes for Video
GB2368220A (en) Compression of motion vectors

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee