CN1685368A - 用于编码图像和/或音频数据的方法及设备 - Google Patents

用于编码图像和/或音频数据的方法及设备 Download PDF

Info

Publication number
CN1685368A
CN1685368A CNA038229374A CN03822937A CN1685368A CN 1685368 A CN1685368 A CN 1685368A CN A038229374 A CNA038229374 A CN A038229374A CN 03822937 A CN03822937 A CN 03822937A CN 1685368 A CN1685368 A CN 1685368A
Authority
CN
China
Prior art keywords
data
coding
image
pseudomorphism
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA038229374A
Other languages
English (en)
Inventor
R·J·卡德维里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1685368A publication Critical patent/CN1685368A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/007Transform coding, e.g. discrete cosine transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了用于对先前编码的数据源(100,105,140)执行结构化编码的方法和设备,其中结构(200,210,220,230)并未在所接收到的数据中定义。本发明特别应用于数字化图像或音频数据的基于块的压缩(例如使用MPEG编码的压缩),所述数字化图像或音频数据是从模拟数据源得到的。该编码在块边界(200,210,220,230)上的像素颜色和/或亮度中引入不连续,从而导致质量显著恶化和带宽的低效使用。利用与先前所使用的相同的块和像素结构对数据编码,可以使得这些不连续实际上不可见,从而基本上消除这些问题。为此,对接收到的数据进行处理(300)从而检测先前编码和解码的数据内包含的伪像,通过分析这些伪像可以提取出关于由先前编码处理(100,105,140)在数据上施加的结构信息(200,210,220,230)的信息,并通过参照这些提取出的结构信息来编码所接收到的数据。

Description

用于编码图像和/或音频数据的方法及设备
本发明涉及用于编码从一个源接收到的数据的方法及设备,其中该编码是对数据施加一种结构的类型,所述结构并未在所接收到的数据中定义。本发明特别应用于例如使用MPEG编码对数字化的图像或音频数据进行基于块的压缩,所述数字化的图像或音频数据是由模拟源得到的。
众所周知,图像,尤其是电视和视频记录应用的运动图片序列,可以以模拟或数字格式被传输和存储。数字化传输和存储对于专业的和消费者的应用正变得越来越切实可行。通常都需要将模拟源的图像进行数字化和编码以便用于传输或存储,反之亦然。这些图像可以是例如由数字摄影得到的、或者是由胶片或纸张扫描得到的静止图像,也可以是由运动图片序列形成的图像流。由摄像机或记录装置得到的数字视频可以被转换成模拟的形式用于广播,然后被再次转换成数字的形式用于存储,例如存储在家用数字录像机(DVR)设备中。
数字传输和存储系统通常使用基于块的压缩方式(例如JPEG或MPEG-2)来实现在可用的传输带宽和存储容量范围内的可以接受的图像质量。JPEG是一种基于对像素数据组、块执行离散余弦变换(DCT)的视频压缩系统。MPEG-2是一种基于相同原理的运动视频压缩系统。为了实现充分的数据压缩,对表示每个像素块的DCT系数进行自适应量化和可变长编码(VLE)。将这些块每四个分成一组,形成“宏块”,从而色度(颜色)分量可以以亮度(辉度)分量的空间分辨率的一半来表示。这些技术可以被应用在静止图像(JPEG)和运动视频(MPEG)中。对于运动图片,在宏块的基础上执行运动补偿的帧间预测编码来实现进一步的压缩。
由于量化,这些压缩系统都是“有损”的系统,因此被编码的数据在解码之后与编码之前的原始数据并非完全一样。这本身可以表现为像素的亮度差异和/或色度差异,所有这些通常都表现为重建图像中的噪声。在JPEG和MPEG这样的基于块的压缩系统中,一种特别显著的噪声就是出现在块边界处的像素颜色和/或辉度的不连续性。这些伪像在这里将被称为“块噪声”。人眼对这种对比度的突然变化非常敏感,例如以叠加在普通的运动图像上的格状图案形式出现的样子。例如EP0998146A中就描述了一种设备,用于检测块噪声和平滑块边界处的不连续性,从而使被观看图像中的块边界的突出性最小。
压缩编码器通常在图像质量和传输带宽或文件大小之间实施一种连续的折衷办法。可提供的图像质量很大程度上依赖于源图像的内容和质量。源图像中的噪声会导致质量的显著恶化,因为比起系统所设计用于的更为相关的信号,要表示随机特征的代价固有地更高。另一方面,对已用所述方法编码过的图像进行重复解码和再次编码并不会必然导致更大的恶化,因为剩余的信息已经适合于再编码处理在可用带宽内所能再现的内容。尽管被再次编码的图像可能包含显著的块噪声,例如由于每个块都由DCT处理单独处理,这些伪像可能在再编码图像中被再现,但它们不会被混合,也不会消耗任何额外带宽,因为它们对再编码器来说实际上是“不可见的”。
然而发明者已经认识到一个问题,其中包含块噪声的解码图像是以模拟形式被传输或存储的,然后再被提供到编码器用于数字传输或存储。这种情况下,在源图像中存在的块噪声伪像和编码器提供的块边界之间通常并不对准。结果,编码器将把块噪声“看作”将被编码的信号的一部分。然后,不仅在编码的图像中会再现这种块噪声,而且要表示在编码器的像素块中的这些明显的不连续性所需的带宽将减少表示真实图像内容的可用带宽,从而导致图像质量的显著恶化。在解码该图像的过程中,将包含两组块噪声,并且任何通过模拟信道的进一步传输和再编码将会使该问题更加严重。
当根据MPEG-2这样的基于块的编码方法来处理运动视频时,一个帧序列被作为一个理论上采用了不同的编码方案的图片组(GOP)进行编码。所述编码方案通常包括:内部编码的“I”帧,这种帧仅使用来自其自身的信息进行编码(类似于JPEG);预测编码的“P”帧,这种帧基于先前的I帧使用运动矢量进行编码;以及双向预测编码的“B”帧,这种帧根据对序列中先前的和以后的I帧和/或P帧的预测进行编码。编码方案的选择及其排列顺序将根据传送运动视频所使用的通信介质的完善性来决定。例如,若信道存在很高的破坏的可能性,则有可能在GOP中重复比对于更安全链路所使用的更多的“I”帧,从而可以在中断时快速重建图像。
理想情况下,为了在解码和再编码步骤中实现最大压缩和最小恶化,将在所有的编码级中使用相同的GOP序列。EP0106779A试图与数字视频信号一起发送“历史”数据,从而可以根据原先数据流的GOP结构来执行再编码。然而,若这些图片已经在此期间通过了模拟域,那么就不能提供这种历史数据。当发生这种情况时,原先作为I帧的帧就可能被作为B帧或P帧来编码,原先的B帧或P帧随后可能被作为I帧来编码。通常这样会导致图片质量的损失,如果重复执行解码和再编码处理的话这将会更为严重。
在对可能已经过先前压缩的模拟源的音频数据进行编码时也会出现类似的问题。例如,许多音频压缩系统将音频样本流划分为许多短块,这些短块类似于像素块但却是一维的,音频压缩系统根据每个块的频谱内容对每个块进行编码。这种情况下,这些块代表的是时域结构而不是空间结构,但块边界伪像的存在和带宽挪用问题仍会带来与上述问题类似的问题。
因此,本发明的一个目的是提供了改进的方法和设备,用于对得自模拟源的例如图像和声音这样的数据执行基于块的编码,特别是提供了能够保持先前已经进行了基于块的编码并包含块噪声或其他结构化伪像的图像/声音的质量的方法。
根据本发明的第一方面,提供了一种对从源接收的数据进行编码的方法,其中该编码属于对数据施加一种结构的类型,该结构并未在所接收到的数据中定义,该方法包括以下步骤:
分析所接收的数据,以检测该数据中包含的伪像,该伪像指示该数据先前已经过了相同类型的编码和解码处理;
通过分析所述伪像而提取关于由所述先前编码处理施加在该数据上的结构的信息;
参照所提取的结构信息而对接收的数据进行编码。
可以执行该编码步骤以便能够使由该编码处理施加的结构和由先前编码处理所施加的结构之间的对准最大化。
从以下的例子可以看出,通过使用和以前相同的结构进行编码,能够使图像或音频数据在减小了质量恶化的情况下通过一个包括多个编码/解码级的系统传播。本发明的一个特别优点是,能够避免由于对先前编码处理中的伪像进行不必要编码而造成的带宽消耗。
当接收的数据表示图像时(例如是通过模拟的传输或存储处理接收的图像),则由该编码处理施加的结构可能包括一种空间结构,其中图像的像素按块进行处理,并且执行编码以便能够使该编码处理的块边界与存在于所接收的图像数据中的作为先前编码的结果的块边界伪像基本上对准。
该编码处理可以属于施加一种空间结构的类型,在该空间结构中像素块被分组成为宏块。这种情况下,可以执行编码以便能够使该编码处理的宏块边界与存在于所接收的图像数据中的作为先前编码的结果的宏块边界伪像基本上对准。在通过JPEG或MPEG得到图像数据中,宏块边界的伪像只能在图像数据的色度分量中检测到,而不是亮度数据。术语“块”应当被解释为包含“宏块”,除非上下文中需要其他的解释。
在图像的色度和亮度分量之间的相对分辨率没有预先固定的情况下,在色度和亮度分量中分别对块边界伪像进行检测,也将允许把确定相对分辨率作为一个预备步骤。作为对以上述方式对准块边界的替代或(优选地)补充,这样做可以用来以相同的参数设置编码器。
所接收的图像数据可以(附加地)是图像的一个运动图片序列。这种情况下,可以完全通过对当前图像的分析、完全根据先前图像、或先前图像和当前图像的结合来获得用于每个连续图像的结构信息。可以根据情况来选择所述实施例。第一选项考虑到帧和帧之间结构的抖动,但很难识别以下结构,在该结构中图像数据的内容在给定的帧中缺少很强的伪像(例如场景之间的空白图像)。第二选项可以避免这个问题,同时仍然能够允许编码器适应伪像结构相对于所接收图像数据的较慢漂移。
分析所接收数据的步骤可以包括存储图像的全部或至少一大部分以及执行频谱分析以便识别指示块边界噪声存在的周期性分量。提取结构信息的步骤可以包括分析所述图像,以便确定那些伪像的间隔(频率)和位置(相位)。若图像数据被存储在一个图像存储器中以用于分析,则频谱分析可以包括对所存储的数据执行快速傅立叶变换(FFT)。
可以利用对数据预先处理从而产生具有标准化结构的数据的多个独立步骤来执行编码步骤。这样可以允许应用通用编码处理(软件和/或硬件)而不需要进行修改。例如,在MPEG编码处理中,编码器通常应用从图像左上角像素开始的8×8/16×16的块/宏块结构。可以通过完全在数字域对图像数据再采样来执行所述预先处理步骤。为了这一目的可以执行滤波以便插入像素值。当一开始从模拟进行数字化的时候,可以对接收到的数据执行过采样,从而最小化再采样步骤中质量的损失。
在编码开始之前可以对整个图像执行再采样,或者可以在读出像素数据以进行编码的过程中执行再采样。
在所接收到的图像数据代表运动图像序列的情况下,编码处理所施加的结构可以为时间结构(GOP结构),在该结构中,对序列中的不同图像的处理不同,执行编码从而将与先前编码处理所应用的GOP结构基本相同的GOP结构应用于该序列。或者,可以执行编码从而应用不同的GOP结构,该GOP结构与先前编码处理中所用的GOP结构不同但在时间上相关。实际上,分析伪像可以区分内部和帧间编码的图片。
通过分析在存储器中完整存储的多个图像可以执行分析GOP结构,或者可以通过仅保持过去图像的参数并相对于这些参数分析当前图像也可以执行分析。可能只有在分析该序列中几个帧之后,才能识别该GOP结构。内部编码的图片通常很有规律地出现,并包含更多高频分量,按照这种方式可以对其进行识别。注意用于编码处理的DCT设备可用于测量所述高频分量。另一方面,为了该目的提供多个独立滤波器可能更简单,从而保持通用编码器并减小设计工作和不确定性。设计者可以选择:或者将编码延迟直到确定了GOP结构为止;或者不参考该GOP结构即开始编码。如果需要,当具有足够的可用信息时,即可以开始对准该结构。很明显后一个选择更好,特别是当馈送TV传输以便同时显示时,此时可以将具有或不具有编码伪像的视频片断一起自由编辑。
所接收到的数据或者也可以包含音频数据。编码处理所施加的结构可以包括时间结构,其中将音频信号的多个样本按块处理,每个块表示一个较短时间间隔,执行编码从而基本上将编码处理的块边界与作为先前编码处理的结果而存在于所接收到的音频数据中的块边界伪像的对准最大化。在上述或下面将描述的图像处理的实施例中应用的原理通常都可应用于音频编码处理。一个区别就是音频数据是一维的且连续的,而不是在可以被彼此孤立地处理(如果希望的话)的独立图像帧中组织的二维数据。因此适用于音频流的方法将是连续变化的,其中将持续地(on-going)检测伪像的存在和位置,且可以持续地适配编码步骤以便随着时间而不是在数据流中的每个部分中使块边界的对准最大化。
因此,在音频数据的情况下,分析步骤可包括琐相环(PLL)处理,该处理用于检测以及随后锁定连续数据流中的块边界伪像。编码步骤可包括第二锁相环路或相似的用于随着时间逐渐地将编码处理的块边界与所检测到的块边界伪像对准最大化的处理,从而避免由编码步骤施加的块结构中的突然不连续。
本发明还提供一种用于编码数据的设备,该设备适于实现上述根据本发明的方法。
该设备包括数字录像机或数字录音机。
如上所述,利用预处理和通用编码处理或处理设备,可以实现本发明。
因此,本发明还提供一种用于对从源接收到的数据进行预处理的方法,该数据随后应用于编码处理,该编码处理将在数据上施加一种结构,该结构并未在所接收到的数据中定义,该方法包括以下步骤:
-分析所接收到的数据从而检测数据中包含的伪像,所述伪像指示该数据已经经过了相同类型的先前的编码处理;
-通过分析所述伪像从而提取出关于由所述先前编码处理在数据上施加的结构的信息;
-参照提取出的结构信息来处理所接收到的数据,从而将由先前编码处理所施加的结构和预定结构之间的对准最大化。
于是具有通用编码设备或软件的消费者原则上可以另外添加预处理能力。在将该数据作为数字TV或音频广播信号传送之前,播送者也可以执行预处理,从而具有通用编码设备的用户就可以不需要在自己一方投资的情况下从本发明获得利益。
上述描述的特定实施例可以按照这种形式的方法来应用。相似地也可以提供一种预处理设备。
本发明还提供了一种计算机程序产品,包括用于使可编程计算机按照前述任何方面执行本发明的特定方法步骤和/或设备特征的指令。该计算机程序产品可以独立于任何计算机硬件被提供,也可以以记录载体或通过网络以电子形式提供。
下面将参照附图以例子的方式来说明本发明的实施例,其中
图1示出在基于块的编码之前具有平滑边缘的原始图像;
图2示出在有损耗的基于块的编码之后的图1所示的图像;
图3示出在图2所示的实际图像中存在的块噪声;
图4示出一种具有多个编码和后续解码级的典型系统,它用于将模拟运动视频通过具有有限带宽的通信链路从源发送给用户;
图5示出图像经过图4系统中多个不同级(A,B,C)后,对于该图像的块边界的影响;
图6示出本发明的改进后的编码器,用于检测编码参数以便随后在基于块的编码中使用;
图7示出图6所示的编码器的边界边缘检测器的方块图;
图8示出在经过典型基于块的编码后的图像中可能出现的一些可检测的边界;
图9示出图8的可检测边界,其中内插有图7的边界边缘检测器以便形成编码栅格;以及
图10示出根据检测到的和插入的块边界来推导出像素时钟。
图像处理系统设计者的一个目标是,使得随着信号通过系统而在该信号中引入的噪声量最小化。
目前有多种技术可以在显示视频图像之前抑制该视频图像中的噪声。例如,低频滤波器可以降低任何高频(因此是显著的)过渡的陡峭度,从而使图像视觉更能接受。但是,这样做也会降低整个图像的带宽,从而导致锐度更小并因而恶化的图像。
或者,我们最好使噪声生成本身最小化,而不是在噪声进入系统之后再试图抑制它。当前有多种屏蔽技术可以最小化系统的噪声拾取,但是使系统自身的噪声生成最小化会更有难度。使用基于块的编码的图像压缩实际上自身就会生成一定量的噪声,在信号经过该系统时这些噪声可以传播,在特定环境下这些噪声还会加强。
图1示出基于块的编码之前所得到的图像。其中的线用于描述高对比度变化的区域。线和曲线都是平滑的。(从中得到该图像的原始图像也表现出很宽的动态色调范围)。
图2示出当利用例如JPEG等基于块的编码将图1所示的图像压缩为缩小的文件大小之后,图1所示的图像。同样,其中的线仍然描述了高对比度的点。本领域技术人员可以理解如果该图像是从运动视频序列中选择出来的一个图像,则所使用的压缩可以是MPEG编码。由于该编码方案是“有损耗”的,因此会在图像中引入很多伪像。例如,突入这些线中的尖锐对象。平滑线已被锯齿状的边缘所代替。
原始图像的较宽色调范围也被具有均匀色调(未示出)的较小方块所替换。因此,在所选择区域范围内灰度的平滑过渡现在由不同的均匀色调值的跃变所代替。这些块之间的有些跃变具有足够大的差异,以致在图像中变得非常显著。
图3示出在边缘检测器处理之后的图2所示的图像。该图像是通过检测相邻像素之间具有高对比度的点而得到的。如果对图1所示的原始图像执行该处理,则它将变得与图1所示的图像非常相似。但是,当对图2所示的经过基于块的编码后的图像执行该处理时,除了基本图像之外我们可以很清楚地发现具有相等尺寸和形状的多个清晰地确定的块。这些块涉及8×8像素的像素组,并且由于它是在块之间的可检测过渡处发生,因此也被称为“块噪声”。
基于块的压缩方案可以通过对图像中的多个区域分别编码来减小图像文件的大小(和/或经过有限带宽载体传送图像所需的带宽)。对每个块进行处理从而消除传送图像所不需要的那些信号分量(通常为高频)。通过仅传送相对于前一帧有所变化的图像数据,进一步压缩运动序列。通过以规定时间间隔发送新的参考帧来减小累计误差。下面将描述这种处理运动视频的方法。
由于用于每个块中每个像素显示的重建仅是对其原始值的近似,因此每个图像中的各块都是可见的。这是因为编码处理已经丢弃了用于再现该块的某些数据。所选择的压缩越大,块内每个像素值的最终近似就越大。由于原始图像中像素之间的平滑渐变已经被像素值的跃变替换,因此相邻块将变得可见。改变像素值相对于其原始值的偏差将导致跃变变得更为可见。
图4示出一种典型的视频产生、处理和分配系统。多媒体源100被摄制(105)并被提供给工作室110进行处理。随后在家庭环境中发送(120)和接收(130)该视频以便解码(140)和显示(150)。可选地,可以将该视频记录(160)下来以便以后观看。该系统包括多个基于块的编码和随后的解码级(A,B,C)以便在该系统中通过具有有限带宽的通信链路传送运动视频。
在所示的例子中,多媒体源100是利用外部广播单元摄制的,并且所产生的模拟视频被记录在录像带上。该录像机使用MPEG编码来压缩视频,以便使用较小的盒式磁带提供足够的记录时间。这是本示例系统中基于块的编码的第一级(A)。然后将该录像带105转移到工作室110,在此将其解码回模拟视频。此时由于现有编码和随后的解码处理的效率低,在该模拟视频中将引入很多伪像。
一旦工作室通过例如与其它多媒体内容混合而对该视频进行处理之后,将信号(传输)120给用户130。该传输包括另一个基于块的编码级(B)(例如MPEG-2),因为每个传输信道的带宽可能是受限制的。用户接收到该信号,然后将该信号解码(140)从而提供模拟视频VID用于由监视器150显示。用户可能希望记录监视器上正在显示的视频,并且也有无盒式磁带记录设备160,例如使用硬盘驱动器存储数字化视频。利用基于块的编码再次(C)压缩该视频VID,以便最大化地利用硬盘驱动器的容量。当随后显示时,可以按照与前面两级相似的方式来重放和解码该视频。
经过该系统的视频信息需要经过三个基于块的编码级(A,B,C)和随后解码,其中信号以模拟形式在各级之间传送。由于使用模拟视频,各级之间不需要传送这样的信息,所述信息允许在每个编码级处根据相同规则对相同图像的像素进行编码、从而是与先前编码级完全相同的方式进行编码。
图5示出图像在经过图4所示系统的不同级(A,B,C)之后,对其块边界的影响。实线200表示第一编码/解码级所使用的块边界。虚线210、220和230表示随后的编码/解码级所使用的块边界。我们可以发现这些块边界位于图像帧内的不同位置。这是因为块边界的位置由不同因素决定,例如时钟速度、图像大小和图像偏移。当将模拟信号数字化时,例如由温度等录像机磁带传送机构的环境因素导致的时基上的变化可能导致边界在一定时间段内彼此相对运动。
这些变化边界的结果就是使图像序列中图像的质量降低。这是因为在先前的基于块的编码/触码级中引入了块边界伪像200,并且在后面的任何编码级中将这些伪像作为有意义的图像内容数据来对待。
为了解决这个问题,本发明的发明人发现:使用与先前编码级所用的块和像素结构相同的块和像素结构对模拟图像编码,可以有效地使块边界伪像对于编码器来说不可见,其中该编码器基本上将每个像素块看作独立单元。由于其它编码级将第一编码级中引入的伪像作为图像内容来看待,从而不消耗带宽,因此就可以在不影响带宽要求的情况下显著提高图像质量。
本发明的发明人还发现可以分析模拟图像来确定是否以前已经使用基于块的图像压缩系统对该模拟图像进行了编码,并使用分析结果来指导编码处理。
图6示出改进的编码器,用于执行两个主要的功能:a)分析输入的模拟视频IV以便检测在先前编码级中所使用的编码参数,例如块和像素边界以及像素时钟;和b)使用检测到的编码参数来指导输入视频的基于块的编码。
边界边缘检测器BED300用于分析输入的模拟视频以便确定编码参数,例如每个图像内的水平“H”和垂直“V”块边界,并根据这些边界得到像素时钟“CLK”,该像素时钟直接对应于每个块内像素的位置。以前也有人尝试分析模拟视频以便抑制块噪声,其中的一个例子在EP0998146A中示出。在先前已经被基于块编码的视频帧内的可检测水平和垂直块边界被用于抑制块噪声,但仅仅是与这些检测到的边界相邻的块噪声。
边界边缘检测器BED300包括数字化和存储前端DIG/BUF304,可以访问该DIG/BUF304以便分析从而确定边界边缘,并且该DIG/BUF304作为基于块的编码器的数字视频数据的源。
在一个实施例中,控制器还根据所接收到的图像数据中的伪像来检测GOP结构,然后该控制器还指导编码器去在新的编码中施加对应的GOP结构。BED和编码器控制器(未示出)之间可以通过接口传送该GOP结构。但是,也可以使用关于该GOP结构的信息来在GOP结构或量化强度方面影响编码器,但是并不严格规定用于编码处理的GOP结构。MPEG编码处理往往需要一定自由度来选择GOP结构,从而例如控制带宽。
编码器的各处理级包括基于块的编码器的传统级;它们是离散余弦变换(DCT)320、量化(Q)330、游程可变长度编码器(RL-VLC)340、比特流缓冲器(BB)350、逆量化(IQ)360、逆离散余弦变换(IDCT)370、运动补偿器(MC)380、运动估算(ME)390和帧存储器缓冲器(BUF)400。从比特流缓冲器BB350中得到出输出流OS,该输出流OS对应于基于块编码后的视频数据流。
图7是数字边界边缘检测器BED300的方块图,其中图像为数字化后的DIG600,它被存储器BUF610、620双重缓冲,并被处理器PROC630处理以便获得块边界H、V和像素CLK。该处理器可以为DSP或FPGA解决方案。
本领域技术人员知道多种技术可以用于分析图像数据以便获得块边界伪像,包括例如前面在EP0998146A中详细说明的示例技术。在第一实施例的改进编码器中,检测到的边界H和V以及像素时钟CLK特别用于将图像的结构标准化为与编码器兼容的结构。该编码器并不对与边界临近的块噪声进行抑制。相反,通过使用图像存储器和边界边缘检测器,可以确保使用与以前所用边界相同的边界执行编码。这样做可以确保在图像经过不同编码级时使用相同的边界对各块进行编码,避免将块边界作为图像数据进行编码。但是本领域技术人员应当知道这并不排除在其它实施例中引入用于抑制块噪声的其它方式。
编码级为传统的基于块的编码器,例如用于执行运动视频MPEG编码的基于块的编码器。该编码器可以被选择成根据例如VGA、或SVGA等不同显示标准来操作,虽然其它实施例可以包括通过分析受到定时信号影响的定时来从许多输入视频标准中自动检测视频标准,其中该定时信号是通过检测块边界和像素时钟偏差而获得的。
输入视频的每一帧包含多个可检测的边界,边界边缘检测器BED300能够检测和使用所述边界以便得到所有的边界边缘。
图8示出单个图像帧内的可检测的边界。人们可以发现存在妨碍检测完整栅格的间隙。在上述欧洲专利EP0998146A的公开内容中,如果在这些区域中不能检测到边界是没有关系的,因为这些间隙中不存在需要被抑制的块噪声,因此不需要获得一个完整的栅格。但是,由于在每个视频帧内的所有块和像素都需要精确的定时,因此在改进编码器的各实施例中需要完整的栅格。
图9示出图8中的图像,其中在可检测的边界(虚线表示)之间插入了图7的边界边缘检测器从而形成编码栅格。
图7中所示的数字BED300按照适当的速率将模拟图像数字化,并将其存储在帧存储器中。按照Nyquist理论,取决于BED正确地确定图像内的块边界的真实位置所要求的精度,数字化速率可以约为图像带宽的两倍,或者更高。然后处理该图像(当正在将其载入存储器时,或完整的帧已经被存储时)从而获得该块结构。用于实现这一目的的方法是众所周知的,这些方法包括在图像上传递的加权的滤波器内核(系数的小阵列)。可以适当使用双缓冲来保持连续性。在这种情况下,一个缓冲器被处理用于得出块和像素结构,另一个加载有下一帧。根据正在被处理的视频标准,按照帧速率或场速率切换这些缓冲器。像素时钟由频率合成器提供,并由处理器控制和根据所测量得到的块结构而获得。
图10示出可检测的水平边界(H)、不可被检测到的边界的估算位置(Hest)、用于随后处理而得到的边界(Hder)和像素时钟CLK,该像素时钟CLK由处理器630输出并对应于输入视频的每一帧内的像素。该时钟是通过在数字处理器核心630内进行数字合成而获得的,但是其它方法也是可用的。假设时钟没有偏离接近像素边界,则小程度的变化是可以接受的,否则编码器视频数字化器的配置和保持定时将可能受到损害。
处理器可以使用三个所获得的水平边界H、垂直边界V和像素时钟定时CLK来将新的编码处理的块边界与前一级所使用的块边界对准。它们被作为基本定时信号使用,根据它们可以获得所有其它BED300定时信号。因此,当输入视频的基本定时改变时(例如,由于在重放期间录像带的抖动和颤动,或者更长时间内的变化),该处理的定时将改变以便适于连续地跟踪输入定时。
通过修改像素结构以便对准所获得的边界,可以准备图像以便用于编码。这可以有多种方法实现,例如通过应用“Warp”功能(该功能用于利用非线性像素映射来再采样图像);或者通过在从帧存储器中提取出数据以将其提供给编码器的情况下修改该读取编址。本领域技术人员应当知道,通过在存储期间进行预处理或者通过修改数字化速率和/或写入编址参数,可以实现相同的效果。
输入定时中的显著变化(例如由视频信号中断所造成的变化),将引入用于调整的较小过渡周期。在该过渡周期期间定时不可能精确,并且也不可能实现块边界的精确重叠。
利用与原先在先前编码步骤中使用的相同的块边界和像素时钟对视频进行编码可以确保不会将块边界作为图像数据编码。相反,它们是被传输的伪像,但在后续的编码级中不会被加重。因此,每个块的编码将主要包括与先前编码级中所使用的频率分量相同的频率分量。如果块边界栅格的位置是近似的,则上述情况将不会发生,而将块边界作为图像数据编码。因此,就不可能实现相同级别的压缩。这样,随着图像在整个系统中传播,对应于每个图像的文件大小将增加,或者当带宽有限时,随着图像在整个系统中传播,压缩级别将不得不一直增加以便适应有限的可用带宽,从而使得图像质量在源和目标之间恶化。
应当注意MPEG-4标准允许根据图像内每个区域的特性而使块尺寸在单个图像内变化。这些可变块尺寸以“四分树(quad tree)”的形式位于原始MPEG块结构的顶部。在这样的实施例中,BED300可被适配成识别可变尺寸块。或者BED300可仅被安排成识别图像内的最小块结构,并利用时钟对准这些像素。如果BED300后面的编码器为MPEG-4或类似编码器,则该编码器可以根据其自己的分析施加相似的块结构。
作为另一个实施例,对于运动视频,关于正被分析的各图像是否被编码为I帧、B帧或P帧,可以根据输入信号来确定图片组(GOP)结构。与图6实施例中孤立操作不同,在本实施例中基于块的编码器将这些参数反馈给边界边缘检测器BED300以便补充对每个图像的分析。
用于区分不同帧的参数如下:I帧通常比P帧质量更好,P帧又通常比B帧质量更好。I帧通常比P帧或B帧包含更高质量的高频内容。I帧通常在GOP序列中以固定时间间隔出现,因此在这个频度下可以检测到块噪声下降,并且检测到高频图像内容增加。
按照非常相似的方式对数字化后的音频数据(PCM)进行处理。可以按照适当的速率(或者是固定的,或者是如上所述按照与用于视频处理相似的方式修改后的)对音频信号数字化,并将流存储在单维阵列中。对所存储的数据执行分析从而获得块边界伪像,将适当对准后的数据传递给音频编码器以进行后续编码。
通过搜索在B帧或P帧而非I帧中存在具有运动属性的(motion-attributed)伪像,可以检测到其他帧。例如,图像撕裂很常见,其中运动对象中存在不连续性。
利用边界边缘检测器BED300可以测量每一帧中的块噪声的量,通过分析编码器的DCT320所产生的DCT系数,可以获得每一帧的频率内容。并且通过分析所关心的区域中的块噪声的模式、分析图像自身的一部分以便搜索不连接的对象、或分析编码器运动补偿器MC380和/或运动引擎ME390内的运动数据,可以获得运动属性。改进后的编码器针对每一帧分析这些属性,并使用这些属性获得与GOP序列相关的模式。
然后使用所获得的GOP序列来设置GOP序列以便编码,或至少使用所获得的GOP序列作为参照来影响GOP序列(例如,将每第12个I帧同步,并使控制该编码器的装置选择GOP序列的剩余部分)。
本领域技术人员应当知道,在上述方法和设备的原则下可以进行多种变化。因此应当理解,本文中所述的实施例仅作为用于帮助理解的例子,并不用于限制本发明的范围。

Claims (18)

1.一种对从源(100,105,140)接收的数据进行编码的方法,其中该编码属于对数据施加一种结构(200,210,220,230)的类型,该结构并未在接收到的数据中定义,该方法包括以下步骤:
-分析(300)所接收的数据,以检测该数据中包含的伪像,所述伪像指示该数据已经经过了相同类型的先前的编码和解码处理(105,110,140);
-通过分析所述伪像而提取出关于由所述先前编码处理施加在该数据上的结构的信息;
-参照所提取的结构信息而对接收到的数据进行编码。
2.如权利要求1所述的方法,其中所接收到的数据表示图像(IV),例如是通过模拟传输(120)或存储(160)处理接收到的图像,由该编码处理施加的结构(200,210,220,230)包括其中按块对图像像素进行处理的空间结构,执行所述编码以便能够使该编码处理的块边界与存在于所接收到的图像数据中的、作为先前编码处理的结果的块边界伪像基本上对准。
3.如权利要求1或2所述的方法,其中该编码处理属于施加一种空间结构的类型,在该空间结构中像素块被分组成为宏块,执行所述编码以便能够使该编码处理的宏块边界与存在于所接收到的图像数据中的、作为先前编码处理的结果的宏块边界伪像基本上对准。
4.如前述任一权利要求所述的方法,其中所接收的图像数据是图像的一个运动图片序列,并且完全通过对先前图像和当前图像中的至少一个进行分析(300)来获得用于每个后续图像的结构信息。
5.如前述任一权利要求所述的方法,其中当一开始对模拟信号数字化(600)的时候,对所接收到的图像数据进行过采样。
6.如前述任一权利要求所述的方法,其中在所接收到的图像数据代表运动图像序列的情况下,由编码处理所施加的结构是时间结构(GOP结构),在该时间结构中,序列中的不同图像的处理不同,执行该编码从而将与先前编码处理中所应用的GOP结构基本相同的GOP结构应用于该序列。
7.如权利要求1到6中任何一个所述的方法,其中执行该编码从而应用一个不同的GOP结构,该GOP结构与先前编码处理中所用的GOP结构不同但在时间上相关。
8.如权利要求6或7所述的方法,其中对伪像的分析区分内部编码图像和帧间编码图像。
9.如权利要求6、7或8中的任何一条所述的方法,其中通过分析在存储器(610,620)中完整地存储的几个图像来执行对GOP结构的分析。
10.如权利要求6,7或8中的任何一条所述的方法,其中通过仅保持过去图像的参数并关于这些参数分析当前图像来执行所述分析。
11.如前述任何权利要求所述的方法,其中所接收到的数据包含音频数据,由编码处理所施加的结构包括时间结构,在该时间结构中将音频信号的样本按块处理,每个块代表一个较短时间间隔,执行该编码从而将编码处理的块边界与作为先前编码处理的结果而存在于所接收到的音频数据中的块边界伪像的对准最大化。
12.如权利要求11所述的方法,其中持续地在音频数据中检测伪像的存在和位置,并且持续地适配编码步骤以便随着时间使块边界的对准最大化。
13.如权利要求11或12所述的方法,其中分析步骤可包括琐相环(PLL)处理,该处理用于检测然后锁定连续数据流中的块边界伪像。
14.如权利要求13所述的方法,其中编码步骤包括第二锁相环路或用于随着时间将编码处理的块边界与所检测到的块边界伪像逐渐对准的相似处理,从而避免在由编码步骤施加的块结构中的突然的不连续。
15.一种用于编码数据的设备,该设备适于执行上述的根据本发明的方法。
16.如权利要求15所述的设备,该设备包括数字录像机或数字录音机。
17.一种对从源(100,105,140)接收到的数据进行预处理的方法,该数据随后应用于编码处理,该编码处理在该数据上施加一种结构(200,210,220,230),该结构并未在所接收到的数据中定义,该方法包括以下步骤:
-分析(300)所接收到的数据从而检测数据中包含的伪像,所述伪像指示该数据已经经过了相同类型的先前的编码处理;
-通过分析所述伪像从而提取出关于由先前编码处理在数据上施加的结构的信息;
-参照所提取出的结构信息来处理(630)所接收到的数据,从而将由先前编码处理所施加的结构和预定结构之间的对准最大化。
18.一种计算机程序产品,包括用于使可编程计算机按照在此提出的任何方面实施本发明的特定方法步骤和/或设备特征的指令。
CNA038229374A 2002-09-28 2003-09-12 用于编码图像和/或音频数据的方法及设备 Pending CN1685368A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0222562.1A GB0222562D0 (en) 2002-09-28 2002-09-28 Method and apparatus for encoding image and or audio data
GB0222562.1 2002-09-28

Publications (1)

Publication Number Publication Date
CN1685368A true CN1685368A (zh) 2005-10-19

Family

ID=9944948

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA038229374A Pending CN1685368A (zh) 2002-09-28 2003-09-12 用于编码图像和/或音频数据的方法及设备

Country Status (11)

Country Link
US (1) US20050254692A1 (zh)
EP (1) EP1547016B1 (zh)
JP (1) JP2006500851A (zh)
KR (1) KR20050062570A (zh)
CN (1) CN1685368A (zh)
AT (1) ATE357707T1 (zh)
AU (1) AU2003259499A1 (zh)
DE (1) DE60312711T2 (zh)
ES (1) ES2282729T3 (zh)
GB (1) GB0222562D0 (zh)
WO (1) WO2004029879A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102104777A (zh) * 2009-12-16 2011-06-22 晨星软件研发(深圳)有限公司 区块边界侦测方法及区块边界侦测装置
CN103745443A (zh) * 2014-01-10 2014-04-23 北京优纳科技有限公司 提高图像质量的方法和设备
CN103873880A (zh) * 2012-12-14 2014-06-18 特克特朗尼克公司 用于检测视频序列中的结构化伪像的系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8780957B2 (en) 2005-01-14 2014-07-15 Qualcomm Incorporated Optimal weights for MMSE space-time equalizer of multicode CDMA system
US9197912B2 (en) 2005-03-10 2015-11-24 Qualcomm Incorporated Content classification for multimedia processing
US9955205B2 (en) * 2005-06-10 2018-04-24 Hewlett-Packard Development Company, L.P. Method and system for improving interactive media response systems using visual cues
US8879856B2 (en) * 2005-09-27 2014-11-04 Qualcomm Incorporated Content driven transcoder that orchestrates multimedia transcoding using content information
US8948260B2 (en) 2005-10-17 2015-02-03 Qualcomm Incorporated Adaptive GOP structure in video streaming
US8654848B2 (en) 2005-10-17 2014-02-18 Qualcomm Incorporated Method and apparatus for shot detection in video streaming
US9131164B2 (en) 2006-04-04 2015-09-08 Qualcomm Incorporated Preprocessor method and apparatus
EP2112833B1 (en) 2008-04-24 2014-12-17 Psytechnics Ltd Method and apparatus for measuring blockiness in video images
JP2010206593A (ja) * 2009-03-04 2010-09-16 Sony Corp 画像処理装置、画像処理方法、及びプログラム
US20110038416A1 (en) * 2009-08-14 2011-02-17 Apple Inc. Video coder providing improved visual quality during use of heterogeneous coding modes
US9426477B2 (en) * 2010-02-25 2016-08-23 International Business Machines Corporation Method and apparatus for encoding surveillance video
JP5325164B2 (ja) * 2010-05-25 2013-10-23 日本電信電話株式会社 符号化ブロックサイズ及び位置推定方法並びにプログラム
US10587800B2 (en) * 2017-04-10 2020-03-10 Intel Corporation Technology to encode 360 degree video content
US20210127125A1 (en) * 2019-10-23 2021-04-29 Facebook Technologies, Llc Reducing size and power consumption for frame buffers using lossy compression

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738528B1 (en) * 1998-05-22 2004-05-18 Matsushita Electric Industrial Co., Ltd. Block noise detector and block noise eliminator
JP2001218213A (ja) * 2000-01-31 2001-08-10 Mitsubishi Electric Corp 画像信号変換符号化装置
JP2002014697A (ja) * 2000-06-30 2002-01-18 Hitachi Ltd ディジタルオーディオ装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102104777A (zh) * 2009-12-16 2011-06-22 晨星软件研发(深圳)有限公司 区块边界侦测方法及区块边界侦测装置
CN102104777B (zh) * 2009-12-16 2016-10-05 晨星软件研发(深圳)有限公司 区块边界侦测方法及区块边界侦测装置
CN103873880A (zh) * 2012-12-14 2014-06-18 特克特朗尼克公司 用于检测视频序列中的结构化伪像的系统
CN103873880B (zh) * 2012-12-14 2018-11-27 特克特朗尼克公司 用于检测视频序列中的结构化伪像的方法和设备
CN103745443A (zh) * 2014-01-10 2014-04-23 北京优纳科技有限公司 提高图像质量的方法和设备

Also Published As

Publication number Publication date
JP2006500851A (ja) 2006-01-05
ATE357707T1 (de) 2007-04-15
DE60312711D1 (de) 2007-05-03
ES2282729T3 (es) 2007-10-16
AU2003259499A1 (en) 2004-04-19
WO2004029879A1 (en) 2004-04-08
KR20050062570A (ko) 2005-06-23
EP1547016A1 (en) 2005-06-29
DE60312711T2 (de) 2008-04-03
EP1547016B1 (en) 2007-03-21
US20050254692A1 (en) 2005-11-17
GB0222562D0 (en) 2002-11-06

Similar Documents

Publication Publication Date Title
CN1685368A (zh) 用于编码图像和/或音频数据的方法及设备
CN1151681C (zh) 具有mpeg编码解码器的数字记录和回放装置及其方法
US8358701B2 (en) Switching decode resolution during video decoding
US7072512B2 (en) Segmentation of digital video and images into continuous tone and palettized regions
KR101599875B1 (ko) 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치
CN1254952C (zh) 数字信息的高效传输和重放
US8254702B2 (en) Image compression method and image processing apparatus
CN1170436C (zh) 压缩图像比特流的变码方法
CN1156167C (zh) 运动图象编码方法和运动图象编码设备
US8385427B2 (en) Reduced resolution video decode
JP6979075B2 (ja) ビデオデータを符号化及び復号するための方法、装置及びシステム
CN1267817C (zh) 用于衰落补偿的信号指示
CN1256048A (zh) 用于视频图像的误差消除方法和装置
CN1086069A (zh) 图象信号编码与解码方法以及图象信号编码与解码装置
MX354997B (es) Ponderacion adaptable de imagenes de referencia en codificacion de video.
CN101385334A (zh) 图像捕捉设备和方法、记录设备和方法及再现设备和方法
CN101924890B (zh) 图像处理设备和图像处理方法
CN1366778A (zh) 视频压缩
CN101969557B (zh) 图像记录设备、图像记录方法
CN1643608A (zh) 已编码a/v序列的编辑
JP2006527518A (ja) ビデオ圧縮
CN1929609A (zh) 运动图像信号编码装置、运行图像信号编码方法以及计算机可读记录介质
CN1249623A (zh) 运动图象记录/再现装置
JP4225957B2 (ja) 映像符号化装置及び映像符号化方法
CN1338235A (zh) 基于分段的视频压缩编码的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication