CN101361369A - 用于视觉信号外插或内插的系统和方法 - Google Patents

用于视觉信号外插或内插的系统和方法 Download PDF

Info

Publication number
CN101361369A
CN101361369A CN200780001774.4A CN200780001774A CN101361369A CN 101361369 A CN101361369 A CN 101361369A CN 200780001774 A CN200780001774 A CN 200780001774A CN 101361369 A CN101361369 A CN 101361369A
Authority
CN
China
Prior art keywords
pixels
picture
estimation
piece
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200780001774.4A
Other languages
English (en)
Other versions
CN101361369B (zh
Inventor
陆立纲
瓦迪姆·希宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101361369A publication Critical patent/CN101361369A/zh
Application granted granted Critical
Publication of CN101361369B publication Critical patent/CN101361369B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/521Processing of motion vectors for estimating the reliability of the determined motion vectors or motion vector field, e.g. for smoothing the motion vector field or for correcting motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/553Motion estimation dealing with occlusions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/56Motion estimation with initialisation of the vector search, e.g. estimating a good candidate to initiate a search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/89Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder
    • H04N19/895Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder in combination with error concealment

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种用于基于统计相似性估计的视觉信号外插或内插的基于计算机的系统和方法。具体地,提供至少第一和第二参考画面,且在第一和第二参考画面上进行运动估计,以生成指示第一和第二参考画面的至少一个相对于另一个的运动的运动向量。然后使用运动向量通过从第一和/或第二参考画面的外插或内插来生成估计画面,然后可选地细化估计画面。在运动估计或在细化估计画面、或在两者的组合中,使用统计相似性估计,以便提供改进的视觉信号。

Description

用于视觉信号外插或内插的系统和方法
技术领域
本发明总体涉及用于视觉信号外插或内插的系统和方法。更具体地,本发明使用统计学相似性估计用于改进的视觉信号外插或内插。
背景技术
诸如图像、视频和图形的视觉信号的外插和内插已经被广泛地用于各种情境中,所述情境包括但不局限于视频编码、代码转换、错误隐藏、预处理和交互渲染。
例如,Aaron等的Toward Practical Wyner-Ziv Coding of Video,Proc.IEEEINT.CONF ON IMAGE PROCESSING,第869到872页,巴塞罗那,西班牙,9月(2003)、Pur等的PRISM:A NewRobust Video Coding Architecture based onDistributed Compression Principle,ALLERTON CONFERENCE ONCOMMUNICATION,CONTROL AND COMPUTING,(2002)、以及Yaman等的A Low-Complexity Video Encoder with Decoder Motion Estimation,Proc.ICASSP,蒙特利尔,加拿大,(2004)描述了在视频编码应用中外插和内插的技术。2000年5月2日授权给Golin的美国专利No.6058143“Motion VectorExtrapolation for Transcoding Video Sequences”已经描述了在转换代码应用中外插和内插的技术。另外,Peng等的Block-Based Temporal ErrorConcealment for Video Packet Using Motion Vector Extrapolation,InternationalConf on Communications,Circuits,Systems and West Sino Expo,10-14页,6月29日到7月1日,(2002)和2001年9月4日授权给Ozcelik的美国专利No.6285715“Methods and Apparatus for Error Concealment While Decoding aCoded Video Bit Stream”描述了用于视频解码或后期处理(post-processing)应用的错误隐藏中的外插和内插的技术。在视频编码、转换代码、错误隐藏、视频解码和后期处理应用中使用的视觉信号外插和内插方法典型地基于运动信息,且因此分别被称为基于运动的外插和内插方法。
不基于运动的外插/内插方法——其典型地用在其他应用中——包括用于虚拟现实渲染(rendering)的基于模型的视图外插方法、用于预压缩的特征外插方法和视频衰减场景预测方法。例如,在2002年4月23日授权给Acres的美国专利No.6375567“Model-Based View Extrapolation for InteractiveVirtual Reality Systems”描述了基于模型的视图外插方法。在1999年9月7日发布给Chen的美国专利No.5949919“Precompression ExtrapolationMethod”描述了特征外插方法。Koto等的Adaptive Bi-Predictive Video CodingTemporal Extrapolation,ICIP(2003)描述了视频衰减场景预测。
基于运动的外插/内插方法的一个例子是Wyner-Ziv视频编码技术。典型的Wyner-Ziv视频编码系统包括视频编码器和视频解码器。该视频编码器是低复杂度和低功率编码器,因此改为由解码器来执行诸如运动估计的大计算量的信号处理任务。为了实现高效率,Wyner-Ziv解码器需要采用仅解码器知道的源和侧面信息之间的相关性,以便解码接收到的视频信号并重构该视频。源信息是要在编码器处被编码且被传输到解码器用于解码的视频信号(例如画面),且侧面信息本质上是要被解码的画面的估计。由于Wyner-Ziv系统的性能很大程度上取决于侧面信息的可靠性,因此由解码器使用用于生成侧面信息的机制在Wyner-Ziv视频编码系统中扮演至关重要的角色。典型地,解码器首先在先前重构的画面上进行运动估计,以生成一组运动向量,然后使用该运动向量由外插或内插来生成当前解码的画面的估计。该估计作为侧面信息被解码器使用来解码和重构当前画面。
图1是图示公知的基于运动的时间外插处理的图。具体地,为了外插当前画面N,首先对至少两个先前重构的画面、即画面N-2和N-1进行运动估计,以生成针对画面N-1中的每个像素或像素块的一组运动向量,运动向量指示画面N-1和画面N-2之间的像素或像素块的运动(即,“相反的(reverse)”运动)。然后,根据在底层运动模型或假设上建立的预定功能来操纵运动向量。例如,如果假设恒定线性位移(displacement)运动模型,则反转运动向量,且与运动向量相关的像素或像素块从画面N-1中的其位置被外插(即,映射)到在当前画面N的估计中由反转后的运动向量所定义的位置,如图1所示。注意,还可以对于画面N-2中的每个像素或像素块来构造运动向量,以指示画面N-2到画面N-1之间的运动。在这种情况下,然后该运动向量应该被平移(shift),与该运动向量有关的像素或像素块应该从在画面N-1中的其位置被外插或映射到由在当前画面N的估计中的缩放(scale)的运动向量所定义的位置。因此,在映射了画面N-1(或画面N-2)中的所有像素或像素块之后,如上所述的基于运动的时间外插处理创建当前画面N的估计。
图2进一步图示了公知的基于运动的时间内插处理。首先对至少两个先前重构的画面、即画面N-1和N+1进行运动估计,以获得在画面N-1中的每个像素或像素块的一组运动向量,其指示从画面N-1到画面N+1的像素或像素块的运动。然后,基于恒定线性位移运动模型的底层假设缩小运动向量(例如通过因子2),且与该运动向量有关的像素或像素块从画面N-1和/或N+1中的其位置被内插到在当前画面N的估计中的由缩放的运动向量所定义的位置,如图2所示。注意,还可以对于在画面N+1中的每个像素或像素块重构运动向量,以指示在画面N+1和画面N-1之间的运动。在这种情况下,也应该缩小运动向量(例如通过因子2),且与运动向量有关的像素或像素块应该从在画面N-1和/或画面N+1中的其位置被内插到在当前画面N的估计中的由缩放的运动向量所定义的位置。在映射了画面N+1中的所有像素或像素块之后,如上所述的基于运动的时间内插处理也创建了当前画面N的估计。
图3是描述用于实现公知的基于运动的外插和内插的处理步骤的流程图。具体地,首先对从先前重构的画面获得的画面信号进行运动估计,以生成一组运动向量。然后根据底层运动模型或假设,来操纵该运动向量通过内插或外插生成要解码的画面的估计,外插或内插依赖于要被解码的画面和先前重构的画面之间的时间关系。
上述传统的基于运动的外插和内插方法具有许多严重的缺点,包括:
1.物体在画面间遵循恒定运动模型(通常地,线性位移模型)的底层假设对真实的视觉信号经常不成立;以及
2.外插或内插可能不能得到在先前重构的(多个)画面和估计画面之间的一一映射。在被外插或内插的画面(即,估计)中的某些像素位置可能得不到来自先前重构的(多个)画面的任何映射,即留下空洞,而在被外插或内插的(多个)画面中的其他像素位置可能具有来自先前重构的(多个)画面的多个映射,即留下重叠的点。
因此期望提供用于视觉信号外插和内插的改进的系统和方法,而没有传统的基于运动的外插和内插方法的缺点。
发明内容
本发明涉及一种用于视觉信号外插或内插的基于计算机的方法,包括:
提供至少第一和第二参考画面;
在所述第一和第二参考画面上进行运动估计,以生成指示所述第一和第二参考画面的至少一个相对于另一个的运动的运动向量;以及
使用所述运动向量通过外插或内插来从该第一或第二参考画面生成估计画面;以及
细化所述估计画面,
其中在运动估计中或在细化所述估计画面中、或在两者的组合中,使用统计相似性估计。
在本发明中使用的参考画面是可以用于经由外插或内插来构造估计画面的、先前重构的画面。
当在运动估计中使用统计相似性估计时,在所述第一参考画面上的像素块的统计特征被计算并与所述第二参考画面上的一个或多个像素块的统计特征相比较。在所述第二参考画面上的最佳匹配像素块至少部分地基于其与在所述第一参考画面上的像素块的统计相似性来确定,且对于在所述第一参考画面上的像素块来生成运动向量,指示其相对于在所述第二参考画面上的最佳匹配像素块的运动。
当在细化所述估计画面中使用统计相似性估计时,其可以用于填充在所述估计画面上的空像素位置或解决对所述估计画面上的相同像素位置的多个映射。
优选地,但并非必须,采取下列步骤来填充在所述估计画面上的空像素位置:
计算围绕所述估计画面上的空像素位置的相邻块的统计特征;
标识从其生成所述估计画面的参考画面上的搜索区域;
在所述搜索区域内搜索最佳匹配块,其中所述最佳匹配块围绕所述参考画面上的具体像素,且具有与围绕所述估计画面上的所述空像素位置的相邻块的最高统计相似性;以及
利用由所述参考画面上的所述最佳匹配块围绕的具体像素来填充所述空像素位置。
在多个映射的情况下,即存在从其生成估计画面的参考画面上的多个像素,所有像素外插或内插到估计画面上的具体像素位置,以下步骤是可选但并非必须的,用于选择对于在估计画面上的具体像素位置的最佳匹配像素:
计算围绕所述估计画面上的具体像素位置的相邻块的统计特征;
计算每个都围绕所述参考画面上的该多个像素之一的多个像素块的统计特征;
标识围绕所述参考画面上的多个像素的多个块中的最佳匹配块,其中所述最佳匹配块具有与围绕所述估计画面上的具体像素位置的相邻块的最高统计相似性;以及
选择由在所述参考画面上的最佳匹配块所围绕的像素,作为在所述估计画面上的具体像素位置的最佳匹配像素。
可以在本发明中使用的统计特征包括但不局限于:块采样平均、块采样方差和相邻参数等等。
在本发明的优选但并非必须的实施例中,通过根据下式计算统计相似性指标来确定两个像素块之间的统计相似性:
SSI ( P , Q ) = α [ Cov ( P , Q ) 2 - Var ( P ) × Var ( Q ) ] 2 + β [ μ ( P ) - μ ( Q ) ] 2 ,
其中P是一个像素块,Q是另一个像素块,SSI(P,Q)是指示块P和Q之间的统计相似性的统计相似性指标,μ(P)是块P的块采样平均,μ(Q)是块Q的块采样平均,Var(P)是块P的块采样方差,Var(Q)是块Q的块采样方差,Cov(P,Q)是块P和Q之间的协方差,且α和β是加权因子。
可以使用上述统计相似性指标用于运动估计,用于填充估计画面上的空像素,和/或用于解决多个映射问题。
本发明的另一方面涉及一种用于视觉信号外插或内插的基于计算机的系统,包括:
用于获得和存储至少第一和第二参考画面的装置;
用于在所述第一和第二参考画面上进行运动估计,以生成指示所述第一和第二参考画面的至少一个相对于另一个的运动的运动向量的装置;
用于使用所述运动向量通过从所述第一或所述第二参考画面的外插或内插来生成估计画面的装置;以及
用于细化所述估计画面的装置,
其中在运动估计中或在细化所述估计画面中、或在两者的组合中,使用统计相似性估计。
从所附公开和附图将完全更清楚本发明的其他方面、特征和优点。
附图说明
现在将通过参考附图,仅用示例的方式来描述本发明,在附图中:
图1是图示传统的基于运动的时间外插方法的图;
图2是图示传统的基于运动的时间内插方法的图;
图3是描述在传统的基于运动的外插和内插方法中使用的处理步骤的流程图;
图4是描述根据本发明的一个实施例、通过使用统计相似性估计的改进的视觉信号外插或内插的系统和方法的流程图;
图5是图示根据本发明的一个实施例、在运动估计中使用统计相似性度量来生成用于通过外插或内插来构建估计画面的运动向量的示范处理步骤的流程图;
图6是图示根据本发明的一个实施例、用于计算两个像素块P和Q的统计相似性指标的示范处理步骤的流程图;
图7是图示根据本发明的一个实施例、用于通过使用统计相似性估计来填充在估计画面上的空像素位置的方法的图;以及
图8是图示根据本发明的一个实施例、用于通过使用统计相似性估计来解决(resolve)在估计画面上的像素位置的多个映射。
具体实施方式
本发明提供用于通过使用统计相似性估计的外插和内插的改进的方法和系统。
具体地,首先对从先前重构的画面、即参考画面获得的画面信号进行运动估计,以生成一组运动向量,该组运动向量然后被用于通过从参考画面之一外插或内插来生成估计画面,同时使用统计相似性估计来用于进行运动估计或用于细化估计画面,或用于进行两者的组合,如图4所示。更具体地,通过比较两个或更多像素块的统计特征——包括但不限于块采样平均、块采样方差、诸如围绕该块的近邻的同质性(homogeneity)的相邻参数、和在两个或更多像素块之间的协方差——来进行统计相似性估计。
图5图示根据本发明的一个实施例、在运动估计中使用统计相似性估计来生成用于通过外插或内插来构建估计画面的运动向量的示范处理步骤的流程图。
首先,由解码器获得并存储此后被称为参考画面的至少两个先前解码和重构的画面。这两个参考画面被称为N-1和N-2,用于基于外插的估计(或N-1和N+1,用于基于内插的估计)。
对于参考画面N-1中的每个像素块,进行搜索处理以找到在另一参考画面N-2(或N+1)中的其最佳匹配。为了找到参考画面N-1中的具体块Bi在参考画面N-2(或N+1)中的最佳匹配块B*,搜索处理从参考画面N-2(或N+1)挑选相同尺寸的像素块Bp,并计算统计相似性指标SSI——其指示在Bi和Bp之间的统计相似性——以及可选地计算预测误差E,其是在Bi和Bp之间的像素值中的差。统计相似性指标SSI和预测误差E可以被组合以确定在参考画面N-1(或N+1)中的最佳匹配块B*,如图5所示。替换地,可以仅基于统计相似性指标SSI来选择在参考画面N-2(或N+1)中的最佳匹配块B*
一旦确定了在参考画面N+2(或N+1)中的最佳匹配块B*,可以对于在参考画面N-1中的块Bi生成一组运动向量,其指示块Bi相对于B*的运动。可以从与块Bi和B*相关联的各种参数生成运动向量。优选地,但并非必须,通过采用块Bi和B*的空间差(即水平和垂直坐标)来生成它们。然后操纵(例如反转、缩放、平移或变更)运动向量,用于外插或内插该块Bi的估计所在的要被解码和重构的画面(此后被称为估计画面N)中的位置。从块Bi和B*的像素值——例如通过对这些块的像素值进行平均或其它操纵这些像素值——来导出估计块的像素值。
对于在参考画面N-1中的每个像素块来重复上述处理步骤,以便在参考画面N-1中的每个像素块的估计被映射,由此形成完整的估计画面N。
图6进一步描述的用于确定在两个像素块P和Q之间的统计相似性的示范处理步骤。首先,获得与块P和Q直接相关的信息,包括但不局限于:像素值、亮度、对比度、结构等等。优选地,但并非必须,还获得与块P和Q所在处的近邻有关的信息(即相邻信息)。
然后基于这些与块P和Q直接相关的信息和可选的相邻信息来计算块P和Q的各种统计特征,然后将它们进行比较以确定在块P和Q之间的统计相似性。例如,可以使用诸如块采样平均、块采样方差、相邻参数以及块P和Q之间的协方差之类的统计特征来确定统计相似性。还可以使用其他公知的统计特征。
更具体地,假设块P和Q都有的特征是块尺寸n×m,块P中的像素值可以被称为Pij,且块Q中的像素值可以被称为Qij,其中i=1、2……、n,且j=1、2……、m。P的块采样平均被定义为
μ ( P ) = 1 nm Σ j = 1 n Σ i = 1 m P ij , 且Q的块采样平均被定义为
μ ( Q ) = 1 nm Σ j = 1 n Σ i = 1 m Q ij . P的块采样方差被定义为
Var ( P ) = 1 mn - 1 Σ j = 1 n Σ i = 1 m ( P ij - μ p ) 2 , 且Q的块采样方差被定义为
Var ( Q ) = 1 mn - 1 Σ j = 1 n Σ i = 1 m ( Q ij - μ p ) 2 . 块P和Q的协方差被估计为
Cov ( P , Q ) = 1 mn - 1 Σ j = 1 n Σ i = 1 m ( P ij - μ p ) ( Q ij - μ Q ) .
另外,还可以使用块P和Q的相邻参数,诸如围绕块P和Q的相邻的同质性,来确定块P和Q之间的统计相似性。可以基于例如块P或Q的运动向量和围绕块P或Q的一个或多个已有相邻块的运动向量之间的差,来确定相邻同质性。
块P和Q的统计特征提供关于这两个块有多相似的很好的指示。优选地,基于块P和Q的统计特征来计算统计相似性指标,以提供块P和Q之间的统计相似性的定量度量,如图6所示。可以以各种方式加权和组合统计特征,用于计算统计相似性指标。
在优选但并非必须的本发明的实施例中,可以通过使用下列公式来对块P和Q计算统计相似性指标SSI:
SSI ( P , Q ) = α [ Cov ( P , Q ) 2 - Var ( P ) × Var ( Q ) ] 2 + β [ μ ( P ) - μ ( Q ) ] 2
其中,如上所述,μ(P)是块P的块采样平均,μ(Q)是块Q的块采样平均,Var(P)是块P的块采样方差,Var(Q)是块Q的块采样方差,Cov(P,Q)是块P和Q之间的协方差,且α和β是加权因子。统计相似性指标的值越小,两个块越相似。
更具体地,当确定多个像素块的统计相似性以生成多个统计相似性指标时,归一化这些指标,以便每个指标值落在0和1之间。
如上所述,由于外插和内插不生成对于估计画面的一一映射,在估计位置之中可能存在得不到任何映射的像素位置,即留下空洞。另一方面,在估计位置中还可能存在得到多个映射的像素位置,即留下重叠点(spot)。空洞或重叠点的存在负面影响估计画面的质量。
因此,本发明通过使用统计相似性估计来细化估计画面,即填充空像素位置和/或解决多个映射,而提供对于这些问题的解决方案。
图7示出了如何使用统计相似性估计来填充估计画面N上的空像素位置。
首先,计算围绕估计画面N上的空像素位置的相邻像素块的统计特征。可以使用在相邻块中的像素的运动向量来确定参考画面N-1上的初始点,从参考画面N-1上的初始点,通过外插或内插来生成估计画面。然后标识围绕初始点的适当的搜索窗。在该搜索窗中,进行搜索处理来找到最匹配估计画面N上的相邻块的块。最佳匹配块的特征在于,对于估计画面N上的相邻块的最高统计相似性和可选的最低像素值差。然后使用如图7所示的在参考画面N-1上的该最佳匹配块所围绕的具体像素,来填充估计画面N中的空像素位置。
另外,图8示出在参考画面N-1上的多个像素都映射到(即,通过外插或内插)估计画面N上的相同像素位置的情况下,可以如何使用统计相似性估计来选择对于估计画面N上的具体像素位置的最佳匹配像素。
首先,计算围绕估计画面N上的具体像素位置的相邻像素块的统计特征。接下来,计算每个都围绕参考画面N-1上的多个像素之一的多个像素块的统计特征。在参考画面N-1上的这多个块之中,标识最匹配估计画面N上的相邻块的一个块。如上所述,最佳匹配块的特征在于对于估计画面N上的相邻块的最高统计相似性和可选的最低像素值差。然后选择参考画面N-1上的该最佳匹配块所围绕的具体像素,作为对于在估计画面N中的具体像素位置的最佳匹配像素。
通过基于计算机的视觉信号分析器可以容易地进行如上所述的各种计算步骤,该基于计算机的视觉信号分析器可以包括被布置并构造以收集和处理视觉信号数据的通用计算机、专用计算机、中央处理器单元(CPU)、微处理器、或集成电路。根据本发明,这种视觉信号分析器优选地包括视觉信号外插或内插协议,用于计算地进行上述视觉信号外插或内插方法,以生成并细化估计画面。可以以任何适当的形式、诸如在通用计算机、专用计算机或中央处理器单元(CPU)中可操作的软件来实现视觉信号外插或内插协议。替换地,该协议可以在被实现为固件的微电子计算模块的电路中硬件配线(hard-wire),或该协议作为在因特网站点上的可操作小程序用于阶段分析可在线获得。
虽然在此已经参考所示实施例和特征公开了本发明,但要理解,上述实施例和特征不意图局限本发明,且本领域技术人员将容易地得到其他变化、修改和替换实施例。因此,在所附权利要求的精神和范围内,由于包括这种变化、修改和替换实施例,因此广泛地构造本发明。

Claims (20)

1.一种用于视觉信号外插或内插的基于计算机的方法,包括:
提供至少第一和第二参考画面;
在所述第一和第二参考画面上进行运动估计,以生成指示所述第一和第二参考画面的至少一个相对于另一个的运动的运动向量;以及
使用所述运动向量通过外插或内插来生成估计画面;以及
细化所述估计画面,
其中在运动估计中或在细化所述估计画面中、或在两者的组合中,使用统计相似性估计。
2.根据权利要求1所述的基于计算机的方法,其中在运动估计中使用统计相似性估计。
3.根据权利要求1所述的基于计算机的方法,其中在所述第一参考画面上的像素块的统计特征被计算并与所述第二参考画面上的一个或多个像素块的统计特征相比较,其中在所述第二参考画面上的最佳匹配像素块至少部分地基于其与在所述第一参考画面上的像素块的统计相似性来确定,且其中对于在所述第一参考画面上的像素块来生成运动向量,指示其相对于在所述第二参考画面上的最佳匹配像素块的运动。
4.根据权利要求3所述的基于计算机的方法,其中所述像素块的统计特征包括块采样平均、块采样方差和相邻参数。
5.根据权利要求3所述的基于计算机的方法,其中通过根据下式计算统计相似性指标来确定在所述第一参考画面上的像素块和在所述第二参考画面上的一个或多个像素块之间的统计相似性:
SSI ( P , Q ) = α [ Cov ( P , Q ) 2 - Var ( P ) × Var ( Q ) ] 2 + β [ μ ( P ) - μ ( Q ) ] 2 ,
其中,P是在所述第一参考画面上的像素块,Q是在所述第二参考画面上的像素块,SSI(P,Q)是指示块P和块Q之间的统计相似性的统计相似性指标,μ(P)是块P的块采样平均,μ(Q)是块Q的块采样平均,Var(P)是块P的块采样方差,Var(Q)是块Q的块采样方差,Cov(P,Q)是块P和Q之间的协方差,且α和β是加权因子。
6.根据权利要求5所述的基于计算机的方法,其中归一化所述统计相似性指标。
7.根据权利要求1所述的基于计算机的方法,其中在细化所述估计画面中使用统计相似性估计。
8.根据权利要求7所述的基于计算机的方法,其中使用统计相似性估计用于填充在所述估计画面上的空像素位置,包括:
计算所述估计画面上围绕该空像素位置的相邻块的统计特征;
标识从其生成所述估计画面的参考画面上的搜索区域;
在所述搜索区域内搜索最佳匹配块,其中所述最佳匹配块围绕所述参考画面上的具体像素,且具有与所述估计画面上围绕所述空像素位置的相邻块的最高统计相似性;以及
利用所述参考画面上由所述最佳匹配块围绕的具体像素来填充所述空像素位置。
9.根据权利要求8所述的基于计算机的方法,其中所述相邻块的统计特征包括块采样平均、块采样方差和相邻参数。
10.根据权利要求8所述的基于计算机的方法,其中通过根据下式计算统计相似性指标来确定所述估计画面上围绕所述空像素位置的相邻块和所述搜索区域内的一个或多个像素块之间的统计相似性:
SSI ( P , Q ) = α [ Cov ( P , Q ) 2 - Var ( P ) × Var ( Q ) ] 2 + β [ μ ( P ) - μ ( Q ) ] 2 ,
其中P是所述估计画面上围绕所述空像素位置的相邻块,Q是所述搜索区域内的像素块,SSI(P,Q)是指示块P和Q之间的统计相似性的统计相似性指标,μ(P)是块P的块采样平均,μ(Q)是块Q的块采样平均,Var(P)是块P的块采样方差,Var(Q)是块Q的块采样方差,Cov(P,Q)是块P和Q之间的协方差,且α和β是加权因子。
11.根据权利要求7所述的方法,其中使用统计相似性估计,用于从由其生成所述估计画面的参考画面上的多个像素之中选择针对所述估计画面上的具体像素位置的最佳匹配象素,所述多个像素都外插或内插到所述估计画面上的具体像素位置,包括:
计算所述估计画面上围绕该具体像素位置的相邻块的统计特征;
计算所述参考画面上每个都围绕该多个像素之一的多个像素块的统计特征;
标识在所述参考画面上围绕该多个像素的多个块中的最佳匹配块,其中所述最佳匹配块具有与所述估计画面上围绕该具体像素位置的相邻块的最高统计相似性;以及
选择在所述参考画面上由该最佳匹配块所围绕的像素,作为在所述估计画面上的该具体像素位置的最佳匹配像素。
12.根据权利要求11所述的基于计算机的方法,其中所述相邻块的统计特征包括块采样平均、块采样方差和相邻参数。
13.根据权利要求11所述的基于计算机的方法,其中通过根据下式计算统计相似性指标来确定所述估计画面上围绕该具体像素位置的相邻块和所述参考画面上围绕该多个像素的多个块之间的统计相似性:
SSI ( P , Q ) = α [ Cov ( P , Q ) 2 - Var ( P ) × Var ( Q ) ] 2 + β [ μ ( P ) - μ ( Q ) ] 2 ,
其中P是所述估计画面上围绕该具体像素位置的相邻块,Q是所述参考画面上围绕该多个像素的多个块之一,SSI(P,Q)是指示块P和Q之间的统计相似性的统计相似性指标,μ(P)是块P的块采样平均,μ(Q)是块Q的块采样平均,Var(P)是块P的块采样方差,Var(Q)是块Q的块采样方差,Cov(P,Q)是块P和Q之间的协方差,且α和β是加权因子。
14.根据权利要求1所述的基于计算机的方法,其中在运动估计和细化所述估计画面中都使用统计相似性估计。
15.一种用于视觉信号外插或内插的基于计算机的系统,包括:
用于获得和存储至少第一和第二参考画面的装置;
用于在所述第一和第二参考画面上进行运动估计,以生成指示所述第一和第二参考画面的至少一个相对于另一个的运动的运动向量的装置;
用于使用所述运动向量通过从所述第一或所述第二参考画面的外插或内插来生成估计画面的装置;以及
用于细化所述估计画面的装置,
其中在运动估计中或在细化所述估计画面中、或在两者的组合中,使用统计相似性估计。
16.根据权利要求15所述的基于计算机的系统,其中在运动估计中使用统计相似性估计,其中在所述第一参考画面上的像素块的统计特征被计算并与所述第二参考画面上的一个或多个像素块的统计特征相比较,其中在所述第二参考画面上的最佳匹配像素块基于其与在所述第一参考画面上的像素块的统计相似性来确定,且其中对于在所述第一参考画面上的像素块来生成运动向量,指示其相对于在所述第二参考画面上的最佳匹配像素块的运动。
17.根据权利要求15所述的基于计算机的系统,其中使用统计相似性估计用于细化所述估计画面。
18.根据权利要求17所述的基于计算机的系统,其中使用统计相似性估计用于填充在所述估计画面上的空像素位置,且其中所述系统进一步包括:
用于计算所述估计画面上的围绕该空像素位置的相邻块的统计特征的装置;
用于标识从其生成所述估计画面的参考画面上的搜索区域的装置;
用于在所述搜索区域内搜索最佳匹配块的装置,其中所述最佳匹配块围绕所述参考画面上的具体像素,且具有与所述估计画面上围绕所述空像素位置的相邻块的最高统计相似性;以及
用于利用所述参考画面上由所述最佳匹配块围绕的具体像素来填充所述空像素位置的装置。
19.根据权利要求17所述的基于计算机的系统,其中使用统计相似性估计,用于从由其生成所述估计画面的参考画面上的多个像素之中选择针对所述估计画面上的具体像素位置的最佳匹配象素,所述多个像素都外插或内插到所述估计画面上的具体像素位置,且其中所述系统进一步包括:
用于计算所述估计画面上围绕该具体像素位置的相邻块的统计特征的装置;
用于计算所述参考画面上每个都围绕该多个像素之一的多个像素块的统计特征的装置;
用于标识所述参考画面上围绕该多个像素的多个块中的最佳匹配块的装置,其中所述最佳匹配块具有与所述估计画面上围绕该具体像素位置的相邻块的最高统计相似性;以及
用于选择在所述参考画面上由该最佳匹配块所围绕的像素、作为在所述估计画面上的该具体像素位置的最佳匹配像素的装置。
20.根据权利要求15所述的基于计算机的系统,其中在运动估计和细化所述估计画面中都使用统计相似性估计。
CN200780001774.4A 2006-01-06 2007-01-03 用于视觉信号外插或内插的系统和方法 Expired - Fee Related CN101361369B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/327,072 US7965774B2 (en) 2006-01-06 2006-01-06 Method for visual signal extrapolation or interpolation
US11/327,072 2006-01-06
PCT/EP2007/050050 WO2007077243A2 (en) 2006-01-06 2007-01-03 Systems and methods for visual signal extrapolation or interpolation

Publications (2)

Publication Number Publication Date
CN101361369A true CN101361369A (zh) 2009-02-04
CN101361369B CN101361369B (zh) 2011-09-21

Family

ID=38092992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780001774.4A Expired - Fee Related CN101361369B (zh) 2006-01-06 2007-01-03 用于视觉信号外插或内插的系统和方法

Country Status (4)

Country Link
US (2) US7965774B2 (zh)
JP (1) JP5089608B2 (zh)
CN (1) CN101361369B (zh)
WO (1) WO2007077243A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102301714B (zh) * 2009-01-28 2014-01-22 法国电信公司 用于对实施运动补偿的图像序列进行编码和解码的方法、以及对应的编码和解码装置
CN103647973A (zh) * 2013-12-10 2014-03-19 华为技术有限公司 一种帧率上采样的方法和装置
CN102065263B (zh) * 2009-11-17 2014-03-19 晨星软件研发(深圳)有限公司 影像插补处理装置及其方法
CN105208407A (zh) * 2014-06-23 2015-12-30 哈曼贝克自动系统股份有限公司 用于处理视频数据流的设备和方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8300015B2 (en) * 2005-07-05 2012-10-30 Stmicroelectronics S.A. Method of detecting the movement of an entity equipped with an image sensor and device for implementing same
US8179967B2 (en) * 2005-07-05 2012-05-15 Stmicroelectronics S.A. Method and device for detecting movement of an entity provided with an image sensor
AU2007201403A1 (en) * 2007-03-30 2008-10-16 Canon Kabushiki Kaisha Improvement for Spatial Wyner Ziv coding
JP2009077309A (ja) * 2007-09-21 2009-04-09 Toshiba Corp 動き予測装置および動き予測方法
KR100915097B1 (ko) * 2007-11-02 2009-09-02 성균관대학교산학협력단 오류정정을 이용한 분산비디오부호화 영상의 복호화 장치및 그 방법
US8295342B2 (en) * 2007-11-14 2012-10-23 International Business Machines Corporation Method and system for efficient video compression with low-complexity encoder
KR20100027384A (ko) * 2008-09-02 2010-03-11 삼성전자주식회사 예측 모드 결정 방법 및 장치
FR2936925B1 (fr) * 2008-10-03 2011-08-12 Canon Kk Procede et dispositif de decodage d'images d'une sequence d'images encodee selon un format predictif avec restauration de donnees manquantes
WO2010043809A1 (fr) * 2008-10-15 2010-04-22 France Telecom Prediction d'une image par compensation en mouvement en avant
EP2359601B1 (en) * 2008-10-31 2016-02-10 Orange Image prediction method and system
AU2008259744B2 (en) * 2008-12-18 2012-02-09 Canon Kabushiki Kaisha Iterative DVC decoder based on adaptively weighting of motion side information
US9479682B2 (en) * 2011-05-18 2016-10-25 Sharp Kabushiki Kaisha Video signal processing device and display apparatus
EP4017006B1 (en) * 2011-09-22 2023-09-20 LG Electronics, Inc. Method and apparatus for signaling image information, and decoding method and apparatus using same
KR101977802B1 (ko) * 2012-10-10 2019-05-13 삼성전자주식회사 영상 시스템에서 움직임 추정 장치 및 방법
US11019355B2 (en) * 2018-04-03 2021-05-25 Electronics And Telecommunications Research Institute Inter-prediction method and apparatus using reference frame generated based on deep learning

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2648254B2 (fr) * 1988-09-23 1991-08-30 Thomson Csf Procede et dispositif d'estimation de mouvement dans une sequence d'images animees
WO1993023816A1 (en) * 1992-05-18 1993-11-25 Silicon Engines Inc. System and method for cross correlation with application to video motion vector estimation
JP3655651B2 (ja) * 1994-09-02 2005-06-02 テキサス インスツルメンツ インコーポレイテツド データ処理装置
KR0171147B1 (ko) * 1995-03-20 1999-03-20 배순훈 그레디언트 변화를 이용한 특징점 선정장치
US5933535A (en) * 1995-10-05 1999-08-03 Microsoft Corporation Object-based video compression process employing arbitrarily-shaped features
US6101276A (en) * 1996-06-21 2000-08-08 Compaq Computer Corporation Method and apparatus for performing two pass quality video compression through pipelining and buffer management
JPH10134193A (ja) * 1996-10-31 1998-05-22 Oki Electric Ind Co Ltd 移動ベクトル算出方法及び装置
US6078616A (en) * 1997-03-13 2000-06-20 Sony Corporation Methods and apparatus for error concealment utilizing temporal domain motion vector estimation
JP3006560B2 (ja) * 1997-09-10 2000-02-07 日本電気株式会社 位置合わせ装置及び位置合わせプログラムを記録したコンピュータが読み取り可能な記録媒体
FR2768891B1 (fr) * 1997-09-19 2000-02-04 Thomson Multimedia Sa Procede et dispositif d'interpolation temporelle d'images a compensation de mouvement
US6058143A (en) * 1998-02-20 2000-05-02 Thomson Licensing S.A. Motion vector extrapolation for transcoding video sequences
US6375567B1 (en) * 1998-04-28 2002-04-23 Acres Gaming Incorporated Method and apparatus for implementing in video a secondary game responsive to player interaction with a primary game
US6449312B1 (en) * 2000-06-08 2002-09-10 Motorola, Inc. Method of estimating motion in interlaced video
JP4337302B2 (ja) * 2002-04-17 2009-09-30 ソニー株式会社 動き補正回路及び方法
CN100566420C (zh) * 2002-07-15 2009-12-02 株式会社日立制作所 动态图像的编码方法
CN100438609C (zh) * 2002-10-22 2008-11-26 皇家飞利浦电子股份有限公司 带有降质的图像处理单元
EP1578137A2 (en) * 2004-03-17 2005-09-21 Matsushita Electric Industrial Co., Ltd. Moving picture coding apparatus with multistep interpolation process
US7496736B2 (en) * 2004-08-27 2009-02-24 Siamack Haghighi Method of efficient digital processing of multi-dimensional data
US8879856B2 (en) * 2005-09-27 2014-11-04 Qualcomm Incorporated Content driven transcoder that orchestrates multimedia transcoding using content information
JP2009526436A (ja) * 2006-02-06 2009-07-16 トムソン ライセンシング ビデオ符号化向けの動き予測の予測子として利用可能な動き情報を再使用する方法及び装置
US20070268964A1 (en) * 2006-05-22 2007-11-22 Microsoft Corporation Unit co-location-based motion estimation

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102301714B (zh) * 2009-01-28 2014-01-22 法国电信公司 用于对实施运动补偿的图像序列进行编码和解码的方法、以及对应的编码和解码装置
CN102065263B (zh) * 2009-11-17 2014-03-19 晨星软件研发(深圳)有限公司 影像插补处理装置及其方法
CN103647973A (zh) * 2013-12-10 2014-03-19 华为技术有限公司 一种帧率上采样的方法和装置
WO2015085922A1 (zh) * 2013-12-10 2015-06-18 华为技术有限公司 一种帧率上采样的方法和装置
CN103647973B (zh) * 2013-12-10 2017-01-04 华为技术有限公司 一种帧率上采样的方法和装置
CN105208407A (zh) * 2014-06-23 2015-12-30 哈曼贝克自动系统股份有限公司 用于处理视频数据流的设备和方法
CN105208407B (zh) * 2014-06-23 2019-11-05 哈曼贝克自动系统股份有限公司 用于处理视频数据流的设备和方法

Also Published As

Publication number Publication date
WO2007077243A3 (en) 2008-01-10
CN101361369B (zh) 2011-09-21
JP2009522892A (ja) 2009-06-11
US7965774B2 (en) 2011-06-21
US20110164682A1 (en) 2011-07-07
US20070160144A1 (en) 2007-07-12
US8594201B2 (en) 2013-11-26
WO2007077243A2 (en) 2007-07-12
JP5089608B2 (ja) 2012-12-05

Similar Documents

Publication Publication Date Title
CN101361369B (zh) 用于视觉信号外插或内插的系统和方法
US8594193B2 (en) Method and device for multi-view encoding/decoding using disparity vector
CN1274157C (zh) 运动图象解码方法和运动图象解码设备
EP1661384B1 (en) Semantics-based motion estimation for multi-view video coding
US20190098296A1 (en) Bi-prediction coding method and apparatus, bi-prediction decoding method and apparatus, and recording medium
US11102501B2 (en) Motion vector field coding and decoding method, coding apparatus, and decoding apparatus
EP2091258A1 (en) An encoding/decoding method and device, a fractional pixel interpolation processing method and device
CN1706189A (zh) 带有降质的图像处理单元
JP2000512091A (ja) 動作ベクトル処理
CN102017626B (zh) 编码和解码方法、编码器和解码器
CN102075756A (zh) 视频多帧预测编解码方法和装置
CN1565118A (zh) 用于运动估计的装置和方法
EP1472881B1 (en) Unit for and method of estimating a current motion vector
US8144775B2 (en) Method and device for generating candidate motion vectors from selected spatial and temporal motion vectors
CN1656514A (zh) 估计运动矢量的单元和方法
US20070036217A1 (en) Motion picture encoding method and device
JP2004507943A (ja) ビデオ・シーケンスの2つのイメージの間に補間される少なくとも一つのイメージを計算するための方法
KR101638211B1 (ko) 전역 움직임 보상에 기초하는 비디오 코딩
JP2003085566A (ja) 対応点探索方法及びこれを用いたマッチング装置
CN101001380A (zh) 视频编码的移动估计方法
KR100810391B1 (ko) 움직임 보간을 이용한 프레임 레이트 변환 방법
Wang et al. A fast block-based motion compensation video frame interpolation
Tzovaras et al. Optimization of quadtree segmentation and hybrid two-dimensional and three-dimensional motion estimation in a rate-distortion framework
CN117979024A (zh) 一种运动搜索方法、装置、电子设备及存储介质
CN115550652A (zh) 基于上下文的图像编解码

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110921

Termination date: 20190103

CF01 Termination of patent right due to non-payment of annual fee