CN1130969A - 数据分析方法及其装置 - Google Patents

数据分析方法及其装置 Download PDF

Info

Publication number
CN1130969A
CN1130969A CN94193325A CN94193325A CN1130969A CN 1130969 A CN1130969 A CN 1130969A CN 94193325 A CN94193325 A CN 94193325A CN 94193325 A CN94193325 A CN 94193325A CN 1130969 A CN1130969 A CN 1130969A
Authority
CN
China
Prior art keywords
signal
factor
record
sample
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN94193325A
Other languages
English (en)
Inventor
H·A·马蒂斯
J·O·瑞博格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IDT Inc
Original Assignee
IDT Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IDT Inc filed Critical IDT Inc
Publication of CN1130969A publication Critical patent/CN1130969A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

本发明提供了一种用于在输入信号的样本与多个分量信号组成的编码信号之间提供转换的方法和装置。所述输入信号由组织成多个样本记录形式的数据样本组成,每个样本在其记录中占据唯一的位置。每个所述分量信号以多个因子组合的形式构成,每个所述因子是计分(score)信号与装入(load)信号的乘积,所述计分信号定义了记录之间数据样本的差异而所述装入信号定义了记录的不同位置上的样本子组的相对变化。

Description

数据分析方法及其装置
技术领域
本发明大体涉及数据分析的方法和装置。具体而言,本发明涉及用于分析数据和在不同的域(domain)(例如时间域、空间域、颜色域和形状域)内提取与利用相关结构的方法和装置。
背景技术
就对形状、颜色和运动的要求而言,为了产生高质量的视觉图像,一般需要对视频应用领域内的全运动数字图像序列进行庞大的数据处理。数据压缩经常用来减少存储和处理的数据量。一个数据压缩系统一般包括用来对大量视频数据提供简单而有效表示的建模(modelling)子系统。
已经研制出适于视频图像压缩的一些压缩系统。这些系统按照其运算和建模特性,可以分为三大类。第一种采用因果球体建模(causal global modelling)方法。这种模型的一个实例是三维(3D)线帧模型,它隐含了一小组或多或少的固定线框格点处的空间控制位置和密度并在格点之间进行内插。在有些应用中,这种方法与实心物体的3D射线示踪相结合。由于其涉及到非常深层次的模型,即,必须花很大气力放在展开综合模型上,所以线帧方法可以提供非常有效和紧凑的数据表示。因此,这种模型提供了较好的视觉效果。
但是,这种方法有几个缺点。第一,这种因果类型的模型需要预先提供有关3D特征、表面纹理、光照特性和运动方式的详尽的建模信息。第二,由于模型一旦定义后就很难根据所遇到的无法估计的新图像动态补充和更新,所以在一般的编码器中灵活利用经验的能力很差。因此这类模型的方法在需要实时视频序列动态建模的情况下用得很少。
第二种建模系统是经验型可更新压缩系统,它涉及非常有限的模型展开,但提供的压缩不够充分。MPEG1和MPEG2兼容系统就是这种方法的代表。例如,在MPEG标准中,一个图像序列被表示为一组稀疏的静止图像帧,例如一个序列中每第10帧,它们通过像素块(如8X8的像素块)来压缩/解缩。中间各帧根据最邻近解缩帧。由块变化的附加信息(代表了块运动和密度(intensity)变化模式)所修正了的重建出来。一般采用离散余弦变换(DCT)来压缩/解缩静止图像,但是也可以采用诸如子带、子波或分形静止图像编码等其它方法。由于这种方法涉及的建模深度很小,所以常常忽略时间和空间上的长程对称冗余度从而基本上是多次重复存储/传送相同的信息。
第三种建模系统是基于因子分析的图像密度经验型球体建模。这种方法采用了诸如主分量分析之类的各种技术以通过对F个“因子”的权重求和来逼近由N帧图像组成的组的密度。每个这样的因子都包含相对于每个像素的空间参量和相对于每一帧的时间参量。因子的空间参量有时称为“装入”,而时间参量称为“计分s”。这种方法的一个实例是用于压缩和识别人脸图像的图像密度N×M(每帧M个像素,N帧)矩阵的Karhunen—Loeve扩展。在Kirby,M和Sirovich,L发表在IEEE模式识别和机器智能处理,Vol.12,No.1,pp.103—108(1990)上的“人脸特征的Karhunen—Loeve程序的应用”一文中以及R.C.Gonzales和R.E.Woods所著的《数字图像处理》(Addision-Wesley Publ.Co.,ISBN0—201—50803—6,1992)一书3.6章中都有详细的论述,它们作为参考文献包含在这里。
在Karhunen—Loeve扩展(也称为本征分析或主分量分析、Hotelling变换和单值分解)中,每个连续的因子的装入与计分s之积使原始的与重建的图像密度的平方差减至最小。每个因子对于每个像素都有一个装入值,因此可以称为“本征画面”;对于每帧也有相应的计分s值。应该注意的是,Karhunen—Loeve系统只是在一个域(即密度域)中使用因子,这与在诸如密度、地址和概率等多个域中使用因子的本发明不同。
在某些情况下(如像素组在图像与图像之间以固定的模式显示出关联的密度变化时),这种压缩系统的压缩效果非常好。例如,如果每次像素a、b、c变暗,d、e、f变亮,并且反之也一样,则可以利用一个由像素a、b、c为正值而d、e、f为负值的本征画面密度装入构成的单因子有效地对a、b、c、d、e、f所有像素建模。随后对每幅图像利用一个计分s数对该像素组建模。其它的关联像素模式涉及另外的因子。
这种方法如果使用的表示原始图像的因子太少,则在重建时将带来视觉上的中断误差。此外,如果图像与图像之间的差异包含大量的空间对称变化,如移动物体,则获得良好视觉效果所需的本征画面数量也相应增加。这样,压缩率显著降低。因此,图像密度因子建模的Karhunen—Loeve系统无法提供视频应用所需的压缩。
视频编码的第四种方法是采用面向对象的编码译码器。这种方法的关键是识别出以相当简单和易于压缩的方式移动和/或一起改变密度的像素“自然”组(“对象”)。更为先进的面向对象系统在各个对象的形状和密度处理上引入了某些灵活性,例如平移、标度变换、旋转和剪切变换等仿射形状变换,或者单因子密度变化。但是,应该看到的是,面向对象系统一般只用单因子。
在现有技术的系统中,一般采用下面两种方法中的一种来逼近运动。第一种方法是短时间间间隔内的增量运动补偿,它基本上根据作为差别图像而传送的帧n内的像素与前一帧n—1内的像素之间的差别进行差别编码。MPEG就是这种系统的例子。由于仅用差别图像部分来表示,所以这种方法相对比较简单地引入新的特征。但是这种方法在动态适应时有明显的缺点,或者说学习起来非常困难。例如,当图像中有一个物体移动时,其位置和密度都发生变化,因而难以提取任何对称的数据变化。这样,即使是最简单形式的运动也需要大量的建模。
增量运动补偿的另一种方法是基于公共参考帧的纹理映射,它根据通过计算得到的相对于公共参考帧的运动和从公共参考帧移入新合成帧的像素来实现。这种方法一般为大多数线帧模型所采用。这种方法的优点是效率非常高并且在一些情况下还可以紧凑表示。但是这种方法明显的不足之处是只有在运动物体保持初始密度或纹理时才能维持高效率。由于现有系统只是在密度或地址中包含一维变化模型,所以不大容易引入密度或特征变化。
因此,本发明的其中一个目标是提供一种数据分析的方法和装置,它在不需要大量预先建模信息的情况下(但如果有这样的信息,这也能利用)提供非常有效和紧缩的数据表示。
本发明还有一个目标是提供一种数据分析的方法和装置,它具有灵活运用经验的能力并且能根据各数据分析域上短程和长程范围内的对称冗余度动态更新。
本发明进一步的目标是提供一种数据分析的方法和装置,除了密度域以外,它还在地址和概率域等多个域上采用因子分析方法。另外,对于各个数据子组(例如每个空间上隔开的对象)都进行因子分析。
本发明另一个目标是提供一种数据分析的方法和装置,它在几个域上采用多个因子来建模。为了能更有效地学习和建模输入数据(如视频图像)中的对称变化模式,要将这些“软”模型(地址、密度、谱性质、透明度、纹理、类型和时间)与“硬”模型结合起来使用。这种“硬”建模的例子有:a)普通的运动物体仿射运动建模,如平移、旋转、标度变换和剪切(包括相机的摄取全景和放大缩小),以及b)多重信号校正(MSC)和扩展,混合多重和叠加的密度效应的建模(H.Martens和T.Naes,《多变量标度》,pp.345—350,(John Wiley &Sons,1989),它作为参考文献包含在这里)。
本发明进一步的目标是,除了空间域以外,还在其它域上建模,例如将局部的有效时间变化模式分入时间对象而将谱模式分入谱对象。因此,为了避免物理实体或面向对象编程的过度简单化,采用术语“完全子(holon)”来代替。
本发明另一个目标是采用在各种域上变化的数据,这些变化的数据涉及各帧相对于一个或多个公共参考帧的变化,而不是相对于前面的帧。
发明内容
本发明的用于数据分析的方法和装置通过在所分析的输入数据序列变化中提取一个或多个对称数据结构来分析数据。在各种域上对这些变化进行分类和参量化以在这些域上形成随变化模型一起的参考数据结构。这种方法应用在对所分析的输入数据的建模中。这种参量化允许可以具有压缩、交互功能和解释功能。随后数据输入被逼近或重建为一个或多个参量数据结构(保存在参考数据结构内)的合成体。这种方法的灵活性在于,为了保证各对称数据结构的灵活性和对于大量输入数据的可用性,可以通过适当的参量变化来修改构成参考数据结构的对称数据结构及其相关的变化模型。除了可能的误差校正残值以外,参量化由完全子s的各种域上的“软性”多变量因子建模组成,它还可以与各种域上的“硬性”因果建模结合起来。本发明的较佳实施例将借助图像序列(如视频)的编码来阐述,在这种情形下,最重要的域是密度、地址和概率域。
本发明包括编码、编辑和译码的方法和装置。可以将基本的建模或编码方法(“IDLE”建模方法)与其它已知的建模方法结合使用,而且可以将采用基本建模方法的几种方式结合起来并用于给定的一组数据。
本发明的编码部分包括对各种域上的参量估计进行平衡的方法。而且,按照本发明的建模可以重复使用以产生级联建模和元建模。
附图的简要说明
从下面借助附图对较佳实施例的描述将能更完整地理解前面所述和本发明进一步的目标、特点和优点。
图1是表示按照本发明的编码和译码过程的高级流程图;
图2是表示数据矩阵单值分解为计分矩阵与装入矩阵之积再加上残值矩阵的示意图;
图3a是参考图像各像素数据格式的图解表示;
图3b是如何导出参考帧的图解表示;
图4a—4n是密度(着色)域上建模的图解示意,其中,
图4a—4c表示输入图像中着色密度的各种程度;
图4d—4f表示相对编码器中参考帧的密度变化区域;
图4g和4h表示概括了编码器中几帧变化区域的着色因子装入;
图4i—4k表示译码器中变化区域的重建;
图4l—4n表示译码器中根据变化区域和参考图像对实际图像密度的最终重建;
图5a—5n是地址(微笑)域上建模的图解示意,其中,
图5a—5c表示微笑(像素的运动或地址变化)的各种程度;
图5d—5f表示与相对参考图像的各种程度运动对应的地址变化区域;
图5g表示参考密度图像而图5h表示微笑因子装入;
图5i—5k表示重建的地址变化区域;
图5l和5n表示最终重建的微笑图像密度;
图6是表示按照本发明的编码器的示意图;
图7是表示图6编码器的模型估计器部分的示意图;
图8是表示图7模型估计器中变化区域估计器的示意图;
图9是表示在图8变化区域估计器中利用预测和局部变化区域估计的运算示意图;
图9a表示利用预测和局部变化区域估计的步骤;
图9b是图9a所示运动的概括表示;
图10是图8变化区域估计器部分的详细示意图;
图11是图8和图10所示的变化区域估计器的局部变化区域估计器的示意图;
图12是图7所示编码器的解释器部分的示意图;
图13是作为图8中编码器一部分或者单独的译码器的示意图。
实施发明的较佳方式
本发明的用于数据分析的方法和装置可以用作数据压缩系统的一部分,它包括编码和译码电路,并通过在视频图像序列的各种数据域上对数据冗余度的高效建模来压缩、编辑和解缩视频图像序列。各种域及子运算域上冗余度的自建模
本发明的系统对输入数据(或经过变换的输入数据)中的冗余度建立模型。可以在各种域或“运算域”中(如坐标地址、密度和概率)以及这些域的各种亚性质(“子运算域”)(如坐标方向和颜色)中寻找到这些冗余度。可以建立起密度在一段时间和像素与帧之间的空间内协同变化的模型以及在一段时间和颜色通道之间的空间内协同变化的模型。同样,也可以建立起运动在一段时间和像素之间的空间内协同变化的模型以及在一段时间和不同坐标通道之间的空间内协同变化的模型。这些运动的协同变化一般描述了对象穿过图像时的运动。对象或完全子s不必是物理实体,而是可以代表在各种域中具有简化的对称变化的多变量模型的连接结构,如空间变形、密度变化、颜色变化、透明度变化等。
其它可以建模的冗余度包括诸如混浊度之类的概率性质,它可以按照与颜色密度一样的方式建立在一段时间和一定空间内。此外,各种数据域上的低级统计模型参量可以在一段时间和像素之间与帧之间的空间内建模。
在本发明中,连续输入帧建模为对参考帧的变化或偏离,选取的参考帧包括各种域上的多个特性或因子。例如,在参考帧内包括指示密度变化、运动和变形的因子,从而使输入帧建模为包含在参考帧内的因子的标度组合。在参考帧包含的对称数据结构中,术语因子和装入将互换使用。抽象冗余度建模
本发明的系统和方法结合了各种模型结构和估计原理,并且采用了几个不同域上的数据,从而生成具有丰富层次并能重建几种不同图像元素的模型。该模型可在各种层次深度上加以表述。
通过根据前面的图像从外部建立模型参量,进一步提高了本发明的建模特性。该程序利用了预建立空间和/或时间变化模式,调整这些模式可以建立新场景。通过对模型参量本身的冗余度建模,即通过对模型参量组进行主分量分析,可以进一步提高建模特性。这被称为元建模。
本发明可以采用与输入和/或输出数据格式不同的内部数据表示。例如,虽然视频数据的输入和/或输出格式可能是RGB格式,但是在内部参量估计、存储、传送或编辑时可以采用不同的颜色空间。同样,在某个分辨率下坐标地址系统(例如PAL格式)可以是直角坐标系,而内部坐标系可以不同,例如NTSC格式或其它常规或非常规、密集或稀疏坐标系,反之亦然。编码器
本发明实施的编码器提供了表示输入数据流中对称结构的模型。新的模型参量估计是多变量的,并且无需任何先前模型的信息就能自动自建模。但是,如果有先前建立模型的信息,则系统也能够有效利用。系统还提供更新或消除无关或不可靠的模型成份的动态机制。系统的灵活性还在于,在不同的时刻可以采用不同级别的模型。例如,在压缩时采用层次少的密度比较有利,而在其它场合则需要采用涉及广泛前分析的深层次的硬模型。
另外,本系统包括压缩模型的自动初始化和动态修正。此外,本发明可以用于任何组合压缩、存储、传送、编辑和控制的应用,例如用于视频电话、视频压缩、电影编辑、交互式游戏和医学图像数据库。
另外,本发明可以采用因子建模,通过利用输入数据各个局部之间(例如视频序列各帧之间)结构信息的初级因子模型来简化和增强编码器中的模型参量估计。结构信息以统计方式用于参量估计中以在对各个局部部分(例如帧)建模时限制所使用的参量数目。这可以用于运动估计中,在那里,借助从同一序列中其它帧导出的低维因子运动模型,可以使一帧的运动区域估计处于稳定状态。
通过根据各种模型来压缩分立阶段中的数据,按照本发明的编码器可以压缩大量的输入数据,如视频数据流。视频序列或帧可以用帧与帧或帧内差异来表示,包括空白图像到第一帧之间的差异和接下来的帧内差异。在本编码器中,借助空间、时间和概率模型参量对帧内差异进行检测、分析和建模以减少表示原始帧所需的数据量。随后进一步压缩获得的模型参量以减少表示原始图像所需的数据流。采用执行长度编码、Huffman编码或其它统计压缩技术可以进行这种再压缩。
压缩数据随后被编辑(例如作为用户控制的视频游戏或电影编辑系统部分)、存储(例如存储在CD—ROM或其它存储介质中)或传送(例如经过卫星、电缆或电话线传送),并由译码器解缩以供使用。
译码器
本发明还在完成编码器逆向功能的接收或解缩位置处提供译码器。译码器接收编码器生成的压缩模型参量并对其解缩以获得模型参量。模型参量随后被用于重建最初输入编码器的数据流。编码器中的参量估计
参考模型的扩展、拓宽和深化
模型
在本发明的编码器中,一个或多个扩展参考图像被展开作为其它模型参量的基础以表示图像序列或帧的输入数据流。因此,所有的图像都表示为相对于扩展参考图像的差异或变化。参考图像选择为代表图像序列中寻找到的多个空间元素。参考图像“扩展”的含意是扩展相对于图像或帧的空间以容纳和包含建模图像序列时所用的附加元素。因此,较佳实施例中的参考帧与图片元素或成份集或库中的类似。
这样,一个较长的图像序列可以表示为由一个扩展的参考图像加上若干代表地址、密度、变形、透明度或其它变量中建模对称图像变化的参量组成的简单模型。当与每帧的各时间参量结合使用时,这些空间参量定义了译码器中的参考图像密度变换为帧密度重建的方式。重建通常涉及两个阶段。第一个阶段,首先必须确定参考帧密度如何借助密度、透明度等从参考坐标系及显示在空间上改变到输出帧坐标系及显示。第二个阶段,必须利用图像扭曲将参考帧密度改变为输出帧密度。
系统运算
图1是表示按照本发明的编码和译码过程的高级流程图,它同时表示了编码和译码运算。在编码器中,视频输入数据102首先在步骤104中被输入系统并分别在步骤106和108中对变化进行检测和建模以获得合适的模型参量110。
模型参量110随后在步骤111中被压缩以进一步减少表示原始数据所需的信息量。这种再压缩利用了存在于模型参量110中的对称数据冗余度。这些时间参量还具有其它类型的冗余度。例如,计分或者应用于参考帧内的装入及对称数据结构上的标度变换可能具有时间的自关联,因此可以利用例如沿时间维的预测编码进行压缩。此外还有在双线性建模中采用并随后对模型参量和残量进行独立压缩和传送的计分s之间的相关性。同样也有颜色互相关之间的冗余度或者可以被建模的参量冗余度之间的冗余度。
这些模型参量110随后被按照本发明的译码器使用,在步骤120中,模型参量首先被解缩,然后在步骤122中被用来重建原始的输入图像,从而产生图像输出或视频输出124。
步骤120中的解缩程序基本上是压缩步骤111的逆向过程。应该注意的是,按照本发明的编码器和译码器可以作为实时或伪实时视频传送系统(如画面电话)的一部分。编码器和译码器也可以是存储型系统的一部分,其中编码器压缩待存储的视频图像或其它数据,并在后面恢复和解缩出来。例如,视频序列可以存储在软盘、磁带或其它便于携带的介质中。而且,系统可以用于游戏、交互式视频和虚拟现实的应用场合下,在那里译码器中的时间计分s被交互修正。系统还可以用于如医学图像等的数据库操作中,其中提供的参量同时用于压缩和有效搜寻或研究中。利用不同域和子运算域的因子分析的软建模
本发明采用由主成份分析或单值分解决定的因子分析来确定包含在参考帧内的各种因子。输入本发明的视频序列可以表示为一系列的帧,每一帧代表特定时刻的视频序列。每一帧由多个像素组成,每个像素包含了代表帧内特定位置处视频信息的数据。
按照本发明,输入帧分解为各种域和子运算域上应用于参考帧内所包含的一个或多个因子的计分或权重。如图2所示,N幅每帧由M个变量(例如像素)组成的输入帧可以排列为N×M矩阵202。在这种表示中,像素排列为一行对应于一帧,而不是普通的两维行/列排列。随后矩阵202可以分解或表示为形成N×F矩阵204的每一帧时间计分因子f=1,2,…F乘以由F个因子的空间装入组成并且每个值对应M个像素中的一个从而形成F×M的装入矩阵206的空间参考模型。如果因子数F小于N或M中的较小值,则采用残量矩阵(208)来对未建模数据部分求和。详细情况可参见H.Martens和T.Naes,《多变量标度》,第三章,(John Wiley & Sons,1989),它作为参考文献包含在这里。这种类型的弱假设自建模或“软”建模可以与其它域上的强假设“硬建模”(如三维实体运动和利用MSC建模及其扩展的密度混合多重/附加建模(H.Martens和T.Naes,《多变量标度》,pp.345—350,(John Wiley & Sons,1989),它作为参考文献包含在这里))结合起来。
图3b表示如何从视频序列不同帧的几个对象中提取因子并结合形成一幅参考帧。如图3所示,帧1包括对象11和12,分别为出租汽车和建筑物。帧4只包括建筑物12而帧7包括建筑物12和小汽车13。按照本发明对这些帧所作的分析产生出包含对象11、12和13的参考帧20。应该注意的是,完全子不必是如房子和汽车之类的实体。同样的原理也可以用于形状更富于变形的对象,如交谈时的头部;但是这可能需要提供其它域上的变化因子。
图3a是参考帧内各像素数据格式的图解表示。除了普通像素以外,坐标系也可以用于模型表示。它们包括金字塔形表示、极坐标或其它不规则的稀疏坐标系。
如图3a所示,每个像素除了包含概率、段和其它信息(这种概率值的数目在编码器参量估计期间与参量估计之后是不同的)之外,还包含了采用颜色空间(例如RGB)内的给定颜色信息形式的密度信息和采用垂直(V)、水平(H)和深度(Z)信息形式的地址信息。
每个这样的信息成份在各个阶段可以由一个或多个信息亚成份组成,而这些亚成份又可以由一个或多个更基本的亚成份组成。例如,如图3a所示,红(R)色密度信息包含了几种红色信息成份R(0)、R(1)、R(2)…。同样,R(2)又包含了一个或多个表示参量值、不确定程度和其它统计信息的信息亚成份。
用于构造参考图像的对象的选取择取决于应用的类型。例如,在对先前录制的视频图像进行离线编码时,选取的对象使参考图像尽可能表示长序列帧。相反,对于例如画面电话或视频会议之类的在线或实时编码应用,选取的对象力求使参考图像接近帧序列中早先的图像。随后,在遇到新的帧序列和/或消除过时的帧序列时,利用新的对象来改善或修正最初的参考图像。
采用字母u跟上指示计分类型的第二字母来表示一般的时间信息(“计分”),例如用uA表示地址计分。偶尔也用下标来表示特定的时刻,例如用uAn表示帧n。
空间信息采用层次格式来表示。字母X一般用来表示空间信息,并且包括下列一个或多个域:I(密度)、A(地址)和P(概率性质)。这些域表示代表算符之间的数据流并称之为运算域。这些运算域中的每一个又包含一个或多个“子运算域”。例如,密度I可以包含指示所用特定颜色表示的R、G和B子运算域。同样,地址A可以包含指示所用特定坐标系的V(垂直)、H(水平)和Z(深度)子运算域。概率性质P也可以包含子运算域S(段)和T(透明度)。不同像素的空间信息可以采用不同的格式。此外,在数据输入、编码、存储、传送、译码和输出各个阶段,可以重新定义各种域和子运算域。
因此每个空间点或像素可以用不同域和子运算域的多个值来表示。对于每个子运算域,可以有不止一个的参量或“变化因子”。因子从零开始向上计数,第零个因子表示普通的图像信息(缺省密度和地址)。这样,在X(0)内,I(0)代表普通的画面密度信息,A(0)代表隐含的坐标地址信息而P(0)代表例如透明度之类的概率信息,而X(f),f>0则代表其它各种变化的模型参量或因子装入,即像素在不同域中一起变化的对称模式。
根据一些空间点,用大写、小写和下标字母来定义对象的空间信息。大写字母代表参考图像位置中的空间信息,小写字母代表特定图像位置中的空间信息,下标表示特定的图像。所以,Xref表示给定序列的参考位置中的空间模型,而xn代表输入帧n的空间数据。
未参量化的不同图像的改变区域用来表示根据各种域将一幅图像改变为另一幅图像。改变区域采用两个字母符号来表示,一般还带有两个字母下标。两个字母符号中的第一个字母是表示差值或△的D或d,而第二个字母表示域或子运算域。下标用来指示开始和结束的位置。例如,DARef,m定义了如何将给定参考位置内的像素值移入重建帧#m内,而damn定义了如何将像素值从帧#m移至帧#n。
拓宽参考模型以在更宽的范围内进行对称表示
参考图像可以拓宽为包含比各输入图像中可用的更多的变化信息。例如,RGB系统中彩色图像的画面密度一般用对应每个像素的红、绿和蓝颜色成份的单个R、G和B密度值表示。但是,在拓宽参考图像时,可以有几种像素组协同变化的对称方式。这些变化因子装入可以对各种颜色或颜色组合定义以及对各种完全子或完全子组定义。
也可以在颜色密度域以外的数据域(例如地址(坐标)和透明度等的各种概率性质)上完成给定视频序列的参考图像的“拓宽”。参考图像的拓宽指的是用于特定场景的模型的参量化。通过在译码器中以不同的方式组合不同的模型参量,可以创建对模型不同的阐述。这些输出阐述可以是对输入数据(各视频帧)的统计逼近,或者表示完全新的合成输出,例如虚拟现实应用。
将“软”因子分析建模、传统的统计参量、ad hoc残量建模和“硬”或因果性更强的建模结合起来可以获得各种域上参考帧的拓宽参量化。
一旦建立起扩充的或拓宽的参考图像模型,就可以对其动态修改或更新以产生“深化”的参考图像模型。这种“深化”的参考模型包含重要和相关的图像信息的概率较高而不重要和不相关的变化信息的概率较低的“更硬的”模型参量。
各种域上拓宽的目的在于将紧凑和灵活的表示结合起来、改变序列中各帧的图像信息。在自动编码时,这可以通过将给定帧的新变化信息与先前帧的变化图像信息组合在一起完成编码以提取对称和统计稳定的公共结构。比较好的做法是通过分析几帧的残量成份和提取模型参量装入完成。计算可以直接在残量上或各个残量叉积上进行。可采用不同的权重函数来保证给出更多的精确变化信息而不是非精确变化信息,参见H.Martens和T.Naes,《多变量标度》,pp.314—321,(John Wiley & Sons,1989),它作为参考文献包含在这里。可以以不同的数据形式提取新双线性因子和其它参量,所有的形式都提供相同的结果。数据格式可以是原始图像数据、去除了先前提取的模型参量或者已为其它方法所提取的模型参量之后或者在编码过程不同阶段的残量图像信息。
在拓宽过程中可以提取若干类型的可建模结构。其中一种通用类型基于空间—时间的协同变化,即一个或多个信息域在若干像素和帧上的对称变化。协同变化的一般形式是由双线性因子建模逼近的多变量线性协同变化。这种类型的因子提取可以应用于各种不同的域上,例如地址、密度和概率域。协同变化的非线性和非公制提取也可以构成拓宽运算的基础。
双线性因子例如也可以采用应用于多帧残量成份的单值分解来提取。单值分解使用于提取因子的权重平方和最大,但没有提供对噪声的平衡或滤波或者优化后面的压缩。可以利用例如非线性迭代最小2乘方法(NIPALS)等更先进的估计技术。NIPALS方法是一种允许根据需要采用附加判据的开放结构。
NIPALS方法应用于来自多帧的残量矩阵Ea-1(具有a-1个因子的系统内的矩阵E)以提取附加因子并且从而将残量矩阵的大小减少为Ea(具有一个因子的系统内的残量矩阵)。残量矩阵Ea可以用来寻找残量矩阵Ea+1中第(a+1)个因子。
这种因子分析不仅可以应用于图像密度,也可应用于各种域上不同的子运算域。一幅图像帧的地址信息一般用像素水平和垂直地址的直角坐标系表示。但是,在拓宽参考帧内,地址信息可以包括每个单输入像素坐标的多重变量。
拓宽参考图像中的附加变化因子拓宽了场景中最终图像模型的应用范围,从而使许多附加的不同视觉量或模式可以用附加变化因子或“装入”的不同组合来表示。在按照本发明的较佳实施例中,不同的装入线性组合,即每个装入用“计分”进行权重并将经过权重的装入相加以产生总的装入。权重过程中所用的计分值既可以是正数也可以是负数并且表示一个应用于装入或变化因子的标度因子。这将用于表示子运算域红色密度rn,n=1,2,…,N和垂直地址Vn,n=1,2,…,N。当建模密度变化时,计分s可以用来“翻上”或“翻下”装入的密度模式。同样,当建模地址变形(运动)时,计分被用来表示装入变形的程度。
采用上述用于拓宽参考帧的拓宽原理,可以将例如各输入帧的红色密度Rn建模为红度变化因子装入的线性组合或者总和(注意,这里的“hat”符号用于普通的“重建”或“估计”的统计含义):rnhat=RRef(0)*uR(0)n+RRef(1)*uR(1)n+RRef(2)*uR(2)n+…                       (1)也可以对因子f=0,1,2,…求和,采用的矩阵表示为:
rnhat=RRef*Un这里RRef={RRef(0),RRef(1),RRef(2)…}表示扩展参考模型中红色的空间变化因子装入,而〔Uin={U0,in,U1,in…}〕URn={uR(0)n,uR(1)n,,uR(2)n…}表示应用于参考模型上的时间红度计分以产生帧n红度的估计值。这种密度变化因子因为可用于给脸部着色的模型,故称之为“着色因子”。但是,将会看到的是,这些因子可以用于对其它类型的信号和现象的建模中,包括与视频无关的应用。
图4a—4n示出了这些所谓着色因子的应用。图4a、4b和4c分别表示中度着色(4a)、深度着色(4b)和轻度着色(4c)的红色通道的密度图像rn,n=1,2,3。第一帧r1定义为参考帧。因此,R(0)Ref=i1
图4d—4f表示相应的密度变化区域DRRef,n,n=1,2,3。在静止实例中,帧的变化区域等于该帧与参考图像之差,或者drn=rn-RRef(0)。变化区域也表示在一条对应穿过图4a—4c的着色脸颊的直线上的曲线。如图4d—4f所示,图4c轻度着色(苍白)的脸部具有最低的密度变化区域值(图4f),图4a中度着色的脸部由于作为参考图像(图4d),密度没有变化,而图4b深度着色的脸部具有最高的密度变化区域值(图4e)。
本发明的统计处理将提取一组通用的着色特性或变化因子装入以用于不同的帧来对密度变化的着色状态建模。图4a—4f表示相对于参考图像的单着色现象。变化区域DRRef,n,n=1,2,3的主成份分析可以给出这种采用单着色因子的较好解释,其在以下给定计分(分别为0,1.0和-0.5)下的装入R(1)Ref示于图4h中。在这种情况下,可以通过将不同的计分应用于主着色因子装入R(1)Ref以产生不同的变化区域DRRef(图4i—4k)以及通过将其加入到参考图像红度(图4g)以产生重建的红度图像(图4l—4n),从而在译码期间对红色密度建模:其中红度变化区域为:
DRRef,n=RRef(1)*uR(1)n
如图4d—4f下面的数字所示,这种情况下由于r1hat=RRef(0),计分值uR(1)n相对于参考图像(4a)本身为0,相对于着色较深的第二帧(4b)为正数,例如1.0,相对于苍白脸部的第三帧(4c)为负数,例如-0.5。应该注意的是,第三帧图4c的负的计分将正的着色装入图4h变换为比参考图像更浅的第三帧图像的负的变化区域DRRef,3
如果在该序列的图像中红度变化引起了不止一种现象,则模型需要多个变化因子。例如,如果房间内的照度是变化的,与人的着色和消色无关,则可以采用两种因子解来建模,其中第二中因子涉及将计分uR(o)n应用于参考帧本身:
rnhat=RRef(0)+DRRef,n这里着色变化区域为:
DRRef,n=RRef(0)*uR(0)n+RRef(1)*uR(1)n对于不同的颜色和因子一般可以表示为:
DIRef,n=IRef*uIn                             (2)因此,图4a—4n表示了着色因子loading 4h(包含在Iref中)增加或减少(以计分作相应的标度)以产生如图4d—4f所示的各着色变化区域的方式。在这种方式下,利用一个装入(图4h)和一系列少量的数据较强的计分,可以压缩和表示可观的密度信息。
以同样方式还能对透明度T和概率性质P的变化建模。在概率建模时,本发明的较佳实施例采用双线性建模。空间装入P(f),f=0,1,2…和相应的计分uP(f)n,f=1,2,…一起构成概率变化因子。
与用于表示密度信息的着色因子相似,利用变化因子装入的线性组合也可以对地址信息建模。例如,借助于变化因子装入的线性组合或求和可以对帧的垂直地址信息Vn建模:
DVn=VRef(0)*uV(0)n+VRef(1)*uV(1)n+VRef(2)*uV(2)n+...                (1)采用矩阵记号也可以将垂直运动因子f=0,1,2,…概括为:
DVn=VRef*UVn这里VRef={Vref(0),Vref(1),Vref(2),…为对于扩展的参考(对于这种完全子)中的红度的垂直空间地址变化因子装入,而UVn={UV(0)n,UV(1)n,UV(2)n,…表示应用于参考模型以产生帧内各像素的帧n的垂直坐标估计值的时间垂直运动计分。由于它们可用于构造脸部微笑的模型,所以这种地址变化因子称为“微笑”因子。
与着色因子一样,这里需要移动参考帧内容以逼近输入帧的垂直地址信息变化区域称为DVRef,n。它可以建模为由合适的计分(un)标度的地址变化因子装入(Vref)带来的变化贡献之和。地址变化因子被用于对象的模型运动和变形。用于对象模型变形的地址变化因子因为用于产生“软”运动(例如脸部微笑)的模型,所以称为“微笑因子”。但是将会看到的是,微笑因子可以对任何其它包括与视频无关的信号和现象,这些信号和现象可以建模为能变形的复杂的而仍保持共同的基本特性的样本。
按照本发明的微笑因子的应用示于5a—5n。图5a—5c表示各种微笑程度的脸部。图5a表示文静的微笑;图5b表示深度微笑;而图5c表示皱眉头的冷笑。图5a文静微笑的脸部可以作为图5g所示参考帧的一部分。如图5a—5c所示,相对参考图像嘴巴垂直动作的地址变化区域DVRef,n示于图5a—5f中。“参考位置”(对应参考图像图5g)的概念示于图5d、5e和5f,其中给出了图5g参考图像中而不是帧n=1,2,3(图5a—5c)中像素坐标处的地址变化区域DVRef,n的像素数值。因此,将参考图像(图5g)变换为图5a—5c的各帧所需的垂直变化区域(运动)表示为沿嘴巴的三个点上的垂直箭头,在参考图像(图5g)中的这三个点处可以找到嘴巴。箭头的基点位于参考图像(图5g)的嘴巴处,而箭头末端位于图5a—5c的其它帧内的嘴巴上的对应点处。图5d—5f利用对应参考图像(图5g)内穿过嘴巴的直线的连续曲线定量给出了完全变化的区域。
由于示例中的第一帧图5a同时用作参考图像(图5g)和单独的帧,所以帧1(图5d)的垂直微笑变换区域DVRef,1包含所有的零。在图5b中,嘴巴的中段向下而两端向上运动。因此,微笑区域DVRef,n在中段为负而在参考位置的嘴巴两端为正。图5c的皱眉表示了相反类型的模式。这些变换区域由此只包含一种主要的运动并可以采用一个微笑因子来建模,而且可以利用图5d—5f的主成份分析来提取这种微笑因子。微笑因子计分uVn示于本实例中,当公共垂直微笑装入如图5h所示时,参考图像(图5a)本身为零,帧2(图5b)为正以及帧3(图5c)为负。
如果图5a—5c中的头部还作与微笑动作无关的点头,则需要涉及更多运动的模型来精确地建立各种运动的模型。在最简单的情况下,可以采用一个或多个附加的微笑因子,以和多重因子着色建模一样的方式建立头部运动的模型。每个微笑因子将包含各种运动的空间装入,每一种运动都可以通过几个因子计分简单地建模。图像对象在两维或三维空间内的旋转需要更多坐标维数的因子装入,或者需要各坐标维共享一些因子装入。例如,如果图5a—5n中的人将头侧倾45度,则图5a—5n中作为纯粹是垂直运动而建模的微笑动作不再是纯粹的垂直运动。而且还需要同样多的水平运动成份。嘴巴的变化微笑还是一个因子的运动,但现在还结合了垂直和水平成份。在相等的计分下,同时可以采用垂直和水平装入。垂直和水平运动同样可以共享同一个装入(图5h),但根据头部倾斜的角度而具有不同的计分。
为了更好地控制和更简单地译码和压缩,可以用称为“点头”因子的硬运动模型代替有些运动。点头因子不采用清晰的装入,但被称之为实体的仿射变换,包括相机的取景和运动。微笑和点头可以按各种方式结合。在按照本发明的较佳实施例中,根据一些连接性判据,创建了运动的级联。例如,利用微笑因子(软建模)可以建立诸如微笑的嘴巴之类的易变形的非实心体的微小运动模型,而采用点头因子(硬建模)可以建立主要运动和诸如头部之类的实体运动。对于谈话的头部,首先将软模型用来将初始垂直参考地址VRef修正为参考位置中的“微笑”坐标Vn,smile@Ref。同样的程序可以用于水平坐标,并且可以选择是否用于深度坐标以形成An,smile@Ref。随后利用仿射变换修正(即,旋转、标度变换、剪切等)这些微笑坐标An,smile@Ref以产生仍然是在参考位置An@Ref中给出的微笑和点头坐标值。然后根据DARef,n=An@Ref-ARef计算最终的地址变换区域DARef,n。编码
编码过程一般包括建立用于一个或多个参考图像或模型的空间模型参量XRef并且随后估计个各帧的时间计分sUn和残量En。编码过程可以完全手动、完全自动或者手动与自动结合。编码过程用于密度变化、运动变换、变形和概率统计变化。
手动编码
在按照本发明的一个实施例中,可以对视频序列手动建模。在手动建模时,操作员控制建模并解释输入视频数据序列。可以采用任何一种绘图工具来完成手动建模,例如“Corel Draw”、“Aldus Photo-shop”或其它专用软件。
由于人类相当擅长于直观分辨微笑、着色和分段之间的区别,所以编码处理主要集中在向随后所用计算机传送这种信息的工作上,而不是通过计算处理来揭示这些复杂的关系。
如果有理由采用不同的模型,例如如果序列切换于不同的剪切之间,则可以通过审视序列来判断剪切边界或裁剪处。相关的剪切放入一个场景中。不同的场景可以分别建模。
对于给定的场景,如果存在显示了位置或密度相关变化的区域,则这些区域被操作者隔离为完全子。这些区域对应于序列中的对象。此外,还可以将诸如阴影和反射之类的其它现象选为完全子。对于复杂的对象,将其分为几个完全子比较有利。例如,不对整个行走的人建立模型,而是对其各个部位(例如肢体)分别建模就会更容易些。
对于每个完全子,通过审视可以找到在空间上最好地表示完全子的帧。这称之为参考帧。一个好的表示意味着它不会受其它完全子阴影的遮挡和影响,不会受运动模糊的显著影响,并且尽可能多地表示序列。如果在序列中无法找到一帧较好的表示,可以将来自不同原始帧的较好表示部分装配起来或者通过修正来合成完全子表示。对于合成的完全子,参考帧仅由合成的完全子组成。合成的完全子比较适合于例如阴影之类的半透明的完全子,在那里平滑的黑暗图像常常就足够了。这种所选取或合成的完全子将作为参考图像的一部分。来自各帧的完全子的密度图像被提取出来并转入公共的参考图像。
每个完全子都必须分配一个任意但唯一的完全子数。随后形成与参考图像尺寸相同的包含所有完全子的分段图像;但是,完全子内部的每一像素的像素密度用特定的完全子数代替。该图像被称为分段或S区域。
为了根据深度排列完全子,通过判断包藏、透视或其它深度线索获得完全子深度信息。如果有几种深度排序的方式,例如如果一个序列中的两个完全子从不互相包藏并且看上去具有相同的深度,则选择任意的次序。如果由于序列的次序是变化的,例如完全子A在某一时刻包藏完全子B而在另一个时刻完全子B包藏完全子A,从而不可能进行单一的深度排序,则任意选择其中一种可能的深度排序。随后这种深度排序以如下的方式转换为深度标度,即零对应于无穷远而满刻度基本上对应零深度,也就是最靠近相机。采用绘图工具中所用的密度标尺可以方便地指定或表示深度标尺,例如无穷远的对象赋予零密度值,而非常靠近的对象赋予满刻度密度。基于这种深度排序,形成了尺寸与参考图像相同的图像;但是,每个像素值包含用作深度数值的密度值。该图像被称之为Z区域。
手动建模或编码还包括确定完全子混浊度信息。通过首先形成一幅图像来确定混浊度,该图像的完全不透明像素具有最大的密度值,完全透明的像素为零值,而其余的像素为中间值。大多数对象一般在内部区域具有最大值(最大的混浊度)而在边缘处具有范围较窄的中间值以较好地适应背景。另一方面,阴影和反射的值为最大值的一半。表示混浊度的图像被称之为Prob区域。
首先通过确定参考图像与各个完全子的参考帧之间的垂直和水平位移获得完全子运动信息。这样做是用于所选择完全子的容易识别的像素。随后对这些位移进行标度从而使得没有运动对应绘图工具最大密度刻度的一半。更暗的密度值对应垂直向上或水平向左的运动。同样,较亮的密度值对应相反的方向,从而使两个方向上的最大运动都不会超出绘图工具的最大密度值范围。两幅新图像共同构成尺寸与参考图像一样的“第一微笑装入量”,其中一幅用于垂直方向,另一幅用于水平方向。随后所标度的位移被放于第一微笑装入量的相应地址上,采用手动或自动内插形成其余像素的位移。
第一微笑装入量比较好的是通过制备出用于译码器的上述所有区域并结合计分值表(该表称为“时间序列”)来验证。接下来,第一微笑因子的计分对构成待译码的测试帧的全部完全子设置为1,然后被译码。最终的译码帧应该在各参考帧内提供较好的完全子重现性(除了还未寻址的着色效应)。如果不是这种情况,引起每个特殊误差的原因也会引起不正确的微笑计分和装入,它们可以调整,随后在重复处理时使用新的数值。该处理正确地建立了将完全子从参考图像位置移动到参考帧位置的方式。
接下来必须估计帧之间完全子的运动。对于每个完全子,在选取的帧内完全子以容易检测的方式相对于称之为中间帧的参考帧Im的译码逼近移动。除了新的运动是根据译码参考帧和所选新的帧测量得到的以外,同样的程序也用于确定第一微笑装入量,并且最终的输出称为“第二微笑装入量”。这些位移定位在参考帧内适当的位置上,其它值由内插得到。所有完全子的第一和第二微笑装入量的微笑计分都设置为1,并且随后对所选帧进行译码。结果应该是所选帧的较好再现(除了没有寻址的着色效应)。
基于已经有的微笑装入量采用凑试法仅仅改变微笑计分就得到了序列内其它帧的运动。无论何时,只要仅仅利用已有的微笑因子无法较好地再现运动,那么就必须按照上述方法引入新的微笑因子。测量每幅经过译码的中间帧Im与原始序列中对应的帧之间所选特征(像素)的位移并将结果存入参考图像位置处。利用内插得到其余的像素,并进行最终结果的验证和任何必要的校正。
当用于计算微笑因子的上述处理产生出足够精确的运动再现时,可以随后引入着色因子。通过在序列中每帧期间的工作,利用已经建立起来的微笑因子对各帧译码和计算经过译码的与原始序列中相应的帧之间的差别来自动引入着色因子。这种差别随后被移回参考位置并存储起来。为了产生需要的着色装入量和计分,随后对参考位置上的差别进行单值分解。
点头因子的附加
点头和微笑因子可以有几种结合的方式,下面将要讨论其中的两种。在第一种方法中,运动可以描述为微笑因子与点头因子贡献之和。在第二种方法中,像素坐标首先被微笑化然后被点头化。
在第一种方法中,即点头因子与微笑因子相加的方法中,参考图像中一个像素的译码处理与不同的微笑因子的贡献相加,并计算利用参考图像中初始位置的点头因子引起的位移。这两种贡献相加在一起产生最终的像素运动。
在第二种方法中,即级联点头和微笑因子的方法中,译码处理首先相加不同微笑因子的贡献,然后将点头因子用于已经有的微笑像素坐标上。
第一种方法在某种程度上实现起来更简单,而第二种方法可能产生一个与序列的物理解释更接近的模型,其中,点头因子对应整个对象幅度较大的运动而微笑因子对应较大对象的微小变形。
提取微笑因子的过程还可以包括用于表示实体对象运动(仿射变换)的点头因子。本质上点头因子是微笑因子的一种特殊情况。特别是每次对一个完全子计算出新的微笑因子时,可以利用点头因子逼近它。如果微笑装入具有的特性使得像素在垂直和水平维上的运动可以看作是三维空间内某一平面上垂直和水平位置的函数,则这种逼近将足够精确。点头因子基本上与刚体对象的运动对应。当微笑因子对应完全子的弹性变形时,逼近的精度差一些。
为了建立点头装入量,微笑装入量被投影到与扩展的参考图像尺寸相同的三个“点头装入量”上。第一点头装入量是一幅所有像素值都设置为像素垂直地址的图像。第二点头装入量是一幅所有像素值都设置为像素水平地址的图像。最后,第三点头装入量是一幅由前面两者组成的图像。
在将点头因子加入微笑因子时,即附加点头时,可以采用上述提取新的微笑因子的程序。但是,在级联点头因子时,即先采用点头因子随后采用微笑因子编码时,必须在编码过程中完成附加的步骤。只要基于采用点头因子而产生的中间帧Im来估计新的微笑装入量,那么不仅必须将位移Im中的位置映射回参考图像,而且必须利用逆向点头因子将实际的位移映射回去。在级联点头和微笑的情况下,在译码器内先使各帧“微笑”然后使其“点头”。
深度化点头
对于每个完全子一个点头因子的通常情形,向译码器发送的点头因子由一组各帧内每个完全子的点头参量组成。但是,在完全子之间和帧之间,点头参量可能又有很强的相关性。完全子之间相关的原因在于完全子表示的是以比较协调的方式运动的较大对象的各部分,但完全子本身的运动并不是很协调一致。此外,当完全子对于物理实体时,由于物理实体运动的直线性较强,所以帧之间一具有相关性。当对象沿一个方向运动时,在接下来的几帧内对象常常会沿同一方向以接近相同的速度运动。基于这种认识,点头因子可以深度化。
对于手动编码,操作者通常可以将完全子分组从而使每一组完全子都具有共同的关系。这种分组被称为超级完全子而一组内每个单独的完全子被称为亚完全子。分组可以不断进行下去,从而使几个超级完全子本身又是更高一级的超级完全子的亚完全子。亚完全子和完全子保留了所有的完全子的特征。对于自动编码,可以通过点头变换的群集分析进行相似的分组。
一个超级完全子中的亚完全子的点头因子可以分为两个分量,第一分量用来描述超级完全子的运动而第二分量用来描述相对于超级完全子的各亚完全子的运动。
帧之间的点头因子的深度化包括确定用于同属某一完全子的点头因子的帧之间的关系,完全子可以是标准完全子、超级完全子和亚完全子。这通过将点头因子分割为定义了完全子开始位置的静止部分、定义了完全子遵循轨迹的轨迹部分和描述了给定帧内特定完全子在轨迹上的位置的动态部分来完成。静止和轨迹部分都可以按照参考图像或超级完全子的点头因子来定义。
深度化的点头因子表示仿射变换组并且可以表示为一组矩阵,参见William M.Newman和Robert F.Sproull《交互式计算机图形原理》,第57页(mCGraw Hill 1984),它作为参考文献包含在这里。静止部分对应一个固定的矩阵。轨迹和动态部分对应参量化的矩阵,矩阵为轨迹部分而参量为动态部分,参见Neman & Sproull,第58页,它作为参考文献包含在这里。这些变形可以根据静止部分、轨迹部分和动态部分之间的关系连接起来。变换也可以根据沿轨迹的几种表现的组合以及超级完全子与亚完全子之间的关系连接在一起,参见Neman & Sproull,第58页,它作为参考文献包含在这里。
人工操作者采用以下方法很容易完成上述操作:确定无参量的全仿射变换的方法;以足够的容量存储用于确定平移、标度、旋转或剪切的参量的变换矩阵的方法;为形成新的变换矩阵而确定连接在一起的变换矩阵的方法;以及确定应用于每个完全子的变换(可能是几种变换的联合)的方法。
自动编码
对于自动或半自动编码,编码过程可以迭代,借助每次迭代增加了编码的效率。由于密度变化的建模效率没有地址变化的建模效率高或者情况相反,所以重要的是使自动编码在密度变化与地址变化之间达到正确的平衡。因此,在域的建模过程中,利用一个过程来估计各个计分和残量是很重要的,该过程避免了密度变化建模与地址变化建模效率的差异。这可以通过只是在需要时才进行着色建模的序列模型的建立并确保模型参量可以用于多帧来完成。这里将描述涉及全序列建模的较佳实施例和涉及简化序列建模的另一个实施例。在描述中,首先在相当高的级别上提出编码器的各个构成块,随后将详细地描述这些构成块的操作和控制。
自动编码器总览
借助图6—13将详细描述视频序列数据情形下按照本发明的自动或半自动编码。图6是按照本发明的编码器的框图。图7是图6编码器的模型估计器部分的框图。图8—10表示了模型估计器的变化区域估计器的较佳实施例的细节和原理。
图11表示变化区域估计器的局部变化区域估计器的细节。
图12表示了模型估计器的解释器的示意图。
图13表示了分立的译码器的示意图。
高级编码器操作
存储在数字存储介质中的输入数据(610)由帧n=1,2,…,的n帧输入图像的视频序列xseq组成。该输入包括带有颜色通道的实际密度数据iseq,颜色通道遵从合适的颜色表示格式,例如〔Rseq,Gseq,Bseq〕和合适的空间分辨率格式。输入还由不同像素或像素的隐含或明示的2D坐标地址或位置数据aseq组成。因此,每帧的视频序列xn由in,an和pn信息组成。
最后,xseq也可以由用于增强IDLE编码的概率性质pseq组成。这些数据由每帧预处理的后续结果组成:(a)可建模性,即利于检测出的前一帧和后一帧内不同部分的概率估计;(b)HeteroPel,即像素表示均匀或非均匀的光学结构的概率。
按照本发明的自动编码器由高级多路控制器620和模型估计器630组成。多路控制器620优化了对给定序列的一系列帧所作的重复的帧状态的估计。模型估计器630优化了视频帧n的建模。
在较佳实施例中,不同域上带参量的完全序列模型通过包含来自序列不同帧的信息逐渐扩充(“扩展”和“拓宽”)和精细化(“深度化”和统计意义上的“更新”)。完全序列模型进一步精细化为贯穿序列的连续、迭代的通道。
相反,在涉及简化建模的另一个实施例中,在不同的域和多幅不同的帧上产生一组竞争附加序列模型以对输入帧xn的未建模部分建模。应该注意的是,采用已有的序列模型Xref来对输入帧xn已建模部分建模。这些竞争附加模型只在一种域上有参量。用于估计各种域上参量的帧的数目(通道的长度)由帧建模的难易程度决定。在每种域上通道的末端,通过从帧建模能力增加最大的竞争附加域模型挑选新的因子或分段“拓宽”或“扩展”完全序列模型。该实施例在附录II的简化编码器中有详细描述。
模型估计器630输入由前述〔in,an和pn〕组成的每一帧xn(640)的输入数据。它还输入已经过初步估计的模型Xref(650)作为序列的稳定输入。作为输出,模型估计器630提供输入图像xnhat(660)和相应的无拟合残量en=xn-xnhat(665)的重建图像以及模型(655)的改进模型。
模型估计器630还输入/输出帧n附近数据结构的局部模型670。
此外,模型估计器630可以从外部模型基元数据库680输入预建立模型元素,数据库680由运动模式的空间和时间模型(例如人的脸部或身体、流水、吹动的树叶和树枝)和更简单的建模元素(例如多面体模型)组成。(参见David W.Murray,David A.Castelow和Bernard F.Buxon,“从图像序列到识别运动的多面体”,国际计算机期刊,第三期,pp181—208,1989,它作为参考文献包含在这里)。
模型估计器630还从多路控制器620和向多路控制器交换控制信息635和637。在以下的图中没有清楚地示出有关控制参量的细节。
模型估计器
对于给定的帧n,图6的模型估计器630的完整实现示于图7中。模型估计器630包含变化区域估计器710和解释器720。变化区域估计器710取用帧xn(对应640)(由图像密度数据in、地址信息an和概率信息pn)的原始输入数据。它还从编码过程中该点处的当前空间和时间模型760(对应650)的初始模型输入信息。初始模型信息760用来稳定变化区域估计器710中变化区域图像区域的估计,变化区域用来改变扩展参考图像的密度和初始序列模型xRef,Useq(760)的其它量以尽可能地逼近输入图像密度in
变化区域估计器710也从多路控制器620输入各种控制参量并与解释器720交换局部控制信息755和756。
作为主输出,为了尽可能地逼近输入图像密度in,变化区域估计器710产生用作改变扩展参考图像的初始序列模型XRef Useq(760)的空间和时间参量的估计变化图像区域DXRef,n(730)。它还产生输入图像xnhat(640)和相应的无拟合残量en(645)的基于初始模型的译码(重建)结果。
变化区域估计器710也产生包含用于随后的解释器720的各种警告和命令统计的局部概率量wn(750)。变化区域估计器710可以选择输入和更新局部模型670以进一步优化和稳定参量估计过程。
解释器720决定了估计变化图像区域DXRef,n’730和初始预测xnhat和残量en以及估计警告wn750和来自多路控制器620的控制参量输出。解释器720可以选择接收来自模型基元780的外部数据库的信息。这些模型基元有以下几种类型:为了改善压缩或建模功能,在现有的IDLE模型中可以包括先前从其它数据估计得到的空间装入或时间计分系列组。利用空间装入模型的一个例子是在画面电话编码时使已有的通常的嘴巴运动模型适合于交谈者脸部的建模。因此不用估计和存储/传送详细的因子装入就可以在很多场合利用嘴巴运动;只有用于使通常的嘴巴运动装入适应面前的人的脸部的参量才需要估计和存储/传送。
同样也示出了利用对视频游戏应用中人的行走和奔跑运动的预估计计分时间序列将已有的运动模式包含到IDLE模型中去的例子。在这种情况下,预估计计分以及相应的微笑装入必须适配视频游戏参考图像中的人,但不必对行走和奔跑者的整个模型进行估计。
模型基元应用的第三个例子是将参考图像分解为用于参考模型XRef的静止图像压缩的更为简单的预定的几何形状(例如多边形)。
解释器接下来修改序列模型XRef760的内容并输出作为更新序列的序列模型(765)以及输入图像xnhat(770)和相应的无拟合残量en(775)的基于经过修正的模型的译码结果。在收敛的基础上(由多路控制器620判断),这些输出被用作整个模型估计器(630)的输出。
图8是按照本发明的较佳实施例的变化区域估计器710的框图。如图8所示,向变化区域估计器710提供转换为正确格式的输入帧xn和用于这里的编码器的颜色空间。以模型估计阶段采用的形式的序列模型XRef(760)也输入变化区域估计器710。来自变化区域估计器710的主输出是将序列模型XRef810转换为输入帧xn的较好估计的变化图像区域DXRef,n(890)。
变化区域估计器710可以按两种方式实现。首先,在较佳实施例中,对每种域分别优化变化区域,并且优化组合在解释器720中迭代确定。另一种方式是在变化区域估计器710中在各种域上联合优化变化区域。这将在下面详细描述。
附加的输出包括输入和初始估计en(894)之间的差异,即初始估计xnhat(892)以及警告wn(896)。
预测位置m
基于计算和统计原因,重要的是尽可能地简化变化区域的估计。在变化区域估计器的较佳实施例中,通过预测与输入帧xn相似的估计帧xm并随后只估计xn至xm的局部变化,目的是以更精确地表示输入帧xn
正如下面将要详细论述的那样,本较佳实施例的变化区域估计器710首先利用内部预测器810和译码器830来预测一个估计(称xm835)以相似于输入帧xn。预测器(810)接收到输入时间序列模型Useq(811)并向译码器(830)输出预测的时间计分um(815)。译码器830将计分与空间序列模型XRef831结合起来产生所需的预测帧xm(835)。有关译码器的其它细节将在下面描述。
估计从m到输入帧n的局部变化区域
接下来,采用局部变化区域估计器来估计从预测的xm到实际的输入帧xn所需的局部变化区域。这种变化称为估计的局部变化区域dxmn(855)并包含几种域上的信息,主要是下面将要讨论的运动和密度变化。
在估计局部变化区域dxmn中,对于“m位置上的”像素(即像素在预测帧xm中的位置)给出了如何改变预测xm内容的数据。为了能对这些新的变化区域数据和先前从其它帧获得的相应的变化区域数据建模,重要的是要将所有帧的变化区域数据移动到公共的位置。在较佳实施例中,这种公共位置被称为参考位置或参考帧XRef下面将要论述这种回到公共参考位置的运动。要注意的是大写字母将用来表示扩展参考图像模型的该参考位置中给出的数据,而小写字母将用来表示图像xn的输入格式和输入图像xn的逼近。
来自译码器830的附加输出是逆地址变化区域dam,ref865,它允许移动器操作者870将获得的m位置内给定的局部变化区域信息dxmn移回公共参考位置。dxmn输出的移动的型式称为Dxmn@Ref875,大写字母表示参考位置中没有给出信息。
局部变化区域估计器850还可以接收移动到m位置(XRef@m)完全模型XRef,加上相应的DXRef,m825的移动型式和来自译码器830的输出的返回微笑区域dam,Ref865,以用于dxmn835参量估计的内部稳定。
估计帧n的完全变化区域
编码过程接下来的步骤是确定从参考位置到输入帧n的估计位置的完全估计变化区域。这通过向加法器880提供最初用于XRef到xm变换的变化区域DXRef,n和获得的DXmn@Ref从而产生所需的主输出DXRef,n来完成。
局部变化估计示例
图9从概念上示出了在用于表示移动对象的图像中的给定像素的地址变化DA情况下的如上所述的预测位置m的应用。DARef,n′(作为变化区域DXRef,n′的一部分)的确定表示为图9中的元素902。DARef,n′的估计分为四个阶段。
第一个步骤是确定将空间信息从参考位置移动到预测的m位置从而逼近输入帧n的预测变化区域。这基于由从点Ref到点m的矢量表示的地址变化区域DARef,m(904)。该矢量由预测确定并且是DXRef,m的一部分。
其次,确定从预测位置m到实际输入帧#n,damn(926)的局部移动。
第三,采用逆移动区域daRef,m(905)(即从m位置到参考位置的矢量)将估计结果damn从m位置“移动”或平移回参考位置从而产生DAm@Ref(936)。
最后,将相对于参考位置Ref的两个区域(即DARef,m和DAmn@Ref)相加以产生所需的DARef,n(946)。
因此,移动器870的功能是将局部变化区域damn移回参考图像模型位置Ref。这样,dxmn中所有的元素(dimn,damn和dpmn)都被移回Ref位置。移动器870的输出是Dxmn@Ref(875),它是从预测帧m到输入帧n行进时的局部变化信息,但相对于参考位置Ref定位。为了确保从给定对象的帧n获得的变化信息与从同一对象的其它帧获得的变化信息定位在一起,变化信息被“移回”参考位置Ref。通过将所有关于对象的信息定位于同一像素位置,可以展开在序列中呈对称变化的简单模型。在这种方式中,系统试图动态改善输入帧的最初估计。在地址变化区域DARef,m(904)全部定义为零时,局部变化区域估计器850必须将完全的变化区域DARef,n直接估计为damn。这例如发生在编码过程之初,并且对于帧n,接近用于初始化参考图像模型的帧。
应该指出的是,局部概率变化信息dpmn包含额外的维数,这些维数包含了局部变化区域估计器(850)性能的统计描述。对于这些维数,DARef,m中相应的变化区域被考虑为是空的。这些附加的维数由用于编码优化的解释器使用。这些维数例如可以反映可能发生的折叠或包藏问题,这些问题使xm丢失一些估计输入帧xn所需的XRef的空间信息和在后面阶段包括XRef所需的xn内的空间改进。
局部变化区域估计器(850)还输出输入帧xnhat(892)、无拟合残量en(894)和某些解释警告wn(896)的一种估计。这些也通向用于编码优化的解释器(720)。
以下详细讨论用于局部变化区域估计器的局部模型信息(899)的输入和输出。
变化区域估计器
图8的局部变化区域估计器850的细节随各种域I、A和P分别示于图10中。应该注意的是,这些域的每一个都包含子域(例如在A中有V、H、Z;在I中有R,G,B)。为简化起见,它们不再明确表示出来。
由更详细地示出了图8的变化区域估计器主要部分的图10可见,序列所用的时间计分估计器用于预测器1010以产生以下三种域上的帧m的预测因子或计分:密度(uIm)、地址(uAm)和概率(uPm)。
编码器的内部译码器部分变化区域制造器
编码器的内部译码器部分包括对有关的输入、输出和内部数据流进行运算的变化区域制造器1020、加法器1030和移动器1040。在编码器的内部译码器的第一级(变化区域制造器),因子或计分与变化区域制造器1020中(初始)空间模型XRef所用的相应空间因子装入结合在一起以产生预测变化区域。对于每个域I、A和P和每个子域,估计因子计分与因子装入相乘并累积结果,从而产生预测变化区域DIRef,m′、DARef,m′、DPRef,m′
为简化起见,图8和图10中没有包括用于编码器的内部译码器部分的硬建模的附加功能。由于分立译码器与这里的编码器内部译码器部分基本上是一样的,所以将结合图13的分立译码器来讨论内部译码器的各种其它的细节。加法器
在译码器的第二级(加法器),变化区域与加法器1030中相应的基本(初始)空间图像(即扩展参考图像密度IRef(0)(例如RGB),(隐含的)扩展参考图像地址ARef(0)(例如VHZ)和扩展参考图像概率PRef(0)(例如混浊度))相加。这产生了Im@Ref、Am@Ref和Pm@Ref。移动器
预测变化区域在移动器1040内根据移动区域DARef,m(图9中的904)进行变换,从而产生预测密度图像im(例如RGB)、预测地址图像am(例如VHZ)和预测概率图像pm(例如混浊度)。这些预测数据部分构成了由图8译码器830输出的预测输出xm(图8中的835)。
局部变化区域估计器
局部变化区域估计器(850)对如何在一个或多个域上(主要是密度域)改变译码器830产生的预测图像xm作出估计以精确逼近输入帧xn。最终的估计变化称为局部变化区域dxmn
从参考位置移动到预测位置xRef@m837的序列模型装入可以用于统计模型稳定化的输入。此外,局部模型899可以用作稳定这种估计。局部模型可以是特殊情形下的优化特定的帧子组的模型。
变化区域估计中的分隔联合域
对于变化区域估计器710中的局部变化区域的联合域估计,密度差异dimn引起一些m—n偏离,而移动damn引起一些m—n偏离,并且分段和其它概率差异dpmn引起其它的m—n偏离。变化区域估计器710随后需要内部逻辑和迭代处理来平衡不同的域从而使同一m—n变化同一时刻不会在一个以上的域上建模。由于最终的局部变化区域dxmn已经包含了来自不同域的贡献的适当平衡,所以这简化了编码处理的其它部分。
但是,当涉及联合局部变化区域域时,为了平衡来自各个域的贡献,局部变化区域估计器850必须利用各种内部建模机制的迭代。由于在解释器中已经需要这些内部机制(因子计分估计、分段)来平衡不同帧的贡献,所以较佳实施例在局部变化区域估计器850中采用对各种变化区域的域的分开建模。这使得局部变化区域估计器850的设计更简单。但是,为了达到每帧的不同域上建模之间的最佳平衡,编码过程必须在变化区域估计器710与解释器720之间向前和向后迭代几次。为了更好地逼近xn,在每次迭代后改变预测帧xm,并且如下所述,由解释器累计不同域的增量变化。
采用分开域的建模的局部变化区域估计器
如图11所示,局部变化区域估计器850的主要用途是采用预测帧xm1101和输入帧xn1102来估计用于从预测帧m到输入帧n的局部变化区域dxmn1103。
局部变化区域估计器850采用不同域上的分开估计。估计器EstSmile1110估计局部地址变化区域(微笑区域)damn1115,而分开的估计器EstBlush1120估计局部密度变化区域(着色区域)dimn1125。这些估计器中的每一个都可以用来估计概率变化区域dpmn1126。图11的实施例示出了由EstBlush估计器1120估计概率变化密度区域的情形。
此外,估计器1110和1120分别提供了对输入数据、残量和报警的逼近1112和1114。报警用于那些在给定估计器中难以建模的图像区域。两个估计器的输出流1112和1114作为两组分开的输出逼近xnhat、残量exn和报警wn来提供。
EstSmile1110运动估计器
EstSmile1110运动估计器主要通过利用任意数量的不同比较基础(例如绝对差之和或平方差权重之和)将预测密度im与实际输入密度in比较来估计局部地址变化区域damn。为此可以应用各种运动估计技术,例如在R.C.Gonzales和R.E.Woods的《数字图像处理》pp465—478(Addison—Wesley,1992)中论述的频率域技术(作为参考文献已包含在这里)或R.Depommier和E.Dubois的“带有包藏检测的运动估计”IEEE0—7803—0532—9/92,pp.III269—III272,1992中论述的采用耦合马尔柯夫随机场模型的方法(作为参考文献已包含在这里)。
按照本发明的较佳实施例采用一种使统计估计平稳和通过利用已有的模型信息来尽量减少所需的新的空间微笑装入的运动估计技术。从参考位置移动到m位置XRef@m的空间模型结构是其中一种模型信息。模型信息的种类还包括下面将要详细论述的估计权重Wgts—XRef的移动变型。
概率域PRef@m包括能使完全子边缘区域内的像素从完全子内部不同的地方移动出来的分段信息sRef@m。为了获得较好的运动估计和在两个完全子接近时完全子分离的较开,这是很重要的。EstSmile估计器1110本身可以发现新的局部段,它们作为报警wn或概率性dpmn的一部分传送至解释器720。局部段一般是子段或分段的一部分,看上去象一个从预测帧m到帧n运动的实体。
地址域包括每个坐标亚运算域和每个完全子的空间地址因子装入a(f)Ref@m,f=0,1,2,…。运动估计用来接受作为已有的比较可靠的地址因子装入的线性组合的运动区域damn。这使得那些与解释器720中所用相似的内部计分估计器和残量变化区域估计器成为必要。随后帧n对帧n-1、n+1等的计分时间平滑度作为附加的稳定限制而被施加上去。
运动估计也可以包括对不同分段的“重度”点头因子的估计。这些分段可以是整幅帧(用于全景和变焦)、预测sm中定义的完全子,可以是运动估计操作者自己发现的新的局部分段。
采用各种输入xm、xn和xRef@m的密度和地址的输入不确定变化的方式保证根据不确定数据的运动估计一般被根据相对确定的数据的运动估计所覆盖。同样,根据先前由例如pn判断难以建模的预测帧xm或输入帧xn内的像素区域的运动估计一般被经判断相对容易建模的区域上的运动估计所覆盖。
在序列的初始建模期间,当还没有确定空间模型结构时,并且当提取因子非常不可靠时,其它的诸如空间和时间平滑度的稳定化假设被赋予较高的权重。
为了便于运动估计处理,除了用于编码器其余的运动估计以外,EstSmile1110估计器可以在不同的坐标系中完成运动估计。
EstBlush1120密度变化估计器
EstBlush估计器1120估计局部增量着色区域dimn,最简单的形式为:
dimn=in-im应该注意的是,在对给定帧的估计变化区域迭代改进期间,非常重要的是,在某一迭代过程中的用于在译码器830中重建预测帧xm的着色区域并不是仅仅根据dimn=in-im从前面的迭代得到,由于将在预测帧m与输入帧n之间进行人工拟合,所以提前结束了对更佳微笑和概率变化区域的估计过程。
EstBlush估计器1120还通过检测已有完全子的内部入口、新的边缘来检测概率性质dpmn中的局部变化。这可以基于标准分段技术的局部应用。还可以根据局部凑试法搜索对PRef@m中所用的透明度计分或装入(它们不需要进一步的着色或微笑变化就能改善im和in之间的拟合)的微小变化检测透明度的变化。
逆向移动器
利用从m到来自译码器移动器870的Ref,dam,Ref的返回地址变化区域将估计局部变化区域(对应于图8中的dxmn855)从预测位置m移回逆向移动器1060中参考位置Ref。这些输出DImn@Ref、DAmn@Ref和DPmn@Ref对应于图9中的DAmn@Ref908和图8中的DXm@Ref
逆向加法器
最后,将Dxmn@Ref与逆向加法器1070中的原始预测变化区域DXRef,m〔DIRef,m′,DARef,m和DPRef,m〕相加以产生用于参考模型XRef上来估计输入帧n,xn的所需估计变化区域。DXRef,n的这些变化区域是DIRef,m′,DARef,m和DPRef,m
局部变化区域估计器1050还产生对应各个域上的en(894)和xnhat(892)的残量和预测以及图8中各种其它的统计报警wn(896)。
解释器
解释器综述
解释器720的主要用途是从估计变化区域和其它用于各帧的数据提取用于整个数据序列或部分序列的稳定的模型参量。与变化区域估计器710相结合的解释器720同时用于初始内部模型改进和模型的最终完成。对于视频编码,解释器720将变化区域信息转变为地址、密度和概率域上的空间、时间、彩色和其它模型参量。在每帧n、每个帧序列和通过帧序列的重复通过的多路控制器620的控制下不断访问解释器720和变化区域估计器710。
对于编码过程中给定阶段的给定帧n,解释器720从变化区域估计器710输入各个域上的估计变化区域DXRef,n730(包括不确定估计)和附加报警wn750。解释器还从变化区域估计器710接收各帧的初始编码数据xnhat(735)和残量误差en(745)。除了局部模型信息899和局部变化区域估计dxmn以及输入帧信息xn以外,解释器720还接收已有的模型{XRef,USeq}760,并有选择地接收用于模型深化的模型基元的数据库780。解释器720还接收和返回来往于多路控制器的控制信号和参量635与637以及往来于变化区域估计器710的控制信号和参量755和756。
解释器720对这些输入进行处理并输出模型{XRef,USeq}765的更新。这种模型中的变化可以是参考图像模型、拓宽的子运算域模型的完全子结构的空间扩展或再定义或因子装入XRef以及序列计分USeq的新的更新值。解释器720还输出各帧n上的各种域和子运算域un(772)上的计分以及重建帧xnhat(770)和残量en(775)。应该注意的是,所有的解释器输出都表示为单值和相关的不确定估计。
图12详细示出了解释器720的内部操作框图。由图12可见,解释器720包括在已知各个完全子和子运算域的装入的情况下估计因子的计分un(1204)的计分估计器1202。解释器720还估计对应仿射变化的点头计分矩阵,包括用于移动和标度相机全景和变焦运动时的整个帧的计分。向扣除了来自变化区域输入DXRef,n′的这些已知因子效应的残量变化估计器1210提供这些计分以产生残量或未建模部分EXn(1212)。为了通过分析从同一序列中的几帧获得的变化区域数据来提取附加模型参量,空间模型拓宽器1214使用残量1212(或根据实施例使用完全变化区域DXRef,n)。由于如上所述,所有来自子序列的不同帧的变化区域已经移回参考位置,所以现在可以利用这些变化区域数据的因子分析来提取许多像素和帧的公共的空间—时间变化结构。根据在两幅以上帧内发现的未建模变化的能力判断为可靠的新的因子用来稳定子序列帧的变化区域估计。相反,只影响少量像素和帧的微小变化模式不用于统计稳定,但是如果它们代表还未充分显示出来但在向建模过程加入更多的帧时具有统计意义的变化模式,则存入存储器。
空间模型拓宽器1214还处理诸如3D排序/结构估计和透明度及阴影效应评价等其它任务。而且还向时间模型更新器1206和空间模型更新器1208提供计分1215,它们用于模型的统计细化、简化和优化。
在解释器720中,还向执行用于从各帧n提取新的空间分段的各种分段操作的空间模型扩展器1216提供输入序列Xi。空间模型扩展器1216还合并与分离图像段以提供更有效的完全子结构。还向模型深化器1218提供输入序列xSeq,模型深化器试图用更有效的域上的等价模型参量代替各种域上的模型参量。这例如可以包括将诸如微笑因子之类的“软”建模因子转换为需要较少明示信息的“硬”点头因子。
解释器操作模块的详细描述
计分估计器1202估计各种域(运算对象)和用于与具有已知的XRef中的装入的因子一起使用的各个完全子的子运算域上的各帧n的计分un。每个计分包括一个数值和相关的估计不确定性。为了平衡统计噪声稳定(使装入或输入数据中的噪声引起的误差计分估计最小)、对统计的强壮度(使轮廓像素,即没有发生变化的像素引起的误差计分估计最小,即采用空间模型无法正确描述变化模式),采用了强壮的统计估计。在H.Martens和T.Naes《多变量标度》,pp.267—272,(John Wiley & Sons,1989),它作为参考文献包含在这里)中描述了轮廓的检测。通过在计分估计期间将更多数量的像素影响组合起来达到使噪声最小化的统计稳定。通过在计分估计期间减少或消除轮廓像素的影响来达到使轮廓像素影响最小的统计稳定。在较佳实施例中,强壮估计技术是用于在明示装入下的“软模型”的微笑、着色和概率计分估计以及实体仿射变换的点头计分矩阵的迭代再权重最小2乘方优化。
可以采用两种不同的计分估计途径。第一种途径是在计分参量空间中的完全迭代搜寻以对输入图像xn的逼近优化。第二种途径是将估计变换区域DXRef,n更简单地投影到已知的因子装入上(包括XRef中的明示装入和与点头仿射变换有关的暗示装入)。此外,这两种方法可以组合使用。
对于计分参量空间中的迭代搜寻,非线性迭代优化用来寻找不同域(运算域)、子运算域、完全子和使模型XRef转换为估计xnhat的最优译码转换的因子中的计分un的组合。优化判据基于主要是密度域上的拟合差(xn-xnhat)。为了优化对单个完全子或其它空间分段的拟合,可以采用一个或多个功能以上的组。这些功能表示了由计算例如绝对差或平方差得到的不同像素引起的拟合的缺乏。不同像素的贡献首先被权重,然后按照每个像素的可靠性和重要性相加。因此,轮廓像素被赋予较低的权重而对应视觉上或估计上比较重要的拟合残量的缺乏被赋予较高的权重。
计分参量空间内的搜寻可以是所有因子计分的全范围的搜寻,或者可以采用特殊的搜寻策略。在较佳实施例中,搜寻策略最初利用来自先前帧和迭代预测的计分值。为了控制所需的计算源,优化可以以不同的图像分辨率(例如开始时较低的分辨率图像)或不同的时间分辨率(例如最初的时候少于每帧)对单个空间分段(例如单个完全子)或对不同的颜色通道表示(例如首先对照度,然后对其它颜色通道)进行。应该注意的是,更多的重点应放在对带有可靠装入的主要因子的估计上,装入可靠性差的次要因子重视程度较小。这可以通过来自使得不可靠计分趋于零的多路控制器的计分脊参量来控制。
由XRef中“已知”装入上的估计变化区域DXRef,n投影的计分估计不需要任何参考模型的图像译码。不同的是采用了XRef(回归方程中的自变量)中已知装入上获得的变化区域DXRef,n(回归方程中的从属变量)的统计投影(多变量回归)。采用最小2乘方多线性回归对各个域内上子运算域内的所有因子和每个完全子进行回归。如果不同的像素(例如轮廓像素)的权重发生了变化,或者回归方程中的自变量装入正交性较弱,则比较好的是采用约化组回归方法。否则,统计模型就会非常不稳定,特别是对于较低权重装入贡献的互相关因子。在较佳实施例中,采用标准偏差最小平方回归(PLSR)或主成份回归(PCR)进行回归,这在H.Martens和T.Naes《多变量标度》,pp.73—166,(John Wiley & Sons,1989)中有详细的描述,并作为参考文献包含在这里。
可以采用其它诸如纯粹非矩阵回归或利用脊参量的普通脊回归(H.Martens和T.Naes《多变量标度》,pp.267—272,(John Wiley& Sons,1989),它作为参考文献包含在这里))之类的强壮回归技术。脊参量用来稳定次要因子的计分估计。形成脊状还可以用来稳定PLSR或PCR回归中的潜在回归自变量。另外,通过控制来自多路控制器的计分脊参量使计分偏向于零从而在用于变化区域稳定的初始估计过程中只采用主要因子。采用标准灵敏度分析或线性模型理论可以计算计分的不确定程度,这在H.Martens和T.Naes,《多变量标度》,pp.168,206,(John Wiley & Sons,1989)中有所讨论,并作为参考文献包含在这里。
残量变化区域估计器
残量变化区域估计器1210通过去除各种计分影响来确定剩下的未建模残量EXRef,n,这些计分在计分估计器1202中从用于各子运算域和完全子的变化区域DXRef,n估计得到。在较佳实施例中,因子的影响(例如所用装入乘上合适的计分之和)简单地从变化区域中减去。例如,对于红色密度:
ERRef,n=DRRef,n-(R(0)Ref*uR(0)nR+R(1)Ref*uR(1)nR
....)作为一种选择,为了确保量化误差影响反馈回用于后面可能校正的编码器,可以对残量结构中所用的模型参量进行量化。
空间模型拓宽器
解释器的空间模型拓宽器1214将帧n的残量变化区域EXRef,n连同来自前面的帧的未建模残量累计起来。这些残量变化区域代表每个完全子、运算域和子运算域的未建模信息。这些残量按照其不确定程度赋予权重并进行统计处理以提取新的因子。这种因子提取比较好的是利用未建模残量的权重像素—帧矩阵上的NIPALS分析来完成,这在H.Martens和T.Naes《多变量标度》,pp.97—116和163,(John Wiley & Sons,1989)中有所讨论,并作为参考文献包含在这里,或者利用帧连帧的叉积矩阵上的NIPALS分析来完成,参见H.Martens和T.Naes《多变量标度》,pp.100(John Wiley &Sons,1989),它作为参考文献包含在这里。但是,这种迭代NIPALS方法不必迭代至使得每个因子完全收敛。另外,可以利用单值分解、Karhunen—Loeve变换、Hotelling变换的本征分析从未建模残量的权重像素—帧矩阵完成因子提取,参见例如R.C.Gonzales和R.E.Woods《数字图像处理》,pp148—156,(Addison—Wesley 1992)和Carlo Tomasi和Takeo Kanade《无深度的形状和运动》,IEEECH2934—8/90 p.91—95,1990,它们作为参考文献都包含在这里。最终的累计残量矩阵中的发生明显变化的结构作为新的因子被提取并作为模型〔XRef,USeq〕的一部分被包含。包含几帧上的几个像素的变化结构视为有意义。解释器的空间模型拓宽器部分可以用于局部模型670和更完整的序列或子序列模型650。
对于实时编码,来自各单独帧的余下的未建模残量的影响可以按时间标度,并且如果它们低于某一水平则从未建模残量的累计中去除。在这种方式下,保留时间长的残量和对新的因子的形成贡献不大的残量在下一步中基本上不予考虑,由于统计的缘故,它们对新因子的贡献的概率较低。在本实施例中,空间模型拓宽器1214产生可以加入已有模型的单个因子。接下来,这组新的因子,即模型可以在多路控制器的控制下,在时间模型更新器1206和空间模型更新器1208中进行优化。
在替换实施例中,为了产生一个新的模型,对已有模型连同变化区域进行分析。这种新的模型比较好的是包括带有来自新引入变化区域的附加信息的因子。当引入每一新的帧时基本上重新计算整个模型〔XRef,USeq〕。比较好的是利用装入XRef和经过标度的计分USeq完成从而使计分矩阵USeq正交化(参见H.Martens和T.Naes《多变量标度》,p.48,(John Wiley & Sons,1989),它作为参考文献包含在这里)。XRef中不同的因子装入向量随后具有不同的反映其相对意义的平方和。利用由〔XRef(旧的),DXRef,n〕组成的矩阵的因子分析(例如单值分解svd)随后产生新的装入〔XRef〕(新的)。这是一种简单的基于两块PLSR基的更新方法的单块svd基型式(参见H.Martens和T.Naes《多变量标度》,pp.162,123,(John Wiley & Sons,1989),它作为参考文献包含在这里)。在该过程中还可以获得对应新装入的新计分。
三维深度估计
空间模型拓宽器还可以用于估计构成帧系列一部分的场景中像素三维深度结构zn的逼近。这种估计对于在前面移动的对象的建模和水平或垂直旋转的对象的建模是很重要的。深度信息zn对于其自身来说也很重要。
深度建模需要对包藏的像素至少是接近的估计其深度。比较好的是在参考帧图像模型内有关的像素位置处表示这种估计信息。
利用任意一种方法可以完成深度估计。在较佳实施例中,利用了基于在各帧内像素包藏程度的像素拓扑排序。对于检测到潜在包藏的像素(在来自局部变化区域估计器的报警wn中指示),在几幅连续帧上尝试不同的深度假设。对于每一帧,以不同的深度假设重复操作变化区域估计器,并且累计利用了不同假设下的输入帧密度in的最终成功的建模。导致测试帧上密度数据in的最一致和精确表示的深度假设获得承认并用作深度模型信息。深度信息开始时用于建立所需的那些像素的基本深度z(0)Ref。接下来,在同一序列的编码过程中,可以采用相同的技术来拓宽带有用于那些表示更为复杂的包藏模式(其深度随帧而变化)的像素的新的因子Z(f)Ref,f=1,2,…的深度变化因子模型。
在替换实施例中,地址变化区域DARef,n的单值分解可以用于建立3D深度信息,参见Carlo Tomasi和Takeo Kanade,“无深度的形状和运动”,IEEE CH2934—8/90 pp.91—95,1990。
帧n的迭代控制
在每一帧n的迭代优化期间采用了用于空间模型拓宽器1214的操作的特殊模式。当如局部变化区域估计器850的较佳实施例中所述采用分开的局部变化区域damn、dimn、dpmn的估计时,空间模型拓宽器1214必须形成一个同时用于所有域的共同折衷DXRef,n(联合点)。在较佳实施例中,每次迭代期间只有来自其中一个域的信息被承认为联合变化区域DXRef,n(联合点)。
在每帧的迭代估计之初,微笑变化被承认为最可能的变化。但是,在迭代估计期间,务必使承认的微笑区域足够的平滑并且在后面的迭代中不会产生错误的包藏。拟合XRef中已有因子装入(由计分估计器1202确定)的变化区域信息被确认为有利于未建模残量EXRef,n(在残量变化区域估计器1210中确定),它们只是被确认为趋于每帧迭代过程结束端的变化区域信息。因此,变化区域按照编码的特定阶段和与先前迭代相比的迭代变化区域的质量进行修改。在每次迭代中,最终承认的变化区域信息被累计为联合变化区域DXRef,n(联合点)。
在每次迭代期间,解释器720必须将该联合变化区域DXRef,n(联合点)传回用于在下一次迭代时进一步细化的变化区域估计器710。这通过将联合变化区域DXRef,n(联合点)包含作为XRef中多余因子(其计分总是为1)来完成。因此,该多余因子将增量变化累计至用于每次新的迭代时的帧n的变化区域。在迭代过程结束时,多余因子表示随后可以用于如上所述的计分和残量估计、拓宽、深化、更新和扩展的累计联合变化区域。
模型更新器
两个更新模块,时间模型更新器1206和空间模型更新器1208用来根据应用场合的不同优化就各种判据而言的时间和空间模型。对于例如视频会议应用之类的实时视频码处理,时间模型更新器1206计算各个域内不同因子计分之间随时间的协变矩阵的本征结构。变化现象不再激活(例如离开视频会议室的人)识别为与内计分协变矩阵中较小本征值对应的维数,并且从时间模型更新器1206的计分模型中去除。相应的装入维数从空间模型更新器1208的装入中消除。最终的内计分协变矩阵的本征值-本征向量结构可以用来优化其它仍然激活的因子的量化和传送控制。
在视频数据的编码期间(实时或离线),当编码在序列上进行时,通过基于内计分协变矩阵或内装入协变矩阵的单值分解的两个模型更新器1206和1208中装入和计分的因子旋转与去除较小本征值的维数,同样消除了不可靠的因子维数。
如下面将要详述的,对时间模型更新器1206中的因子计分和空间模型更新器1208中的装入计分所作的本征分析对应于一种元建模。空间模型更新器1208可以检验装入空间内指示空间模型扩展器1216的完全子分段变化所需要的空间像素簇模式。
模型更新器1206和1208还可以完成诸如最大变化旋转之类的普通因子分析以获得时间模型更新器1206中的因子计分或空间模型更新器1208中的装入计分的“简单结构”来改善压缩、编辑和存储功能。通过下面的例子可以理解因子分析的“简单结构”。首先假设有两种变化模式,例如采用两种着色因子建立着色模式“A”(着色的脸颊)和“B”(室内光线)的模型,但是着色因子的模式组合方式为因子1建模“A”和“B”而因子2建模“A”和“—B”。在这种情况下,相对于简单结构的因子旋转通过将两个装入与2×2旋转矩阵g相乘计算一组新的装入从而在矩阵相乘之后,模式“A”由一个因子表示而模式“B”由另一个因子表示。通过将原始的计分与矩阵g的逆矩阵相乘可以得到相应的新的计分。作为另一种选择,可以采用原始计分。但是,新的装入必须与g的逆矩阵相乘。
时间模型更新器1206的另一个功能是累计变化模型参量“同时发生”的多维直方图,例如微笑和着色因子。该直方图给出了各种域的计分值的各种变化同时发生的累计计数。如果出现了某一模式的同时发生,则表明需要例如通过将着色因子信息转换为微笑因子信息来深化模型。
空间模型扩展器
空间模型扩展器1216将数据组织和识别为分段和完全子。对于视频码处理,分段主要是空间完全子,因此扩展器被称为“空间”模型扩展器。空间模型扩展器1216接收一组完全子作为输入,每组完全子由像素装入XRef、序列帧计分USeq、变化区域DXRef,n′和未建模变化区域残量EXRef,n。除了各种输入控制参量以外,空间模型扩展器1216还接收来自变化区域估计器710wn′的异常警告和实际输入帧xn。空间模型扩展器1216对这些输入进行处理并输出更新过的一组完全子,每个都带有像素装入XRef、序列帧计分USeq、未建模变化区域残量EXRef,n和各种输出控制参量。
只要变化区域估计器输出的警告wn中的累计信号表明在新的帧xn中有明显数量的未建模空间信息,多路控制器620就激活空间模型扩展器1216。利用估计地址变化区域DARef,n′可以完成完全子内未建模区域的分段,例如参见John Y.A.Wang和Edward H.Adel-son,“图像序列码处理的分层表示”,IEEE ICASSP,Vol.5,pp221—224,Minneapolis,Minnesota,1993,作为参考文献它已包含在这里。这对于输入警告wn指示需要分段的区域尤为重要。这些区域内的像素在均匀运动模式的分段搜寻过程中被赋予特别大的权重。
另外,或者作为一种分段方法,采用XRef中的各种因子装入结构(例如由因子装入空间的标准簇分析确定的因子装入向量空间(f=1,2,…)内的像素簇)确定分段。具有简单内部结构的簇表示了以相关方式变化的像素,因此可能是分段的一种选择。此外,那些在地址空间ARef(0)中相互靠近的像素被更可能成为分段选择。在这种方式下就形成了新的分段。另一方面,如果新的分段位于已有分段附近并表现出相似的时间运动行为,则扩展或合并已有的分段。沿边缘不均匀运动的已有分段可以缩短为更小的空间区域,而在其空间内部不均匀运动的分段可以分为独立的完全子。
PRef其中一个概率性质用于指示分段性质变化或沿已有分段边缘扩展具有特别高的概率,即存在着新的分段实际上源于已有分段沿其边缘扩展的可能性。同样,概率性质可以用来对分段分类。此外该性质还可以用来在完全子边缘引入半透明度。
由多路控制器620操作的空间模型扩展器1216产生用于初始稳定化或编码过程的试探建模的时间完全子或分段;这些完全子在迭代编码期间可以被合并或删除,从而在编码过程结束时得到用于建模单个序列的最终的完全子。如图3所示,由于引入了新的完全子,扩展参考图像变得大于单独的输入帧,所以完全子必须立体地存储在扩展参考图像模型XRef中,从而不会互相覆盖。另外也可以采用诸如多层结构之类的存储方法,参见John Y.A.Wang和EdwardH.Adelson,“图像序列码处理的分层表示”,IEEE ICASSP,Vol.5,pp221—224,Minneapolis,Minnesota,1993,作为参考文献它已包含在这里。
模型深化器
解释器720的模型深化器1218提供了各种改进建模效率的功能。其中一个功能是估计作为概率域DPRef,n的子运算域的透明度的变化区域。这可以利用以下的技术来完成,该技术可参见MasahikoShizawa和Kenji Mase,“基于本征分析的运动透明度和运动边界的均匀计算理论”,IEEE CH2983—5/91,pp.289—295,1991,作为参考文献它以包含在这里。
而且,只要完全子的着色建模的数量和类型表明无法有效地利用着色建模来建立运动的模型,那么就用模型深化器将着色因子转换为微笑因子。这可以例如通过采用偏重于微笑因子的选择而不是着色因子的选择重建(译码)某一完全子并进行分析(编码)来完成。同样,只要微笑因子装入表明具有空间模式的完全子与实体的仿射变换(即平移、旋转、标度或剪切)一致,就可以将微笑因子转换为点头因子。这可以通过确定完全子的地址变化区域DARef,n并随后利用与各种仿射变换对应的伪微笑装入建模来完成。
译码器
本发明包括一个从空间模型参量装入XRef和时间模型参量计分U重建图像的译码器。在诸如视频压缩、存储和传送之类的应用中,译码器的主要功能是利用在序列〔xn,n=1,2,…〕=xSeq的编码期间估计的计分〔un,n=1,2,…〕=Useq产生帧〔xn,x=1,2,…〕=xSeq的某一输入序列。对于其它诸如视频游戏和虚拟现实之类的应用,在时刻〔un,n=n1,n2,…〕=U的不同点处的计分例如可以由用户激活的游戏杆实时产生。
在本说明书中,每帧的预测结果表示为预测帧m。因此xm等价于xnhat。
译码器1300的较佳实施例示于图13的框图中。译码器1300基本上与编码器的变化估计器710(图8)的内部译码器830等同。但是,图13的译码器包括附加的功能元件。这些附加的功能元件在所附的译码器附录中详述。
最终的变化区域DXRef,m1358随后被送至加法器1330与基本参考图像X(0)Ref1360相加以产生xm@Ref1362,即在参考位置内给定的帧m的预测值。这包含了参考图像中的各完全子在预测帧内输出基础上假设的变化值;但是该信息仍在参考位置内给出。
随后利用地址变化区域DARef,m1364提供的移动参量在移动器内1340将参考位置内给定的这些变化值Xm@Ref1362从参考位置“移动”到m位置。对于编码器600的内部译码器830,移动器1340可以提供用于将值从m位置移回参考位置的返回区域dam,Ref1366。
移动器1340的主要输出为可以选择加入误差校正exm1368的预测结果xm。为了产生最终的结果xm1370,最终的信号在后处理器1350内滤波(例如来增强边缘效应)。加法器1330、移动器1340和后处理器1350可以采用标准的译码技术,例如参见George Wolberg《数字图像卷绕》,第7章,(IEEE Computer Society Press 1990),作为参考文献它已包含在这里。
译码器1300还包括用于控制和处理外部通信、解密、本地存储和重复使用的模型参量的恢复和与输出媒介(例如计算机视频显示终端或电视机屏幕)通信的附加功能以及其它为本领域内技术人员理解的功能。
应该注意的是,移动器操作者1040(1340)和1010(870)可以采用不同的方法将位于同一坐标位置上的两片以上的信息组合起来。在用于视频编码和译码的较佳实施中,采用3D保持组合不同的信息,并按照各交叠介质的透明度修改。对于其它诸如用于蛋白质分析的二路电泳凝胶图像分析之类的应用,可以简单地加入不同完全子的贡献。
编码器操作—多路控制器
编码器系统的控制和操作
现在解释上面详述的用于离线视频编码应用的编码器/译码器系统的操作。首先将比较简化的译码器(替换实施例)和完整的译码器(较佳实施例)。先描述简化的编码器,然后描述完整的译码器。
为了由序列模型建模,视频编码系统必须能够检测充分相关的图像信息的序列。对于这种序列,模型必须构造得能提供合适的重建质量、高效的压缩和可编辑能力。这必须在编码系统、存储/传送和译码系统的实际限制下完成。
为了达到紧凑的序列建模,序列的变化应归结于合适的域参量,即主要应该由微笑和点头因子建立运动的模型,由着色因子建立密度变化的模型而由概率因子建立透明度效果的模型。合适域参量的各种变化的有效建模除了各个模型域的恰当分开以外,还需要模型参量估计的统计稳定性。这又要求对许多帧建模。两种编码器的实施例的区别在于完成该任务的方式。
简化的编码器采用简单的顺序控制和能在参量估计期间识别合适的帧序列的操作机制。但是,它并不试图同时优化各个域上的统计建模。另一方面,完整编码器要求将序列识别当作分开的预处理阶段的一部分。预处理阶段还初始化各种在编码过程中被更新和利用的统计权重函数以优化多域建模的噪声和误差强壮度。
简化的编码器不断地在视频帧序列中搜寻可以建模为微笑域、着色域内新的因子或者新的空间图像分段的相关的未建模变化结构。来自潜在的微笑、着色和分段变化的优化选择包含在序列模型中作为微笑或着色模型的拓宽或者完全子的扩展或重新组织。随后不断重复搜寻过程直到达到合适的建模。
相反,完整的编码器要扫描序列几次,逐渐拓宽、扩展和深化用于给定序列的模型,每次在三个域上建立每帧的模型的方式为使得其与相应的其它帧的建模最大程度地一致。
在简化的编码器中,由于是对各个域分开建模,所以每帧的未建模变化区域的估计相对简单。在短于整个帧序列的一次扫描中提取并建立微笑变化区域DARef,n′, n=n1,n2…的模型,在同样短于整个帧序列的第二次扫描中提取并建立密度变化区域DIRef,n′n=n1,n2,…的模型。每次扫描持续至建模的复杂性超出了所得到的增量建模信息。在完整的编码器中,由于每帧的变化区域联合建模并且必须相互兼容,所以相应的每帧的未建模变化区域的估计更为复杂。这种兼容性由每帧的不同域上的变化区域的迭代发展得到。
简化的编码器系统的控制和操作
对于每帧,简化的编码器采用解释器720的计分估计器1202来估计用于XRef中已有因子的因子计分un。模型可以借助已建模域上的已有的新的试探因子时间拓宽。接下来,变化区域估计器710用来产生未建模微笑变化区域DARef,n或未建模着色变化区域DIRef,n的一个估计。在两种情况下,试探性的新的因子都在空间模型拓宽器1214中形成。解释器720还检验是否能改进空间模型扩展器1216中的分段。与空间模型拓宽器1214相连的多路控制器620借助新的因子拓宽了着色或微笑模型,或者在空间模型扩展器1216中施加空间扩展/重新组织。多路控制器620还在变化区域显示剧烈变化时初始化新的序列模型的开始。该过程将持续下去直到达到令人满意的建模。
完整的编码器系统的控制和操作
预处理
为了确保亮度和色度更好的分离,来自输入颜色空间(例如RGB)的输入数据首先被转换为不同的格式,如YUV。可以采用已知的标准技术来完成这种转换。为了避免YUV内的V颜色分量与HVZ地址空间内的V(垂直)坐标的混淆,这里的描述在RGB颜色空间内给出。每幅转换帧的密度称为in。而且,可以在编码和译码的各个阶段改变输入空间坐标系统。特别是在预处理期间,通过采用标准技术沿水平和垂直方向使输入格式(垂直和水平的像素,地址an)连续减少一个2的因子来改变空间分辨率。这产生了所谓的相同输入图像的不同空间分辨率的“高斯金字塔”表示。在初始参量估计时可以采用较小和较低空间分辨率的图像,并且随着模型的可靠性和稳定性的提高,空间分辨率也提高。
接着,先估计输入数据的初始建模能力。对于每个连续的空间分辨率,为了评估单独的像素的密度数据数学建模的难易程度的概率,要分析每帧的密度数据in。这种分析涉及下面要描述的称为Pn的各种概率。
初始建模能力包括输入数据两维识别的判断,即图像不同区域“边缘鲜明”程度的估计。具有“边缘鲜明”的区域比连续区域更容易识别和跟踪运动。具体而言,对空间的可识别结构程度p(1)n估计进行计算从而将接近于1的数值赋予用清晰的2D空间轮廓表示的像素和空间角落结构处的像素,而连续区域内的像素赋予接近零的数值。其它像素被赋予0与1之间的数值。这可以采用特殊的程序做到,程序参见Carlo Tamasi和Takeo Kanade,“无深度的形状和运动”,IEEE CH2934—8/90 pp.91—95,1990或Rolf Volden和JensG.Balchen,“从2D图像序列确定3D物体的坐标”,Proc.of the 8thInternatl Syposium on Unmanned Untethered Submersible Tech-nology,Sept.1993,pp359—369,它们作为参考文献已包含在这里。
同样,初始建模能力包括输入数据的一维识别的确定,即图像中沿水平或垂直线的密度变化的指示。这种程序涉及水平或垂直的清晰的轮廓程度的估计。作为清晰的水平或垂直轮廓一部分的像素(从例如水平和垂直方向上的空间偏离绝对值检测)被赋予数值p(2)n=1,而连续区域内的像素被赋予0,其它像素被赋予中间值。
初始建模能力还包括通过估计每个像素的孔径问题的概率p(3)n确定孔径问题。平滑的局部运动,即在几幅连续帧内线性运动的空间结构被赋予最大值1,而找不到这种结构的像素赋予0。同样,在几幅连续的帧内不发生运动的结构也以相同的方式处理。表观平滑移动或不运动的估计统称为p(4)n。这个性质还可以用于估计几幅连续帧内平滑的密度变化(或不变化)。
对因为位于边界而引起并且由于是不同密度空间区域的平均值(所以不代表密度)而不可靠的半个像素的概率进行计算并称为p(5)n
密度、地址和概率数据都用符号xn表示,并且包含地址性质、密度性质和例如p(1)n-p(5)n的不同的概率性质。
预处理还包括序列长度的检测和子序列范围的确定。这可以通过分析整个序列内变化的性质p(4)n和密度in以及对低分辨率密度进行多变量分析以提取少量主要成份来完成。接下来,为了将相关性强的帧划入待建模的序列,进行因子计分的群集分析。如果场景过长或过度不均匀,那么为了简化采用局部模型的分析,可以在时间上其分割为较小的子序列。在编码过程的后面阶段,这些子序列可以合并为完整的序列模型。在序列最初的分割时,重要的是在任一方向上以几幅帧覆盖子序列。
通过累计与每个密度通道相关的整个随机噪声变化并且贮存对作为初始不确定变化s2in的数值连同in中实际值估计子序列中的热噪声水平。
预处理还产生用于每个子序列的初始参考图像XRef。一开始,每个子序列中的一帧nRef被选为参考图像的始点。该帧在低分辨率的主成份分析的基础上选定,随后在子序列的最典型的帧的因子计分空间内搜寻。由于中间的帧在子序列的两个方向上都有邻近的帧,所以子序列中间的帧比子序列两头的帧更重要。
初始化
初始化包括设定各种控制参量的初始值。首先,将计分脊设定为一个对所有的域和子运算域都较高的初始值。该参量用于计分估计器1202中以稳定小因子的计分。(当单值分解(主成份分析等)用于提取因子时,相关的本征值的大小限定单个因子的大小,较小的因子具有较小的本征值。在更加一般的情况下,较小的因子被定义为因子的计分与装入之积的矩阵具有较小的平方像素数值之和的因子。涉及的像素数量、因子的装入对其影向的程度和受到影响的帧的数量以及因子计分对其影响的程度决定了因子的大小)。
为了确保微笑区域的估计不会受到错误获取运动效应的初始着色区域的阻挠,压缩着色设定为一个对于每帧都较高的数值。同样为了确保着色区域的正确估计不会受到初始微笑区域内虚假的矛盾的不利影响,也将压缩微笑设定为一个对于每帧的较高的数值。压缩着色和压缩微笑用于迭代过程以在优化建模图像变化的微笑和着色变化区域达到平衡。初始化还包括一开始将完整的参考图像XRef建立为单个完全子和假定非常光滑的运动区域。
通过对子序列进行几次迭代扫描估计出空间模型参量XRef和时间模型参量USeq。对于每一遍扫描,在初始参考帧的开始之处,在帧nRef任一侧的子序列中双向搜寻帧直到获得足够满意的模型。
对于每一帧,确定了每个像素、每次迭代和每帧的统计权重。这些统计或可靠性权重代表了给定帧内像素现在的建模能力。各个子运算域的帧n,xn的每个像素的可靠性权重wgts—xn为:
an:wgts_an=function of(pn,s2an,wn)
in:wgts_in=function of(pn,s2in,wn)可靠性权重正比于概率性质Pn,反比于变量s2an和警告wn。同样,每个子运算域、因子和完全子的初始模型XRef中的每个像素的可靠性权重wgts—xRef为:
ARef:wgts—ARef:每个子运算域中每个因子的(S2ARef)的反比例函数。
IRef:wgts—IRef:每个子运算域中每个因子的(S2IRef)的反比例函数。
一般情况下,只有那些能够应用于足够数量的帧上的因子才保留。利用交叉有效性或杠杆校正来检验提取因子的多帧可用性,参见H.Martens和T.Naes《多变量标度》,pp.237—265,(John Wiley &Sons,1989),它作为参考文献包含在这里。特别是,对于多路或迭代估计,这可以包含使当前帧n的贡献不会人工有效化为基于在早先扫描期间对模型的贡献的多帧因子。
对于变化区域DXRef,n和随后的相对子序列或所属完整的序列模型的帧n的模型{XRef,USeq}的估计是一个迭代过程,下面将详细讨论。对于子序列的第一遍扫描中遇到的开头几帧,还未建立起可靠的模型。因此,比起后面的帧,开头几帧的变化区域的估计更为困难和不确定。随着模型的进一步发展,它对后面帧的变化区域估计的稳定和简化的作用更大。因此,在开头几帧的初始扫描期间,只利用了建模能力程度较高的那些图像区域。此外,就运动而言,为了限制在对开头几帧的变化区域的估计中可能有的自由度,采用了关于平滑变化区域的较强假设。同样,就着色因子而言,为了防止对着色因子单独的不必要的依赖,采用了关于平滑和多帧可用性较强的假设。随着编码过程的迭代,这些假设和要求逐渐放宽从而使变化因子对真实的次要变化模式建立正确的模型。
按照本发明的用于序列的编码过程需要对每帧估计联合变化区域DXRef,n,即可以同时利用不同的域变化区域DARef,n′、DIRef,n和DPRef,n以给出可接收的译码结果xm。如上所述,这需要对每帧的不同的域变化区域进行迭代修改。定义用作地址和密度的权重wgts—xn和wgts—XRef用于局部变化区域dxmn估计的优化。在迭代期间,解释器720如上所述主要用于累计DXRef,n(联合点)内变化区域信息。已有序列模型XRef、USeq中的数值不作修改。
在变化区域信息DXRef,n(联合点)的增量迭代估计中,模型估计跟踪每次迭代的结果,并且调开那些所选增量没有产生满意的建模稳定的迭代。
一旦估计出给定帧的联合变化区域DXRef,n(联合点),为了优化基于DXRef,n(联合点)的序列模型XRef、USeq,要在解释器720中对其进行分析。
发展序列模型
帧n和模型的可靠性权重得到了更新。接着,对计分un和残量EXRef,n进行估计,并且将变化区域信息累计起来用于在新的有效变化因子下的可能的参考模型的拓宽。采用分段来扩展参考模型,尝试改善3D结构,并检验是否能深化模型。所有这些操作都将在下面详述。
当子序列中所有的帧都经过分析从而完成扫描时,进一步更新权重和概率性质以增强下一次扫描过程中的估计,可选择统计旋转模型以获得更简单的因子结构。此外还检查给定子序列与其它子序列合并的可能性,并检查是否需要再次扫描。如果没有必要,则在系统中最后一次运行参量结果,同时量化参量。
现在将详细描述完整编码过程的控制和操作。首先,按照所获DXRef,n中各种子运算域的不确定变量修改权重。在给定子运算域区域内有较高不确定性的像素对于该运算域接下来的统计操作被赋予较低的权重。这些权重随后在解释器720中用于优化多变量统计过程。
在计分估计器1202中对不同的完全子估计各个域和子运算域的计分un。而且,采用普通的线性最小2乘方法(例如假设残量中的噪声为正态分布并且提供各种因子权重装入之间关联的校正)来估计有关的不确定的协变量。采用用于统计稳定的计分脊参量使具有较小的总信号效应的计分偏向于零。
在残量变化区域估计器1210中,减去已知因子的效果之后,估计残量变化区域EXn
接着,尝试在空间模型拓宽器1214中拓宽各个域、子运算域和完全子的已有模型XRef、USeq。这采用输入的估计不确定变量和权重来完成以保证高度确定的数据元素占优势。采用标准的线性最小2乘方方法(例如假设残量中的噪声为正态分布)来估计装入的不确定变量。
作为拓宽过程的一部分,在该阶段按照所用数据估计基本的三维结构Z(0)和有关的变化因子Z(f),f=1,2,…。特别是,wn中未建模像素的警告提示了试探性的3D建模。
为了检测未建模相关区域的累计发展,通过检验各种域数据,特别是in中对于邻近帧的类似未建模数据的“未建模能力”警告wn和有关的数据来修改分段。图像的未建模部分在空间模型扩展器1216中经过分析,从而在SRef中产生新的完全子或对已有完全子进行修改。在分段期间,已有完全子的边缘与xn和XRef的边缘的分段较别处发生变化的可能性较大。在参考图像中空间上靠近并且时间上相关的完全子被合并。相反,显示出不相容的空间和时间模型结构的完全子被分离。
阴影和透明的对象被建模作为拓宽过程的一部分。这包括对完全子的基本概率透明度的估计。在用于识别移动阴影的较佳实施例中,在帧n中与不同的帧相比显示了颜色空间内光线对称的低维损失的邻近像素组被指定为阴影完全子。阴影完全子被定义为具有较暗的颜色密度并且是半透明的。
对参考图像中没有清晰的因子结构(即在A或I域上用许多低能因子来代替高能因子)的区域进行分析以用于空间时间结构。这些区域作上标记以借助空间建模技术来建模,例如流水之类的准随机系统的建模。编码器的这部分可能需要利用特殊的技术进行一些人工干预。在后面的参量估计中这种特殊区域的效应最小。
所述的编码操作可以与更复杂的局部变化区域估计dxmn一起使用。在较佳实施例中,对于预测帧m的子运算域的每个像素,只估计和由局部变化区域估计器1050输出一个变化值(带有相关的不确定度)。在替换实施例中,对于每个域或子运算域,可以由局部变化区域估计器1050估计出多个不同的变化值(带有相关的不确定度)。例如,局部变化区域估计器850可以将两个以上替换的可能接受的像素组的水平、垂直和深度运动表示为dxmn855中damn的一部分。每个这样的替换都可以移回作为DXRef,n890一部分的参考位置。随后,解释器尝试建立替换物的不同组合的模型,并选择最佳结构的那个。局部建模的灵活的替换途径是使得局部变化区域估计器850也象较佳实施例中的那样,只输出每个子运算域的每个像素的一个值,但用描述了变化替换的最可能组合的局部统计协变量模型来代替不确定度(例如不确定的变量s2dxmn)。随后累计这些协变量模型并由解释器用来寻找模型拓宽、扩展和深化的最能接受的组合。II.更新模型
在某一遍扫描期间分析完当前子序列的所用帧并且系统已经到达序列的稳定模型之后,在解释器720中,分别在时间和空间模型更新器1206和1208中更新模型,因此因子结构可以更紧凑和易于压缩/编辑。III.合并子序列
在多路控制器620中,试图按照元建模或附录“合并子序列”中给出的技术将当前子序列与另一个子序列合并。它将局部子序列模型转换为比单个子序列的帧的数量更多的模型。IV.收敛控制
在每次扫描结束时,多路控制器650对收敛进行检验。如果还没有收敛,则需要再次扫描。因此,多路控制器650修改控制参量和开始下一次扫描。多路控制器还跟踪每次扫描中模型发展的性质和结果,如果某些模型发展选择看起来提供的是不满意的结果就调头。V.最后的模型优化
根据应用场合的不同,将参量压缩引起的量化误差引入模型参量的估计。为了使后面的参量能够校正先前参量引入的量化误差,再次对序列建模。最后,压缩XRef和USeq中的参量误差和误差校正残量EXRef并准备存储和/或发送以供译码器使用。
采用比输入数据更高的精度可以存储内部模型数据。例如在视频码处理中,通过从相关的几幅输入帧建立累计信息的模型但又移动对象可以使最终的内部模型XRef比单个输入帧具有更高的空间分辨率。另一方面,可以采用与输入或输出数据(例如由模型深化器从所用像素完整组中选取的不规则空间关键画面元素的紧凑子组)完全不同的分辨率来存储内部模型,从而通过在译码器的移动器部分内的像素之间内插获得较好的图像输出质量。本发明还可以以不同于输入的形式输出译码结果。例如,采用时间和空间参量的内插和外插以及颜色空间的变化,系统可以在NTSC和PAL视频格式之间转换。
本发明的IDLE建模可以用来对输入和输出数据元素进行排序。应用这种排序从而使单个输入或输出帧的行相对于作为视频加密一部分的共同次序发生变化。
由于每个输入数据元素的建模贡献可以相对于其它数据元素被赋予权重(各权重由编码器系统本身估计),所以本系统可以处理因输入数据中丢失或特别是噪声数据元素引起的衰减效应。
本发明的较佳实施例采用各种二路双线性模型,每一种都由因子贡献之和组成(因此称为“线性”),每个因子被定义为计分与装入这两种参量之积(因此被称为“双线性”)。这些参量分别描述了例如时间和空间变化信息。这种建模可以普遍化或扩展。其中一种普遍化的方式是采用多路模型,例如三路模型,在那里每个因子贡献是三种参量之积而不是两种。不同的是,每个双线性因子可以进一步由本身的双线性模型建模。
元建模
单序列的元建模
按照上述系统和方法获得的IDLE模型参量去除了单个子运算域内部的冗余度。但是,模型参量仍然可以在域和子运算域上具有冗余度。例如,对象如何改变颜色密度的空间模式可以与对象如何移动的空间模式相似。因此,一些颜色与Xref中的运动装入存在空间相关性。同样,对象如何随时间改变颜色的时间模式与对象或其它对象随时间的运动的时间模式相似。对于后者,一些颜色与USeq中的运动计分之间存在时间相关性。除了输入的是模型参量组而不是输入帧组以外,元建模基本上与IDLE建模相同。
空间元建模
空间元建模基本上与IDLE建模相同;但是,对模型的输入现在是被确定为第一IDLE模型一部分的单个装入。对于初始化模型XRef的每个完全子,我们可以将所有颜色的因子装入(例如对于RGB表示:红色装入R(f)Ref,f=0,1,2,…,绿色装入G(f)Ref,f=0,1,2,...,和蓝色装入B(f)Ref,f=0,1,2,...,总的F因子)收集入由F密度“帧”组成的等价单个元序列,每帧都是一个具有与扩展参考帧内的完全子大小相同的密度装入。当每个装入如在解释器的空间拓宽器中那样展开为一条直线时,颜色密度装入形成一个带有F个密度装入(每个都包含M个像素)的F×M矩阵。该矩阵的单值分解(svd)产生与元装入一起的用于M个像素的元因子和用于F个原始因子的元计分。如果元因子的数量等于M或F中的较小值,则svd产生原始装入完整的重建。但是,如果原始装入中存在明显的内部颜色空间相关性,则将在元因子中累计,从而导致其小于正确重建所需的M或F因子中的较小值。元计分指示F个原始颜色因子装入如何互相关联,而元装入指示这些互关联在M个像素上的空间分布。
同样,如果在完全子运动于三维坐标方向上存在空间互关联,则在水平、垂直和深度方向上的微笑装入的空间元建模将揭示这些互关联。同样,如果在完全子相对于两个以上的概率性质的变化之间存在空间互关联,则可以利用各种概率性质的装入的空间元建模合并这些概率冗余度。
最后,可以同时在每个完全子或完全子组的颜色密度、运动和概率变化装入上完成空间元建模。空间元建模再次代表原始IDLE模型内部的空间关联冗余度,并且空间元计分对原始因子装入之间的空间关联程度定量化。如在标准的主分量分析中的那样,如果原始输入装入矩阵经过标准化,则来自svd的本征值分布指示了互关联程度,参见H.Martens和T.Naes《多变量标度》,第三章,(John Wiley& Sons,1989),它作为参考文献包含在这里。
这种空间装入上的直接svd可以考虑为与元级别上的空间着色因子建模等价。同样,仅仅采用元着色因子的空间元建模可以借助元参考、元着色、元微笑和元概率模型扩展为完整的IDLE建模。其中一个原始装入可以用于元参考。空间元微笑因子随后定义了不同原始装入内的区域需要如何移动以优化它们的空间冗余度。元完全子不必与原始的完全子相同。空间元完全子可以定义为原始完全子或者原始完全子组的一部分,并且包含的区域具有相似的对称空间内装入关联模式。诸如空间元透明度之类的其它概率空间元子运算域允许不同空间元完全子的混合。
时间元建模
时间元建模基本上与IDLE建模相同;但是,模型的输入现在是确定为第一IDLE模型一部分的计分。在与XRef中原始空间变化因子装入的元建模相同的方式中,可以将IDLE元建模应用于USeq中的序列计分上。可以在用于部分或全部序列帧的一些或所有完全子的子运算域上完成时间元分析。
时间元因子装入指示原始视频序列中的不同帧n=1,2,…N如何相互关联,而时间元因子计分f=1,2,…,F(对于元分析的子运算域和完全子)指示原始IDLE模型中的不同因子的计分如何相互关联。随后计分的N×F矩阵上的简单svd对原始IDLE模型的因子之间已有的时间冗余度建立模型。
这种因子计分的简单svd对应于时间元着色建模。完整的时间IDLE元建模允许有一个作为时间函数的而不是标准IDLE建模情况下的空间函数的参考。在这种情况下,元完全子表示随时间的事件或动作,元微笑因子表示事件或动作沿时间的位移,而元着色因子表示时间或动作的程度。元参考可以选为视频序列中的其中一个原始因子计分系列。
因此时间元微笑因子可以用于建立离开用于原始IDLE模型表示的其它变化模式的元参考模式的对称、复杂的时间偏离的模型。例如,如果原始序列中一个对象(例如有轨电车)的移动在时间上跟随另一个对象(牵引机车的刹车灯)的运动和颜色变化,但显示出变化、对称的延迟(例如由于加速度变化引起),则将引起时间元微笑因子。即时元微笑因子的装入指示了原始输入序列内的不同帧如何互相关联,并且时间元微笑计分指示原始IDLE模型中的不同因子如何互相关联。
时间元完全子一般对应于分开来建模最好的分立时间事件。随后元透明度因子可以用来平滑地将不同的时间完全子组合起来。上述元建模处理的模型参量反过来也可以对其自身元建模。
当元建模用于编码器中时(“元编码”),译码器系统可以具有相应的逆向元建模(“元译码”)。
多序列元建模
上述单序列建模可以进一步用于多序列元建模。多序列元建模的其中一个主要应用是视频码处理,在那里用于将不同的但又可能相关的视频序列的IDLE模型关联起来。合并两个以上相关IDLE模型的其中一个方法是如上所述对装入或计分直接元建模。如果扩展参考图像相同或非常相似,则这种空间结构的直接元建模比较有用。但是,如果序列与扩展的参考图像的大小不同,则直接空间元建模就难以完成。而且,虽然实际上可以做到,但是如果扩展的参考图像大小一样但完全子不同,则结果没有意义。
如果序列的长度相同并且反映的是相关的事件(例如上述讨论的牵引/有轨机车实例),则直接时间元建模也比较有用。如果序列无法分为等长的子序列,则元建模难以完成,并且如果序列不反映相关事件,则结果无意义。
非直接多序列元建模
非直接多序列元建模利用两个以上的元建模阶段。一个阶段是制作两个以上兼容的模型参量组,第二个阶段是元建模最终的兼容组。非直接序列元建模比起上述元建模,在允许单个模型对大量现象建模上具有更多的灵活性。
在空间元建模的开始阶段,扩展的参考图像和有关的一个以上子序列的因子装入用来建立新的扩展参考图像,例如利用简单的I-DLE建模。为了形成新的扩展参考图像而将两个空间子序列模型连结起来的不同方法可进一步参见附录“合并—子序列”。如果子序列至少有一帧互相交叠,则可以应用后一条途径。
初始的时间元建模借助另一个子序列的时间参考子序列达到一个以上时间参考子序列与有关因子计分的时间兼容性。这利用简单的IDLE模型来建立时间域的模型就可以完成。
一旦在空间和/或时间域上达到兼容,就可以将不同的子序列模型联合元建模成看上去好象属于一个子序列。
利用元建模的模型组合
来自不同模型的计分和装入可以与来自其它不同模型的计分和装入组合。一个模型的计分或装入可以被不同来源(例如实时游戏杆输入)的其它计分或装入代替,并采用元建模进行组合。视频配音中声音与图像数据的口型同步就是采用元建模的组合模型的实例。具体而言,微笑因子可以从已建立的IDLE图像嘴巴运动模型估计得到。这些计分随后可以与代表说话的嘴巴发出的声音对应的时间系列匹配。接着可以利用来自所建模型的图像计分和声音时间系列装入的元建模以提供图像数据随声音时间系列的优化协变来完成口型同步。
利用IDLE模型参量的组合模型的另一个应用是已建模型的I-DLE参量与外部数据之间的协同变化的建模。例如,如果IDLE建模已经用来在数据库中建立了一大组的相关医学图像,则用于选取图像的IDLE计分可能与用于相应图像每个主题的特殊医疗和医学历史相关。进行这种协同变化的一种方法是局部最小平方回归#2(“PLS2”),参见H.Martens和T.Naes《多变量标度》,pp.146—163,(John Wiley & Sons,1989),它作为参考文献包含在这里。用于不同图像输入通道的联合对分立运动建模
用于颜色视频序列的典型输入包括六个输入量:3个暗示的位置维数(垂直、水平和深度)和3个明示密度(例如R,G,B)。在基本IDLE系统的较佳实施例中,假定三个密度通道表示来自同一相机的输入并且涉及同一对象的信息。这样,对于所有三种颜色或密度通道假定了相同的分段和运动(S和混浊度,微笑和点头)。颜色通道仅仅在着色建模中分离。而且随后通过上述各种装入的联合多变量建模消除模型冗余度。
基本的IDLE系统可以修改为通过对每帧要求含有公共计分的着色因子但对各颜色通道要求不同的装入而同时在输入量(例如不同颜色通道内的模型着色信息)之间具有更强的连接性。这偏重于在一个完全子或完全子组中的所有颜色通道中具有同一时间动态的密度变化,并且可以用于例如稳定因子的估计以及编辑和压缩。
基本的IDLE系统可以修改为在输入量之间具有更弱的连接性。在那里,对于分离的每个颜色通道,或多或少独立地对运动建模。这有利于计算并且在不同通道实际代表不同空间信息时灵活性更大。
独立运动建模的一个例子是来自一组装备不同传感器的监视卫星的多传感器地理输入图像。基于不同位置处的不同时间提取的并且可能显示不同光学像差、不同的记录时间和不同的分辨率的同一地理区域的多次重复的记录,IDLE系统可以用于对一定程度上不协调的输入图像进行有效的归一化、压缩和解释。不同的传感器通道对不同的空间结构和现象具有不同的灵敏度。例如,雷达和磁性成像传感器对陆地和海洋表面高度的变化比较灵敏,而一些基于光子的成像传感器(例如紫外、可见和红外照相机)对各种长程气候变化和植被变化和短程天气状况具有不同的灵敏度。在这种情况下,IDLE系统可能需要用于独立观测通道的分立运动和着色建模。
这种系统的另一个例子是从几种医学成像设备(MRI,PET,CT)获得的输入数据,这些设备为了监视癌症生长、血管变化或其它随时间变化的现象,在一定时间间隔内重复扫描一给定物体。由于每个设备都需要分离的测量,所以对于每种设备和重复测量中的每次扫描,物体的位置略微不同。生物组织的运动一般不会遵循仿射变换。因此,IDLE微笑因子可能更灵活,具有足够限制身体运动表示的方式并且允许所需的归一化。每种成像设备随后可以包含相对用于来自各成像设备的单独扫描组的结果的来自扩展参考位置的微笑因子子组。在最终的归一化下,可以检测早先给出缓慢变化组织警告的着色因子和局部微笑因子。对于用于最大空间和谐的不同成像设备,如果扩展参考位置例如通过元建模归一化,则这特别有效。在这种方式下,来自不同成像设备的所有通道的联合信号都可以用来例如通过要求所有通道的着色因子计分相同而只有装入不同以稳定克服测量噪声的建模。
来自二维输入(图像)分析的普遍化
上述IDLE建模系统可以用于除了普通二维视频图像以外的不同格式的输入记录。例如,可以用于诸如线列照相机的行时间系列或静止图像的单列之类的一维数据。
对于后者,IDLE系统用作静止压缩系统的一部分。在这类应用中,向静止图像编码器输入的信息是像素的行或列,不是两维帧数据。每个输入记录可以代表两维图像中的垂直列。因此,静止图像I-DLE装入参量是列状的而不是两维图像。对于这种情况,图像中的水平像素指数(列数)代替了视频序列的时间维数(帧n=1,2,…)。
不同输入维数的同时建模
如果向静止图像IDLE编码译码器输入的是RGB静止图像,则如视频IDLE编码译码器所述,可以分开或联合编码三种颜色通道(或者YUV等的变换)。同样,如果向静止图像IDLE编码译码器输入的是来自视频IDLE编码译码器的扩展图像模型的一组空间参量,则可以分开或联合地编码不同的输入维数(着色因子、微笑因子、概率因子)。
在视频压缩中描述的本发明可以应用于任何一种信息处理和/或获取的应用。例如,对于用来建模或编辑黑白或彩色的视频序列(一组相关的图像)的图像序列或视频序列的处理,借助IDLE参量进行建模以优化对模型参量用途的编辑。模型参量反过来可能涉及已建立的参量组,并且其它已知的编辑模型元素被加入模型。参量组以分层的方式互相关联。通过改变时间和/或空间参量来编辑序列。采用多序列元建模的方法联合建立相关视频序列组的模型,即由特殊的IDLE元模型将每个相关的序列映射到“参考序列”上。
本发明还可以应用于存储或传送压缩。在该应用中,通过IDLE编码建立视频序列的模型,并压缩最终的模型参量。根据译码系统的带宽和存储容量采用不同的压缩和表示策略。变换因子的时间排序与空间参量的金字塔型表示和传送可以用来在传送带宽受到限制时增加系统的强壮度。
同样,本发明还可以用于黑白电影的彩色化。对于这种情况,通过IDLE编码建立黑白电影序列的模型。IRef中的空间完全子由人工或自动上色,并使这些颜色自动分布整个序列。相关序列组可以用相容的颜色来识别。
此外,本发明可以用于模拟器、虚拟现实和其它相关的应用。相关的图像序列被记录和压缩。当译码时,由用户控制所选的几个计分而不是采用记录计分。同样,可以按照用户控制的计分改变其它计分。例如,对于交通模拟器:记录汽车、道路和平台的内部的序列;识别那些计分,可能是点头计分,直接与汽车的运动对应;确定那些随点头因子间接变化的计分,例如用于光照、阴影、透视等的微笑/着色因子;以及建立起定义汽车如何与某些控制输入的的运动(例如车轮、加速杆、刹车杆等)相互作用的数学模型。随后,用户可以坐在带有前方显示器和可能的侧面显示器的模拟汽车内。模拟控制器随后与“直接”因子相连,用来控制“非直接”因子。最终的图像将给出非常自然的效果。
本发明还可以用于诸如视频电话、电视和HDTV之类的现实系统。虽然在新的序列开始时可能产生大量的空间信息,但是对于超长序列来说也可以获得非常高的压缩比。这种应用还包括实时编码和译码。根据计算能力的大小,可以采用复杂度不同的IDLE算法。例如,空间域上的信息可以在处理各种大小的图像的IDLE编码器算法(根据特定应用的容量和需要决定)下由标准的高斯金字塔表示。用于拓宽、扩展或深化的编码器部分不必对每帧都是实时的。场景的复杂程度和图像大小决定了可以达到的压缩比和代码质量。
本发明还可以用于远地照相机监视。利用位于图像信息源的远地实时编码器,简化了照相机的解释和发送部分。一般的着色因子建立诸如各种正常的照明变化的正常对称变化,而一般的微笑因子和点头因子校正一般的运动(例如树枝的运动)。自动轮廓检测和空间模型扩展器检测了未建模残量中的对称冗余度并且在发布自动误差警告之前产生可以通过查询对象数据库解释的新的完全子。数据库中的每个对象可以包含自身的微笑、着色和概率因子装入和/或运动模型。压缩残量可以存储或在窄带系统(例如银行等安全照相机的TV照相机输出用的双股对扭铜缆线)或超窄带系统(例如深水或外层空间用)上发送。
来自技术照相机的图像,即不是直接供人观看的图像可以采用IDLE技术来建模/压缩。颜色通道越多,空间IDLE模型的元建模压缩就越有效。这种应用的例子包括用于监视近红外(NIR)或紫外/可见波段(例如用于记录荧光)内生物学过程的多波段照相机系统。
IDLE系统还可以与多通道卫星和/或航空摄影连结。不同环境和时间下同一地理区域的重复图像可以通过IDLE编码建模。这种参量化可以进行有效的压缩以供存储和传送。它还提供了指示系统密度变化和运动以及随时间变化的解释工具。如果是从略微不同的位置或以不同的测量条件得到了同一地区的图像,则可以采用附加的IDLE预处理模型来改善对准度,从而允许地理区域有相当明显的变化时(例如日照的变化)仍能精确鉴别。
本发明的IDLE方法还可以用于交叉域坐标或电影制作与配音的口型同步的应用。对于多变量标度,来自说话者嘴部区域的IDLE视频模型的技术参量计分例如涉及例如由PLS2得到的发声模型(例如子带或Celp编码译码器或IDLE声音编码译码器)的时间参量。回归建模可以基于来自一组带有已知图像/声音同步的说话人的电影序列的数据,从而建立起用于优化口型同步的局部口型延迟的模型。对于口型问题的新的序列,估计了同一图像和声音模型的计分参量。一旦估计出来,就通过修改时间IDLE参量和/或声音参量来校正或补偿局部口型同步的延迟。
IDLE原理还可以用于数据库压缩和/或搜寻。在许多数据库中记录之间相互关联,但是这些关系比较复杂并且难以用普通建模来表达。这种应用的例子包括人脸的拍摄、各种医学图像(例如MRI身体扫描)、生物标本的照片、汽车照片等。对于这种情况,可以利用I-DLE模型参量分析和存储数据库的内容。数据库中相关但又复杂的信息的IDLE表示有几个优点,即压缩量大、搜寻能力和灵活性相对于数据库中单个记录来说有所改进。压缩量取决于建模的记录数量和采用的IDLE模型的简单程度,即数据库内容的多少和复杂程度。
搜寻能力(和解释能力)改善的原因在于,在IDLE表示时,与大量原始输入数据(例如每幅图像200000个像素)的情形相反,数据库搜寻可以利用与因子计分对应的低维参量组(例如少量的点头、微笑和着色计分)来完成。采用分形或DCT的压缩技术不产生相似的可搜寻参量。少量的IDLE计分变量可能与数据库中外部变量统计相关,从而提供了搜寻更大的一般模式(例如对于医学图像和医疗)的能力。数据库中记录表示的灵活性的改善的原因在于,双线性IDLE因子的灵活性。将少量微笑和着色因子装备到完全子模型上可以在模式识别期间无需统计过参量化就能量化对称的未知变化。
数据库表示中的IDLE建模可以用于数据库中各种记录类型,例如包含人脸的图像数据库(医学、犯罪等)、动产提示材料或技术图纸。在这些情况下,IDLE建模可以使每张图中的完全子在不同地方使用;这种情况下的完全子可能是几何原形。另外的应用包括声音(音乐、话音)、事件(空间时间模式)、情况(例如综合各种用于天气结构或地理位置的气象数据的一段时间内的天气情况)。
IDLE原理还可以用于改善模式识别。在将未知记录与各种已知模式匹配时,当已知模式还包括少量微笑和着色因子装入(其计分在搜寻过程期间估计)时,增加了灵活性。在搜寻相对给定模式的输入图像时,通过使完全子包括少量微笑和着色因子装入(其计分在搜寻过程期间估计),增加了灵活性。这种模式识别途径可以用于语音识别。
IDLE原理还可以用于诸如超声波、MRI、CT等医疗和工业成像设备以提供噪声滤波、自动警告和改进解释。在医学超声波成像中,噪声是一个主要的问题。噪声之强常常使得单独帧上的滤波损坏所需信号的重要部分。许多噪声是随机的并且叠加在一起时趋于零,如果从同一对象的同一部分收集到许多样本,则可以通过平均化样本来抑制噪声。要保持测量的对象或使主题稳定常常是不可能的,并且所观察到的运动看上去相当复杂。但是,引起所观察到的运动的原因有限,所以位移只需相当少的IDLE微笑和点头因子。在参考位置上,噪声可以平均化去除。微笑和着色因子也可以用于解释这样的序列。最后,超声波序列表示了大量难以存储的原始数据。大多数情况是只有几幅静止的图像存储。因此本发明的压缩大有用武之地。
本发明的IDLE原理还可以用于信用卡和其它图像数据库压缩应用。例如,对于压缩的情况,只要图像组具有相似的特征,这组图像就可视为一个序列并采用IDLE技术压缩。这很容易用于面部图像的数据库中。如果所有的装入在编码器和译码器侧都是已知的,则意味着只有计分需要单独存储。这些计分能够与信用卡上磁条的存储容量匹配,从而构成了鉴别系统的基础。
IDLE原理的其它应用包括静止图像压缩、雷达(噪声滤波、模式识别和误差警告)、自动动态视觉技术(在艺术画廊或广告中,两台以上带有例如平板彩色LCD屏幕的计算机,显示了IDLE模型的输出。一台计算机上IDLE模型的计分参量是另一台IDLE模型的屏幕输出和自组织系统中其它传感器的函数)、消费品或广告(一台带有例如彩色平板LCD屏幕的计算机显示了来自IDLE模型的输出,IDLE模型的计分和装入受到随机数发生器和观察者行为共同作用的影响)、去连接感测和元观察(当移动的场景已经被许多图像传感器多次特征化以致图像无法再叠加时,IDLE建模可以用来对移动场景归一化以进行更简单的叠加)。
IDLE系统还可以用于数据设备的归一化(磁的、光的)。具体而言,如果记录过程的物理位置或区域密度发生了变化,或者读取过程及介质本身是变化的而难以用普通的建模来建立模型和校正,则采用点头、微笑和/或着色因子的IDLE建模可以校正对称的但未知的变化。这对于控制多层读/写过程特别重要。在这种应用中,已经写入的层可以作为输入的数据来稳定潜在的微笑和着色因子。
本发明的IDLE原理还包括众多的声音应用。例如诸如音乐、话音或电-机振动之类的声音可以利用各种域(例如时间、频率)上的固定平移/点头、对称位移/微笑、密度/着色和交叠/混浊度的参量化来建模和压缩。声音中的完全子可以是时间和/或频率域上的连接的声音模式。另外的声音应用包括声音的修改/编辑;工业过程和监视、汽车、轮船、飞机。而且可以在声音数据库中搜寻(与上面讨论的图像或视频数据库中的搜寻相似)。由此可以在不同域上将IDLE建模组合起来,例如时间和频率域上的声音建模。
IDLE原理还可以用于天气预报;机械(利用照相机作为独立的传感器并使IDLE系统能学习正常的运动和在磨损、破裂及异常时发出警告的机器人质量控制监视);将传统的机器人连接性“硬点头”树与用于软运动的IDLE微笑模型结合起来并将“软”“硬”机器人建模与着色因子连用以建立人体运动模型的机器人建模。
本发明的IDLE原理还可以用于指纹、声音和脸部枪击图像区域的法医研究。
虽然借助较佳实施例描述了本发明,但是可以理解的是本领域内的技术人员在不偏离本发明精神和范围的前提下可以作出各种修改。
译码器—附录
1.总览
2.帧重建
2.1直观解释
2.2INRec公式
2.3Holonwise装入一计分矩阵的相乘
2.4微笑
2.5点头
2.6运动
2.7Ad hoc残量
3.参考文献
1.总览
为了增强可读性,这里的表述采用口语化的缩写来代替在本申请其它地方所用的标志和下标记号。
对于每帧n,译码器完成下列步骤:
接收域PRef的分段S区域部分的更新:S
接收用于着色密度变化(“Blu”)的计分(“Sco”)的更新,BluSco;垂直和水平地址微笑变化(“Smi”)的计分的更新,SmiSco;3D深度变化(Z)的计分的更新,ZSco;以及用于每个完全子的un的概率变化(“Prob”)的计分的更新,ProbSco.
接收用于XRef的着色、微笑、Prob和Z装入(简记为“Loads”或“Lod”):BluLod,SmiLod,Prolod,ZLod。
接收包含点头计分的仿射变换(“Nod”)矩阵NodMat的更新。
接收可选误差残量(“Res”)em=(BluRes,SmiRes,ZRes,Pro-bRes)。
根据S区域、计分、装入和点头矩阵重建当前帧(in,这里是IN)的密度以产生重建的inhat结果(″INRec″)。
2.帧重建
A.直观解释
通过按照着色因子改变参考图像中各颜色通道的像素密度来给图像着色。
通过按照微笑因子(包括Z因子)改变参考图像中像素地址值来使图像微笑。
通过按照prob因子改变参考图像中例如透明度之类的概率子运算域来改变图像的概率性质。
通过按照点头矩阵改变像素的微笑地址来使微笑的坐标点头。
将像素从着色的参考图像移入完成的图像从而使每个像素都在微笑和点头坐标处结束,图像中的“完全子”添满内插值,在几个像素结束于同一坐标时Z值最大的像素“赢得”该坐标,以及如果Prob值小于1,像素半透明。
选择:将残量校正加入重建密度。
选择:后处理最终的输出图像以提供完全子的平滑混合,特别是在移动器操作期间沿着运动形成的边缘。在较佳实施例中,可以通过沿运动图像中所有的分段边缘混合完成。
2.2INRec公式
计算INRec的公式如下:
INRec=Move(IRef+BluSco*BluLod,S,…
     Nod([VH]+SmiSco*SmiLod,Z+ZSco*ZLod,NodMat,
     S),...
     ProbSco*ProbLod)
2.3Holonwise装入—计分矩阵的相乘
在诸如“BluSco*BluLod”之类的表达式中,相乘并不意味着传统的矩阵相乘,而是一种称为Holonwise装入—计分矩阵的相乘的变化。即,每个完全子都有自己的计分,而且对于每个像素,为了确定像素所属的完全子,必须分析S区域,并且完全子的数量必须用来从BluSco选择正确的计分。
为了计算BluSco*BluLod:
对于每个像素:
Sum=0
对于每个因子:
    Sum=Sum+BluSco[S[Pixel],Factor]*BluL-
    od[Factor,Pixel]
    Result[Pixel]=Sum
同样也可以这样计算SmiSco*SmiLod、ZSco*ZLod和Prob-Sco*ProbLod。
2.4微笑
微笑像素意味着按照地址变化区域位移参考位置坐标。地址变化区域可以在每一维(例如垂直、水平和深度方向)上都有取值,并可以定义为一个以上的完全子。每个地址变化区域可以作为微笑因子贡献之和而产生,而每个变化因子贡献可以是时间计分与空间装入之积。
为了将像素信息从参考位置处移开,可以首先计算参考位置(DARef,n)中的这些像素的运动量,随后在译码器的移动器的后半段进行实际的移动操作。
对于参考位置中坐标为V,H,Z的每个像素,移动后的新地址计算如下:
VSmi=V+SmiScoV*SmiLodV
HSmi=H+SmiScoH*SmiLodH
ZSmi=Z+SmiScoZ*SmiLodZ
在这些三个表达式中,V和H是参考位置处每个像素的坐标,Z是像素Z区域的数值。乘法是上节所述的Holonwise装入—计分矩阵的相乘。
2.5点头
点头函数用来修改每个像素的坐标值,地址可以用相似的坐标向量表示:
ASmi=((VSmiled HSmiled ZSmiled 1))
点头坐标ANod由下面给出: VNod HNod ZNod Dummy = T 11 T 12 T 13 0 T 21 T 22 T 23 0 T 31 T 32 T 33 0 T 41 T 42 T 43 1 * VSmi HSmi ZSmi 1 这里也可以表示为:
ANod=NodMat*ASmi
2.6运动
将像素移入完成的图像从而使每个像素结束于微笑和点头坐标,也使图像中的“完全子”添满内插值,并在几个像素结束于同一坐标时Z值最大的像素“赢得”该坐标,以及如果Prob值小于1,像素半透明。
如果装入X(f)Ref,f=1,2,3也一起移入水平0图像X(0)Ref,则将同一内插和Z缓冲策略用于f=1,2,…。
移动和内插像素的方法参见George Wolberg《数字图像卷绕》,第7章,(IEEE Computer Society Press 1990),作为参考文献它已包含在这里。Z缓冲可以参见William M.Newman和Robert F.Sproull《交互式计算机图形》,第24章(mCGraw Hill 1984),它作为参考文献包含在这里。如何将半透明像素组合起来的方法可以参见John Y.A.Wang和Edward H.Adelson,“图像序列码处理的层表示”,IEEE ICASSP,Vol.5,pp221—224,Minneapolis,Minnesota,1993,作为参考文献它已包含在这里。
附录合并—子序列
检查当前子序列模型是否可与其它子序列模型合并
A.将当前参考模型称为′位置I′,另一个参考模型称为′位置II′。利用由当前和另一个子序列建模的帧n,将当前子序列XI的扩展参考图像的空间模型参量移至另一个子序列XII的扩展参考图像的位置:
1.由于:
在模型I中:inhat(I)=Move(DAI,nof II+DII,n)
在模型II中:inhat(II)=Move(DAII,nofIII+DIII,n)
并且从xnhat的所有的域普遍化:
在模型I中:xnhat(I)=Move(DAI,nof XI+DXI,n)
在模型II中:xnhat(II)=Move(DAII,nof XII+DXII,n)
2.我们可以将用于帧n的估计移回两个参考位置上:
在模型I中:Xnhat(I)@I=Move(DAn,Iofxn)
在模型II中:Xnhat(II)@II=Move(DAn,II of xn)
3.如果与着色建模不同,两个模型主要包含微笑,则我们利用模型I将模型I移至帧n的估计位置,随后利用模型II的逆模型将模型I移入模型II的位置:
XI@II=Move(DAn,IIof(Move(DAI,nof(XI+DXI,n))
4.模型II的位置XI@II中给定的模型I装入可以与XII比较和合并(借助局部微笑和着色估计与模型扩展,加上XI@II中丢失的XI中的检测部分)。这产生了一个新的综合了模型I和II的放大模型XII
5.新的放大的模型XII同样可以与具有另一交叠帧的模型III合并。只要压缩和/或再现质量下降得不大,就可以合并子序列。
附录简化的编码器用途:表示一种实现简化IDLE编码器的方式内容:1 EncSeq2 ExpressSubSeqWithModels3 ExpressWithModels4 ExtractSmiFactSubSeq5 ExtractBluFactSubSeq6 SegSubSeq7 AllocateHolon8 MoveBack9 AnalyseMove10其它需要的方法
10.1移动
10.3Smi2Nod
10.4更新模型
10.5传送
附录
记号
1EncSeq
输入:
Seq:帧序列;每行一个
ErrTol:允许误差
输出:
SmiLod:Smile loads
SmiSco:Smile scores
BluLod:Blush loads
BluSco:Blush scores
非正式描述:
在序列上工作。只要无法利用已知的微笑和着色因子在允许误差内重建帧就要引入新的因子。首先尝试引入微笑因子,然后尝试引入着色因子。选择能够最大程度改善重建的因子。
在这个过程期间,可以寻找图像的不同部分来独立移动或互相包容。每次检测到这种情况时,检测图像的那一部分是固有移动的,将最小的部分隔离并定义为多个新的完全子,通过增大图像的尺寸提供新的空间,将新的完全子放在那里,以及用微笑因子补偿重新定位。
只要表明需要新的信息(即图像部分采用已有点头或微笑因子无法精确移回参考位置),就要寻找附近的完全子并试着在扩展每个这样的完全子的假设下建立新信息的模型。如果可以找到较好的建模方式,则扩展完全子,否则创建新的完全子。
考虑译码器剩下的存储容量:
如果存储容量很大,则优先存储跨越许多帧的因子并通过释放测试允许误差TestErrTol而更“正确”(即使它们对于每一帧来说保真度略低)。如果空余的存储容量很小,重要的是必须在少量剩余的因子下达到所需的保真度,所以测试允许误差TestErrTol必须严格。
方法:
IRef=序列Seq中第一幅图像
将SmiLod和BluLod设置为空
当NextFraNo<=length(Seq)
[SmiSco,BluSco,FailFraNo]=...
    ExpressSubSeqWithModels(Seq,NextFraNo,
    IRef,SmiLod,BluLod,ErrTol)
如果FailFraNo<=length(Seq):
尝试更新模型的不同方法:
如果译码器的存储容量很大(基于传送历史):
将TestErrTol设置为较大值
否则如果译码器的存储容量很小:
将TestErrTol设置为接近ErrTol
FromFraNO=FailFraNo
    [NewSmiLod,nSmiFra,TotSmiErr]=
    ExtractSmiFactSubSeq(Seq,FromFraNo,
    TestErrTol,SmiLod,BluLod,SmiSco,
    BluSco)
[NewBluLod,nBluFra,TotBluErr]=
ExtractBluFactSubSeq(Seq,FromFraNo,
TestErrTol,SmiLod,BluLod,SmiSco,
BluSco)
[NewS,nSegFra,TotSegErr]=SegSubSe-
q(Seq,FromFraNo,S,TestErrTol)
根据nSmiFra,nBluFra和nSegFra,和TotSmiErr,TotBluErr和TotSegErr:
不是选择包含在模型中的微笑或着色中的一个,就是改变分段
如果选择微笑:
传送(SmiLod)
更新微笑因子:
    [SmiLod,SmiSco]=UpdateModel(SmiLod,-
    SmiSco,NewSmiLod)
否则如果选择着色:
传送(BluLod)
更新着色因子:
    [BluLod,BluSco]=UpdateModel(BluLod,-
    BluSco,NewBluLod)
否则如果选择分段:
传送(NewS-S)
S=NewS
结束方法EncSeq
2ExpressSubSeqWithModels用途:表示一个由微笑和着色域上的装入组成的已有模型下的序列,只要在允许误差范围内。[SmiSco,BiuSco,NextFraNo]=…
     ExpressSubSeqWithModels(Seq,NextFraNo,
     ErrTol,IRef,SmiLod,BluLod,SmiSco,BluS-
     co)输入:
Seq:待表示的序列
NextFraNo:Seq内子序列的起点
ErrTol:允许误差;子序列结束的判据
Iref:参考图像
SmiLod,BluLod:微笑装入
SmiSco,BluSco:已知的微笑和着色计分输出:
SmiSco:微笑计分
BluSco:着色计分
FailFraNo:由于ErrTol而建模失败的帧的数量方法:
将当前帧的数量N设置为NextFraNo
重复
IN=Seq(N)
尝试采用已知因子建立IN的模型
[INRec,SmiSco[N],BluSco[N]]=
    ExpressWithModels(IN,S,SmiLod,BluLod)
增加帧的数量N
直到Error(INRec,IN)<ErrTol或IN是Seq中最后一帧
NextFraNo=N结束方法ExpressSubSeqWithModels
3Express WithModels
用途:用已知模型表示帧,即计算已有的在IN与重建之间给出最佳拟合的装入的计分[INRec,SmiSco,BluSco]=ExpressWithModels(IN,IRef,SmiLod,BluLod,S,SmiSco,BluSco)
输入:
    IN:一幅特定的帧
    IRef:参考图像
    SmiLod:已知微笑装入
    BluLod:已知着色装入
    S:S区域
可选输入:
    SmiSco,BluSco:微笑和着色计分最初的估计
输出:
    INRec:重建图像
    SMiSco:对微笑和着色计分的改进估计
非正式描述:
     寻找优化的轨迹和误差的计分组,即通过类似Simplex的搜寻
方法(参见William H.Press等人,《数值译码》(剑桥大学出版社)
中第10章的“多维下山Simplex方法”),它作为参考文献包含在这
里。
     选择新的微笑计分作为先前最熟悉的微笑计分的变化,通过将
译码和需要的图像之间的差异移入参考位置和投射到已有的着色装
入上估计着色计分。
判断新的图像逼近所需图像的程度,并将其作为选择微笑计分新变化的标准。方法:
对于每个完全子:
重复
对于少数变量:
略微改变微笑计分
采用新的微笑计分和旧的着色计分对图像译码
将译码和需要的图像之间的差异移回参考位置
将差异投射到已有的着色装入上估计着色装入,产生新的BluSco
采用新的SmiSco和BluSco对图像译码
选择最佳变量(即保持给出最佳重建的计分)直到重建图像的质量足够的好或者无法进一步改善结束方法ExpressWithModels4ExtractSmiFactSubSeq用途:从子序列中提取微笑因子[NewSmiLod,nSmiFra,TotSmiErr]=ExtractSmiFactSubSeq(Seq,FromFraNo,ErrTol, IRef,SmiLod,BluLod,SmiSco,BluSco)输入:
Seq:序列
FromFraNo:子序列中第一帧的数字。与EncSeq中NextFraNo的相同
ErrTol:允许误差
SmiLod,BluLod:已知的微笑和着色装入
SmiSco,BluSco:待更新的计分输出:
nSmiFra:用于估计微笑因子的帧的数量
NewSmiLod:一个新的微笑装入
TotSmiErr:微笑后的总的剩余误差非正式描述:
对于每帧,只要微笑看起来合理:
只利用已知的装入尽可能地重建所要的帧IN;将它称为IM
为了看上去象IN,寻找IM微笑的方式
将微笑映射回参考位置
更新模型
返回最终模型的第一因子方法:
TestFraNo=FromFraNo
TotErrSmi=0
将SmiTestLod设为空
重复
IN=Seq(TestFraNo)
建立根据参考图像与已知的微笑和着色因子尽可能地重建IN的图像IM,并作为侧面效应计算从M到参考位置的返回区域:
[IM,SmiSco[TestFraNo],BluSco[TestFraNo]]=
    ExpressWithModels(IN,IRef,SmiLod,BluLod,
    SmiScoInit,BluScoInit)
SmiRefToM=SmiSco[M]*SmiLod
当只允许微笑时寻找如何使IM看上去象IN的方式,同时计算微笑区域的信心:[SmiMToN.SmiConfMToN]=EstMov(IM,IN,TestSmi-Lod)
将微笑和确定度移回参考位置:SmiMToNAtRef=MoveBack(SmiMToN,SmiRefToM)SmiConfMToNAtRef=MoveBack(SmiConfMToN,SmiRef-ToM)
计算只采用微笑时的误差:
  ErrSmi=N-Move(IRefBlushed,SmiRefToM+SmiMT-
  oNAtRef)
  [SmiTestLod,SmiTestSco]=…TotErrSmi=TotErrSmi+ErrSmi
更新模型(SmiTestLod,SmiTestSco,ErrSmi)TotSmiConfMToNAtRef=TotSmiConfMToNAtRef+SmiConf-MToNAtRefTestFraNo=TestFraNo+1
直到
SmiTestLod中因子间的能量过于分散,或ErrSmi较大
最后一帧不包括在摘要内,所以:
取消最后的更新模型的效应
取消最后的误差求和的效应:
TotErrSmi=TotErrSmi-ErrSmi
NewSmiLod=SmiTestLod[1]
nSmiFra=FromFraNo-NextFraNo结束ExtractSmiFactSubSeq方法
5ExtractBluFactSubSeq
用途:从子序列中提取一个着色因子[NewBluLod,nBluFra,TotBluErr]=ExtractBluFactSubSeq(Seq,NextFraNo,ErrTol,IRef,SmiLod,BluLod,SmiSco,BluSco)
输入:
    Seq:序列
    NextFraNo:下一帧的数字。即子序列的起点
    ErrTol:允许误差,可以定义为子序列的结尾
    IRef:参考图像
    SmiLod:已知的微笑装入
    BluLod:已知的着色装入
    SmiSco:微笑计分
    BluSco:着色计分
输出:
    NewBluLod:一个新的着色装入
    nBluFra:用于定义该着色的帧的数量
    TotBluErr:着色后的总的剩余误差
方法:
    TotBluErr=0
    TestFraNo=NextFraNo
    将BluTestLod设为空
    重复
    如果用于IM的计分不能为ExtractSmiFactSubSeq所用:
    建立根据参考图像与已知的微笑和着色因子尽可能地重建IN的图像IM,并作为侧面效应计算从M到参考位置的返回区域:
[IM,SmiSco[TestFraNo],BluSco[TestFraNo]]=
    ExpressWithModels(IN,IRef,SmiLod,
    BluLod,SmiScoInit,BluScoInit)
SmiRefToM=SmiScoM*SmiLod
通过着色是IM看上去像IM
BluMToN=IN-IM
将该着色移回参考位置:
BluMToNAtRef=MoveBack(BluMToN,SmiRefToM)[BluTestLod,BluTestSco]=…
计算只采用着色时的误差:
ErrBlu=IN-Move(IRefBlushed+BluMToNAtRef,
SmiRefToM)
直到
BluTestLod中因子间的能量过于分散,或
Sum(ErrBlu)较大
最后一帧不包括在摘要内,所以:
取消最后的更新模型的效应
取消最后的误差求和的效应:
TotErrBlu=TotErrBlu-ErrBlu
结束ExtractBluFact方法
6SegSubSeq
用途:提出一种新的完全子分段,并报告如何改进建模[S,TotSegErr,nSegFra]=SegSubSeq(Seq,FromFraNo,SmiLod,SmiSco,S)
输入:
    Smi:微笑区域
    FromFraNo:子序列中第一帧的数字
    SmiLod:微笑装入
    SmiSco:微笑计分
    S:先前的S区域
输出:
    S:新的更新的S区域
    TotSegErr:与分段有关的总误差
    nSegFra:用于估计分段的帧的数量
非正式描述:
    采用各种试探技术来改进将参考图像分裂为分开的完全子的方
    检查在新分裂下提取新的微笑或着色因子的难易程度
    返回最佳结果
方法:
    重复
    TestFraNo=FromFraNo
    重复
    IN=Seq(TestFraNo)
Smi=SmiSco(TestFraNo)*SmiLod
如果必要,将一个完全子一分为二:
对于S中的每个完全子:
计算来自完全子的Smi的点头矩阵
如果点头矩阵与像素之间误差之和较大:
沿误差的主分量分裂每个完全子
如果必要,将两个完全子合二为一:
对于S中的每个完全子:
如果点头矩阵与另一个完全子的点头矩阵相似:
两个完全子合二为一
让拟合较差的边缘像素改变完全子:
INRec=Move(IRef+BluSco*BluLod,SmiSco*SmiLod)
对于完全子边缘上的INRec内的位置v,h处的每个像素:
如果像素与邻近的完全子拟合得更好,让像素属于邻近的完全子
提取不属于任何完全子的像素:
VisInFromAtTo=AnalyseMove(Smi)
从VisInFromAtTo(像素)<阈值的像素中提取新的完全子
TestFraNo=TestFraNo+1
直到SmiSco(TestFraNo)不为早先执行的ExtractSmi-FactSubSeq所用
直到收敛[NewSmiLod,nSmiFra,TotSmiErr]=ExtractSmiFactSubSeq(Se-q,FromFraNo,TestErrTol,SmiLod,BluLod,SmiSco,BluSco)[NewBluLod,nBluFra,TotBluErr]=ExtractBluFactSubSeq(Se-q,FromFraNo,TestErrTol,SmiLod,BluLod,SmiSco,BluSco)
如果微笑比着色“更好”:
TotSegErr=TotSmiErr
nSegFra=nBluFra
否则
TotSegErr=TotBluErr
nSegFra=nBluFra结束SegSubSeq方法
7AllocateHolon
用途:SegSubSeq需要改变完全子的空间定义。这里是一个所需操作
的例子,即将一个SegSubSeq分配给参考图像中的新完全子。[S,SmiLod,BluLod,SmiSco,BluSco]=AllocateHolon(S,SNewHol-on,Smi,SmiLod,BluLod,SmiSco,BluSco)
输入:
    S:更新前旧的S区域
    SNewHolon:一个以上新完全子的S区域
输出:
    S:新更新的S区域
方法:
    对于S中的每个新的完全子:
    如果需要增加S的大小,这在S中寻找足够的自由空间
    寻找到自由的完全子数字,将其放入S中每个新像素的位置
    将SNewHolon的像素放入新的空间
    给予新的完全子一个新的能将完全子从新参考位置移回上一次
位置的微笑因子
    对计分表重新格式化
8MoveBack
用途:将图像内容移回,例如从N到M位置或从M到参考位置。这
是移动的逆动作。
    IBack=MoveBack(IOut,SmiBack,SOut)
输入:
    IOut:输入移出位置的图像,例如IM
    SmiBack:回复位置的微笑区域,例如Ref
    SBack:回复位置的S区域
输出:
    IBack:移回的图像,例如移回到参考位置
方法:
    对于Sback中位置v,h处的每个像素:
    采用两路线性内插来进行内插,来自包围子像素位置
    (v+SmiV〔v,h〕,h+SmiH〔v,h〕)的IOut中的四个像素的
IBack〔v,h〕
9AnalyseMove
用途:确定微笑区域的特征:
    对于起始图像中的每个像素:在目的图像中是否可见?
    对于目的图像中的每个像素:在起始图像中是否可见?[VisInToAtFrom,VisInFromAtTo]=AnalyseMove(SmiFrom,SFrom)
输入:
    SmiFrom:起始位置内待分析的微笑区域
    SFrom:起始位置内的S区域
输出:
    VisInToAtFrom:位于起始位置的目的图像内的可见性:
    对于起始图像内的每个像素:
    如果目的图像中的相应像素是可见的,则为1
    否则为0
    VisInFromAtTo:位于目的位置的起始图像内的可见性:
    对于目的图像内的每个像素:
    如果起始图像中的相应像素是可见的,则为1
    否则为0
方法:
    产生VisInFromAtTo:
    将VisTo初始化为零
    对于SmiFrom中v,h位置上的每个像素:
    VisInFromAtTo〔int(v+SmiV〔v,h〕),int(h+SmiH〔v,h〕)〕=1
对于VisInFromAtTo中v,h位置上的每个像素:
用其本身的主要值和邻近值代替VisInFromAtTo〔v,h〕
产生VisInFromAtTo:
〔Dummy2,SmiRet〕=Move(Dummy1,Smi)
将VisFrom初始化为零
对于SmiRet中v,h位置上的每个像素:
VisInToAtFrom〔int(v+SmiRetV〔v,h〕),int(h+SmiRetH〔v,h〕)〕=1
对于VisInToAtFrom中v,h位置上的每个像素:
用其本身的主要值和邻近值代替VisInToAtFrom〔v,h〕10其它要求的方法
10.1移动
用途:按照微笑区域移动图像的内容
〔IMoved,Ret〕=Move(IFrom,Smi,S)
10.2 EstMov
用途:结合估计的确定程度估计一帧到另一帧的运动
〔Smi,SmiConf〕=EstMov(Ifrom,ITo)
输入:
Ifrom:起始图像
ITo:目的图像
输出:
Smi:微笑区域
SmiConf:微笑信心:确认Smi的程度
方法:
例如《Optic Flow Computation,A Unified Perspective》,AjitSingh,IEEE Computer Socitey Press 1991,ISBN0—8186—2602,在该文中所用术语“光学流区域”在很多地方与微笑区域相似。
10.3 Smi2Nod
用途:计算来自微笑区域的点头矩阵
NodMat=Smi2Nod(Smi,S)
10.4更新模型
〔NewLod,NewSco〕=UpdateModel(oldLod,OldSco,NewDa-ta)
10.5传送
用途:使计算数据可以为译码器使用从而对序列译码
传送(数据)
方法:
如果数据是空间装入:
采用常规静止图像压缩技术压缩数据
否则如果数据是S区域上的更新:
采用执行长度编码压缩数据
否则如果数据代表计分:
采用时间序列压缩技术压缩数据
经过选定的通信介质向接收器发送数据附录
记号
=(等号):
符号左边是待计算的表达式,而右边是结果。
如果左边的表达式有几种输出结果,则右边采用括号将一系列的结果括起来。
()(括号):
标识符后面的括号表明标识符是一个待计算数值的函数,括号内的标识符标识作为函数输入参数的变量或结果。
〔〕(方括号):
方括号的一个用途在等号的定义时已经给出。
它的另一个用途是指示序号:当标识符后出现一对方括号时,这意味着标识符作为数值矩阵列阵,并且方括号内的表达式选择其中一个值。
命名:
采用助记名是:
“Smi”代替微笑的“DA”
“Blu”代替着色的“DI”
“Lod”标识装入
“Sco”代替计分的“U”
前后缀代替下标,不用粗体字,例如
“SmiMToN”代替Damn

Claims (64)

1.一种用于将输入信号的样本转换为由多个分量信号构成的编码信号的方法,每个所述分量信号都代表了所述输入信号在不同域上的特性,所述输入信号由组织成多个样本记录形式的数据样本组成,每个样本在其记录中占据唯一的位置,其特征在于,每个所述分量信号以多个因子组合的形式构成,每个所述因子是计分(score)信号与装入(load)信号的乘积,所述计分信号定义了记录之间数据样本的差异而所述装入信号定义了记录的不同位置上的样本子组的相对变化。
2.如权利要求1所述的方法,其特征在于,提供了代表样本参考模式的参考分量信号数值组,并且在每个记录中用每个记录的多个分量变化信号数值表示输入信号,每个所述分量变化信号等于样本的参考模式与记录之间的差值。
3.如权利要求2所述的方法,其特征在于,每个记录包含相同数量的排列于多维列阵内的样本,第一个所述分量信号表示样本的大小而第二个所述分量信号表示样本在列阵中的位置。
4.如权利要求3所述的方法,其特征在于,分量变化信号可以使得参考图像的几个像素映射到其中一帧的共同像素上,共同像素的密度等于几个像素密度带权重的总和。
5.如权利要求1所述的方法,其特征在于,选择一组装入信号和一组计分信号组中至少一组信号用于每个分量信号以统计地表示所有记录内相应特性的变化。
6.如权利要求3所述的方法,其特征在于,选择因子的数量和精度从而使所需存储空间不超出预定的范围。
7.如权利要求3所述的方法,其特征在于,进一步提供多个对应分量信号的误差信号,所述每个误差信号在相应的分量信号不代表预定范围内输入信号的相应特征时提供一定程度的校正。
8.如权利要求7所述的方法,其特征在于,选择因子的数量和精度以获得低于预定阈值的误差信号。
9.如权利要求8所述的方法,其特征在于,选择因子的数量和精度从而使所需存储空间不超出预定的范围。
10.如权利要求1所述的方法,其特征在于,进一步提供多个对应分量信号的误差信号,所述每个误差信号在相应的分量信号不代表预定范围内输入信号的相应特征时提供一定程度的校正。
11.如权利要求10所述的方法,其特征在于,提供了代表样本参考模式的参考分量信号数值组,并且在每个记录中用每个记录的多个分量变化信号数值表示输入信号,每个所述分量变化信号等于样本的参考模式与记录之间的差值。
12.如权利要求1所述的方法,其特征在于,每个记录包含相同数量的排列于多维列阵内的样本,第一个所述分量信号表示样本的大小而第二个所述分量信号表示样本在列阵中的位置。
13.如权利要求12所述的方法,其特征在于,分量变化信号可以使得参考图像的几个像素映射到其中一帧的共同像素上,共同像素的密度等于几个像素密度带权重的总和。
14.如权利要求12所述的方法,其特征在于,输入信号是普通的视频信号,每个样本是视频图像的一个像素,每个记录是一幅视频帧,所述第一个分量信号代表像素密度而所述第二个分量信号代表像素在帧内的位置。
15.如权利要求14所述的方法,其特征在于,进一步提供多个对应分量信号的误差信号,所述每个误差信号在相应的分量信号不代表预定范围内输入信号的相应特征时提供一定程度的校正。
16.如权利要求15所述的方法,其特征在于,提供了代表样本参考模式的参考分量信号数值组,并且在每个记录中用每个记录的多个分量变化信号数值表示输入信号,每个所述分量变化信号等于样本的参考模式与记录之间的差值。
17.如权利要求16所述的方法,其特征在于,分量变化信号可以使得参考图像的几个像素映射到其中一帧的共同像素上,共同像素的密度等于几个像素密度带权重的总和。
18.如权利要求16所述的方法,其特征在于,分量变化信号可以使得参考图像的几个像素映射到其中一帧的共同像素上,共同像素的密度等于一个常数与几个像素的密度之和的差值。
19.如权利要求16所述的方法,其特征在于,分量变化信号可以使得参考图像的几个像素映射到其中一帧的共同像素上,所述方法进一步包括对几个像素的每一个都定义深度,共同像素的密度等于几个像素中深度最浅的那一个像素的密度。
20.如权利要求19所述的方法,其特征在于,像素深度定义为由第三分量信号表示的分开的域。
21.如权利要求16所述的方法,其特征在于,提供带有完全子(holon)集的参考图像,完全子集包含所有输入信号帧内看上去不同的各个完全子。
22.如权利要求21所述的方法,其特征在于,参考图像内像素的位置用第一坐标系表示,而至少其中一个完全子内像素的位置用不同的坐标系表示。
23.如权利要求21所述的方法,其特征在于,不同完全子内像素的位置用不同的坐标系表示。
24.如权利要求21所述的方法,其特征在于,完全子包含一组显示至少一个域上坐标方式的像素,并且至少有一个分量信号的装入信号和计分信号的至少一个只在所述像素组上操作。
25.用于权利要求2所述方法中的产生一组装入和计分的方法,其特征在于包含以下步骤:
a.将多个分量变化信号数值确定为每个记录与样本参考模式之间的差值;
b.在多个分量变化信号数值上进行主分量分析以提取多个装入;
c.将多个分量变化信号数值投射到多个装入上以产生一组用于产生逼近记录的多个装入的计分;
d.确定每个逼近记录与每个记录之间的差值;
e.重复步骤c和d直到每个逼近记录与每个记录之间的差值小于预定值。
26.用于权利要求25所述方法中的产生一组装入和计分信号的方法,其特征在于,主分量分析是一种带权重的主分量分析。
27.用于权利要求16所述方法中的产生一组装入和计分信号的方法,其特征在于进一步包括的步骤是,扩展该组参考分量信号以包含附加的分量信号。
28.一种用于将由不同域上多个分量信号组成的编码信号译码为由组织为多个样本记录的数据样本组成的输入信号的方法,每个样本占据记录中唯一的位置,所述方法的特征在于,所述编码信号表示为多个因子的组合,每个因子是计分信号与装入信号的乘积,所述计分信号定义了记录之间数据样本的差异而所述装入信号定义了记录的不同位置上的样本子组的相对变化,利用样本的参考模式,包含以下步骤:
a.将每个装入信号与有关的计分信号相乘以产生每个因子;
b.将步骤a产生的因子结合起来;
c.按照步骤b产生的组合因子修改参考分量信号数值组以产生复制的输入信号的记录。
29.如权利要求28所述的对编码信号译码的方法,其特征在于,在存储介质上至少提供装入信号和计分信号中的一个。
30.如权利要求28所述的对编码信号译码的方法,其特征在于,在存储介质上提供参考分量信号数值。
31.如权利要求28所述的对编码信号译码的方法,其特征在于,所述方法进一步包括的步骤是,经通信介质从远地位置接收装入信号和计分信号中的至少一个。
32.如权利要求31所述的方法,其特征在于,参考分量信号数值也经通信介质接收。
33.一种用于将由不同域上多个分量信号组成的编码信号编辑为由组织为多个样本记录的数据样本组成的输入信号的方法,每个样本占据记录中唯一的位置,所述方法的特征在于,所述编码信号表示为多个因子的组合,每个因子是计分信号与装入信号的乘积,所述计分信号定义了记录之间数据样本的差异而所述装入信号定义了记录的不同位置上的样本子组的相对变化,利用了样本的参考模式,包含以下步骤:
a.修改至少一个计分信号以进行所需的编辑;
b.将每个装入信号与相关的经过修改的计分信号相乘以产生每个因子;
c.将步骤a产生的因子组合起来;
d.按照步骤b产生的组合因子修改参考分量信号数值组以产生复制的输入信号的记录。
34.一种用于将输入信号的样本转换为由多个分量信号构成的编码信号的装置,每个所述分量信号都代表了所述输入信号在不同域上的特性,所述输入信号由组织成多个样本记录形式的数据样本组成,每个样本在其记录中占据唯一的位置,其特征在于,所述装置包含将每个记录编码为一种组合形式的装置,每个分量信号由多个因子组成,每个所述因子是计分信号与装入信号的乘积,所述计分信号定义了记录之间数据样本的差异而所述装入信号定义了记录的不同位置上的样本子组的相对变化。
35.如权利要求34所述的装置,其特征在于进一步包含用于产生代表样本参考模式的一组参考分量信号数值的装置、用于向每个记录产生多个代表输入信号的分量变化信号数值的装置,每个所述分量变化信号等于样本的参考模式与记录之间的差值。
36.如权利要求35所述的装置,其特征在于,每个记录包含相同数量的排列于多维列阵内的样本,第一个所述分量信号表示样本的大小而第二个所述分量信号表示样本在列阵中的位置。
37.如权利要求36所述的装置,其特征在于,分量变化信号可以使得参考图像的几个像素映射到其中一帧的共同像素上,所述装置进一步包含用于使共同像素的密度等于几个像素密度带权重的总和的装置。
38.如权利要求36所述的装置,其特征在于进一步包含用于提供多个对应分量信号的误差信号的装置,所述每个误差信号在相应的分量信号不代表预定范围内输入信号的相应特征时提供一定程度的校正。
39.如权利要求34所述的装置,其特征在于进一步包含用于提供多个对应分量信号的误差信号的装置,所述每个误差信号在相应的分量信号不代表预定范围内输入信号的相应特征时提供一定程度的校正。
40.如权利要求34所述的装置,其特征在于进一步包含用于产生代表样本参考模式的一组参考分量信号数值的装置、用于向每个记录产生多个代表输入信号的分量变化信号数值的装置,每个所述分量变化信号等于样本的参考模式与记录之间的差值。
41.如权利要求34所述的装置,其特征在于,每个记录包含相同数量的排列于多维列阵内的样本,所述用于编码的装置使第一个所述分量信号表示样本的大小而第二个所述分量信号表示样本在列阵中的位置。
42.如权利要求41所述的装置,其特征在于,输入信号是普通的视频信号,每个样本是视频图像的一个像素,每个记录是一幅视频帧,所述第一个分量信号代表像素密度而所述第二个分量信号代表像素在帧内的位置。
43.如权利要求42所述的装置,其特征在于进一步包含用于产生代表样本参考模式的一组参考分量信号数值的装置、用于向每个记录产生多个代表输入信号的分量变化信号数值的装置,每个所述分量变化信号等于样本的参考模式与记录之间的差值。
44.如权利要求43所述的装置,其特征在于,分量变化信号可以使得参考图像的几个像素映射到其中一帧的共同像素上,共同像素的密度等于几个像素密度带权重的总和。
45.如权利要求43所述的装置,其特征在于,分量变化信号可以使得参考图像的几个像素映射到其中一帧的共同像素上,所述装置进一步包括用于控制共同像素的密度使其等于一个常数与几个像素的密度之和的差值。
46.如权利要求43所述的装置,其特征在于,分量变化信号可以使得参考图像的几个像素映射到其中一帧的共同像素上,所述装置进一步包括用于对几个像素的每一个都定义深度的装置和用于控制共同像素的密度使其等于几个像素中深度最浅的那一个像素的密度的装置。
47.如权利要求43所述的装置,其特征在于,参考图像包括一个完全子集,完全子集包含所有输入信号帧内看上去不同的各个完全子。
48.如权利要求47所述的装置,其特征在于,完全子包含一组显示至少一个域上坐标方式的像素,并且所述用于编码的装置产生只在所述像素组上操作的至少一个分量信号的装入信号和计分信号中的至少一个。
49.一种用于将由不同域上多个分量信号组成的编码信号译码为由组织为多个样本记录的数据样本组成的输入信号的装置,每个样本占据记录中唯一的位置,所述装置的特征在于,所述编码信号表示为多个因子的组合,每个因子是计分信号与装入信号的乘积,所述计分信号定义了记录之间数据样本的差异而所述装入信号定义了记录的不同位置上的样本子组的相对变化,利用样本的参考模式,包含:
a.用于将每个装入信号与有关的计分信号相乘以产生每个因子的装置;
b.用于将步骤a产生的因子结合起来的装置;
c.用于按照步骤b产生的组合因子修改参考分量信号数值组以产生复制的输入信号的记录的装置。
50.如权利要求49所述的装置,其特征在于包括存储装入信号和计分信号中至少一个的存储介质。
51.如权利要求49所述的装置,其特征在于,所述存储介质还包含参考分量信号数值。
52.如权利要求49所述的装置,其特征在于进一步包含用于经通信介质从远地位置接收装入信号和计分信号中的至少一个的装置。
53.如权利要求52所述的装置,其特征在于,所述参考分量信号数值也经通信介质接收。
54.一种用于将由不同域上多个分量信号组成的编码信号编辑为由组织为多个样本记录的数据样本组成的输入信号的装置,每个样本占据记录中唯一的位置,所述装置的特征在于,所述编码信号表示为多个因子的组合,每个因子是计分信号与装入信号的乘积,所述计分信号定义了记录之间数据样本的差异而所述装入信号定义了记录的不同位置上的样本子组的相对变化,利用样本的参考模式,包含:
a.用于修改至少一个计分信号以完成所需编辑的装置;
b.用于将每个装入信号与相关的经过修改的计分信号相乘以产生每个因子的装置;
c.用于将步骤a产生的因子组合起来的装置;
d.用于按照步骤b产生的组合因子修改参考分量信号数值组以产生复制的输入信号的记录的装置。
55.一种系统,其特征在于,包含读取装置和包含数据并且适合于按照权利要求28—32中任意一项所述方法译码的数据携带器。
56.一种系统,其特征在于,包含记录装置和包含由按照权利要求1-28中任意一项所述方法产生的编码信号的数据携带器。
57.一种系统,其特征在于,包含读取装置和包含数据并且适合于按照权利要求49—53中任意一种所述装置译码的数据携带器。
58.一种系统,其特征在于,包含记录装置和包含由按照权利要求34—48中任意一种所述装置产生的编码信号的数据携带器。
59.一种包含记录装置、数据携带器和读取装置的系统,其特征在于,数据携带器包含由按照权利要求1—28中任意一项所述方法产生并适合于按照权利要求28—32中任意一种所述方法译码的编码信号。
60.一种包含记录装置、数据携带器和读取装置的系统,其特征在于,数据携带器包含由按照权利要求34—48中任意一种所述装置产生并适合于按照权利要求49—53中任意一种所述装置读取的编码信号。
61.一种包含记录于其上并适合于按照权利要求28—32中任意一种所述方法译码的数据携带器。
62.一种包含由按照权利要求1—28中任意一项所述方法产生的编码信号的数据携带器。
63.一种产生包含由按照权利要求1—28中任意一项所述方法产生的编码信号的发送信号的装置。
64.由按照权利要求1—28中任意一项所述方法产生的编码信号提供于存储介质和发送介质其中一个之上。
CN94193325A 1993-09-08 1994-09-08 数据分析方法及其装置 Pending CN1130969A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NO933205 1993-09-08
NO933205A NO933205D0 (no) 1993-09-08 1993-09-08 System for representasjon av data

Publications (1)

Publication Number Publication Date
CN1130969A true CN1130969A (zh) 1996-09-11

Family

ID=19896406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN94193325A Pending CN1130969A (zh) 1993-09-08 1994-09-08 数据分析方法及其装置

Country Status (10)

Country Link
EP (1) EP0748562A4 (zh)
JP (1) JPH09502586A (zh)
CN (1) CN1130969A (zh)
AP (1) AP504A (zh)
AU (1) AU693117B2 (zh)
CA (1) CA2171293A1 (zh)
NO (1) NO933205D0 (zh)
OA (1) OA10269A (zh)
WO (1) WO1995008240A2 (zh)
ZA (1) ZA946904B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102783966A (zh) * 2011-05-03 2012-11-21 通用电气公司 用于运动校正的医学图像的方法和器件
CN104794358A (zh) * 2015-04-30 2015-07-22 无锡悟莘科技有限公司 一种用于振弦式采集支点频率的参数估计与拟合方法
CN109064445A (zh) * 2018-06-28 2018-12-21 中国农业科学院特产研究所 一种动物的数量统计方法和系统、存储介质
CN111542819A (zh) * 2017-09-26 2020-08-14 地质探索系统公司 用于改进的地下数据处理系统的装置和方法
CN112906650A (zh) * 2021-03-24 2021-06-04 百度在线网络技术(北京)有限公司 教学视频的智能处理方法、装置、设备和存储介质
CN111542819B (zh) * 2017-09-26 2024-05-31 地质探索系统公司 用于改进的地下数据处理系统的装置和方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO942080D0 (no) * 1994-06-03 1994-06-03 Int Digital Tech Inc Bildekoder
EP0815536A1 (en) * 1995-03-22 1998-01-07 IDT INTERNATIONAL DIGITAL TECHNOLOGIES DEUTSCHLAND GmbH Method and apparatus for coordination of motion determination over multiple frames
WO1999007157A1 (en) * 1997-07-28 1999-02-11 Idt International Digital Technologies Deutschland Gmbh Method and apparatus for compressing video sequences
JP4224748B2 (ja) * 1999-09-13 2009-02-18 ソニー株式会社 画像符号化装置および画像符号化方法、画像復号装置および画像復号方法、記録媒体、並びに画像処理装置
CN102360214B (zh) * 2011-09-02 2013-03-06 哈尔滨工程大学 一种基于萤火虫算法的舰船路径规划方法
EP3991112A4 (en) * 2019-06-29 2023-07-05 Phadke, Sameer SYSTEM AND METHOD FOR MODELING AND MONITORING PROCESSES IN ORGANIZATIONS USING DIGITAL TWINS
CN111913866A (zh) * 2020-08-19 2020-11-10 上海繁易信息科技股份有限公司 实时监测设备模型数据异常的方法和电子设备
US11842429B2 (en) 2021-11-12 2023-12-12 Rockwell Collins, Inc. System and method for machine code subroutine creation and execution with indeterminate addresses
US11915389B2 (en) 2021-11-12 2024-02-27 Rockwell Collins, Inc. System and method for recreating image with repeating patterns of graphical image file to reduce storage space
US11887222B2 (en) 2021-11-12 2024-01-30 Rockwell Collins, Inc. Conversion of filled areas to run length encoded vectors
US11954770B2 (en) 2021-11-12 2024-04-09 Rockwell Collins, Inc. System and method for recreating graphical image using character recognition to reduce storage space

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4394774A (en) * 1978-12-15 1983-07-19 Compression Labs, Inc. Digital video compression system and methods utilizing scene adaptive coding with rate buffer feedback
US4717956A (en) * 1985-08-20 1988-01-05 North Carolina State University Image-sequence compression using a motion-compensation technique
US4786967A (en) * 1986-08-20 1988-11-22 Smith Engineering Interactive video apparatus with audio and video branching
US5136659A (en) * 1987-06-30 1992-08-04 Kokusai Denshin Denwa Kabushiki Kaisha Intelligent coding system for picture signal
US5150432A (en) * 1990-03-26 1992-09-22 Kabushiki Kaisha Toshiba Apparatus for encoding/decoding video signals to improve quality of a specific region
EP0449478A3 (en) * 1990-03-29 1992-11-25 Microtime Inc. 3d video special effects system
WO1992002000A1 (en) * 1990-07-17 1992-02-06 British Telecommunications Public Limited Company A method of processing an image
EP0526064B1 (en) * 1991-08-02 1997-09-10 The Grass Valley Group, Inc. Video editing system operator interface for visualization and interactive control of video material
US5392072A (en) * 1992-10-23 1995-02-21 International Business Machines Inc. Hybrid video compression system and method capable of software-only decompression in selected multimedia systems

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102783966A (zh) * 2011-05-03 2012-11-21 通用电气公司 用于运动校正的医学图像的方法和器件
CN102783966B (zh) * 2011-05-03 2015-11-25 通用电气公司 用于运动校正的医学图像的方法和器件
CN104794358A (zh) * 2015-04-30 2015-07-22 无锡悟莘科技有限公司 一种用于振弦式采集支点频率的参数估计与拟合方法
CN111542819A (zh) * 2017-09-26 2020-08-14 地质探索系统公司 用于改进的地下数据处理系统的装置和方法
CN111542819B (zh) * 2017-09-26 2024-05-31 地质探索系统公司 用于改进的地下数据处理系统的装置和方法
CN109064445A (zh) * 2018-06-28 2018-12-21 中国农业科学院特产研究所 一种动物的数量统计方法和系统、存储介质
CN109064445B (zh) * 2018-06-28 2022-01-04 中国农业科学院特产研究所 一种动物的数量统计方法和系统、存储介质
CN112906650A (zh) * 2021-03-24 2021-06-04 百度在线网络技术(北京)有限公司 教学视频的智能处理方法、装置、设备和存储介质
CN112906650B (zh) * 2021-03-24 2023-08-15 百度在线网络技术(北京)有限公司 教学视频的智能处理方法、装置、设备和存储介质

Also Published As

Publication number Publication date
NO933205D0 (no) 1993-09-08
AP9400673A0 (en) 1994-10-31
WO1995008240A3 (en) 1995-05-11
JPH09502586A (ja) 1997-03-11
CA2171293A1 (en) 1995-03-23
AP504A (en) 1996-07-01
OA10269A (en) 1997-10-07
ZA946904B (en) 1995-05-11
WO1995008240A2 (en) 1995-03-23
AU7871794A (en) 1995-04-03
AU693117B2 (en) 1998-06-25
EP0748562A1 (en) 1996-12-18
EP0748562A4 (en) 1998-10-21

Similar Documents

Publication Publication Date Title
CN1130969A (zh) 数据分析方法及其装置
CN1261912C (zh) 基于深度图像表示三维物体的装置和方法
CN1218282C (zh) 用深度图像表示三维物体的节点结构
CN1271568C (zh) 信息变换系统
CN1194318C (zh) 物体区域信息记述方法和物体区域信息生成装置
CN1790421A (zh) 基于深度图像表示三维物体的装置和方法
CN1139256C (zh) 图像编码装置及图像解码装置
CN1149952A (zh) 解码视频图像的装置和方法
CN1145123C (zh) 视频信息智能管理系统
KR20220127323A (ko) 슬라이스별 트리수프 노드 크기
CN1320490C (zh) 脸部检测及跟踪
CN1175670C (zh) 图像信号转换方法和设备以及图像提供系统
CN1627315A (zh) 目标检测
CN101061489A (zh) 用来处理视频数据的装置和方法
CN100348050C (zh) 目标检测
CN1857001A (zh) 混合视频压缩方法
CN1280709C (zh) 退色补偿的参数化
CN106331703A (zh) 视频编码和解码方法、视频编码和解码装置
CN1194047A (zh) 在多帧幅上协调确定移动的方法和设备
CN101036150A (zh) 用来处理视频数据的装置和方法
CN1744657A (zh) 多分辨率分割和填充
CN1419679A (zh) 估计文本颜色和图像的分割
CN102726044A (zh) 使用基于示例的超分辨率的用于视频压缩的数据剪切
CN1418354A (zh) 通用的图像中的文本定位
JP2008522506A (ja) ビデオ符号化における時間予測

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication