CN101310534A - 使用随机域模型改进图片和视频压缩以及帧速率上转换的方法和设备 - Google Patents
使用随机域模型改进图片和视频压缩以及帧速率上转换的方法和设备 Download PDFInfo
- Publication number
- CN101310534A CN101310534A CN 200680042829 CN200680042829A CN101310534A CN 101310534 A CN101310534 A CN 101310534A CN 200680042829 CN200680042829 CN 200680042829 CN 200680042829 A CN200680042829 A CN 200680042829A CN 101310534 A CN101310534 A CN 101310534A
- Authority
- CN
- China
- Prior art keywords
- subregions
- data
- assignment
- algorithm
- interpolation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种用于处理多媒体数据的方法和设备,其包括将数据分段为多个分区,将所述多个分区中的每一者指配给包括第一种类和第二种类的多个种类中的一者,使用算法对指配给所述第一种类的所述多个分区进行编码,且使用纹理模型对指配给所述第二种类的所述多个分区进行编码。一种用于处理多媒体数据的方法和设备,其包括使用算法对属于第一种类的多个第一分区进行解码,使用纹理模型对属于第二种类的多个第二分区进行解码,以及使用边界信息、所述多个第一分区和所述多个第二分区创建多媒体数据。
Description
在35 U.S.C.§119下主张优先权
本专利申请案主张2005年9月27日申请的题为“EA-FRUC IDF DRAFT DOCUMENTREGARDING THE USE OF MARKOV RANDOM FIELD MODELS”的第60/721,374号临时申请案以及2006年2月10日申请的题为“SYSTEM AND METHOD FOR USINGRANDOM FIELD MODELS TO IMPROVE PICTURE AND VIDEO COMPRESSION ANDFRAME RATE UP CONVERSION”的第60/772,158号临时申请案的优先权,且所述两个临时申请案转让给本发明的受让人,且因此特意以引用的方式并入本文中。
技术领域
本发明涉及图片和视频压缩。更明确地说,本发明涉及使用随机域模型来改进图片和视频压缩以及帧速率上转换的方法和设备。
背景技术
数字产品和服务(例如,数码相机、数字录像机、卫星广播数字电视(DTV)服务和视频流)正变得日益普及。由于数字数据/信息存储容量和共享的传输带宽存在限制,出现了对压缩数字图片和视频帧的较大需要以便高效地存储且传输数字图片和视频帧。出于这些原因,已经研发出许多针对数字图片和数字视频信号的编码和解码的标准。举例来说,国际电信联盟(ITU)已经公布了针对数字视频编码的H.261、H.262、H.263和H.264标准。而且,国际标准组织(ISO)通过其专家研究组运动图像专家组(Motion PictureExperts Group,)已经公布了针对数字视频编码的标准MPEG-1、MPEG-2和MPEG-4的与视频压缩有关的部分。举例来说,MPEG-2视频目前是用于经由卫星、地面或电缆传输链路的数字电视广播的标准编码技术。在数字图片压缩的领域中,在ISO与ITU之间联合建立的联合照片专家群(Joint Photographic Experts Group,JPEG)已经公布了JPEG和JPEG 2000标准。
这些标准规定经编码的数字视频信号的语法和如何解码这些信号以用于演示或回放。然而,这些标准允许各种的不同技术(例如,算法或压缩工具)以灵活的方式用于将数字视频信号从未经压缩格式变换成经压缩或经编码的格式。因此,目前可使用许多不同的数字视频信号编码器。这些数字视频信号编码器能够在质量等级变化的情况下实现变化程度的压缩。由当代标准提供且由当前编码器使用的压缩技术最适合于非无纹理对象和图像的压缩。
然而,图片和视频帧通常包含在许多标度上显示出大量细节的有纹理的可视对象和区域。这些对象的实例包含草、花、叶、水等。结合在照明条件的微小变化和/或少量的运动(即,位置变化),尽管所述对象的较高等级的效果保持不变,但其精确的细节改变。可将这些对象中的每一者称为纹理,可将纹理视为随机(可能是周期性的)二维像素域(例如,图片或视频帧的一部分),其展示较小空间邻域(例如,几个像素内)中亮度(Y)和/或颜色(U,V)方面的快速变化。上述压缩算法在压缩纹理方面的效率不是非常高。
由于这些原因以及其它原因,需要用于高效地压缩包含纹理的可视对象和区域的方法和系统。
发明内容
一种处理多媒体数据的方法包括将数据分段为多个分区,将所述多个分区中的每一者指配给包括第一种类和第二种类的多个种类中的一者,使用算法来对指配给所述第一种类的所述多个分区进行编码,且使用纹理模型来对指配给所述第二种类的所述多个分区进行编码。
一种用于处理多媒体数据的设备包括:分段模块,其经配置以将数据分段为多个分区;指配模块,其经配置以将所述多个分区中的每一者指配给包括第一种类和第二种类的多个种类中的一者;以及编码器,其经配置以使用算法来对指配给所述第一种类的所述多个分区进行编码,且使用纹理模型来对指配给所述第二种类的所述多个分区进行编码。
一种处理多媒体数据的方法包括使用算法来对属于第一种类的多个第一分区进行解码,使用纹理模型来对属于第二种类的多个第二分区进行解码,以及使用边界信息、所述多个第一分区和所述多个第二分区来创建多媒体数据。
一种用于处理多媒体数据的设备包括:解码器,其经配置以使用算法来对属于第一种类的多个第一分区进行解码,且使用纹理模型来对属于第二种类的多个第二分区进行解码;以及产生模块,其经配置以使用边界信息、所述多个第一分区和所述多个第二分区来创建多媒体数据。
附图说明
当结合附图考虑时,从下文所陈述的具体实施方式将更明白本发明的特征、目标和优势。
图1是根据本发明实施例的用于传输和接收图片和视频帧的系统的框图;
图2是根据本发明实施例的用于传输和接收图片和视频帧的系统的框图;
图3是说明根据本发明实施例的对图片和视频帧进行编码的方法的流程图;
图4A、图4B和图4C是根据本发明如果干实施例的用于定义马尔可夫随机域(Markov Random Fields)的8连接邻域、4连接邻域和间接邻域的实例;
图5是说明根据本发明如果干实施例的MRF模型的四种不同实现的图片,其中每个实现包含一个不同的邻域定义;
图6是说明根据本发明实施例的对图片和视频帧进行解码的方法的流程图;
图7是根据本发明实施例的用于处理多媒体数据的设备的框图;
图8是根据本发明实施例的用于处理多媒体数据的设备的框图;
图9是说明用于处理多媒体数据的设备的装置的示范性组件的框图;以及
图10是说明用于处理多媒体数据的设备的装置的示范性组件的框图。
具体实施方式
现将参看图式来描述实施实施本发明的多个特征的实施例的方法和系统。提供图式和相关描述以便说明本发明的实施例而非限制本发明的范围。本说明书中所提到的“一个实施例”或“一实施例”意在指示结合所述实施例而描述的特定特征、结构或特性包含在本发明的至少一实施例中。本说明书中多处出现的词组“在一个实施例中”或“一实施例”未必都指代同一实施例。在全部图式中,重复使用参考数字来指示所参考元件之间的对应。此外,每个参考数字的第一数位指示所述元件首次出现的图。
图1是用于传输和接收视频数据(例如,图片和视频帧)的系统100的框图。还可使用系统100来对图片和视频帧进行编码(例如,压缩)和解码(例如,解压缩)。系统100可包含服务器102、装置104和将服务器102连接到装置104的通信信道106。系统100是用以说明下文所描述的用于对图片和视频帧进行编码和解码的方法的示范性系统。可以硬件、软件及其组合的形式来实施系统100。所属领域的技术人员将了解,可使用其它系统来代替系统100,同时仍维持本发明的精神和范围。
服务器102可包含处理器108、存储器110、编码器112和I/O装置114(例如,收发器)。服务器102可包含一个或一个以上处理器108、一个或一个以上存储器110、一个或一个以上编码器112和一个或一个以上I/O设备114(例如,收发器)。处理器108和/或编码器112可经配置以接收图片和呈一连串视频帧形式的视频数据。处理器108和/或编码器112可将所述图片和所述一连串视频帧传输到存储器110,以便存储且/或可压缩所述图片和所述一连串视频帧。存储器110还可存储由处理器108和/或编码器112使用的计算机指令,以便控制服务器102的运作和功能。使用从存储器110接收的计算机指令,编码器112可经配置以执行所述一连串视频帧的并行和串行处理(例如,压缩)。可如下文的方法中所描述那样实施所述计算机指令。一旦对所述一连串帧进行编码,就可将经编码的数据发送到I/O装置114,以便经由通信信道106传输到装置104。
装置104可包含处理器116、存储器118、解码器120、I/O设备122(例如,收发器)和显示装置或屏幕124。装置104可包含一个或一个以上处理器116、一个或一个以上存储器118、一个或一个以上解码器120、一个或一个以上I/O装置122(例如,收发器)和一个或一个以上显示装置或屏幕124。装置104可以是计算机、数字录像机、手持式装置(例如,手机、黑莓(Blackberry)等)、机顶盒、电视机以及能够接收、处理(例如,解压缩)和/或显示一连串视频帧的其它装置。I/O装置122接收经编码的数据,且将经编码的数据发送到存储器118和/或发送到解码器120以进行解压缩。解码器120经配置以使用经编码的数据来再现所述图片和/或所述一连串视频帧。一旦经解码,所述图片和/或所述一连串视频帧就可存储在存储器118中。使用从存储器118检索到的计算机指令,解码器120可经配置以执行经编码数据的并行和串行处理(例如,解压缩),以再现所述图片和/或所述一连串视频帧。可如下文的方法中所描述那样实施所述计算机指令。处理器116可经配置以从存储器118和/或解码器120接收所述图片和/或所述一连串视频帧,且在显示装置124上显示所述图片和/或所述一连串视频帧。存储器118还可存储由处理器116和/或解码器120使用的计算机指令,以便控制装置104的运作和功能。
可使用通信信道106来在服务器102与装置104之间传输经编码的数据。通信信道106可以是有线网络和/或无线网络。举例来说,通信信道106可包含因特网、同轴电缆、光纤线路、卫星链路、地面链路、无线链路以及能够传播信号的其它媒体。
图2是用于传输和接收图片和视频帧的系统200的框图。还可使用系统200来对图片和视频帧进行编码(例如,压缩)和解码(例如,解压缩)。系统200可包含接收模块202、分段模块204、指配模块206、第一编码模块208、第二编码模块210和传输模块212。图2所示的模块可以是图1所示装置中的一者或一者以上的一部分。举例来说,接收模块202和传输模块212可以是I/O设备114和122的一部分。而且,分段模块204、指配模块206、第一编码模块208和第二编码模块210可以是编码器112的一部分。系统200是用以说明下文描述的用于对图片和视频帧进行编码和解码的方法的示范性系统。可以硬件、软件及其组合的形式来实施系统200。所属领域的技术人员将了解,可使用其它系统来代替系统200,同时仍维持本发明的精神和范围。
图3是说明对多媒体数据(例如,音频、视频、图像等)进行编码的方法300的流程图。视频大体由许多个视频帧组成,且每个图片和视频帧由许多个像素组成。每个像素可由许多个位(例如,24个位)表示,其中(例如)8个位表示红色分量,8个位表示绿色分量且8个位表示蓝色分量。用来表示每个图片和/或视频帧的像素的数目视所述图片和/或视频帧的分辨率(例如,高清晰度)而定。用来表示每个像素的位的数目视所述图片或视频帧的保真度(例如,高保真度)而定。用来表示一个或一个以上图片或视频帧的位的完整集合可被称为源数据位。出于本发明的目的,术语“视频帧”可用来描述图片和/或视频的帧。
编码器112接收源数据位(步骤302),并使源数据从第一色彩空间(例如,RGB)转换到第二色彩空间(例如,YUV或YCbCr)(步骤304)。色彩空间大体由三个颜色分量组成。此项技术中存在用以执行从第一色彩空间到第二色彩空间的转换的若干色彩空间、色彩空间转换算法和矩阵。色彩空间转换矩阵的实例是:
从第一色彩空间到第二色彩空间的转换允许源数据位呈较好的形式以供压缩。
编码器112可分析源数据以确定相邻视频帧之间存在相似性还是冗余性(步骤306)。编码器112通常针对相似性或冗余性而将视频帧(有时被称为中间视频帧)与其先前的和随后的视频帧进行比较。举例来说,针对相似性可将帧3与帧2和帧4进行比较。视相似性、冗余性和/或解码器120的能力而定,编码器112可对源数据位执行帧速率上转换(FRUC)或编码器辅助的帧速率上转换(EA-FRUC)处理。
编码器112可计算或产生相似性值(S),以确定相邻帧之间的相似性。可使用(例如)源数据的像素的Y分量来计算所述相似性值。所述相似性值可表示为S(Y2,Y3,Y4),其中Y2是属于先前帧的像素(亮度/光度)值的矩阵,Y3是属于中间或目标帧的像素(亮度/光度)值的矩阵,且Y4是属于随后帧的像素(亮度/光度)值的矩阵。产生相似性值的方法的一个实例是使用绝对差值和(SAD)算法。产生相似性值的方法的另一实例是使用经运动补偿的SAD(MCSAD)算法。
相似性量度S(.)可将一个以上先前帧(例如{...,Y-1,Y0,Y1,Y2})考虑在内,且同样可将一个以上随后帧(例如{Y4,Y5,Y6,...})考虑在内。所述多帧分析(尤其在因果方向上)更符合现有工艺水平的视频压缩技术,且可改进时间分段性能和准确度。
相似性量度S(.)可将色彩空间维度(视频信号相对于其而表示)中的一者或一者以上或全部考虑在内。所述多维度分析可改进时间分段性能和准确度。
相似性量度S(.)可返回值为标量或向量的相似性测量。值为向量的相似性测量可具有多个标量分量。举例来说,在一个实施例中,这些标量分量中的每一者可反映不同帧对之间的相似性值,帧对中的一者通常是当前帧(中间或目标帧),且另一者是来自先前邻域的列表或随后邻域的列表的帧。在一个实施例中,值为向量的相似性测量的多个标量分量可反映相对于不同色彩空间维度而计算出的相似性值。
可由编码器112处理相似性量度值序列。编码器112可将值序列输入到分析模块中。所述分析模块可以是处理器108和/或编码器112的一部分。所述分析模块一般可利用具有时变大小的非因果窗口来处理所提供的相似性量度值的子集或全部,从而针对每个帧作出(1)时间分段决策,例如是否场景改变/镜头边界,或(2)编码模式决策,例如规则编码,或编码器辅助的帧内插(EA_FRUC),或跳过(仅解码器帧内插,FRUC),或(3)时间分段决策和编码模式决策两者。
分析模块可利用感知模型(人类视觉系统模型)。分析模块还可使用递归分析技术,意味着系统具有其中当前状态是到达分析模块的先前输入的历史的函数的存储器。分析模块还可使用迭代分析技术,意味着每个新帧的决策未必是最终的,而是可基于对相似性量度演变的新的或经更新的理解稍后再次进行再访和更新。分析模块还可对输入到其中的相似性量度值应用滤波或其它映射。在一个实施例中,分析模块可将相似性量度值映射到一些不相似性测量。
在一个实施例中,编码器112可将相似性值与一个或一个以上阈值进行比较(步骤308)。如果相似性值小于第一阈值(T1),那么相邻帧是不相似的(转到步骤310)。使用上述实例,帧3与帧2或帧4或帧2和帧4两者是不相似的。如果相似性值等于或大于第一阈值(T1)且小于第二阈值(T2),那么相邻帧是相似的(转到步骤312)。使用上述实例,帧3与帧2和帧4是相似的。如果相似性值等于或大于所述第二阈值(T2),那么相邻帧是非常相似的(转到步骤314)。使用上述实例,帧3与帧2和帧4是非常相似的。编码器112记住视频帧的排序或序列的一种方式是在每个视频帧上放置时间戳或帧编号。
在一个实施例中,编码器112可对相似性量度值的序列(向量)使用静态或动态(自适应)概率模型,以将分析任务制定为形式假设测试问题。这允许针对时间分段或编码模式作出最佳(在统计意义上)决策。编码器112所利用的分析模块相对于其决策输出的性质,可基于多值(模糊)逻辑原理而不是共用布尔逻辑(common Boolean logic)。这允许复杂(在时间和空间上)视频帧动态特性的更高保真度的信息保存和更准确的表示。
在步骤310,编码器112使帧计数器递增1,以移动到下一个帧。使用上述实例,中间帧变成帧4。
在步骤312,编码器112执行EA-FRUC。对于EA-FRUC,编码器112知道解码器120处所运行的帧内插算法。当相邻视频帧是相似的时,编码器112针对目标帧(即,中间帧)产生辅助信息或者从目标帧检索辅助信息,而不是发送来自相邻视频帧的重复数据(步骤312)。所述辅助信息增强了解码器120所执行的内插过程的质量且/或降低了所述内插过程的计算复杂性。有了所述辅助信息,编码器112无需发送用于整个目标帧的数据,而是需要将所述辅助信息发送到解码器120以便重构目标帧。因此,辅助信息允许解码器120用最少的数据(即,使用辅助信息)来重新创建目标视频帧。
在步骤314时,编码器112执行FRUC触发帧丢弃操作。FRUC允许装置104处部分或整个视频帧的内插。当相邻视频帧非常相似时,编码器112废除或移除目标帧使其不能被发送到解码器120,而不是发送来自相邻视频帧的重复/冗余数据(步骤314)。FRUC可用于不同目的,例如通过完全避免传输用于视频帧的选定子集的任何数据(当这是可行的时)来增加压缩效率,或当用于视频帧的扩展部分或用于整个视频帧的经压缩数据由于信道损害而丢失时的错误消除。在任一种情况下,装置104使用其本地资源和来自其它已接收到的帧的可用信息,来内插(部分地或完全地)缺失的视频帧。有了FRUC,装置104接收不到用于待内插的视频帧的扩充/辅助数据。通常对所有的视频帧执行针对EA-FRUC和FRUC的分类处理(步骤310和步骤316)。
编码器112基于一个或一个以上像素域属性(例如,一个或一个以上彩色信道)或变换域属性(例如,基于预界定的次能带中的DC系数值和AC系数功率的区块分类),对视频帧执行场景分析,以在时间上或空间上对所述视频帧进行分段,且识别所述视频帧上的可被准确地描述为纹理的区域(步骤318)。如果第二色彩空间(步骤304)是YUV,那么一个彩色信道优选为Y。编码器112可基于至少一个彩色信道(即,色彩空间分量)来将源数据分段成若干分区或区域。每个分区或区域可具有任意、随机或特定大小(例如,n×n像素或m×n像素,其中m和n是整数),或任意、随机或特定形状(例如,云状或正方形形状)。每个分区或区域可具有不同的任意、随机或特定大小和/或形状。
编码器112可采用特征向量,其包含源数据的变换域属性,例如8×8像素区块的从离散余弦变换(DCT)得出的DC系数值,以及预界定的次能带内,即从同一8×8像素块的同一(DCT)变换得出的AC系数的预界定子集内的总信号功率。这些次能带可(例如)对应于纯水平频率(即,垂直边缘)、纯垂直频率(即,水平边缘、倾斜边缘)和更多类似纹理的空间频率图案。编码器可计算/产生源数据中的每个8×8像素区块的特征向量,且在特征空间中使用数据群集算法来将每个8×8像素区块分类成许多分区或区域中的一者。
可使用若干不同分段算法(例如,空间的和/或时间的)来对源数据进行分段。可针对图片和视频帧使用空间分段,且还可针对视频帧使用时间分段。如果针对视频帧使用空间分段和时间分段两者,那么通常在时间分段之前执行空间分段,因为空间分段的结果可用作时间分段的提示。
空间分段涉及将图片或视频帧划分成许多分区。在空间分段中,一个分区不会与另一个分区重叠;然而,所有分区的联合覆盖整个图片或视频帧。在一个实施例中,分段涉及将图片和视频帧划分成许多具有任意形状和大小的分区。此项技术中存在将图片或视频帧划分成许多具有任意形状和大小的分区的若干空间分段算法,例如C.Pantofaru和M.Hebert的“A Comparison of Image Segmentation Algorithms”(卡内基·梅隆大学,机器人学研究院,第CMU-RI-TR-05-40号技术报告,2005年9月)中所描述的那些空间分段算法。而且,区域生长是一种已知的空间分段算法。在另一实施例中,分段可涉及将图片或视频帧划分成许多具有正方形形状但具有任意大小的分区。举例来说,图像处理技术中众所周知的四叉树分区算法是实现上述目的的一种方法。
时间分段涉及使一个或一个以上视频帧相关联或分组在一起。可使用若干不同时间分段算法(例如,场景改变检测和镜头边界检测)来在时间上对视频帧进行分段。场景改变检测涉及将作为同一场景的部分的所有视频帧分组在一起。一旦所述场景(例如,包含特定赛事的视频帧)改变,视频帧的下一分组(即,下一场景)就开始。镜头边界检测涉及将作为同一镜头的部分的视频帧分组在一起。一旦镜头(例如,包含特定人物的视频帧)改变,视频帧的下一分组(即,下一镜头)就开始。环境确定场景,且内容确定镜头。
可利用分段方案(例如,基于三维随机域/纹理模型的那些方案)来同时实现空间分段和时间分段两者。
支持对具有正方形或矩形形状且均匀大小的分区进行编码的压缩算法通常利用区块变换编码工具(例如,8×8离散余弦变换(DCT)算法)和基于区块的经运动补偿的时间预测(MCTP)算法(例如,MPEG-4视频压缩算法)。对于可视数据的空间压缩来说,8×8 DCT算法的使用已经普及。8×8 DCT算法可展示为近似卡亨南-洛维变换(Karhunen-Loève Transform,KLT),对于缓慢变化(例如,低细节)可视数据来说,KLT在均方差意义上是最佳线性变换;然而,对于图片或视频帧的涉及纹理的区域来说,KLT并非十分有效。可将纹理描述为在多个标度/分辨率上显示出大量细节/变化的可视对象。以宏区块大小(例如,16×16)使用MCTP算法对于刚性体或经历平移运动的对象来说是有效的。然而,对于非刚性体(变形体)或经历非平移运动的对象(例如,运动中的纹理,例如草、花地或带叶的树枝)来说这些算法是不够的,因为其变形和非平移运动使得难以从一个帧到另一个帧地对特征进行匹配。而且,纹理细节和边界通常并不以矩形形状形成。因此,这些压缩工具是普及的,但在压缩纹理方面不是十分有效。
在编码器112将源数据分段成许多分区之后,将所述分区中的每一者分类成许多种类中的一种(步骤320)。在一个实施例中,种类的数目是2,其包含第一种类,例如混合(即,基于变换编码和MCTP的)编码种类,和第二种类,例如纹理编码种类。所述分类可基于每个特定分区是否包含纹理。如果分区不包含纹理,那么将所述分区分类成第一种类。如果分区包含纹理,那么将分区分类成第二种类。区分包含纹理的分区与不包含纹理的分区的一个理由是因为某些算法通过使用经参数化模型而在压缩纹理方面有效,且某些算法在压缩纹理方面并不有效。举例来说,纹理模型化算法在压缩纹理方面有效,而通用视频或图片压缩算法在压缩纹理方面并不有效,但在压缩非纹理对象或图像方面有效(步骤322和步骤324)。因此,使用同一算法来压缩所有分区是低效且不实际的。通过基于分区中是否存在纹理对每一分区进行分类来实现较好的总体压缩。
可使用若干不同方法来确定特定分区是否包含纹理。一种示范性方法涉及编码器112将压缩算法(例如,混合编码算法)应用于所述分区的每一者,以确定所述分区的压缩是否产生所需的质量和位速率操作点。即,如果(a)位速率小于位速率阈值,且(b)质量大于质量阈值,那么将所述分区分类成第一种类。如果不满足(a)或(b)中的任一者,那么将所述分区分类成第二种类。
在另一实施例中,如果并不满足(a)或(b)中的任一者,那么针对分区的原始细节的“相关性”而对所述分区的内容进行估计。由于所述“相关性”分析,如果所述分区(尽管其更适于被认为是纹理)被推断为在其原始细节中传达有意义的信息(即,“相关的”),那么将所述分区分类成第一种类。否则,如果所述分区被推断为不在其原始细节中传达有意义的信息(即,“不相关的”),那么将其分类成第二种类。
位速率阈值是例如源格式(即,帧大小和帧速率)、应用类型、分区或帧的内容以及分区的(相对)大小的多个因数的函数。在一个实施例中,所述位速率阈值针对每个分区或帧可以是不同的。帧大小取决于图像的空间分辨率,即每行多少个像素和一个帧中存在多少个像素行。举例来说,图像可为标准清晰度(SD,例如,720×486)、高清晰度(HD,例如,1920×1080)、视频图形阵列(VGA,例如,640×480)、四分之一VGA(QVGA,例如,320×240)等。应用类型可以是广播电视、用于移动装置的流式视频、通过因特网的流式视频等。分区或帧的内容是所述分区或帧中的可视数据的复杂性的决定因素。
可相对于主观质量量度或客观质量量度来界定质量阈值。
主观质量量度是对可通过不同的心理视觉测试而确定的感知质量的测量。可将主观质量阈值设置为(例如)关于1到5(典型解释为1:“非常讨厌”/“差”,2:“讨厌”/“不良”,3:“有点讨厌”/“中”,4:“可察觉但并不讨厌”/“良”,5;“察觉不到”/“优”)的感知质量标度,平均意见得分(MOS)为4.0。
可使用许多不同方法来导出客观质量量度。一种获得客观质量量度的方法是确定用于特定分区或帧的信道中的一者(例如,Y信道)的峰值信噪比(PSNR)。orig(i,j)表示原始图像数据(即,第i列和第j行处的原始像素值),且comp(i,j)表示经压缩的图像数据(即,第i列和第j行处压缩后的像素值)。可使用以下等式来确定PSNR。
接着,可将质量阈值设置为(例如)33dB。在此实例中,如果质量(即,PSNRY)大于33dB,则经压缩的图像具有令人满意/良好的质量。
其它客观量度可以是基于参考的、基于减少的参考的或结合确定性或统计性测量值的无参考量,这些测量值以与所使用的相似性量度有关且影响所述相似性量度的模糊度、块效应、振荡和其它失真的量化为目标。
如果分区被分类成第一种类,那么使用针对非纹理化对象和图像提供良好的压缩结果的视频或图片压缩算法或模型(例如,混合编码算法)来压缩或描述分区内容(步骤322)。
如果分区被分类成第二种类,那么使用针对纹理化对象和区域提供良好的分析和合成结果的算法或模型(例如,纹理模型)来压缩或描述所述分区(步骤324)。所述算法或模型可包含以下各项中的一者或一者以上:变换编码、空间编码和时间编码。对于被分类成第二种类的分区,压缩是通过模型参数的无损(精确)或有损(近似)表示法和传输来实现的。纹理模型是用来产生二维随机域的概率性数学模型。所述模型的输出的精确概率性性质取决于控制所述模型的参数的值。从给定的二维随机域样本开始,使用其数据,有可能估计出纹理模型的参数值,以试图调谐所述模型以产生类似于所述给定样本的二维随机域。此参数估计过程被称为模型拟合。
基于纹理模型的编码允许以令人满意的方式表示纹理所需的位的数目大大减少,同时仍能够再现视觉上非常相似的纹理。纹理模型是能够描述和产生纹理的数学工具。纹理模型的一些实例包含马尔可夫随机域(MRF)、吉伯斯随机域(GRF)、细胞自动机(Cellular Automata)和碎形(Fractals)。MRF提供灵活且有用的纹理模型,且可被描述为说明基于纹理模型的编码。
在MRF模型中,每个像素的概率性性质由其相邻像素的状态来确定或受到其相邻像素的状态的影响,其中邻域N构成所述模型的可调谐参数。MRF模型包含许多不同的可调谐/可调整参数,这些参数控制所得图像中的群集(即,相似亮度和颜色的分组)的强度、一致性和方向。举例来说,P是一组位点或像素位置,N是邻域,Np是像素p的对应邻域,F是界定于所述位点处表示像素值的一组随机变量,且Fp是界定于像素p的位置处的随机变量。邻域N的实例包含8连接邻域(图4A)、4连接邻域(图4B)和间接邻域(图4C)。
马尔可夫特性(其给予此特定模型此名称)隐含P(Fp=f|F(P\{p}))=P(Fp=f|F(Np))。在此等式中,P表示概率测量值,且\表示差集运算。换句话说,相对于像素p的概率性表征,对像素p的Np邻域内的相邻像素值的知晓在统计上等效于整组位点P内除像素p以外的所有像素值的知晓。
图5是说明MRF模型的四种不同实现的图片,其中每种实现对应于一种不同的邻域定义。MRF模型可描述和产生各种各样的纹理,例如模糊的或明显的、线状的或斑点状的随机域。可对所述纹理进行分析以确定或估计其用于MRF模型的参数。
返回参看图1和图3,一旦分区内容的压缩完成,处理器108就使用I/O装置114来向装置104传输对应于所述分区中的每一者的经压缩数据(步骤326)和所述分区中的每一者的边界信息(步骤328)。经压缩的数据是已经应用压缩算法或参数化模型之后的源数据,且在后一种情况下,是经估计且精确地或近似地表示的参数。边界信息包含用以界定许多分区中的每一者的边界的信息。对于矩形形状且具有任意大小的分区来说,边界信息包含每个矩形的左上角和右下角的坐标。用于传达矩形(正方形)形状且具有任意大小的分区的另一实例是使用四叉树表示法。对于具有任意形状和任意大小的分区来说,可使用(例如)李世鹏(微软中国研究院)和Iraj Sodagar(沙诺夫公司(SarnoffCorporation))的“Generic,Scalable and Efficient Shape Coding for Visual Texture Objects inMPEG-4”来确定和表示边界信息。
处理器108使用I/O装置114来向装置104传输将所述许多分区中的每一者的种类信息(步骤330)。在上述实例中,处理器108可指示所述特定分区属于第一种类还是第二种类。所述种类信息还可包含算法或模型(例如,混合编码算法或纹理模型)的类型以及用于所述模型的参数。
图6是说明对图片和视频帧进行解码的方法600的流程图。装置104接收所述分区中的每一者的经编码/压缩的数据、边界信息和种类信息(步骤602)。经编码/压缩的数据可包含用于属于第一种类或第二种类的视频帧和/或分区的辅助信息。解码器120确定属于所述第一种类或所述第二种类的每个视频帧或分区是否应被解码或内插(步骤604)。
如果属于第一种类或所述第二种类的视频帧或分区应被解码,那么解码器如下进行。解码器120对经编码的数据进行解码且使用经解码的数据、边界信息和种类信息来重构第一种类中的每一分区(步骤606)。解码器120使用经解码的数据、边界信息和种类信息来执行纹理合成并重构属于第二种类的每个分区(步骤608)。
如果属于第一种类或第二种类的视频帧或分区应被内插,那么解码器如下进行。解码器120确定辅助信息是否可用于待内插的属于第一种类或第二种类的视频帧或分区(步骤610)。如果辅助信息不可用,那么解码器120可使用FRUC来使用已经接收到且经处理(即,解码)的经压缩数据、边界信息和种类信息来有效地(即,以低计算复杂性以及高客观和主观质量)内插经压缩的源数据(步骤612)。在一个实施例中,内插完全缺失的帧中或部分可用帧的缺失区域内的属于第一种类或第二种类的所有推断出的分区。基于混合编码表示法的内插方案在此项技术中是已知的,例如,在R.Castagno、P.Haavisto和G.Ramponi的“用于运动自适应帧速率上转换的方法(A Method for MotionAdaptive Frame Rate Up-conversion)”(IEEE视频技术用电路与系统汇刊,1996年10月,第5期,第6卷,436页到446页)中描述。如果辅助信息是可用的,那么编码器120可使用EA-FRUC来使用已经接收到并处理(即,解码)的经压缩数据、边界信息、种类信息和辅助信息来有效地(即,以低计算复杂性以及高客观和主观质量)内插经压缩的源数据(步骤614)。
一旦执行了解码和/或内插,处理器116就可显示视频帧(步骤616)。处理器116或解码器120检查以了解是否存在更多待处理的图片或视频帧数据(步骤618)。如果存在更多待处理的图片或视频帧数据,那么解码器120返回到用于解码或内插并显示图片或视频帧的过程的开始(步骤604)。否则,当前解码任务结束(步骤620)。
图7是用于处理多媒体数据的设备700的框图。设备700可包含:分段模块702,其经配置以将数据分段成多个分区;识别模块704,其经配置以识别可表示为纹理的多个分区;计算模块706,其经配置以计算相邻视频帧的至少两个分区之间的相似性值;以及选择模块708,其经配置以基于所述相似性值而选择分区以进行编码。设备700还可包含:指配模块710,其经配置以将所述多个分区中的每一者指配给包括第一种类和第二种类的多个种类中的一者;一个或一个以上编码器712,其经配置以使用算法来对指配给所述第一种类的所述多个分区进行编码,且使用纹理模型来对指配给所述第二种类的所述多个分区进行编码;以及传输模块714,其经配置以传输与所述多个分区相关联的经编码的数据、边界信息和种类信息。可视设备700的配置而添加或删除一个或一个以上模块。可使用硬件、软件或其组合来实施每个模块。可使用硬件、软件或其组合来实施用于分段、识别、计算、选择、指配、编码和传输的装置。举例来说,可用通用处理装置、数字信号处理装置(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以执行本文所描述的功能的任一组合来实施或执行所述装置。
图8是用于处理多媒体数据的设备800的框图。设备800可包含:解码器802,其经配置以使用算法来对属于第一种类的多个第一分区进行解码,且使用纹理模型来对属于第二种类的多个第二分区进行解码;产生模块804,其经配置以使用边界信息、所述多个第一分区和所述多个第二分区来创建多媒体数据;以及内插模块806,其经配置以内插所述多媒体数据以产生经内插的多媒体数据。可使用硬件、软件或其组合来实施用于解码、创建和内插的装置。举例来说,可用通用处理装置、数字信号处理装置(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以执行本文所描述的功能的任一组合来实施或执行所述装置。
图9是说明用于处理多媒体数据的设备的装置的示范性组件的框图900。图9中所示的一个或一个以上模块可用作用于分段、指配和编码的装置的组件。可使用硬件、软件或其组合来实施所述模块。可视设备900的配置而添加或删除一个或一个以上模块。举例来说,可用通用处理装置、数字信号处理装置(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件、软件模块或其经设计以执行本文所描述的功能的任一组合来实施或执行所述装置。
设备900可包含:用于分段的模块902,其经配置以将数据分段成多个分区;用于指配的模块904,其经配置以将所述多个分区中的每一者指配给包括第一种类和第二种类的多个种类中的一者;以及用于编码的模块906,其经配置以使用算法来对指配给所述第一种类的所述多个分区进行编码,且使用纹理模型来对指配给所述第二种类的所述多个分区进行编码。
图10是说明用于处理多媒体数据的设备的装置的示范性组件的框图。图10中所示的一个或一个以上模块可用作用于解码和创建的装置的组件。可使用硬件、软件或其组合来实施所述模块。可视设备1000的配置而添加或删除一个或一个以上模块。举例来说,可用通用处理装置、数字信号处理装置(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件、软件模块或其经设计以执行本文所描述的功能的任一组合来实施或执行所述装置。
设备1000可包含:用于解码的模块1002,其经配置以使用算法来对属于第一种类的多个第一分区进行解码,且使用纹理模型来对属于第二种类的多个第二分区进行解码;以及用于创建的模块1004,其经配置以使用边界信息、所述多个第一分区和所述多个第二分区来创建多媒体数据。
所属领域的技术人员将了解,结合本文所揭示的实施例而描述的各种说明性逻辑区块、模块、电路和算法可实施为电子硬件、计算机软件或上述两者的组合。为了说明硬件与软件的这种可互换性,上文已经大体上根据各种说明性组件、区块、模块、电路和算法的功能性描述了各种说明性组件、区块、模块、电路和算法。将此类功能性实施为硬件还是软件取决于特定应用和强加于整个系统的设计限制。熟练的技术人员可针对每个特定应用以不同的方式来实施所描述的功能性,但此类实施决策不应被解释为导致与本发明范围脱离。
可用以下装置来实施或执行结合本文所揭示的实施例而描述的各种说明性逻辑区块、模块和电路:通用处理装置、数字信号处理装置(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以执行本文所描述的功能的任一组合。通用处理装置可以是微处理装置,但在替代方案中,所述处理装置可以是任一常规处理装置、处理装置、微处理装置或状态机。处理装置还可实施为计算装置的组合,例如DSP与微处理装置的组合、多个微处理装置、结合DSP核心的一个或一个以上微处理装置或任何其它此类配置。
结合本文所揭示的实施例而描述的设备、方法或算法可直接在硬件、软件或所述两者的组合中实施。在软件中,所述方法或算法可以可由处理装置执行的一个或一个以上指令的形式实施。所述指令可驻存在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。示范性存储媒体耦合到处理装置,使得处理装置可从存储媒体读取信息和向存储媒体写入信息。在替代方案中,存储媒体可与处理装置成一体式。处理装置和存储媒体可驻存在ASIC中。ASIC可驻存在用户终端中。在替代方案中,处理装置和存储媒体可作为离散组件驻存在用户终端中。
提供所揭示实施例的先前描述是为了使所属领域的技术人员能够制作或使用本发明。所属领域的技术人员可容易了解对这些实施例的各种修改,且在不脱离本发明的精神或范围的情况下,本文所界定的一般原理可应用于其它实施例。因此,不希望本发明限于本文所展示的实施例,而是希望本发明符合与本文所揭示的原理和新颖特征一致的最广范围。
在不脱离本发明的精神或本质特征的情况下,本发明可以其它特殊形式实施。所描述的实施例在各个方面将仅被认为是说明性的而非限制性的,且因此本发明的范围由所附权利要求书而不是由前面的描述内容来指示。属于权利要求书的等效物的意义和范围的所有改变都将包含在权利要求书的范围内。
Claims (90)
1.一种处理多媒体数据的方法,其包括:
将数据分段成多个分区;
将所述多个分区中的每一者指配给包括第一种类和第二种类的多个种类中的一者;
使用算法对指配给所述第一种类的所述多个分区进行编码;以及
使用纹理模型对指配给所述第二种类的所述多个分区进行编码。
2.根据权利要求1所述的方法,其进一步包括传输与所述多个分区相关联的经编码的数据、边界信息和种类信息。
3.根据权利要求1所述的方法,其中分段包括对所述数据进行空间分段、时间分段,或空间和时间分段两者。
4.根据权利要求1所述的方法,其进一步包括识别可表示为纹理的所述多个分区。
5.根据权利要求1所述的方法,其中将所述多个分区中的每一者指配给多个种类中的一者是基于所述分区是否包括纹理。
6.根据权利要求1所述的方法,其中将所述多个分区中的每一者指配给多个种类中的一者包括:
将算法应用于所述多个分区中的至少一者以产生所得数据;
如果所述所得数据满足第一标准,那么将所述多个分区中的所述至少一者指配给所述第一种类;以及
如果所述所得数据满足第二标准,那么将所述多个分区中的所述至少一者指配给所述第二种类。
7.根据权利要求6所述的方法,其中如果所述所得数据符合质量标准和位速率标准中的至少一者,那么所述第一标准被满足,且如果所述所得数据不符合所述质量标准和所述位速率标准中的所述至少一者,那么所述第二标准被满足。
8.根据权利要求1所述的方法,其中所述多个分区中的每一者具有任意形状或任意大小。
9.根据权利要求1所述的方法,其中对指配给所述第一种类的所述多个分区进行编码包括变换编码或混合编码。
10.根据权利要求1所述的方法,其中对指配给所述第二种类的所述多个分区进行编码包括使所述纹理模型适合于所述多个分区的所述数据。
11.根据权利要求1所述的方法,其中所述纹理模型与马尔可夫随机域、吉伯斯随机域、细胞自动机和碎形中的至少一者相关联。
12.根据权利要求1所述的方法,其进一步包括:
计算相邻视频帧的至少两个分区之间的相似性值;
基于所述相似性值选择分区来进行编码;以及
基于所述选定分区已经被指配给所述第一种类还是所述第二种类,通过使用所述算法和所述纹理模型中的至少一者对所述选定分区进行编码。
13.根据权利要求12所述的方法,其中计算相似性值包括使用绝对差值和算法、平方差值和算法以及经运动补偿算法中的至少一者。
14.一种用于处理多媒体数据的设备,其包括:
分段模块,其经配置以将数据分段成多个分区;
指配模块,其经配置以将所述多个分区中的每一者指配给包括第一种类和第二种类的多个种类中的一者;以及
编码器,其经配置以使用算法对指配给所述第一种类的所述多个分区进行编码,且使用纹理模型对指配给所述第二种类的所述多个分区进行编码。
15.根据权利要求14所述的设备,其进一步包括传输模块,所述模块经配置以传输与所述多个分区相关联的经编码的数据、边界信息和种类信息。
16.根据权利要求14所述的设备,其中对数据进行分段包括对所述数据进行空间分段、时间分段,或空间和时间分段两者。
17.根据权利要求14所述的设备,其进一步包括识别模块,所述模块经配置以识别可表示为纹理的所述多个分区。
18.根据权利要求14所述的设备,其中将所述多个分区中的每一者指配给多个种类中的一者是基于所述分区是否包括纹理。
19.根据权利要求14所述的设备,其中将所述多个分区中的每一者指配给多个种类中的一者包括:
应用模块,其经配置以将算法应用于所述多个分区中的至少一者以产生所得数据;以及
指配模块,其经配置以:如果所述所得数据满足第一标准,那么将所述多个分区中的所述至少一者指配给所述第一种类,且如果所述所得数据满足第二标准,那么将所述多个分区中的所述至少一者指配给所述第二种类。
20.根据权利要求19所述的设备,其中如果所述所得数据符合质量标准和位速率标准中的至少一者,那么所述第一标准被满足,且如果所述所得数据不符合所述质量标准和所述位速率标准中的所述至少一者,那么所述第二标准被满足。
21.根据权利要求14所述的设备,其中所述多个分区中的每一者具有任意形状或任意大小。
22.根据权利要求14所述的设备,其中对指配给所述第一种类的所述多个分区进行编码包括变换编码或混合编码。
23.根据权利要求14所述的设备,其中对指配给所述第二种类的所述多个分区进行编码包括使所述纹理模型适合于所述多个分区的所述数据。
24.根据权利要求14所述的设备,其中所述纹理模型与马尔可夫随机域、吉伯斯随机域、细胞自动机和碎形中的至少一者相关联。
25.根据权利要求14所述的设备,其进一步包括:
计算模块,其经配置以计算相邻视频帧的至少两个分区之间的相似性值;以及
选择模块,其经配置以基于所述相似性值选择分区来进行编码,
其中所述编码器经配置以基于所述选定分区已经被指配给所述第一种类还是所述第二种类,通过使用所述算法和所述纹理模型中的至少一者对所述选定分区进行编码。
26.根据权利要求25所述的设备,其中计算相似性值包括使用绝对差值和算法、平方差值和算法和经运动补偿算法中的至少一者。
27.一种用于处理多媒体数据的设备,其包括:
用于将数据分段成多个分区的装置;
用于将所述多个分区中的每一者指配给包括第一种类和第二种类的多个种类中的一者的装置;以及
用于使用算法对指配给所述第一种类的所述多个分区进行编码且使用纹理模型对指配给所述第二种类的所述多个分区进行编码的装置。
28.根据权利要求27所述的设备,其进一步包括用于传输与所述多个分区相关联的经编码的数据、边界信息和种类信息的装置。
29.根据权利要求27所述的设备,其中所述用于分段的装置包括对所述数据进行空间分段、时间分段,或空间和时间分段两者。
30.根据权利要求27所述的设备,其进一步包括用于识别可表示为纹理的所述多个分区的装置。
31.根据权利要求27所述的设备,其中所述用于将所述多个分区中的每一者指配给多个种类中的一者的装置是基于所述分区是否包括纹理。
32.根据权利要求27所述的设备,其中所述用于将所述多个分区中的每一者指配给多个种类中的一者的装置包括:
用于将算法应用于所述多个分区中的至少一者以产生所得数据的装置;以及
用于在所述所得数据满足第一标准的情况下将所述多个分区中的所述至少一者指配给所述第一种类且在所述所得数据满足第二标准的情况下将所述多个分区中的所述至少一者指配给所述第二种类的装置。
33.根据权利要求32所述的设备,其中如果所述所得数据符合质量标准和位速率标准中的至少一者,那么所述第一标准被满足,且如果所述所得数据不符合所述质量标准和所述位速率标准中的所述至少一者,那么所述第二标准被满足。
34.根据权利要求27所述的设备,其中所述多个分区中的每一者具有任意形状或任意大小。
35.根据权利要求27所述的设备,其中所述用于对指配给所述第一种类的所述多个分区进行编码的装置包括变换编码或混合编码。
36.根据权利要求27所述的设备,其中所述用于对指配给所述第二种类的所述多个分区进行编码的装置包括使所述纹理模型适合于所述多个分区的所述数据。
37.根据权利要求27所述的设备,其中所述纹理模型与马尔可夫随机域、吉伯斯随机域、细胞自动机和碎形中的至少一者相关联。
38.根据权利要求27所述的设备,其进一步包括:
用于计算相邻视频帧的至少两个分区之间的相似性值的装置;
用于基于所述相似性值选择分区来进行编码的装置;以及
用于基于所述选定分区已经被指配给所述第一种类还是所述第二种类通过使用所述算法和所述纹理模型中的至少一者对所述选定分区进行编码的装置。
39.根据权利要求38所述的设备,其中所述用于计算相似性值的装置包括使用绝对差值和算法、平方差值和算法和经运动补偿算法中的至少一者。
40.一种包括指令的机器可读媒体,所述指令在执行后立即致使机器:
将数据分段成多个分区;
将所述多个分区中的每一者指配给包括第一种类和第二种类的多个种类中的一者;
使用算法对指配给所述第一种类的所述多个分区进行编码;以及
使用纹理模型对指配给所述第二种类的所述多个分区进行编码。
41.根据权利要求40所述的机器可读媒体,其中所述指令传输与所述多个分区相关联的经编码的数据、边界信息和种类信息。
42.根据权利要求40所述的机器可读媒体,其中所述指令对所述数据进行空间分段、时间分段,或空间和时间分段两者。
43.根据权利要求40所述的机器可读媒体,其中所述指令识别可表示为纹理的所述多个分区。
44.根据权利要求40所述的机器可读媒体,其中所述将所述多个分区中的每一者指配给多个种类中的一者的指令是基于所述分区是否包括纹理。
45.根据权利要求40所述的机器可读媒体,其中所述将所述多个分区中的每一者指配给多个种类中的一者的指令包括:
将算法应用于所述多个分区中的至少一者以产生所得数据;
如果所述所得数据满足第一标准,那么将所述多个分区中的所述至少一者指配给所述第一种类;以及
如果所述所得数据满足第二标准,那么将所述多个分区中的所述至少一者指配给所述第二种类。
46.根据权利要求45所述的机器可读媒体,其中如果所述所得数据符合质量标准和位速率标准中的至少一者,那么所述第一标准被满足,且如果所述所得数据不符合所述质量标准和所述位速率标准中的所述至少一者,那么所述第二标准被满足。
47.根据权利要求40所述的机器可读媒体,其中所述多个分区中的每一者具有任意形状或任意大小。
48.根据权利要求40所述的机器可读媒体,其中所述对指配给所述第一种类的所述多个分区进行编码的指令包括变换编码或混合编码。
49.根据权利要求40所述的机器可读媒体,其中所述对指配给所述第二种类的所述多个分区进行编码的指令包括使所述纹理模型适合于所述多个分区的所述数据。
50.根据权利要求40所述的机器可读媒体,其中所述纹理模型与马尔可夫随机域、吉伯斯随机域、细胞自动机和碎形中的至少一者相关联。
51.根据权利要求40所述的机器可读媒体,其进一步包括执行以下动作的指令:
计算相邻视频帧的至少两个分区之间的相似性值;
基于所述相似性值选择分区来进行编码;以及
基于所述选定分区已经被指配给所述第一种类还是所述第二种类,通过使用所述算法和所述纹理模型中的至少一者对所述选定分区进行编码。
52.根据权利要求51所述的机器可读媒体,其中所述计算相似性值的指令包括使用绝对差值和算法、平方差值和算法和经运动补偿算法中的至少一者。
53.一种用于处理多媒体数据的处理器,所述处理器经配置以:
将数据分段成多个分区;
将所述多个分区中的每一者指配给包括第一种类和第二种类的多个种类中的一者;以及
使用算法对指配给所述第一种类的所述多个分区进行编码,且使用纹理模型对指配给所述第二种类的所述多个分区进行编码。
54.根据权利要求53所述的处理器,其进一步经配置以传输与所述多个分区相关联的经编码的数据、边界信息和种类信息。
55.根据权利要求53所述的处理器,其中分段包括对所述数据进行空间分段、时间分段,或空间和时间分段两者。
56.根据权利要求53所述的处理器,其进一步经配置以识别可表示为纹理的所述多个分区。
57.根据权利要求53所述的处理器,其中将所述多个分区中的每一者指配给多个种类中的一者是基于所述分区是否包括纹理。
58.根据权利要求53所述的处理器,其中将所述多个分区中的每一者指配给多个种类中的一者包括:
将算法应用于所述多个分区中的至少一者以产生所得数据;以及
如果所述所得数据满足第一标准,那么将所述多个分区中的所述至少一者指配给所述第一种类,且如果所述所得数据满足第二标准,那么将所述多个分区中的所述至少一者指配给所述第二种类。
59.根据权利要求58所述的处理器,其中如果所述所得数据符合质量标准和位速率标准中的至少一者,那么所述第一标准被满足,且如果所述所得数据不符合所述质量标准和所述位速率标准中的所述至少一者,那么所述第二标准被满足。
60.根据权利要求53所述的处理器,其中所述多个分区中的每一者具有任意形状或任意大小。
61.根据权利要求53所述的处理器,其中对指配给所述第一种类的所述多个分区进行编码包括变换编码或混合编码。
62.根据权利要求53所述的处理器,其中对指配给所述第二种类的所述多个分区进行编码包括使所述纹理模型适合于所述多个分区的所述数据。
63.根据权利要求53所述的处理器,其中所述纹理模型与马尔可夫随机域、吉伯斯随机域、细胞自动机和碎形中的至少一者相关联。
64.根据权利要求53所述的处理器,其进一步经配置以:
计算相邻视频帧的至少两个分区之间的相似性值;
基于所述相似性值选择分区来进行编码;以及
基于所述选定分区已经被指配给所述第一种类还是所述第二种类,通过使用所述算法和所述纹理模型中的至少一者对所述选定分区进行编码。
65.根据权利要求64所述的处理器,其中计算相似性值包括使用绝对差值和算法、平方差值和算法和经运动补偿算法中的至少一者。
66.一种处理多媒体数据的方法,其包括:
使用算法对属于第一种类的多个第一分区进行解码;
使用纹理模型对属于第二种类的多个第二分区进行解码;以及
使用边界信息、所述多个第一分区和所述多个第二分区来创建多媒体数据。
67.根据权利要求66所述的方法,其进一步包括内插所述多媒体数据以产生经内插的多媒体数据。
68.根据权利要求66所述的方法,其进一步包括内插所述多个第一分区以产生多个经内插的第一分区,且内插所述多个第二分区以产生多个经内插的第二分区。
69.根据权利要求66所述的方法,其中对属于所述第一种类的所述多个第一分区进行解码包括变换编码或混合编码。
70.根据权利要求66所述的方法,其中所述纹理模型与马尔可夫随机域、吉伯斯随机域、细胞自动机和碎形中的至少一者相关联。
71.一种用于处理多媒体数据的设备,其包括:
解码器,其经配置以使用算法对属于第一种类的多个第一分区进行解码,且使用纹理模型对属于第二种类的多个第二分区进行解码;以及
产生模块,其经配置以使用边界信息、所述多个第一分区和所述多个第二分区来创建多媒体数据。
72.根据权利要求71所述的设备,其进一步包括内插模块,所述内插模块经配置以内插所述多媒体数据以产生经内插的多媒体数据。
73.根据权利要求71所述的设备,其进一步包括内插模块,所述内插模块经配置以内插所述多个第一分区以产生多个经内插的第一分区,且内插所述多个第二分区以产生多个经内插的第二分区。
74.根据权利要求71所述的设备,其中对属于所述第一种类的所述多个第一分区进行解码包括变换编码或混合编码。
75.根据权利要求71所述的设备,其中所述纹理模型与马尔可夫随机域、吉伯斯随机域、细胞自动机和碎形中的至少一者相关联。
76.一种包括指令的机器可读媒体,所述指令在执行后立即致使机器:
使用算法对属于第一种类的多个第一分区进行解码;
使用纹理模型对属于第二种类的多个第二分区进行解码;以及
使用边界信息、所述多个第一分区和所述多个第二分区来创建多媒体数据。
77.根据权利要求76所述的机器可读媒体,其中所述指令内插所述多媒体数据以产生经内插的多媒体数据。
78.根据权利要求76所述的机器可读媒体,其中所述指令内插所述多个第一分区以产生多个经内插的第一分区,且内插所述多个第二分区以产生多个经内插的第二分区。
79.根据权利要求76所述的机器可读媒体,其中所述对属于所述第一种类的所述多个第一分区进行解码的指令包括变换编码或混合编码。
80.根据权利要求76所述的机器可读媒体,其中所述纹理模型与马尔可夫随机域、吉伯斯随机域、细胞自动机和碎形中的至少一者相关联。
81.一种用于处理多媒体数据的设备,其包括:
用于使用算法对属于第一种类的多个第一分区进行解码且使用纹理模型对属于第二种类的多个第二分区进行解码的装置;以及
用于使用边界信息、所述多个第一分区和所述多个第二分区来创建多媒体数据的装置。
82.根据权利要求81所述的设备,其进一步包括用于内插所述多媒体数据以产生经内插的多媒体数据的装置。
83.根据权利要求81所述的设备,其进一步包括用于内插所述多个第一分区以产生多个经内插的第一分区且内插所述多个第二分区以产生多个经内插的第二分区的装置。
84.根据权利要求81所述的设备,其中所述用于对属于所述第一种类的所述多个第一分区进行解码的装置包括变换编码或混合编码。
85.根据权利要求81所述的设备,其中所述纹理模型与马尔可夫随机域、吉伯斯随机域、细胞自动机和碎形中的至少一者相关联。
86.一种用于处理多媒体数据的处理器,所述处理器经配置以:
使用算法对属于第一种类的多个第一分区进行解码,且使用纹理模型对属于第二种类的多个第二分区进行解码;以及
使用边界信息、所述多个第一分区和所述多个第二分区来创建多媒体数据。
87.根据权利要求86所述的处理器,其进一步经配置以内插所述多媒体数据以产生经内插的多媒体数据。
88.根据权利要求86所述的处理器,其进一步经配置以内插所述多个第一分区以产生多个经内插的第一分区,且内插所述多个第二分区以产生多个经内插的第二分区。
89.根据权利要求86所述的处理器,其中对属于所述第一种类的所述多个第一分区进行解码包括变换编码或混合编码。
90.根据权利要求86所述的处理器,其中所述纹理模型与马尔可夫随机域、吉伯斯随机域、细胞自动机和碎形中的至少一者相关联。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US72137405P | 2005-09-27 | 2005-09-27 | |
US60/721,374 | 2005-09-27 | ||
US60/772,158 | 2006-02-10 | ||
US11/509,213 | 2006-08-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101310534A true CN101310534A (zh) | 2008-11-19 |
Family
ID=40125842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200680042829 Pending CN101310534A (zh) | 2005-09-27 | 2006-09-27 | 使用随机域模型改进图片和视频压缩以及帧速率上转换的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101310534A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101835037A (zh) * | 2009-03-12 | 2010-09-15 | 索尼株式会社 | 对视频中的运动矢量进行可靠性分类的方法和系统 |
CN107431805A (zh) * | 2014-12-22 | 2017-12-01 | 三星电子株式会社 | 编码方法和装置以及解码方法和装置 |
CN111095932A (zh) * | 2017-08-29 | 2020-05-01 | 交互数字Vc控股公司 | 使用帧速率上转换工具用于改进的压缩/解压缩的方法和装置 |
-
2006
- 2006-09-27 CN CN 200680042829 patent/CN101310534A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101835037A (zh) * | 2009-03-12 | 2010-09-15 | 索尼株式会社 | 对视频中的运动矢量进行可靠性分类的方法和系统 |
CN107431805A (zh) * | 2014-12-22 | 2017-12-01 | 三星电子株式会社 | 编码方法和装置以及解码方法和装置 |
CN107431805B (zh) * | 2014-12-22 | 2020-08-18 | 三星电子株式会社 | 编码方法和装置以及解码方法和装置 |
US11310514B2 (en) | 2014-12-22 | 2022-04-19 | Samsung Electronics Co., Ltd. | Encoding method and apparatus using non-encoding region, block-based encoding region, and pixel-based encoding region |
CN111095932A (zh) * | 2017-08-29 | 2020-05-01 | 交互数字Vc控股公司 | 使用帧速率上转换工具用于改进的压缩/解压缩的方法和装置 |
CN111095932B (zh) * | 2017-08-29 | 2022-06-07 | 交互数字麦迪逊专利控股公司 | 使用帧速率上转换工具用于改进的压缩/解压缩的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100974177B1 (ko) | 랜덤 필드 모델을 사용한 사진 및 비디오 압축과 프레임레이트 업 변환을 개선시키는 방법 및 장치 | |
US10771813B2 (en) | Reference frame encoding method and apparatus, and reference frame decoding method and apparatus | |
JP6334006B2 (ja) | ビデオ符号化用の高コンテンツ適応型品質回復フィルタ処理のためのシステムおよび方法 | |
US20210014509A1 (en) | Signaling residual signs predicted in transform domain | |
US8750383B2 (en) | Systems and methods for wavelet and channel-based high definition video encoding | |
US20020009143A1 (en) | Bandwidth scaling of a compressed video stream | |
EP4283993A1 (en) | Video coding and decoding and model training method and apparatus | |
US20230269385A1 (en) | Systems and methods for improving object tracking in compressed feature data in coding of multi-dimensional data | |
CN101310534A (zh) | 使用随机域模型改进图片和视频压缩以及帧速率上转换的方法和设备 | |
WO2023048070A1 (en) | Systems and methods for compression of feature data using joint coding in coding of multi-dimensional data | |
US20220321906A1 (en) | Systems and methods for performing padding in coding of a multi-dimensional data set | |
AU2022202473A1 (en) | Method, apparatus and system for encoding and decoding a tensor | |
US7706440B2 (en) | Method for reducing bit rate requirements for encoding multimedia data | |
US11743477B1 (en) | Video-stream format for machine analysis using NPU | |
EP4354862A1 (en) | Systems and methods for end-to-end feature compression in coding of multi-dimensional data | |
WO2023149367A1 (en) | Systems and methods for improving object detection in compressed feature data in coding of multi-dimensional data | |
US11831887B1 (en) | Scalable video coding for machine | |
WO2021197158A1 (zh) | 一种图像处理方法和图像处理装置 | |
US20240037799A1 (en) | Point cloud coding/decoding method and apparatus, device and storage medium | |
WO2024077797A1 (en) | Method and system for retargeting image | |
WO2024077772A1 (en) | Method and system for image data processing | |
WO2023037977A1 (en) | Systems and methods for reducing noise in reconstructed feature data in coding of multi-dimensional data | |
CN117529922A (zh) | 用于在多维数据的编码中压缩特征数据的系统和方法 | |
CN117981317A (zh) | 用于在多维数据的编码中使用联合编码来压缩特征数据的系统和方法 | |
KR100240344B1 (ko) | 적응적인 윤곽선 부호화 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20081119 |