CN100338956C - 产生压缩的代码转换提示元数据的方法和设备 - Google Patents

产生压缩的代码转换提示元数据的方法和设备 Download PDF

Info

Publication number
CN100338956C
CN100338956C CNB018007597A CN01800759A CN100338956C CN 100338956 C CN100338956 C CN 100338956C CN B018007597 A CNB018007597 A CN B018007597A CN 01800759 A CN01800759 A CN 01800759A CN 100338956 C CN100338956 C CN 100338956C
Authority
CN
China
Prior art keywords
code conversion
frame
motion
prompting
relevant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB018007597A
Other languages
English (en)
Other versions
CN1372769A (zh
Inventor
彼得·库恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1372769A publication Critical patent/CN1372769A/zh
Application granted granted Critical
Publication of CN100338956C publication Critical patent/CN100338956C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种音频/视频(或视听即“A/V”)信号处理设备和方法,用于提取多媒体描述的压缩表示和代码转换提示元数据,用于在不同的(例如,MPEG)压缩内容表示之间进行代码转换,操作(例如,MPEG压缩的)位流参数如帧频、位速率、对话尺寸、量化参数、以及图像编码类型结构(例如,图像组或“GOP”),将A/V内容分类,以及检索多媒体信息。

Description

产生压缩的代码转换提示元数据的方法和设备
技术领域
本发明涉及音频/视频(或视听“A/V”)信号处理方法和A/V信号处理设备,用于提取多媒体描述的压缩表示和不同(例如MPEG)压缩内容表示之间进行代码转换的代码转换提示元数据,操作(例如MPEG压缩的)位流参数如帧频、位速率、对话大小、量化参数以及图像编码类型结构如图像组或“GOP”,分类A/V内容,以及检索多媒体信息。
背景技术
A/V内容越来越多地经过光纤、无线和有线网络来传送。因为这些网络由不同的网络带宽约束来表征,所以需要由导致不同主观视觉质量的不同位速率来表示A/V内容。对于A/V内容压缩表示的其他要求通过A/V终端的屏幕大小、计算性能和存储器约束来产生。
因此,以如活动图像专家组(“MPEG”)规定的压缩格式存储的A/V内容必须转换为例如不同的位速率、帧频、屏幕大小,并且适应不同的译码复杂性和不同A/V终端的存储约束。
为了避免对不同的网络带宽和不同的A/V终端存储相同A/V内容的多个压缩的表示,以压缩的MPEG格式存储的A/V内容可以被代码转换为不同的MPEG格式。
对于视频代码转换,可以参照下面的内容:
WO09838800A1:O.H.Werner,N.D.Wells,M.J.Knee:采用改进量化的数字压缩编码,1999,提出了一种自适应量化方案;
US5870146:Zhu;Qin-Fan:用于数字视频代码转换的装置和方法,1999;
WO09929113A1:Nilsson,Michael,Erling;Ghanbari,Mohammed:代码转换,1999;
US5805224:Keesman;Gerrit J,Van Otterloo;Petrus J.:用于代码转换视频信号的方法和装置,1998;
WO09943162ALGolin,Stuart,Jay:用于代码转换视频序列的运动向量外插,1999;
US5838664:Polomski;Mark D.:采用数字代码转换的视频电话会议系统,1998;
WO09957673A2:Balliol,Nicolas:数据流的代码转换,1999;
US5808570:Bakhmutsky;Michael:用于双匹配霍夫曼代码转换的装置和方法以及具有利用它们的两个码字位流分段的高性能变量长度译码器,1998;
WO09905870A2:Lemaguet,Yann:在视频序列和相应装置之间转换的方法,1999;以及
WO09923560A1:LUDWIG,Lester;BROWN,William;YUL,Inn,J.;VUONG,Anh,T.,VANDERLIPPE,Richard;BURNETT,Gerald;LAUWERS,Chris;LUI,Richard;APPLEBAUM,Daniel:可伸缩的网络多媒体系统和应用,1999。
然而,在视频代码转换方面,这些专利中没有一个揭示或建议使用代码转换提示元数据信息以便于A/V代码转换。
电影电视工程师协会(“SMPTE”)推荐了一种用于MPEG-2视频记录数据集的电视标准(327M-2000),它对于源格式的每个宏块提供使用256位的重新编码的元数据。但是,这种代码转换提示元数据的提取和表示具有一些缺点。例如,根据推荐的标准,对于A/V源内容的每单个帧和宏块提取代码转换提示元数据(如GOP结构、量化器设置、运动向量等)。这种方法的优点是提供详细的和内容自适应的代码转换提示,便于代码转换,同时大大地保留了主观A/V质量。然而,代码转换提示元数据的尺寸是非常大的。在推荐标准的一种特定实施方式中,MPEG视频的每个宏块存储256位代码转换提示元数据。这样大的代码转换提示元数据量不便于到本地(例如住家)A/V内容服务器的广播分配。因此。关于代码转换提示元数据的推荐标准只限于广播制作室应用。
用于代码转换提示元数据提取和表示的另一种技术包括收集通用的代码转换提示元数据,用于以特定的位速率将压缩的A/V源内容代码转换到另一个压缩格式和位速率。然而,这种技术的缺点是不考虑代码转换内容的特有特性。例如,在源内容中,A/V特性可以从具有有限运动量和很少细节(例如新闻锚固场景)的A/V段改变为描述快速运动和许多细节(例如运动事件场景)的另一个A/V段。根据这种技术,可能选择错误引导代码转换提示元数据,它不适用于表示两种视频段不同的特性,因此,导致不好的A/V质量和错误的位速率分配。
发明内容
根据前面所述,本发明的目的是提供一种用于提取压缩和A/V内容自适应多媒体描述和代码转换提示元数据表示的方法和设备。
本发明的另一个目的是提供一种代码转换方法和设备,代码转换方法的一个要求是允许实时执行而没有明显的延迟,并且抑制计算复杂性。对于代码转换方法的第二个要求是尽可能多地保留主观A/V质量。为了便于代码转换方法对于不同的压缩目标格式达到这两个要求,可以提前产生并且分开存储或与压缩的A/V内容一起存储代码转换提示元数据。本发明的另一个目的是提供一种高度压缩的表示,以减少存储尺寸并且便于多媒体描述和代码转换提示元数据的分配(例如,到本地A/V内容服务器的广播)。
因此,本发明的目的是为代码转换系统提供:1)经过代码转换处理保持A/V质量,以及2)限制计算复杂性以便使得实时应用以最小的延迟进行。根据本发明的实施例,包括代码转换提示的附加的数据(元数据)可以与压缩的A/V内容相关。
按照本发明的一个方面,提供一种内容处理方法,包括下列步骤:在第一存储器中存储关于终端的终端信息;在第二存储器中存储内容和用于处理内容的内容信息;根据内容信息和终端信息,提取代码转换提示;以及根据代码转换提示来转换内容。
按照本发明的另一方面,提供一种内容处理设备,包括:第一存储器,用于存储关于终端的终端信息;第二存储器,用于存储内容和用于处理内容的内容信息;提取装置,用于根据内容信息和终端信息,提取代码转换提示;以及转换装置,用于根据代码转换提示来转换内容。
通过说明书和附图的描述,本发明的其它目的和优点将会变得更加明显。
本发明的设备和方法提供自动代码转换提示元数据的提取和压缩表示。
本发明的领域是通过使用支持的代码转换元数据,将一种压缩格式的压缩的A/V内容代码转换为另一种格式的A/V内容。术语“代码转换”包括但不限于改变压缩的格式(例如,从MPEG-2格式转换为MPEG-4格式)、帧频转换、位速率转换、对话尺寸转换、屏幕尺寸转换、画面编码类型转换等。
本发明也可以应用于自动的视频分类,使用前面所述的代码转换提示状态作为视频的不同场景活动的类别。
因此,本发明包括若干个步骤并且这些步骤的一个或多个相关于其它步骤中的每一个,以及体现结构特征的设备,适用于实现这些步骤的元件组合和部件配置,所有这些都作为下面公开的详细内容进行示范。
附图说明
为了更全面地理解本发明,可以参照下面的描述和附图,其中:
图1根据本发明实施例,描述了具有不同A/V终端的家网中代码转换系统的系统概况;
图2根据本发明实施例,说明了代码转换提示提取(图像组,“GOP”);
图3根据本发明实施例,说明了基于每帧新特性点数量选择代码转换状态的例子;
图4根据本发明实施例,示出具有3个状态的代码转换提示状态图的例子;
图5根据本发明实施例,说明了从压缩和未压缩源内容提取代码转换提示元数据;
图6根据本发明实施例,示出视频段和代码转换提示状态选择处理;
图7根据本发明实施例,示出确定新的视频段(或新的GOP)的边界的方法;
图8根据本发明实施例,示出如何选择代码转换提示状态的算法;
图9根据本发明实施例,提供代码转换提示元数据的结构组织的概况;
图10根据本发明实施例,描述通用代码转换提示元数据描述方案的结构组织;
图11根据本发明实施例,描述了用于源格式定义的代码转换提示元数据;
图12根据本发明实施例,描述了用于目标格式定义的代码转换提示元数据;
图13根据本发明实施例,描述了通用代码转换提示元数据表示;
图14根据本发明实施例,描述了基于段的代码转换提示元数据表示;
图15根据本发明实施例,描述了编码复杂性代码转换提示元数据;以及
图16根据本发明实施例,描述了代码转换提示状态元数据。
具体实施方式
图1根据本发明实施例,描述了用于家网环境下代码转换的系统100的一般概况。如图1所示,A/V内容服务器102包括A/V内容存储器103、A/V代码转换单元106、代码转换提示元数据提取单元104、以及A/V代码转换提示元数据存储缓冲器105。A/V内容存储器103存储来自不同源的压缩的A/V内容,这些源具有不同的位速率和不同的主观质量。例如,A/V内容存储器103可以包含来自便携式数字视频(“DV”)摄像机111的家庭视频,来自MPEG-4互联网络摄像机112的具有非常低位速率(比如说10kbit/s)的MPEG-4压缩视频,以及来自广播服务101的大约5Mbit/s的MPEG-2MainProfile at Main Level(“MP@ML”)压缩广播视频,在某些情况下它已经与代码转换提示元数据相关联。A/V内容服务器102也可以包含以相当高位速率的高清晰度压缩MPEG视频。
如图1所示,A/V内容服务器102连接到网络113,该网络可以是有线或无线家网。一些具有不同特性的A/V终端也可以连接到网络113,包括但不限于:无线MPEG-4A/V个人数字助理(“PDA”)107、用于高清晰度电视娱乐的高分辨率A/V终端108、A/V游戏控制台109、以及基于国际电信联盟技术标准组(“ITU-T”)的可视电话110。A/V终端107、108、109和110可以采用不同的位速率传输性能(取决于有线电视或无线电链路)连接到家网113。
另外,根据计算功率、存储器、屏幕尺寸、视频帧频、以及网络位速率可以限制无线视频PDA 107。因此,A/V代码转换单元106可以将例如欧洲5Mbit/s MPEG-2广播电视的每秒钟25帧(“fps”)和包含在A/V内容服务器102中的720×480像素代码转换为MPEG-4 500kbit/s 15fps视频用于无线传输,并且通过无线MPEG-4视频PDA 107显示在352×240像素显示器上。A/V代码转换单元106可以使用来自缓存器105的代码转换提示元数据,实时地将A/V内容的压缩的源位速率代码转换为每个特定的目标A/V终端107、108、109和110的性能。代码转换提示元数据在代码转换提示元数据提取单元104中产生,或者它们可以由广播服务程序101分配。
如图1所示,采用源格式的压缩位流(以后称为“第一位流”)116从A/V内容缓存器103传送到A/V代码转换单元106。采用目标格式的位流(以后称为“第二位流”)115在代码转换单元106的代码转换之后传送到家网113。来自家网113的例如采用压缩DV格式的内容经过链路114存储在A/V内容存储器103中。
图2根据本发明实施例,说明代码转换提示提取、代码转换提示存储以及代码转换处理。如图2所示,缓存器201包含采用源格式的A/V内容。缓存器202包含源格式的描述,如位速率、压缩方法、GOP结构、屏幕尺寸、隔行或逐行的格式等。缓存器203包含目标格式的描述,如位速率、压缩方法、GOP结构、屏幕尺寸、隔行或逐行的格式等。代码转换提示提取单元207从A/V缓存器201读出采用压缩源格式的A/V内容,以及来自缓存器202的源格式描述和来自缓存器203的代码转换目标格式描述。在代码转换提示提取单元207计算代码转换提示之后,代码转换提示存储在代码转换提示元数据缓存器206中。A/V代码转换单元205从A/V内容缓存器201读出采用源格式的第一位流204,并且借助于存储在缓存器206的代码转换提示元数据将源格式转换为目标格式。A/V代码转换单元205输出采用新的压缩目标格式的第二位流208到A/V目标格式缓存器209用于存储。
图3和图4根据本发明实施例,说明代码转换提示元数据组织的原理。基于MPEG的视频压缩使用可预测的方法,这里相邻帧之间的变化被编码。从一个帧到下一个帧具有许多变化的视频内容与帧之间具有较小变化的视频内容相比,要求(为了保持主观质量同时限制位速率)不同的重新编码参数设置。因此,重要的是事先决定重新编码参数。代码转换提示元数据选择主要取决于不可预测的视觉内容的量和特性。新的视觉内容不能由先前帧预测并且可以是使用DCT系数密集编码的位速率。这样,本发明方法使用新特征点数量来确定每帧新的内容量,该新特征点的数量不是从先前帧到当前帧跟踪的。
图3根据视频的帧数量,描述了每帧新特征点数量的图形(水平轴,时间轴)。部分301是一部分视频段,这里在连续帧之间只出现了非常少量的新内容,因此可以选择相应的代码转换提示元数据(例如,大GOP尺寸,低帧频,低位速率)。部分302包括每帧稍微高一些的新特征点的数量,这意味着选择了描述代码转换提示元数据的状态,它提供了这种情况下最佳的代码转换参数(例如,稍微小一些GOP尺寸,较高位速率)。部分303描述了每帧具有较大的新特征点数量的代码转换元数据提示状态,因此,每个场景具有较高的新内容量。这样,选择了较小M值(I/P帧距离)和较高位速率。
图4描述了包括三个离散的代码转换提示元数据状态的代码转换提示元数据状态图的基本组织的例子。每个离散的代码转换状态可以包含用于GOP结构的元数据、量化器参数、位速率、屏幕尺寸等。这些代码转换提示参数可以具有一个固定值或可以是另一个参数的函数。例如,GOP长度可以是每帧新特征点数量的离散函数,量化器参数可以是从DCT系数获得的边缘和纹理活动性的函数。在这个例子中可以选择三个代码转换提示元数据状态的每一个来适应三种不同的编码情况。如图4所示,状态“3”403被选择用于每帧高运动量和低新内容量,并且表示对这种内容的代码转换提示元数据的最佳状态。状态“2”402被选择用于具有高边缘活动性的低运动量和高内容量,它可能需要使用许多位。例如,状态“1”401被选择适用于具有低场景活动性的A/V内容的代码转换处理。还提供其它特别的代码转换提示元数据状态用于视频编辑效果,如不同的交叉衰落效果、突然的场景变化、或者两个场景之间的黑图像。视频编辑效果的位置可以手工地、半自动地或全自动地检测。
图5根据本发明实施例,说明了从压缩和未压缩的源内容提取的代码转换提示元数据。如图5所示,系统500包括A/V源内容缓存器501、源格式描述缓存器502、以及目标格式描述缓存器503。
存储器504用于存储运动向量、DCT系数以及来自压缩和未压缩区域的特征点提取。在压缩区域中,来自P和B宏块的运动向量可以直接从位流中提取。然而,宏块内不存在运动向量。因此,对于B和P宏块获得的运动向量可以内插用于I宏块(见Roy Wang,Thomas Huang:“在MPEG区域的快速摄像运动分析”,IEEE图像处理国际会议(International Conference on ImageProcessing),ICIP 99,Kobe,Japan,Oct 1999)。用于宏块内的块的DCT系数可以直接从位流中提取。对于P和B宏块,限定数量的DCT系数(DC和2个AC系数)可以通过下面描述的方法来获得,即Shih-Fu Chang,DavidG.Messerschmid:“MC-DCT压缩视频的操作和合成”,IEEE选择通信区域杂志(Journal on Selected Areas in Communications),vol.8,1996。在Peter Kuhn1999年12月的PCT专利“用于压缩区域特征点登记和运动估计的方法和设备”中,公开了压缩区域特征点提取和运动估计的示范方法,它在此作为参考。在某些情况下,A/V源内容可以仅仅以未压缩的格式或以不基于DCT和运动补偿原理的压缩格式获得,它由MPEG-1、MPEG-2、MPEG-4、ITU-TH.261和ITU-T H.263使用。对于DV格式,可能只有DCT系数可以获得。在这些情况下,运动向量可以通过运动估计方法来获得,参照例如Peter Kuhn“用于MPEG-4运动估计的算法、复杂性分析和VLSI体系结构”,KluwerAcademic Publishers,1999。DCT系数可以通过完成基于块的DCT变换来获得,参照K.R.Rao,P.Yip:“离散余弦变换-算法,优点、应用”,学院出版社(Academic Press)1990。在像素区域(未压缩区域)的特征点可以通过例如下面描述的方法获得,即Bruce D.Lucas,Takeo Kanade“应用于立体视觉的迭代登记技术”,人工智能国际联合会议(International Joint Conference on ArtificialIntelligence),pp.674-679,1981。
运动分析部分505从存储器504的运动向量表示中提取参数运动模型的参数。参数运动模型可以具有6个和8个参数,参数运动估计可以通过下面描述的方法获得,即M.Tekalp:“数字视频处理”,Prentice Hall,1995。使用运动表示的目的是去除由于延迟和速度原因在代码转换器中的运动估计。因此,来自源位流的运动输入表示可以用于获得输出表示(目标位流)。例如,对屏幕尺寸重定尺寸、隔行-逐行转换等可以主要地取决于运动表示。运动表示的参数也可以根据GOP结构进行编码判定。纹理/边缘分析部件506可以基于从位流提取的DCT系数,可以参照例如K.R.Rao,P Yip“离散余弦变换-算法、优点、应用”,学院出版社(Academic Press)1990,或者K.W.Chun,K.W.Lim,H.D.Cho,J.B.Ra“用于视频编码的自适应感觉量化算法”,IEEE消费电子文集(Transactions on Consumer Electronics),Vol.39,No.3,August1993。
用于压缩区域的特征点跟踪部件507可以使用Peter Kuhn描述的技术,即“用于压缩区域特征点登记和运动估计的方法和设备”,PCT专利,1999年12月,它在此作为参考。处理器508计算每帧新特征点的数量。处理器509计算时间的视频段,处理器510计算每段的代码转换提示状态。下面参照附图6、图7和图8详细地描述根据本发明实施例用于这些计算的方法。
存储器511包含运动相关的代码转换提示元数据。存储器512包含纹理/边缘相关的代码转换提示元数据,而存储器513包含特征点代码转换提示元数据,下面参照图15对它们进行详细描述。存储器514包含视频段代码转换提示选择元数据,参照图16来描述它们。现在描述代码转换提示元数据的自动提取、压缩表示以及用途。
图6根据本发明实施例,公开了视频段和代码转换提示状态选择处理。在步骤601,初始化一些变量。变量“帧”是源位流的当前帧数量,“n帧(nframes)”是新视频段(或GOP,即图像组)内帧的数量。其它的变量仅用于这个子程序。在步骤602,GOP内帧的数量加1。在步骤603,确定是否新的段/GOP在帧内开始,参照图7将讨论它的详细内容。如果是这样(“是”),控制进入到步骤604,否则,进入步骤615。在步骤604,变量“last_gop_start”采用“new_gop_start”值初始化。在步骤608和609,如果变量“帧”大于1则变量“last_gop_stop”设置为“frame-1”。否则,在步骤610,“last_gop_stop”设置为1。接着,将在图8中详细描述的步骤611,根据运动参数605、纹理/边缘参数606、以及特征点数据607确定代码转换提示状态。在步骤612,代码转换提示元数据输出到代码转换提示元数据缓存器。根据本发明优选实施例,代码转换提示元数据包括“n帧”(GOP内帧的数量),具有所有参数的代码转换提示状态,以及新GOP的开始帧数量(“new_gop_start”)。在这以后,变量“n帧”被设置为0,并且当前帧数量“帧”被给予变量“new_gop_start”。然后,在步骤615,检测以确定是否源位流的所有帧已经被处理。如果不是(“否”),控制转到步骤614,这里帧数量被加1并且从步骤602开始重复该处理。否则,该处理终止。
图7根据本发明实施例,说明确定新视频段或GOP的开始帧和结束帧的方法。在步骤701,确定是否来自图6的变量“n帧(nframes)”是M(它是I/P帧距离)的整数倍。如果是这样,则选择“否”并且在步骤702,确定是否当前帧号码是第一帧。如果是这样(“否”),控制转到步骤703,这里确定是否“n帧”大于GOP内帧“gop_min”的最小数。在步骤702的结果是“是”的情况下,新GOP在步骤705开始。在步骤703的结果是“是”的情况下,新GOP在步骤705开始。在步骤703的结果是“否”的情况下,控制转到步骤704,这里确定是否“n帧”大于GOP内帧“gop_max”的最大数。在步骤704的结果是“是”的情况下,GOP在步骤706关闭,否则该处理终止。
图8根据本发明实施例,说明选择代码转换提示状态用于特定的GOP或A/V段的处理,仅考虑每帧新特征点的数量。根据说明的基本构思,可以使用来自参数运动估计的上述的运动参数以及从DCT系数获得的纹理/边缘参数来实现类似的判定结构。应该注意描述的类别和算法也可用于根据运动、边缘活动性、每帧新内容等将A/V内容分类,使得有更高级别的A/V分类。在这种情况下,代码转换提示状态将表示不同内容材料的特定分类。现在参照图8,在步骤801,变量“frame_no”、“last_gop_start”、“sum”和“new_seg”被初始化。变量“frame no”被给予“last_gop_start”参数的内容,变量“sum”和“new_seg”被初始化为零。然后,在步骤802,变量“sum”的内容加上当前帧的新特征点的数量(“frame_no”)。在步骤803,确定是否变量“frame_no”小于变量“last_gop_stop”。如果是这样(“是”),重复步骤802,否则,控制转到步骤804。在步骤804,确定是否变量“sum”的值小于预定参数“summax”的八分之一。参数“summax”是一个常数,它表示可以逐帧跟踪的最大特征点数量乘以帧“last_gop_start”和“last_gop_stop”之间的帧数量。本发明实施例中它可以具有值200。如果在步骤804的结果是“是”,在步骤806选择代码转换提示状态1,它用于图8的表1所示的参数。否则,在步骤805,确定是否变量“sum”的值小于预定参数“summax”的四分之一。如果是这样(“是”),则为代码转换提示状态2,如步骤807选择的表1所示。如果不是(“否”),则在步骤808选择代码转换提示状态3(如表1所示)并且该处理终止。应该注意步骤804和805的判定门限值取决于代码转换提示状态的规定和数量。
代码转换提示元数据描述
为了解释元数据,可以使用伪C编码形式。可以使用如MPEG-7元数据标准中规定的描述的缩写D和描述方案的缩写DS。
图9根据本发明实施例,描述了通用的A/V DS 901内代码转换提示元数据的结构组织。如图9所示,段DS 904和媒体信息DS 902从通用的A/V DS901中获得。段分解906从段DS 904中获得,视频段DS 907和移动区域DS907从段分解906中获得。基于段的代码转换提示DS 909从视频段DS 907中获得,将参照图14详细描述909。视频段DS 907存取一个或多个代码转换提示状态DS 911,它参照图16被详细地描述。参照图14详细描述的基于段的代码转换提示DS 910由移动区域DS 908获得用于移动区域,它存取一个或多个代码转换提示状态DS 912,它参照图16被详细地描述。从媒体信息DS 902获得媒体分布(Media Profile)DS 903。从媒体分布DS 903获得通用的代码转换提示DS 905,它将参照图10描述。
图10描述了代码转换提示DS 1001的结构组织,它包括参照图11描述的源格式规定DS 1002中一个实例,目标格式规定DS 1003的一个或多个实例将参照图12进行描述。另外,代码转换提示DS 1001包括参照图13描述的通用的代码转换提示DS 1004的一种选择实例,以及参照图15描述的一个选择代码转换编码复杂性DS 1005。
图11根据本发明实施例,描述了与整个A/V内容或与特定的A/V段相关的源格式规定代码转换提示元数据(例如图10的源格式规定DS 1002)。如图11所示,相关的描述符和描述方案可以包括:
·bitrate是<int>类型并且描述源A/V数据流的每秒位速率。
·size_of_pictures是<2*int>类型并且描述在x和y方向上源A/V格式的图像大小。
·number_of_frames_per_second是<int>类型并且描述源内容的每秒帧数量。
·pel_aspect_ratio是<float>类型并且描述像素宽高比。
·pel_colour_depth是<int>类型并且描述颜色深度。
·usage_of_progressive_interlaced_format是<1位>大小并且描述源格式是逐行还是隔行格式。
·usage_of_frame_field_pictures是<1位>大小并且描述使用帧还是字段图像。
·compression method是<int>类型并且规定用于源格式的压缩方法,可以从包括:MPEG-1、MPEG-2、MPEG-4、DV、H.263、H.261等的列表中选择。对于每种压缩方法,可以在这里规定其他的参数。
·GOP_structure是I、P、B状态的行程编码的数据字段。例如,在MPEG-2视频中只有I帧的情况下,直接变换到压缩区域的DV格式是可能的。
图12根据本发明实施例,描述了目标格式规定代码转换提示元数据,它可以与整个A/V内容或与特定的A/V段相关。如图12所示,相关的描述符和描述方案可以包括:
·bitrate是<int>类型并且描述目标A/V数据流的每秒位速率。
·size_of_pictures是<2*int>类型并且描述在x和y方向上目标A/V格式的图像大小。
·number_of_frames_per_second是<int>类型并且描述目标内容的每秒帧数量。
·pel_aspect_ratio是<float>类型并且描述像素宽高比。
·pel_colour_depth是<int>类型并且描述颜色深度。
·usage_of_progressive_interlaced_format是<1位>大小并且描述目标格式需要逐行还是隔行。
·usage_of_frame_field_pictures是<1位>大小并且描述使用帧还是字段图像。
·compression_method是<int>类型并且规定用于目标格式的压缩方法,可以从包括:MPEG-1、MPEG-2、MPEG-4、DV、H.263、H.261等的列表中选择。对于每种压缩方法,可以在这里规定其他的参数。
·GOP_structure是I、P、B状态的可选的行程编码数据字段。借助于这个可选参数,可以强迫一个固定的GOP结构。固定的GOP结构可以例如将I帧强迫在某一位置以便于视频编辑。
图13根据本发明实施例,描述了通用的代码转换提示元数据(例如,图11的通用代码转换提示DS 1004),它可以与整个A/V内容或与特定的A/V段相关。如图13所示,相关的描述符和描述方案可以包括:
·use_region_of_interest_DS具有<1位>的长度并且表示是否感兴趣的描述方案的区域可用于代码转换提示。
·在使用region_of_interest_DS的情况下,shape_D(它可以例如是下面的一个:boundary_box_D,MB_shape_D或任何其它的shape_D)与motion_trajectory_D一起可以用于在空间上和时间上描述感兴趣的区域。MB_shape_D可以使用宏块(16×16)大小的块用于目标形状描述。Motion_trajectory_D已经包括时间的概念,使得可以规定region_of_interest_DS的开始帧和结束帧。region_of_interest_DS可以具有相应的shape_D和相应的motion_trajectory_D的大小。对于代码转换应用,例如可以使用region_of_interest_DS,以对于感兴趣区域内的块比背景花费更多的位(或相应地修改量化器)。对于MPEG-4的另一个代码转换应用可以通过分开MPEG-4目标来描述感兴趣的区域,并且对于感兴趣的区域比其它的MPEG-4目标如背景花费更高的位速率和更高的帧频。region_of_interest_DS的提取可以自动地或手工地完成。
·use_editing_effects_transcoding_hints_DS具有<1位>的长度并且指示是否信息可以根据基于编辑效果的代码转换提示来获得。
·camera_flash是项目的列表,这里每个项目描述摄像机闪光产生的帧数量。因此,描述符的长度是摄像机闪光事件的数量乘以<int>。对于代码转换应用,camera_flash描述符是非常有用的,因为大多数视频(重新)编码器/代码转换器使用的运动估计方法基于亮度差别,参照Peter Kuhn“用于MPEG-4运动估计的算法、复杂性分析和VLSI结构”,Kluwer Academic Publishers,1999。在基于亮度的运动估计的情况下,两个相邻帧(一个具有闪光,一个不具有闪光)的两个宏块之间的平均绝对误差对于预测来说太高,具有摄像机闪光的帧必须作为具有高位速率成本的帧内编码。因此,表示代码转换提示描述方案(“DS”)内的摄像机闪光允许例如使用亮度校正运动估计方法或其它手段从具有适当位成本的锚帧预测具有摄像机闪光的帧。
·cross_fading是项目列表,这里每个项目描述交叉衰落的开始帧和结束帧。因此,这个描述符的长度是交叉衰落事件数量的<int>的两倍。在交叉衰落期间表示代码转换提示元数据中的交叉衰落事件对于控制位速率/量化器是非常有用的。在交叉衰落期间,预测一般被限制使用,使得用于预测误差编码的位速率增加。因为在交叉衰落期间,场景通常变得模糊,通过分别调节量化器比例、位速率或速率控制参数可以限制位速率增加。
·black_pictures是项目的列表,这里每个项目描述了一个黑画面序列的开始帧和结束帧。在场景之间,特别的在家庭视频中,可能产生黑色画面。根据经验,这种结果表示一系列黑画面增加了运动补偿DCT编码器的位速率,因为预测仅仅被有限地使用。因此,通过分别调节量化器比例、位速率或速率控制参数,这个代码转换提示描述符可以用于限制黑画面期间的位速率。
·fade_in类似于cross_fading,并且被描述为确定渐显的开始帧和结束帧的许多项目。与交叉衰落相比,渐显从黑图像开始,因此,通过分别调节量化器比例、位速率或速率控制参数,一种眼睛的屏蔽效果可以用于限制在渐显期间的位速率。
·fade_out类似于fade_in,除了在场景之后的,描述一系列黑色画面。
·abrupt_change通过<int>类型的单个帧数量的列表描述,表示突然的场景或拍摄变化而没有衰落出现。这些事件通过例如图3的非常高和非常陡的峰值来表示。这些峰值表示新的摄像或场景的开始。abrupt_change编辑效果与衰落效果相反。当两个视频段之间的突然变化出现时,人的视觉需要几毫秒来适应和识别新的A/V段的细节。人眼的这种慢慢适应的效果对于视频代码转换是有益的,例如用于为在场景或摄像突然变化之后的视频段的那些开始帧,减少位速率或修改量化器比例参数。
·use_motion_transcoding_hints_DS具有<1位>的长度并且表示运动相关的代码转换提示元数据的使用
·number of regions表示下面运动相关的代码转换提示元数据有效的区域数量。
·for_every_region用<1位>长度字段来表示该区域是矩形还是任意形状。在区域是任意形状的情况下,使用区域描述符(包括例如形状描述符和运动轨迹描述符)。在矩形区域的情况下,使用矩形区域的大小。这个区域内的运动字段用参数运动模型来描述,对于每个帧或帧序列,它由若干个参数确定。对于代码转换,源视频的实时运动的这个运动表示可以用于限制(重新)编码部分的计算复杂性运动估计的搜索区域,也可以用于快速和有效的隔行/去隔行(帧/字段)转换并且根据视频内的运动量确定GOP(画面组)结构。运动表示也可以有益地用于视频的大小转换。
图14根据本发明实施例,描述了基于段的代码转换提示元数据(例如,图9的基于段的代码转换提示DS 909和910),它可以用于确定描述恒定特性的A/V段的(重新)编码器/代码转换器。如图14所示,相关的描述符和描述方案可以包括:
·start_frame是<int>类型并且描述A/V段的代码转换提示元数据开始的帧号码。
·nffame是<int>类型并且描述A/V段的长度。
·I_frame_location给出描述A/V段内I帧位置的几种可能。
·select_one_out_of_the_following是<2位>大小并且选择下面四个I帧位置描述方法中的一个。
·first frame是<1位>大小并且是缺省的I帧位置。这种方法描述A/V段,这里只有第一帧是A/V段的内部帧并且用作进一步预测的锚,A/V段内所有的其它帧是P或B帧。
·List of frame给出A/V段内内部帧的帧数量列表。这种方法允许任意地描述A/V段内内部帧的位置。对于这个列表中的k帧,这个描述符大小是<k*int>。
·first_frame_and_every_k_frames是<int>类型,这里段内第一帧是内部的并且k描述了A/V段内I帧的间隔。
·no_I_frame是<1位>大小并且描述在A/V段内不使用I帧的情况,当A/V段的编码基于先前段的地锚(内部帧)时它是有用的。
·quantizer_scale是<int>类型并且描述用于A/V段的初始量化器比例值。
·target_bitrate是<int>类型并且描述用于A/V段的每秒目标位速率。
·target_min_bitrate是<int>类型并且描述用于A/V段的每秒最小目标位速率(可选)。
·target_max_bitrate是<int>类型并且描述用于A/V段的每秒最大目标位速率(可选)。
·use_transcoding_states是<1位>大小并且描述代码转换提示状态是否用于A/V段。
·transcoding_state_nr是<int>类型并且给出用于段的代码转换提示元数据状态。代码转换提示元数据状态是到代码转换提示状态表中的一项的指针。代码转换提示状态表可以具有若干个项目,这里通过代码转换提示参数可以加上或减去新的项目。下面参照图16描述单个代码转换提示状态的代码转换提示元数据。
·add_new_transcoding_state是<1位>大小并且描述具有相关信息的新代码转换状态是否必须加到代码转换提示表上。在add_new_transcoding_state发出信号“是”的情况下,给出新代码转换提示状态的参数列表。参数列表的大小由代码转换提示状态的参数数量和代码转换提示状态的数量确定。
·remove_transcoding_state是<1位>大小的标记,表示代码转换状态是否可以去除。在可以去除代码转换状态的情况下,给出去除的代码转换状态的状态数量(类型:<int>)。
·use_encoding_complexity_description是<1位>大小并且发出是否必须使用如图15规定的更详细的编码复杂性描述方案的信号。
图15根据本发明实施例,描述了编码复杂性代码转换提示元数据,它可以与整个A/V内容或与特定的A/V段相关。编码复杂性元数据可以用于速率控制并且确定量化器和位速率设置。
·use_feature_points是<1位>大小并且表示基于特征点的复杂性估计数据的使用。
·select_feature_point_method是<2位>大小并且选择特征点方法。
·number_of_new_feature_points每帧描述如图3说明的每帧新特征点数量的列表,并且它们是<nframes*int>大小。这个度量表示每帧的新内容量。
·feature_point_metrics描述了基于一个段内每帧新特征点的度量列表。该度量被表示为具有下面意义的<int>值的有序列表:平均值、最大值、最小值、变量、每帧新特征点数量的标准偏差。
·use_equation_description是到每帧编码复杂性的基于方程式描述的<int>指针。
·use_motion_description是<1位>大小并且表示基于运动的复杂性描述的使用。
·select_motion_method是<4位>大小并且选择运动描述方法。
·param_k_motion是<nframes*k*int>大小并且描述用于全局参数运动模型的每单个帧的k个参数。
·motion_metrics描述了度量列表,用于基于整个段的运动向量的大小。度量被表示为具有下面意义的<int>值的有序列表:平均值、最大值、最小值、变量、宏块运动向量的标准偏差(stddev)。
·block_motion_field描述了m*m块大小的运动字段的每个向量并且是<nframes*int*size_x*size_y/(m*m)>的大小。
·use_texture_edge_metrics是当纹理或边缘度量被使用并且它是<1位>大小时设置的标记。
·select_texture_edge_metrics是<4位>大小并且它确定来自下面的哪个纹理度量被使用。
·DCT_block_energy是一个块的所有DCT系数的总和并且被定义用于帧内每个块。它是<size_y_size*-X*nframes*int/64>的大小。
·DCT_block_activity被定义为一块的所有DCT系数的总和,但没有DC系数。它被定义用于帧内的每个块并且是<size_y*size_x*nframes*int/64>的大小。
·DCT_energy_metric描述了基于每块的各个DCT能量的整个段的度量列表。该度量被表示为具有下面意义的<int>值的有序列表:平均值、最大值、最小值、变量、所有各个DCT能量度量的标准偏差。该描述符的大小是<6*int>。这个描述符的另一种实现是描述用于视频段的每单个帧的DCT能量度量。
·DCT_activity_metric描述了基于每块的各个DCT活动性的整个段的度量列表。该度量被表示为具有下面意义的<int>值的有序列表:平均值、最大值、最小值、变量、所有各个DCT活动性度量的标准偏差。该描述符的大小是<6*int>。这个描述符的另一种实现是描述用于视频段的每单个帧的DCT活动性度量。
图16根据本发明实施例,描述了代码转换提示状态元数据,它可以与整个视听内容或与特定的A/V段相关。相关的描述符和描述方案可以包括:
·M是<int>类型并且描述I帧/P帧距离。
·bitrate_fraction_for_I是<float>类型并且描述可用于I帧的A/V段规定的位速率的分数。
·bitrate_fraction_for_P是<float>类型并且描述可用于P帧的A/V段规定的位速率的分数。用于B帧的位速率分数是到100%的剩余百分比。
·quantizer_scale_ratio_I_P是<float>类型并且表示I和P帧之间的量化器比例(如为这个段规定的)关系。
·quantizer_scale_ratio_I_B是<float>类型并且表示I和B帧之间的量化器比例(如为这个段规定的)关系。应该注意位速率描述符(bitrate_fraction_for_I<bitrate_fraction_for_P),quantizer_scale_ratio描述符(quantizer_scale_ratio_I_P,quantizer_scale_ratio_I_B)或下面的速率控制参数可以是强制的。
·X_I,X_P,X_B是frame_vbv_complexities,每个是<int>类型并且在基于帧的压缩目标格式的情况下规定(参照图12)。根据源内容特征和目标格式规定,这些和下面的虚拟缓存器检验器(“VBV”)复杂性调节是可选的并且可以用于修改速率控制方案。
·X_I top,X_P top,X_B top是用于顶部字段的field_vbv_complexities,每个是<int>类型并且在基于字段的压缩目标格式的情况下规定(参照图12)。
这样从前面的描述可以有效地达到本发明的目的,因为在实现上面的方法和结构中可以有一些变化但不会背离本发明的精神和范围,上面的描述和附图中包含的内容只用于说明的目的,而没有限制的意思。
还应该理解所附权利要求书涵盖了这里描述的本发明的一般和特定的特征以及本发明范围内的所有描述。

Claims (26)

1.一种用于处理内容的内容处理方法,包括下列步骤:
在第一存储器中存储关于终端的终端信息;
在第二存储器中存储内容和用于处理内容的内容信息;
根据所述内容信息和所述终端信息,提取代码转换提示;以及
其中根据所述代码转换提示来转换内容。
2.如权利要求1所述的内容处理方法,其中提取代码转换提示的步骤包括:
接收具有GOP结构的压缩图像数据的位流;
从所述位流获得运动信息;
获得段的纹理和边缘信息;
从所述位流获得特征点和相关的运动信息;以及
从所述位流获得感兴趣信息的区域。
3.如权利要求2所述的内容处理方法,其中所述提取代码转换提示的步骤还包括将所述运动信息存储为代码转换提示的步骤。
4.如权利要求2所述的内容处理方法,其中所述提取代码转换提示的步骤还包括将与运动相关的代码转换提示表示为参数运动模型的参数的步骤。
5.如权利要求4所述的内容处理方法,其中所述提取代码转换提示的步骤还包括使用参数运动模型来描述帧内的全局运动的步骤。
6.如权利要求4所述的内容处理方法,其中所述提取代码转换提示的步骤还包括使用参数运动模型来描述任意形状规定区域内运动的步骤。
7.如权利要求2所述的内容处理方法,其中所述提取代码转换提示的步骤还包括将与运动相关的代码转换提示表示为包含在所述位流内的运动向量阵列的步骤。
8.如权利要求2所述的内容处理方法,其中所述提取代码转换提示的步骤还包括将与运动相关的代码转换提示表示为从包含在所述位流的运动向量导出的运动向量阵列的步骤。
9.如权利要求2所述的内容处理方法,其中所述提取代码转换提示的步骤还包括将与运动相关的代码转换提示表示为具有相关的运动向量的特征点列表,所述特征点在帧内被跟踪。
10.如权利要求2所述的内容处理方法,其中所述提取代码转换提示的步骤还包括将与运动相关的代码转换提示表示为具有相关的运动向量的特征点列表,所述特征点在帧内在任意形状区域内被跟踪。
11.如权利要求2所述的内容处理方法,其中所述提取代码转换提示的步骤还包括将与所述纹理和边缘相关的代码转换提示表示为DCT系数列表和从所述DCT系数列表获得的测量值之一,所述测量值是平均值、最小值、最大值、变量、标准偏差之一。
12.如权利要求2所述的内容处理方法,其中所述提取代码转换提示的步骤还包括将所述特征点以及相关联的与运动相关的代码转换提示表示为列表的步骤。
13.如权利要求2所述的内容处理方法,其中所述提取代码转换提示的步骤还包括将与编码复杂性相关的代码转换提示表示为从特征点使用期限列表获得的复杂性度量,这些特征点通过使用从一帧到下一帧的许多丢失的特征点和新的特征点在各个帧内被跟踪。
14.一种用于处理内容的内容处理设备,包括:
第一存储器,用于存储关于终端的终端信息;
第二存储器,用于存储内容和用于处理内容的内容信息;
提取装置,用于根据所述内容信息和所述终端信息,提取代码转换提示;以及
转换装置,用于根据代码转换提示来转换内容。
15.如权利要求14所述的内容处理设备,其中所述提取装置包括:
接收具有GOP结构的压缩图像数据的位流的单元;
从所述位流获得运动信息的单元;
获得段的纹理和边缘信息的单元;
从所述位流获得特征点和相关的运动信息的单元;以及
从所述位流获得感兴趣信息的区域的单元。
16.如权利要求15所述的内容处理设备,其中所述提取装置将所述运动信息存储为代码转换提示。
17.如权利要求15所述的内容处理设备,其中所述提取装置还包括将与运动相关的代码转换提示表示为参数运动模型的参数的单元。
18.如权利要求17所述的内容处理设备,其中所述提取装置使用参数运动模型来描述帧内的全局运动。
19.如权利要求17所述的内容处理设备,其中所述提取装置使用参数运动模型来描述任意形状规定区域内的运动。
20.如权利要求15所述的内容处理装置,其中所述提取装置将与运动相关的代码转换提示表示为包含在所述位流内的运动向量阵列。
21.如权利要求15所述的内容处理设备,其中所述提取装置将与运动相关的代码转换提示表示为从包含在所述位流的运动向量导出的运动向量阵列。
22.如权利要求15所述的内容处理设备,其中所述提取装置将与运动相关的代码转换提示表示为具有相关的运动向量的特征点列表,所述特征点在帧内被跟踪。
23.如权利要求15所述的内容处理设备,其中所述提取装置将与运动相关的代码转换提示表示为具有相关的运动向量的特征点列表,所述特征点在帧内在任意形状区域内被跟踪。
24.如权利要求15所述的内容处理设备,其中所述提取装置将与纹理和边缘相关的代码转换提示表示为DCT系数列表和从所述DCT系数列表获得的测量值之一,所述测量值是平均值、最小值、最大值、变量、标准偏差之一。
25.如权利要求15所述的内容处理设备,其中所述提取装置将所述特征点以及相关联的与运动相关的代码转换提示表示为列表。
26.如权利要求15所述的内容处理设备,其中所述提取装置将与编码复杂性相关的代码转换提示表示为从特征点使用期限列表获得的复杂性度量,这些特征点通过使用从一帧到下一帧的许多丢失的特征点和新的特征点在各个帧内被跟踪。
CNB018007597A 2000-03-13 2001-03-13 产生压缩的代码转换提示元数据的方法和设备 Expired - Fee Related CN100338956C (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP68720/00 2000-03-13
JP2000068720 2000-03-13
US20472900P 2000-05-16 2000-05-16
US60/204,729 2000-05-16
PCT/JP2001/001982 WO2001069936A2 (en) 2000-03-13 2001-03-13 Method and apparatus for generating compact transcoding hints metadata

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100917557A Division CN101035277A (zh) 2000-03-13 2001-03-13 产生压缩的代码转换提示元数据的方法和设备

Publications (2)

Publication Number Publication Date
CN1372769A CN1372769A (zh) 2002-10-02
CN100338956C true CN100338956C (zh) 2007-09-19

Family

ID=26587321

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB018007597A Expired - Fee Related CN100338956C (zh) 2000-03-13 2001-03-13 产生压缩的代码转换提示元数据的方法和设备

Country Status (8)

Country Link
EP (1) EP1177691B1 (zh)
JP (1) JP4576783B2 (zh)
KR (2) KR100844816B1 (zh)
CN (1) CN100338956C (zh)
AU (2) AU780811B2 (zh)
CA (1) CA2374067C (zh)
HK (1) HK1051941A1 (zh)
WO (1) WO2001069936A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104509118A (zh) * 2012-08-13 2015-04-08 迪士尼企业公司 对数字媒体内容的基于内容的分割

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050162515A1 (en) * 2000-10-24 2005-07-28 Objectvideo, Inc. Video surveillance system
US9892606B2 (en) * 2001-11-15 2018-02-13 Avigilon Fortress Corporation Video surveillance system employing video primitives
EP1309181A1 (en) * 2001-11-06 2003-05-07 Thomson Licensing S.A. Device, method and system for multimedia content adaption
KR100929849B1 (ko) 2001-11-10 2009-12-04 톰슨 라이센싱 모바일 핸드헬드 디바이스용 비디오 프로그램을 녹화, 재생하기 위한 시스템 및 방법
AU2002349188A1 (en) * 2001-11-26 2003-06-10 Interuniversitair Microelektronica Centrum Vzw Schema, syntactic analysis method and method of generating a bit stream based on a schema
US20030105880A1 (en) * 2001-12-04 2003-06-05 Koninklijke Philips Electronics N.V. Distributed processing, storage, and transmision of multimedia information
US7106366B2 (en) * 2001-12-19 2006-09-12 Eastman Kodak Company Image capture system incorporating metadata to facilitate transcoding
ATE513415T1 (de) * 2001-12-28 2011-07-15 Koninkl Philips Electronics Nv Verfahren zur verarbeitung von multimediainhalt
US8582031B2 (en) 2002-01-22 2013-11-12 Broadcom Corporation System and method of transmission and display of progressive video with hints for interlaced display
US7170936B2 (en) * 2002-03-28 2007-01-30 Intel Corporation Transcoding apparatus, system, and method
GB2387287B (en) * 2002-04-05 2006-03-15 Snell & Wilcox Limited Video compression transcoding
EP2202978A1 (en) * 2002-04-12 2010-06-30 Mitsubishi Denki Kabushiki Kaisha Hint information describing method for manipulating metadata
DE10218813B4 (de) * 2002-04-26 2005-12-08 Siemens Ag Verfahren zur Transformation eines Medienstroms in einen zweiten Medienstrom, Vorrichtung und Programmprodukt zur Ausführung des Verfahrens
EP1361758A1 (en) * 2002-05-06 2003-11-12 Motorola, Inc. Image content reconfiguration for different device capabilities and methods therefor
US6937168B2 (en) 2002-06-14 2005-08-30 Intel Corporation Transcoding media content from a personal video recorder for a portable device
EP1387584A1 (en) * 2002-07-22 2004-02-04 Deutsche Thomson-Brandt Gmbh Method and apparatus for storing and transmiting audio-visual data
CN100428791C (zh) * 2002-11-27 2008-10-22 腾研科技股份有限公司 Mpeg数据格式转换方法及使用该方法的解码系统
JP2004178332A (ja) * 2002-11-28 2004-06-24 Satake Corp コンテンツ変換制御方法及びコンテンツ利用システム
EP1579427A4 (en) 2003-01-09 2007-05-16 Dilithium Networks Pty Ltd METHOD AND APPARATUS FOR IMPROVING THE QUALITY OF VOICE TRANSCODING
EP1439707A3 (en) * 2003-01-17 2006-01-11 Broadcom Corporation Transmission and display of progressive video with hints for interlaced display
KR101009629B1 (ko) * 2003-03-13 2011-01-21 한국전자통신연구원 디지털 방송 프로그램 서비스를 제공하기 위한 확장메타데이터의 데이터 구조와 이를 이용한 적응적 프로그램서비스 제공 시스템 및 그 방법
US20040234140A1 (en) * 2003-05-19 2004-11-25 Shunichiro Nonaka Apparatus and method for moving image conversion, apparatus and method for moving image transmission, and programs therefor
JP2005071227A (ja) * 2003-08-27 2005-03-17 Sony Corp メタデータ流通管理システム,メタデータ流通管理装置,個人別メタデータ管理装置,クライアント端末,メタデータ流通管理方法およびコンピュータプログラム
WO2005029237A2 (en) 2003-09-15 2005-03-31 Digital Networks North America, Inc. Method and system for adaptive transcoding and transrating in a video network
EP1665075A4 (en) * 2003-09-27 2010-12-01 Korea Electronics Telecomm PACKET METADATA AND TARGETING / SYNCHRONIZING SERVICE DELIVERY SYSTEM USING THE SAME
US8165449B2 (en) 2003-10-01 2012-04-24 Microsoft Corporation DV metadata extraction
KR20050052717A (ko) * 2003-12-01 2005-06-07 엘지전자 주식회사 오디오 원본 보존 트랜스코딩 시스템 및 방법
US7075460B2 (en) * 2004-02-13 2006-07-11 Hewlett-Packard Development Company, L.P. Methods for scaling encoded data without requiring knowledge of the encoding scheme
US8832434B2 (en) * 2004-02-13 2014-09-09 Hewlett-Packard Development Company, L.P. Methods for generating data for describing scalable media
US7580520B2 (en) * 2004-02-14 2009-08-25 Hewlett-Packard Development Company, L.P. Methods for scaling a progressively encrypted sequence of scalable data
US7504968B2 (en) * 2004-02-13 2009-03-17 Hewlett-Packard Development Company, L.P. Media data decoding device
US6989773B2 (en) * 2004-02-13 2006-01-24 Hewlett-Packard Development Company, L.P. Media data encoding device
US7797454B2 (en) * 2004-02-13 2010-09-14 Hewlett-Packard Development Company, L.P. Media data transcoding devices
JP4528043B2 (ja) * 2004-07-12 2010-08-18 株式会社日立製作所 映像信号変換装置、変換方法及びこれを用いた映像信号記録装置
CN100493144C (zh) * 2004-09-10 2009-05-27 佳能株式会社 数据处理装置及其控制方法
JP4863438B2 (ja) 2004-09-10 2012-01-25 キヤノン株式会社 データ処理装置及び処理方法
US7302159B2 (en) * 2004-11-12 2007-11-27 Pelco Apparatus and method of storing video data
US8780957B2 (en) 2005-01-14 2014-07-15 Qualcomm Incorporated Optimal weights for MMSE space-time equalizer of multicode CDMA system
JP2006246008A (ja) * 2005-03-03 2006-09-14 Ntt Docomo Inc 映像トランスコードシステム、映像取得装置、トランスコーダ装置、及び、映像トランスコーディング方法
WO2006099082A2 (en) 2005-03-10 2006-09-21 Qualcomm Incorporated Content adaptive multimedia processing
JP4561453B2 (ja) * 2005-04-19 2010-10-13 株式会社日立製作所 記録再生装置、記録再生方法
US9113147B2 (en) 2005-09-27 2015-08-18 Qualcomm Incorporated Scalability techniques based on content information
CN101273637B (zh) * 2005-09-28 2013-04-03 艾利森电话股份有限公司 媒体管理器、媒体内容管理方法和系统以及包含媒体管理器的通信单元
US7743363B2 (en) * 2005-10-13 2010-06-22 Microsoft Corporation Extensible meta-data
US8948260B2 (en) 2005-10-17 2015-02-03 Qualcomm Incorporated Adaptive GOP structure in video streaming
US8654848B2 (en) 2005-10-17 2014-02-18 Qualcomm Incorporated Method and apparatus for shot detection in video streaming
KR100775923B1 (ko) * 2005-11-14 2007-11-13 노키아 코포레이션 디지털 권리 관리 시스템들 간의 콘텐츠 전송
GB2456593B (en) 2005-12-28 2011-07-13 Intel Corp A novel user sensitive information adaptive video transcoding framework
JP4914093B2 (ja) * 2006-03-23 2012-04-11 住友電気工業株式会社 情報中継装置、情報中継方法、および、情報中継システム
KR101373896B1 (ko) 2006-04-03 2014-03-12 퀄컴 인코포레이티드 전처리기 방법 및 장치
US9131164B2 (en) 2006-04-04 2015-09-08 Qualcomm Incorporated Preprocessor method and apparatus
US7984477B2 (en) 2007-03-16 2011-07-19 At&T Intellectual Property I, L.P. Real-time video compression
BRPI0721967A2 (pt) 2007-08-31 2014-03-18 Fujitsu Ltd Dispositivo de produção de sinal e método de produção de sinal
KR101365596B1 (ko) 2007-09-14 2014-03-12 삼성전자주식회사 영상 부호화장치 및 방법과 그 영상 복호화장치 및 방법
WO2009045178A1 (en) * 2007-10-05 2009-04-09 Agency For Science, Technology And Research A method of transcoding a data stream and a data transcoder
US8270739B2 (en) 2007-12-03 2012-09-18 Ecole De Technologie Superieure System and method for quality-aware selection of parameters in transcoding of digital images
JP5176175B2 (ja) 2007-11-02 2013-04-03 エコール・ドゥ・テクノロジー・スュペリュール 品質制御パラメータの変更及びスケーリングによって変換される画像のファイルサイズを予想するシステム、方法及びプログラム
FR2933837A1 (fr) * 2008-12-10 2010-01-15 Thomson Licensing Procede de codage, procede et dispositif de transcodage et flux de donnees image codees.
US8300961B2 (en) 2008-12-12 2012-10-30 Ecole De Technologie Superieure Method and system for low complexity transcoding of images with near optimal quality
WO2010086021A1 (en) * 2009-01-30 2010-08-05 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for efficient downstream video processing based on upstream metric processing and provision
US20110013692A1 (en) * 2009-03-29 2011-01-20 Cohen Robert A Adaptive Video Transcoding
JP5553140B2 (ja) 2009-10-02 2014-07-16 ソニー株式会社 情報処理装置および方法
US8763068B2 (en) 2010-12-09 2014-06-24 Microsoft Corporation Generation and provision of media metadata
US8880633B2 (en) 2010-12-17 2014-11-04 Akamai Technologies, Inc. Proxy server with byte-based include interpreter
US20120265853A1 (en) * 2010-12-17 2012-10-18 Akamai Technologies, Inc. Format-agnostic streaming architecture using an http network for streaming
CN103430535B (zh) * 2011-01-21 2017-11-03 汤姆逊许可公司 使用内容剖析的增强远程转码系统及方法
EP2518719B1 (en) 2011-04-08 2016-05-18 Dolby Laboratories Licensing Corporation Image range expansion control methods and apparatus
US20120294366A1 (en) * 2011-05-17 2012-11-22 Avi Eliyahu Video pre-encoding analyzing method for multiple bit rate encoding system
US9432704B2 (en) 2011-11-06 2016-08-30 Akamai Technologies Inc. Segmented parallel encoding with frame-aware, variable-size chunking
KR20130108882A (ko) * 2012-03-26 2013-10-07 삼성전자주식회사 복수의 트랜스코딩 수행시 로드 밸런싱을 위한 스케줄링 장치 및 방법
WO2013188457A2 (en) * 2012-06-12 2013-12-19 Coherent Logix, Incorporated A distributed architecture for encoding and delivering video content
JP2014175757A (ja) * 2013-03-07 2014-09-22 Kddi Corp 分割要素の結合による電子透かしを生成する電子透かし処理システム、サーバ、プログラム及び方法
US9338450B2 (en) 2013-03-18 2016-05-10 Ecole De Technologie Superieure Method and apparatus for signal encoding producing encoded signals of high fidelity at minimal sizes
US9661331B2 (en) 2013-03-18 2017-05-23 Vantrix Corporation Method and apparatus for signal encoding realizing optimal fidelity
US10609405B2 (en) 2013-03-18 2020-03-31 Ecole De Technologie Superieure Optimal signal encoding based on experimental data
JPWO2015034061A1 (ja) * 2013-09-06 2017-03-02 三菱電機株式会社 動画像符号化装置、動画像トランスコード装置、動画像符号化方法、動画像トランスコード方法及び動画像ストリーム伝送システム
US9485456B2 (en) 2013-12-30 2016-11-01 Akamai Technologies, Inc. Frame-rate conversion in a distributed computing system
US20150296215A1 (en) * 2014-04-11 2015-10-15 Microsoft Corporation Frame encoding using hints
GB201414204D0 (en) * 2014-08-11 2014-09-24 Advanced Risc Mach Ltd Data processing systems
WO2017020807A1 (en) * 2015-07-31 2017-02-09 Versitech Limited Method and system for global motion estimation and compensation
US11146608B2 (en) * 2017-07-20 2021-10-12 Disney Enterprises, Inc. Frame-accurate video seeking via web browsers
CN110198474B (zh) * 2018-02-27 2022-03-15 中兴通讯股份有限公司 一种码流处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1111878A (zh) * 1993-08-04 1995-11-15 荷兰皇家.Ptt.有限公司 代码转换装置
WO1998052356A1 (en) * 1997-05-16 1998-11-19 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
CN1205103A (zh) * 1996-09-16 1999-01-13 皇家菲利浦电子有限公司 通过信息载体实现同步记录和再现的记录和再生系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0457489A (ja) * 1990-06-26 1992-02-25 Nec Corp 動画像符号化器
WO1995035628A1 (en) * 1994-06-17 1995-12-28 Snell & Wilcox Limited Video compression
US6028639A (en) * 1997-12-19 2000-02-22 Thomson Consumer Electronics, Inc. Process and apparatus for converting an MPEG-2 bitstream into SMPTE-259 compatible bitstream
US6100940A (en) * 1998-01-21 2000-08-08 Sarnoff Corporation Apparatus and method for using side information to improve a coding system
JP3724205B2 (ja) * 1998-03-10 2005-12-07 ソニー株式会社 復号装置および方法、並びに記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1111878A (zh) * 1993-08-04 1995-11-15 荷兰皇家.Ptt.有限公司 代码转换装置
CN1205103A (zh) * 1996-09-16 1999-01-13 皇家菲利浦电子有限公司 通过信息载体实现同步记录和再现的记录和再生系统
WO1998052356A1 (en) * 1997-05-16 1998-11-19 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104509118A (zh) * 2012-08-13 2015-04-08 迪士尼企业公司 对数字媒体内容的基于内容的分割
CN104509118B (zh) * 2012-08-13 2017-11-17 迪士尼企业公司 对数字媒体内容的基于内容的分割

Also Published As

Publication number Publication date
CN1372769A (zh) 2002-10-02
CA2374067A1 (en) 2001-09-20
AU2005202313A1 (en) 2005-06-23
AU780811B2 (en) 2005-04-21
KR100844816B1 (ko) 2008-07-09
JP2003527005A (ja) 2003-09-09
WO2001069936A3 (en) 2002-02-28
KR20070063560A (ko) 2007-06-19
CA2374067C (en) 2012-09-25
KR100776529B1 (ko) 2007-11-16
KR20020006632A (ko) 2002-01-23
WO2001069936A2 (en) 2001-09-20
JP4576783B2 (ja) 2010-11-10
HK1051941A1 (en) 2003-08-22
AU4112201A (en) 2001-09-24
EP1177691B1 (en) 2011-01-26
AU2005202313B2 (en) 2008-06-19
EP1177691A1 (en) 2002-02-06

Similar Documents

Publication Publication Date Title
CN100338956C (zh) 产生压缩的代码转换提示元数据的方法和设备
CN101035277A (zh) 产生压缩的代码转换提示元数据的方法和设备
Chen et al. An overview of coding tools in AV1: the first video codec from the alliance for open media
US6888893B2 (en) System and process for broadcast and communication with very low bit-rate bi-level or sketch video
CN1294764C (zh) 用于编码双向预测视频对象面的方法及其解码装置
CN102986211B (zh) 视频编码中的速率控制
CN1647541A (zh) 用于在视频编码系统中指示量化器参数的方法与设备
CN1926884A (zh) 视频编码方法和装置
JP2017123649A (ja) シーンタイプに基づくビデオストリームのエンコーディング
CN1574970A (zh) 使用图像残余预测编码/解码图像的方法和设备
CN1643912A (zh) 用于在视频序列中对运动进行编码的方法
CN1656690A (zh) 在图像/视频编码器和/或解码器中将变换系数编码
CN1728830A (zh) 运动图像的预测编码装置和译码装置
CN1684518A (zh) 高保真代码转换
CN1372759A (zh) 用于客户机顶设备储存应用的转码
US20180302634A1 (en) Advanced video coding method, system, apparatus, and storage medium
CN1191718C (zh) 运动图象编码器及其方法
JP2006524460A (ja) 符号化されたビデオデータのコンテンツ分析
CN1713729A (zh) 一种视频压缩方法
CN1290335C (zh) 对被编码的视频信号同时进行格式压缩和解码的方法
Li et al. Bi-level video: Video communication at very low bit rates
Pourazad et al. Comparison of Emerging Video Compression Schemes for Efficient Transmission of 4K and 8K HDR Video
CN101035284A (zh) 一种流式视频像素域转码的方法
De Neve et al. Assessment of the compression efficiency of the MPEG-4 AVC specification
CN1245840C (zh) 动态影像压缩的可变位元率控制装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1051941

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070919

Termination date: 20200313