CN100369480C - 多路复用装置及逆多路复用装置 - Google Patents

多路复用装置及逆多路复用装置 Download PDF

Info

Publication number
CN100369480C
CN100369480C CNB038003902A CN03800390A CN100369480C CN 100369480 C CN100369480 C CN 100369480C CN B038003902 A CNB038003902 A CN B038003902A CN 03800390 A CN03800390 A CN 03800390A CN 100369480 C CN100369480 C CN 100369480C
Authority
CN
China
Prior art keywords
data
unit
packet
sampling
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB038003902A
Other languages
English (en)
Other versions
CN1515115A (zh
Inventor
远间正真
松井义德
能登屋阳司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1515115A publication Critical patent/CN1515115A/zh
Application granted granted Critical
Publication of CN100369480C publication Critical patent/CN100369480C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams

Abstract

多路复用装置100具有:获取视频数据的第1输入单元101;获取声音数据的第2输入单元104;解析视频数据并获取视频采样标题信息的第1解析单元103;解析声音数据并获取音频采样标题信息的第2解析单元106;根据视频采样标题信息决定视频数据的数据包单位后,与配置在视频数据的数据包单位前头的视频采样的重放开始时间一致,来决定声音数据的数据包单位的数据包单位决定单元107;以所决定的数据包单位制作数据包标题部分的数据包标题制作单元112;以所决定的数据包单位制作数据包数据部分的数据包数据制作单元113;结合所制作的数据包标题部分和数据包数据部分,并制作数据包的数据包结合单元114。

Description

多路复用装置及逆多路复用装置
技术领域
本发明涉及一种将动态图像数据和声音数据等媒体数据多路复用的多路复用装置,以及读入将动态图像数据和声音数据等媒体数据多路复用后的位串并进行逆多路复用的逆多路复用装置。
背景技术
近年来,随着通信网络的大容量化和传送技术的进步,在因特网上把包含动画、声音、文本或静止画等多媒体内容的动画像文件发信给个人电脑的动画发信服务明显普及起来。另外,以谋求携带终端等所谓第三代移动通信系统的规格标准化为目的的国际标准化团体3GPP(Third Generation Partnership Project),有制定有关无线动画通信规格即TS26.234(Transparentend-to-end packet switched streamingservice)等的动向,动画发信服务在向携带电话机和PDA等移动通信终端提供服务方面有望扩大。
在动画发信服务中,进行动画像文件的发信时,首先,多路复用装置需要读取动画、静止画、声音及文本等媒体数据,把媒体数据重放所需的标题信息和媒体数据的实体数据多路复用,制作动画像文件数据,作为该动画像文件数据的多路复用文件格式,MP4文件格式备受注目。
该MP4文件格式是国际标准化团体ISO/IEC(InternationalStandardization Organization/International Engineering Consortium)JTC1/SC29/WG 11为推进标准化而采用的多路复用文件格式,在上述3GPP的TS26.234中也被采用,由此可见其广泛普及性。
下面,说明MP4文件的数据结构。
MP4文件以被称为逻辑单元(box)的目标单位来存储标题信息和媒体数据的实体数据,通过把多个逻辑单元进行分级式排列而构成。
图1是构成现有MP4文件的逻辑单元结构的说明图。
逻辑单元901由用于存储逻辑单元901的标题信息的逻辑单元标题单元902和逻辑单元数据存储单元903构成,逻辑单元数据存储单元903用于存储逻辑单元901中包含的数据(例如,用于记述该逻辑单元的下一级逻辑单元和信息的字段等)。
该逻辑单元标题单元902具有逻辑单元尺寸904、逻辑单元类型905、版本906和旗标907的字段。
逻辑单元尺寸904是记述包括分配到该字段的字节尺寸的逻辑单元901的整体尺寸信息的字段。
逻辑单元类型905是记述用于识别逻辑单元901种类的标识符的字段。该标识符通常用4个字母文字串来表示。以下,在本说明书中有时也用该标识符表示各逻辑单元。
版本906是记述用于表示逻辑单元901的版本的版本序号的字段,旗标907是记述为每个逻辑单元901设定的旗标信息的字段。该版本906和旗标907不是所有逻辑单元901的必须字段,所以也可以存在没有这些字段的逻辑单元901。
由多个这种结构的逻辑单元901连续构成的MP4文件可以大致分为文件结构上必不可却的基本部分和根据需要而使用的扩展部。首先,说明MP4文件的基本部分。
图2是现有MP4文件的基本部分的说明图。
MP4文件910的基本部分911由文件标题部分912和文件数据部分913构成。
文件标题部分912是存储整个文件的标题信息的部分,例如存储动画像(视频)数据的压缩编码方式等信息,由文件类型逻辑单元914和和移动逻辑单元915构成。
文件类型逻辑单元914是用“ftyp”标识符来识别的逻辑单元,存储用于识别MP4文件的信息。关于向MP4文件存储何种媒体数据,并且存储使用了何种压缩编码方式的动画像(视频)数据和声音(音频)数据等,标准化团体和服务提供方可以独自进行规定,所以把用于识别MP4文件是根据何种规定而制作的信息存储在该文件类型逻辑单元914中。
移动逻辑单元915是用“moov”标识符来识别的逻辑单元,用于存储文件数据部分913中存储的实体数据的标题信息,例如显示时间长度等信息。
文件数据部分913由用“mdat”标识符识别的移动数据逻辑单元916构成。另外,也可以参照不同于该MP4文件910的外部文件,来取代该文件数据913。这样,参照外部文件时,MP4文件910的基本部分911只由文件标题部分912构成。本说明书中说明的是MP4文件910内包含实体数据的情况,不是参照外部文件时的情况。
移动数据逻辑单元916是以被称为采样的单位来存储媒体数据的实体数据的逻辑单元。此处所说采样是MP4文件中的最小存取单位,相当于利用MPEG(Moving Picture Experts Group)-4 Visual压缩编码方式编码后的视频数据的VOP(Video Object Plane)和声音数据的帧。
下面,对现有MP4文件的基本部分的结构进行剖析,说明移动逻辑单元915的结构。
图3是现有MP4文件的移动逻辑单元的结构说明图。
如图3(a)所示,移动逻辑单元915由前面说明的逻辑单元标题部分902和逻辑单元数据存储部分903构成。构成逻辑单元标题部分902的逻辑单元尺寸904的字段记述着移动逻辑单元915的尺寸信息(在图3(a)中记为“××××”),逻辑单元类型905的字段记述着移动逻辑单元915的标识符“moov”。
移动逻辑单元915的逻辑单元数据存储部分903中存储有用于存储MP4文件910的基本部分911的标题信息的移动标题逻辑单元917,和用于存储视频磁道和音频磁道等每个磁道的标题信息的磁道逻辑单元918等。此处所说的磁道意味着MP4文件910中包含的各介质的整体采样数据,动画像和声音及文本等磁道分别被称为视频磁道、音频磁道和文本磁道等。MP4文件910内存在多个同一介质的数据时,形成相对同一介质存在多个磁道的状态。具体而言,例如,MP4文件910内含有两种动画像数据时,存在两个视频磁道。
移动标题逻辑单元917也是由前面说明的逻辑单元标题部分902和逻辑单元数据存储部分903构成,构成逻辑单元标题部分902的逻辑单元尺寸904的字段记述着移动标题逻辑单元917的尺寸信息(在图3(a)中记为“×××”),逻辑单元类型905的字段记述着移动标题逻辑单元917的标识符“mvhd”。移动标题逻辑单元917的逻辑单元数据存储部分903存储有MP4文件910的基本部分911中包含的内容重放所需的时间长度的相关信息等。
构成磁道逻辑单元918的逻辑单元标题部分902的逻辑单元尺寸904的字段记述着磁道逻辑单元918的尺寸信息(在图3(a)中记为“××”),逻辑单元类型905的字段记述着磁道逻辑单元918的标识符“trak”。磁道逻辑单元918的逻辑单元数据存储部分903存储着磁道标题逻辑单元919。
磁道标题逻辑单元919是具有用于记述每个磁道的标题信息的字段的逻辑单元,用“tkhd”标识符来识别。该磁道标题逻辑单元919的逻辑单元数据存储部分903记述着用于记述磁道种类识别用磁道ID的字段,和磁道重放所需时间长度的相关信息等。
这样,逻辑单元901在移动逻辑单元915中呈分级式排列,用“trak”识别的磁道逻辑单元918存储着视频和音频等每个磁道的标题信息。在该磁道逻辑单元918中包含的下位逻辑单元存储着磁道的采样单位的标题信息。
如果把图3(a)所示的移动逻辑单元915的结构表示成树状,获得图3(b)所示图。
即,可以判明以下情况,排列移动标题逻辑单元917、磁道逻辑单元918作为移动逻辑单元915的下位逻辑单元组,排列磁道标题逻辑单元919作为磁道逻辑单元918的下位逻辑单元组,逻辑单元901被分级配置。
在MP4文件格式的标准化初期,MP4文件910仅由上述基本部分911构成。但是,媒体数据的信息量增多时,尺寸变大,所以具有难以适用流动重放等各种问题,因此进行了增加使用将标题逻辑单元和数据逻辑单元的组连接多个而构成的扩展部的改良。
图4是表示含有以往的扩展部的MP4文件的结构图。
如图4所示,施加了上述改良的MP4文件920由基本部分911和扩展部921构成。含有该扩展部921的MP4文件920可以把所有媒体数据存储在扩展部921中,所以也可以省略MP4文件基本部分911的移动数据逻辑单元916。
扩展部921通过连接多个以规定单位划分的数据包922而构成。
该数据包922由移动区段逻辑单元923和移动数据逻辑单元916构成一对,也称为移动区段。
移动数据逻辑单元916是以上述所划分的规定单位存储每个磁道的采样的逻辑单元,移动区段逻辑单元923是存储与该移动数据逻辑单元916对应的标题信息的逻辑单元,用“moof”标识符来识别。有关该移动区段逻辑单元923的结构将做进一步的详细说明。
图5是以往的移动区段逻辑单元的结构说明图。
如图5所示,移动区段逻辑单元923的逻辑单元数据存储部分903存储着移动区段标题逻辑单元924和多个磁道区段逻辑单元925。
移动区段标题逻辑单元924是用“mfhd”标识符识别的逻辑单元,存储有移动区段逻辑单元923的整体标题信息。
磁道区段逻辑单元925是用“traf”标识符识别的逻辑单元,存储有每个磁道的标题信息。
通常,为一个磁道的标题信息准备一个磁道区段逻辑单元925,但也可以为一个磁道的标题信息准备多个磁道区段逻辑单元925。这样,把一个磁道的标题信息分割存储在多个磁道区段逻辑单元925时,磁道区段逻辑单元925的前头采样的解码时间呈升序排列。
该磁道区段逻辑单元925的逻辑单元数据存储部分903存储着磁道区段标题逻辑单元926和一个以上的磁道区段运行逻辑单元927。
磁道区段标题逻辑单元926是用“tfhd”标识符识别的逻辑单元,存储用于记述磁道种类识别用磁道ID的字段,和采样的重放时间长度等默认值相关信息等。
磁道区段运行逻辑单元927是用“trun”标识符识别的逻辑单元,存储采样单位的标题信息。使用图6详细说明该磁道区段运行逻辑单元927。
图6是以往的磁道区段运行逻辑单元927的结构说明图。
旗标907是记述为每个逻辑单元901设定的旗标信息的字段,但在此处,旗标907还记述表示磁道区段运行逻辑单元927中是否有从数据位移929到采样组合时间位移936的各个字段的旗标信息。
采样计数928是记述表示磁道区段运行逻辑单元927存储有多少个采样的相关标题信息的字段。
数据位移929是记述指针信息的字段,该指针信息表示在磁道区段运行逻辑单元927存储有标题信息的采样中,位于磁道区段运行逻辑单元927前头的采样的实体数据存储在成组的移动数据逻辑单元916的何处。
前头采样旗标930是当磁道区段运行逻辑单元927的前头采样是可以随机存取的采样时,可以覆盖后述的采样旗标935的字段值的字段。此处所说的随机存取意味着,例如MP4文件重放装置在重放途中使数据的重放位置移动到10秒后位置、或从数据中途开始重放的处理动作。所说可以随机存取的采样意味着在视频采样中,MP4文件重放装置中构成不参照其他帧的数据就可以单独解码的帧、即画面内编码帧(所谓内部帧)的采样。音频采样的任何采样均可单独解码,所以可以说所有音频采样都是可以随机存取的采样。
表931是把表示每个采样的标题信息的条目932按采样计数928所示的个数进行集成而得。
条目932是表示每个采样的标题信息的字段的汇集,利用上述旗标907表示包含哪个字段。包含于条目932的字段中有:记述采样的重放时间长度的采样宽度933;记述采样的尺寸的采样尺寸934;记述表示采样是否可以随机存取的旗标信息的采样旗标935;为了使用利用了双向预测的采样,记述采样的解码时间和显示时间的差分值的采样组合时间位移936。
条目932不包含这些字段时,磁道区段标题逻辑单元926和移动区段逻辑单元925内的移动扩充逻辑单元(标识符“mvex”)记述着这些字段的默认值,所以各个采样的标题信息使用这些默认值。
在磁道区段运行逻辑单元927中从解码时间早的采样顺序记述标题信息。因此,重放MP4文件的装置在检索采样的标题信息时,从文件中的前头磁道区段逻辑单元925顺序参照磁道区段标题逻辑单元926内的磁道ID,从而检索包含要获取磁道的标题信息的磁道区段逻辑单元925,在磁道区段逻辑单元925内也从前头的磁道区段运行逻辑单元927顺序检索采样的标题信息。
这样,即使是含有该扩展部921的MP4文件920,解码时的初始化信息等磁道整体所需的信息也被存储在移动逻辑单元915中。
下面,说明含有具有这种结构的扩展部921的MP4文件的构成示例。
图7是表示含有以往的扩展部的MP4文件的扩展部的构成示例图。
图7表示有关内容的存储方法的两种示例说明,内容的重放时间长度为60秒。
图7(a)所示MP4文件940的结构是在基本部分941和扩展部942双方存储媒体数据。即,在基本部分941的mdat_1(代码945)存储0~30秒的媒体数据,在扩展部942的mdat_2(代码947)存储30~45秒的媒体数据,在mdat_3(代码949)存储45~60秒的媒体数据。mdat_1(代码945)的标题信息存储在moov944,mdat_2(代码947)的标题信息存储在moof_1(代码946),mdat_3(代码949)的标题信息存储在moof_2(代码948)。
与此相对,图7(b)所示的MP4文件950形成仅向扩展部952存储媒体数据的结构。即,基本部分951由ftyp953和moov954构成,不包含mdat,在扩展部952的mdat_1(代码956)存储0~30秒的媒体数据,在mdat_2(代码958)存储30~60秒的媒体数据。mdat_1(代码956)的标题信息存储在moof_1(代码955),mdat_2(代码958)的标题信息存储在moof_2(代码957)。
下面,使用图8~图10说明上述MP4文件的扩展部是如何制作的。
图8表示现有多路复用装置的结构方框图。
多路复用装置960是把媒体数据多路复用并制作MP4文件的扩展部数据的装置。此处是把视频数据和声音数据多路复用,制作MP4文件的扩展部数据。
第1输入单元961把视频数据读取到多路复用装置960,并存储在第1数据存储单元962,第2输入单元964把声音数据读取到多路复用装置960,并存储在第2数据存储单元965。
第1解析单元963从第1数据存储单元962读出一个采样的视频数据并进行解析,把视频采样的标题信息输出到数据包单位决定单元967。第2解析单元966从第2数据存储单元965读出一个采样的声音数据并进行解析,把音频采样的标题信息输出到数据包单位决定单元967。该视频采样标题信息和音频采样标题数据包含表示采样的尺寸和重放时间长度的信息,视频采样标题信息也包含表示视频采样是否为内部帧的信息。
数据包单位决定单元967为了使数据包中包含的采样数目一定,而决定视频数据和声音数据的数据包单位,根据所获取的采样标题信息制作各数据包的标题信息。
图9表示以往的数据包单位决定单元的处理动作流程。其中,把存储在一个数据包的采样数目设为N,该值被预先确定,并保持在多路复用装置960的存储器中。
首先,第1解析单元963获取一个视频采样(S901),把视频采样标题信息输出到数据包单位决定单元967,数据包单位决定单元967把视频采样标题信息追加到数据包制作表中(S902)。然后,数据包单位决定单元967更新数据包中包含的视频采样数目(S903),判断数据包中包含的视频采样数目是否为N(S904)。
当数据包中包含的视频采样数目小于N时(在S904判定为No),反复上述S901~S903的处理,当数据包中包含的视频采样数目为N时(在S904判定为Yes),数据包单位决定单元967把N个视频采样进行数据包,结束处理动作(S905)。
同样,数据包单位决定单元967也对音频进行上述S901~S905的处理动作,由此进行音频采样的数据包。
数据包单位决定单元967反复该流程的处理动作,直到所有采样的数据包结束。
图10表示存储以往的视频采样的标题信息的数据包制作表的一个示例。该数据包制作表968a记述着每个视频采样的采样尺寸、采样的重放时间长度、和表示该视频采样是否为内部帧的画面内编码帧旗标的相关信息。其中,存储在数据包的前头的视频采样的尺寸为300字节,重放时间长度为30ms,表示不是画面内编码帧,第2个视频采样表示是画面内编码帧。该数据包制作表968a在数据包单位决定单元967被顺序追加上这些信息,在制作一个数据包中包含的最后采样即第N号时,被输出到数据包制作表存储单元968。
再次参照图8,数据包单位决定单元967向数据包制作表968a记述N个采样的标题信息后,把数据包制作表968a输出到数据包制作表存储单元968,同时向数据包标题制作单元969输出数据包制作信号。
数据包(packet)标题制作单元969获取数据包制作信号,从保持在数据包制作表存储单元968的数据包制作表968a读出数据包采样标题信息,制作moof数据。数据包标题制作单元969向数据包结合单元971输出所制作的moof数据,同时向数据包数据制作单元970输出包含指针信息和采样尺寸信息的mdat信息,该指针信息表示数据包中包含的采样的实体数据存储在第1数据存储单元962和第2数据存储单元965的何处。
数据包数据制作单元970根据所获取的mdat信息,从第1数据存储单元962和第2数据存储单元965读出采样的实体数据,制作mdat数据,向数据包结合单元971输出mdat数据。
数据包结合单元971使moof数据与mdat数据结合,输出一个数据包的mp4扩展部数据。
最后,所输出的一个数据包的mp4扩展部数据被读取到制作MP4文件的装置中,依次制作的mp4扩展部数据被顺序排列,由此制作MP4文件的扩展部。之后,通过用该文件制作装置使MP4文件的基本部分和扩展部结合,制作MP4文件。
但是,使利用这种以往的多路复用装置被多路复用的MP4文件的扩展部重放时,具有下述问题。
其一,首先,以往的多路复用装置进行多路复用时不考虑数据包中包含的采样的重放开始时间,所以,例如期望与某重放开始时间的视频采样同步的音频采样有时被存储在不同于视频采样的数据包中。因此,MP4文件的重放装置侧具有重放时的数据存取的效率恶化的问题。
另外,以往的多路复用装置以数据包中包含的采样数目为基准进行多路复用,所以把可以随机存取的采样即相当于内部帧的视频采样存储在数据包中的某处时,存储部位因数据包而不同的情况很多。因此,在MP4文件的重放装置侧检索可以随机存取的采样时,必须检索数据包中包含的所有视频采样,具有采样检索所需计算量庞大的问题。
关于这些问题,使用图11做进一步具体说明。
图11是以往的多路复用装置的问题说明图。
图11(a)明确了重放时的数据存取效率恶化的第1问题。
各mdat中包含的采样的标题信息被存储在前面的moof中,存储在mdat_1的重放开始时间为20s的视频采样的相关标题信息作为前头采样被存储在moof_1,存储在mdat_10的重放开始时间为20s的音频采样的相关标题信息作为最终采样被存储在moof_10。
因此,MP4文件重放装置如果要重放内容的重放时间20s的部分,从获取存储在moof_1的视频采样的标题信息到获取音频采样的标题信息之前,必须检索到moof_10,恶化了数据存取的效率。
图11(b)明确了检索可以随机存取的采样所需计算量变庞大的第2问题。
存储在mdat_1最后的第i号可以随机存取的视频采样的相关标题信息作为最终采样被存储在moof_1,存储在mdat_3最后的第i+1号可以随机存取的视频采样的相关标题信息作为最终采样被存储在moof_3。
因此,MP4文件重放装置如果要进行随机存取,必须检索到moof的最终采样,使得检索所需计算量变庞大。
另外,除这些第1问题和第2问题外,用以往的多路复用装置制作的MP4文件的扩展部的结构,用于获取采样数据的查询次数变多,所以具有不适合光盘重放机器等查询速度慢的机器的随机存取重放的问题。
关于这个问题,再次使用图11(b)进行说明。要随机存取moof_1的第i号可以随机存取的视频采样时,重放装置为了获取第i号可以随机存取的视频采样的标题信息,读出到moof_1的前头位置,使指示字移动,顺序解析moof_1内部。此时,需要进行第1次查询。
然后,重放装置获取第i号可以随机存取的视频采样的实体数据存储在mdat_1的何处,向实体数据的开始位置读出,使指示字移动。此时,第i号可以随机存取的视频采样的实体数据被存储在mdat_1的末端,所以不能从mdat_1的前头位置连续读出并使指示字移动,不能获取采样的实体数据,需要进行第2次查询。
即,在mdat_1的前头位置和实体数据的开始位置读出并使指示字移动时,需要分别进行查询动作,所以当重放装置是查询速度慢的机器时,进行随机存取重放将要花费时间。特别是,当期望与该第i号可以随机存取的视频采样同步的音频采样等的实体数据被存储在不同的数据包等与视频采样的实体数据分开存储时,更加需要查询动作,难以迅速进行随机存取重放。
发明内容
鉴于这些问题,本发明的目的是提供一种多路复用装置,媒体数据的多路复用文件在重放时的数据存取效率良好,在多路复用媒体数据时可以使检索采样所需计算量变少。
另外,其目的还在于提供一种多路复用装置,多路复用媒体数据时可以使多路复用文件适合查询速度慢的机器的随机存取重放。
此外,其目的还在于提供一种逆多路复用装置,可以获取经由这种多路复用装置所多路复用的文件,并能进行多路复用分离。
为了达到上述目的,本发明涉及的多路复用装置,将媒体数据数据包多路复用,并制作复用数据,该媒体数据包括图像数据和声音数据及文本数据中的至少一个,具有:
媒体数据获取单元,用于获取所述媒体数据;
解析单元,解析所述媒体数据获取单元所获取的所述媒体数据,对所述媒体数据中包含的所述图像数据、声音数据及文本数据的最小存取单位的采样,获取表示采样的重放开始时间的重放开始时间信息;
数据包单位决定单元,根据所述解析单元所获取的所述重放开始时间信息,使所述媒体数据中包含的所述图像数据、声音数据及文本数据的各个采样的重放开始时间一致,决定对所述媒体数据进行打包的单位;
数据包标题部分制作单元,制作以所述数据包单位决定单元所决定的数据包单位存储所述媒体数据的标题的数据包标题部分;
数据包数据部分制作单元,制作以所述数据包单位决定单元所决定的数据包单位来存储所述媒体数据的实体数据的数据包数据部分;和
打数据包单元,将所述数据包标题部分制作单元所制作的数据包标题部分和所述数据包数据部分制作单元所制作的数据包数据部分进行结合,制作数据包。
本发明涉及的多路复用方法,把媒体数据数据包多路复用,并制作复用数据,该媒体数据包括图像数据和声音数据及文本数据中的至少一个,包括:
媒体数据获取步骤,获取所述媒体数据;
解析步骤,解析在所述媒体数据获取步骤所获取的所述媒体数据,对所述媒体数据中包含的所述图像数据、声音数据及文本数据的最小存取单位的采样,获取表示采样的重放开始时间的重放开始时间信息;
数据包单位决定步骤,根据在所述解析步骤所获取的所述重放开始时间信息,使所述媒体数据中包含的所述图像数据、声音数据及文本数据的各个采样的重放开始时间一致,决定对所述媒体数据进行打包的单位;
数据包标题部分制作步骤,制作以所述数据包单位决定步骤所决定的数据包单位来存储所述媒体数据的标题的数据包标题部分;
数据包数据部分制作步骤,制作以所述数据包单位决定步骤所决定的数据包单位来存储所述媒体数据的实体数据的数据包数据部分;和
打数据包步骤,将所述数据包标题部分制作步骤所制作的数据包标题部分和所述数据包数据部分制作步骤所制作的数据包数据部分进行结合,来制作数据包。
媒体数据中包含的图像数据和声音数据及文本数据的重放开始时间被调为一致,并存储在数据包中,所以可以提高重放装置侧进行重放时的数据存取效率。
数据包中包含的前头的视频采样成为内部帧的视频采样,所以能够大幅度削减重放装置侧进行随机存取时检索采样所需的计算量。
视频采样和音频采样的重放开始数据形成升序,并存储在mdat中,所以可以减少重放装置侧进行随机存取时的查询动作次数,即使查询速度慢的重放装置也能实现迅速的随机存取重放。
此外,本发明不仅可以实现这种多路复用装置,也可以实现以这种多路复用装置具有的特征方式为步骤的多路复用方法,还可以实现使计算机执行这些步骤的程序。毋庸置言,这种程序也可以通过CD-ROM等记录介质和因特网等传送介质进行发信。
附图说明
图1是构成现有MP4文件的逻辑单元结构的说明图。
图2是现有MP4文件的基本部分的说明图。
图3(a)是现有MP4文件的移动逻辑单元的结构说明图。
图3(b)是把现有MP4文件的移动逻辑单元的结构表示成树状的图。
图4是表示含有以往的扩展部的MP4文件的结构图。
图5是以往的移动区段逻辑单元的结构说明图。
图6是以往的磁道区段运行逻辑单元的结构说明图。
图7(a)是表示含有以往的扩展部的MP4文件的第1构成示例图。
图7(b)是表示含有以往的扩展部的MP4文件的第2构成示例图。
图8是表示现有多路复用装置的结构方框图。
图9是表示以往的数据包单位决定单元的处理动作流程图。
图10是表示存储以往的视频采样的标题信息的数据包制作表的一个示例图。
图11(a)是以往的多路复用装置的第1问题的说明图。
图11(b)是以往的多路复用装置的第2问题的说明图。
图12是表示本发明的实施方式1涉及的多路复用装置的功能结构的方框图。
图13是表示多路复用装置的处理动作的流程图。
图14是表示视频数据包单位决定单元的处理动作的流程图。
图15是表示声音数据包单位决定单元的处理动作的流程图。
图16(a)是表示多路复用装置制作的MP4文件扩展部的数据结构的第1示例图。
图16(b)是表示多路复用装置制作的MP4文件扩展部的数据结构的第2示例图。
图17是表示本发明的实施方式2涉及的多路复用装置的数据包单位决定单元的功能结构的方框图。
图18是表示视频数据包单位决定单元的第1处理动作的流程图。
图19是表示视频数据包单位决定单元的第2处理动作的流程图。
图20(a)是表示多路复用装置制作的MP4文件扩展部的数据结构的第1示例图。
图20(b)是表示多路复用装置制作的MP4文件扩展部的数据结构的第2示例图。
图21是表示本发明的实施方式3涉及的多路复用装置的数据包数据制作单元的功能结构的方框图。
图22是表示数据包数据制作单元的处理动作的流程图。
图23是表示多路复用装置制作的MP4文件扩展部的数据结构的概略图。
图24是表示多路复用装置制作的MP4文件扩展部的数据结构的第1示例图。
图25是表示多路复用装置制作的MP4文件扩展部的数据结构的第2示例图。
图26是表示本发明的实施方式4涉及的逆多路复用装置的功能结构的方框图。
图27是表示逆多路复用装置的处理动作的流程图。
图28是表示本发明涉及的多路复用装置的应用示例图。
最佳实施方式
以下,参照附图说明本发明的实施方式。本实施方式的视频数据使用MPEG-4 Visual编码数据,本实施方式的声音数据使用MPEG-4Audio编码数据。另外,本实施方式主要说明把视频数据和声音数据多路复用的装置,但不意味着排除对文本数据等其他媒体数据的多路复用。
(实施方式1)
首先,参照图12~图16说明本发明的实施方式1涉及的多路复用装置。
图12是表示本发明的实施方式1涉及的多路复用装置的功能结构的方框图。
该多路复用装置100是把视频数据和声音数据多路复用并制作MP4文件的扩展部数据的装置,具有:第1输入单元101、第1数据存储单元102、第1解析单元103、第2输入单元104、第2数据存储单元105、第2解析单元106、数据包单位决定单元107、数据包制作表存储单元111、数据包标题制作单元112、数据包数据制作单元113和数据包结合单元114。
第1输入单元101是把已编码的视频数据从图像编码装置等读入多路复用装置100内的接口,把所获取的视频输入数据依次存储在第1数据存储单元102。
第1数据存储单元102是临时保持视频输入数据的高速缓冲存储器和RAM(Random Access Memory)等。
第1解析单元103是读出保持在第1数据存储单元102的视频输入数据中一个视频采样的数据即视频采样数据,并进行解析后输出视频采样的标题信息的处理单元,通过CPU和存储器来实现。在该第1解析单元103输出的视频采样标题数据包含表示视频采样的尺寸、重放时间长度及是否为内部帧的信息。另外,该视频采样标题信息如果是使用了双向预测的采样时,也包含解码时间和显示时间的差分信息。
第2输入单元104是把已编码的声音数据从音频编码装置等读入多路复用装置100内的接口,把所获取的音频输入数据依次存储在第2数据存储单元105。
第2数据存储单元105是临时保持音频输入数据的高速缓冲存储器和RAM等。
第2解析单元106是读出保持在第2数据存储单元105的音频输入数据中一个音频采样的数据即音频采样数据,并进行解析后输出音频采样的标题信息的处理单元,通过CPU和存储器来实现。在该第2解析单元106输出的音频采样标题数据包含表示视频采样的尺寸和重放时间长度的信息。
数据包单位决定单元107是决定视频数据和声音数据的数据包单位的处理单元,通过CPU和存储器来实现,用于存储数据包中包含的视频采样和音频采样的标题信息,使数据包中包含的视频采样的重放开始时间和音频采样的重放开始时间一致。数据包单位决定单元107把所决定的数据包单位的采样标题信息的集合作为数据包制作表输出到数据包制作表存储单元111,同时在决定数据包单位后,把用于指示制作数据包标题的数据包制作信号输出到数据包标题制作单元112。该数据包单位决定单元107具有:以时间单位调整数据包单位的时间调整单元108;决定视频数据的数据包单位的视频数据包单位决定单元109;和决定声音数据的数据包单位的声音数据包单位决定单元110。
时间调整单元108是调整数据包结束时间的处理单元,以调整在数据包所决定的时间单位内。该时间调整单元108首先向视频数据包单位决定单元109输出预先确定的时间(目标时间)。该目标时间也可以由用户来指定。此时,多路复用装置100通过键盘等输入装置获取目标时间的指定,向时间调整单元108输出表示由输入装置指定的目标时间的目标时间输入信号。
视频数据包单位决定单元109是从第1解析单元103获取视频采样标题信息,并决定视频数据的数据包单位的处理单元。
该视频数据包单位决定单元109为了从时间调整单元108获取目标时间,从第1解析单元103获取视频采样标题信息,把视频数据调整在目标时间内的数据包中,一面计数各视频采样标题信息中包含的各视频采样的重放时间长度,一面顺序追加到视频数据包制作表中,直到数据包中包含的最后视频采样的标题信息为止。视频数据包单位决定单元109把数据包中包含的最后视频采样的标题信息追加到视频数据包制作表中,向声音数据包单位决定单元110输出视频采样重放时间信息,该信息表示该数据包中包含的最初视频采样的重放开始时间和该数据包中包含的视频采样的重放时间长度的总和。
声音数据包单位决定单元110是获取从第2解析单元106所获取的音频采样标题信息,并决定声音数据的数据包单位的处理单元。
该声音数据包单位决定单元110从视频数据包单位决定单元109获取视频采样重放时间信息,从第2解析单元106获取音频采样标题信息,把重放开始时间与该数据包中包含的前头视频采样的重放开始时间相同或接近的音频采样配置在数据包的前头,一面计数各音频采样标题信息中包含的各音频采样的重放时间长度,一面配置该数据包中包含的最后音频采样,以使该数据包中包含的音频采样的重放时间长度的总和与该数据包中包含的视频采样的重放时间长度的总和相同或接近。
其中,所说重放开始时间与视频采样的重放开始时间接近的音频采样,是指在视频采样的重放开始时间以后,重放开始时间最早的音频采样,或在视频采样的重放开始时间以前,重放开始时间最迟的音频采样。
然后,声音数据包单位决定单元110向声音数据包制作表顺序追加从数据包中包含的前头音频采样到最后音频采样的音频采样标题信息。
数据包制作表存储单元111是临时保持从数据包单位决定单元107输出的视频数据包制作表及声音数据包制作表的高速缓冲存储器和RAM等。
数据包标题制作单元112是用于制作存储有数据包标题信息的数据包标题部分(moof)的处理单元,通过CPU和存储器来实现。
该数据包标题制作单元112从数据包单位决定单元107获取数据包制作信号,参照数据包制作表从数据包制作表存储单元111读出数据包采样标题信息,制作moof数据,输出给数据包结合单元114。
数据包标题制作单元112还向数据包数据制作单元113输出指针信息、表示采样尺寸的采样尺寸信息和包含用于指示制作数据包数据部分(mdat)的信号的mdat信息,其中,指针信息表示数据包中包含的视频采样及音频采样的实体数据存储在第1数据存储单元102及第2数据存储单元105的何处。
该数据包标题制作单元112在制作moof时,例如,对类似AMR(Advanced Multi Rate CODEC)那样的、利用在数据中途产生编码率切换的编码方式进行编码后的媒体数据,也可以根据编码率把标题信息存储在不同的traf。
数据包数据制作单元113是用于制作存储有数据包的实体数据的数据包数据部分(mdat)的处理单元,通过CPU和存储器来实现。
该数据包数据制作单元113从数据包标题制作单元112获取mdat信息,根据mdat信息中包含的指针信息和采样尺寸信息,从第1数据存储单元102读出数据包中包含的视频采样的视频实体数据,从第2数据存储单元105读出数据包中包含的音频采样的音频实体数据,制作mdat数据,输出给数据包结合单元114。
数据包结合单元114是使moof数据与mdat数据结合,制作一个数据包的mp4扩展部数据的处理单元,通过CPU和存储器来实现。该数据包结合单元114从数据包标题制作单元112获取moof数据,从数据包数据制作单元113获取mdat数据,使moof数据与mdat数据结合,制作一个数据包的mp4扩展部数据,把顺序制作的mp4扩展部数据输出给用于制作MP4文件的装置。
使用图13,说明这种结构的多路复用装置100制作MP4文件的扩展部的处理顺序。
图13是表示多路复用装置100的处理动作的流程图。
首先,第1输入单元101和第2输入单元104分别把视频数据和声音数据读取到多路复用装置100内(S100),第1输入单元101把视频输入数据存储在第1数据存储单元102,第2输入单元104把音频输入数据存储在第2数据存储单元105。
然后,第1解析单元103从第1数据存储单元102读出视频采样数据并进行解析,向数据包单位决定单元107的视频数据包单位决定单元109输出视频采样标题信息。视频数据包单位决定单元109根据从第1解析单元103获取的视频采样标题信息和从时间调整单元108获取的目标时间,决定视频数据的数据包单位(S110)。关于视频数据包单位决定单元109决定视频数据的数据包单位的处理动作,将在后面详细叙述。
然后,视频数据包单位决定单元109向声音数据包单位决定单元110输出已决定数据包单位后的数据包中包含的视频采样的重放时间信息(S120)。
声音数据包单位决定单元110根据从视频采样单位决定单元109获取的视频采样的重放时间信息,决定声音数据的数据包单位(S130)。此时,声音数据包单位决定单元110决定数据包单位,以使数据包中包含的前头音频采样的重放开始时间与数据包中包含的前头视频采样的重放开始时间相同或接近。
当声音数据包单位决定单元110决定声音数据的数据包单位时,数据包单位决定单元107就向数据包制作表存储单元111输出数据包制作表,向数据包标题制作单元112输出数据包制作信号。
之后,数据包标题制作单元112以所决定的单位制作moof数据,并输出到数据包结合单元114,数据包数据制作单元113以所决定的单位制作mdat数据,并输出到数据包结合单元114,数据包结合单元114使moof数据与mdat数据结合,以所决定的单位制作一个数据包(S140),并作为一个数据包的mp4扩展部数据输出。
制作完一个数据包后,多路复用装置100判断从第1输入单元101和第2输入单元104是否还有数据输入(S150)。此时,如果有数据输入(在S150判断为No),多路复用装置100从保持在缓冲存储器即第1数据存储单元102、第2数据存储单元105及数据包制作表存储单元111的数据中,清除已完成数据包的数据(S160),反复上述从S110到S150的处理动作。
另一方面,如果没有数据输入(在S150判断为Yes),多路复用装置100结束MP4文件的扩展部的制作处理。
这样,多路复用装置100首先决定视频数据的数据包单位后,决定声音数据的数据包单位,进行媒体数据的复用,由此来制作MP4文件的扩展部。
下面,详细说明在图13的步骤S110中,视频数据包单位决定单元109决定视频数据的数据包单位的处理动作。
图14是表示视频数据包单位决定单元109的处理动作的流程图。
在该流程之前,视频数据包单位决定单元109预先从时间调整单元108获取目标时间。
视频数据包单位决定单元109从第1解析单元103获取视频采样标题信息(S111),向视频数据包制作表追加视频采样标题信息(S112)。
此时,视频数据包单位决定单元109判定视频采样标题信息中包含的视频采样的重放时间长度的合计、即数据包中包含的视频数据的总重放时间是否已达到前面所获取的目标时间或已超过目标时间(S113)。
数据包中包含的视频数据的总重放时间未达到目标时间时(在S113判定为No),视频数据包单位决定单元109获取下一视频采样标题信息(S111),反复S112和S113的处理动作。
数据包中包含的视频数据的总重放时间达到目标时间时(在S113判定为Yes),视频数据包单位决定单元109把最后追加到视频数据包制作表中的视频采样标题信息所指示的视频采样确定为数据包中包含的最后视频采样(S114),结束用于决定数据包单位的处理动作。
下面,详细说明在图13的步骤S130中,声音数据包单位决定单元110决定声音数据的数据包单位的处理动作。
图15是表示声音数据包单位决定单元110的处理动作的流程图。
在该流程图之前,声音数据包单位决定单元110预先从视频数据包单位决定单元109获取视频采样重放时间信息。
声音数据包单位决定单元110从第2解析单元106获取音频采样标题信息(S131),参照前面获取的视频采样重放时间信息(S132),读出数据包中包含的前头视频采样的重放开始时间,把重放开始时间与数据包中包含的前头视频采样的重放开始时间相同或接近的音频采样确定为该数据包的音频前头采样(S133)。
声音数据包单位决定单元110一确定数据包中包含的音频前头采样,就顺序获取音频采样标题信息(S134),向声音数据包制作表追加音频采样标题信息(S135)。
然后,声音数据包单位决定单元110参照视频采样重放开始时间信息,读出数据包中包含的视频采样的重放时间长度的总和(S136),确定数据包中包含的最后音频采样(S137),使该数据包中包含的音频采样的重放时间长度的总和与数据包中包含的视频采样的重放时间长度的总和相同或接近,结束用于决定数据包单位的处理动作。
经过由这种多路复用装置100进行的处理动作而制作的MP4文件的扩展部,在重放装置侧的数据存取效率良好。关于其理由,下面说明图16所示的多路复用装置100制作的MP4文件扩展部的数据结构示例。
图16(a)所示的MP4文件扩展部200由多个数据包构成,并被结合在MP4文件的基本部分中。
构成MP4文件扩展部200的各个数据包,由数据包标题部分的moof和数据包数据部分的mdat构成。其中,数据包_1意味着MP4文件扩展部200的第1号数据包,数据包_1中包含的moof表示为moof_1,数据包_1中包含的mdat表示为mdat_1。图16(a)的各个mdat中所示的“V”是指视频采样,图16(a)的各个mdat中所示的“A”是指音频采样(以下的其他附图同)。
在MP4文件扩展部200的mdat_1中,重放开始时间为20秒的视频采样被存储为视频前头采样,同样,重放开始时间为20秒的音频采样被存储为音频前头采样。在mdat_2中,重放开始时间为30秒的视频采样被存储为视频前头采样,同样,重放开始时间为30秒的音频采样被存储为音频前头采样。
这样,通过把一个数据包中的视频采样和音频采样的各自重放开始时间调整为一致来进行存储,从而在重放装置侧重放MP4文件扩展部200时,可以大幅度削减数据存取所需的计算量。
另外,各个媒体数据的重放开始时间被调为一致后存储在数据包中,所以能够以任意数目的数据包来分割数据,把MP4文件数据的尺寸调整为所期望的尺寸。
其中,多路复用装置100制作的MP4文件扩展部也可以是图16(b)所示数据结构。
图16(b)是表示多路复用装置100制作的MP4文件扩展部的数据结构的第2示例图。
在图16(b)所示的MP4文件扩展部210的mdat_1中,重放开始时间为20秒的视频采样被存储为视频前头采样,在mdat_2中,重放开始时间为20秒的音频采样被存储为音频前头采样。在mdat_3中,重放开始时间为30秒的视频采样被存储为视频前头采样,在mdat_4中,重放开始时间为30秒的音频采样被存储为音频前头采样。
这样,在一个数据包中存储视频或音频任一方数据,交替排列用于存储视频数据的数据包和用于存储重放开始时间被调为一致的声音数据的数据包,由此在重放装置侧重放MP4文件扩展部200时,可以大幅度削减数据存取所需的计算量。
如上所述,根据本实施方式1涉及的多路复用装置100,把各个媒体数据的重放开始时间调整一致,将各个媒体数据打成数据包,所以能够实现重放装置侧的有效数据存取。
(实施方式2)
下面,参照图17~图20说明本发明的实施方式2涉及的多路复用装置。
本实施方式2涉及的多路复用装置的主要构成要素和上述实施方式1涉及的多路复用装置100相同,但数据包单位决定单元的结构另有特征,这一点与上述实施方式1涉及的多路复用装置100不同。以下,以该不同点为主进行说明。关于与上述实施方式1相同的构成要素,使用相同的标号,并省略其说明。
图17是表示本发明的实施方式2涉及的多路复用装置的数据包单位决定单元的功能结构的方框图。
该数据包单位决定单元117是决定视频数据及声音数据的数据包单位的处理单元,把数据包中包含的视频采样和音频采样的标题信息进行存储,把各自的重放开始时间调为一致,并且使数据包中包含的前头视频采样成为内部帧,具有:数据调整单元108、视频数据包单位决定单元119、和声音数据包单位决定单元110。
视频数据包单位决定单元119是从第1解析单元103获取视频采样标题信息,以时间或内部帧中的任一个为基准来决定视频数据的数据包单位的处理单元,具有时间基准单位调整单元120和I帧基准单位调整单元121。
时间基准单位调整单元120是根据从时间调整单元108输出的目标时间来调整视频数据的数据包单位的处理单元,计数各个视频采样标题信息的重放时间长度,把数据包单位调整为确定数据包后的时间单位。
I帧基准单位调整单元121是根据从第1解析单元103输出的视频采样标题信息是否含有表示内部帧的信息来调整视频数据的数据包单位的处理单元,获取含有表示内部帧的信息的视频采样标题信息后,利用内部帧的视频采样切换数据包单位,调整数据包单位以使下一数据包的视频前头采样成为内部帧的视频采样。
下面,详细说明具有这种结构的数据包单位决定单元117的本实施方式2涉及的多路复用装置中,视频数据包单位决定单元119决定视频数据的数据包单位的处理动作。
图18是表示视频数据包单位决定单元119的处理动作的流程图。
在该流程之前,视频数据包单位决定单元119先从时间调整单元108获取目标时间,并保持在时间基准单位调整单元120中。
和上述实施方式1相同,视频数据包单位决定单元119从第1解析单元103获取视频采样标题信息(S201),向视频数据包制作表追加视频采样标题信息(S202)。
此时,视频数据包单位决定单元119判定在I帧基准单位调整单元121已获取的视频采样标题信息是否含有表示内部帧的信息(S203)。
当含有表示内部帧的信息时(在S203判定为Yes),视频数据包单位决定单元119判定在时间基准单位调整单元120判定数据包中包含的所有视频采样的总重放时间是否超过已获取的目标时间(S205)。
当未含有表示内部帧的信息(在S203判定为No)或未超过目标时间时(在S205判定为No),视频数据包单位决定单元119通过在时间基准单位调整单元120加算视频采样标题信息中包含的视频采样的重放时间长度,更新数据包中包含的视频采样的重放时间长度的总和(S204),获取下一视频采样标题信息(S201),反复上述处理动作。
另一方面,当超过目标时间时(在S205判定为Yes),视频数据包单位决定单元119把数据包中包含的最后视频采样确定为在I帧基准单位调整单元121已被判定为内部帧的视频采样的前一个的视频采样(S206),结束视频数据的数据包单位决定的处理动作。
经过这种视频数据包单位决定单元119的处理动作而制作的MP4文件的扩展部,被存储在数据包前头的视频采样一定成为内部帧的视频采样,所以在重放装置侧进行随机存取时可以从数据包的前头视频采样开始重放,能够大幅度削减可以随机存取的视频采样的检索所需计算量。
通过使被存储在数据包前头的视频采样一定成为内部帧的视频采样,在数据包标题部分(moof),仅在位于用于存储视频磁道的标题信息的traf前头的trun前头采样旗标字段,记述表示可以随机存取的信息即可,各个trun的采样旗标字段通过使用默认值可以省略,所以能够减轻制作moof数据时的负荷,同时可以削减MP4文件的整体文件尺寸。
采用该处理动作时,有时视频数据中包含的内部帧彼此间隔会变大,每一个数据包的重放时间长度会变长。因此,数据包单位决定单元117也可以进行下述的处理动作。
图19是表示视频数据包单位决定单元119的第2处理动作的流程图。
和上述第1处理动作相同,在该流程之前,视频数据包单位决定单元119先从时间调整单元108获取目标时间,并保持在时间基准单位调整单元120中。
视频数据包单位决定单元119从第1解析单元103获取视频采样标题信息(S211),向视频数据包制作表追加视频采样标题信息(S212)。
此时,视频数据包单位决定单元119在I帧基准单位调整单元120,判定数据包中包含的所有视频采样的总重放时间是否超过已获取的目标时间(S213)。
当超过目标时间时(在S213判定为Yes),视频数据包单位决定单元119把数据包中包含的最后视频采样确定为此次获取的视频采样标题信息的前一个视频采样标题信息所指示的视频采样(S214),结束视频数据的数据包单位决定的处理动作。
另一方面,未超过目标时间时(在S213判定为No),视频数据包单位决定单元119在时间基准单位调整单元120判定所获取的视频采样标题信息是否含有表示内部帧的信息(S215)。
当含有表示内部帧的信息时(在S215判定为Yes),视频数据包单位决定单元119把数据包中包含的最后视频采样确定为在I帧基准单位调整单元121已被判定为内部帧的视频采样的前一个视频采样(S214),结束视频数据的数据包单位决定的处理动作。
另一方面,当未含有表示内部帧的信息时(在S215判定为No),视频数据包单位决定单元119通过在时间基准单位调整单元120加算视频采样标题信息中包含的视频采样的重放时间长度,更新数据包中包含的视频采样的重放时间长度的总和(S216),获取下一视频采样标题信息(S211),反复上述处理动作。
经过这种视频数据包单位决定单元119的第2处理动作而制作的MP4文件的扩展部,设定规定的时间限制并制作数据包,把数据包尺寸保持在所期望的尺寸以下,同时如果存在内部帧的视频采样,可以存储在数据包的前头,所以在重放装置侧进行随机存取时,仅对数据包前头的视频采样判定是否为可以随机存取的视频采样即可,能够削减可以随机存取的视频采样的检索所需计算量。
视频数据包单位决定单元119结束视频数据的数据包单位决定的处理动作时,向声音数据包单位决定单元110输出视频采样重放时间信息,通过声音数据包单位110进行声音数据的数据包单位决定的处理动作和上述实施方式1相同。
经过数据包单位决定单元117进行的处理动作而制作的MP4文件的扩展部,减轻了重放装置侧进行随机存取时的检索负荷。关于其理由,以图20所示本实施方式2的多路复用装置制作的MP4文件扩展部的数据结构为示进行说明。
在图20(a)所示MP4文件扩展部220的mdat_1,内部帧的视频采样被存储为视频前头采样,同样,在mdat_2,内部帧的视频采样也被存储为视频前头采样。
这样,通过把内部帧的视频采样作为前头的视频采样存储在数据包中,在重放装置侧进行随机存取时,为了获取可以进行随机存取的视频采样,只要检索数据包前头的视频采样即足以,所以不需要检索数据包中包含的所有视频采样,能够大幅度减轻随机存取时的采样检索负荷。
此时,在MP4文件扩展部220的moof_1及moof_2,仅在位于用于存储视频磁道的标题信息的traf前头的trun前头采样旗标字段,记述表示可以随机存取的信息即可,由此可以削减moof_1及moof_2的尺寸。
其中,本实施方式2涉及的多路复用装置制作的MP4文件扩展部也可以是图20(b)所示数据结构。
在图20(b)所示MP4文件扩展部230的mdat_1,内部帧的视频采样被存储为视频前头采样,同样,在mdat_3,内部帧的视频采样也被存储为视频前头采样。另外,音频采样被存储在mdat_2及mdat_4。
这样,在一个数据包中存储视频或音频中任一方的数据,在用于存储视频数据的数据包,把内部帧的视频采样存储为前头的视频采样,由此可以大幅度减轻重放装置侧进行随机存取时的采样检索负荷。
在这些MP4文件扩展部数据结构的任一示例中,通过把存储在数据包的前头视频采样的重放开始时间和前头音频采样的重放开始时间调一致,可以大幅度削减重放装置侧进行数据存取所需的计算量。
如上所述,根据本实施方式2涉及的多路复用装置,把可以随机存取的视频采样作为前头视频采样来制作数据包,所以能够削减重放装置进行随机存取时检索采样所需的计算量。
(实施方式3)
下面,参照图21~图25,说明本发明的实施方式3涉及的多路复用装置。
本实施方式3涉及的多路复用装置的主要构成要素和上述实施方式1及实施方式2涉及的多路复用装置相同,但数据包数据制作单元的结构另具特征,这一点与上述实施方式1及2涉及的多路复用装置不同。以下,以该不同点为主进行说明。关于与上述实施方式1及2相同的构成要素,使用相同的标号,并省略其说明。
图21是表示本实施方式3涉及的多路复用装置的数据包数据制作单元的功能结构的方框图。
该数据包数据制作单元130是通过交叉存储视频采样的实体数据和音频采样的实体数据来制作数据包数据部分(mdat)的处理单元,具有:mdat信息获取单元131、视频实体数据读出单元132、音频实体数据读出单元133、和交叉排列单元134。
mdat信息获取单元131是从数据包标题制作单元112获取mdat信息,向构成数据包数据制作单元130以外的各单元输出实体数据的读出指示和重放时间信息的处理单元。
该mdat信息获取单元131从数据包标题制作单元112获取mdat信息并解析mdat信息,获取表示视频采样及音频采样的重放开始时间和重放结束时间的重放时间信息,根据该重放时间信息,排列更换数据包中包含的所有视频采样和音频采样,并使重放开始时间形成升序。
mdat信息获取单元131按照排列更换后的顺序从重放开始时间早的采样顺序向视频实体数据读出单元132输出指示读出视频采样的实体数据的视频读出指示,或向音频实体数据读出单元132输出用于指示读出音频采样的实体数据的音频读出指示。该视频读出指示包含表示视频采样的实体数据存储在第1数据存储单元102何处的指针信息和视频采样的尺寸信息,音频读出指示包含表示音频采样的实体数据存储在第2数据存储单元105何处的指针信息和音频采样的尺寸信息。
视频实体数据读出单元132是从mdat信息获取单元131获取视频读出指示,从第1数据存储单元102读出视频实体数据的处理单元。该视频实体数据读出单元132参照视频读出指示中包含的指针信息和尺寸信息,从第1数据存储单元102读出视频实体数据,向交叉排列单元134输出所读出的视频实体数据。
音频实体数据读出单元133是从mdat信息获取单元131获取音频读出指示,从第2数据存储单元105读出音频实体数据的处理单元。该音频实体数据读出单元133参照音频读出指示中包含的指针信息和尺寸信息,从第2数据存储单元105读出音频实体数据,向交叉排列单元134输出所读出的音频实体数据。
交叉排列单元134是按照输出顺序逐次获取从视频实体数据读出单元132和音频实体数据读出单元133输出的读出视频数据和读出声音数据,通过交叉排列来制作mdat数据,并输出到数据包结合单元114的处理单元。
下面,详细说明具有这种结构的数据包数据制作单元130的本实施方式3涉及的多路复用装置中,数据包数据制作单元130制作mdat的处理动作。
图22是表示数据包数据制作单元130的处理动作的方框图。
首先,数据包数据制作单元130在mdat信息获取单元131从数据包标题制作单元112获取mdat信息(S301)。mdat信息获取单元131对所获取的mdat信息进行解析,抽出采样的指针信息和尺寸信息和重放时间信息。mdat信息获取单元131根据所抽出的采样的重放时间信息,排列更换数据包中包含的所有视频采样和音频采样,并使重放开始时间形成升序。然后,mdat信息获取单元131按照排列更换后的顺序,从重放开始时间早的采样顺序向视频实体数据读出单元132输出包含所抽出的视频采样的指针信息和尺寸信息的视频读出指示,或向音频实体数据读出单元133输出包含所抽出的音频采样的指针信息和尺寸信息的音频读出指示。
视频实体数据读出单元132获取视频读出指示,参照指针信息和尺寸信息,从第1数据存储单元102读出视频实体数据,并输出到交叉排列单元134,音频实体数据读出单元133获取音频读出指示,参照指针信息和尺寸信息,从第2数据存储单元105读出音频实体数据,并输出到交叉排列单元134(S302)。
交叉排列单元134从视频实体数据读出单元132和音频实体数据读出单元133接收所读出的实体数据,并按照接收顺序逐次进行排列(S303)。
交叉排列单元134继续进行实体数据的排列,直到视频实体数据和音频实体数据全部、即存储在一个数据包中的实体数据全部排列结束(在S304判定为No、S303)。
存储在一个数据包中的实体数据全部排列结束时(在S304判定为Yes),交叉排列单元134把所排列的实体数据作为mdat数据输出给数据包结合单元114(S305),结束制作mdat的处理动作。
经过这种数据包数据制作单元130的处理动作而制作的MP4文件的扩展部,适合于查询花费时间的光盘机器等的随机存取重放。关于其理由,概略说明图23所示本实施方式3涉及的多路复用装置制作的MP4文件的扩展部的数据结构。
图23所示的MP4文件扩展部240是通过排列下述多个数据包而构成的,即,用于存储4~8秒的内容数据的数据包1、存储8~12秒的内容数据的数据包2、存储12~16秒的内容数据的数据包3。
各个数据包由moof241和mdat242构成,在moof241存储着有关视频磁道的tfhd(V)及traf(V-1、V-2)和有关音频磁道的tfhd(A)及traf(A-1、A-2)。存储在traf(V-1)和traf(A-1)的标题信息所指示的采样的实体数据被存储在mdat_1,存储在traf(V-2)和traf(A-2)的标题信息所指示的采样的实体数据被存储在mdat_2。在mdat242交替地交叉存储着视频采样的实体数据和音频采样的实体数据。
此时,在重放装置侧,进行从重放时间为4秒的位置开始重放的随机存取处理时,使读出指示字移动到moof_1的前头位置,然后解析moof_1,使读出指示字连续移动,由此可以从与moof_1连续的mdat_1获取重放所需的实体数据。
即,根据该MP4文件扩展部240,重放装置仅进行使读出指示字移动到moof_1的前头位置的一次查询,即可实现随机存取重放,所以可以说对查询花费时间的光盘机器等来说是有效的。
其中,在mdat242,被存储在视频采样的实体数据后面的音频采样的实体数据被调整得和前面的视频采样的重放开始时间一致,所以能够担保视频数据和声音数据的同步重放。图24表示在MP4文件扩展部240的mdat_1存储有实体数据时的情况。
如图24所示,存储在mdat_1前头的视频采样1的重放开始时间为4000ms,存储在视频采样1后面的音频采样1的重放开始时间为4000ms,视频采样1和音频采样1的重放开始时被调一致。
通常,视频采样和音频采样的采样速率在多数情况下是不同的,所以,此处把视频采样的重放时间长度设为500ms,把音频采样的重放时间长度设为100ms。
因此,在MP4文件扩展部240的mdat_1,在视频采样1的后面交叉存储音频采样1~5,在其后面,顺序存储视频采样2、音频采样6~10、视频采样3……。
此时,视频采样2的重放开始时间是4500ms,存储在视频采样2后面的音频采样6的重放开始时间也是4500ms,视频采样和该视频采样后面的音频采样的重放开始时间时常被调整为一致状态。
另外,视频采样和音频采样的采样速率不同,所以有时视频采样和紧跟该视频采样后面的音频采样的重放开始时间有时不能调整一致。该场合时,把视频采样后面的音频采样设为重放开始时间与视频采样的重放开始时间接近的音频采样,由此可以担保视频数据和声音数据的同步重放。
图25是表示在MP4文件扩展部的mdat_1存储有实体数据的第2数据结构图。
如图25所示,被存储在MP4文件扩展部250的mdat_1前头的视频采样1的重放开始时间是4000ms,被存储在视频采样1后面的音频采样1的重放开始时间是4050ms,作为存储在视频采样1后面的音频采样,被存储成重放开始时间在视频采样1的重放开始时间之后最早的音频采样1。
和前面的说明相同,把视频采样的重放时间长度设为500ms,把音频采样的重放时间长度设为100ms。
因此,在MP4文件扩展部250的mdat_1,在视频采样1的后面交叉存储音频采样1~5,在其后面,顺序存储视频采样2、音频采样6~10、视频采样3……。
此时,视频采样2的重放开始时间是4500ms,存储在视频采样2后面的音频采样6的重放开始时间是4550ms,视频采样和该视频采样后面的音频采样的重放开始时间时常被调整为接近状态。
其中,作为存储在视频采样后面的音频采样,也可以存储成重放开始时间在视频采样的重放开始时间以前最迟的音频采样。该场合时,存储在视频采样1后面的音频采样1的重放时间是3950ms。
如上所述,根据本实施方式3涉及的多路复用装置,在视频采样的后面配置重放开始时间与视频采样的重放开始时间相同或接近的音频采样,并把视频采样和音频采样以重放开始时间形成升序的状态交叉存储在mdat,所以即使是查询速度慢的重放装置,也能迅速制作可以随机存取的数据结构的MP4文件扩展部。
(实施方式4)
下面,参照图26~图27,说明本发明的实施方式4涉及的逆多路复用装置。
图26是表示本实施方式4涉及的逆多路复用装置的功能结构的方框图。
逆多路复用装置300是获取包含由上述实施方式1、2及3涉及的多路复用装置制作的MP4文件扩展部的MP4文件数据,并进行解析,使媒体数据逆多路复用,并输出重放数据的装置,具有:文件输入单元301;文件数据存储单元302;标题分离解析单元303;moov解析单元304;moof解析单元305;traf解析单元306;trun解析单元307;RA检索单元308和采样获取单元309。
文件输入单元301是获取MP4文件数据的接口,把所获取的MP4文件的输入数据顺序存储在文件数据存储单元302。
文件数据存储单元302是临时保持MP4输入数据的高速缓冲器存储器和RAM等。
标题分离解析单元303是读出保持在文件数据存储单元302的MP4输入数据中的MP4文件的标题数据,并进行解析,分离成MP4文件的基本部分标题的moov数据和扩展部标题的moof数据,并分别输出给moov解析单元304和moof解析单元305的处理单元,通过CPU和存储器来实现。
moov解析单元304是解析MP4文件的moov,获取进行媒体数据的编码率和内容的重放时间长度等媒体数据解析所需的介质信息的处理单元,通过CPU和存储器来实现。该moov解析单元向moof解析单元305输出所获取的介质信息。
moof解析单元305是根据从moov解析单元304所获取的介质信息来解析MP4文件的moof,向traf解析单元306输出每个磁道的标题数据即traf数据的处理单元,通过CPU和存储器来实现。
traf解析单元306是解析MP4文件的traf,向trun解析单元307输出traf中包含的每个采样的标题数据即trun数据的处理单元,通过CPU和存储器来实现。
trun解析单元307是解析MP4文件的trun,获取trun内的各个字段所记述的信息,向采样获取单元309输出trun解析信息的处理单元,通过CPU和存储器来实现。该trun解析信息,例如包含该采样的尺寸、表示该采样存储在文件数据存储单元302何处的数据位移信息、以及在视频采样是表示是否为内部帧的旗标信息等。
另外,该trun解析单元307从下面叙述的RA检索单元308获取表示随机存取后的重放开始位置、指示开始重放的输出信号即重放开始指示,根据由重放开始指示所示的trun顺序进行解析,向采样获取单元309输出trun解析信息。
RA检索单元308是获取表示随机存取后的重放开始时间的目标重放时间信息,读出用于存储视频磁道相关标题信息的前头traf内的前头trun中包含的前头采样的重放开始时间、以及表示是否为内部帧的信息即前头采样信息,检索成为随机存取后的重放开始位置的视频采样的处理单元,通过CPU和存储器来实现。该RA检索单元308从接收来自用户的随机存取指示的逆多路复用装置300的输入装置获取目标重放时间信息,从trun解析单元307仅顺序获取前头采样信息,检索重放开始时间与目标重放时间信息相同或接近的视频采样,向trun解析单元307输出重放开始指示。
采样获取单元309是根据trun解析信息,读出采样的实体数据,并进行解码,向显示器等显示装置输出重放数据的处理单元。该采样获取单元309从trun解析单元307获取trun解析信息,参照其中所包含的数据位移信息,从文件数据存储单元302读出采样的实体数据。此处是以开始获取trun解析信息来指示重放开始。
使用图27,说明这种结构的逆多路复用装置300的随机存取处理动作。
图27是表示逆多路复用装置300的随机存取处理动作的流程图。在该流程之前,逆多路复用装置300通过输入装置接收来自用户的随机存取指示。
首先,逆多路复用装置300在文件输入单元301获取上述实施方式1、2及3涉及的多路复用装置制作的MP4文件的数据(S400),并顺序存储到文件数据存储单元302。
然后,逆多路复用装置300在标题分离解析单元303仅分离解析MP4文件的文件标题部分(S410),然后分离成基本部分标题和扩展部标题,在moov解析单元304解析基本部分标题,在moof解析单元305解析扩展部标题(S420)。
之后,逆多路复用装置300在moof解析单元305把扩展部标题进一步分离成每个磁道的标题,在traf解析单元306解析磁道区段即traf(S430)。此时,逆多路复用装置300在traf解析单元306进一步分离磁道区段,在trun解析单元307解析trun。
逆多路复用装置300在RA检索单元308有目标重放时间信息输入时,从trun解析单元307向RA检索单元308输出前头采样信息,在RA检索单元308判定是否为表示重放开始时间与目标重放时间信息相同或接近的前头采样信息(S440)。
此时,如果未发现对象采样(在S450判定为No),逆多路复用装置300在RA检索单元308获取按文件内的存储顺序后续配置的扩展部标题的前头采样信息,判定是否为表示重放开始时间与已获取的目标重放时间信息相同或接近的前头采样信息(S440)。
另一方面,如果发现对象采样(在S450判定为Yes),逆多路复用装置300在RA检索单元308生成重放开始指示,并输出给trun解析单元307。trun解析单元307从RA检索单元308接收重放开始指示,从已接收重放开始指示的trun顺序向采样获取单元309输出trun解析信息。其中,所说的已接收重放开始指示的trun,是指包含在RA检索单元308已被指示开始重放的采样的trun。
然后,逆多路复用装置300在采样获取单元309参照trun解析信息中包含的数据位移信息,从文件数据存储单元302获取对象采样的实体数据(S460),并进行解码后输出重放数据,结束随机存取处理动作。
如上所述,根据本实施方式4涉及的逆多路复用装置300,对含有上述实施方式1、2及3涉及的多路复用装置制作的MP4文件扩展部的MP4文件进行随机存取重放时,仅检索存储在各个数据包前头的视频采样,由此可以判定应成为随机存取后的重放开始位置的视频采样,所以大幅度减轻随机存取时的采样检索负荷。
(适用示例)
下面,使用图28说明本发明涉及的多路复用装置的适用示例。
图28表示本发明涉及的多路复用装置的适用示例图。
本发明涉及的多路复用装置,可以适用于获取视频数据和声音数据等媒体数据并多路复用、制作MP4文件数据的、带录像功能的携带电话机403和个人电脑404。另外,本发明涉及的多路复用装置可以适用于读取所制作的MP4文件数据并重放的携带电话机407。
其中,带录像功能的携带电话机403和个人电脑404所制作的MP4文件数据被存储在SD存储卡405和DVD-RAM406等记录介质中,或通过通信网络402发送给图像发信服务器401,从图像发信服务器401发信给其他携带电话机407等。
这样,本发明涉及的多路复用装置及逆多路复用装置,可以被用作图像发信系统等的MP4文件制作装置或重放装置。
以上,根据各实施方式等说明了本发明涉及的多路复用装置及逆多路复用装置,但本发明不限定于这些实施方式等。
例如,上述各实施方式使用MPEG-4 Visual的编码数据作为视频数据,但作为视频数据,也可以使用采用MPEG-4AVC(AdvancedVideo Coding)和H.263等其他动画像压缩编码方式的编码数据。MPEG-4AVC(Advanced Video Coding)和H.263的编码数据的一个图像相当于一个采样。
同样,上述各实施方式使用MPEG-4Audio编码数据作为声音数据,但作为声音数据,也可以使用采用G.726等其他音频压缩编码方式的编码数据。
另外,在上述各实施方式中使用视频数据和声音数据进行了说明,但包含文本数据等场合时,通过实施与声音数据的数据包相同的处理,也可以获得本发明的效果。
此外,在上述实施方式2,对每个内部帧打数据包时,也可以从数据包单位决定单元117的构成要素中省略时间基准单位调整单元120,省略图18的步骤S205的处理。
在上述实施方式3,根据在MP4文件重放装置侧预先设定的缓冲器模式来重放MP4文件时,也可以把视频采样的数据和音频采样的数据交叉存储在mdat,以符合该缓冲器模式。其中,所说缓冲器模式是按照规格所规定的条件输入编码数据时,通过使重放装置具有该规格的规定尺寸的缓冲器,来保证在缓冲器没有形成空(下溢)或从缓冲器溢出(上溢)的情况下使重放装置可以进行解码的模式。
在上述实施方式1、2及3,未言及存储在所制作的MP4文件的扩展部moof的traf个数,但存储在moof的traf优选一个磁道存储一个traf。这样,对每个磁道仅解析moof内的前头traf,就可以获取有关存储在moof的磁道的所有采样的标题信息,所以进一步提高标题信息获取效率。
另外,在上述实施方式1、2及3,在制作的MP4文件的扩展部的moof存储有标题信息的采样的实体数据,存储在与moof连续的一个mdat,但也可以分割存储在与moof连续的多个mdat。具体而言,也可以把在moof_1存储有标题信息的采样的实体数据,顺序存储在mdat_1、mdat_2、mdat_3,把在moof_2存储有标题信息的采样的实体数据,顺序存储在mdat_4、mdat_5、mdat_6。
在上述实施方式2及3,数据包内含有动画像数据的内部帧时,是配置在数据包的前头,但如果可以随机存取,也可以把P(Predictive)帧和B(Bidirectionally predictive)帧等内部帧以外的视频采样配置在数据包的前头。关于此点,以下举例说明把MPEG-4AVC的编码数据用作视频数据的场合。
MPEG-4AVC有即使从内部图像进行解码也不能获得正确解码结果的场合。具体而言,MPEG-4 AVC的内部图像有IDR(Instantaneous Decoder Refresh)图像和除此以外的图像(以下成为non-IDR内部图像)两种,从IDR图像开始解码时,一定能得到正确的解码结果,但从non-IDR内部图像开始解码时,对non-IDR内部图像和显示顺序中位于non-IDR内部图像以后的多个图像,有时不能获得正确的解码结果。
因此,MPEG-4AVC为了从non-IDR内部图像获得正确的解码结果,可以附加用于表示可以从哪张图像开始解码的辅助信息(Recovery Point Supplemental Enhancement Information,以下称为“Recovery Point SEI”)。
例如,用Pic_1、Pic_2、Pic_3、Pic_4、Pic_5表示的5个图像按该顺序包含在视频数据中,Pic_5是non-IDR内部图像,按显示顺序把Pic_5及Pic_5以后的图像正确解码时,必须从Pic_1开始解码的场合,通过在Pic_1前面配置Recovery Point SEI,为了把图像数据内存储顺序中第4个以后的图像即Pic_5以及显示顺序中位于其后的图像正确解码,可以显示需要从Pic_1开始解码。
即,该场合时,可以说Pic_1是可以随机存取的采样,所以如果是MPEG-4AVC编码数据时,也可以把IDR图像或被附加了RecoveryPoint SEI的图像的采样作为可以随机存取的采样配置在数据包的前头。Recovery Point SEI也可以附加在内部图像以外的图像上。
此时,把被附加了Recovery Point SEI的图像的采样和只有从被附加了Recovery Point SEI的图像开始解码才能获得正确解码结果的图像的采样存储在同一数据包中,由此可以削减获取采样数据时的处理量。
另外,IDR图像和附加了Recovery Point SEI的图像的采样,可以利用前头采样旗标930或采样旗标935的特定旗标值(以后称为非同步旗标)来识别。MP4的可以随机存取的采样中,仅对随机存取的采样和能获得正确解码结果的采样一致的采样,可以把非同步旗标设为0。因此,通过把IDR图像的采样的非同步旗标设为0,把被附加了Recovery Point SEI的图像的采样的非同步旗标设为1,可以识别两者。
通过使用以上的识别方法,不限定于IDR图像和被附加了Recovery Point SEI的图像,也可以识别性质互不相同的可随机存取的采样。实际上可以用于以下场合。
第一是通过仅重放特定采样来进行快速重放的场合。此时是优选可以马上显示已解码的采样,所以仅对非同步旗标为0的采样进行解码重放。
第二是从内容中途开始重放或跳过特定区间开始下一区间的重放的场合。此时,开始解码的采样和能获得正确解码结果的采样有可能不同,但该情况仅限于重放开始时。因此,可以从非同步旗标为0的采样或非同步旗标为1的采样中任一方开始重放。
这种存储方法不限定于MPEG-4的Recovery Point SEI的场合,也可以适用于开始解码的采样和能获得正确解码结果的采样不同的场合,例如,可以适用于类似MPEG-2Video的OpenGOP(Group of Pictures)结构。
此外,被附加了表示采样可以随机存取的识别信息时,也可以把利用该识别信息来表示是可以随机存取的采样配置在数据包的前头。
工业应用性
本发明涉及的多路复用装置适用于获取视频数据和声音数据等媒体数据,并制作MP4文件数据存储在记录介质中的数字摄像机和带录像功能的携带电话机等,或者适用于通过因特网发送所制作的MP4文件数据的个人电脑和PDA等,本发明涉及的逆多路复用装置适用于下载并重放MP4文件数据的个人电脑和携带电话机等。

Claims (15)

1.一种多路复用装置,将媒体数据数据包多路复用,并制作复用数据,该媒体数据包括图像数据和声音数据及文本数据中的至少一个,其特征在于,具有:
媒体数据获取单元,用于获取所述媒体数据;
解析单元,解析所述媒体数据获取单元所获取的所述媒体数据,对所述媒体数据中包含的所述图像数据、声音数据及文本数据的最小存取单位的采样,获取表示采样的重放开始时间的重放开始时间信息;
数据包单位决定单元,根据所述解析单元所获取的所述重放开始时间信息,使所述媒体数据中包含的所述图像数据、声音数据及文本数据的各个采样的重放开始时间一致,决定对所述媒体数据进行打包的单位;
数据包标题部分制作单元,制作以所述数据包单位决定单元所决定的数据包单位存储所述媒体数据的标题的数据包标题部分;
数据包数据部分制作单元,制作以所述数据包单位决定单元所决定的数据包单位来存储所述媒体数据的实体数据的数据包数据部分;和
打数据包单元,将所述数据包标题部分制作单元所制作的数据包标题部分和所述数据包数据部分制作单元所制作的数据包数据部分进行结合,制作数据包。
2.根据权利要求1所述的多路复用装置,其特征在于,所述数据包单位决定单元使配置在所述数据包单位前头的所述声音数据及所述文本数据的采样的重放开始时间,与配置在所述数据包单位前头的所述图像数据的采样的重放开始时间一致。
3.根据权利要求2所述的多路复用装置,其特征在于,所述数据包单位决定单元这样决定所述数据包单位:使配置在所述数据包单位前头的所述声音数据及所述文本数据的采样,成为重放开始时间在配置于所述数据包单位前头的所述图像数据的采样的重放开始时间以后并与所述图像数据的采样的重放开始时间最接近的采样。
4.根据权利要求2所述的多路复用装置,其特征在于,所述数据包单位决定单元这样决定所述数据包单位:使配置在所述数据包单位前头的所述声音数据及所述文本数据的采样,成为重放开始时间在配置于所述数据包单位前头的所述图像数据的采样的重放开始时间以前并与所述图像数据的采样的重放开始时间最接近的  采样。
5.根据权利要求1所述的多路复用装置,其特征在于,
所述图像数据是动画数据,
所述解析单元还解析所述媒体数据获取单元所获取的所述动画数据,在所述动画数据包括一个以上含有表示是画面内编码采样的内部帧信息的采样时,获取所述内部帧信息,
所述数据包单位决定单元在所述解析单元已获取所述内部帧信息时,根据所述内部帧信息和所述重放开始时间信息,决定对所述媒体数据进行打包的单位。
6.根据权利要求5所述的多路复用装置,其特征在于,所述数据包单位决定单元把含有所述内部帧信息的所述动画数据的采样配置在所述数据包单位的前头。
7.根据权利要求6所述的多路复用装置;其特征在于,所述数据包单位决定单元使配置在所述数据包单位前头的所述声音数据及所述文本数据的采样的重放开始时间,与配置在所述数据包单位前头的、含有所述内部帧信息的所述动画数据的采样的重放开始时间一致。
8.根据权利要求1所述的多路复用装置,其特征在于,所述数据包数据部分制作单元制作交叉存储的所述数据包数据部分,以使所述数据包单位中包含的所述媒体数据的采样的重放开始时间形成升序。
9.根据权利要求8所述的多路复用装置,其特征在于,所述数据包数据部分制作单元制作交叉存储的所述数据包数据部分,以使所述数据包单位中包含的所述媒体数据的采样符合预先设定的规定。
10.一种多路复用方法,把媒体数据数据包多路复用,并制作复用数据,该媒体数据包括图像数据和声音数据及文本数据中的至少一个,其特征在于,包括:
媒体数据获取步骤,获取所述媒体数据;
解析步骤,解析在所述媒体数据获取步骤所获取的所述媒体数据,对所述媒体数据中包含的所述图像数据、声音数据及文本数据的最小存取单位的采样,获取表示采样的重放开始时间的重放开始时间信息;
数据包单位决定步骤,根据在所述解析步骤所获取的所述重放开始时间信息,使所述媒体数据中包含的所述图像数据、声音数据及文本数据的各个采样的重放开始时间一致,决定对所述媒体数据进行打包的单位;
数据包标题部分制作步骤,制作以所述数据包单位决定步骤所决定的数据包单位来存储所述媒体数据的标题的数据包标题部分;
数据包数据部分制作步骤,制作以所述数据包单位决定步骤所决定的数据包单位来存储所述媒体数据的实体数据的数据包数据部分;和
打数据包步骤,将所述数据包标题部分制作步骤所制作的数据包标题部分和所述数据包数据部分制作步骤所制作的数据包数据部分进行结合,来制作数据包。
11.根据权利要求10所述的多路复用方法,其特征在于,在所述数据包单位决定步骤,使配置在所述数据包单位前头的所述声音数据及所述文本数据的采样的重放开始时间,与配置在所述数据包单位前头的所述图像数据的采样的重放开始时间一致。
12.根据权利要求10所述的多路复用方法,其特征在于,
所述图像数据是动画数据,
在所述解析步骤,还解析在所述媒体数据获取步骤所获取的所述动画数据,在所述动画数据包括一个以上含有表示是画面内编码采样的内部帧信息的采样时,获取所述内部帧信息,
在所述数据包单位决定步骤,在所述解析步骤已获取所述内部帧信息时,根据所述内部帧信息和所述重放开始时间信息,决定对所述媒体数据进行打包的单位。
13.根据权利要求12所述的多路复用方法,其特征在于,在所述数据包单位决定步骤,把含有所述内部帧信息的所述动画数据的采样配置在所述数据包单位的前头。
14.根据权利要求13所述的多路复用方法,其特征在于,在所述数据包单位决定步骤,使配置在所述数据包单位前头的所述声音数据及所述文本数据的采样的重放开始时间,与配置在所述数据包单位前头的、含有所述内部帧信息的所述动画数据的采样的重放开始时间一致。
15.根据权利要求10所述的多路复用方法,其特征在于,在所述数据包数据部分制作步骤,制作交叉存储的所述数据包数据部分,以使所述数据包单位中包含的所述媒体数据的采样的重放开始时间形成升序。
CNB038003902A 2002-06-26 2003-06-17 多路复用装置及逆多路复用装置 Expired - Fee Related CN100369480C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP185758/2002 2002-06-26
JP2002185758 2002-06-26
JP2003081133 2003-03-24
JP081133/2003 2003-03-24

Publications (2)

Publication Number Publication Date
CN1515115A CN1515115A (zh) 2004-07-21
CN100369480C true CN100369480C (zh) 2008-02-13

Family

ID=30002284

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038003902A Expired - Fee Related CN100369480C (zh) 2002-06-26 2003-06-17 多路复用装置及逆多路复用装置

Country Status (4)

Country Link
US (1) US7558296B2 (zh)
EP (1) EP1536644A4 (zh)
CN (1) CN100369480C (zh)
WO (1) WO2004004334A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100406630B1 (ko) * 2001-03-13 2003-11-20 엘지전자 주식회사 데모용 데이터의 기록 및 재생방법과, 그에 따른 기록매체
KR20020072934A (ko) * 2001-03-13 2002-09-19 엘지전자 주식회사 데모용 데이터가 기록된 재생전용 광디스크와, 그 재생방법
US7764713B2 (en) * 2005-09-28 2010-07-27 Avaya Inc. Synchronization watermarking in multimedia streams
US7773630B2 (en) 2005-11-12 2010-08-10 Liquid Computing Corportation High performance memory based communications interface
US7869420B2 (en) * 2005-11-16 2011-01-11 Cisco Technology, Inc. Method and system for in-band signaling of multiple media streams
US8788933B2 (en) * 2005-12-01 2014-07-22 Nokia Corporation Time-shifted presentation of media streams
CA2655545A1 (en) * 2006-06-19 2007-12-27 Liquid Computing Corporation Secure handle for intra-and inter-processor communications
KR20080006441A (ko) * 2006-07-12 2008-01-16 삼성전자주식회사 미디어 데이터 전송 장치 및 방법 및 미디어 데이터 수신장치 및 방법
US8275814B2 (en) * 2006-07-12 2012-09-25 Lg Electronics Inc. Method and apparatus for encoding/decoding signal
US7873964B2 (en) 2006-10-30 2011-01-18 Liquid Computing Corporation Kernel functions for inter-processor communications in high performance multi-processor systems
US7844723B2 (en) * 2007-02-13 2010-11-30 Microsoft Corporation Live content streaming using file-centric media protocols
KR101369745B1 (ko) * 2007-04-11 2014-03-07 삼성전자주식회사 비동기화된 비트스트림들의 다중화 및 역다중화 방법 및장치
US20080294691A1 (en) * 2007-05-22 2008-11-27 Sunplus Technology Co., Ltd. Methods for generating and playing multimedia file and recording medium storing multimedia file
WO2009065144A1 (en) 2007-11-16 2009-05-22 Divx, Inc. Chunk header incorporating binary flags and correlated variable-length fields
KR100963005B1 (ko) * 2008-07-09 2010-06-10 한국전자통신연구원 자유시점 av 서비스에 따른 파일 생성 방법
US8631145B2 (en) * 2008-10-31 2014-01-14 Sonic Ip, Inc. System and method for playing content on certified devices
US8166191B1 (en) * 2009-08-17 2012-04-24 Adobe Systems Incorporated Hint based media content streaming
US9613142B2 (en) * 2010-04-26 2017-04-04 Flash Networks Ltd Method and system for providing the download of transcoded files
RU2618373C2 (ru) * 2011-07-29 2017-05-03 Сони Корпорейшн Устройство и способ распределения потоковой передачи данных, устройство и способ приема потоковой передачи данных, система потоковой передачи данных, программа и носитель записи
JP2015023575A (ja) * 2013-07-19 2015-02-02 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 送信方法、受信方法、送信装置及び受信装置
CN105451073B (zh) * 2015-11-16 2018-11-02 深圳Tcl数字技术有限公司 Mp4视频源的传送方法和装置
BR112018069924A2 (pt) 2016-03-29 2019-02-05 Gatesair Inc processamento adaptativo nos sinais multiplexados no tempo

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0564171A (ja) * 1991-09-03 1993-03-12 Hitachi Ltd デイジタルビデオ・オーデイオ信号伝送方式及びデイジタルオーデイオ信号再生方法
JPH06326967A (ja) * 1993-05-12 1994-11-25 Matsushita Electric Ind Co Ltd データ伝送方法
JPH0738857A (ja) * 1993-07-16 1995-02-07 Pioneer Electron Corp 時分割ビデオ及びオーディオ信号の同期方式
JP2001045477A (ja) * 1999-07-26 2001-02-16 Nec Corp 映像・音声圧縮データ切り替え器および映像・音声圧縮データ切り替え方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3184011B2 (ja) * 1992-07-20 2001-07-09 株式会社東芝 帯域圧縮信号処理装置
TW436777B (en) * 1995-09-29 2001-05-28 Matsushita Electric Ind Co Ltd A method and an apparatus for reproducing bitstream having non-sequential system clock data seamlessly therebetween
EP0817502A3 (en) * 1996-07-04 2010-01-06 Panasonic Corporation Multiplexed video data processing method ensuring synchronisation of several data objects
JPH1051495A (ja) 1996-07-31 1998-02-20 Kokusai Electric Co Ltd マルチメディア多重化通信システム
JP3882257B2 (ja) * 1997-04-03 2007-02-14 ソニー株式会社 記録再生装置および方法
MXPA99004572A (es) * 1997-10-15 2005-07-25 At & T Corp Sistema y metodo mejorado para procesar informacion audiovisual basada en objetos.
JP3094999B2 (ja) * 1998-10-15 2000-10-03 日本電気株式会社 オーディオ・ビデオ同期再生装置
KR100739357B1 (ko) * 1999-09-30 2007-07-18 소니 가부시끼 가이샤 기록 장치, 기록 방법 및 기록 매체
JP2002176622A (ja) 2000-12-07 2002-06-21 Victor Co Of Japan Ltd 映像信号の記録方法、及び映像信号記録装置
JP2003046949A (ja) * 2001-07-30 2003-02-14 Hitachi Ltd データ多重化方法、データ記録媒体、データ記録装置及びデータ記録プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0564171A (ja) * 1991-09-03 1993-03-12 Hitachi Ltd デイジタルビデオ・オーデイオ信号伝送方式及びデイジタルオーデイオ信号再生方法
JPH06326967A (ja) * 1993-05-12 1994-11-25 Matsushita Electric Ind Co Ltd データ伝送方法
JPH0738857A (ja) * 1993-07-16 1995-02-07 Pioneer Electron Corp 時分割ビデオ及びオーディオ信号の同期方式
JP2001045477A (ja) * 1999-07-26 2001-02-16 Nec Corp 映像・音声圧縮データ切り替え器および映像・音声圧縮データ切り替え方法

Also Published As

Publication number Publication date
US7558296B2 (en) 2009-07-07
EP1536644A1 (en) 2005-06-01
WO2004004334A1 (ja) 2004-01-08
US20050238057A1 (en) 2005-10-27
EP1536644A4 (en) 2010-10-06
CN1515115A (zh) 2004-07-21

Similar Documents

Publication Publication Date Title
CN100369480C (zh) 多路复用装置及逆多路复用装置
KR100618473B1 (ko) Mpeg 스트림 네비게이션을 제공하기 위한 방법, 머신 판독 가능 매체, 장치 및 시스템
JP4392442B2 (ja) FlexMuxストリームをストリーム形成、受信及び処理する装置及び方法
CN105612753B (zh) 媒体流传输期间在适配集合间的切换方法和装置
CN1764974B (zh) 存储多媒体数据的存储介质和再现多媒体数据的方法和设备
CN100440216C (zh) 运动图像中对象的元数据流的数据结构,及其搜索方法和重放方法
CN101919244B (zh) 用于播放部分可用多媒体内容的系统和方法
US8291104B2 (en) Scalable video coding (SVC) file format
CN102156734B (zh) 一种基于语义隐藏标引的视频内容管理方法
US7772998B2 (en) Method and apparatus for encoding/decoding metadata
EP1980958A2 (en) Apparatus and method for generating a data file or for reading a data file
EP2183925A2 (en) System and method for generating and reproducing 3d stereoscopic image file including 2d image
WO2005083707A1 (en) Storage medium storing multimedia data, and method and apparatus for reproducing the multimedia data
EP2248127A2 (en) Method for generating and playing image files for slideshows
CN113099282B (zh) 一种数据处理方法、装置及设备
KR20080064399A (ko) Mp4 역다중화 장치 및 그의 동작 방법
CN102047662A (zh) 编码器
JP3894362B2 (ja) 複数動画像の閲覧装置および記録媒体
JP2004350250A (ja) 多重化装置および逆多重化装置
KR101656102B1 (ko) 컨텐츠 파일 생성/제공 장치 및 방법
KR100653940B1 (ko) Mp2 및 aac 파일로/로부터 부가정보를삽입/추출하는 방법 및 휴대용 재생장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080213

Termination date: 20190617

CF01 Termination of patent right due to non-payment of annual fee