JP2010086615A - Multiplexing device, program, and multiplexing method - Google Patents
Multiplexing device, program, and multiplexing method Download PDFInfo
- Publication number
- JP2010086615A JP2010086615A JP2008255616A JP2008255616A JP2010086615A JP 2010086615 A JP2010086615 A JP 2010086615A JP 2008255616 A JP2008255616 A JP 2008255616A JP 2008255616 A JP2008255616 A JP 2008255616A JP 2010086615 A JP2010086615 A JP 2010086615A
- Authority
- JP
- Japan
- Prior art keywords
- data
- video data
- multiplexing
- sample
- mdat
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、後の編集処理に好適な、映像データや、音声データ等のメディアデータを作成する多重化装置に関し、特にノンフラグメント形式によるメディアデータの多重化技術に関するものである。 The present invention relates to a multiplexing apparatus that creates media data such as video data and audio data suitable for later editing processing, and more particularly to a technology for multiplexing media data in a non-fragment format.
近年、通信ネットワークの大容量化、伝送技術の進歩により、インターネット上で、動画、音声、テキストあるいは、静止画等のマルチメディアコンテンツを含む動画像ファイルをパーソナルコンピュータに配信する動画配信サービスの普及が著しい。また、動画配信サービスは今後、携帯電話機やPDA等の移動体端末への提供の拡大も見込まれている。 In recent years, with the increase in capacity of communication networks and the advancement of transmission technology, video distribution services that distribute video files including multimedia content such as video, audio, text, or still images to personal computers over the Internet have become widespread. It is remarkable. In addition, the video distribution service is expected to expand to mobile terminals such as mobile phones and PDAs in the future.
それに伴い、動画・音声符号化形式が多様化し、様々な形式を均一な枠組みの中で相互接続可能な形で処理できるようにする必要性が高まっている。そこでISO/IEC(International Standardization Organization/International Engineering Consortium) JTC1/SC29/WG11によって、MPEG等の動画・音声のコンテンツデータをファイルに記録するために、「ISO Base Mediaファイル形式」という汎用のファイル形式が規格化されている。 Along with this, video and audio coding formats have diversified, and there is an increasing need to be able to process various formats in a form that can be interconnected within a uniform framework. Therefore, the ISO / IEC (International Standardization Organization / International Engineering Consortium) JTC1 / SC29 / WG11 uses a general-purpose file format called “ISO Base Media file format” to record video and audio content data such as MPEG. It has been standardized.
例えばこの拡張形式であるMP4の場合、異なるファイルの動画像を切り出し、1つのMP4ファイルに纏めるような編集処理を行う場合の編集方法としては、それぞれにMP4ファイルのmdat box内における多重化された実体データに多重分離(demux)を行ない、映像データと音声データとして取り出したのち、それらのデータを切り出して並び替える編集処理を行い、編集したデータをMP4形式のファイルに再度多重化していた。この処理はあらかじめ多重化されているコンテンツデータを分離し、再度多重化するなど迂遠な手順が多く、また編集の際のデータ処理負荷が大きなものとなっていた。 For example, in the case of MP4, which is an extended format, as an editing method in the case of performing an editing process in which moving images of different files are cut out and combined into one MP4 file, each is multiplexed in the mdat box of the MP4 file. Demultiplexing (demux) was performed on the actual data, and the data was extracted as video data and audio data. Then, the data was cut out and rearranged, and the edited data was multiplexed again into the MP4 format file. In this process, there are many detour procedures such as separating previously multiplexed content data and then multiplexing again, and the data processing load during editing is large.
前述の問題を解決するべく、コンテンツデータがあらかじめ分割されているフラグメント方式のMP4ファイルにおける編集処理を効率的に行えるようなデータファイルの編集方法が提案されている(特許文献1を参照)。
あらかじめフラグメントしていないMP4ファイルから所定の動画像の切り出し編集や、異なるMP4ファイル同士の動画像を切り出して1つのMP4ファイルに連結する編集処理を行う場合、多重化されているコンテンツデータを一旦多重分離し、編集後に再度多重化しなければならない。フラグメント方式においては分割された単位での編集方法が提案されているが、ノンフラグメント方式のコンテンツデータには適用できない。 When performing edit processing to extract a predetermined moving image from an MP4 file that has not been fragmented in advance, or to extract a moving image of different MP4 files and link them to one MP4 file, the multiplexed content data is temporarily multiplexed. It must be separated and multiplexed again after editing. In the fragment method, an editing method in divided units has been proposed, but it cannot be applied to non-fragment content data.
本発明は上記問題に鑑みてなされたもので、MP4ファイルフォーマットのノンフラグメント方式ファイルにおいて、後の編集処理を効率的に行なうことのできるMP4ファイル作成するための多重化装置を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a multiplexing apparatus for creating an MP4 file capable of efficiently performing subsequent editing processing in a non-fragmented file of the MP4 file format. And
本発明にかかる多重化装置は映像データと音声データを、メタデータとメディアデータとを有するノンフラグメント方式の動画像符号化ファイルフォーマット形式に多重化するための多重化装置であって、前記映像データ及び前記音声データを取得する手段と、前記映像データのランダムアクセス可能なポイントで、前記映像データ及び前記音声データを該映像データに含まれるシーン毎に分割する手段と、前記分割された映像データの個数分のmdat boxを定義する手段と、前記分割された映像データ及び音声データを多重化する手段と、前記多重化されたメディアデータを最初のデータから先頭の前記mdat boxより順に格納する手段と、を具備することを特徴している。 A multiplexing device according to the present invention is a multiplexing device for multiplexing video data and audio data into a non-fragmented moving image encoded file format format having metadata and media data, the video data And means for acquiring the audio data; means for dividing the video data and the audio data for each scene included in the video data at a randomly accessible point of the video data; and Means for defining the number of mdat boxes; means for multiplexing the divided video data and audio data; means for storing the multiplexed media data in order from the first mdat box from the first data; It is characterized by comprising.
本発明にかかるプログラムは映像データと音声データを、メタデータとメディアデータとを有するノンフラグメント方式の動画像符号化ファイルフォーマット形式に多重化する、計算機で実行可能なプログラムであって、映像データ及び音声データからなるメディアデータを取得する手順と、前記映像データのランダムアクセス可能なポイントで、前記映像データ及び前記音声データを該映像データに含まれるシーン毎に分割する手順と、前記分割された映像データの個数分のmdat boxを定義する手順と、前記分割された映像データ及び音声データを多重化する手順と、前記多重化された映像データおよび音声データを最初のデータから先頭の前記mdat boxより順に格納する手順とを計算機に実行させることを特徴としている。 A program according to the present invention is a computer-executable program that multiplexes video data and audio data into a non-fragmented moving image encoded file format format having metadata and media data. A procedure for obtaining media data composed of audio data; a procedure for dividing the video data and the audio data for each scene included in the video data at a randomly accessible point of the video data; and the divided video A procedure for defining mdat boxes for the number of data, a procedure for multiplexing the divided video data and audio data, and the multiplexed video data and audio data from the first data to the first mdat box It is characterized by having a computer execute the procedure of storing in order.
本発明にかかる多重化方法は映像データと音声データを、メタデータとメディアデータとを有するノンフラグメント方式の動画像符号化ファイルフォーマット形式に多重化するための多重化方法であって、映像データ及び音声データからなるメディアデータを取得し、前記映像データのランダムアクセス可能なポイントで、前記映像データ及び前記音声データを該映像データに含まれるシーン毎に分割するとともに、前記分割された映像データの個数分のmdat boxを定義して、前記分割された映像データ及び音声データを多重化した符号化データを、最初のデータから先頭の前記mdat boxより順に格納することを特徴としている。 A multiplexing method according to the present invention is a multiplexing method for multiplexing video data and audio data into a non-fragmented moving image encoded file format format having metadata and media data, the video data and Media data consisting of audio data is acquired, and the video data and the audio data are divided for each scene included in the video data at a random accessible point of the video data, and the number of the divided video data The mdat box of minutes is defined, and the encoded data obtained by multiplexing the divided video data and audio data is stored in order from the first data to the first mdat box.
本発明によれば、MP4ファイルの多重化の際にシーン毎にメディアデータの分割を行い、それぞれのメディアデータを異なるmdat boxに多重化して格納する。そうすることでシーン毎の編集を所望のmdat box単位で切り取り、並べ替え等の処理により行うことが可能となる。よってノンフラグメント形式のままで、mdat box内のメディアデータの多重化、再多重化等の迂遠な処理を行うことなくMP4ファイルの編集処理を効率的に行うことができる。 According to the present invention, when MP4 files are multiplexed, media data is divided for each scene, and each media data is multiplexed and stored in different mdat boxes. By doing so, editing for each scene can be cut out in units of desired mdat boxes and rearranged. Therefore, the MP4 file editing process can be efficiently performed without performing a detour process such as multiplexing and remultiplexing of media data in the mdat box in the non-fragment format.
以下、本発明の実施形態を図面を参照しながら説明する。 Embodiments of the present invention will be described below with reference to the drawings.
前述の「ISO Base Mediaファイル形式」という汎用のファイル形式は特定の符号化形式を前提とはしていない基本ファイル形式として定義されている。所定の符号化形式や目的に適合させるにはこの規格を部分的に拡張した規格を別途定義することによって対応するという特徴を有している。この拡張の代表例としてMP4ファイルフォーマットがある。 The above-mentioned general-purpose file format called “ISO Base Media file format” is defined as a basic file format that does not assume a specific encoding format. In order to adapt to a predetermined encoding format and purpose, there is a feature that a standard partially expanded from this standard is separately defined. A typical example of this extension is the MP4 file format.
配信サービスにおいて、メディアファイルを配信する際には、まず、多重化装置において、動画、静止画、音声、およびテキスト等のメディアデータを取り込んで、メディアデータの再生に必要なヘッダ情報とメディアデータの実体データとを多重化して、メディアファイルデータを作成することが必要となるが、現在、動画ファイルフォーマットとして、このMP4ファイルフォーマットが注目されており、今後広く普及するものと予想される。本実施形態ではMP4ファイル形式を例に説明する。 When distributing a media file in a distribution service, first, the multiplexing device captures media data such as moving images, still images, audio, and text, and the header information and media data required for reproducing the media data. Although it is necessary to multiplex the entity data with the media file data, the MP4 file format is currently attracting attention as a moving image file format and is expected to be widely used in the future. In this embodiment, an MP4 file format will be described as an example.
ここでMP4ファイルのデータ構造について説明する。図1はMP4形式のデータ構造の一例を示す図である。図1のようにMP4形式のファイルデータは大きくmdat box、moov boxの2つのデータ構造から構成される。 Here, the data structure of the MP4 file will be described. FIG. 1 is a diagram showing an example of a data structure in the MP4 format. As shown in FIG. 1, the MP4 format file data is largely composed of two data structures of mdat box and moov box.
ここで1つのまとまったデータを格納する領域をboxという単位で表す。このboxには先頭の4バイトにboxのバイト単位のサイズ(Size)を格納し、後続する4バイトにそのboxの種類(Type)を格納して、この合計8バイトをヘッダとして、データブロックの先頭に付加する構造となっている。そのため、MP4ファイルの先頭8バイトで最初のboxのサイズと種類を知ることができ、ファイルの先頭からその最初のboxのサイズだけ(ファイルの先頭の位置からサイズを加算した位置だけ)移動することにより後続するboxにアクセスすることが可能となる。 Here, an area for storing a single piece of data is expressed in units of box. In this box, the size (Size) of the box in bytes is stored in the first 4 bytes, the type (Type) of the box is stored in the subsequent 4 bytes, and the total of 8 bytes is used as a header, and It has a structure added to the head. Therefore, the size and type of the first box can be known from the first 8 bytes of the MP4 file, and only the size of the first box is moved from the beginning of the file (only the position obtained by adding the size from the beginning position of the file). The subsequent box can be accessed.
mdat boxとは符号化された映像、音声データの実体を格納している領域である、またmoov boxは映像、音声データの物理的位置、時間的位置や、特性情報等のメタデータを格納している領域である。また、boxはファイル内に連続して記録できるだけでなく、図1に示すmoov box内のtrack boxのように、box内に幾つかのboxを持つことが可能であり、boxを入れ子にすることができる。ここで、track boxとは、moov box内に存在し、音声や画像などを再生するために必要な管理情報をそれぞれが分担して保持している領域である。 An mdat box is an area that stores encoded video and audio data entities, and a moov box stores metadata such as physical and temporal positions of video and audio data, and characteristic information. It is an area. Boxes can be recorded not only continuously in a file, but also can have several boxes in a box, such as the track box in the moov box shown in Fig. 1. Can do. Here, the track box is an area that exists in the moov box and shares and holds management information necessary for reproducing sound, images, and the like.
また、MP4ファイルフォーマットでは、moov boxに全てのメタデータを記録する形だけではなく、メタデータを時系列順に複数の領域に分割して記録するような形式も許可している。この形式は「フラグメントムービー」(Fragmented Movie)と呼ばれている。 The MP4 file format allows not only the form of recording all the metadata in the moov box, but also the form of recording the metadata by dividing it into a plurality of areas in chronological order. This format is called "Fragmented Movie".
MP4ファイルフォーマットのメディアデータを作成する際、前述のように多重化装置において映像、音声データを取り込み、多重化を行ない、メディアデータの実体データをmdat boxに格納し、メタデータをmoov box内に作成する。 When creating media data in MP4 file format, the video and audio data is captured and multiplexed by the multiplexing device as described above, the media data is stored in the mdat box, and the metadata is stored in the moov box. create.
図2には従来の多重化装置を用いて多重化処理を行った従来のMP4ファイル201、及び本発明を用いて多重化処理を行ったMP4ファイル202の一例が示されている。
FIG. 2 shows an example of a
従来の多重化処理装置を用いて多重化処理を行うと、ノンフラグメント形式のMP4ファイルは、MP4ファイル201のようにmoov boxとmdat boxそれぞれ一つずつの形式となって出力される。一方、本実施形態における多重化装置より出力されたMP4ファイル202は一つのmoov boxと一つ以上のmdat boxによって構成される。このmdat boxに格納されているメディアデータは先頭のmdat boxより時系列順に格納される。そしてこのMP4ファイル202の通常の再生を行う際は、先頭のmdat boxに格納されているメディアデータより次のmdat box内のメディアデータへと順次再生していくことになる。このMP4ファイル202の形式にすることによりそれぞれのmdat boxについて、多重分離することなくその部分を切り出し編集することが可能な状態となる。
When multiplexing processing is performed using a conventional multiplexing processing apparatus, a non-fragmented MP4 file is output in a format of one moov box and one mdat box as in the
図3は本実施形態における多重化処理を実現するための情報処理装置の構成の一例を示すブロック図である。図3には、CPU301,Mメモリ302、HDD303、多重化装置304、ODD305、ネットワークI/F306、音声I/F307、映像I/F308、およびバス309が示されている。
FIG. 3 is a block diagram showing an example of the configuration of the information processing apparatus for realizing the multiplexing processing in the present embodiment. FIG. 3 shows a
CPU301は中央演算処理装置(Central Processing Unit)であり、情報処理装置全体を制御している。またプログラムを実行し、そのプログラムに応じた所定の処理を実行する機能を有している。
A
Mメモリ302は半導体メモリにより構成され、CPU301がプログラムを処理する際のプログラムおよびデータの格納用領域として利用される。
The
HDD303は例えば磁気ディスク装置であり、データを保存する不揮発性の領域として利用される。CPU301の指示により、記憶されたプログラムやデータを読み出すことができる。
The
多重化装置304はMP4ファイルフォーマットに準拠して映像データと音声データを多重化し、MP4形式のファイルを生成するモジュールである。多重化装置304はバス309を介して映像データ及び音声データを取得し、多重化したMP4データをHDD303に出力する。本実施形態では多重化後のMP4データをHDD303に出力する例を示しているが、ODD305に書き込むようにしても良く、またネットワークI/F306を介して他の情報処理装置に送信するようにしても良い。
The
ODD305は例えば光ディスク装置であり、挿入されたCD(Compact Disc)やDVD(Digital Versatile Disc)等の光ディスクに対し、データおよびプログラムの書き込み、読み出しを行う。 The ODD 305 is, for example, an optical disk device, and writes and reads data and programs to and from an inserted optical disk such as a CD (Compact Disc) or a DVD (Digital Versatile Disc).
ネットワークI/F306はLAN、WAN等のネットワークを介して他の情報処理装置等とのデータの伝達を行う。 A network I / F 306 transmits data to other information processing apparatuses and the like via a network such as a LAN or a WAN.
音声I/F307はマイク等の外部音声を取得するためのインタフェースであり、外部音声を電気信号に変換して情報処理装置に入力する機能を有している。
The audio I /
映像I/F308はデジタルカメラ等の外部映像を取得するためのインタフェースであり、外部映像を電気信号に変換して情報処理装置に入力する機能を有している。
A video I /
バス309には各モジュールが接続されており、モジュール相互での通信が可能となっている。
Each module is connected to the
また多重化装置304の各部の構成はソフトウェアで実現してもよい。この場合には、各構成の機能を実現するCPU301で実行可能なプログラムをあらかじめHDD303に格納しておき、処理時にはメモリ302上に読み出して実行するように構成すれば良い。なお、ソフトウェアで構成する場合、プログラムはHDD303に格納されているだけではなく、光ディスクに格納されたプログラムをODD305から直接読み出しても良い。あるいはネットワークI/F306より取得するようにしても良い。
The configuration of each unit of the
本実施形態において、多重化装置304を用いて多重化を行う映像データおよび音声データは、音声I/F307および映像I/F308から別々に取得したデータでもよい。音声I/F307および映像I/F308から別々に取得したデータの場合はそれぞれを独立に多重化装置304に入力し多重化を行う。また、すでに多重化されているようなデータは多重分離(demux)し、映像データ、音声データを分離してからそれぞれを多重化装置304に入力する。多重化装置304に入力するこれらのデータはHDD303又は、ODD305に保存されていたデータでもよいし、ネットワークI/F305から取得しても良い。また、データの取得手段としては当然上記の例示に限定されるものではない。
In the present embodiment, the video data and audio data to be multiplexed using the
図4は本実施形態における多重化装置304の構成の一例を示すブロック図である。図4には多重化装置304、映像データ指定部401、映像データ解析部402、音声データ指定部403、音声データ解析部404、MP4多重化部405、およびMP4データ出力部406が示されている。
FIG. 4 is a block diagram showing an example of the configuration of the
映像データ指定部401は、多重化装置304外部からバス309を介して映像データを取得し、映像データ解析部402に対し出力する機能を有している。
The video
映像データ解析部402は、映像データ指定部401が生成した映像データの解析を行い、以降の多重化処理に必要な情報を抽出する機能を有している。また、映像データからシーン情報や、シーン毎の符号化情報等の抽出も行い、抽出されたシーン等情報や多重化処理に必要な情報をMP4多重化部405へと出力する。ここでのシーンとはランダムアクセス可能なポイントで映像データを分割したものである。
The video
音声データ指定部403は、多重化装置304外部からバス309を介して音声データを取得し、音声データ解析部404に対し出力する機能を有している。
The audio
音声データ解析部404は、音声データ指定部403から取得した音声データの解析を行い、多重化処理に必要な情報を抽出する。また、抽出した情報をMP4多重化部405へと出力する機能を有している。
The voice
MP4多重化部405は映像データおよび音声データのMP4ファイルフォーマットへの多重化を行ない、多重化したMP4データをMP4データ送信部に対し出力する機能を有している。MP4多重化部405はMP4ファイルを作成するとき、映像データから抽出したシーンの単位に映像データおよび音声データを分割する。その後、映像データに含まれるシーン数分のmdat boxを作成し、先に分割した単位で映像データと音声データを多重化して、多重化したシーン毎の映像データ及び音声データを先頭のmdat boxから順に格納していく。この処理によりMP4ファイル202が生成される。
The MP4 multiplexing unit 405 has a function of multiplexing video data and audio data into the MP4 file format and outputting the multiplexed MP4 data to the MP4 data transmitting unit. When creating the MP4 file, the MP4 multiplexing unit 405 divides the video data and audio data into scene units extracted from the video data. After that, create mdat boxes for the number of scenes included in the video data, multiplex the video data and audio data in the previously divided units, and store the multiplexed video data and audio data for each scene from the top mdat box Store in order. With this process, an
また、MP4多重化部405はmoov box内のstsd boxの中にmdat boxの個数分(シーン数分)、多重化を行なうメディアデータの符号化情報であるSample descriptionを格納するSample description boxを定義する。これは入力された映像データがシーン毎に符号化情報が異なることが考えられるためである。 In addition, the MP4 multiplexing unit 405 defines a sample description box for storing a sample description, which is encoding information of media data to be multiplexed, for the number of mdat boxes (for the number of scenes) in the stsd box in the moov box. To do. This is because the input video data may have different encoding information for each scene.
このとき先頭のmdat boxに格納されたシーンを記述するSample descriptionは先頭のSample description boxに格納し、N番目のmdat boxに格納されたシーンを記述するSample descriptionはN番目のSample description boxに格納する。つまり先頭のSample descriptionから順に先頭のSample description boxへと順次格納する。そしてこのSample description boxはmoov box内のstsd boxに格納される。ここで、このSample description boxおよびstsd boxは上述のtrak boxの一つであり他階層のものである。 At this time, the sample description describing the scene stored in the first mdat box is stored in the first sample description box, and the sample description describing the scene stored in the Nth mdat box is stored in the Nth sample description box. To do. In other words, the first sample description is sequentially stored in the first sample description box. This Sample description box is stored in the stsd box in the moov box. Here, the Sample description box and the stsd box are one of the trak boxes described above and are of other layers.
またSample_description_indexもmdat boxの個数分に対応して作成しmoov box内のstsc boxに格納する。例えばmdat boxがN個あり、それぞれのシーンを記述する全てのSample descriptionで共通していないとするならば「Sample_description_index=N」と定義する。また全てのシーンにおいてSample descriptionが共通であれば、「Sample_description_index=1」と定義する。 Sample_description_index is also created corresponding to the number of mdat boxes and stored in the stsc box in the moov box. For example, if there are N mdat boxes and they are not common to all sample descriptions describing each scene, “Sample_description_index = N” is defined. If Sample description is common in all scenes, it is defined as “Sample_description_index = 1”.
MP4データ出力部406は、MP4多重化部405で多重化されたMP4データを外部に出力する機能を有している。
The MP4
図5は、本実施形態におけるシーン数がN個であった場合の多重化後のmoov boxの構造と格納された情報の一例を示す概略図である。moov boxに格納されるdref boxにそれぞれのmdat boxの存在場所をしめすurl boxをmdat boxの個数分(シーン数分)作成し、格納する。図5にシーン数がN個であった場合のmoov boxの構造と格納された情報の概略図を示す。図5ではmoov box内の階層構造はMP4ファイルフォーマットに準拠するものとし、上位の階層は省略して記載してある。 FIG. 5 is a schematic diagram illustrating an example of the structure of the moov box after multiplexing and stored information when the number of scenes in the present embodiment is N. Create and store url boxes indicating the location of each mdat box in the dref box stored in the moov box (the number of scenes). FIG. 5 shows a schematic diagram of the structure of the moov box and stored information when the number of scenes is N. In FIG. 5, the hierarchical structure in the moov box is based on the MP4 file format, and the upper hierarchy is omitted.
図6は多重化される前の映像データと音声データのシーンの分割方法の一例を示す図である。一般に符号化された映像データは、フレームの符号化の単位に従いランダムアクセスが可能なポイントが限定されており、ここでいうシーンの分割は必ずランダムアクセスが可能なポイントで行なわれる。シーンの実際の分割方法としては、実施の際の実装に依存し、短い映像データであるならばランダムアクセスの可能な全てのポイントで分割することも考えられ、またある程度の長さを持った映像データであるならば、所定時間経過毎にランダムアクセスの可能なポイントで分割を行なったり、大きく映像データの情報が切り替わるランダムアクセス可能なポイントでシーンの分割を行なうことも考えられるため、本実施形態では特に限定しない。しかし、どのような分割方法であったとしても、Sample descriptionが変化するポイントではシーンは異なるものとし、分割を行なう。 FIG. 6 is a diagram showing an example of a scene dividing method of video data and audio data before being multiplexed. In general, encoded video data has a limited number of points that can be randomly accessed according to a frame encoding unit, and scene division here is always performed at a point where random access is possible. The actual scene division method depends on the implementation at the time of implementation, and if it is short video data, it is possible to divide at all points where random access is possible, and video with a certain length If it is data, it is conceivable to divide at a point where random access is possible at every elapse of a predetermined time, or to divide a scene at a point where random access is possible where information of video data is largely switched. Then there is no particular limitation. However, no matter what division method is used, the scene is different at the point where the sample description changes, and division is performed.
音声データに関しては、ランダムアクセスが不可能なポイントというのは存在せず、どのポイントでも分割可能であるため、図のように映像データのシーン分割の箇所に対応する箇所でシーン分割を行なう。 Regarding audio data, there is no point at which random access is impossible, and any point can be divided. Therefore, scene division is performed at a location corresponding to a scene division location of video data as shown in the figure.
図7は本実施形態における多重化装置304の処理フローの一例を示すフロー図である。
FIG. 7 is a flowchart showing an example of a processing flow of the
まず、映像データ指定部401、音声データ指定部403が多重化装置304外部より映像データ、音声データをそれぞれ分離したデータ形式で取得する(S701)。次に映像データ解析部402、音声データ解析部404がそれぞれ受信した映像データ、音声データの解析を行い(S702)、解析によって得られたシーン情報、多重化処理に必要となる情報をMP4多重化処理部405に送信する。MP4多重化処理部は受信した情報を元に、まず映像データの中のシーン数が2つ以上であるかどうかを判別する(S703)。シーン数が1であるならば(No)、シーン分割が行なわれないのでmdat boxを一つ作成し、そこに全メディアデータを格納する。またシーン数が1であるならば、Sample descriptionも一つなのでSample_description_indexに関して、Sample_description_index=1とする(S704)。S703においてシーン数が2以上であれば(Yes)、次にSample descriptionが全てのシーンにおいて共通か、否かの判別を行う(S705)。全てのシーンでSample descriptionが共通であるならば(Yes)、シーン数分mdat boxを作成し、最初のmdat boxよりシーン毎のメディアデータをそれぞれ時系列的に格納する。またそれに対応するurl boxを作成する。さらにSample descriptionは全てのシーンにおいて共通なので、Sample_description_index=1とする(S706)。S705においてメディアデータにSample descriptionが異なるシーンが存在するならば(No)、S706と同様にシーン数分のmdat box、url boxを作成する。また、それぞれのmdat boxに格納されるメディアデータに対応するSample descriptionをmdat box毎に用意し、Sample_description_index=Nとする(S707)。これらの処理によってmdat box毎に格納されたメディアデータとmoov box内に格納されたSample descriptionとの対応関係の判別が可能な形式となる。次に、S704、S706、S707の次のフローとして多重化装置304はMP4ファイルフォーマットに準拠してMP4データを構築する(S708)。最後に構築したMP4データをMP4データ出力部406より多重化装置304外部へ出力し、一連の多重化処理フローは終了となる。
First, the video
以上の方法により、mdat doxがシーン数個存在し、それぞれに各シーンが格納されたmMP4データが作成できる。ここで本実施形態によって得られたMP4データを元データとして新たなMP4データを作成する場合の編集処理方法を説明する。 By the above method, there are several mdat dox scenes, and mMP4 data storing each scene can be created. Here, an editing processing method in the case where new MP4 data is created using the MP4 data obtained by the present embodiment as original data will be described.
図8は本実施形態の多重化処理によって得られたMP4データの編集方法の一例を示した図である。本実施形態においては、得られたMP4データ(a)、(b)、(c)の中のmdat boxを切り出し、1つのMP4データ(d)に纏める編集処理を考える。 FIG. 8 is a diagram showing an example of a method for editing MP4 data obtained by the multiplexing process of this embodiment. In the present embodiment, consider an editing process in which mdat boxes in the obtained MP4 data (a), (b), and (c) are cut out and combined into one MP4 data (d).
図8に示すようにMP4データ(a)より、mdat dox[A]、mdat dox[C]、MP4データ(b)より、mdat dox[B]、MP4データ(c)より、mdat dox[D]を切り出し、一つのMP4データ(d)に纏める編集処理を行う場合、従来の多重化装置で多重化されたMP4データのように多重分離し、再び多重化を行なう等の処理を行う必要が無い。本実施形態で得られたMP4データに関して同様の編集を行なう場合は、mdat dox[A]、 [B]、[C] 、[D]をそれぞれのMP4データより切り出し、並べるのみで実体データを格納するmdat boxに関する編集処理は終了となる。後に実体データに対応するようにmoov box内にメタデータを作成することで、編集されたMP4データが完成する。ここでmdat boxにも他のbox同様に先頭にboxのサイズがヘッダ情報として格納されているため、メタデータ作成の際これを利用してもよい。 As shown in FIG. 8, mdat dox [A], mdat dox [C] from MP4 data (a), mdat dox [B] from MP4 data (b), mdat dox [D] from MP4 data (c) When the editing process is performed to combine the data into one MP4 data (d), it is not necessary to perform a process such as demultiplexing and multiplexing again like the MP4 data multiplexed by the conventional multiplexing apparatus. . When the same editing is performed on the MP4 data obtained in the present embodiment, mdat dox [A], [B], [C], and [D] are cut out from the respective MP4 data and stored simply by arranging them. The editing process related to the mdat box to be completed is completed. Later, the edited MP4 data is completed by creating metadata in the moov box so as to correspond to the entity data. Here, since the size of the box is stored as header information at the top of the mdat box as well as other boxes, this may be used when creating metadata.
本実施形態ではmdat box内の実体データに関しては再多重化等の処理を行う必要が無く、mdat boxを並べるのみの作業で編集が可能であり、moov box内のメタデータの作成を行うのみで編集が可能なため処理が簡単であり、情報処理装置のデータ処理負担も軽いものとなる。 In this embodiment, it is not necessary to perform re-multiplexing or the like on the entity data in the mdat box, it can be edited only by arranging the mdat boxes, and only the metadata in the moov box is created. Since editing is possible, the processing is simple and the data processing burden on the information processing apparatus is light.
元のMP4データより切り取りってきたmdat boxには対応するSample descriptionが存在するため、編集後のMP4データのメタデータの編集に関して、Sample descriptionは編集前のMP4データ(a)、(b)、(c)におけるSample descriptionをそのまま利用することができる。元のMP4データのmdat boxと、moov box内に格納されたSample descriptionを編集時に抽出するときの対応を示した図が図9となる。 Since the corresponding sample description exists in the mdat box cut out from the original MP4 data, the sample description is the MP4 data (a), (b), The sample description in (c) can be used as it is. FIG. 9 shows the correspondence between the mdat box of the original MP4 data and the sample description stored in the moov box when extracted during editing.
ここで図9を用いて元のMP4データのmdat boxと、Sample description編集時に抽出するときの対応について説明する。図9−A〜図9−Cでは編集元のMP4データの状態に分類して示してある。 Here, the correspondence between the mdat box of the original MP4 data and the extraction when editing the sample description will be described with reference to FIG. In FIGS. 9A to 9C, the MP4 data of the editing source is classified and shown.
図9−Aでは「mdat boxの個数=1」の場合のmdat boxとSample descriptionの対応を示してる。mdat boxの個数=1(シーン数=1)のMP4データでは当然Sample descriptionも一つとなるので、MP4データのmdat boxを利用する場合はmdat 1にSample description 1を対応付けて編集作業に利用する。
FIG. 9A shows the correspondence between the mdat box and the sample description when “the number of mdat boxes = 1”. Since the number of mdat boxes = 1 (number of scenes = 1), the sample description is naturally one, so when using the MP4 data mdat box,
図9−Bでは「mdat boxの個数=N、Sample description共通」の場合を示している。これはmdat boxの個数=Nよってシーン数=Nであるが、全シーンにおいてSample descriptionが共通である場合(Sample_description_index=1)である。このときいずれのmdat boxを切り出す場合にもSample description 1を対応付けて編集作業に利用する。
FIG. 9-B shows a case where “the number of mdat boxes = N, common sample description”. This is the case where the number of mdat boxes = N and the number of scenes = N, but the sample description is common in all scenes (Sample_description_index = 1). At this time, when any mdat box is cut out,
図9−Cでは「mdat boxの個数=N、共通でないSample descriptionが存在する」場合を示している。これはmdat boxの個数=Nよりシーン数=Nであり、シーンによって共通でないSample descriptionが存在する場合(Sample_description_index=N)である。このときmoov box内にmdat boxと同じ順番で対応するSample descriptionが格納されているため、同順番のmdat boxとSample descriptionを対応付けて編集作業に利用する。 FIG. 9C shows a case where “the number of mdat boxes = N, there is a non-common Sample description”. This is the case where the number of mdat boxes = N and the number of scenes = N, and there is a sample description that is not common to each scene (Sample_description_index = N). At this time, since the sample description corresponding to the mdat box is stored in the moov box in the same order, the mdat box and the sample description in the same order are associated with each other and used for the editing work.
上述のようにmdat box毎に対応するSample descriptionを元のMP4データより運用することでmdat box毎の符号化情報を気にすることなく編集を行なうことが可能である。本実施形態ではMP4データ多重化の際、Sample description等についてのみ、それぞれのmdat boxに対応して作成して例示したが、これに限定されるものではなく、他のメタデータに関してもmdat boxに対応するよう作成しておけば、編集の際にSample description同様に利用できるものと考えられる。 As described above, by using the sample description corresponding to each mdat box from the original MP4 data, editing can be performed without worrying about the encoding information for each mdat box. In this embodiment, at the time of multiplexing MP4 data, only the sample description and the like are created and illustrated corresponding to each mdat box. However, the present invention is not limited to this, and other metadata is also included in the mdat box. If it is created so that it corresponds, it can be used in the same way as Sample description when editing.
また、本実施形態では編集作業として多重化装置304によって多重化されたMP4を切り出し、新たなMP4データを作成する編集作業を例示したが、これに限定されるものではなく、多重化したMP4データからのmdat boxの削除や、他のMP4データへのmdat boxの付加などmdat box単位でデータを自由に動かすことが可能であるということから様々な編集処理について応用可能である。
Further, in the present embodiment, the editing work for cutting out the MP4 multiplexed by the
本発明では、MP4ファイルフォーマットのノンフラグメント方式ファイルにおいて、後の編集処理を効率的に行なうことのできるMP4ファイル作成することができる。 In the present invention, it is possible to create an MP4 file that can be efficiently processed later in a non-fragmented file in the MP4 file format.
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具現化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
201:従来の形式のMP4ファイル
202:本実施形態において多重化されたMP4ファイル
301:CPU
302:Mメモリ
303:HDD
304:多重化装置
305:ODD
306:ネットワークI/F
307:音声I/F
308:映像I/F
309:バス
401:映像データ指定部
402:映像データ解析部
403:音声データ指定部
404:音声データ解析部
405:MP4多重化部
406:MP4データ出力部
201: MP4 file 202 in the conventional format 202: MP4 file 301 multiplexed in the present embodiment 301: CPU
302: M memory 303: HDD
304: Multiplexer 305: ODD
306: Network I / F
307: Voice I / F
308: Video I / F
309: Bus 401: Video data specifying unit 402: Video data analyzing unit 403: Audio data specifying unit 404: Audio data analyzing unit 405: MP4 multiplexing unit 406: MP4 data output unit
Claims (9)
前記映像データ及び前記音声データを取得する手段と、
前記映像データのランダムアクセス可能なポイントで、前記映像データ及び前記音声データを該映像データに含まれるシーン毎に分割する手段と、
前記分割された映像データの個数分のmdat boxを定義する手段と、
前記分割された映像データ及び音声データを多重化する手段と、
前記多重化されたメディアデータを最初のデータから先頭の前記mdat boxより順に格納する手段と、
を具備することを特徴とする多重化装置。 A multiplexing device for multiplexing video data and audio data into a non-fragmented moving image encoded file format format having metadata and media data,
Means for obtaining the video data and the audio data;
Means for dividing the video data and the audio data for each scene included in the video data at a randomly accessible point of the video data;
Means for defining mdat boxes for the number of divided video data;
Means for multiplexing the divided video data and audio data;
Means for sequentially storing the multiplexed media data from the first data to the first mdat box;
A multiplexing apparatus comprising:
メディアデータの符号化情報が共通でないならばそれぞれの前記メディアデータに対応するSample descriptionを複数決定する手段と、
前記Sample descriptionを格納するSample description boxを、該Sample descriptionの個数分定義する手段と
をさらに具備することを特徴とする請求項1記載の多重化装置。 If the encoding information of the media data stored in each of the mdat boxes is common, determine one Sample description corresponding to the media data,
Means for determining a plurality of sample descriptions corresponding to each of the media data if the encoding information of the media data is not common;
2. The multiplexing apparatus according to claim 1, further comprising means for defining a Sample description box for storing the Sample description by the number of Sample descriptions.
映像データ及び音声データからなるメディアデータを取得する手順と、
前記映像データのランダムアクセス可能なポイントで、前記映像データ及び前記音声データを該映像データに含まれるシーン毎に分割する手順と、
前記分割された映像データの個数分のmdat boxを定義する手順と、
前記分割された映像データ及び音声データを多重化する手順と、
前記多重化された映像データおよび音声データを最初のデータから先頭の前記mdat boxより順に格納する手順と、
を計算機に実行させることを特徴とするプログラム。 A computer-executable program that multiplexes video data and audio data into a non-fragmented moving image encoded file format format having metadata and media data,
A procedure for acquiring media data composed of video data and audio data;
A procedure of dividing the video data and the audio data for each scene included in the video data at a randomly accessible point of the video data;
A procedure for defining mdat boxes for the number of divided video data;
A procedure for multiplexing the divided video data and audio data;
A procedure for storing the multiplexed video data and audio data in order from the first data to the first mdat box;
A program characterized by causing a computer to execute.
メディアデータの符号化情報が共通でないならばそれぞれの前記メディアデータに対応するSample descriptionを複数決定する手順と、
前記Sample descriptionを格納するSample description boxを、該Sample descriptionの個数分定義する手順と
を計算機にさらに実行させることを特徴とする請求項4記載のプログラム。 If the encoding information of the media data stored in each of the mdat boxes is common, determine one Sample description corresponding to the media data,
A procedure for determining a plurality of sample descriptions corresponding to each of the media data if the encoding information of the media data is not common,
5. The program according to claim 4, further causing a computer to execute a procedure for defining a Sample description box for storing the Sample description for the number of Sample descriptions.
映像データ及び音声データからなるメディアデータを取得し、
前記映像データのランダムアクセス可能なポイントで、前記映像データ及び前記音声データを該映像データに含まれるシーン毎に分割するとともに、
前記分割された映像データの個数分のmdat boxを定義して、前記分割された映像データ及び音声データを多重化した符号化データを、最初のデータから先頭の前記mdat boxより順に格納する
ことを特徴とする多重化方法。 A multiplexing method for multiplexing video data and audio data into a non-fragmented moving image encoded file format format having metadata and media data,
Obtain media data consisting of video data and audio data,
Dividing the video data and the audio data for each scene included in the video data at a randomly accessible point of the video data,
Define mdat boxes for the number of divided video data, and store encoded data obtained by multiplexing the divided video data and audio data in order from the first data to the first mdat box. Feature multiplexing method.
メディアデータの符号化情報が共通でないならばそれぞれの前記メディアデータに対応するSample descriptionを複数決定し、
その後、前記Sample descriptionを格納するSample description boxを、該Sample descriptionの個数分定義する
ことを特徴とする請求項7記載の多重化方法。 If the encoding information of the media data stored in each of the mdat boxes is common, determine one Sample description corresponding to the media data,
If the encoding information of the media data is not common, determine a plurality of sample descriptions corresponding to each media data,
8. The multiplexing method according to claim 7, wherein after that, a number of sample description boxes for storing the sample description are defined.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008255616A JP2010086615A (en) | 2008-09-30 | 2008-09-30 | Multiplexing device, program, and multiplexing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008255616A JP2010086615A (en) | 2008-09-30 | 2008-09-30 | Multiplexing device, program, and multiplexing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010086615A true JP2010086615A (en) | 2010-04-15 |
Family
ID=42250410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008255616A Pending JP2010086615A (en) | 2008-09-30 | 2008-09-30 | Multiplexing device, program, and multiplexing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010086615A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103247317A (en) * | 2013-04-03 | 2013-08-14 | 深圳大学 | Editing method and system for record files |
CN110910916A (en) * | 2019-11-29 | 2020-03-24 | 四川效率源信息安全技术股份有限公司 | Carving method of monitoring video based on file structure |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006129078A (en) * | 2004-10-28 | 2006-05-18 | Canon Inc | Data file editing method and apparatus thereof, control program, and storage medium |
-
2008
- 2008-09-30 JP JP2008255616A patent/JP2010086615A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006129078A (en) * | 2004-10-28 | 2006-05-18 | Canon Inc | Data file editing method and apparatus thereof, control program, and storage medium |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103247317A (en) * | 2013-04-03 | 2013-08-14 | 深圳大学 | Editing method and system for record files |
CN110910916A (en) * | 2019-11-29 | 2020-03-24 | 四川效率源信息安全技术股份有限公司 | Carving method of monitoring video based on file structure |
CN110910916B (en) * | 2019-11-29 | 2021-08-03 | 四川效率源信息安全技术股份有限公司 | Carving method of monitoring video based on file structure |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4580929B2 (en) | Recording device, editing device, and digital video recording system | |
JP4270379B2 (en) | Efficient transmission and reproduction of digital information | |
CN105103540B (en) | Document generating method, file creating apparatus and recording medium | |
JP4481889B2 (en) | Data recording apparatus and method, program, and recording medium | |
WO2021049333A1 (en) | Information processing device, information processing method, playback processing device, and playback processing method | |
JP2006081146A (en) | System and method for embedding scene change information in video bit stream | |
JP2006115457A (en) | System and its method for embedding multimedia editing information into multimedia bit stream | |
JP5107314B2 (en) | Information storage medium in which video data is recorded, recording method, recording apparatus, reproducing method, and reproducing apparatus | |
CN103125123A (en) | Playback device, playback method, integrated circuit, broadcasting system, and broadcasting method | |
US8676038B2 (en) | Recording/reproducing apparatus, recording apparatus, reproducing apparatus, recording method, reproducing method and computer program | |
JP7439762B2 (en) | Information processing device, information processing method, and program | |
JP7238948B2 (en) | Information processing device and information processing method | |
JP4548226B2 (en) | Data processing method, apparatus and program thereof | |
CN105210365A (en) | File generation method and file generation apparatus | |
US7721180B2 (en) | Information management system, information management apparatus and information management method | |
WO2017141745A1 (en) | Image processing device, image processing method, and program | |
JP2010086615A (en) | Multiplexing device, program, and multiplexing method | |
US8059167B2 (en) | Shooting apparatus and shooting method, and program | |
JP2015109131A (en) | File generation method, reproduction method, file generation device, regeneration device and recording medium | |
WO2015083354A1 (en) | File generation method, playback method, file generation device, playback device, and recording medium | |
JP4280701B2 (en) | Data file editing method and apparatus, control program, and storage medium | |
US20230104640A1 (en) | File processing device, file processing method, and program | |
JP2006129078A (en) | Data file editing method and apparatus thereof, control program, and storage medium | |
JP2007124575A (en) | Recording apparatus, output apparatus, and edit apparatus | |
JP4378157B2 (en) | Data processing method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100323 |