JP3547210B2

JP3547210B2 - 音声付き動画データ作成装置

Info

Publication number: JP3547210B2
Application number: JP8961395A
Authority: JP
Inventors: 到野々村; 真一橋本; 勇一池谷; 剛裕山田; 和明田中; 康裕今井
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-04-14
Filing date: 1995-04-14
Publication date: 2004-07-28
Anticipated expiration: 2019-07-28
Also published as: JPH08289297A

Description

【０００１】
【産業上の利用分野】
本発明は、音声データと動画データとが多重された音声付き動画データから、該音声付き動画データよりデータ量が少なく、かつ、対応する音声と動画とを同時に出力するのに適した、所望の再生時間分の音声付き動画データを作成することが可能な音声付き動画データ作成装置に関する。
【０００２】
【従来の技術】
近年、オフィスにおけるＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のネットワークインフラの普及および高性能化や、インターネットへのアクセス環境の整備に伴い、複数の情報処理装置間で音声付き動画データをネットワークを介して伝送するマルチメディア伝送システムが普及する兆しがある。
【０００３】
マルチメディア伝送システムにおいては、音声付き動画データの供給源である情報処理装置（以下、ビデオサーバと称す。）が、動画データと音声データとを多重して作成した音声付き動画データを蓄積し、蓄積した音声付き動画データをネットワークを介して他の情報処理装置（以下、クライアントと称す。）に伝送するようになっている。なお、クライアントは、ビデオサーバからネットワークを介して伝送された音声付き動画データを再生するが、この際に、対応する動画と音声とが同時に出力されることが好ましい。
【０００４】
また、パーソナルコンピュータやワークステーションの性能の向上に伴い、パーソナルコンピュータやワークステーションをクライアントとして用い、パーソナルコンピュータやワークステーションで、手軽に音声付き動画データを再生することができるようになっている。
【０００５】
ところで、動画データや音声データは、データ量が非常に大きいことから、その蓄積や伝送を行う際には、圧縮処理を施すことにより、蓄積に必要な記憶装置の記憶容量を削減したり、伝送に必要な時間を短縮することが、一般に行われている。
【０００６】
動画データや音声データを圧縮する圧縮方式は多数あるが、そのうちの代表的なものとしては、例えば、ＩＳＯによって勧告された、動画データを圧縮するＭＰＥＧ１（ＭｏｖｉｎｇＰｉｃｔｕｒｅｅｘｐｅｒｔｓＧｒｏｕｐＰｈａｓｅ１）ビデオ符号化規格や音声データを圧縮するＭＰＥＧ１オーディオ符号化規格がある。また、ＭＰＥＧ１規格に準拠した動画データと音声データとの多重方法を定めた規格として、ＭＰＥＧ１システム多重化規格がある。
【０００７】
これらの規格の仕様や圧縮方式およびデータ構造等の概要については、「ポイント図解式最新ＭＰＥＧ教科書」，１９９４年８月１日，アスキー社刊のＰ８９〜Ｐ１２８およびＰ２３１〜Ｐ２５３に記載されている。
【０００８】
しかしながら、処理能力が低い情報処理装置をクライアントとして用いていたり低速なネットワークを用いているマルチメディア伝送システムにおいては、圧縮された音声付き動画データであっても、依然として、伝送や復号等の処理に時間がかかり、音声付き動画データをリアルタイムで再生することができないという問題点がある。
【０００９】
例えば、ビデオサーバが、毎秒１．５Ｍビットのデータ量を持つＭＰＥＧ１準拠の音声付き動画データを、毎秒６４Ｋビットの伝送速度のＮ−ＩＳＤＮ（Ｎａｒｒｏｗ−ＩｎｔｅｇｒａｔｅｄＳｅｒｖｉｃｅＤｉｄｉｔａｌＮｅｔｗｏｒｋ）回線で、クライアントに伝送する場合は、再生時間の約２４倍の伝送時間が必要となるので、クライアントにおいて、音声付き動画データをリアルタイムで再生することは不可能である。
【００１０】
そこで、クライアントにおいて、ビデオサーバからネットワークを介して伝送された音声付き動画データを、一旦記憶装置に記憶してから、後で再生するようにしようとすると、クライアントに大容量の記憶装置を設ける必要がある。
【００１１】
例えば、クライアントにおいて、毎秒１．５Ｍビットのデータ量を持つＭＰＥＧ１準拠の音声付き動画データを１時間分だけ蓄積するためには、６７５Ｍバイトの記憶容量が必要となる。
【００１２】
一方、音声付き動画データを再生する際に、内容の把握を短時間で行うために、音声付き動画データを早送り再生したいというニーズがある。
【００１３】
音声付き動画データの早送り再生を実現するためには、復号等の処理の高速化を図ればよいが、処理負荷の点で困難であるので、音声付き動画データのうちの動画データについて、その一部を再生して残りをスキップするという処理の繰り返すことによって、動画データの早送り再生を実現することが一般的である。
【００１４】
ところが、動画データは、その途中から再生する場合に、動画データのフレーム（画面）の切れ目といった、意味のある切れ目から再生を開始しないと、ノイズが発生して正常に再生されない。従って、スキップ終了後に動画データを正常に再生するためには、動画データの意味のある切れ目を検出し、検出した切れ目から再生を開始する必要があるので、早送り再生は、通常再生よりも処理負荷が高いという問題点がある。
【００１５】
上述した問題点を解決するための従来技術として、動画データのデータ量を削減する技術、および、早送り再生専用の動画データを作成する技術が開示されている。
【００１６】
例えば、特開平６−７０１７４号公報においては、動画データ中の高周波成分を削除することにより、動画データのデータ量を削減する技術が開示されている。
【００１７】
また、例えば、特開平６−１３３２６３号公報においては、事前にオリジナルの動画データを解析して早送り再生専用の動画データを作成しておき、早送り再生時には、早送り再生専用の動画データを再生することにより、処理負荷を軽減する技術が開示されている。
【００１８】
【発明が解決しようとする課題】
再生時の音声の有無は、内容の把握のしやすさに大きな影響があるので、早送り再生であっても、対応する音声と動画が同時に出力されることが望ましい。
【００１９】
ところが、上述した従来技術のうち、特開平６−７０１７４号公報に記載されている技術においては、動画データ中の高周波成分を削除することにより、動画データのデータ量を削減する技術が開示されているが、音声データに関する考慮はなされていない。
【００２０】
また、特開平６−１３３２６２号公報に記載されている技術においては、事前にオリジナルの動画データを解析して早送り再生専用の動画データを作成しておき、早送り再生時には、早送り再生専用データを再生することにより、処理負荷を軽減する技術が開示されているが、音声データに関する考慮はなされていない。
【００２１】
音声データも、動画データと同様に、その途中から再生する場合に、音声データの復号処理単位といった、意味のある切れ目から再生を開始しないと、ノイズが発生して正常に再生されない。従って、スキップ終了後に音声データを正常に再生するためには、音声データの意味のある切れ目を検出し、検出した切れ目から再生を開始する必要がある。
【００２２】
そこで、本発明の目的は、音声データと動画データとが多重された音声付き動画データから、該音声付き動画データよりデータ量が少なく、かつ、対応する音声と動画とを同時に出力するのに適した、所望の再生時間分の音声付き動画データを作成することが可能な音声付き動画データ作成装置を提供することにある。
【００２３】
【課題を解決するための手段】
上記目的を達成するために、本発明は、
（１）複数のフレームからなる動画データをフレーム単位に直交変換方式で符号化した動画データと、音声データとが多重された音声付き動画データを、動画データと音声データとに分離する分離手段、
（２）上記分離手段が分離した動画データについて、各フレーム内のデータのうちの高周波数成分を表すデータを削除することにより、各フレーム内のデータ量を削減する削減手段、
（３）上記削減手段が削減した動画データのうちの、指定された再生時間に応じた個数のフレームを符号化した動画データの部分である再生対象動画データと、上記分離手段が分離した音声データのうちの、上記再生対象動画データと同時に再生されるべき部分である再生対象音声データとを多重する多重手段、
を有する音声付き動画データ作成装置を提供している。
【００２４】
上記多重手段は、詳しくは、
（１）上記削減手段が削減した動画データについて、フレームごとに、該フレーム内の先頭の動画データの再生開始時刻情報を含む第１の補助データを作成する第１の作成手段、
（２）上記分離手段が分離した音声データについて、同時に再生されるべきフレームごとに、該フレーム内の先頭の音声データの再生開始時刻情報を含む第２の補助データを作成する第２の作成手段、
（３）上記第１の作成手段が作成した第１の補助データに基づいて、上記削減手段が削減した動画データのうちから、指定された再生時間に応じた個数のフレームを抽出することにより、上記再生対象動画データを決定する第１の抽出手段、
（４）上記第１の作成手段が作成した第１の補助データおよび上記第２の作成手段が作成した第２の補助データに基づいて、上記分離手段が分離した音声データのうちから、上記第１の抽出手段が決定した再生対象動画データと再生開始時刻が対応するフレームを抽出することにより、上記再生対象音声データを決定する第２の抽出手段、
を有し、上記第１の抽出手段が抽出した再生対象動画データと上記第２の抽出手段が抽出した再生対象音声データとを多重するようにしている。
【００２５】
また、本発明は、
（１）複数のフレームからなる動画データをフレーム単位にフレーム間予測符号化方式で符号化し、フレーム内の動画データを他のフレーム内の動画データとは独立に符号化したフレームである１個のＩピクチャ，前方向にある１個のＩピクチャから順方向予測符号化したフレームである１個以上のＰピクチャ，前方向にある１個のＩピクチャまたはＰピクチャと後方向にある１個のＩピクチャまたはＰピクチャとから双方向予測符号化したフレームである１個以上のＢピクチャからなる再生処理単位であるＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅ）を複数含む動画データと、音声データとが多重された音声付き動画データを、動画データと音声データとに分離する分離手段、
（２）上記分離手段が分離した動画データについて、上記Ｂピクチャ内のデータを、所定の値のデータに置換することにより、上記Ｂピクチャ内のデータ量を削減する削減手段、
（３）上記削減手段が削減した動画データについて、指定された再生時間に応じた個数のＧＯＰを抽出することにより、再生すべき動画データである再生対象動画データを決定すると共に、上記再生対象動画データと、上記分離手段が分離した音声データのうちの、上記再生対象動画データと同時に再生されるべき部分である再生対象音声データとを多重する多重手段、
を有する音声付き動画データ作成装置を提供している。
【００２６】
上記多重手段は、詳しくは、
（１）上記削減手段が削減した動画データについて、上記ＧＯＰごとに、該ＧＯＰ内の先頭の動画データの再生開始時刻情報を含む第１の補助データを作成する第１の作成手段、
（２）上記削減手段が削減した動画データについて、上記ピクチャごとに、該ピクチャ内の先頭の動画データの再生開始時刻情報を含む第２の補助データを作成する第２の作成手段、
（３）上記分離手段が分離した音声データについて、同時に再生されるべきフレームごとに、該フレーム内の先頭の音声データの再生開始時刻情報を含む第３の補助データを作成する第３の作成手段、
（４）上記第１の作成手段が作成した第１の補助データに基づいて、上記削減手段が削減した動画データのうちから、指定された再生時間に応じた個数のＧＯＰを抽出することにより、上記再生対象動画データを決定する第１の抽出手段、
（５）上記第２の作成手段が作成した第２補助データおよび上記第３の作成手段が作成した第３の補助データに基づいて、上記分離手段が分離した音声データのうちから、上記第１の抽出手段が決定した再生対象動画データと再生開始時刻が対応するフレームを抽出することにより、上記再生対象音声データを決定する第２の抽出手段、
を有し、上記第１の抽出手段が抽出した再生対象動画データと上記第２の抽出手段が抽出した再生対象音声データとを多重するようにしている。
【００２７】
なお、上記多重手段は、上記ＧＯＰの切れ目が、音声付き動画データを伝送する際の伝送処理単位の切れ目に一致するようにして多重することが好ましい。
【００２８】
また、上記第１の作成手段は、上記削減手段が削減した動画データのフレームレートと、当該ＧＯＰより前にある全てのＧＯＰに含まれているピクチャの数とに基づいて、上記ＧＯＰごとの再生開始時刻情報を算出することができ、上記第２の作成手段は、上記削減手段が削減した動画データのフレームレートと、上記ＧＯＰごとの再生開始時刻情報と、当該ピクチャを含むＧＯＰにおける該ピクチャの再生順序とに基づいて、上記ピクチャごとの再生開始時刻情報を算出することができ、上記第３の作成手段は、上記分離手段が分離した音声データのサンプリング周波数と、当該フレームより前にあるフレームの数とに基づいて、フレームごとの再生開始時刻情報を算出することができる。
【００２９】
【作用】
本発明の音声付き動画データ作成装置においては、上記削減手段は、上記分離手段が分離した動画データについて、各フレーム内のデータのうちの高周波数成分を表すデータを削除することにより、各フレーム内のデータ量を削減する。
【００３０】
そして、上記多重手段は、上記削減手段が削減した動画データのうちの、指定された再生時間に応じた個数のフレームを符号化した動画データの部分である再生対象動画データと、上記分離手段が分離した音声データのうちの、上記再生対象動画データと同時に再生されるべき部分である再生対象音声データとを多重する。
【００３１】
また、上記削減手段は、上記分離手段が分離した動画データについて、上記Ｂピクチャ内のデータを、所定の値のデータに置換することにより、上記Ｂピクチャ内のデータ量を削減する。
【００３２】
そして、上記削減手段が削減した動画データについて、指定された再生時間に応じた個数のＧＯＰを抽出することにより、再生すべき動画データである再生対象動画データを決定すると共に、上記再生対象動画データと、上記分離手段が分離した音声データのうちの、上記再生対象動画データと同時に再生されるべき部分である再生対象音声データとを多重する。
【００３３】
従って、本発明の音声付き動画データ作成装置によれば、音声付き動画データから、該音声付き動画データよりデータ量が少なく、かつ、対応する動画と音声を同時に出力するのに適した、所望の再生時間分の音声付き動画データを作成することができる。
【００３４】
【実施例】
以下、本発明の実施例について図面を参照して説明する。
【００３５】
まず、本発明の第１の実施例について説明する。
【００３６】
なお、以下の説明では、音声付き動画データがＭＰＥＧ１形式の音声付き動画データである場合を例にとって説明する。
【００３７】
図１は第１の実施例を適用したビデオサーバの構成を示すブロック図である。
【００３８】
図１に示すように、ビデオサーバは、ＣＰＵ１０１と、メインメモリ１０２と、記憶装置１０３と、伝送装置１０４と、バス１０５とを備えて構成されている。
【００３９】
本実施例において、ビデオサーバは、記憶装置１０３に格納されているＭＰＥＧ１形式のオリジナルの音声付き動画データから、該オリジナルの音声付き動画データよりデータ量が少なく、かつ、対応する動画と音声とを同時に出力するのに適した、所望の再生時間分のＭＰＥＧ１形式の音声付き動画データを作成し、作成したＭＰＥＧ１形式の音声付き動画データを記憶装置１０３に格納する音声付き動画データ作成処理を行う。
【００４０】
なお、本実施例は、ビデオサーバが行う音声付き動画データ作成処理をソフトウェアで実現した例である。すなわち、音声付き動画データ作成処理は、ＣＰＵ１０１が、記憶装置１０３に格納されているソフトウェアをメインメモリ１０２にロードし、メインメモリ１０２上でロードしたソフトウェアを実行することによって実現される。
【００４１】
なお、メインメモリ１０２は、半導体メモリ等の記憶媒体を用いて構成された揮発性の記憶装置であり、記憶装置１０３は、磁気記憶装置等の記憶媒体を用いて構成された不揮発性の記憶装置である。
【００４２】
また、伝送装置１０４は、音声付き動画データ作成処理によって作成されて記憶装置１０３に格納されたＭＰＥＧ１形式の音声付き動画データを、ネットワークを介してクライアントに伝送する。
【００４３】
また、各ブロック間でバス１０５を介して行われるデータの転送は、全てＣＰＵ１０１が制御しているものである。
【００４４】
さらに、キーボードやマウス等の入力装置、および、ＣＲＴ等の表示装置を備えるようにしてもよい。
【００４５】
図３は音声付き動画データ作成処理の処理手順を示すフローチャートである。
【００４６】
図３に示すように、音声付き動画データ作成処理においては、分離処理３０１，削減処理３０２，多重処理３０３という順序で処理が行われる。
【００４７】
図２は音声付き動画データ作成処理におけるデータの流れを示す図である。
【００４８】
図２において、ファイル２０１は、ＭＰＥＧ１形式のオリジナルの音声付き動画データが格納されたファイルを示している。
【００４９】
また、ファイル２０２は、分離処理３０１によって、ファイル２０１に格納されているオリジナルの音声付き動画データから分離された動画データが格納されたファイルを示しており、ファイル２０３は、分離処理３０１によって、ファイル２０１に格納されているオリジナルの音声付き動画データから分離された音声データが格納されたファイルを示している。
【００５０】
また、ファイル２０４は、削減処理３０２によって、ファイル２０２に格納されている動画データのデータ量が削減された動画データが格納されたファイルを示している。
【００５１】
また、ファイル２０５は、多重処理３０３によって、ファイル２０４に格納されている動画データとファイル２０３に格納されている音声データとが多重された、ＭＰＥＧ１形式の音声付き動画データが格納されたファイルを示している。ファイル２０５に格納されているＭＰＥＧ１形式の音声付き動画データが、ネットワークを介してクライアントに伝送されることとなる。
【００５２】
なお、これらのファイル２０１〜２０５は、記憶装置１０３に格納されるものである。
【００５３】
以下、音声付き動画データ作成処理の詳細について説明する。
【００５４】
まず、分離処理３０１について、図４および図５を用いて説明する。
【００５５】
図４はＭＰＥＧ１形式の音声付き動画データの構造図である。
【００５６】
図４に示すように、ＭＰＥＧ１形式の音声付き動画データは、パック４００およびパケット４１０の２層からなる階層構造となっている。
【００５７】
パック４００は、パックヘッダ４０１と、システムヘッダ４０２と、１個以上のパケット４１０とからなる。
【００５８】
ここで、パックヘッダ４０１は、パック４００の先頭を示すパック開始コード（同期コードの一種である。），後述するタイムスタンプに時間基準を与えるためのシステム時刻基準参照値，多重化レート等からなる。また、システムヘッダ４０２は、システムヘッダ４０２の先頭を示すシステムヘッダ開始コード（同期コードの一種である。），ビットレート，動画データのチャネル数，音声データのチャネル数等からなる。
【００５９】
また、パケット４１０は、パケットヘッダ４１１と、データ（動画データまたは音声データ）４１２とからなる。
【００６０】
ここで、パケットヘッダ４１１は、パケット３１０の先頭を示すパケット開始コード（同期コードの一種である。），対応する音声と動画とを同時に出力するために必要な時刻情報であるタイムスタンプ等からなる。なお、タイムスタンプには、いつ再生すべきかを示す再生の時刻管理情報、および、いつ復号すべきかを示す復号の時刻管理情報の２種類がある。また、パケット開始コードには、データ４１２のデータ種別が含まれている。
【００６１】
また、パック４００の最後には、音声付き動画データの終了を示す終了コード（同期コードの一種である。）４２０が付加されている。
【００６２】
図５は分離処理３０１の処理手順を示すフローチャートである。
【００６３】
分離処理３０１においては、図５に示すように、まず、ファイル２０１に格納されているオリジナルのＭＰＥＧ１形式の音声付き動画データから、ＭＰＥＧ１システム多重化規格で定められた同期コードを検出する（ステップ５０１）。
【００６４】
続いて、ステップ５０１で検出した同期コードが終了コード４２０であるか否かを判定し（ステップ５０２）、終了コード４２０である場合は、処理を終了する。
【００６５】
また、終了コード４２０でない場合は、ステップ５０１で検出した同期コードがパケット開始コード（パケットヘッダ４１１に含まれる。）であるか否かを判定し（ステップ５０３）、パケット開始コードでない場合は、ステップ５０１に戻る。
【００６６】
また、パケット開始コードである場合は、パケット開始コードに含まれているデータ種別に基づいて、パケット４１０内のデータ４１２のデータ種別を判定し（ステップ５０４）、データ４１２のデータ種別が動画データである場合は、動画データ４１２をファイル２０２に格納する（ステップ５０５）。
【００６７】
また、データ４１２のデータ種別が動画データでない場合は、パケット開始コードに含まれているデータ種別に基づいて、パケット４１０内のデータ４１２のデータ種別を判定し（ステップ５０６）、データ４１２のデータ種別が音声データでない場合は、ステップ５０１に戻る。
【００６８】
また、データ４１２のデータ種別が音声データである場合は、音声データ４１２をファイル２０３に格納する（ステップ５０７）。
【００６９】
このように、ファイル２０１に格納されているオリジナルのＭＰＥＧ１形式の音声付き動画データが、動画データと音声データとに分離され、各々、ファイル２０２およびファイル２０３に格納されることとなる。
【００７０】
次に、削減処理３０２について、図６および図７を用いて説明する。
【００７１】
図６はＭＰＥＧ１形式の動画データの構造図である。
【００７２】
図６に示すように、ＭＰＥＧ１形式の動画データは、シーケンス６０１，ＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅ）６０２，ピクチャ６０３，スライス６０４，ＭＢ（ＭａｃｒｏＢｌｏｃｋ）６０５，ブロック６０６の６層からなる階層構造となっている。
【００７３】
シーケンス６０１は、画素数やフレームレート等の一連の同じ属性を持つ画面グループであり、１個以上のＧＯＰ６０２からなる。
【００７４】
ＧＯＰ６０２は、復号処理単位となる画面グループの最小単位であり、１個以上のピクチャ（フレーム）６０３からなる。
【００７５】
ピクチャ６０３には、１枚の画面に共通な属性であり、Ｉピクチャ（Ｉｎｔｒａ−Ｐｉｃｔｕｒｅ：フレーム内符号化画像）、Ｐピクチャ（Ｐｒｅｄｉｃｔｉｖｅ−Ｐｉｃｔｕｒｅ：フレーム間順方向予測符号化画像）、Ｂピクチャ（Ｂｉｄｉｒｅｃｔｉｏｎａｌｌｙｐｒｅｄｉｃｔｉｖｅ−Ｐｉｃｔｕｒｅ：双方向予測符号化画像）の３個のピクチャタイプが存在する。なお、ピクチャ６０３は、１個以上のスライス６０４からなる。
【００７６】
ここで、各ピクチャタイプを構成するデータについて簡単に説明する。
【００７７】
Ｉピクチャを構成するデータは、フレーム間予測を使わずに、その情報だけから符号化されるデータであり、Ｐピクチャを構成するデータは、前方で１番近い位置にあるＩピクチャまたはＰピクチャを構成するデータからの予測を行うことによってできるデータである。
【００７８】
また、Ｂピクチャを構成するデータは、前後の両方向で１番近い位置にあるＩピクチャまたはＰピクチャを構成するデータからの予測を行うことによってできるデータである。そこで、Ｂピクチャを構成するデータは、ＩピクチャおよびＰピクチャを構成するデータが符号化された後に符号化されると共に、他のピクチャを符号化する際の予測に用いられない。なお、ＩピクチャまたはＰピクチャを構成するデータは、周期的に出現するようになっている。
【００７９】
このように、ＭＰＥＧ１形式の動画データにおいては、Ｂピクチャを構成するデータが符号化される順序が異なることから、復号する順序と再生する順序とが異なることとなる。このため、正しい順序で復号および再生を行い、対応する音声と同時に出力することを可能とするために、上述したタイムスタンプが設けられている。
【００８０】
図６に戻って、スライス６０４は、１枚の画面を任意の長さに分割した小画面に共通の情報であり、画面の走査順に連続する１個以上のＭＢ６０５からなり、ＭＢ６０５は、最大６個のブロック６０６からなる。
【００８１】
ブロック６０６は、２個以上の可変長符号６０７からなる。なお、可変長符号６０７は、空間周波数を示す係数であり、最終の可変長符号６０７は、ＥＯＢ（ＥｎｄＯｆＢｌｏｃｋ）符号である。
【００８２】
図７は削減処理３０２の処理手順を示すフローチャートである。
【００８３】
削減処理３０２においては、図７に示すように、まず、所定の要求符号量に基づいて、ファイル２０４に格納すべき動画データの、ブロック６０６当りの可変長符号５０７の最大個数（以下、最大符号数と称す。）を決定する（ステップ７０１）。
【００８４】
ここで、要求符号量は、ＣＰＵ１０１が、音声付き動画データ作成処理を行うに当たって、ＭＰＥＧ１形式の音声付き動画データを伝送すべきクライアントの処理能力やネットワークの伝送速度に基づいて決定しているものである。すなわち、ＣＰＵ１０１は、クライアントの処理能力やネットワークの伝送速度に基づいて、対応する動画と音声とをクライアントで同時に出力することが可能な動画データの最大符号量を算出し、算出した最大符号量を要求符号量として決定する。なお、ビデオサーバがキーボードやマウス等の入力装置を備えている場合は、入力装置から入力されたものであってもよい。
【００８５】
続いて、ファイル２０２に格納されている動画データを、ブロック６０６を検出するまで走査し、ブロック６０６以外の部分を抽出してファイル２０４に格納する（ステップ７０２）。
【００８６】
続いて、ステップ７０２で検出したブロック６０６に含まれている可変長符号６０７の個数をカウントし、符号数を取得する（ステップ７０３）。
【００８７】
続いて、ステップ７０１で決定した最大符号数とステップ７０３で取得した符号数とを比較し（ステップ７０４）、符号数が最大符号数よりも大きい場合は、ステップ７０２で検出したブロック６０６の先頭から最大符号数番目までの可変長符号６０７とＥＯＢ符号とをファイル２０４に格納する（ステップ７０５）。
【００８８】
また、符号数が最大符号数以下である場合は、ステップ７０２で検出したブロック６０６に含まれている全ての可変長符号６０７（ＥＯＢ符号を含む。）をファイル２０４に格納する（ステップ７０６）。
【００８９】
最後に、ステップ７０２で検出したブロック６０６の次に、ＭＰＥＧ１ビデオ符号化規格で定められた動画データの終了を示す終了コードがあるか否かを判定し（ステップ７０７）、終了コードがある場合は、処理を終了し、終了コードがない場合は、ステップ７０２に戻る。
【００９０】
このように、ファイル２０２に格納されている動画データの一部（ブロック６０６内の可変長符号６０７）が削除されることによってデータ量が削減された動画データが、ファイル２０４に格納されることとなる。
【００９１】
なお、削減処理３０２によれば、ＥＯＢ符号に近い可変長符号６０７が削除されるようになっているので、結果的には、直交変換方式で符号化された動画データ中の高周波数成分が削除されることとなる。
【００９２】
次に、多重処理３０３について、図８〜図１２を用いて説明する。
【００９３】
図１０はＭＰＥＧ１形式の音声データの構造図である。
【００９４】
図１０に示すように、ＭＰＥＧ１形式の音声データは、複数のＡＡＵ（ＡｕｄｉｏＡｃｃｅｓｓＵｎｉｔ）１００１からなる。
【００９５】
ＡＡＵ１００１は、復号処理の最小単位である所定のサンプル数の音声データを含み、ＡＡＵヘッダ１００２とオーディオデータ１００３とからなる。
【００９６】
ここで、ＡＡＵヘッダ１００２は、符号化モード，ビットレート，サンプリング周波数等からなり、オーディオデータ１００３は、符号化された音声データからなる。
【００９７】
図１２は多重処理３０３の処理手順を示すフローチャートである。
【００９８】
多重処理３０３においては、図１２に示すように、まず、ファイル２０４に格納されている動画データを解析し、ＧＯＰ６０２ごとに、図８に示すＧＯＰ補助データ８００を作成し、ピクチャ６０３ごとに、図９に示すピクチャ補助データ９００を作成する（ステップ１２０１）。
【００９９】
図８に示すように、ＧＯＰ補助データ８００は、ＧＯＰ６０２の再生開始時刻８０３と、ＧＯＰ６０２の開始アドレス８０１と、ＧＯＰ６０２の終了アドレス８０２とからなる。
【０１００】
ＧＯＰ補助データ８００において、再生開始時刻８０３は、動画データのフレームレートおよび前にある全てのＧＯＰ６０２に含まれているピクチャ６０３の数に基づいて算出することができる。また、開始アドレス８０１は、ＧＯＰ６０２の先頭の、動画データの先頭からの位置に基づいて算出することができる。また、終了アドレス８０２は、次のＧＯＰ６０２の先頭の、動画データの先頭からの位置に基づいて算出することができる。なお、ＧＯＰ６０２の次にＧＯＰ６０２がない場合は、終了アドレス８０２は、動画データの終端の、動画データの先頭からの位置に基づいて算出することができる。
【０１０１】
また、図９に示すように、ピクチャ補助データ９００は、ピクチャ６０３の再生開始時刻９０３と、ピクチャ６０３の復号開始時刻９０４と、ピクチャ６０３のピクチャタイプ９０２と、ピクチャ６０３の開始アドレス９０１とからなる。
【０１０２】
ピクチャ補助データ９００において、開始アドレス９０１は、ピクチャ６０３の先頭の、動画データの先頭からの位置に基づいて算出することができる。また、ピクチャタイプ９０２には、ピクチャ６０３のピクチャタイプをそのまま設定する。また、再生開始時刻９０３は、動画データのフレームレート，ＧＯＰ補助データ８００の再生開始時刻８０３，ＧＯＰ６０２内でのピクチャ６０３の表示順序に基づいて算出することができる。また、復号開始時刻９０４は、動画データのフレームレート，ＧＯＰ補助データ８００の再生開始時刻８０３，ＧＯＰ６０２内でのピクチャ６０３の表示順序，ピクチャタイプ９０２に基づいて算出することができる。
【０１０３】
続いて、ファイル２０３に格納されている音声データを解析し、図１１に示すＡＡＵ補助データ１１００を作成する（ステップ１２０２）。
【０１０４】
図１１に示すように、ＡＡＵ補助データ１１００は、ＡＡＵ１００１の再生開始時刻１１０１と、ＡＡＵ１００１の開始アドレス１１０２とからなる。
【０１０５】
ＡＡＵ補助データ１１００において、再生開始時刻１１０１は、音声データのサンプリング周波数およびＡＡＵ１００１当りのサンプル数に基づいて算出することができる。また、開始アドレス１１０２は、ＡＡＵ１００１の先頭の、音声データの先頭からの位置に基づいて算出することができる。
【０１０６】
続いて、対応する動画と音声とを同時に出力することを可能とするために、ＧＯＰ６０２ごとに、該ＧＯＰ６０２にＡＡＵ１１０１を対応付ける（ステップ１２０３）。
【０１０７】
これは、各ＧＯＰ６０２に対応するＧＯＰ補助データ８００の再生開始時刻８０３に等しいかまたは１番近い再生開始時刻１１０１が設定されているＡＡＵ補助データ１１００を検索していき、検索したＡＵＵ補助データ１１００に対応するＡＡＵ１１０１から次に検索したＡＵＵ補助データ１１００に対応するＡＡＵ１１０１までを、１個のＧＯＰ６０２に対応付ければよい。通常、１個のＧＯＰ６０２には、数十個のＡＡＵ１１０１が対応付けられることとなる。
【０１０８】
続いて、多重対象として抽出すべきＧＯＰ６０２、および、ステップ１２０３で該ＧＯＰ６０２に対応付けられたＡＡＵ１００１を決定する（ステップ１２０４）。
【０１０９】
ここで、多重対象として抽出すべきＧＯＰ６０２とは、ＭＰＥＧ１形式の音声付き動画データを伝送すべきクライアントから指定された再生速度に基づいて決定されるものである。すなわち、例えば、クライアントから指定された再生速度が１倍速（通常の再生速度）である場合は、全てのＧＯＰ６０２を多重対象として抽出すればよい。また、例えば、クライアントから指定された再生速度が２倍速（早送り再生の再生速度）である場合は、１／２の再生時間で再生することができるようにするために、全てのＧＯＰ６０２から、ＧＯＰ６０２を１個ずつスキップするようにして、半分のＧＯＰ６０２を多重対象として抽出すればよい。
【０１１０】
一般的には、Ｓ個のＧＯＰ６０２からＴ個のＧＯＰ６０２を多重対象として抽出し、抽出したＧＯＰ６０２の各々について、対応付けられたＡＡＵ１００１を決定することにより、オリジナルの再生時間のＴ／Ｓ倍の再生時間分の音声付き動画データを作成することが可能である。ここで、ＳおよびＴは、共に自然数であり、Ｓ≦Ｔである。
【０１１１】
最後に、ステップ１２０４で決定したＧＯＰ６０２およびＡＡＵ１００１を、各々、パケットに分割してから多重することにより、ＭＰＥＧ１形式の音声付き動画データを作成し、作成したＭＰＥＧ１形式の音声付き動画データをファイル２０５に格納する（ステップ１２０５）。
【０１１２】
なお、このとき、パックヘッダ４０１に含まれるシステム時刻基準参照値、および、パケットヘッダ４１１に含まれるタイムスタンプを、ピクチャ補助データ９００の再生開始時刻９０３およびＡＡＵ補助データ１１００の再生開始時刻１１０１から算出して設定する。
【０１１３】
また、パケットに分割する際に、１個のパケット４１０に格納するデータ４１２の種別を、ピクチャ補助データ９００の再生開始時刻９０３および開始アドレス９０１、並びに、ＡＡＵ補助データ１１００の再生開始時刻１１０１および開始アドレス１１０２に基づいて決定するようにする。
【０１１４】
このように、ファイル２０４に格納されている動画データとファイル２０３に格納されている音声データとが多重された、所望の再生時間分のＭＰＥＧ１形式の音声付き動画データがファイル２０５に格納されることとなる。
【０１１５】
以上説明したように、本実施例によれば、ＭＰＥＧ１形式のオリジナルの音声付き動画データから、該オリジナルの音声付き動画データよりデータ量が少なく、かつ、対応する動画と音声とを同時に出力するのに適した、所望の再生時間分のＭＰＥＧ１形式の音声付き動画データを作成することができる。
【０１１６】
なお、本実施例では、作成したＭＰＥＧ１形式の音声付き動画データを、一旦記憶装置１０３に格納してからクライアントに伝送するようにしているが、作成したＭＰＥＧ１形式の音声付き動画データを、そのままクライアントに伝送するようにしてもよい。
【０１１７】
次に、本発明の第２の実施例について説明する。
【０１１８】
第２の実施例は、上記第１の実施例における削減処理３０２の代わりに、以下に説明する削減処理３０４を行うようにしたものである。
【０１１９】
以下、削減処理３０４について、図１３および図１４を用いて説明する。
【０１２０】
図１４は削減処理３０４の処理手順を示すフローチャートである。
【０１２１】
削減処理３０４においては、図１４に示すように、まず、ファイル２０２に格納されている動画データを、ピクチャ６０３を検出するまで走査し、ピクチャ６０３以外の部分を抽出してファイル２０４に格納する（ステップ１４０１）。
【０１２２】
続いて、ステップ１４０１で検出したピクチャ６０３のピクチャタイプに基づいて、該ピクチャ６０３がＢピクチャであるか否かを判定し（ステップ１４０２）、Ｂピクチャである場合は、Ｂピクチャを構成するデータの代わりに、図１３に示すダミーデータをファイル２０４に格納する（ステップ１４０３）。
【０１２３】
図１３はダミーデータの構造を示す図である。
【０１２４】
図１３において、ピクチャ開始コード１３０１は、ピクチャ６０３の開始を示すピクチャ開始コード（同期コードの一種ある。）である。また、表示順序１３０２には、ピクチャ６０３のＧＯＰ６０２における表示順序が設定される。また、ピクチャタイプ１３０３は、ピクチャ６０３のピクチャタイプを示すデータであり、ここでは、ピクチャタイプ１３０３には、Ｂピクチャであることを示すデータが設定される。
【０１２５】
また、ＩピクチャまたはＰピクチャである場合は、ＩピクチャまたはＰピクチャを構成するデータをそのままファイル２０４に格納する（ステップ１４０４）。
【０１２６】
最後に、ステップ１４０１で検出したピクチャ６０３の次に動画データの終了を示す終了コードがあるか否かを判定し（ステップ１４０５）、終了コードがある場合は、処理を終了し、終了コードがない場合は、ステップ１４０１に戻る。
【０１２７】
このように、ファイル２０２に格納されている動画データの一部（Ｂピクチャを構成するデータ）をデータ量が少ない所定のデータ（ダミーデータ）に置き換えることによってデータ量が削減された動画データが、ファイル２０４に格納されることとなる。
【０１２８】
なお、削減処理３０４において、Ｂピクチャを構成するデータのみをダミーデータに置き換えているのは、上述したように、Ｂピクチャを構成するデータは、他のピクチャを符号化する際の予測に用いられないので、Ｂピクチャを構成するデータを削除しても、他のピクチャの画質に影響を与えないからである。
【０１２９】
以上説明したように、本実施例によれば、ＭＰＥＧ１形式のオリジナルの音声付き動画データから、該オリジナルの音声付き動画データよりデータ量が少なく、かつ、対応する動画と音声とを同時に出力するのに適した、所望の再生時間分のＭＰＥＧ１形式の音声付き動画データを作成することができる。
【０１３０】
【発明の効果】
以上説明したように、本発明によれば、音声付き動画データから、該音声付き動画データよりデータ量が少なく、かつ、対応する動画と音声とを同時に出力するのに適した、所望の再生時間分の音声付き動画データを作成することができるという効果がある。
【図面の簡単な説明】
【図１】第１の実施例を適用したビデオサーバの構成を示すブロック図。
【図２】第１の実施例の音声付き動画データ作成処理におけるデータの流れを示す説明図。
【図３】第１の実施例の音声付き動画データ作成処理の処理手順を示すフローチャート。
【図４】ＭＰＥＧ１形式の音声付き動画データの構造図。
【図５】第１の実施例における分離処理の処理手順を示すフローチャート。
【図６】ＭＰＥＧ１形式の動画データの構造図。
【図７】第１の実施例における削減処理の処理手順を示すフローチャート。
【図８】第１の実施例における削減処理で用いるＧＯＰ補助データの構造図。
【図９】第１の実施例における削減処理で用いるピクチャ補助データの構造図。
【図１０】ＭＰＥＧ１形式の音声データの構造図。
【図１１】第１の実施例おける削減処理で用いるＡＡＵ補助データの構造図。
【図１２】第１の実施例における多重処理の処理手順を示すフローチャート。
【図１３】第２の実施例における削減処理で用いるダミーデータの構造図。
【図１４】第２の実施例における削減処理の処理手順を示すフローチャート。
【符号の説明】
１０１…ＣＰＵ、１０２…メインメモリ、１０３…記憶装置、１０４…伝送装置、１０５…バス、３０１…分離処理、３０２，３０４…削減処理、３０３…多重処理。

Claims

複数のフレームからなる動画データをフレーム単位に直交変換方式で符号化した動画データと、音声データとが多重された音声付き動画データを、動画データと音声データとに分離する分離手段と、
上記分離手段が分離した動画データについて、各フレーム内のデータのうちの高周波数成分を表すデータを削除することにより、各フレーム内のデータ量を削減する削減手段と、
上記削減手段が削減した動画データのうちの、指定された再生時間に応じた個数のフレームを符号化した動画データの部分である再生対象動画データと、上記分離手段が分離した音声データのうちの、上記再生対象動画データと同時に再生されるべき部分である再生対象音声データとを多重する多重手段とを有することを特徴とする音声付き動画データ作成装置。
請求項１記載の音声付き動画データ作成装置において、
上記多重手段は、
上記削減手段が削減した動画データについて、フレームごとに、該フレーム内の先頭の動画データの再生開始時刻情報を含む第１の補助データを作成する第１の作成手段と、
上記分離手段が分離した音声データについて、同時に再生されるべきフレームごとに、該フレーム内の先頭の音声データの再生開始時刻情報を含む第２の補助データを作成する第２の作成手段と、
上記第１の作成手段が作成した第１の補助データに基づいて、上記削減手段が削減した動画データのうちから、指定された再生時間に応じた個数のフレームを抽出することにより、上記再生対象動画データを決定する第１の抽出手段と、
上記第１の作成手段が作成した第１の補助データおよび上記第２の作成手段が作成した第２の補助データに基づいて、上記分離手段が分離した音声データのうちから、上記第１の抽出手段が決定した再生対象動画データと再生開始時刻が対応するフレームを抽出することにより、上記再生対象音声データを決定する第２の抽出手段とを有し、
上記第１の抽出手段が抽出した再生対象動画データと上記第２の抽出手段が抽出した再生対象音声データとを多重することを特徴とする音声付き動画データ作成装置。
複数のフレームからなる動画データをフレーム単位にフレーム間予測符号化方式で符号化し、フレーム内の動画データを他のフレーム内の動画データとは独立に符号化したフレームである１個のＩピクチャ，前方向にある１個のＩピクチャから順方向予測符号化したフレームである１個以上のＰピクチャ，前方向にある１個のＩピクチャまたはＰピクチャと後方向にある１個のＩピクチャまたはＰピクチャとから双方向予測符号化したフレームである１個以上のＢピクチャからなる再生処理単位であるＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅ）を複数含む動画データと、音声データとが多重された音声付き動画データを、動画データと音声データとに分離する分離手段と、
上記分離手段が分離した動画データについて、上記Ｂピクチャ内のデータを、所定の値のデータに置換することにより、上記Ｂピクチャ内のデータ量を削減する削減手段と、
上記削減手段が削減した動画データについて、指定された再生時間に応じた個数のＧＯＰを抽出することにより、再生すべき動画データである再生対象動画データを決定すると共に、上記再生対象動画データと、上記分離手段が分離した音声データのうちの、上記再生対象動画データと同時に再生されるべき部分である再生対象音声データとを多重する多重手段とを有することを特徴とする音声付き動画データ作成装置。
請求項３記載の音声付き動画データ作成装置において、
上記多重手段は、
上記削減手段が削減した動画データについて、上記ＧＯＰごとに、該ＧＯＰ内の先頭の動画データの再生開始時刻情報を含む第１の補助データを作成する第１の作成手段と、
上記削減手段が削減した動画データについて、上記ピクチャごとに、該ピクチャ内の先頭の動画データの再生開始時刻情報を含む第２の補助データを作成する第２の作成手段と、
上記分離手段が分離した音声データについて、同時に再生されるべきフレームごとに、該フレーム内の先頭の音声データの再生開始時刻情報を含む第３の補助データを作成する第３の作成手段と、
上記第１の作成手段が作成した第１の補助データに基づいて、上記削減手段が削減した動画データのうちから、指定された再生時間に応じた個数のＧＯＰを抽出することにより、上記再生対象動画データを決定する第１の抽出手段と、
上記第２の作成手段が作成した第２補助データおよび上記第３の作成手段が作成した第３の補助データに基づいて、上記分離手段が分離した音声データのうちから、上記第１の抽出手段が決定した再生対象動画データと再生開始時刻が対応するフレームを抽出することにより、上記再生対象音声データを決定する第２の抽出手段とを有し、
上記第１の抽出手段が抽出した再生対象動画データと上記第２の抽出手段が抽出した再生対象音声データとを多重することを特徴とする音声付き動画データ作成装置。
請求項３記載の音声付き動画データ作成装置において、
上記多重手段は、上記ＧＯＰの切れ目が、音声付き動画データを伝送する際の伝送処理単位の切れ目に一致するようにして多重することを特徴とする音声付き動画データ作成装置。
請求項４または５記載の音声付き動画データ作成装置において、
上記第１の作成手段は、上記削減手段が削減した動画データのフレームレートと、当該ＧＯＰより前にある全てのＧＯＰに含まれているピクチャの数とに基づいて、上記ＧＯＰごとの再生開始時刻情報を算出し、
上記第２の作成手段は、上記削減手段が削減した動画データのフレームレートと、上記ＧＯＰごとの再生開始時刻情報と、当該ピクチャを含むＧＯＰにおける該ピクチャの再生順序とに基づいて、上記ピクチャごとの再生開始時刻情報を算出し、
上記第３の作成手段は、上記分離手段が分離した音声データのサンプリング周波数と、当該フレームより前にあるフレームに含まれているサンプル数とに基づいて、フレームごとの再生開始時刻情報を算出することを特徴とする音声付き動画データ作成装置。
複数のフレームからなる動画データをフレーム単位に直交変換方式で符号化した動画データと、音声データとが多重された音声付き動画データを、動画データと音声データとに分離する分離手段と、
上記分離手段が分離した動画データについて、各フレーム内のデータのうちの高周波数成分を表すデータを削除することにより、各フレーム内のデータ量を削減する削減手段と、
上記削減手段が削減した動画データのうちの、指定された再生時間に応じた個数のフレームを符号化した動画データの部分である再生対象動画データと、上記分離手段が分離した音声データのうちの、上記再生対象動画データと同時に再生されるべき部分である再生対象音声データとを多重する多重手段とを有する音声付き動画データ作成装置と、
上記音声付き動画データ作成装置が作成した音声付き動画データをネットワークを介してクライアントに伝送する伝送装置とを備えたことを特徴とするビデオサーバ。
複数のフレームからなる動画データをフレーム単位にフレーム間予測符号化方式で符号化し、フレーム内の動画データを他のフレーム内の動画データとは独立に符号化したフレームである１個のＩピクチャ，前方向にある１個のＩピクチャから順方向予測符号化したフレームである１個以上のＰピクチャ，前方向にある１個のＩピクチャまたはＰピクチャと後方向にある１個のＩピクチャまたはＰピクチャとから双方向予測符号化したフレームである１個以上のＢピクチャからなる再生処理単位であるＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅ）を複数含む動画データと、音声データとが多重された音声付き動画データを、動画データと音声データとに分離する分離手段と、
上記分離手段が分離した動画データについて、上記Ｂピクチャ内のデータを、所定の値のデータに置換することにより、上記Ｂピクチャ内のデータ量を削減する削減手段と、
上記削減手段が削減した動画データについて、指定された再生時間に応じた個数のＧＯＰを抽出することにより、再生すべき動画データである再生対象動画データを決定すると共に、上記再生対象動画データと、上記分離手段が分離した音声データのうちの、上記再生対象動画データと同時に再生されるべき部分である再生対象音声データとを多重する多重手段とを有する音声付き動画データ作成装置と、
上記音声付き動画データ作成装置が作成した音声付き動画データをネットワークを介してクライアントに伝送する伝送装置とを備えたことを特徴とするビデオサーバ。