JP4161459B2

JP4161459B2 - メディア処理方法

Info

Publication number: JP4161459B2
Application number: JP08112399A
Authority: JP
Inventors: 敏彦宗續; 稔栄藤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1999-03-25
Filing date: 1999-03-25
Publication date: 2008-10-08
Anticipated expiration: 2019-03-25
Also published as: JP2000278653A

Description

【０００１】
【発明の属する技術分野】
本発明は、動画、音声などの連続視聴覚情報（メディアコンテンツ）の視聴、再生において、該当メディアコンテンツのあらすじやハイライトシーン、あるいは視聴者が見たいと希望するシーンのみを抽出する場合における、動画と音声の同期処理方法を提供するものである。
【０００２】
【従来の技術】
従来、動画の特定シーンの検索を行う方法として、特開平10-111872号公報のように、動画の場面の切り替わり（シーンカット）を検出し、シーンカットごとに、開始フレームのタイムコード、終了フレームのタイムコード、該当シーンのキーワードの付加情報をつけて行っていた。
【０００３】
あるいは、カーネギーメロン大学（ＣＭＵ）では、動画のシーンカットの検出、人間の顔やキャプションの検出、音声認識によるキーフレーズの検出などにより、動画の要約を行っていた（Michael A. Smith, Takeo Kanade, 「Video Skimming and Characterization through the Combination of Image and Language Understanding Techniques」、CMU-CS-97-111, 1997年2月3日）。
【０００４】
【発明が解決しようとする課題】
しかしながら従来の方法では、動画と音声の同期といった問題は扱われていない。メディアコンテンツでは、場面の切り替わりと音声の切り替わりは、必ずしも同期しているとは限らない。したがって、ある特定の場面を再生する場合、動画の区切りのみで処理を行うと、音声の途切れや無音区間が発生する。
【０００５】
本発明は、メディアコンテンツの一部のみを抽出する場合において、場面の切り替わりと音声の切り替わりを考慮し、音声の途切れをなくし、かつ音声のみの区間や画像のみの区間を可能な限り小さくする方法を提供するものである。
【０００６】
【課題を解決するための手段】
この課題を解決するために本発明は、メディアコンテンツと、前記メディアコンテンツの動画における、場面の切り替わりに相当する区分（動画セグメント）の時間情報を記述する動画内容記述データと、前記メディアコンテンツの音声における、音声の切り替わりに相当する区分（音声セグメント）の時間情報と、該音声セグメントが移動可か移動不可かの付加情報を記述する音声内容記述データとを入力とし、特定の動画セグメントを選択する動画選択ステップと、前記選択された動画セグメントと同期再生させる音声セグメントを選択する音声選択ステップと、前記選択された音声セグメントのうち移動可とされたものを、時間的に前後させることにより、前記選択された動画セグメントと前記選択された音声セグメントの同期をとる音声セグメント処理ステップとを備えたことを特徴とするメディア処理方法である。
【０００７】
また、本発明は、メディアコンテンツと、前記メディアコンテンツの動画における、場面の切り替わりに相当する区分（動画セグメント）の時間情報を記述する動画内容記述データと、前記メディアコンテンツの音声における、音声の切り替わりに相当する区分（音声セグメント）の時間情報と、該音声セグメントが移動可か移動不可かの付加情報を記述する音声内容記述データとを入力とし、特定の動画セグメントを選択する動画選択ステップと、前記選択された動画セグメントと同期再生させる音声セグメントを選択する音声選択ステップと、前記選択された音声セグメントのうち移動可とされたものを時間的に前後させること、および／または、前記選択された動画セグメントの前後の動画セグメントを選択することによって、前記選択された動画セグメントと前記選択された音声セグメントの同期をとるセグメント処理ステップとを備えたことを特徴とするメディア処理方法である。
【０００８】
また、本発明は、メディアコンテンツと、前記メディアコンテンツの動画における、場面の切り替わりに相当する区分（動画セグメント）の時間情報を記述する動画内容記述データと、前記メディアコンテンツの音声における、音声の切り替わりに相当する区分（音声セグメント）の時間情報と、該音声セグメントが移動可、移動不可、あるいは削除可の付加情報を記述する音声内容記述データとを入力とし、特定の動画セグメントを選択する動画選択ステップと、前記選択された動画セグメントと同期再生させる音声セグメントを選択する音声選択ステップと、前記選択された音声セグメントのうち、削除可とされたものを削除すること、および／または、前記選択された音声セグメントのうち移動可とされたものを時間的に前後させることにより、前記選択された動画セグメントと前記選択された音声セグメントの同期をとる音声セグメント処理ステップとを備えたことを特徴とするメディア処理方法である。
【０００９】
また、本発明は、メディアコンテンツと、前記メディアコンテンツの動画における、場面の切り替わりに相当する区分（動画セグメント）の時間情報を記述する動画内容記述データと、前記メディアコンテンツの音声における、音声の切り替わりに相当する区分（音声セグメント）の時間情報と、該音声セグメントが移動可、移動不可、あるいは削除可の付加情報を記述する音声内容記述データとを入力とし、特定の動画セグメントを選択する動画選択ステップと、前記選択された動画セグメントと同期再生させる音声セグメントを選択する音声選択ステップと、前記選択された音声セグメントのうち、削除可とされたものを削除すること、および／または、前記選択された音声セグメントのうち移動可とされたものを時間的に前後させること、および／または、前記選択された動画セグメントの前後の動画セグメントを選択することによって、前記選択された動画セグメントと前記選択された音声セグメントの同期をとる音声セグメント処理ステップとを備えたことを特徴とするメディア処理方法である。
【００１４】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態について説明する。
【００１５】
（実施の形態１）
以下、請求項１記載の発明における一実施の形態について述べる。図１は、本実施の形態におけるメディア処理方法のブロック図である。図１において、１０１は動画選択ステップを、１０２は音声選択ステップを、１０３は音声セグメント処理ステップを表す。また、１０４は、動画選択ステップ１０１の入力である動画内容記述データを、１０５は、音声選択ステップ１０２の入力である音声内容記述データを、１０６は、動画選択ステップ１０１と音声選択ステップ１０２の入力であるメディアコンテンツを表す。メディアコンテンツ１０６は、MPEG1システムストリームのようなビデオストリームとオーディオストリームを含むものである。また、ビデオストリームは、場面の切り替わりに相当する区分（以下動画セグメントと呼ぶ）に分けられる。同様に、オーディオストリームは、音声の切り替わりに相当する区分（以下音声セグメントと呼ぶ）に分けられる。メディアコンテンツ１０６において、動画選択ステップ１０１にはビデオストリームだけが、音声選択ステップ１０２にはオーディオストリームだけが、それぞれ入力されるものとする。動画選択ステップ１０１は、メディアコンテンツ１０６のビデオストリームと動画内容記述データ１０４を入力し、前記ビデオストリームから特定の動画セグメントを選択するものである。ただし、選択される動画セグメントは複数あっても構わない。選択された動画セグメントの開始時刻、終了時刻は動画内容記述データ１０４から得られる。また、動画セグメント選択の方法は任意とする。音声選択ステップ１０２は、メディアコンテンツ１０６のオーディオストリームと、音声内容記述データ１０５と、前記動画選択ステップ１０１が選択した動画セグメントの時間情報とを入力とし、前記オーディオストリームから、前記動画選択ステップ１０１が選択した動画セグメントと同じ再生時刻をもつ音声セグメントを選択するものである。音声セグメント処理ステップ１０３は、前記音声選択ステップ１０２が選択した音声セグメントと、音声内容記述データ１０５と、前記動画選択ステップ１０１が選択した動画セグメントの時間情報とを入力とし、前記選択した音声セグメントを時間的に前後させることにより、前記動画セグメントと同期をとるように処理するものである。
【００１６】
図２において、２０１はメディアコンテンツ１０６のビデオストリームを表す。２０２はメディアコンテンツ１０６のオーディオストリームを表す。２０３、２０４、２０５は、それぞれ、ビデオストリーム２０１において、動画セグメントを表す。また、２０６、２０７、２０８は、それぞれ、オーディオストリーム２０２において、音声セグメントを表す。
【００１７】
図３に、動画内容記述データ１０４の一例を示す。動画内容記述データ１０４は、動画セグメント毎の開始時刻と終了時刻を記述しているものとする。なお、動画内容記述データ１０４は、各動画セグメントの開始時刻と終了時刻を得られるものであれば、その形式は問わないものである。したがって、開始時刻と該当動画セグメントの継続時間の組合せであっても良い。
【００１８】
図４に、音声内容記述データ１０５の一例を示す。音声内容記述データ１０５は、音声セグメント毎の開始時刻と終了時刻と、移動可、移動不可の付加情報を記述しているものとする。なお、音声内容記述データ１０５の時間情報は、各音声セグメントの開始時刻と終了時刻を得られるものであれば、その形式は問わないものである。したがって、開始時刻と該当音声セグメントの継続時間の組合せであっても良い。音声セグメントにおける移動可、移動不可といった付加情報は以下のようになる。ドラマ内のセリフのように人間の口の動きに合わせた音声など、その音声が動画内の映像と同時に再生しなければならないものは移動不可となる。また、無音区間やナレーションなど、動画内の映像と必ずしも同時に再生させなくても良いものは移動可となる。
【００１９】
図２において、動画選択ステップ１０１が動画セグメント２０４を選択した場合を例に、音声選択ステップ１０２の処理について説明する。動画選択ステップ１０１は、選択した動画セグメント２０４の時間情報を、音声選択ステップ１０２、音声セグメント処理ステップ１０３に出力する。この場合は、vst2,ved2を出力する。音声選択ステップ１０２では、動画選択ステップ１０１から受けとった選択動画セグメントの時間情報と、各音声セグメントの時間情報との比較を行い、音声セグメントの選択を行う。すなわち、音声セグメントの開始時刻をast、終了時刻をaetとすると、音声選択ステップ１０２は、（数１）、（数２）、（数３）のいずれかの条件を満たす音声セグメントを選択する。
【００２０】
【数１】

【００２１】
【数２】

【００２２】
【数３】

【００２３】
この例の場合、（数１）の条件によって音声セグメント２０６が、（数２）の条件によって音声セグメント２０７が、（数３）の条件によって音声セグメント２０８が、それぞれ選択される。このうち、音声セグメント２０７は、その区間すべてが動画セグメント２０４の区間に含まれている。一方、音声セグメント２０６は、その先頭部分が動画セグメント２０４の区間外となる。同様に、音声セグメント２０８は、その終了部分が動画セグメント２０４の区間外となる。したがって、動画セグメント２０４と、音声セグメント２０６、２０７、２０８を同期をとって再生する場合、先頭部と終了部に音声のみの区間が現れることとなる。音声セグメント処理ステップ１０３では、このような音声のみの区間を可能な限り少なくするための処理を行う。
【００２４】
以下、音声セグメント処理ステップ１０３の処理について説明する。音声セグメント２０７に関しては、その区間すべてが動画セグメント２０４の区間内にあるので、特に処理は行わないものとする。音声セグメント２０６の付加情報が移動不可の場合、音声セグメント処理ステップ１０３では移動処理を行わない。この場合、再生時、先頭に音声のみの区間が生じる。音声セグメント２０６の付加情報が移動可の場合、音声セグメント処理ステップ１０３では、図５のように、音声セグメント２０６を、開始時刻が動画セグメント２０４の開始時刻と一致するように移動させる。この場合、音声セグメント２０６と音声セグメント２０７が重なる部分が生じる。この部分は、再生時に同時に再生することとし、必要であれば再符号化などの処理を行うものとする。音声セグメント２０８に関しても、音声セグメント２０６と同様の処理を行う。ただし、音声セグメント２０８を移動させる場合は、その終了時刻を動画セグメント２０４の終了時刻と一致させるように移動を行う。
【００２５】
なお、図６のような場合には、音声セグメント処理ステップ１０３では、特に処理は行わないこととする。図６において、６０１は動画選択ステップ１０１で選択された動画セグメントを表す。また、６０２は、動画セグメント６０１と同じ再生時刻をもつ音声セグメントを表す。これは、選択された動画セグメント６０１の区間が、音声セグメント６０２の区間内の場合である。
【００２６】
（実施の形態２）
以下、請求項２記載の発明における一実施の形態について述べる。図７は、本実施の形態におけるメディア処理方法のブロック図である。図７において、７０１は動画選択ステップを、７０２は音声選択ステップを、７０３はセグメント処理ステップを表す。また、７０４は、動画選択ステップ７０１の入力である動画内容記述データを、７０５は、音声選択ステップ７０２の入力である音声内容記述データを、７０６は、動画選択ステップ７０１と音声選択ステップ７０２の入力であるメディアコンテンツを表す。メディアコンテンツ７０６は、第１の実施の形態と同様にMPEG1システムストリームのようなビデオストリームとオーディオストリームを含むものである。また、ビデオストリームは、場面の切り替わりに相当する区分（以下動画セグメントと呼ぶ）に分けられる。
【００２７】
同様に、オーディオストリームは、音声の切り替わりに相当する区分（以下音声セグメントと呼ぶ）に分けられる。メディアコンテンツ７０６において、動画選択ステップ７０１にはビデオストリームだけが、音声選択ステップ７０２にはオーディオストリームだけが、それぞれ入力されるものとする。動画選択ステップ７０１は、メディアコンテンツ７０６のビデオストリームと動画内容記述データ７０４を入力し、ビデオストリームから特定の動画セグメントを選択するものである。ただし、選択される動画セグメントは複数あっても構わない。選択された動画セグメントの開始時刻、終了時刻は動画内容記述データ７０４から得られる。また、動画セグメント選択の方法は任意とする。音声選択ステップ７０２は、メディアコンテンツ７０６のオーディオストリームと、音声内容記述データ７０５と、前記動画選択ステップ７０１が選択した動画セグメントの時間情報とを入力とし、オーディオストリームから前記動画選択ステップ７０１が選択した動画セグメントと同じ再生時刻をもつ音声セグメントを選択するものである。セグメント処理ステップ７０３は、メディアコンテンツ７０６と、前記動画選択ステップ７０１が選択した動画セグメントの時間情報と、前記音声選択ステップ７０２が選択した音声セグメントの時間情報と、動画内容記述データ７０４と、音声内容記述データ７０５とを入力とし、前記選択された音声セグメントを時間的に前後させることにより、および／または、前記選択された動画セグメントの前後の動画セグメントを選択して、選択した動画セグメントと音声セグメントの同期をとるように処理するものである。
【００２８】
図８において、８０１はメディアコンテンツ７０６のビデオストリームを表す。８０２はメディアコンテンツ７０６のオーディオストリームを表す。８０３、８０４、８０５は、それぞれ、ビデオストリーム８０１において、動画セグメントを表す。また、８０６、８０７、８０８は、それぞれ、オーディオストリーム８０２において、音声セグメントを表す。
【００２９】
図９に動画内容記述データ７０４の一例を示す。これは、第１の実施の形態における動画内容記述データ１０４と同じ構成のものである。また、図１０に音声内容記述データ７０５の一例を示す。これは、第１の実施の形態における音声内容記述データ１０５と同じ構成のものである。
【００３０】
図８において、動画選択ステップ７０１が動画セグメント８０４を選択した場合を例に、音声選択ステップ７０２の処理について説明する。動画選択ステップ７０１は、選択した動画セグメント８０４の時間情報を、音声選択ステップ７０２、セグメント処理ステップ７０３に出力する。この場合は、vst2,ved2を出力する。音声選択ステップ７０２では、動画選択ステップ７０１から受けとった選択動画セグメントの時間情報と、各音声セグメントの時間情報との比較を行い、音声セグメントの選択を行う。すなわち、音声セグメントの開始時刻をast、終了時刻をaetとすると、音声選択ステップ７０２は、（数４）、（数５）、（数６）のいずれかの条件を満たす音声セグメントを選択する。
【００３１】
【数４】

【００３２】
【数５】

【００３３】
【数６】

【００３４】
この例の場合、（数４）の条件によって音声セグメント８０６が、（数５）の条件によって音声セグメント８０７が、（数６）の条件によって音声セグメント８０８が、それぞれ選択される。このうち、音声セグメント８０７は、その区間すべてが動画セグメント８０４の区間に含まれている。一方、音声セグメント８０６は、その先頭部分が動画セグメント８０４の区間外となる。同様に、音声セグメント８０８は、その終了部分が動画セグメント８０４の区間外となる。したがって、動画セグメント８０４と、音声セグメント８０６、８０７、８０８を同期をとって再生する場合、先頭部と終了部に音声のみの区間が現れることとなる。セグメント処理ステップ８０３では、このような音声のみの区間を可能な限り少なくするための処理を行う。
【００３５】
以下、セグメント処理ステップ７０３の処理について説明する。音声セグメント８０７に関しては、その区間すべてが動画セグメント８０４の区間内にあるので、特に処理は行わないものとする。音声セグメント８０６の付加情報が移動不可の場合、セグメント処理ステップ８０３では、ビデオストリーム８０１において、動画セグメント８０４の前にある動画セグメントの選択を行い、連続する選択された動画セグメントの区間内に、音声セグメント８０６が収まるようにする。新たに行う動画セグメントの選択は最小限とする。
【００３６】
この場合は、動画セグメント８０３だけが新たに選択される。また、音声セグメント８０６の付加情報が移動可の場合、セグメント処理ステップ７０３では、図１１のように、音声セグメント８０６を、開始時刻が動画セグメント８０４の開始時刻と一致するように移動させる。この処理により、音声セグメント８０６と音声セグメント８０７が重なる部分が生じる。この部分は、再生時に同時に再生することとし、必要であれば再符号化などの処理を行うものとする。音声セグメント８０８に関しても、音声セグメント８０６と同様の処理を行う。すなわち、音声セグメント８０８の付加情報が移動不可の場合、動画セグメント８０４の後ろにある動画セグメントの最小限の選択を行い、連続する選択された動画セグメントの区間内に音声セグメント８０８が収まるようにする。また、音声セグメント８０８の付加情報が移動可の場合、音声セグメント８０８の終了時刻と動画セグメント８０４の終了時刻が一致するように、音声セグメント８０８を移動させる。
【００３７】
なお、セグメント処理ステップ７０３において、音声セグメントの付加情報が移動可の場合は音声セグメントを移動させる処理を行うとしたが、音声セグメントの移動を行わず、前後の動画セグメントの選択を行う、としてもよい。また、前後の動画セグメントの選択を行った後、音声セグメントを動画セグメントの選択を行った方向に移動させ、動画のみの部分を可能な限り小さくする、としてもよい。また、選択された動画セグメントの前後の動画セグメントを新たに選択するとしたが、動画セグメントを、MPEG1におけるGOP(Group of Pictures)のようなランダムアクセスの最小単位にさらに分割し、それを新たに選択する、としてもよい。
【００３８】
（実施の形態３）
以下、請求項３記載の発明における一実施の形態について述べる。これは、第１の実施の形態と比較し、音声内容記述データの付加情報と、音声セグメント処理ステップでの処理のみが異なるものである。すなわち、本実施の形態におけるメディア処理方法のブロック図は図１となる。また、動画選択ステップ１０１、音声選択ステップ１０２での処理、および、動画内容記述データ１０３、メディアコンテンツ１０６は、第１の実施の形態と同じものとする。
【００３９】
図１２に、本実施の形態における音声内容記述データ１０５の一例を示す。これは、第１の実施の形態における音声内容記述データと比較して、付加情報のみが異なる。本実施の形態においては、付加情報として、移動可、移動不可、削除可の三種類がある。
【００４０】
以下、本実施の形態における音声セグメント処理ステップ１０３の処理について、第１の実施の形態と同様の例によって説明する。音声セグメント２０６の付加情報が削除可の場合、音声セグメント処理ステップ１０３では、音声セグメント２０６の選択を解除する。また、音声セグメント２０６の付加情報が移動可の場合、音声セグメント処理ステップ１０３では、図５のように、音声セグメント２０６を、開始時刻が動画セグメント２０４の開始時刻と一致するように移動させる。この処理により、音声セグメント２０６と音声セグメント２０７が重なる部分が生じる。この場合、音声セグメント２０７の付加情報が削除可の場合、音声セグメント処理ステップ１０３では、音声セグメント２０７の選択を解除する。音声セグメント２０７の付加情報が移動可で、かつ後続の音声セグメント２０８が選択されていないか、あるいは音声セグメント２０８が選択されていてかつ削除可の場合は、音声セグメント処理ステップ１０３では、音声セグメント２０８の選択を必要であれば解除し、かつ、移動後の音声セグメント２０６と音声セグメント２０７の重なり部分がなくなるか、あるいは音声セグメント２０７の終了時刻が、音声セグメント２０７の直後の選択された音声セグメントの開始時刻あるいは同期させる動画セグメントの終了時刻のいずれか近い方と一致するか、のいずれかまで音声セグメント２０７の移動を行う。本例の場合は、音声セグメント２０８の後ろの音声セグメントは選択されていないが、さらに連続して選択された音声セグメントがあり、音声セグメントに重なり部分が生じる場合は、以上の処理を連続する選択された音声セグメントの最終まで繰り返し、音声セグメントの重なり部分が可能な限り小さくなるようにする。音声セグメントの重なり部分が残った場合は、この部分は再生時に同時に再生することとし、必要であれば再符号化などの処理を行うものとする。音声セグメント２０８に関しても、音声セグメント２０６と同様の処理を行う。すなわち、音声セグメント２０８の付加情報が削除可である場合、音声セグメント処理ステップ１０３では、音声セグメント２０８の選択を解除する。また、音声セグメント２０８の付加情報が移動可の場合、音声セグメント２０８の終了時刻と動画セグメント２０４の終了時刻が一致するように、音声セグメント２０８を移動させる。移動後の音声セグメント２０８とその前の音声セグメントとに重なり部分が生じた場合は、音声セグメント２０６を移動させた時の処理と同様の処理を、前向きの方向に、すなわち音声セグメントの重なりがなくなるか、あるいは、音声セグメントの開始時刻が、該音声セグメントの直前の選択された音声セグメントの終了時刻あるいは同期させる動画セグメントの開始時刻のいずれか近い方と一致するか、のいずれかまで移動させることを繰り返すことにより、音声セグメントの重なり部分を可能な限り小さくする。
【００４１】
（実施の形態４）
以下、請求項４記載の発明における一実施の形態について述べる。これは、第２の実施の形態と比較し、音声内容記述データの付加情報と、セグメント処理ステップでの処理が異なるものである。すなわち、本実施の形態におけるメディア処理方法のブロック図は図７となる。また、動画選択ステップ７０１、音声選択ステップ７０２での処理、および、動画内容記述データ７０３、メディアコンテンツ７０６は、第２の実施の形態と同じものとする。
【００４２】
本実施の形態における、音声内容記述データ７０６は、図１２に示す、第３の実施の形態での音声内容記述データと同様の構成のものである。すなわち、付加情報として、移動可、移動不可、削除可の三種類がある。
【００４３】
以下、本実施の形態におけるセグメント処理ステップ７０３の処理について、第２の実施の形態と同様の例によって説明する。音声セグメント８０６の付加情報が削除可の場合、セグメント処理ステップ７０３では、音声セグメント８０６の選択を解除する。音声セグメント８０６の付加情報が移動不可の場合、セグメント処理ステップ７０３では、ビデオストリーム８０１において、動画セグメント８０４の前にある動画セグメントの選択を行い、連続する選択された動画セグメントの区間内に、音声セグメント８０６が収まるようにする。新たに行う動画セグメントの選択は最小限とする。この場合は、動画セグメント８０３だけが新たに選択される。また、音声セグメント８０６の付加情報が移動可の場合、セグメント処理ステップ８０３では、図１１のように、音声セグメント８０６を、開始時刻が動画セグメント８０４の開始時刻と一致するように移動させる。この処理により、音声セグメント８０６と音声セグメント８０７が重なる部分が生じる。この場合、音声セグメント８０７の付加情報が削除可の場合、セグメント処理ステップ７０３では、音声セグメント８０７の選択を解除する。音声セグメント８０７の付加情報が移動可で、かつ後続の音声セグメント８０８が選択されていないか、あるいは音声セグメント８０８が選択されておりかつ削除可の場合は、セグメント処理ステップ７０３では、音声セグメント８０８の選択を必要であれば解除し、かつ、移動後の音声セグメント８０６と音声セグメント８０７の重なり部分がなくなるか、あるいは音声セグメント８０７の終了時刻が、音声セグメント８０７の直後の選択された音声セグメントの開始時刻あるいは同期させる動画セグメントの終了時刻のいずれか近い方とと一致するか、のいずれかまで音声セグメント８０７の移動を行う。本例の場合は、音声セグメント８０８の後ろの音声セグメントは選択されていないが、さらに連続して選択された音声セグメントがあり、それら音声セグメントに重なり部分が生じる場合は、以上の処理を連続する選択された音声セグメントの最終まで繰り返し、音声セグメントの重なり部分が可能な限り小さくなるようにする。音声セグメントの重なり部分が残った場合は、この部分は再生時に同時に再生することとし、必要であれば再符号化などの処理を行うものとする。音声セグメント８０８に関しても、音声セグメント８０６と同様の処理を行う。すなわち、音声セグメント８０８の付加情報が削除可である場合、セグメント処理ステップ７０３では、音声セグメント８０８の選択を解除する。音声セグメント８０８の付加情報が移動不可の場合、動画セグメント８０４の後ろにある動画セグメントの最小限の選択を行い、連続する選択された動画セグメントの区間内に音声セグメント８０８が収まるようにする。また、音声セグメント８０８の付加情報が移動可の場合、音声セグメント８０８の終了時刻と動画セグメント８０４の終了時刻が一致するように、音声セグメント８０８を移動させる。移動後の音声セグメント８０８とその前の音声セグメントとに重なり部分が生じた場合は、音声セグメント８０６を移動させた時の処理と同様の処理を、前向きの方向に、すなわち音声セグメントの重なりがなくなるか、あるいは、音声セグメントの開始時刻が、該音声セグメントの直前の選択された音声セグメントの終了時刻あるいは同期させる動画セグメントの開始時刻とのいずれか近い方と一致するか、のいずれかまで移動させることを繰り返すことにより、音声セグメントの重なり部分を可能な限り小さくする。
【００４４】
なお、セグメント処理ステップ７０３において、音声セグメントの付加情報が移動可の場合は音声セグメントを移動させる処理を行うとしたが、音声セグメントの移動を行わず、前後の動画セグメントの選択を行う、としてもよい。また、前後の動画セグメントの選択を行った後、音声セグメントを動画セグメントの選択を行った方向に移動させ、動画のみの部分を可能な限り小さくする、としてもよい。また、選択された動画セグメントの前後の動画セグメントを新たに選択するとしたが、動画セグメントを、MPEG1におけるGOP(GroupofPictures)のようなランダムアクセスの最小単位にさらに分割し、それを新たに選択する、としてもよい。
以上のように、本実施形態によれば、移動可能な音声セグメントを時間的に前後させることにより、メディアコンテンツの特定シーンの抽出において、動画と音声を同期させることができる。
また、他の実施形態によれば、移動可能な音声セグメントを時間的に前後させること、および／または、選択された動画セグメントの前後の動画セグメントを新たに選択することにより、メディアコンテンツの特定シーンの抽出において、動画と音声を同期させることができる。
また、他の実施形態によれば、削除可能な音声セグメントを削除すること、および／または、移動可能な音声セグメントを時間的に前後させることにより、メディアコンテンツの特定シーンの抽出において、動画と音声を同期させることができる。
また、他の実施形態によれば、削除可能な音声セグメントを削除すること、および／または、移動可能な音声セグメントを時間的に前後させること、および／または、選択された動画セグメントの前後の動画セグメントを新たに選択することにより、メディアコンテンツの特定シーンの抽出において、動画と音声を同期させることができる。
【００４５】
【発明の効果】
以上のように、本発明によれば、メディアコンテンツの特定シーンの抽出において、動画と音声を同期させることができる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態におけるメディア処理方法のブロック図
【図２】本発明の第１の実施の形態におけるメディアコンテンツ、動画セグメント、音声セグメントの説明図
【図３】本発明の第１の実施の形態における動画内容記述データの一例を示す図
【図４】本発明の第１の実施の形態における音声内容記述データの一例を示す図
【図５】本発明の第１の実施の形態における音声セグメント処理ステップにおける処理の説明図
【図６】本発明の第１の実施の形態における処理の説明図
【図７】本発明の第２の実施の形態におけるメディア処理方法のブロック図
【図８】本発明の第２の実施の形態におけるメディアコンテンツ、動画セグメント、音声セグメントの説明図
【図９】本発明の第２の実施の形態における動画内容記述データの一例を示す図
【図１０】本発明の第２の実施の形態における音声内容記述データの一例を示す図
【図１１】本発明の第２の実施の形態における音声セグメント処理ステップにおける処理の説明図
【図１２】本発明の第３の実施の形態におけるの音声内容記述データの一例を示す図
【符号の説明】
１０１動画選択ステップ
１０２音声選択ステップ
１０３音声セグメント処理ステップ
１０４動画内容記述データ
１０５音声内容記述データ
１０６メディアコンテンツ
２０１ビデオストリーム
２０２オーディオストリーム
２０３動画セグメント
２０４動画セグメント
２０５動画セグメント
２０６音声セグメント
２０７音声セグメント
２０８音声セグメント
６０１動画セグメント
６０２音声セグメント
７０１動画選択ステップ
７０２音声選択ステップ
７０３セグメント処理ステップ
７０４動画内容記述データ
７０５音声内容記述データ
７０６メディアコンテンツ
８０１ビデオストリーム
８０２オーディオストリーム
８０３動画セグメント
８０４動画セグメント
８０５動画セグメント
８０６音声セグメント
８０７音声セグメント
８０８音声セグメント

Claims

動画と音声とが同期した連続視聴覚情報（メディアコンテンツ）と、
前記メディアコンテンツの動画における、場面の切り替わりに相当する区分（動画セグメント）の時間情報を記述する動画内容記述データと、
前記メディアコンテンツの音声における、音声の切り替わりに相当する区分（音声セグメント）の時間情報と、移動可、移動不可の付加情報を記述する音声内容記述データとを入力とし、
前記動画セグメントのひとつまたは複数を選択する動画選択ステップと、
前記動画選択ステップが選択した動画セグメントと同じ再生時刻をもつ音声セグメントを選択する音声選択ステップと、
前記選択された音声セグメントの付加情報により、移動可とされた音声セグメントを時間的に前後させることによって、前記動画セグメントと音声セグメントの同期を行う音声セグメント処理ステップとを備えたことを特徴とするメディア処理方法。
動画と音声とが同期した連続視聴覚情報（メディアコンテンツ）と、
前記メディアコンテンツの動画における、場面の切り替わりに相当する区分（動画セグメント）の時間情報を記述する動画内容記述データと、
前記メディアコンテンツの音声における、音声の切り替わりに相当する区分（音声セグメント）の時間情報と、移動可、移動不可の付加情報を記述する音声内容記述データとを入力とし、
前記動画セグメントのひとつまたは複数を選択する動画選択ステップと、
前記動画選択ステップが選択した動画セグメントと同じ再生時刻をもつ音声セグメントを選択する音声選択ステップと、
前記選択された音声セグメントの付加情報により、移動可とされた音声セグメントを時間的に前後させることによって、および／または、前記選択された動画セグメントの前後の動画セグメントを選択して、前記選択した動画セグメントと、選択した連続する音声セグメントを同期させるセグメント処理ステップとを備えたことを特徴とするメディア処理方法。
動画と音声とが同期した連続視聴覚情報（メディアコンテンツ）と、
前記メディアコンテンツの動画における、場面の切り替わりに相当する区分（動画セグメント）の時間情報を記述する動画内容記述データと、
前記メディアコンテンツの音声における、音声の切り替わりに相当する区分（音声セグメント）の時間情報と、移動可、移動不可、削除可の付加情報を記述する音声内容記述データとを入力とし、
前記動画セグメントのひとつまたは複数を選択する動画選択ステップと、
前記動画選択ステップが選択した動画セグメントと同じ再生時刻をもつ音声セグメントを選択する音声選択ステップと、
前記選択された音声セグメントの付加情報により、移動可とされた音声セグメントを時間的に前後させること、および／または、削除可とされた音声セグメントを削除すること、によって、前記動画セグメントと音声セグメントの同期を行う音声セグメント処理ステップとを備えたことを特徴とするメディア処理方法。
動画と音声とが同期した連続視聴覚情報（メディアコンテンツ）と、
前記メディアコンテンツの動画における、場面の切り替わりに相当する区分（動画セグメント）の時間情報を記述する動画内容記述データと、
前記メディアコンテンツの音声における、音声の切り替わりに相当する区分（音声セグメント）の時間情報と、移動可、移動不可、削除可の付加情報を記述する音声内容記述データとを入力とし、
前記動画セグメントのひとつまたは複数を選択する動画選択ステップと、
前記動画選択ステップが選択した動画セグメントと同じ再生時刻をもつ音声セグメントを選択する音声選択ステップと、
前記選択された音声セグメントの付加情報により、移動可とされた音声セグメントを時間的に前後させること、および／または、削除可とされた音声セグメントを削除すること、および／または、前記選択された動画セグメントの前後の動画セグメントを選択して、によって、前記動画セグメントと音声セグメントの同期を行うセグメント処理ステップとを備えたことを特徴とするメディア処理方法。