JP2000278653A

JP2000278653A - メディア処理方法

Info

Publication number: JP2000278653A
Application number: JP8112399A
Authority: JP
Inventors: Toshihiko Munetsugi; 敏彦宗續; Minoru Eito; 稔栄藤
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-03-25
Filing date: 1999-03-25
Publication date: 2000-10-06
Anticipated expiration: 2019-03-25
Also published as: JP4161459B2

Abstract

(57)【要約】【課題】本発明は、メディアコンテンツの特定のシー
ンを抽出する場合において、動画と音声の同期をとる手
段を提供することを目的とする。【解決手段】特定の動画セグメントを選択する動画選
択ステップ１０１と、選択された動画セグメントと同期
再生させる音声セグメントを選択する音声選択ステップ
１０２と、選択された音声セグメントのうち移動可とさ
れたものを、必要であれば時間的に前後させることによ
り、選択された動画セグメントと前記選択された音声セ
グメントの同期をとる音声セグメント処理ステップ１０
３とを備えたことを特徴とするメディア処理方法であ
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、動画、音声などの
連続視聴覚情報（メディアコンテンツ）の視聴、再生に
おいて、該当メディアコンテンツのあらすじやハイライ
トシーン、あるいは視聴者が見たいと希望するシーンの
みを抽出する場合における、動画と音声の同期処理方法
を提供するものである。

【０００２】

【従来の技術】従来、動画の特定シーンの検索を行う方
法として、特開平10-111872号公報のように、動画の場
面の切り替わり（シーンカット）を検出し、シーンカッ
トごとに、開始フレームのタイムコード、終了フレーム
のタイムコード、該当シーンのキーワードの付加情報を
つけて行っていた。

【０００３】あるいは、カーネギーメロン大学（ＣＭ
Ｕ）では、動画のシーンカットの検出、人間の顔やキャ
プションの検出、音声認識によるキーフレーズの検出な
どにより、動画の要約を行っていた（Michael A. Smit
h, Takeo Kanade, 「Video Skimming and Characteriza
tion through the Combination of Image and Language
Understanding Techniques」、CMU-CS-97-111, 1997年2
月3日）。

【０００４】

【発明が解決しようとする課題】しかしながら従来の方
法では、動画と音声の同期といった問題は扱われていな
い。メディアコンテンツでは、場面の切り替わりと音声
の切り替わりは、必ずしも同期しているとは限らない。
したがって、ある特定の場面を再生する場合、動画の区
切りのみで処理を行うと、音声の途切れや無音区間が発
生する。

【０００５】本発明は、メディアコンテンツの一部のみ
を抽出する場合において、場面の切り替わりと音声の切
り替わりを考慮し、音声の途切れをなくし、かつ音声の
みの区間や画像のみの区間を可能な限り小さくする方法
を提供するものである。

【０００６】

【課題を解決するための手段】この課題を解決するため
に、請求項１記載の本発明は、メディアコンテンツと、
前記メディアコンテンツの動画における、場面の切り替
わりに相当する区分（動画セグメント）の時間情報を記
述する動画内容記述データと、前記メディアコンテンツ
の音声における、音声の切り替わりに相当する区分（音
声セグメント）の時間情報と、該音声セグメントが移動
可か移動不可かの付加情報を記述する音声内容記述デー
タとを入力とし、特定の動画セグメントを選択する動画
選択ステップと、前記選択された動画セグメントと同期
再生させる音声セグメントを選択する音声選択ステップ
と、前記選択された音声セグメントのうち移動可とされ
たものを、時間的に前後させることにより、前記選択さ
れた動画セグメントと前記選択された音声セグメントの
同期をとる音声セグメント処理ステップとを備えたこと
を特徴とするメディア処理方法である。

【０００７】請求項２記載の本発明は、メディアコンテ
ンツと、前記メディアコンテンツの動画における、場面
の切り替わりに相当する区分（動画セグメント）の時間
情報を記述する動画内容記述データと、前記メディアコ
ンテンツの音声における、音声の切り替わりに相当する
区分（音声セグメント）の時間情報と、該音声セグメン
トが移動可か移動不可かの付加情報を記述する音声内容
記述データとを入力とし、特定の動画セグメントを選択
する動画選択ステップと、前記選択された動画セグメン
トと同期再生させる音声セグメントを選択する音声選択
ステップと、前記選択された音声セグメントのうち移動
可とされたものを時間的に前後させること、および／ま
たは、前記選択された動画セグメントの前後の動画セグ
メントを選択することによって、前記選択された動画セ
グメントと前記選択された音声セグメントの同期をとる
セグメント処理ステップとを備えたことを特徴とするメ
ディア処理方法である。

【０００８】請求項３記載の本発明は、メディアコンテ
ンツと、前記メディアコンテンツの動画における、場面
の切り替わりに相当する区分（動画セグメント）の時間
情報を記述する動画内容記述データと、前記メディアコ
ンテンツの音声における、音声の切り替わりに相当する
区分（音声セグメント）の時間情報と、該音声セグメン
トが移動可、移動不可、あるいは削除可の付加情報を記
述する音声内容記述データとを入力とし、特定の動画セ
グメントを選択する動画選択ステップと、前記選択され
た動画セグメントと同期再生させる音声セグメントを選
択する音声選択ステップと、前記選択された音声セグメ
ントのうち、削除可とされたものを削除すること、およ
び／または、前記選択された音声セグメントのうち移動
可とされたものを時間的に前後させることにより、前記
選択された動画セグメントと前記選択された音声セグメ
ントの同期をとる音声セグメント処理ステップとを備え
たことを特徴とするメディア処理方法である。

【０００９】請求項４記載の本発明は、メディアコンテ
ンツと、前記メディアコンテンツの動画における、場面
の切り替わりに相当する区分（動画セグメント）の時間
情報を記述する動画内容記述データと、前記メディアコ
ンテンツの音声における、音声の切り替わりに相当する
区分（音声セグメント）の時間情報と、該音声セグメン
トが移動可、移動不可、あるいは削除可の付加情報を記
述する音声内容記述データとを入力とし、特定の動画セ
グメントを選択する動画選択ステップと、前記選択され
た動画セグメントと同期再生させる音声セグメントを選
択する音声選択ステップと、前記選択された音声セグメ
ントのうち、削除可とされたものを削除すること、およ
び／または、前記選択された音声セグメントのうち移動
可とされたものを時間的に前後させること、および／ま
たは、前記選択された動画セグメントの前後の動画セグ
メントを選択することによって、前記選択された動画セ
グメントと前記選択された音声セグメントの同期をとる
音声セグメント処理ステップとを備えたことを特徴とす
るメディア処理方法である。

【００１０】第５の請求項記載の本発明は、コンピュー
タにより、請求項１記載のメディア処理を行うためのプ
ログラムを格納したデータ記憶媒体であって、前記プロ
グラムはコンピュータに、メディアコンテンツの特定シ
ーンの抽出において、移動可能な音声セグメントを時間
的に前後させることにより、動画セグメントと同期を行
わせることを特徴とするデータ記憶媒体である。

【００１１】第６の請求項記載の本発明は、コンピュー
タにより、請求項２記載のメディア処理を行うためのプ
ログラムを格納したデータ記憶媒体であって、前記プロ
グラムはコンピュータに、メディアコンテンツの特定シ
ーンの抽出において、移動可能な音声セグメントを時間
的に前後させること、および／または、前後の動画セグ
メントを選択すること、によって、動画と音声の同期を
行わせることを特徴とするデータ記憶媒体である。

【００１２】第７の請求項記載の本発明は、コンピュー
タにより、請求項３記載のメディア処理を行うためのプ
ログラムを格納したデータ記憶媒体であって、前記プロ
グラムはコンピュータに、メディアコンテンツの特定シ
ーンの抽出において、削除可能な音声セグメントを削除
すること、および／または、移動可能な音声セグメント
を時間的に前後させること、によって、動画と音声の同
期を行わせることを特徴とするデータ記憶媒体である。

【００１３】第８の請求項記載の本発明は、コンピュー
タにより、請求項４記載のメディア処理を行うためのプ
ログラムを格納したデータ記憶媒体であって、前記プロ
グラムはコンピュータに、メディアコンテンツの特定シ
ーンの抽出において、削除可能な音声セグメントを削除
すること、および／または、移動可能な音声セグメント
を時間的に前後させること、および／または、前後の動
画セグメントを選択すること、によって、動画と音声の
同期を行わせることを特徴とするデータ記憶媒体であ
る。

【００１４】

【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態について説明する。

【００１５】（実施の形態１）以下、請求項１記載の発
明における一実施の形態について述べる。図１は、本実
施の形態におけるメディア処理方法のブロック図であ
る。図１において、１０１は動画選択ステップを、１０
２は音声選択ステップを、１０３は音声セグメント処理
ステップを表す。また、１０４は、動画選択ステップ１
０１の入力である動画内容記述データを、１０５は、音
声選択ステップ１０２の入力である音声内容記述データ
を、１０６は、動画選択ステップ１０１と音声選択ステ
ップ１０２の入力であるメディアコンテンツを表す。メ
ディアコンテンツ１０６は、MPEG1システムストリーム
のようなビデオストリームとオーディオストリームを含
むものである。また、ビデオストリームは、場面の切り
替わりに相当する区分（以下動画セグメントと呼ぶ）に
分けられる。同様に、オーディオストリームは、音声の
切り替わりに相当する区分（以下音声セグメントと呼
ぶ）に分けられる。メディアコンテンツ１０６におい
て、動画選択ステップ１０１にはビデオストリームだけ
が、音声選択ステップ１０２にはオーディオストリーム
だけが、それぞれ入力されるものとする。動画選択ステ
ップ１０１は、メディアコンテンツ１０６のビデオスト
リームと動画内容記述データ１０４を入力し、前記ビデ
オストリームから特定の動画セグメントを選択するもの
である。ただし、選択される動画セグメントは複数あっ
ても構わない。選択された動画セグメントの開始時刻、
終了時刻は動画内容記述データ１０４から得られる。ま
た、動画セグメント選択の方法は任意とする。音声選択
ステップ１０２は、メディアコンテンツ１０６のオーデ
ィオストリームと、音声内容記述データ１０５と、前記
動画選択ステップ１０１が選択した動画セグメントの時
間情報とを入力とし、前記オーディオストリームから、
前記動画選択ステップ１０１が選択した動画セグメント
と同じ再生時刻をもつ音声セグメントを選択するもので
ある。音声セグメント処理ステップ１０３は、前記音声
選択ステップ１０２が選択した音声セグメントと、音声
内容記述データ１０５と、前記動画選択ステップ１０１
が選択した動画セグメントの時間情報とを入力とし、前
記選択した音声セグメントを時間的に前後させることに
より、前記動画セグメントと同期をとるように処理する
ものである。

【００１６】図２において、２０１はメディアコンテン
ツ１０６のビデオストリームを表す。２０２はメディア
コンテンツ１０６のオーディオストリームを表す。２０
３、２０４、２０５は、それぞれ、ビデオストリーム２
０１において、動画セグメントを表す。また、２０６、
２０７、２０８は、それぞれ、オーディオストリーム２
０２において、音声セグメントを表す。

【００１７】図３に、動画内容記述データ１０４の一例
を示す。動画内容記述データ１０４は、動画セグメント
毎の開始時刻と終了時刻を記述しているものとする。な
お、動画内容記述データ１０４は、各動画セグメントの
開始時刻と終了時刻を得られるものであれば、その形式
は問わないものである。したがって、開始時刻と該当動
画セグメントの継続時間の組合せであっても良い。

【００１８】図４に、音声内容記述データ１０５の一例
を示す。音声内容記述データ１０５は、音声セグメント
毎の開始時刻と終了時刻と、移動可、移動不可の付加情
報を記述しているものとする。なお、音声内容記述デー
タ１０５の時間情報は、各音声セグメントの開始時刻と
終了時刻を得られるものであれば、その形式は問わない
ものである。したがって、開始時刻と該当音声セグメン
トの継続時間の組合せであっても良い。音声セグメント
における移動可、移動不可といった付加情報は以下のよ
うになる。ドラマ内のセリフのように人間の口の動きに
合わせた音声など、その音声が動画内の映像と同時に再
生しなければならないものは移動不可となる。また、無
音区間やナレーションなど、動画内の映像と必ずしも同
時に再生させなくても良いものは移動可となる。

【００１９】図２において、動画選択ステップ１０１が
動画セグメント２０４を選択した場合を例に、音声選択
ステップ１０２の処理について説明する。動画選択ステ
ップ１０１は、選択した動画セグメント２０４の時間情
報を、音声選択ステップ１０２、音声セグメント処理ス
テップ１０３に出力する。この場合は、vst2,ved2を出
力する。音声選択ステップ１０２では、動画選択ステッ
プ１０１から受けとった選択動画セグメントの時間情報
と、各音声セグメントの時間情報との比較を行い、音声
セグメントの選択を行う。すなわち、音声セグメントの
開始時刻をast、終了時刻をaetとすると、音声選択ステ
ップ１０２は、（数１）、（数２）、（数３）のいずれ
かの条件を満たす音声セグメントを選択する。

【００２０】

【数１】

【００２１】

【数２】

【００２２】

【数３】

【００２３】この例の場合、（数１）の条件によって音
声セグメント２０６が、（数２）の条件によって音声セ
グメント２０７が、（数３）の条件によって音声セグメ
ント２０８が、それぞれ選択される。このうち、音声セ
グメント２０７は、その区間すべてが動画セグメント２
０４の区間に含まれている。一方、音声セグメント２０
６は、その先頭部分が動画セグメント２０４の区間外と
なる。同様に、音声セグメント２０８は、その終了部分
が動画セグメント２０４の区間外となる。したがって、
動画セグメント２０４と、音声セグメント２０６、２０
７、２０８を同期をとって再生する場合、先頭部と終了
部に音声のみの区間が現れることとなる。音声セグメン
ト処理ステップ１０３では、このような音声のみの区間
を可能な限り少なくするための処理を行う。

【００２４】以下、音声セグメント処理ステップ１０３
の処理について説明する。音声セグメント２０７に関し
ては、その区間すべてが動画セグメント２０４の区間内
にあるので、特に処理は行わないものとする。音声セグ
メント２０６の付加情報が移動不可の場合、音声セグメ
ント処理ステップ１０３では移動処理を行わない。この
場合、再生時、先頭に音声のみの区間が生じる。音声セ
グメント２０６の付加情報が移動可の場合、音声セグメ
ント処理ステップ１０３では、図５のように、音声セグ
メント２０６を、開始時刻が動画セグメント２０４の開
始時刻と一致するように移動させる。この場合、音声セ
グメント２０６と音声セグメント２０７が重なる部分が
生じる。この部分は、再生時に同時に再生することと
し、必要であれば再符号化などの処理を行うものとす
る。音声セグメント２０８に関しても、音声セグメント
２０６と同様の処理を行う。ただし、音声セグメント２
０８を移動させる場合は、その終了時刻を動画セグメン
ト２０４の終了時刻と一致させるように移動を行う。

【００２５】なお、図６のような場合には、音声セグメ
ント処理ステップ１０３では、特に処理は行わないこと
とする。図６において、６０１は動画選択ステップ１０
１で選択された動画セグメントを表す。また、６０２
は、動画セグメント６０１と同じ再生時刻をもつ音声セ
グメントを表す。これは、選択された動画セグメント６
０１の区間が、音声セグメント６０２の区間内の場合で
ある。

【００２６】（実施の形態２）以下、請求項２記載の発
明における一実施の形態について述べる。図７は、本実
施の形態におけるメディア処理方法のブロック図であ
る。図７において、７０１は動画選択ステップを、７０
２は音声選択ステップを、７０３はセグメント処理ステ
ップを表す。また、７０４は、動画選択ステップ７０１
の入力である動画内容記述データを、７０５は、音声選
択ステップ７０２の入力である音声内容記述データを、
７０６は、動画選択ステップ７０１と音声選択ステップ
７０２の入力であるメディアコンテンツを表す。メディ
アコンテンツ７０６は、第１の実施の形態と同様にMPEG
1システムストリームのようなビデオストリームとオー
ディオストリームを含むものである。また、ビデオスト
リームは、場面の切り替わりに相当する区分（以下動画
セグメントと呼ぶ）に分けられる。

【００２７】同様に、オーディオストリームは、音声の
切り替わりに相当する区分（以下音声セグメントと呼
ぶ）に分けられる。メディアコンテンツ７０６におい
て、動画選択ステップ７０１にはビデオストリームだけ
が、音声選択ステップ７０２にはオーディオストリーム
だけが、それぞれ入力されるものとする。動画選択ステ
ップ７０１は、メディアコンテンツ７０６のビデオスト
リームと動画内容記述データ７０４を入力し、ビデオス
トリームから特定の動画セグメントを選択するものであ
る。ただし、選択される動画セグメントは複数あっても
構わない。選択された動画セグメントの開始時刻、終了
時刻は動画内容記述データ７０４から得られる。また、
動画セグメント選択の方法は任意とする。音声選択ステ
ップ７０２は、メディアコンテンツ７０６のオーディオ
ストリームと、音声内容記述データ７０５と、前記動画
選択ステップ７０１が選択した動画セグメントの時間情
報とを入力とし、オーディオストリームから前記動画選
択ステップ７０１が選択した動画セグメントと同じ再生
時刻をもつ音声セグメントを選択するものである。セグ
メント処理ステップ７０３は、メディアコンテンツ７０
６と、前記動画選択ステップ７０１が選択した動画セグ
メントの時間情報と、前記音声選択ステップ７０２が選
択した音声セグメントの時間情報と、動画内容記述デー
タ７０４と、音声内容記述データ７０５とを入力とし、
前記選択された音声セグメントを時間的に前後させるこ
とにより、および／または、前記選択された動画セグメ
ントの前後の動画セグメントを選択して、選択した動画
セグメントと音声セグメントの同期をとるように処理す
るものである。

【００２８】図８において、８０１はメディアコンテン
ツ７０６のビデオストリームを表す。８０２はメディア
コンテンツ７０６のオーディオストリームを表す。８０
３、８０４、８０５は、それぞれ、ビデオストリーム８
０１において、動画セグメントを表す。また、８０６、
８０７、８０８は、それぞれ、オーディオストリーム８
０２において、音声セグメントを表す。

【００２９】図９に動画内容記述データ７０４の一例を
示す。これは、第１の実施の形態における動画内容記述
データ１０４と同じ構成のものである。また、図１０に
音声内容記述データ７０５の一例を示す。これは、第１
の実施の形態における音声内容記述データ１０５と同じ
構成のものである。

【００３０】図８において、動画選択ステップ７０１が
動画セグメント８０４を選択した場合を例に、音声選択
ステップ７０２の処理について説明する。動画選択ステ
ップ７０１は、選択した動画セグメント８０４の時間情
報を、音声選択ステップ７０２、セグメント処理ステッ
プ７０３に出力する。この場合は、vst2,ved2を出力す
る。音声選択ステップ７０２では、動画選択ステップ７
０１から受けとった選択動画セグメントの時間情報と、
各音声セグメントの時間情報との比較を行い、音声セグ
メントの選択を行う。すなわち、音声セグメントの開始
時刻をast、終了時刻をaetとすると、音声選択ステップ
７０２は、（数４）、（数５）、（数６）のいずれかの
条件を満たす音声セグメントを選択する。

【００３１】

【数４】

【００３２】

【数５】

【００３３】

【数６】

【００３４】この例の場合、（数４）の条件によって音
声セグメント８０６が、（数５）の条件によって音声セ
グメント８０７が、（数６）の条件によって音声セグメ
ント８０８が、それぞれ選択される。このうち、音声セ
グメント８０７は、その区間すべてが動画セグメント８
０４の区間に含まれている。一方、音声セグメント８０
６は、その先頭部分が動画セグメント８０４の区間外と
なる。同様に、音声セグメント８０８は、その終了部分
が動画セグメント８０４の区間外となる。したがって、
動画セグメント８０４と、音声セグメント８０６、８０
７、８０８を同期をとって再生する場合、先頭部と終了
部に音声のみの区間が現れることとなる。セグメント処
理ステップ８０３では、このような音声のみの区間を可
能な限り少なくするための処理を行う。

【００３５】以下、セグメント処理ステップ７０３の処
理について説明する。音声セグメント８０７に関して
は、その区間すべてが動画セグメント８０４の区間内に
あるので、特に処理は行わないものとする。音声セグメ
ント８０６の付加情報が移動不可の場合、セグメント処
理ステップ８０３では、ビデオストリーム８０１におい
て、動画セグメント８０４の前にある動画セグメントの
選択を行い、連続する選択された動画セグメントの区間
内に、音声セグメント８０６が収まるようにする。新た
に行う動画セグメントの選択は最小限とする。

【００３６】この場合は、動画セグメント８０３だけが
新たに選択される。また、音声セグメント８０６の付加
情報が移動可の場合、セグメント処理ステップ７０３で
は、図１１のように、音声セグメント８０６を、開始時
刻が動画セグメント８０４の開始時刻と一致するように
移動させる。この処理により、音声セグメント８０６と
音声セグメント８０７が重なる部分が生じる。この部分
は、再生時に同時に再生することとし、必要であれば再
符号化などの処理を行うものとする。音声セグメント８
０８に関しても、音声セグメント８０６と同様の処理を
行う。すなわち、音声セグメント８０８の付加情報が移
動不可の場合、動画セグメント８０４の後ろにある動画
セグメントの最小限の選択を行い、連続する選択された
動画セグメントの区間内に音声セグメント８０８が収ま
るようにする。また、音声セグメント８０８の付加情報
が移動可の場合、音声セグメント８０８の終了時刻と動
画セグメント８０４の終了時刻が一致するように、音声
セグメント８０８を移動させる。

【００３７】なお、セグメント処理ステップ７０３にお
いて、音声セグメントの付加情報が移動可の場合は音声
セグメントを移動させる処理を行うとしたが、音声セグ
メントの移動を行わず、前後の動画セグメントの選択を
行う、としてもよい。また、前後の動画セグメントの選
択を行った後、音声セグメントを動画セグメントの選択
を行った方向に移動させ、動画のみの部分を可能な限り
小さくする、としてもよい。また、選択された動画セグ
メントの前後の動画セグメントを新たに選択するとした
が、動画セグメントを、MPEG1におけるGOP(Group of Pi
ctures)のようなランダムアクセスの最小単位にさらに
分割し、それを新たに選択する、としてもよい。

【００３８】（実施の形態３）以下、請求項３記載の発
明における一実施の形態について述べる。これは、第１
の実施の形態と比較し、音声内容記述データの付加情報
と、音声セグメント処理ステップでの処理のみが異なる
ものである。すなわち、本実施の形態におけるメディア
処理方法のブロック図は図１となる。また、動画選択ス
テップ１０１、音声選択ステップ１０２での処理、およ
び、動画内容記述データ１０３、メディアコンテンツ１
０６は、第１の実施の形態と同じものとする。

【００３９】図１２に、本実施の形態における音声内容
記述データ１０５の一例を示す。これは、第１の実施の
形態における音声内容記述データと比較して、付加情報
のみが異なる。本実施の形態においては、付加情報とし
て、移動可、移動不可、削除可の三種類がある。

【００４０】以下、本実施の形態における音声セグメン
ト処理ステップ１０３の処理について、第１の実施の形
態と同様の例によって説明する。音声セグメント２０６
の付加情報が削除可の場合、音声セグメント処理ステッ
プ１０３では、音声セグメント２０６の選択を解除す
る。また、音声セグメント２０６の付加情報が移動可の
場合、音声セグメント処理ステップ１０３では、図５の
ように、音声セグメント２０６を、開始時刻が動画セグ
メント２０４の開始時刻と一致するように移動させる。
この処理により、音声セグメント２０６と音声セグメン
ト２０７が重なる部分が生じる。この場合、音声セグメ
ント２０７の付加情報が削除可の場合、音声セグメント
処理ステップ１０３では、音声セグメント２０７の選択
を解除する。音声セグメント２０７の付加情報が移動可
で、かつ後続の音声セグメント２０８が選択されていな
いか、あるいは音声セグメント２０８が選択されていて
かつ削除可の場合は、音声セグメント処理ステップ１０
３では、音声セグメント２０８の選択を必要であれば解
除し、かつ、移動後の音声セグメント２０６と音声セグ
メント２０７の重なり部分がなくなるか、あるいは音声
セグメント２０７の終了時刻が、音声セグメント２０７
の直後の選択された音声セグメントの開始時刻あるいは
同期させる動画セグメントの終了時刻のいずれか近い方
と一致するか、のいずれかまで音声セグメント２０７の
移動を行う。本例の場合は、音声セグメント２０８の後
ろの音声セグメントは選択されていないが、さらに連続
して選択された音声セグメントがあり、音声セグメント
に重なり部分が生じる場合は、以上の処理を連続する選
択された音声セグメントの最終まで繰り返し、音声セグ
メントの重なり部分が可能な限り小さくなるようにす
る。音声セグメントの重なり部分が残った場合は、この
部分は再生時に同時に再生することとし、必要であれば
再符号化などの処理を行うものとする。音声セグメント
２０８に関しても、音声セグメント２０６と同様の処理
を行う。すなわち、音声セグメント２０８の付加情報が
削除可である場合、音声セグメント処理ステップ１０３
では、音声セグメント２０８の選択を解除する。また、
音声セグメント２０８の付加情報が移動可の場合、音声
セグメント２０８の終了時刻と動画セグメント２０４の
終了時刻が一致するように、音声セグメント２０８を移
動させる。移動後の音声セグメント２０８とその前の音
声セグメントとに重なり部分が生じた場合は、音声セグ
メント２０６を移動させた時の処理と同様の処理を、前
向きの方向に、すなわち音声セグメントの重なりがなく
なるか、あるいは、音声セグメントの開始時刻が、該音
声セグメントの直前の選択された音声セグメントの終了
時刻あるいは同期させる動画セグメントの開始時刻のい
ずれか近い方と一致するか、のいずれかまで移動させる
ことを繰り返すことにより、音声セグメントの重なり部
分を可能な限り小さくする。

【００４１】（実施の形態４）以下、請求項４記載の発
明における一実施の形態について述べる。これは、第２
の実施の形態と比較し、音声内容記述データの付加情報
と、セグメント処理ステップでの処理が異なるものであ
る。すなわち、本実施の形態におけるメディア処理方法
のブロック図は図７となる。また、動画選択ステップ７
０１、音声選択ステップ７０２での処理、および、動画
内容記述データ７０３、メディアコンテンツ７０６は、
第２の実施の形態と同じものとする。

【００４２】本実施の形態における、音声内容記述デー
タ７０６は、図１２に示す、第３の実施の形態での音声
内容記述データと同様の構成のものである。すなわち、
付加情報として、移動可、移動不可、削除可の三種類が
ある。

【００４３】以下、本実施の形態におけるセグメント処
理ステップ７０３の処理について、第２の実施の形態と
同様の例によって説明する。音声セグメント８０６の付
加情報が削除可の場合、セグメント処理ステップ７０３
では、音声セグメント８０６の選択を解除する。音声セ
グメント８０６の付加情報が移動不可の場合、セグメン
ト処理ステップ７０３では、ビデオストリーム８０１に
おいて、動画セグメント８０４の前にある動画セグメン
トの選択を行い、連続する選択された動画セグメントの
区間内に、音声セグメント８０６が収まるようにする。
新たに行う動画セグメントの選択は最小限とする。この
場合は、動画セグメント８０３だけが新たに選択され
る。また、音声セグメント８０６の付加情報が移動可の
場合、セグメント処理ステップ８０３では、図１１のよ
うに、音声セグメント８０６を、開始時刻が動画セグメ
ント８０４の開始時刻と一致するように移動させる。こ
の処理により、音声セグメント８０６と音声セグメント
８０７が重なる部分が生じる。この場合、音声セグメン
ト８０７の付加情報が削除可の場合、セグメント処理ス
テップ７０３では、音声セグメント８０７の選択を解除
する。音声セグメント８０７の付加情報が移動可で、か
つ後続の音声セグメント８０８が選択されていないか、
あるいは音声セグメント８０８が選択されておりかつ削
除可の場合は、セグメント処理ステップ７０３では、音
声セグメント８０８の選択を必要であれば解除し、か
つ、移動後の音声セグメント８０６と音声セグメント８
０７の重なり部分がなくなるか、あるいは音声セグメン
ト８０７の終了時刻が、音声セグメント８０７の直後の
選択された音声セグメントの開始時刻あるいは同期させ
る動画セグメントの終了時刻のいずれか近い方とと一致
するか、のいずれかまで音声セグメント８０７の移動を
行う。本例の場合は、音声セグメント８０８の後ろの音
声セグメントは選択されていないが、さらに連続して選
択された音声セグメントがあり、それら音声セグメント
に重なり部分が生じる場合は、以上の処理を連続する選
択された音声セグメントの最終まで繰り返し、音声セグ
メントの重なり部分が可能な限り小さくなるようにす
る。音声セグメントの重なり部分が残った場合は、この
部分は再生時に同時に再生することとし、必要であれば
再符号化などの処理を行うものとする。音声セグメント
８０８に関しても、音声セグメント８０６と同様の処理
を行う。すなわち、音声セグメント８０８の付加情報が
削除可である場合、セグメント処理ステップ７０３で
は、音声セグメント８０８の選択を解除する。音声セグ
メント８０８の付加情報が移動不可の場合、動画セグメ
ント８０４の後ろにある動画セグメントの最小限の選択
を行い、連続する選択された動画セグメントの区間内に
音声セグメント８０８が収まるようにする。また、音声
セグメント８０８の付加情報が移動可の場合、音声セグ
メント８０８の終了時刻と動画セグメント８０４の終了
時刻が一致するように、音声セグメント８０８を移動さ
せる。移動後の音声セグメント８０８とその前の音声セ
グメントとに重なり部分が生じた場合は、音声セグメン
ト８０６を移動させた時の処理と同様の処理を、前向き
の方向に、すなわち音声セグメントの重なりがなくなる
か、あるいは、音声セグメントの開始時刻が、該音声セ
グメントの直前の選択された音声セグメントの終了時刻
あるいは同期させる動画セグメントの開始時刻とのいず
れか近い方と一致するか、のいずれかまで移動させるこ
とを繰り返すことにより、音声セグメントの重なり部分
を可能な限り小さくする。

【００４４】なお、セグメント処理ステップ７０３にお
いて、音声セグメントの付加情報が移動可の場合は音声
セグメントを移動させる処理を行うとしたが、音声セグ
メントの移動を行わず、前後の動画セグメントの選択を
行う、としてもよい。また、前後の動画セグメントの選
択を行った後、音声セグメントを動画セグメントの選択
を行った方向に移動させ、動画のみの部分を可能な限り
小さくする、としてもよい。また、選択された動画セグ
メントの前後の動画セグメントを新たに選択するとした
が、動画セグメントを、MPEG1におけるGOP(Group of Pi
ctures)のようなランダムアクセスの最小単位にさらに
分割し、それを新たに選択する、としてもよい。

【００４５】

【発明の効果】以上のように、請求項１記載の本発明に
よれば、移動可能な音声セグメントを時間的に前後させ
ることにより、メディアコンテンツの特定シーンの抽出
において、動画と音声を同期させることができる。

【００４６】また、請求項２記載の本発明によれば、移
動可能な音声セグメントを時間的に前後させること、お
よび／または、選択された動画セグメントの前後の動画
セグメントを新たに選択することにより、メディアコン
テンツの特定シーンの抽出において、動画と音声を同期
させることができる。

【００４７】また、請求項３記載の本発明によれば、削
除可能な音声セグメントを削除すること、および／また
は、移動可能な音声セグメントを時間的に前後させるこ
とにより、メディアコンテンツの特定シーンの抽出にお
いて、動画と音声を同期させることができる。

【００４８】また、請求項４記載の本発明によれば、削
除可能な音声セグメントを削除すること、および／また
は、移動可能な音声セグメントを時間的に前後させるこ
と、および／または、選択された動画セグメントの前後
の動画セグメントを新たに選択することにより、メディ
アコンテンツの特定シーンの抽出において、動画と音声
を同期させることができる。

【００４９】また、請求項５記載のデータ記憶媒体によ
れば、移動可能な音声セグメントを時間的に前後させる
処理をコンピュータに行わせるプログラムを格納したも
ので、該プログラムをコンピュータにロードすることに
より、メディアコンテンツの特定シーンの抽出におい
て、動画と音声を同期させることが実現できる。

【００５０】また、請求項６記載のデータ記憶媒体によ
れば、移動可能な音声セグメントを時間的に前後させ
る、および／または、選択された動画セグメントの前後
の動画セグメントを新たに選択する処理をコンピュータ
に行わせるプログラムを格納したもので、該プログラム
をコンピュータにロードすることにより、メディアコン
テンツの特定シーンの抽出において、動画と音声を同期
させることが実現できる。

【００５１】また、請求項７記載のデータ記憶媒体によ
れば、削除可能な音声セグメントを削除する、および／
または、移動可能な音声セグメントを時間的に前後させ
る処理をコンピュータに行わせるプログラムを格納した
もので、該プログラムをコンピュータにロードすること
により、メディアコンテンツの特定シーンの抽出におい
て、動画と音声を同期させることが実現できる。

【００５２】また、請求項８記載のデータ記憶媒体によ
れば、削除可能な音声セグメントを削除する、および／
または、移動可能な音声セグメントを時間的に前後させ
る、および／または、選択された動画セグメントの前後
の動画セグメントを新たに選択する処理をコンピュータ
に行わせるプログラムを格納したもので、該プログラム
をコンピュータにロードすることにより、メディアコン
テンツの特定シーンの抽出において、動画と音声を同期
させることが実現できる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態におけるメディア処
理方法のブロック図

【図２】本発明の第１の実施の形態におけるメディアコ
ンテンツ、動画セグメント、音声セグメントの説明図

【図３】本発明の第１の実施の形態における動画内容記
述データの一例を示す図

【図４】本発明の第１の実施の形態における音声内容記
述データの一例を示す図

【図５】本発明の第１の実施の形態における音声セグメ
ント処理ステップにおける処理の説明図

【図６】本発明の第１の実施の形態における処理の説明
図

【図７】本発明の第２の実施の形態におけるメディア処
理方法のブロック図

【図８】本発明の第２の実施の形態におけるメディアコ
ンテンツ、動画セグメント、音声セグメントの説明図

【図９】本発明の第２の実施の形態における動画内容記
述データの一例を示す図

【図１０】本発明の第２の実施の形態における音声内容
記述データの一例を示す図

【図１１】本発明の第２の実施の形態における音声セグ
メント処理ステップにおける処理の説明図

【図１２】本発明の第３の実施の形態におけるの音声内
容記述データの一例を示す図

【符号の説明】１０１動画選択ステップ１０２音声選択ステップ１０３音声セグメント処理ステップ１０４動画内容記述データ１０５音声内容記述データ１０６メディアコンテンツ２０１ビデオストリーム２０２オーディオストリーム２０３動画セグメント２０４動画セグメント２０５動画セグメント２０６音声セグメント２０７音声セグメント２０８音声セグメント６０１動画セグメント６０２音声セグメント７０１動画選択ステップ７０２音声選択ステップ７０３セグメント処理ステップ７０４動画内容記述データ７０５音声内容記述データ７０６メディアコンテンツ８０１ビデオストリーム８０２オーディオストリーム８０３動画セグメント８０４動画セグメント８０５動画セグメント８０６音声セグメント８０７音声セグメント８０８音声セグメント

Claims

【特許請求の範囲】

【請求項１】動画と音声とが同期した連続視聴覚情報
（メディアコンテンツ）と、前記メディアコンテンツの
動画における、場面の切り替わりに相当する区分（動画
セグメント）の時間情報を記述する動画内容記述データ
と、前記メディアコンテンツの音声における、音声の切
り替わりに相当する区分（音声セグメント）の時間情報
と、移動可、移動不可の付加情報を記述する音声内容記
述データとを入力とし、前記動画セグメントのひとつま
たは複数を選択する動画選択ステップと、前記動画選択
ステップが選択した動画セグメントと同じ再生時刻をも
つ音声セグメントを選択する音声選択ステップと、前記
選択された音声セグメントの付加情報により、移動可と
された音声セグメントを時間的に前後させることによっ
て、前記動画セグメントと音声セグメントの同期を行う
音声セグメント処理ステップとを備えたことを特徴とす
るメディア処理方法。
【請求項２】動画と音声とが同期した連続視聴覚情報
（メディアコンテンツ）と、前記メディアコンテンツの
動画における、場面の切り替わりに相当する区分（動画
セグメント）の時間情報を記述する動画内容記述データ
と、前記メディアコンテンツの音声における、音声の切
り替わりに相当する区分（音声セグメント）の時間情報
と、移動可、移動不可の付加情報を記述する音声内容記
述データとを入力とし、前記動画セグメントのひとつま
たは複数を選択する動画選択ステップと、前記動画選択
ステップが選択した動画セグメントと同じ再生時刻をも
つ音声セグメントを選択する音声選択ステップと、前記
選択された音声セグメントの付加情報により、移動可と
された音声セグメントを時間的に前後させることによっ
て、および／または、前記選択された動画セグメントの
前後の動画セグメントを選択して、前記選択した動画セ
グメントと、選択した連続する音声セグメントを同期さ
せるセグメント処理ステップとを備えたことを特徴とす
るメディア処理方法。
【請求項３】動画と音声とが同期した連続視聴覚情報
（メディアコンテンツ）と、前記メディアコンテンツの
動画における、場面の切り替わりに相当する区分（動画
セグメント）の時間情報を記述する動画内容記述データ
と、前記メディアコンテンツの音声における、音声の切
り替わりに相当する区分（音声セグメント）の時間情報
と、移動可、移動不可、削除可の付加情報を記述する音
声内容記述データとを入力とし、前記動画セグメントの
ひとつまたは複数を選択する動画選択ステップと、前記
動画選択ステップが選択した動画セグメントと同じ再生
時刻をもつ音声セグメントを選択する音声選択ステップ
と、前記選択された音声セグメントの付加情報により、
移動可とされた音声セグメントを時間的に前後させるこ
と、および／または、削除可とされた音声セグメントを
削除すること、によって、前記動画セグメントと音声セ
グメントの同期を行う音声セグメント処理ステップとを
備えたことを特徴とするメディア処理方法。
【請求項４】動画と音声とが同期した連続視聴覚情報
（メディアコンテンツ）と、前記メディアコンテンツの
動画における、場面の切り替わりに相当する区分（動画
セグメント）の時間情報を記述する動画内容記述データ
と、前記メディアコンテンツの音声における、音声の切
り替わりに相当する区分（音声セグメント）の時間情報
と、移動可、移動不可、削除可の付加情報を記述する音
声内容記述データとを入力とし、前記動画セグメントの
ひとつまたは複数を選択する動画選択ステップと、前記
動画選択ステップが選択した動画セグメントと同じ再生
時刻をもつ音声セグメントを選択する音声選択ステップ
と、前記選択された音声セグメントの付加情報により、
移動可とされた音声セグメントを時間的に前後させるこ
と、および／または、削除可とされた音声セグメントを
削除すること、および／または、前記選択された動画セ
グメントの前後の動画セグメントを選択して、によっ
て、前記動画セグメントと音声セグメントの同期を行う
セグメント処理ステップとを備えたことを特徴とするメ
ディア処理方法。
【請求項５】コンピュータにより、請求項１記載のメ
ディア処理を行うためのプログラムを格納したデータ記
憶媒体であって、上記プログラムはコンピュータに、メ
ディアコンテンツのシーン抽出において、動画と音声の
同期を行わせるものであることを特徴とするデータ記録
媒体。
【請求項６】コンピュータにより、請求項２記載のメ
ディア処理を行うためのプログラムを格納したデータ記
憶媒体であって、上記プログラムはコンピュータに、メ
ディアコンテンツのシーン抽出において、動画と音声の
同期を行わせるものであることを特徴とするデータ記録
媒体。
【請求項７】コンピュータにより、請求項３記載のメ
ディア処理を行うためのプログラムを格納したデータ記
憶媒体であって、上記プログラムはコンピュータに、メ
ディアコンテンツのシーン抽出において、動画と音声の
同期を行わせるものであることを特徴とするデータ記録
媒体。
【請求項８】コンピュータにより、請求項４記載のメ
ディア処理を行うためのプログラムを格納したデータ記
憶媒体であって、上記プログラムはコンピュータに、メ
ディアコンテンツのシーン抽出において、動画と音声の
同期を行わせるものであることを特徴とするデータ記録
媒体。