JP2000278653A - メディア処理方法 - Google Patents

メディア処理方法

Info

Publication number
JP2000278653A
JP2000278653A JP8112399A JP8112399A JP2000278653A JP 2000278653 A JP2000278653 A JP 2000278653A JP 8112399 A JP8112399 A JP 8112399A JP 8112399 A JP8112399 A JP 8112399A JP 2000278653 A JP2000278653 A JP 2000278653A
Authority
JP
Japan
Prior art keywords
segment
audio
moving image
video
media content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8112399A
Other languages
English (en)
Other versions
JP4161459B2 (ja
Inventor
Toshihiko Munetsugi
敏彦 宗續
Minoru Eito
稔 栄藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP08112399A priority Critical patent/JP4161459B2/ja
Publication of JP2000278653A publication Critical patent/JP2000278653A/ja
Application granted granted Critical
Publication of JP4161459B2 publication Critical patent/JP4161459B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Television Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

(57)【要約】 【課題】 本発明は、メディアコンテンツの特定のシー
ンを抽出する場合において、動画と音声の同期をとる手
段を提供することを目的とする。 【解決手段】 特定の動画セグメントを選択する動画選
択ステップ101と、選択された動画セグメントと同期
再生させる音声セグメントを選択する音声選択ステップ
102と、選択された音声セグメントのうち移動可とさ
れたものを、必要であれば時間的に前後させることによ
り、選択された動画セグメントと前記選択された音声セ
グメントの同期をとる音声セグメント処理ステップ10
3とを備えたことを特徴とするメディア処理方法であ
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、動画、音声などの
連続視聴覚情報(メディアコンテンツ)の視聴、再生に
おいて、該当メディアコンテンツのあらすじやハイライ
トシーン、あるいは視聴者が見たいと希望するシーンの
みを抽出する場合における、動画と音声の同期処理方法
を提供するものである。
【0002】
【従来の技術】従来、動画の特定シーンの検索を行う方
法として、特開平10-111872号公報のように、動画の場
面の切り替わり(シーンカット)を検出し、シーンカッ
トごとに、開始フレームのタイムコード、終了フレーム
のタイムコード、該当シーンのキーワードの付加情報を
つけて行っていた。
【0003】あるいは、カーネギーメロン大学(CM
U)では、動画のシーンカットの検出、人間の顔やキャ
プションの検出、音声認識によるキーフレーズの検出な
どにより、動画の要約を行っていた(Michael A. Smit
h, Takeo Kanade, 「Video Skimming and Characteriza
tion through the Combination of Image and Language
Understanding Techniques」、CMU-CS-97-111, 1997年2
月3日)。
【0004】
【発明が解決しようとする課題】しかしながら従来の方
法では、動画と音声の同期といった問題は扱われていな
い。メディアコンテンツでは、場面の切り替わりと音声
の切り替わりは、必ずしも同期しているとは限らない。
したがって、ある特定の場面を再生する場合、動画の区
切りのみで処理を行うと、音声の途切れや無音区間が発
生する。
【0005】本発明は、メディアコンテンツの一部のみ
を抽出する場合において、場面の切り替わりと音声の切
り替わりを考慮し、音声の途切れをなくし、かつ音声の
みの区間や画像のみの区間を可能な限り小さくする方法
を提供するものである。
【0006】
【課題を解決するための手段】この課題を解決するため
に、請求項1記載の本発明は、メディアコンテンツと、
前記メディアコンテンツの動画における、場面の切り替
わりに相当する区分(動画セグメント)の時間情報を記
述する動画内容記述データと、前記メディアコンテンツ
の音声における、音声の切り替わりに相当する区分(音
声セグメント)の時間情報と、該音声セグメントが移動
可か移動不可かの付加情報を記述する音声内容記述デー
タとを入力とし、特定の動画セグメントを選択する動画
選択ステップと、前記選択された動画セグメントと同期
再生させる音声セグメントを選択する音声選択ステップ
と、前記選択された音声セグメントのうち移動可とされ
たものを、時間的に前後させることにより、前記選択さ
れた動画セグメントと前記選択された音声セグメントの
同期をとる音声セグメント処理ステップとを備えたこと
を特徴とするメディア処理方法である。
【0007】請求項2記載の本発明は、メディアコンテ
ンツと、前記メディアコンテンツの動画における、場面
の切り替わりに相当する区分(動画セグメント)の時間
情報を記述する動画内容記述データと、前記メディアコ
ンテンツの音声における、音声の切り替わりに相当する
区分(音声セグメント)の時間情報と、該音声セグメン
トが移動可か移動不可かの付加情報を記述する音声内容
記述データとを入力とし、特定の動画セグメントを選択
する動画選択ステップと、前記選択された動画セグメン
トと同期再生させる音声セグメントを選択する音声選択
ステップと、前記選択された音声セグメントのうち移動
可とされたものを時間的に前後させること、および/ま
たは、前記選択された動画セグメントの前後の動画セグ
メントを選択することによって、前記選択された動画セ
グメントと前記選択された音声セグメントの同期をとる
セグメント処理ステップとを備えたことを特徴とするメ
ディア処理方法である。
【0008】請求項3記載の本発明は、メディアコンテ
ンツと、前記メディアコンテンツの動画における、場面
の切り替わりに相当する区分(動画セグメント)の時間
情報を記述する動画内容記述データと、前記メディアコ
ンテンツの音声における、音声の切り替わりに相当する
区分(音声セグメント)の時間情報と、該音声セグメン
トが移動可、移動不可、あるいは削除可の付加情報を記
述する音声内容記述データとを入力とし、特定の動画セ
グメントを選択する動画選択ステップと、前記選択され
た動画セグメントと同期再生させる音声セグメントを選
択する音声選択ステップと、前記選択された音声セグメ
ントのうち、削除可とされたものを削除すること、およ
び/または、前記選択された音声セグメントのうち移動
可とされたものを時間的に前後させることにより、前記
選択された動画セグメントと前記選択された音声セグメ
ントの同期をとる音声セグメント処理ステップとを備え
たことを特徴とするメディア処理方法である。
【0009】請求項4記載の本発明は、メディアコンテ
ンツと、前記メディアコンテンツの動画における、場面
の切り替わりに相当する区分(動画セグメント)の時間
情報を記述する動画内容記述データと、前記メディアコ
ンテンツの音声における、音声の切り替わりに相当する
区分(音声セグメント)の時間情報と、該音声セグメン
トが移動可、移動不可、あるいは削除可の付加情報を記
述する音声内容記述データとを入力とし、特定の動画セ
グメントを選択する動画選択ステップと、前記選択され
た動画セグメントと同期再生させる音声セグメントを選
択する音声選択ステップと、前記選択された音声セグメ
ントのうち、削除可とされたものを削除すること、およ
び/または、前記選択された音声セグメントのうち移動
可とされたものを時間的に前後させること、および/ま
たは、前記選択された動画セグメントの前後の動画セグ
メントを選択することによって、前記選択された動画セ
グメントと前記選択された音声セグメントの同期をとる
音声セグメント処理ステップとを備えたことを特徴とす
るメディア処理方法である。
【0010】第5の請求項記載の本発明は、コンピュー
タにより、請求項1記載のメディア処理を行うためのプ
ログラムを格納したデータ記憶媒体であって、前記プロ
グラムはコンピュータに、メディアコンテンツの特定シ
ーンの抽出において、移動可能な音声セグメントを時間
的に前後させることにより、動画セグメントと同期を行
わせることを特徴とするデータ記憶媒体である。
【0011】第6の請求項記載の本発明は、コンピュー
タにより、請求項2記載のメディア処理を行うためのプ
ログラムを格納したデータ記憶媒体であって、前記プロ
グラムはコンピュータに、メディアコンテンツの特定シ
ーンの抽出において、移動可能な音声セグメントを時間
的に前後させること、および/または、前後の動画セグ
メントを選択すること、によって、動画と音声の同期を
行わせることを特徴とするデータ記憶媒体である。
【0012】第7の請求項記載の本発明は、コンピュー
タにより、請求項3記載のメディア処理を行うためのプ
ログラムを格納したデータ記憶媒体であって、前記プロ
グラムはコンピュータに、メディアコンテンツの特定シ
ーンの抽出において、削除可能な音声セグメントを削除
すること、および/または、移動可能な音声セグメント
を時間的に前後させること、によって、動画と音声の同
期を行わせることを特徴とするデータ記憶媒体である。
【0013】第8の請求項記載の本発明は、コンピュー
タにより、請求項4記載のメディア処理を行うためのプ
ログラムを格納したデータ記憶媒体であって、前記プロ
グラムはコンピュータに、メディアコンテンツの特定シ
ーンの抽出において、削除可能な音声セグメントを削除
すること、および/または、移動可能な音声セグメント
を時間的に前後させること、および/または、前後の動
画セグメントを選択すること、によって、動画と音声の
同期を行わせることを特徴とするデータ記憶媒体であ
る。
【0014】
【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態について説明する。
【0015】(実施の形態1)以下、請求項1記載の発
明における一実施の形態について述べる。図1は、本実
施の形態におけるメディア処理方法のブロック図であ
る。図1において、101は動画選択ステップを、10
2は音声選択ステップを、103は音声セグメント処理
ステップを表す。また、104は、動画選択ステップ1
01の入力である動画内容記述データを、105は、音
声選択ステップ102の入力である音声内容記述データ
を、106は、動画選択ステップ101と音声選択ステ
ップ102の入力であるメディアコンテンツを表す。メ
ディアコンテンツ106は、MPEG1システムストリーム
のようなビデオストリームとオーディオストリームを含
むものである。また、ビデオストリームは、場面の切り
替わりに相当する区分(以下動画セグメントと呼ぶ)に
分けられる。同様に、オーディオストリームは、音声の
切り替わりに相当する区分(以下音声セグメントと呼
ぶ)に分けられる。メディアコンテンツ106におい
て、動画選択ステップ101にはビデオストリームだけ
が、音声選択ステップ102にはオーディオストリーム
だけが、それぞれ入力されるものとする。動画選択ステ
ップ101は、メディアコンテンツ106のビデオスト
リームと動画内容記述データ104を入力し、前記ビデ
オストリームから特定の動画セグメントを選択するもの
である。ただし、選択される動画セグメントは複数あっ
ても構わない。選択された動画セグメントの開始時刻、
終了時刻は動画内容記述データ104から得られる。ま
た、動画セグメント選択の方法は任意とする。音声選択
ステップ102は、メディアコンテンツ106のオーデ
ィオストリームと、音声内容記述データ105と、前記
動画選択ステップ101が選択した動画セグメントの時
間情報とを入力とし、前記オーディオストリームから、
前記動画選択ステップ101が選択した動画セグメント
と同じ再生時刻をもつ音声セグメントを選択するもので
ある。音声セグメント処理ステップ103は、前記音声
選択ステップ102が選択した音声セグメントと、音声
内容記述データ105と、前記動画選択ステップ101
が選択した動画セグメントの時間情報とを入力とし、前
記選択した音声セグメントを時間的に前後させることに
より、前記動画セグメントと同期をとるように処理する
ものである。
【0016】図2において、201はメディアコンテン
ツ106のビデオストリームを表す。202はメディア
コンテンツ106のオーディオストリームを表す。20
3、204、205は、それぞれ、ビデオストリーム2
01において、動画セグメントを表す。また、206、
207、208は、それぞれ、オーディオストリーム2
02において、音声セグメントを表す。
【0017】図3に、動画内容記述データ104の一例
を示す。動画内容記述データ104は、動画セグメント
毎の開始時刻と終了時刻を記述しているものとする。な
お、動画内容記述データ104は、各動画セグメントの
開始時刻と終了時刻を得られるものであれば、その形式
は問わないものである。したがって、開始時刻と該当動
画セグメントの継続時間の組合せであっても良い。
【0018】図4に、音声内容記述データ105の一例
を示す。音声内容記述データ105は、音声セグメント
毎の開始時刻と終了時刻と、移動可、移動不可の付加情
報を記述しているものとする。なお、音声内容記述デー
タ105の時間情報は、各音声セグメントの開始時刻と
終了時刻を得られるものであれば、その形式は問わない
ものである。したがって、開始時刻と該当音声セグメン
トの継続時間の組合せであっても良い。音声セグメント
における移動可、移動不可といった付加情報は以下のよ
うになる。ドラマ内のセリフのように人間の口の動きに
合わせた音声など、その音声が動画内の映像と同時に再
生しなければならないものは移動不可となる。また、無
音区間やナレーションなど、動画内の映像と必ずしも同
時に再生させなくても良いものは移動可となる。
【0019】図2において、動画選択ステップ101が
動画セグメント204を選択した場合を例に、音声選択
ステップ102の処理について説明する。動画選択ステ
ップ101は、選択した動画セグメント204の時間情
報を、音声選択ステップ102、音声セグメント処理ス
テップ103に出力する。この場合は、vst2,ved2を出
力する。音声選択ステップ102では、動画選択ステッ
プ101から受けとった選択動画セグメントの時間情報
と、各音声セグメントの時間情報との比較を行い、音声
セグメントの選択を行う。すなわち、音声セグメントの
開始時刻をast、終了時刻をaetとすると、音声選択ステ
ップ102は、(数1)、(数2)、(数3)のいずれ
かの条件を満たす音声セグメントを選択する。
【0020】
【数1】
【0021】
【数2】
【0022】
【数3】
【0023】この例の場合、(数1)の条件によって音
声セグメント206が、(数2)の条件によって音声セ
グメント207が、(数3)の条件によって音声セグメ
ント208が、それぞれ選択される。このうち、音声セ
グメント207は、その区間すべてが動画セグメント2
04の区間に含まれている。一方、音声セグメント20
6は、その先頭部分が動画セグメント204の区間外と
なる。同様に、音声セグメント208は、その終了部分
が動画セグメント204の区間外となる。したがって、
動画セグメント204と、音声セグメント206、20
7、208を同期をとって再生する場合、先頭部と終了
部に音声のみの区間が現れることとなる。音声セグメン
ト処理ステップ103では、このような音声のみの区間
を可能な限り少なくするための処理を行う。
【0024】以下、音声セグメント処理ステップ103
の処理について説明する。音声セグメント207に関し
ては、その区間すべてが動画セグメント204の区間内
にあるので、特に処理は行わないものとする。音声セグ
メント206の付加情報が移動不可の場合、音声セグメ
ント処理ステップ103では移動処理を行わない。この
場合、再生時、先頭に音声のみの区間が生じる。音声セ
グメント206の付加情報が移動可の場合、音声セグメ
ント処理ステップ103では、図5のように、音声セグ
メント206を、開始時刻が動画セグメント204の開
始時刻と一致するように移動させる。この場合、音声セ
グメント206と音声セグメント207が重なる部分が
生じる。この部分は、再生時に同時に再生することと
し、必要であれば再符号化などの処理を行うものとす
る。音声セグメント208に関しても、音声セグメント
206と同様の処理を行う。ただし、音声セグメント2
08を移動させる場合は、その終了時刻を動画セグメン
ト204の終了時刻と一致させるように移動を行う。
【0025】なお、図6のような場合には、音声セグメ
ント処理ステップ103では、特に処理は行わないこと
とする。図6において、601は動画選択ステップ10
1で選択された動画セグメントを表す。また、602
は、動画セグメント601と同じ再生時刻をもつ音声セ
グメントを表す。これは、選択された動画セグメント6
01の区間が、音声セグメント602の区間内の場合で
ある。
【0026】(実施の形態2)以下、請求項2記載の発
明における一実施の形態について述べる。図7は、本実
施の形態におけるメディア処理方法のブロック図であ
る。図7において、701は動画選択ステップを、70
2は音声選択ステップを、703はセグメント処理ステ
ップを表す。また、704は、動画選択ステップ701
の入力である動画内容記述データを、705は、音声選
択ステップ702の入力である音声内容記述データを、
706は、動画選択ステップ701と音声選択ステップ
702の入力であるメディアコンテンツを表す。メディ
アコンテンツ706は、第1の実施の形態と同様にMPEG
1システムストリームのようなビデオストリームとオー
ディオストリームを含むものである。また、ビデオスト
リームは、場面の切り替わりに相当する区分(以下動画
セグメントと呼ぶ)に分けられる。
【0027】同様に、オーディオストリームは、音声の
切り替わりに相当する区分(以下音声セグメントと呼
ぶ)に分けられる。メディアコンテンツ706におい
て、動画選択ステップ701にはビデオストリームだけ
が、音声選択ステップ702にはオーディオストリーム
だけが、それぞれ入力されるものとする。動画選択ステ
ップ701は、メディアコンテンツ706のビデオスト
リームと動画内容記述データ704を入力し、ビデオス
トリームから特定の動画セグメントを選択するものであ
る。ただし、選択される動画セグメントは複数あっても
構わない。選択された動画セグメントの開始時刻、終了
時刻は動画内容記述データ704から得られる。また、
動画セグメント選択の方法は任意とする。音声選択ステ
ップ702は、メディアコンテンツ706のオーディオ
ストリームと、音声内容記述データ705と、前記動画
選択ステップ701が選択した動画セグメントの時間情
報とを入力とし、オーディオストリームから前記動画選
択ステップ701が選択した動画セグメントと同じ再生
時刻をもつ音声セグメントを選択するものである。セグ
メント処理ステップ703は、メディアコンテンツ70
6と、前記動画選択ステップ701が選択した動画セグ
メントの時間情報と、前記音声選択ステップ702が選
択した音声セグメントの時間情報と、動画内容記述デー
タ704と、音声内容記述データ705とを入力とし、
前記選択された音声セグメントを時間的に前後させるこ
とにより、および/または、前記選択された動画セグメ
ントの前後の動画セグメントを選択して、選択した動画
セグメントと音声セグメントの同期をとるように処理す
るものである。
【0028】図8において、801はメディアコンテン
ツ706のビデオストリームを表す。802はメディア
コンテンツ706のオーディオストリームを表す。80
3、804、805は、それぞれ、ビデオストリーム8
01において、動画セグメントを表す。また、806、
807、808は、それぞれ、オーディオストリーム8
02において、音声セグメントを表す。
【0029】図9に動画内容記述データ704の一例を
示す。これは、第1の実施の形態における動画内容記述
データ104と同じ構成のものである。また、図10に
音声内容記述データ705の一例を示す。これは、第1
の実施の形態における音声内容記述データ105と同じ
構成のものである。
【0030】図8において、動画選択ステップ701が
動画セグメント804を選択した場合を例に、音声選択
ステップ702の処理について説明する。動画選択ステ
ップ701は、選択した動画セグメント804の時間情
報を、音声選択ステップ702、セグメント処理ステッ
プ703に出力する。この場合は、vst2,ved2を出力す
る。音声選択ステップ702では、動画選択ステップ7
01から受けとった選択動画セグメントの時間情報と、
各音声セグメントの時間情報との比較を行い、音声セグ
メントの選択を行う。すなわち、音声セグメントの開始
時刻をast、終了時刻をaetとすると、音声選択ステップ
702は、(数4)、(数5)、(数6)のいずれかの
条件を満たす音声セグメントを選択する。
【0031】
【数4】
【0032】
【数5】
【0033】
【数6】
【0034】この例の場合、(数4)の条件によって音
声セグメント806が、(数5)の条件によって音声セ
グメント807が、(数6)の条件によって音声セグメ
ント808が、それぞれ選択される。このうち、音声セ
グメント807は、その区間すべてが動画セグメント8
04の区間に含まれている。一方、音声セグメント80
6は、その先頭部分が動画セグメント804の区間外と
なる。同様に、音声セグメント808は、その終了部分
が動画セグメント804の区間外となる。したがって、
動画セグメント804と、音声セグメント806、80
7、808を同期をとって再生する場合、先頭部と終了
部に音声のみの区間が現れることとなる。セグメント処
理ステップ803では、このような音声のみの区間を可
能な限り少なくするための処理を行う。
【0035】以下、セグメント処理ステップ703の処
理について説明する。音声セグメント807に関して
は、その区間すべてが動画セグメント804の区間内に
あるので、特に処理は行わないものとする。音声セグメ
ント806の付加情報が移動不可の場合、セグメント処
理ステップ803では、ビデオストリーム801におい
て、動画セグメント804の前にある動画セグメントの
選択を行い、連続する選択された動画セグメントの区間
内に、音声セグメント806が収まるようにする。新た
に行う動画セグメントの選択は最小限とする。
【0036】この場合は、動画セグメント803だけが
新たに選択される。また、音声セグメント806の付加
情報が移動可の場合、セグメント処理ステップ703で
は、図11のように、音声セグメント806を、開始時
刻が動画セグメント804の開始時刻と一致するように
移動させる。この処理により、音声セグメント806と
音声セグメント807が重なる部分が生じる。この部分
は、再生時に同時に再生することとし、必要であれば再
符号化などの処理を行うものとする。音声セグメント8
08に関しても、音声セグメント806と同様の処理を
行う。すなわち、音声セグメント808の付加情報が移
動不可の場合、動画セグメント804の後ろにある動画
セグメントの最小限の選択を行い、連続する選択された
動画セグメントの区間内に音声セグメント808が収ま
るようにする。また、音声セグメント808の付加情報
が移動可の場合、音声セグメント808の終了時刻と動
画セグメント804の終了時刻が一致するように、音声
セグメント808を移動させる。
【0037】なお、セグメント処理ステップ703にお
いて、音声セグメントの付加情報が移動可の場合は音声
セグメントを移動させる処理を行うとしたが、音声セグ
メントの移動を行わず、前後の動画セグメントの選択を
行う、としてもよい。また、前後の動画セグメントの選
択を行った後、音声セグメントを動画セグメントの選択
を行った方向に移動させ、動画のみの部分を可能な限り
小さくする、としてもよい。また、選択された動画セグ
メントの前後の動画セグメントを新たに選択するとした
が、動画セグメントを、MPEG1におけるGOP(Group of Pi
ctures)のようなランダムアクセスの最小単位にさらに
分割し、それを新たに選択する、としてもよい。
【0038】(実施の形態3)以下、請求項3記載の発
明における一実施の形態について述べる。これは、第1
の実施の形態と比較し、音声内容記述データの付加情報
と、音声セグメント処理ステップでの処理のみが異なる
ものである。すなわち、本実施の形態におけるメディア
処理方法のブロック図は図1となる。また、動画選択ス
テップ101、音声選択ステップ102での処理、およ
び、動画内容記述データ103、メディアコンテンツ1
06は、第1の実施の形態と同じものとする。
【0039】図12に、本実施の形態における音声内容
記述データ105の一例を示す。これは、第1の実施の
形態における音声内容記述データと比較して、付加情報
のみが異なる。本実施の形態においては、付加情報とし
て、移動可、移動不可、削除可の三種類がある。
【0040】以下、本実施の形態における音声セグメン
ト処理ステップ103の処理について、第1の実施の形
態と同様の例によって説明する。音声セグメント206
の付加情報が削除可の場合、音声セグメント処理ステッ
プ103では、音声セグメント206の選択を解除す
る。また、音声セグメント206の付加情報が移動可の
場合、音声セグメント処理ステップ103では、図5の
ように、音声セグメント206を、開始時刻が動画セグ
メント204の開始時刻と一致するように移動させる。
この処理により、音声セグメント206と音声セグメン
ト207が重なる部分が生じる。この場合、音声セグメ
ント207の付加情報が削除可の場合、音声セグメント
処理ステップ103では、音声セグメント207の選択
を解除する。音声セグメント207の付加情報が移動可
で、かつ後続の音声セグメント208が選択されていな
いか、あるいは音声セグメント208が選択されていて
かつ削除可の場合は、音声セグメント処理ステップ10
3では、音声セグメント208の選択を必要であれば解
除し、かつ、移動後の音声セグメント206と音声セグ
メント207の重なり部分がなくなるか、あるいは音声
セグメント207の終了時刻が、音声セグメント207
の直後の選択された音声セグメントの開始時刻あるいは
同期させる動画セグメントの終了時刻のいずれか近い方
と一致するか、のいずれかまで音声セグメント207の
移動を行う。本例の場合は、音声セグメント208の後
ろの音声セグメントは選択されていないが、さらに連続
して選択された音声セグメントがあり、音声セグメント
に重なり部分が生じる場合は、以上の処理を連続する選
択された音声セグメントの最終まで繰り返し、音声セグ
メントの重なり部分が可能な限り小さくなるようにす
る。音声セグメントの重なり部分が残った場合は、この
部分は再生時に同時に再生することとし、必要であれば
再符号化などの処理を行うものとする。音声セグメント
208に関しても、音声セグメント206と同様の処理
を行う。すなわち、音声セグメント208の付加情報が
削除可である場合、音声セグメント処理ステップ103
では、音声セグメント208の選択を解除する。また、
音声セグメント208の付加情報が移動可の場合、音声
セグメント208の終了時刻と動画セグメント204の
終了時刻が一致するように、音声セグメント208を移
動させる。移動後の音声セグメント208とその前の音
声セグメントとに重なり部分が生じた場合は、音声セグ
メント206を移動させた時の処理と同様の処理を、前
向きの方向に、すなわち音声セグメントの重なりがなく
なるか、あるいは、音声セグメントの開始時刻が、該音
声セグメントの直前の選択された音声セグメントの終了
時刻あるいは同期させる動画セグメントの開始時刻のい
ずれか近い方と一致するか、のいずれかまで移動させる
ことを繰り返すことにより、音声セグメントの重なり部
分を可能な限り小さくする。
【0041】(実施の形態4)以下、請求項4記載の発
明における一実施の形態について述べる。これは、第2
の実施の形態と比較し、音声内容記述データの付加情報
と、セグメント処理ステップでの処理が異なるものであ
る。すなわち、本実施の形態におけるメディア処理方法
のブロック図は図7となる。また、動画選択ステップ7
01、音声選択ステップ702での処理、および、動画
内容記述データ703、メディアコンテンツ706は、
第2の実施の形態と同じものとする。
【0042】本実施の形態における、音声内容記述デー
タ706は、図12に示す、第3の実施の形態での音声
内容記述データと同様の構成のものである。すなわち、
付加情報として、移動可、移動不可、削除可の三種類が
ある。
【0043】以下、本実施の形態におけるセグメント処
理ステップ703の処理について、第2の実施の形態と
同様の例によって説明する。音声セグメント806の付
加情報が削除可の場合、セグメント処理ステップ703
では、音声セグメント806の選択を解除する。音声セ
グメント806の付加情報が移動不可の場合、セグメン
ト処理ステップ703では、ビデオストリーム801に
おいて、動画セグメント804の前にある動画セグメン
トの選択を行い、連続する選択された動画セグメントの
区間内に、音声セグメント806が収まるようにする。
新たに行う動画セグメントの選択は最小限とする。この
場合は、動画セグメント803だけが新たに選択され
る。また、音声セグメント806の付加情報が移動可の
場合、セグメント処理ステップ803では、図11のよ
うに、音声セグメント806を、開始時刻が動画セグメ
ント804の開始時刻と一致するように移動させる。こ
の処理により、音声セグメント806と音声セグメント
807が重なる部分が生じる。この場合、音声セグメン
ト807の付加情報が削除可の場合、セグメント処理ス
テップ703では、音声セグメント807の選択を解除
する。音声セグメント807の付加情報が移動可で、か
つ後続の音声セグメント808が選択されていないか、
あるいは音声セグメント808が選択されておりかつ削
除可の場合は、セグメント処理ステップ703では、音
声セグメント808の選択を必要であれば解除し、か
つ、移動後の音声セグメント806と音声セグメント8
07の重なり部分がなくなるか、あるいは音声セグメン
ト807の終了時刻が、音声セグメント807の直後の
選択された音声セグメントの開始時刻あるいは同期させ
る動画セグメントの終了時刻のいずれか近い方とと一致
するか、のいずれかまで音声セグメント807の移動を
行う。本例の場合は、音声セグメント808の後ろの音
声セグメントは選択されていないが、さらに連続して選
択された音声セグメントがあり、それら音声セグメント
に重なり部分が生じる場合は、以上の処理を連続する選
択された音声セグメントの最終まで繰り返し、音声セグ
メントの重なり部分が可能な限り小さくなるようにす
る。音声セグメントの重なり部分が残った場合は、この
部分は再生時に同時に再生することとし、必要であれば
再符号化などの処理を行うものとする。音声セグメント
808に関しても、音声セグメント806と同様の処理
を行う。すなわち、音声セグメント808の付加情報が
削除可である場合、セグメント処理ステップ703で
は、音声セグメント808の選択を解除する。音声セグ
メント808の付加情報が移動不可の場合、動画セグメ
ント804の後ろにある動画セグメントの最小限の選択
を行い、連続する選択された動画セグメントの区間内に
音声セグメント808が収まるようにする。また、音声
セグメント808の付加情報が移動可の場合、音声セグ
メント808の終了時刻と動画セグメント804の終了
時刻が一致するように、音声セグメント808を移動さ
せる。移動後の音声セグメント808とその前の音声セ
グメントとに重なり部分が生じた場合は、音声セグメン
ト806を移動させた時の処理と同様の処理を、前向き
の方向に、すなわち音声セグメントの重なりがなくなる
か、あるいは、音声セグメントの開始時刻が、該音声セ
グメントの直前の選択された音声セグメントの終了時刻
あるいは同期させる動画セグメントの開始時刻とのいず
れか近い方と一致するか、のいずれかまで移動させるこ
とを繰り返すことにより、音声セグメントの重なり部分
を可能な限り小さくする。
【0044】なお、セグメント処理ステップ703にお
いて、音声セグメントの付加情報が移動可の場合は音声
セグメントを移動させる処理を行うとしたが、音声セグ
メントの移動を行わず、前後の動画セグメントの選択を
行う、としてもよい。また、前後の動画セグメントの選
択を行った後、音声セグメントを動画セグメントの選択
を行った方向に移動させ、動画のみの部分を可能な限り
小さくする、としてもよい。また、選択された動画セグ
メントの前後の動画セグメントを新たに選択するとした
が、動画セグメントを、MPEG1におけるGOP(Group of Pi
ctures)のようなランダムアクセスの最小単位にさらに
分割し、それを新たに選択する、としてもよい。
【0045】
【発明の効果】以上のように、請求項1記載の本発明に
よれば、移動可能な音声セグメントを時間的に前後させ
ることにより、メディアコンテンツの特定シーンの抽出
において、動画と音声を同期させることができる。
【0046】また、請求項2記載の本発明によれば、移
動可能な音声セグメントを時間的に前後させること、お
よび/または、選択された動画セグメントの前後の動画
セグメントを新たに選択することにより、メディアコン
テンツの特定シーンの抽出において、動画と音声を同期
させることができる。
【0047】また、請求項3記載の本発明によれば、削
除可能な音声セグメントを削除すること、および/また
は、移動可能な音声セグメントを時間的に前後させるこ
とにより、メディアコンテンツの特定シーンの抽出にお
いて、動画と音声を同期させることができる。
【0048】また、請求項4記載の本発明によれば、削
除可能な音声セグメントを削除すること、および/また
は、移動可能な音声セグメントを時間的に前後させるこ
と、および/または、選択された動画セグメントの前後
の動画セグメントを新たに選択することにより、メディ
アコンテンツの特定シーンの抽出において、動画と音声
を同期させることができる。
【0049】また、請求項5記載のデータ記憶媒体によ
れば、移動可能な音声セグメントを時間的に前後させる
処理をコンピュータに行わせるプログラムを格納したも
ので、該プログラムをコンピュータにロードすることに
より、メディアコンテンツの特定シーンの抽出におい
て、動画と音声を同期させることが実現できる。
【0050】また、請求項6記載のデータ記憶媒体によ
れば、移動可能な音声セグメントを時間的に前後させ
る、および/または、選択された動画セグメントの前後
の動画セグメントを新たに選択する処理をコンピュータ
に行わせるプログラムを格納したもので、該プログラム
をコンピュータにロードすることにより、メディアコン
テンツの特定シーンの抽出において、動画と音声を同期
させることが実現できる。
【0051】また、請求項7記載のデータ記憶媒体によ
れば、削除可能な音声セグメントを削除する、および/
または、移動可能な音声セグメントを時間的に前後させ
る処理をコンピュータに行わせるプログラムを格納した
もので、該プログラムをコンピュータにロードすること
により、メディアコンテンツの特定シーンの抽出におい
て、動画と音声を同期させることが実現できる。
【0052】また、請求項8記載のデータ記憶媒体によ
れば、削除可能な音声セグメントを削除する、および/
または、移動可能な音声セグメントを時間的に前後させ
る、および/または、選択された動画セグメントの前後
の動画セグメントを新たに選択する処理をコンピュータ
に行わせるプログラムを格納したもので、該プログラム
をコンピュータにロードすることにより、メディアコン
テンツの特定シーンの抽出において、動画と音声を同期
させることが実現できる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態におけるメディア処
理方法のブロック図
【図2】本発明の第1の実施の形態におけるメディアコ
ンテンツ、動画セグメント、音声セグメントの説明図
【図3】本発明の第1の実施の形態における動画内容記
述データの一例を示す図
【図4】本発明の第1の実施の形態における音声内容記
述データの一例を示す図
【図5】本発明の第1の実施の形態における音声セグメ
ント処理ステップにおける処理の説明図
【図6】本発明の第1の実施の形態における処理の説明
【図7】本発明の第2の実施の形態におけるメディア処
理方法のブロック図
【図8】本発明の第2の実施の形態におけるメディアコ
ンテンツ、動画セグメント、音声セグメントの説明図
【図9】本発明の第2の実施の形態における動画内容記
述データの一例を示す図
【図10】本発明の第2の実施の形態における音声内容
記述データの一例を示す図
【図11】本発明の第2の実施の形態における音声セグ
メント処理ステップにおける処理の説明図
【図12】本発明の第3の実施の形態におけるの音声内
容記述データの一例を示す図
【符号の説明】 101 動画選択ステップ 102 音声選択ステップ 103 音声セグメント処理ステップ 104 動画内容記述データ 105 音声内容記述データ 106 メディアコンテンツ 201 ビデオストリーム 202 オーディオストリーム 203 動画セグメント 204 動画セグメント 205 動画セグメント 206 音声セグメント 207 音声セグメント 208 音声セグメント 601 動画セグメント 602 音声セグメント 701 動画選択ステップ 702 音声選択ステップ 703 セグメント処理ステップ 704 動画内容記述データ 705 音声内容記述データ 706 メディアコンテンツ 801 ビデオストリーム 802 オーディオストリーム 803 動画セグメント 804 動画セグメント 805 動画セグメント 806 音声セグメント 807 音声セグメント 808 音声セグメント

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 動画と音声とが同期した連続視聴覚情報
    (メディアコンテンツ)と、前記メディアコンテンツの
    動画における、場面の切り替わりに相当する区分(動画
    セグメント)の時間情報を記述する動画内容記述データ
    と、前記メディアコンテンツの音声における、音声の切
    り替わりに相当する区分(音声セグメント)の時間情報
    と、移動可、移動不可の付加情報を記述する音声内容記
    述データとを入力とし、前記動画セグメントのひとつま
    たは複数を選択する動画選択ステップと、前記動画選択
    ステップが選択した動画セグメントと同じ再生時刻をも
    つ音声セグメントを選択する音声選択ステップと、前記
    選択された音声セグメントの付加情報により、移動可と
    された音声セグメントを時間的に前後させることによっ
    て、前記動画セグメントと音声セグメントの同期を行う
    音声セグメント処理ステップとを備えたことを特徴とす
    るメディア処理方法。
  2. 【請求項2】 動画と音声とが同期した連続視聴覚情報
    (メディアコンテンツ)と、前記メディアコンテンツの
    動画における、場面の切り替わりに相当する区分(動画
    セグメント)の時間情報を記述する動画内容記述データ
    と、前記メディアコンテンツの音声における、音声の切
    り替わりに相当する区分(音声セグメント)の時間情報
    と、移動可、移動不可の付加情報を記述する音声内容記
    述データとを入力とし、前記動画セグメントのひとつま
    たは複数を選択する動画選択ステップと、前記動画選択
    ステップが選択した動画セグメントと同じ再生時刻をも
    つ音声セグメントを選択する音声選択ステップと、前記
    選択された音声セグメントの付加情報により、移動可と
    された音声セグメントを時間的に前後させることによっ
    て、および/または、前記選択された動画セグメントの
    前後の動画セグメントを選択して、前記選択した動画セ
    グメントと、選択した連続する音声セグメントを同期さ
    せるセグメント処理ステップとを備えたことを特徴とす
    るメディア処理方法。
  3. 【請求項3】 動画と音声とが同期した連続視聴覚情報
    (メディアコンテンツ)と、前記メディアコンテンツの
    動画における、場面の切り替わりに相当する区分(動画
    セグメント)の時間情報を記述する動画内容記述データ
    と、前記メディアコンテンツの音声における、音声の切
    り替わりに相当する区分(音声セグメント)の時間情報
    と、移動可、移動不可、削除可の付加情報を記述する音
    声内容記述データとを入力とし、前記動画セグメントの
    ひとつまたは複数を選択する動画選択ステップと、前記
    動画選択ステップが選択した動画セグメントと同じ再生
    時刻をもつ音声セグメントを選択する音声選択ステップ
    と、前記選択された音声セグメントの付加情報により、
    移動可とされた音声セグメントを時間的に前後させるこ
    と、および/または、削除可とされた音声セグメントを
    削除すること、によって、前記動画セグメントと音声セ
    グメントの同期を行う音声セグメント処理ステップとを
    備えたことを特徴とするメディア処理方法。
  4. 【請求項4】 動画と音声とが同期した連続視聴覚情報
    (メディアコンテンツ)と、前記メディアコンテンツの
    動画における、場面の切り替わりに相当する区分(動画
    セグメント)の時間情報を記述する動画内容記述データ
    と、前記メディアコンテンツの音声における、音声の切
    り替わりに相当する区分(音声セグメント)の時間情報
    と、移動可、移動不可、削除可の付加情報を記述する音
    声内容記述データとを入力とし、前記動画セグメントの
    ひとつまたは複数を選択する動画選択ステップと、前記
    動画選択ステップが選択した動画セグメントと同じ再生
    時刻をもつ音声セグメントを選択する音声選択ステップ
    と、前記選択された音声セグメントの付加情報により、
    移動可とされた音声セグメントを時間的に前後させるこ
    と、および/または、削除可とされた音声セグメントを
    削除すること、および/または、前記選択された動画セ
    グメントの前後の動画セグメントを選択して、によっ
    て、前記動画セグメントと音声セグメントの同期を行う
    セグメント処理ステップとを備えたことを特徴とするメ
    ディア処理方法。
  5. 【請求項5】 コンピュータにより、請求項1記載のメ
    ディア処理を行うためのプログラムを格納したデータ記
    憶媒体であって、上記プログラムはコンピュータに、メ
    ディアコンテンツのシーン抽出において、動画と音声の
    同期を行わせるものであることを特徴とするデータ記録
    媒体。
  6. 【請求項6】 コンピュータにより、請求項2記載のメ
    ディア処理を行うためのプログラムを格納したデータ記
    憶媒体であって、上記プログラムはコンピュータに、メ
    ディアコンテンツのシーン抽出において、動画と音声の
    同期を行わせるものであることを特徴とするデータ記録
    媒体。
  7. 【請求項7】 コンピュータにより、請求項3記載のメ
    ディア処理を行うためのプログラムを格納したデータ記
    憶媒体であって、上記プログラムはコンピュータに、メ
    ディアコンテンツのシーン抽出において、動画と音声の
    同期を行わせるものであることを特徴とするデータ記録
    媒体。
  8. 【請求項8】 コンピュータにより、請求項4記載のメ
    ディア処理を行うためのプログラムを格納したデータ記
    憶媒体であって、上記プログラムはコンピュータに、メ
    ディアコンテンツのシーン抽出において、動画と音声の
    同期を行わせるものであることを特徴とするデータ記録
    媒体。
JP08112399A 1999-03-25 1999-03-25 メディア処理方法 Expired - Fee Related JP4161459B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08112399A JP4161459B2 (ja) 1999-03-25 1999-03-25 メディア処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08112399A JP4161459B2 (ja) 1999-03-25 1999-03-25 メディア処理方法

Publications (2)

Publication Number Publication Date
JP2000278653A true JP2000278653A (ja) 2000-10-06
JP4161459B2 JP4161459B2 (ja) 2008-10-08

Family

ID=13737624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08112399A Expired - Fee Related JP4161459B2 (ja) 1999-03-25 1999-03-25 メディア処理方法

Country Status (1)

Country Link
JP (1) JP4161459B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7692724B2 (en) 2004-10-12 2010-04-06 Samsung Electronics Co., Ltd. Method and apparatus to synchronize audio and video

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7692724B2 (en) 2004-10-12 2010-04-06 Samsung Electronics Co., Ltd. Method and apparatus to synchronize audio and video

Also Published As

Publication number Publication date
JP4161459B2 (ja) 2008-10-08

Similar Documents

Publication Publication Date Title
EP1111612B1 (en) Method and device for managing multimedia file
JP3491365B2 (ja) 符号化データ復号方法および復号装置
US7228055B2 (en) Recording apparatus, video camera and computer program
JP2010022003A (ja) 動画ファイル再生装置、動画ファイル再生方法、プログラム
US5790236A (en) Movie processing system
JP4735388B2 (ja) 再生装置および方法、並びにプログラム
JP3781715B2 (ja) メタデータ制作装置及び検索装置
JPH10243351A (ja) 映像再生装置
US5945931A (en) Method and apparatus for decoding digital signal and apparatus for reproducing digital signal
US20060056740A1 (en) Apparatus and method for editing moving image data
JP2000278653A (ja) メディア処理方法
JP3688214B2 (ja) 視聴者映像記録再生装置
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法
JP3780910B2 (ja) 光ディスク録画装置
JP2005167822A (ja) 情報再生装置及び情報再生方法
JP2000278643A (ja) データ変換装置
JP3794146B2 (ja) 情報再生装置および方法、並びに提供媒体
JPH08181947A (ja) 画像圧縮記録媒体及び画像圧縮記録媒体再生装置
JP2017069596A (ja) 画像処理装置及び方法
JP2007228502A (ja) 動画データの同期再生装置
JP2003274353A (ja) 映像情報とイベント情報の同期装置
JP3128107B2 (ja) 映像圧縮方法および装置
JP2002247506A (ja) デジタル音声映像情報の記録装置
JP2000010984A (ja) データ検索装置
JP3704968B2 (ja) マルチメディア編集装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060130

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080701

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080714

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120801

Year of fee payment: 4

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130801

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees