JP4161459B2 - メディア処理方法 - Google Patents

メディア処理方法 Download PDF

Info

Publication number
JP4161459B2
JP4161459B2 JP08112399A JP8112399A JP4161459B2 JP 4161459 B2 JP4161459 B2 JP 4161459B2 JP 08112399 A JP08112399 A JP 08112399A JP 8112399 A JP8112399 A JP 8112399A JP 4161459 B2 JP4161459 B2 JP 4161459B2
Authority
JP
Japan
Prior art keywords
segment
audio
video
selection step
audio segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP08112399A
Other languages
English (en)
Other versions
JP2000278653A (ja
Inventor
敏彦 宗續
稔 栄藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP08112399A priority Critical patent/JP4161459B2/ja
Publication of JP2000278653A publication Critical patent/JP2000278653A/ja
Application granted granted Critical
Publication of JP4161459B2 publication Critical patent/JP4161459B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、動画、音声などの連続視聴覚情報(メディアコンテンツ)の視聴、再生において、該当メディアコンテンツのあらすじやハイライトシーン、あるいは視聴者が見たいと希望するシーンのみを抽出する場合における、動画と音声の同期処理方法を提供するものである。
【0002】
【従来の技術】
従来、動画の特定シーンの検索を行う方法として、特開平10-111872号公報のように、動画の場面の切り替わり(シーンカット)を検出し、シーンカットごとに、開始フレームのタイムコード、終了フレームのタイムコード、該当シーンのキーワードの付加情報をつけて行っていた。
【0003】
あるいは、カーネギーメロン大学(CMU)では、動画のシーンカットの検出、人間の顔やキャプションの検出、音声認識によるキーフレーズの検出などにより、動画の要約を行っていた(Michael A. Smith, Takeo Kanade, 「Video Skimming and Characterization through the Combination of Image and Language Understanding Techniques」、CMU-CS-97-111, 1997年2月3日)。
【0004】
【発明が解決しようとする課題】
しかしながら従来の方法では、動画と音声の同期といった問題は扱われていない。メディアコンテンツでは、場面の切り替わりと音声の切り替わりは、必ずしも同期しているとは限らない。したがって、ある特定の場面を再生する場合、動画の区切りのみで処理を行うと、音声の途切れや無音区間が発生する。
【0005】
本発明は、メディアコンテンツの一部のみを抽出する場合において、場面の切り替わりと音声の切り替わりを考慮し、音声の途切れをなくし、かつ音声のみの区間や画像のみの区間を可能な限り小さくする方法を提供するものである。
【0006】
【課題を解決するための手段】
この課題を解決するために本発明は、メディアコンテンツと、前記メディアコンテンツの動画における、場面の切り替わりに相当する区分(動画セグメント)の時間情報を記述する動画内容記述データと、前記メディアコンテンツの音声における、音声の切り替わりに相当する区分(音声セグメント)の時間情報と、該音声セグメントが移動可か移動不可かの付加情報を記述する音声内容記述データとを入力とし、特定の動画セグメントを選択する動画選択ステップと、前記選択された動画セグメントと同期再生させる音声セグメントを選択する音声選択ステップと、前記選択された音声セグメントのうち移動可とされたものを、時間的に前後させることにより、前記選択された動画セグメントと前記選択された音声セグメントの同期をとる音声セグメント処理ステップとを備えたことを特徴とするメディア処理方法である。
【0007】
また、本発明は、メディアコンテンツと、前記メディアコンテンツの動画における、場面の切り替わりに相当する区分(動画セグメント)の時間情報を記述する動画内容記述データと、前記メディアコンテンツの音声における、音声の切り替わりに相当する区分(音声セグメント)の時間情報と、該音声セグメントが移動可か移動不可かの付加情報を記述する音声内容記述データとを入力とし、特定の動画セグメントを選択する動画選択ステップと、前記選択された動画セグメントと同期再生させる音声セグメントを選択する音声選択ステップと、前記選択された音声セグメントのうち移動可とされたものを時間的に前後させること、および/または、前記選択された動画セグメントの前後の動画セグメントを選択することによって、前記選択された動画セグメントと前記選択された音声セグメントの同期をとるセグメント処理ステップとを備えたことを特徴とするメディア処理方法である。
【0008】
また、本発明は、メディアコンテンツと、前記メディアコンテンツの動画における、場面の切り替わりに相当する区分(動画セグメント)の時間情報を記述する動画内容記述データと、前記メディアコンテンツの音声における、音声の切り替わりに相当する区分(音声セグメント)の時間情報と、該音声セグメントが移動可、移動不可、あるいは削除可の付加情報を記述する音声内容記述データとを入力とし、特定の動画セグメントを選択する動画選択ステップと、前記選択された動画セグメントと同期再生させる音声セグメントを選択する音声選択ステップと、前記選択された音声セグメントのうち、削除可とされたものを削除すること、および/または、前記選択された音声セグメントのうち移動可とされたものを時間的に前後させることにより、前記選択された動画セグメントと前記選択された音声セグメントの同期をとる音声セグメント処理ステップとを備えたことを特徴とするメディア処理方法である。
【0009】
また、本発明は、メディアコンテンツと、前記メディアコンテンツの動画における、場面の切り替わりに相当する区分(動画セグメント)の時間情報を記述する動画内容記述データと、前記メディアコンテンツの音声における、音声の切り替わりに相当する区分(音声セグメント)の時間情報と、該音声セグメントが移動可、移動不可、あるいは削除可の付加情報を記述する音声内容記述データとを入力とし、特定の動画セグメントを選択する動画選択ステップと、前記選択された動画セグメントと同期再生させる音声セグメントを選択する音声選択ステップと、前記選択された音声セグメントのうち、削除可とされたものを削除すること、および/または、前記選択された音声セグメントのうち移動可とされたものを時間的に前後させること、および/または、前記選択された動画セグメントの前後の動画セグメントを選択することによって、前記選択された動画セグメントと前記選択された音声セグメントの同期をとる音声セグメント処理ステップとを備えたことを特徴とするメディア処理方法である。
【0014】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態について説明する。
【0015】
(実施の形態1)
以下、請求項1記載の発明における一実施の形態について述べる。図1は、本実施の形態におけるメディア処理方法のブロック図である。図1において、101は動画選択ステップを、102は音声選択ステップを、103は音声セグメント処理ステップを表す。また、104は、動画選択ステップ101の入力である動画内容記述データを、105は、音声選択ステップ102の入力である音声内容記述データを、106は、動画選択ステップ101と音声選択ステップ102の入力であるメディアコンテンツを表す。メディアコンテンツ106は、MPEG1システムストリームのようなビデオストリームとオーディオストリームを含むものである。また、ビデオストリームは、場面の切り替わりに相当する区分(以下動画セグメントと呼ぶ)に分けられる。同様に、オーディオストリームは、音声の切り替わりに相当する区分(以下音声セグメントと呼ぶ)に分けられる。メディアコンテンツ106において、動画選択ステップ101にはビデオストリームだけが、音声選択ステップ102にはオーディオストリームだけが、それぞれ入力されるものとする。動画選択ステップ101は、メディアコンテンツ106のビデオストリームと動画内容記述データ104を入力し、前記ビデオストリームから特定の動画セグメントを選択するものである。ただし、選択される動画セグメントは複数あっても構わない。選択された動画セグメントの開始時刻、終了時刻は動画内容記述データ104から得られる。また、動画セグメント選択の方法は任意とする。音声選択ステップ102は、メディアコンテンツ106のオーディオストリームと、音声内容記述データ105と、前記動画選択ステップ101が選択した動画セグメントの時間情報とを入力とし、前記オーディオストリームから、前記動画選択ステップ101が選択した動画セグメントと同じ再生時刻をもつ音声セグメントを選択するものである。音声セグメント処理ステップ103は、前記音声選択ステップ102が選択した音声セグメントと、音声内容記述データ105と、前記動画選択ステップ101が選択した動画セグメントの時間情報とを入力とし、前記選択した音声セグメントを時間的に前後させることにより、前記動画セグメントと同期をとるように処理するものである。
【0016】
図2において、201はメディアコンテンツ106のビデオストリームを表す。202はメディアコンテンツ106のオーディオストリームを表す。203、204、205は、それぞれ、ビデオストリーム201において、動画セグメントを表す。また、206、207、208は、それぞれ、オーディオストリーム202において、音声セグメントを表す。
【0017】
図3に、動画内容記述データ104の一例を示す。動画内容記述データ104は、動画セグメント毎の開始時刻と終了時刻を記述しているものとする。なお、動画内容記述データ104は、各動画セグメントの開始時刻と終了時刻を得られるものであれば、その形式は問わないものである。したがって、開始時刻と該当動画セグメントの継続時間の組合せであっても良い。
【0018】
図4に、音声内容記述データ105の一例を示す。音声内容記述データ105は、音声セグメント毎の開始時刻と終了時刻と、移動可、移動不可の付加情報を記述しているものとする。なお、音声内容記述データ105の時間情報は、各音声セグメントの開始時刻と終了時刻を得られるものであれば、その形式は問わないものである。したがって、開始時刻と該当音声セグメントの継続時間の組合せであっても良い。音声セグメントにおける移動可、移動不可といった付加情報は以下のようになる。ドラマ内のセリフのように人間の口の動きに合わせた音声など、その音声が動画内の映像と同時に再生しなければならないものは移動不可となる。また、無音区間やナレーションなど、動画内の映像と必ずしも同時に再生させなくても良いものは移動可となる。
【0019】
図2において、動画選択ステップ101が動画セグメント204を選択した場合を例に、音声選択ステップ102の処理について説明する。動画選択ステップ101は、選択した動画セグメント204の時間情報を、音声選択ステップ102、音声セグメント処理ステップ103に出力する。この場合は、vst2,ved2を出力する。音声選択ステップ102では、動画選択ステップ101から受けとった選択動画セグメントの時間情報と、各音声セグメントの時間情報との比較を行い、音声セグメントの選択を行う。すなわち、音声セグメントの開始時刻をast、終了時刻をaetとすると、音声選択ステップ102は、(数1)、(数2)、(数3)のいずれかの条件を満たす音声セグメントを選択する。
【0020】
【数1】
Figure 0004161459
【0021】
【数2】
Figure 0004161459
【0022】
【数3】
Figure 0004161459
【0023】
この例の場合、(数1)の条件によって音声セグメント206が、(数2)の条件によって音声セグメント207が、(数3)の条件によって音声セグメント208が、それぞれ選択される。このうち、音声セグメント207は、その区間すべてが動画セグメント204の区間に含まれている。一方、音声セグメント206は、その先頭部分が動画セグメント204の区間外となる。同様に、音声セグメント208は、その終了部分が動画セグメント204の区間外となる。したがって、動画セグメント204と、音声セグメント206、207、208を同期をとって再生する場合、先頭部と終了部に音声のみの区間が現れることとなる。音声セグメント処理ステップ103では、このような音声のみの区間を可能な限り少なくするための処理を行う。
【0024】
以下、音声セグメント処理ステップ103の処理について説明する。音声セグメント207に関しては、その区間すべてが動画セグメント204の区間内にあるので、特に処理は行わないものとする。音声セグメント206の付加情報が移動不可の場合、音声セグメント処理ステップ103では移動処理を行わない。この場合、再生時、先頭に音声のみの区間が生じる。音声セグメント206の付加情報が移動可の場合、音声セグメント処理ステップ103では、図5のように、音声セグメント206を、開始時刻が動画セグメント204の開始時刻と一致するように移動させる。この場合、音声セグメント206と音声セグメント207が重なる部分が生じる。この部分は、再生時に同時に再生することとし、必要であれば再符号化などの処理を行うものとする。音声セグメント208に関しても、音声セグメント206と同様の処理を行う。ただし、音声セグメント208を移動させる場合は、その終了時刻を動画セグメント204の終了時刻と一致させるように移動を行う。
【0025】
なお、図6のような場合には、音声セグメント処理ステップ103では、特に処理は行わないこととする。図6において、601は動画選択ステップ101で選択された動画セグメントを表す。また、602は、動画セグメント601と同じ再生時刻をもつ音声セグメントを表す。これは、選択された動画セグメント601の区間が、音声セグメント602の区間内の場合である。
【0026】
(実施の形態2)
以下、請求項2記載の発明における一実施の形態について述べる。図7は、本実施の形態におけるメディア処理方法のブロック図である。図7において、701は動画選択ステップを、702は音声選択ステップを、703はセグメント処理ステップを表す。また、704は、動画選択ステップ701の入力である動画内容記述データを、705は、音声選択ステップ702の入力である音声内容記述データを、706は、動画選択ステップ701と音声選択ステップ702の入力であるメディアコンテンツを表す。メディアコンテンツ706は、第1の実施の形態と同様にMPEG1システムストリームのようなビデオストリームとオーディオストリームを含むものである。また、ビデオストリームは、場面の切り替わりに相当する区分(以下動画セグメントと呼ぶ)に分けられる。
【0027】
同様に、オーディオストリームは、音声の切り替わりに相当する区分(以下音声セグメントと呼ぶ)に分けられる。メディアコンテンツ706において、動画選択ステップ701にはビデオストリームだけが、音声選択ステップ702にはオーディオストリームだけが、それぞれ入力されるものとする。動画選択ステップ701は、メディアコンテンツ706のビデオストリームと動画内容記述データ704を入力し、ビデオストリームから特定の動画セグメントを選択するものである。ただし、選択される動画セグメントは複数あっても構わない。選択された動画セグメントの開始時刻、終了時刻は動画内容記述データ704から得られる。また、動画セグメント選択の方法は任意とする。音声選択ステップ702は、メディアコンテンツ706のオーディオストリームと、音声内容記述データ705と、前記動画選択ステップ701が選択した動画セグメントの時間情報とを入力とし、オーディオストリームから前記動画選択ステップ701が選択した動画セグメントと同じ再生時刻をもつ音声セグメントを選択するものである。セグメント処理ステップ703は、メディアコンテンツ706と、前記動画選択ステップ701が選択した動画セグメントの時間情報と、前記音声選択ステップ702が選択した音声セグメントの時間情報と、動画内容記述データ704と、音声内容記述データ705とを入力とし、前記選択された音声セグメントを時間的に前後させることにより、および/または、前記選択された動画セグメントの前後の動画セグメントを選択して、選択した動画セグメントと音声セグメントの同期をとるように処理するものである。
【0028】
図8において、801はメディアコンテンツ706のビデオストリームを表す。802はメディアコンテンツ706のオーディオストリームを表す。803、804、805は、それぞれ、ビデオストリーム801において、動画セグメントを表す。また、806、807、808は、それぞれ、オーディオストリーム802において、音声セグメントを表す。
【0029】
図9に動画内容記述データ704の一例を示す。これは、第1の実施の形態における動画内容記述データ104と同じ構成のものである。また、図10に音声内容記述データ705の一例を示す。これは、第1の実施の形態における音声内容記述データ105と同じ構成のものである。
【0030】
図8において、動画選択ステップ701が動画セグメント804を選択した場合を例に、音声選択ステップ702の処理について説明する。動画選択ステップ701は、選択した動画セグメント804の時間情報を、音声選択ステップ702、セグメント処理ステップ703に出力する。この場合は、vst2,ved2を出力する。音声選択ステップ702では、動画選択ステップ701から受けとった選択動画セグメントの時間情報と、各音声セグメントの時間情報との比較を行い、音声セグメントの選択を行う。すなわち、音声セグメントの開始時刻をast、終了時刻をaetとすると、音声選択ステップ702は、(数4)、(数5)、(数6)のいずれかの条件を満たす音声セグメントを選択する。
【0031】
【数4】
Figure 0004161459
【0032】
【数5】
Figure 0004161459
【0033】
【数6】
Figure 0004161459
【0034】
この例の場合、(数4)の条件によって音声セグメント806が、(数5)の条件によって音声セグメント807が、(数6)の条件によって音声セグメント808が、それぞれ選択される。このうち、音声セグメント807は、その区間すべてが動画セグメント804の区間に含まれている。一方、音声セグメント806は、その先頭部分が動画セグメント804の区間外となる。同様に、音声セグメント808は、その終了部分が動画セグメント804の区間外となる。したがって、動画セグメント804と、音声セグメント806、807、808を同期をとって再生する場合、先頭部と終了部に音声のみの区間が現れることとなる。セグメント処理ステップ803では、このような音声のみの区間を可能な限り少なくするための処理を行う。
【0035】
以下、セグメント処理ステップ703の処理について説明する。音声セグメント807に関しては、その区間すべてが動画セグメント804の区間内にあるので、特に処理は行わないものとする。音声セグメント806の付加情報が移動不可の場合、セグメント処理ステップ803では、ビデオストリーム801において、動画セグメント804の前にある動画セグメントの選択を行い、連続する選択された動画セグメントの区間内に、音声セグメント806が収まるようにする。新たに行う動画セグメントの選択は最小限とする。
【0036】
この場合は、動画セグメント803だけが新たに選択される。また、音声セグメント806の付加情報が移動可の場合、セグメント処理ステップ703では、図11のように、音声セグメント806を、開始時刻が動画セグメント804の開始時刻と一致するように移動させる。この処理により、音声セグメント806と音声セグメント807が重なる部分が生じる。この部分は、再生時に同時に再生することとし、必要であれば再符号化などの処理を行うものとする。音声セグメント808に関しても、音声セグメント806と同様の処理を行う。すなわち、音声セグメント808の付加情報が移動不可の場合、動画セグメント804の後ろにある動画セグメントの最小限の選択を行い、連続する選択された動画セグメントの区間内に音声セグメント808が収まるようにする。また、音声セグメント808の付加情報が移動可の場合、音声セグメント808の終了時刻と動画セグメント804の終了時刻が一致するように、音声セグメント808を移動させる。
【0037】
なお、セグメント処理ステップ703において、音声セグメントの付加情報が移動可の場合は音声セグメントを移動させる処理を行うとしたが、音声セグメントの移動を行わず、前後の動画セグメントの選択を行う、としてもよい。また、前後の動画セグメントの選択を行った後、音声セグメントを動画セグメントの選択を行った方向に移動させ、動画のみの部分を可能な限り小さくする、としてもよい。また、選択された動画セグメントの前後の動画セグメントを新たに選択するとしたが、動画セグメントを、MPEG1におけるGOP(Group of Pictures)のようなランダムアクセスの最小単位にさらに分割し、それを新たに選択する、としてもよい。
【0038】
(実施の形態3)
以下、請求項3記載の発明における一実施の形態について述べる。これは、第1の実施の形態と比較し、音声内容記述データの付加情報と、音声セグメント処理ステップでの処理のみが異なるものである。すなわち、本実施の形態におけるメディア処理方法のブロック図は図1となる。また、動画選択ステップ101、音声選択ステップ102での処理、および、動画内容記述データ103、メディアコンテンツ106は、第1の実施の形態と同じものとする。
【0039】
図12に、本実施の形態における音声内容記述データ105の一例を示す。これは、第1の実施の形態における音声内容記述データと比較して、付加情報のみが異なる。本実施の形態においては、付加情報として、移動可、移動不可、削除可の三種類がある。
【0040】
以下、本実施の形態における音声セグメント処理ステップ103の処理について、第1の実施の形態と同様の例によって説明する。音声セグメント206の付加情報が削除可の場合、音声セグメント処理ステップ103では、音声セグメント206の選択を解除する。また、音声セグメント206の付加情報が移動可の場合、音声セグメント処理ステップ103では、図5のように、音声セグメント206を、開始時刻が動画セグメント204の開始時刻と一致するように移動させる。この処理により、音声セグメント206と音声セグメント207が重なる部分が生じる。この場合、音声セグメント207の付加情報が削除可の場合、音声セグメント処理ステップ103では、音声セグメント207の選択を解除する。音声セグメント207の付加情報が移動可で、かつ後続の音声セグメント208が選択されていないか、あるいは音声セグメント208が選択されていてかつ削除可の場合は、音声セグメント処理ステップ103では、音声セグメント208の選択を必要であれば解除し、かつ、移動後の音声セグメント206と音声セグメント207の重なり部分がなくなるか、あるいは音声セグメント207の終了時刻が、音声セグメント207の直後の選択された音声セグメントの開始時刻あるいは同期させる動画セグメントの終了時刻のいずれか近い方と一致するか、のいずれかまで音声セグメント207の移動を行う。本例の場合は、音声セグメント208の後ろの音声セグメントは選択されていないが、さらに連続して選択された音声セグメントがあり、音声セグメントに重なり部分が生じる場合は、以上の処理を連続する選択された音声セグメントの最終まで繰り返し、音声セグメントの重なり部分が可能な限り小さくなるようにする。音声セグメントの重なり部分が残った場合は、この部分は再生時に同時に再生することとし、必要であれば再符号化などの処理を行うものとする。音声セグメント208に関しても、音声セグメント206と同様の処理を行う。すなわち、音声セグメント208の付加情報が削除可である場合、音声セグメント処理ステップ103では、音声セグメント208の選択を解除する。また、音声セグメント208の付加情報が移動可の場合、音声セグメント208の終了時刻と動画セグメント204の終了時刻が一致するように、音声セグメント208を移動させる。移動後の音声セグメント208とその前の音声セグメントとに重なり部分が生じた場合は、音声セグメント206を移動させた時の処理と同様の処理を、前向きの方向に、すなわち音声セグメントの重なりがなくなるか、あるいは、音声セグメントの開始時刻が、該音声セグメントの直前の選択された音声セグメントの終了時刻あるいは同期させる動画セグメントの開始時刻のいずれか近い方と一致するか、のいずれかまで移動させることを繰り返すことにより、音声セグメントの重なり部分を可能な限り小さくする。
【0041】
(実施の形態4)
以下、請求項4記載の発明における一実施の形態について述べる。これは、第2の実施の形態と比較し、音声内容記述データの付加情報と、セグメント処理ステップでの処理が異なるものである。すなわち、本実施の形態におけるメディア処理方法のブロック図は図7となる。また、動画選択ステップ701、音声選択ステップ702での処理、および、動画内容記述データ703、メディアコンテンツ706は、第2の実施の形態と同じものとする。
【0042】
本実施の形態における、音声内容記述データ706は、図12に示す、第3の実施の形態での音声内容記述データと同様の構成のものである。すなわち、付加情報として、移動可、移動不可、削除可の三種類がある。
【0043】
以下、本実施の形態におけるセグメント処理ステップ703の処理について、第2の実施の形態と同様の例によって説明する。音声セグメント806の付加情報が削除可の場合、セグメント処理ステップ703では、音声セグメント806の選択を解除する。音声セグメント806の付加情報が移動不可の場合、セグメント処理ステップ703では、ビデオストリーム801において、動画セグメント804の前にある動画セグメントの選択を行い、連続する選択された動画セグメントの区間内に、音声セグメント806が収まるようにする。新たに行う動画セグメントの選択は最小限とする。この場合は、動画セグメント803だけが新たに選択される。また、音声セグメント806の付加情報が移動可の場合、セグメント処理ステップ803では、図11のように、音声セグメント806を、開始時刻が動画セグメント804の開始時刻と一致するように移動させる。この処理により、音声セグメント806と音声セグメント807が重なる部分が生じる。この場合、音声セグメント807の付加情報が削除可の場合、セグメント処理ステップ703では、音声セグメント807の選択を解除する。音声セグメント807の付加情報が移動可で、かつ後続の音声セグメント808が選択されていないか、あるいは音声セグメント808が選択されておりかつ削除可の場合は、セグメント処理ステップ703では、音声セグメント808の選択を必要であれば解除し、かつ、移動後の音声セグメント806と音声セグメント807の重なり部分がなくなるか、あるいは音声セグメント807の終了時刻が、音声セグメント807の直後の選択された音声セグメントの開始時刻あるいは同期させる動画セグメントの終了時刻のいずれか近い方とと一致するか、のいずれかまで音声セグメント807の移動を行う。本例の場合は、音声セグメント808の後ろの音声セグメントは選択されていないが、さらに連続して選択された音声セグメントがあり、それら音声セグメントに重なり部分が生じる場合は、以上の処理を連続する選択された音声セグメントの最終まで繰り返し、音声セグメントの重なり部分が可能な限り小さくなるようにする。音声セグメントの重なり部分が残った場合は、この部分は再生時に同時に再生することとし、必要であれば再符号化などの処理を行うものとする。音声セグメント808に関しても、音声セグメント806と同様の処理を行う。すなわち、音声セグメント808の付加情報が削除可である場合、セグメント処理ステップ703では、音声セグメント808の選択を解除する。音声セグメント808の付加情報が移動不可の場合、動画セグメント804の後ろにある動画セグメントの最小限の選択を行い、連続する選択された動画セグメントの区間内に音声セグメント808が収まるようにする。また、音声セグメント808の付加情報が移動可の場合、音声セグメント808の終了時刻と動画セグメント804の終了時刻が一致するように、音声セグメント808を移動させる。移動後の音声セグメント808とその前の音声セグメントとに重なり部分が生じた場合は、音声セグメント806を移動させた時の処理と同様の処理を、前向きの方向に、すなわち音声セグメントの重なりがなくなるか、あるいは、音声セグメントの開始時刻が、該音声セグメントの直前の選択された音声セグメントの終了時刻あるいは同期させる動画セグメントの開始時刻とのいずれか近い方と一致するか、のいずれかまで移動させることを繰り返すことにより、音声セグメントの重なり部分を可能な限り小さくする。
【0044】
なお、セグメント処理ステップ703において、音声セグメントの付加情報が移動可の場合は音声セグメントを移動させる処理を行うとしたが、音声セグメントの移動を行わず、前後の動画セグメントの選択を行う、としてもよい。また、前後の動画セグメントの選択を行った後、音声セグメントを動画セグメントの選択を行った方向に移動させ、動画のみの部分を可能な限り小さくする、としてもよい。また、選択された動画セグメントの前後の動画セグメントを新たに選択するとしたが、動画セグメントを、MPEG1におけるGOP(GroupofPictures)のようなランダムアクセスの最小単位にさらに分割し、それを新たに選択する、としてもよい。
以上のように、本実施形態によれば、移動可能な音声セグメントを時間的に前後させることにより、メディアコンテンツの特定シーンの抽出において、動画と音声を同期させることができる。
また、他の実施形態によれば、移動可能な音声セグメントを時間的に前後させること、および/または、選択された動画セグメントの前後の動画セグメントを新たに選択することにより、メディアコンテンツの特定シーンの抽出において、動画と音声を同期させることができる。
また、他の実施形態によれば、削除可能な音声セグメントを削除すること、および/または、移動可能な音声セグメントを時間的に前後させることにより、メディアコンテンツの特定シーンの抽出において、動画と音声を同期させることができる。
また、他の実施形態によれば、削除可能な音声セグメントを削除すること、および/または、移動可能な音声セグメントを時間的に前後させること、および/または、選択された動画セグメントの前後の動画セグメントを新たに選択することにより、メディアコンテンツの特定シーンの抽出において、動画と音声を同期させることができる。
【0045】
【発明の効果】
以上のように、本発明によれば、メディアコンテンツの特定シーンの抽出において、動画と音声を同期させることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態におけるメディア処理方法のブロック図
【図2】本発明の第1の実施の形態におけるメディアコンテンツ、動画セグメント、音声セグメントの説明図
【図3】本発明の第1の実施の形態における動画内容記述データの一例を示す図
【図4】本発明の第1の実施の形態における音声内容記述データの一例を示す図
【図5】本発明の第1の実施の形態における音声セグメント処理ステップにおける処理の説明図
【図6】本発明の第1の実施の形態における処理の説明図
【図7】本発明の第2の実施の形態におけるメディア処理方法のブロック図
【図8】本発明の第2の実施の形態におけるメディアコンテンツ、動画セグメント、音声セグメントの説明図
【図9】本発明の第2の実施の形態における動画内容記述データの一例を示す図
【図10】本発明の第2の実施の形態における音声内容記述データの一例を示す図
【図11】本発明の第2の実施の形態における音声セグメント処理ステップにおける処理の説明図
【図12】本発明の第3の実施の形態におけるの音声内容記述データの一例を示す図
【符号の説明】
101 動画選択ステップ
102 音声選択ステップ
103 音声セグメント処理ステップ
104 動画内容記述データ
105 音声内容記述データ
106 メディアコンテンツ
201 ビデオストリーム
202 オーディオストリーム
203 動画セグメント
204 動画セグメント
205 動画セグメント
206 音声セグメント
207 音声セグメント
208 音声セグメント
601 動画セグメント
602 音声セグメント
701 動画選択ステップ
702 音声選択ステップ
703 セグメント処理ステップ
704 動画内容記述データ
705 音声内容記述データ
706 メディアコンテンツ
801 ビデオストリーム
802 オーディオストリーム
803 動画セグメント
804 動画セグメント
805 動画セグメント
806 音声セグメント
807 音声セグメント
808 音声セグメント

Claims (4)

  1. 動画と音声とが同期した連続視聴覚情報(メディアコンテンツ)と、
    前記メディアコンテンツの動画における、場面の切り替わりに相当する区分(動画セグメント)の時間情報を記述する動画内容記述データと、
    前記メディアコンテンツの音声における、音声の切り替わりに相当する区分(音声セグメント)の時間情報と、移動可、移動不可の付加情報を記述する音声内容記述データとを入力とし、
    前記動画セグメントのひとつまたは複数を選択する動画選択ステップと、
    前記動画選択ステップが選択した動画セグメントと同じ再生時刻をもつ音声セグメントを選択する音声選択ステップと、
    前記選択された音声セグメントの付加情報により、移動可とされた音声セグメントを時間的に前後させることによって、前記動画セグメントと音声セグメントの同期を行う音声セグメント処理ステップとを備えたことを特徴とするメディア処理方法。
  2. 動画と音声とが同期した連続視聴覚情報(メディアコンテンツ)と、
    前記メディアコンテンツの動画における、場面の切り替わりに相当する区分(動画セグメント)の時間情報を記述する動画内容記述データと、
    前記メディアコンテンツの音声における、音声の切り替わりに相当する区分(音声セグメント)の時間情報と、移動可、移動不可の付加情報を記述する音声内容記述データとを入力とし、
    前記動画セグメントのひとつまたは複数を選択する動画選択ステップと、
    前記動画選択ステップが選択した動画セグメントと同じ再生時刻をもつ音声セグメントを選択する音声選択ステップと、
    前記選択された音声セグメントの付加情報により、移動可とされた音声セグメントを時間的に前後させることによって、および/または、前記選択された動画セグメントの前後の動画セグメントを選択して、前記選択した動画セグメントと、選択した連続する音声セグメントを同期させるセグメント処理ステップとを備えたことを特徴とするメディア処理方法。
  3. 動画と音声とが同期した連続視聴覚情報(メディアコンテンツ)と、
    前記メディアコンテンツの動画における、場面の切り替わりに相当する区分(動画セグメント)の時間情報を記述する動画内容記述データと、
    前記メディアコンテンツの音声における、音声の切り替わりに相当する区分(音声セグメント)の時間情報と、移動可、移動不可、削除可の付加情報を記述する音声内容記述データとを入力とし、
    前記動画セグメントのひとつまたは複数を選択する動画選択ステップと、
    前記動画選択ステップが選択した動画セグメントと同じ再生時刻をもつ音声セグメントを選択する音声選択ステップと、
    前記選択された音声セグメントの付加情報により、移動可とされた音声セグメントを時間的に前後させること、および/または、削除可とされた音声セグメントを削除すること、によって、前記動画セグメントと音声セグメントの同期を行う音声セグメント処理ステップとを備えたことを特徴とするメディア処理方法。
  4. 動画と音声とが同期した連続視聴覚情報(メディアコンテンツ)と、
    前記メディアコンテンツの動画における、場面の切り替わりに相当する区分(動画セグメント)の時間情報を記述する動画内容記述データと、
    前記メディアコンテンツの音声における、音声の切り替わりに相当する区分(音声セグメント)の時間情報と、移動可、移動不可、削除可の付加情報を記述する音声内容記述データとを入力とし、
    前記動画セグメントのひとつまたは複数を選択する動画選択ステップと、
    前記動画選択ステップが選択した動画セグメントと同じ再生時刻をもつ音声セグメントを選択する音声選択ステップと、
    前記選択された音声セグメントの付加情報により、移動可とされた音声セグメントを時間的に前後させること、および/または、削除可とされた音声セグメントを削除すること、および/または、前記選択された動画セグメントの前後の動画セグメントを選択して、によって、前記動画セグメントと音声セグメントの同期を行うセグメント処理ステップとを備えたことを特徴とするメディア処理方法。
JP08112399A 1999-03-25 1999-03-25 メディア処理方法 Expired - Fee Related JP4161459B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08112399A JP4161459B2 (ja) 1999-03-25 1999-03-25 メディア処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08112399A JP4161459B2 (ja) 1999-03-25 1999-03-25 メディア処理方法

Publications (2)

Publication Number Publication Date
JP2000278653A JP2000278653A (ja) 2000-10-06
JP4161459B2 true JP4161459B2 (ja) 2008-10-08

Family

ID=13737624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08112399A Expired - Fee Related JP4161459B2 (ja) 1999-03-25 1999-03-25 メディア処理方法

Country Status (1)

Country Link
JP (1) JP4161459B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100694060B1 (ko) 2004-10-12 2007-03-12 삼성전자주식회사 오디오 비디오 동기화 장치 및 그 방법

Also Published As

Publication number Publication date
JP2000278653A (ja) 2000-10-06

Similar Documents

Publication Publication Date Title
KR100290331B1 (ko) 오디오-비디오 신호의 동기 재생 장치
JP2007027990A (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
KR101026328B1 (ko) 정보 기록 장치
US7228055B2 (en) Recording apparatus, video camera and computer program
US5790236A (en) Movie processing system
US20100080536A1 (en) Information recording/reproducing apparatus and video camera
JP4735388B2 (ja) 再生装置および方法、並びにプログラム
CN107251551B (zh) 图像处理设备、图像捕获装置、图像处理方法和存储介质
JP2010022003A (ja) 動画ファイル再生装置、動画ファイル再生方法、プログラム
US7050110B1 (en) Method and system for generating annotations video
JP2002374494A (ja) ビデオコンテンツファイル生成システムおよびビデオコンテンツファイル検索方法。
JP3877371B2 (ja) 映像再生装置
TW200524294A (en) Coding controller and coding system
JP4161459B2 (ja) メディア処理方法
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法
JP3688214B2 (ja) 視聴者映像記録再生装置
JP2005025894A (ja) Avデータ再生方法、avデータ記録方法、及び、avデータ記録媒体
JP2005352330A (ja) 音声分割記録装置
JP3704968B2 (ja) マルチメディア編集装置
TWI270056B (en) Digital content separation apparatus, digital content reproduction method, digital content separation method and recording media
JP2006157692A (ja) 映像再生方法及び装置及びプログラム
JP2017069596A (ja) 画像処理装置及び方法
JPH11225309A (ja) 音響信号処理装置及びオーディオ高速再生方法
JP3128107B2 (ja) 映像圧縮方法および装置
JP2003134477A (ja) 動画像付帯時変テキスト情報分割装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060130

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080701

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080714

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120801

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130801

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees