JP2012039522A - 動画像処理装置、動画像処理方法およびプログラム - Google Patents

動画像処理装置、動画像処理方法およびプログラム Download PDF

Info

Publication number
JP2012039522A
JP2012039522A JP2010179694A JP2010179694A JP2012039522A JP 2012039522 A JP2012039522 A JP 2012039522A JP 2010179694 A JP2010179694 A JP 2010179694A JP 2010179694 A JP2010179694 A JP 2010179694A JP 2012039522 A JP2012039522 A JP 2012039522A
Authority
JP
Japan
Prior art keywords
cut
moving image
cuts
image processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010179694A
Other languages
English (en)
Inventor
Yoshinori Takagi
芳徳 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010179694A priority Critical patent/JP2012039522A/ja
Priority to CN2011102253307A priority patent/CN102426843A/zh
Priority to US13/197,029 priority patent/US8682143B2/en
Publication of JP2012039522A publication Critical patent/JP2012039522A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】動画像のカット構成を容易に把握可能にする、動画像処理装置、動画像処理方法およびプログラムを提供する。
【解決手段】複数のカットを含む動画像からカット間の遷移を検出するカット遷移検出部13と、各カットの特徴量に基づき、一連の相異なるカットとして繰返されるカットペアを特定するカットペア特定部15と、各カットの代表画像をカット遷移の順序に従って並べ、かつカットペア間の境界を明示するカット構成画像CIを生成するカット構成画像生成部17とを備える。
【選択図】図2

Description

本発明は、動画像処理装置、動画像処理方法およびプログラムに関する。
映像(または動画像)は、一般に多数のカットから構成されている。従来、映像のカット構成を把握するために、映像のサムネイルを一定のフレーム間隔で時系列順に並べて表示することが知られている。この動画像処理方法は、何が映像の対象として捉えられているか、という情報を提供することができる。
ところで、映像表現では、制作者の意図に応じて、一連の相異なるカットを繰返す(カットの切返しとも称する。)等、カット構成に工夫を凝らす場合がある。しかし、従来の動画像処理方法では、何が映像の対象として捉えられているか、という情報が提供されるが、映像の対象がどのように捉えられているか、換言すれば、映像の時間的コンテクストに関して映像がどのように表現されているか、という情報が十分に提供されない。
一方、映像を鑑賞する者または映像を他の映像等の素材として利用する者には、映像の時間的コンテクストに関して映像がどのように表現されているか、という情報が重要となる場合がある。しかし、従来の動画像処理方法では、このような情報を十分に提供することができず、鑑賞者や利用者は、映像のカット構成を直感的に把握することができなかった。
そこで、本発明は、動画像のカット構成を容易に把握可能にする、動画像処理装置、動画像処理方法およびプログラムを提供しようとするものである。
本発明のある観点によれば、複数のカットを含む動画像からカット間の遷移を検出するカット遷移検出部と、各カットの特徴量に基づき、一連の相異なるカットとして繰返されるカットペアを特定するカットペア特定部と、各カットの代表画像をカット遷移の順序に従って並べ、かつカットペア間の境界を明示するカット構成画像を生成するカット構成画像生成部とを備える動画像処理装置が提供される。
上記カット構成画像は、各カットの特徴を示すメタ情報を含んでもよい。
上記メタ情報は、各カットに含まれる音声の特徴を示す情報でもよい。
上記メタ情報は、各カットに含まれる音声の内容を示す情報でもよい。
上記メタ情報は、各カットに音声が含まれないことを示す情報でもよい。
上記カット構成画像は、各カットに含まれる音声の特徴の変動を示すメタ情報を含んでもよい。
上記カット構成画像は、一カットに含まれる音声の特徴と、一カットとは異なるカットペアに属する類似カットに含まれる音声の特徴との差異を示すメタ情報を含んでもよい。
上記メタ情報は、各カットに含まれる画像の特徴を示す情報でもよい。
上記メタ情報は、各カットに含まれるフレームの数を示す情報でもよい。
上記カット構成画像は、各カットに含まれる画像の特徴の変動を示すメタ情報を含んでもよい。
上記カット構成画像は、一カットに含まれる画像の特徴と、一カットとは異なるカットペアに属する類似カットに含まれる画像の特徴との差異を示すメタ情報を含んでもよい。
上記カット構成画像は、各カットの代表画像に重ねられたメタ情報を含んでもよい。
上記カット構成画像は、代表画像の領域のうち、特定の画像が表示されていない領域に重ねられたメタ情報を含んでもよい。
上記カット構成画像は、表示位置の改行によりカットペア間の境界を明示してもよい。
上記カット構成画像は、各カットの代表画像を相異なるカットペアに属する類似カットの代表画像の表示位置に揃えて示してもよい。
また、本発明の別の観点によれば、複数のカットを含む動画像からカット間の遷移を検出し、各カットの特徴量に基づき、一連の相異なるカットとして繰返されるカットペアを特定し、各カットの代表画像をカット遷移の順序に従って並べ、かつカットペア間の境界を明示するカット構成画像を生成することを含む動画像処理方法が提供される。
また、本発明の別の観点によれば、上記動画像処理方法をコンピュータに実行させるためのプログラムが提供される。ここで、プログラムは、コンピュータ読取り可能な記録媒体を用いて提供されてもよく、通信手段等を介して提供されてもよい。
以上説明したように本発明によれば、動画像のカット構成を容易に把握可能にする、動画像処理装置、動画像処理方法およびプログラムを提供することができる。
本発明の実施形態に係る動画像処理方法の概要を説明する図である。 第1の実施形態に係る動画像処理装置の構成を示すブロック図である。 動画像処理装置の動作手順を示すフロー図である。 カット構成の一例を示す図である。 カットペア特定処理の手順を示すフロー図である。 図4に示したカット構成に含まれるカットペアの特定結果を示す表である。 図5に示したカットペアの特定結果から生成されたカット構成画像の一例を示す図である。 図7に示したカット構成画像の変形例を示す図である。 カット構成画像の他の例を示す図である。 第2の実施形態に係る動画像処理装置の構成を示すブロック図である。 動画像処理装置の動作手順を示すフロー図である。 カットの音声特徴を示すメタ情報を伴うカット構成画像の一例を示す図である。 カットの画像特徴を示すメタ情報を伴うカット構成画像の一例を示す図である。 カットの特徴の変動を示すメタ情報を伴うカット構成画像の一例を示す図である。 類似カット間におけるカットの特徴の差異を示すメタ情報を伴うカット構成画像の一例を示す図である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
[1.動画像処理方法の概要]
まず、図1を参照して、本発明の実施形態に係る動画像処理方法の概要について説明する。図1には、動画像処理方法の概要が示されている。
本発明の実施形態に係る動画像処理方法では、まず、複数のカットを含む動画像MPからカット間の遷移が検出される。つぎに、各カットの特徴量S(カットの特徴量の総称)に基づき、一連の相異なるカットとして繰返されるカットペアが特定される。そして、各カットの代表画像I(代表画像の総称)をカット遷移の順序に従って並べ、かつカットペア間の境界を明示するカット構成画像CI(カット構成画像の総称)が生成される。カット構成画像CIは、動画像MPのカット構成を容易に把握するための情報として、後述する動画像処理装置1、2や外部装置を通じて出力される。
カットペアとは、例えば、カット1、2、カット1に類似する1´、カット2に類似する2´、…というカット構成中で、繰返しの対象となるカット1と2の組合せおよびカット1´とカット2´の組合せを意味する。なお、カット1、2、1´、2´、3、カット1および1´に類似する1´´、カット2および2´に類似する2´´…というカット構成中では、カット1´と2´と3の組合せもカットペアとなる。カットペアの繰返しは、カットの切返しとして映像表現される。
図1に示す例では、カット1、2、1´、2´、…というカット構成を有する動画像MPからカット構成画像CIが生成されている。カット構成画像CIでは、カット1、2の代表画像I1、I2が横並びに配置され、代表画像の下にカット1´、2´の代表画像I1´、I2´が横並びに配置されている。よって、カット1と2およびカット1´とカット2´が各々にカットペアを形成していることが明確となる。
これにより、カット構成画像CIを用いて、映像の時間的コンテクストに関して映像がどのように表現されているか、という情報が提供される。よって、映像の鑑賞者または利用者は、映像を鑑賞し、または他の映像等の素材として利用する上で、映像のカット構成を容易に把握することができる。
<第1の実施形態>
[2−1.動画像処理装置1の構成]
つぎに、図2を参照して、本発明の第1の実施形態に係る動画像処理装置1について説明する。図2には、動画像処理装置1の主要な機能構成が示されている。図2に示すように、動画像処理装置1は、データ取得部11、カット遷移検出部13、カットペア特定部15、カット構成画像生成部17、カット構成画像出力部19、カット構成情報出力部21、データ記憶部23を含んで構成される。
データ取得部11は、複数のカットを含む動画像データMPを取得し、カット遷移検出部13、カットペア特定部15およびカット構成画像生成部17に供給する。動画像データMPは、一般にフレーム形式のデータであり、画像データのみでもよく、音声データとの組合せでもよい。動画像データMPは、データ記憶部23から取得されてもよく、外部装置(不図示)から取得されてもよい。
カット遷移検出部13は、動画像データMPに基づき動画像MP中のカット遷移を検出し、検出結果をカットペア特定部15、カット構成情報出力部21に供給する。カット遷移とは、動画像MP中におけるカットの移り変わりを意味する。カット遷移は、相前後するフレーム中の画像および/または音声の特徴量を求め、特徴量の類似度に基づき検出される。画像および/または音声の特徴量としては、色ヒストグラムや顔画像検出、および/または音声の量や音調・リズム等を用いることができる。なお、カット遷移の検出時に求められた特徴量は、データ記憶部23等に格納され、他の処理に利用されてもよい。
カットペア特定部15は、詳細は後述するが、各カットの特徴量Sに基づき、複数のカットをカットグループに区分し、カットペアを特定する。カットペアの特定結果は、カット遷移の検出結果とともに、カット構成画像生成部17、カット構成情報出力部21に供給される。カットの特徴量Sとしては、カットに含まれる画像の色ヒストグラムや顔画像検出、および/または音声の量や音調・リズム等あるいはこれらの組合せを用いることができる。なお、カットペアの特定時に求められた特徴量は、データ記憶部23等に格納され、他の処理に利用されてもよい。
カットグループとは、特徴量Sが互いに類似するカットの組合せを意味し、カットペアとは、カット構成中で繰返される一連の相異なるカットの組合せを意味し、時間的に連続する2以上のカットからなる。カットペア特定部15は、カットペアの特定結果に基づき、カットグループやカットペアを表す属性情報(後述するグループID、ペアID)を各カットに付与する。属性情報は、カット構成画像生成部17の他に、カット構成情報出力部21、データ記憶部23や外部装置等に供給されてもよい。
カット構成画像生成部17は、カット構成画像CIを生成するために、動画像データMPおよびカット遷移の検出結果に基づき、各カットに含まれる画像から所定の基準に従って代表画像Iを抽出する。代表画像Iとは、各カットを代表する画像であり、例えば、カットの中央フレームに相当する画像として抽出される。カット構成画像CIは、複数のカットの代表画像Iをカット遷移の順序に従って並べ、かつカットペア間の境界を明示する画像として生成され、カット構成画像出力部19に供給される。
カット構成画像出力部19は、ユーザが動画像MPのカット構成を把握できるように、カット構成画像生成部17から供給されたカット構成画像CIを出力する。カット構成画像CIは、動画像処理装置1に接続された表示装置、印刷装置、記憶装置や外部装置(いずれも不図示)に出力されてもよい。
カット構成情報出力部21は、ユーザがカット構成の把握に利用できるように、カット遷移の検出結果、カットの区分結果やカットペアの特定結果をカット構成情報として出力する。カット構成情報は、動画像処理装置1に接続された表示装置、印刷装置、記憶装置や外部装置(いずれも不図示)に出力されてもよい。
カット構成情報は、例えば、カット構成を考慮した動画像検索を実現するためのデータとして利用することができる。例えば、あるカットを基準カットとして、基準カットとカットペアをなすカットを検索したり、あるカットペアを基準カットペアとして、基準カットペアと同じ構成のカットペアを検索したりすることができる。また、カットペアを多く含む動画像MPやカット切返しを多く含む動画像MPを検索することもできる。
データ記憶部23は、動画像データMPおよび動画像データMPに付属するデータを記憶している。データ記憶部23には、カット構成情報が動画像データMPに関連付けて記憶されている。なお、データ記憶部23には、カット構成画像CIが記憶されてもよい。また、図2では、データ記憶部23と他の構成要素との接続関係が一部省略されている。
ここで、上記機能構成において、データ取得部11、カット遷移検出部13、カットペア特定部15、カット構成画像生成部17、カット構成画像出力部19、カット構成情報出力部21は、CPU、DSP(デジタル信号処理装置)等の演算処理装置により構成される。データ記憶部23は、フラッシュメモリ等の内部記憶装置、ハードディスクドライブ、ブルーレイディスクドライブ等の外部記憶装置により構成される。そして、CPUは、ROM等から読み出されたプログラムをRAM上に展開して実行することで、動画像処理方法を実現する。なお、上記機能構成は、少なくとも一部が専用ロジック等のハードウェアとして構成されてもよい。
[2−2.動画像処理装置1の動作]
つぎに、図3から図9を参照して、第1の実施形態に係る動画像処理装置1の動作について説明する。図3には、動画像処理装置1の動作手順が示されている。
図3に示すように、まず、データ取得部11では、動画像データMPが取得され(ステップS11)、カット遷移検出部13等に供給される。カット遷移検出部13では、動画像データMPに基づき動画像MP中のカット遷移が検出され(ステップS13)、検出結果がカットペア特定部15に供給される。カット遷移は、相前後するフレーム中の画像および/または音声の特徴量の類似度に基づき検出される。各カットには、カット遷移の順序を示す連番がカットIDとして付与される。
図4には、カット遷移の検出結果から求められたカット構成の一例が示されている。ここでは、理解を容易にするために、カット1−7の代表画像I1−I7を用いてカット構成が示されている。なお、代表画像Iは、後述するように、カット構成画像生成部17で動画像データMPから抽出される。図4に示すように、カット1、3、6が互いに類似し、カット2、4、7が互いに類似し、カット5が他のカット1−4、6、7のいずれとも類似していない。
つぎに、カットペア特定部15では、各カットをカットグループに区分し、カットペアを特定するカットペア特定処理が行われる。図5には、カットぺア特定処理の手順が示されている。図5に示すように、カットペア特定処理では、まず、初期化処理が行われる(ステップS51)。初期化処理では、グループ数mおよびペアIDが初期化される(m=2、ペアID=1)。また、カット1、2にグループID=1、グループID=2が各々に付与され、カット1、2にペアID=1が付与される。
ここで、グループ数mは、動画像データMPから特定されているカットグループ(初期化処理時では、カットグループ1、2が特定されていることになる。)の数を示している。グループIDおよびペアIDは、各カットが属するカットグループおよびカットペアを示すために、各カットに付与される。
つぎに、カット1、2の特徴量S1、S2が算出され(ステップS53)、カットグループ1、2の特徴量として各々にデータ記憶部23等に格納される(ステップS55)。カットの特徴量S(カットまたはカットグループの特徴量の総称)は、色ヒストグラムや顔画像検出、および/または音声の量や音調・リズム等、あるいはこれらの組合せとして算出される。
つぎに、処理対象となる後続カットの存在が確認される(ステップS57)。後続カットが存在すれば(ステップS57で「Yes」)、後続カットの特徴量S´が算出され(ステップS59)、後続カットとカットグループ1−mの間で特徴量Sの類似が判定される(ステップS61)。ここで、判定に際しては、直前カットよりも大きなグループIDを伴うカットグループとの間で、特徴量Sの類似度が優先的に判定されてもよい。これは、同一カットペアに属する場合、直前カットよりも後続カットが属するカットグループのグループIDが大きくなるためである。
そして、後続カットとカットグループ1−mのいずれかとの間で特徴量Sの類似度が所定の閾値以上であると判定された場合(ステップS61で「Yes」)、後続カットには、最も類似度の高いカットグループのグループIDが付与される(ステップS63)。
また、後続カットのグループIDが直前カットのグループIDと比較され(ステップS65)、前者の方が小さい場合にペアIDが1インクリメントされる(ステップS67)。この場合、直前カットと後続カットが相異なるカットペアに属し、両カットの間にカットペア間の境界(カットの切返し点)が存在することになる。後続カットには、従前のペアIDまたはインクリメントされたペアIDが付与される(ステップS69)。後続カットの特徴量Sは、後続カットが属するカットグループの特徴量Sの一部として格納されて利用されてもよく、棄却されてもよい(ステップS71)。
一方、後続カットとカットグループ1−mの全ての間で特徴量Sの類似度が所定の閾値未満であると判定された場合(ステップS61で「No」)、新たなカットグループを生成するためにグループ数mが1インクリメントされる(ステップS73)。後続カットには、新たなカットグループとして、グループ数mに相当するグループIDが付与される(ステップS75)。また、後続カットには、従前のペアIDが付与される(ステップS77)。後続カットの特徴量Sは、後続カットが属する新たなカットグループの特徴量Smとして格納されて利用される(ステップS79)。
ステップS57−S79の処理は、後続カットが存在しなくなるまで(ステップS57で「No」)繰返される。そして、後続カットが存在しなければ、カットペア特定処理が終了し、図3に示すように、引き続きステップS17の処理が行われる。
図6には、図4に示したカット構成に含まれるカットペアの特定結果が示されている。図6に示すように、各カットの特徴量Sの類似度に基づき、カット1、3、6にグループID=1が付与され、カット2、4、7にグループID=2が付与され、カット5にグループID=3が付与されている。また、カット遷移の順序に基づき、カット1、2にペアID=1が付与され、カット3−5にペアID=2が付与され、カット6、7にペアID=3が付与されている。つまり、カット1、2、カット3−5、カット6、7は、一連の相異なるカットとして繰返されるカットペアとして各々に特定されている。
カット構成画像生成部17では、まず、動画像データMPおよびカット遷移の検出結果に基づき、各カットに属する一連の画像から所定の基準に従って代表画像Iが抽出される(ステップS17)。なお、各カットの代表画像Iは、カット遷移の検出時に予め抽出されてもよい。つぎに、カットペアの特定結果に基づき、カット構成画像CIが生成される(ステップS19)。カット構成画像CIは、前述したように、各カットの代表画像Iをカット遷移の順序に従って並べ、かつカットペア間の境界を明示する画像として生成される。
図7には、図6に示したカットペアの特定結果から生成されたカット構成画像CIの一例が示されている。図7に示すカット構成画像CI1では、カット1、2の代表画像I1、I2が横並びに配置され、カット1、2の代表画像I1、I2の下にカット3−5の代表画像I3−I5が横並びに配置され、カット3、4の代表画像I3、I4の下にカット6、7の代表画像I6、I7が横並びに配置されている。つまり、カット1−7の代表画像I1−I7は、カットグループを横方向のパラメータ、カットペアを縦方向のパラメータとするマトリクス状に並べて配置されている。
図8には、図7に示したカット構成画像CIの変形例が示されている。図7に示したカット構成画像CI1では、各カットの代表画像Iが同一サイズで配置されていた。一方、図8に示すカット構成画像CI2、CI2´では、カット構成画像CI全体のサイズを調節するために、代表画像I3−I5のサイズが調節されている。図8に示す例では、カットペア毎の表示幅を揃えるために、カット3−5の代表画像I3−I5のサイズが横方向でのみ縮小され(カット構成画像CI2)、または縦・横方向で縮小されている(カット構成画像CI2´)。
図9には、カット構成画像CIの他の例が示されている。図9に示すカット構成画像CI3では、代表画像Iをマトリクス状に並べて配置する代わりに、カットペア間の境界を示す情報とともに横一例に並べて配置する。図9に示す例では、カット1、2の代表画像I1、I2、カット3−5の代表画像I3−I5、カット6、7の代表画像I6、I7は、カットペア間の境界を示す枠Bとともに、横並びに配置されている。
[2−3.まとめ]
以上説明したように、本発明の第1の実施形態に係る動画像処理装置1によれば、カット構成画像CIを用いて、映像の時間的コンテクストに関して映像がどのように表現されているか、という情報が提供される。よって、映像の鑑賞者または利用者は、映像を鑑賞し、または他の映像等の素材として利用する上で、映像のカット構成を容易に把握することができる。
<第2の実施形態>
[3−1.動画像処理装置2の構成]
つぎに、図10を参照して、本発明の第2の実施形態に係る動画像処理装置2について説明する。なお、以下では、第1の実施形態と重複する説明を省略する。図10には、動画像処理装置2の主要な機能構成が示されている。図10に示すように、動画像処理装置2は、データ取得部11、カット遷移検出部13、カットペア特定部15、カット構成画像生成部17、カット構成画像出力部19、カット構成情報出力部21、データ記憶部23とともに、メタ情報生成部25を含んで構成される。
メタ情報生成部25は、各カットに含まれる音声や画像の特徴を示すメタ情報M(メタ情報の総称)を生成する。メタ情報生成部25では、動画像データMPおよびカット遷移の検出結果に基づき、動画像データMPから音声や画像の特徴が抽出される。そして、各カットの音声や画像の特徴を示すメタ情報Mが生成され、カット構成画像生成部17に供給される。
ここで、メタ情報Mは、カット構成情報の一部としてデータ記憶部23に格納されてもよい。これにより、カット構成情報は、映像表現を考慮した動画像検索を実現するためのデータとしてさらに利用性が向上する。
音声特徴を示すメタ情報Mは、例えば、各カットに含まれる音声(セリフ、音響効果等)の内容を示す情報、各カットに音声が含まれないこと(無音カットであること)を示す情報等である。また、メタ情報Mは、各カットに含まれる音声特徴の変動を示す情報でもよく、一カットと、一カットとは異なるカットペアに属する類似カットとに含まれる音声特徴の差異を示す情報でもよい。
画像特徴を示すメタ情報Mは、例えば、各カットに含まれるフレームの数を示す情報、各カットの再生に要する時間を示す情報等である。また、メタ情報Mは、各カットに含まれる画像特徴の変動を示す情報でもよく、一カットと、一カットとは異なるカットペアに属する類似カットとに含まれる画像特徴の差異を示す情報でもよい。
カット構成画像生成部17では、メタ情報Mを含むカット構成画像CIが生成される。カット構成画像CIは、まず、第1の実施形態と同様に、複数のカットの代表画像Iをカット遷移の順序に従って並べ、かつカットペア間の境界を明示する画像として生成される。カット構成画像CIは、さらに、第2の実施形態では、各カットの代表画像Iとともに、各カットに含まれる音声特徴や画像特徴を示すメタ情報Mを含む画像として生成される。なお、メタ情報Mは、音声特徴および画像特徴の少なくとも1以上を含む情報として生成される。
[3−2.動画像処理装置2の動作]
つぎに、図11から図15を参照して、第2の実施形態に係る動画像処理装置2の動作について説明する。なお、以下では、第1の実施形態と重複する説明を省略する。また、以下では、図7に示したレイアウトで代表画像Iを配置する場合を想定して説明するが、異なるレイアウトで代表画像Iを配置する場合についても同様に説明することができる。
図11には、動画像処理装置2の動作手順が示されている。ステップS11からS17では、第1の実施形態と同様の処理が行われる。カットペア特定処理が終了すると、ステップS21の処理が行われる。メタ情報生成部25では、まず、動画像データMPおよびカット遷移の検出結果に基づき、動画像データMPから各カットに含まれる画像や音声の特徴が抽出される。
例えば、カットに音声(セリフ、音響効果等)が含まれている場合、カットに含まれる音声が抽出され、音声認識処理等を通じて、抽出された音声に対応する文字・画像情報が生成されてもよい。カットに音声が含まれていない場合、無音カットであることを示す文字・画像情報が生成されてもよい。なお、無音カットは、セリフが含まれていない無音カットと、セリフも音響効果も含まれていない無音カットに区別されてもよい。カットに含まれる音声の音量の平均値・変動値、無音区間と有音区間の比率、音声の音調・リズムまたは変動を示す文字・画像情報が生成されてもよい。
また、カットに含まれるフレームの数またはカットの再生に要する時間が算出されて、算出値を示す文字・画像情報が生成されてもよい。カットに含まれる画像の明るさの平均値・変動値、画像の内容等または変化を示す文字・画像情報が生成されてもよい。
メタ情報Mを生成すると、第1の実施形態と同様に、動画像データMPおよびカット遷移の検出結果に基づき、各カットの代表画像Iが動画データMPから抽出され(ステップS17)、カットペアの特定結果に基づき、メタ情報Mを含むカット構成画像CIが生成される(ステップS19)。
ここで、メタ情報Mは、代表画像Iに重ねられてもよく、代表画像Iに重ねられなくてもよい。そして、代表画像Iに重ねられる場合、代表画像Iの画像認識処理等を通じて、特定の画像(顔画像等)が表示されていない領域にメタ情報Mが重ねられてもよい。また、複数の話者を含むカットのセリフを表示する場合、話者の性別、年齢等を考慮して、話者毎に対応するようにセリフを表示してもよい。
図12には、各カットの音声特徴を示すメタ情報Mを伴うカット構成画像CIの一例が示されている。図12に示すカット構成画像CI4では、カット1−5、7には、各カットのセリフを含むフキダシM1が表示され、カット6には、無音カットを示すマークM2(「NO VOICE」)が表示されている。
これにより、カット1−5、7に含まれる画像をセリフの内容から推測することができる。特に、話者の口元を含む画像を他の映像等の素材として利用する場合、カットに含まれる画像を全て確認しなくても、メタ情報M1、M2からカットに含まれる画像を推測することができる。また、カット6は、同一カットグループに属する他のカット1、3とは異なり無音カットとなっているので、カット構成中の特異なカットであると推測することができる。
図13には、各カットの画像特徴を示すメタ情報Mを伴うカット構成画像CIの一例が示されている。図13に示すカット構成画像CI5では、カット1−7には、各カットのフレーム数(「40f」等)および画像の明るさの平均値(「100b」等)を示す文字・画像情報M3が表示されている。
これにより、カット1−7に含まれる画像の量や画像の明るさを容易に把握することができる。特に、特定の明るさの画像を素材として利用する場合、カットに含まれる画像を全て確認しなくても、メタ情報M3からカットに含まれる画像の明るさを推測することができる。また、カット3およびカット4は、同一カットグループに属する他のカット1、6およびカット2、7よりも各々に画像の量が多いので、メタ情報M3からカット構成中の特異なカットであると推測することができる。
図14には、各カットの音声特徴の変動を示すメタ情報Mを伴うカット構成画像CIの一例が示されている。図14に示すカット構成画像CI6では、カット1−7には、各カットに含まれる音声の音量の変動値(「±ΔV11」等)を示す文字・画像情報M4が表示されている。なお、音量の変動値は、各カットに含まれる音声の音量の平均値に対する偏差として表される。
これにより、カット1−7に含まれる音声の音量を推測することができる。特に、特定の音量の音声を伴う画像を素材として利用する場合、カットに含まれる画像を全て確認しなくても、メタ情報M4から特定の音量の音声を伴う画像を容易に見出すことができる。
また、メタ情報Mは、各カットに含まれる音声や画像の特徴を示す情報に限定されず、同一カットグループに属する類似カットに含まれる音声や画像の特徴との差異を示す情報として生成されてもよい。
図15には、類似カット間におけるカットの画像特徴の差異を示すメタ情報Mを伴うカット構成画像CIの一例が示されている。図15に示すカット構成画像CI7では、カット1および2に含まれる画像の内容の変化量(V1、V2)を基準として、同一カットグループに属するカット3、6およびカット4、7に含まれる画像の内容の変化量の差異(+ΔV11、−ΔV12、+ΔV21、−ΔV22)を示す文字・画像情報M5が表示されている。なお、画像の内容の変化量は、例えば、相前後するフレーム中における特徴点の移動を示す移動ベクトルの数・大きさ等に基づき求められる。
これにより、カット1−7に含まれる画像の変化量を容易に把握することができる。特に、ある程度の動きを伴う複数の画像を他の映像等の素材として利用する場合、カットグループに属するカットを全て確認しなくても、メタ情報M5から画像の内容の変化量からある程度の動きを伴う複数の画像を容易に見出すことができる。
[3−3.まとめ]
以上説明したように、本発明の第2の実施形態に係る動画像処理装置2によれば、各カットの特徴を示すメタ情報Mを含むカット構成画像CIを用いて、映像の時間的コンテクストに関して映像がどのように表現されているか、というより詳細な情報が提供される。よって、映像の鑑賞者または利用者は、映像を鑑賞し、または他の映像等の素材として利用する上で、映像のカット構成をさらに容易に把握することができる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
1、2 動画像処理装置
11 データ取得部
13 カット遷移検出部
15 カットペア特定部
17 カット構成画像生成部
19 カット構成画像出力部
21 カット構成情報出力部
23 データ記憶部
25 カット構成情報出力部
MP 動画(データ)
I 代表画像
CI カット構成画像
M メタ情報

Claims (17)

  1. 複数のカットを含む動画像からカット間の遷移を検出するカット遷移検出部と、
    前記各カットの特徴量に基づき、一連の相異なるカットとして繰返されるカットペアを特定するカットペア特定部と、
    前記各カットの代表画像をカット遷移の順序に従って並べ、かつ前記カットペア間の境界を明示するカット構成画像を生成するカット構成画像生成部と
    を備える動画像処理装置。
  2. 前記カット構成画像は、前記各カットの特徴を示すメタ情報を含む、請求項1に記載の動画像処理装置。
  3. 前記メタ情報は、前記各カットに含まれる音声の特徴を示す情報である、請求項2に記載の動画像処理装置。
  4. 前記メタ情報は、前記各カットに含まれる音声の内容を示す情報である、請求項3に記載の動画像処理装置。
  5. 前記メタ情報は、前記各カットに音声が含まれないことを示す情報である、請求項3に記載の動画像処理装置。
  6. 前記カット構成画像は、前記各カットに含まれる音声の特徴の変動を示す前記メタ情報を含む、請求項3に記載の動画像処理装置。
  7. 前記カット構成画像は、一カットに含まれる音声の特徴と、前記一カットとは異なる前記カットペアに属する類似カットに含まれる音声の特徴との差異を示す前記メタ情報を含む、請求項3に記載の動画像処理装置。
  8. 前記メタ情報は、前記各カットに含まれる画像の特徴を示す情報である、請求項2に記載の動画像処理装置。
  9. 前記メタ情報は、前記各カットに含まれるフレームの数を示す情報である、請求項8に記載の動画像処理装置。
  10. 前記カット構成画像は、前記各カットに含まれる画像の特徴の変動を示す前記メタ情報を含む、請求項8に記載の動画像処理装置。
  11. 前記カット構成画像は、一カットに含まれる画像の特徴と、前記一カットとは異なる前記カットペアに属する類似カットに含まれる画像の特徴との差異を示す前記メタ情報を含む、請求項8に記載の動画像処理装置。
  12. 前記カット構成画像は、前記各カットの前記代表画像に重ねられた前記メタ情報を含む、請求項2に記載の動画像処理装置。
  13. 前記カット構成画像は、前記代表画像の領域のうち、特定の画像が表示されていない領域に重ねられた前記メタ情報を含む、請求項12に記載の動画像処理装置。
  14. 前記カット構成画像は、表示位置の改行により前記カットペア間の境界を明示する、請求項1に記載の動画像処理装置。
  15. 前記カット構成画像は、前記各カットの前記代表画像を相異なる前記カットペアに属する類似カットの前記代表画像の表示位置に揃えて示す、請求項14に記載の動画像処理装置。
  16. 複数のカットを含む動画像からカット間の遷移を検出し、
    前記各カットの特徴量に基づき、一連の相異なるカットとして繰返されるカットペアを特定し、
    前記各カットの代表画像をカット遷移の順序に従って並べ、かつ前記カットペア間の境界を明示するカット構成画像を生成すること
    を含む動画像処理方法。
  17. 複数のカットを含む動画像からカット間の遷移を検出し、
    前記各カットの特徴量に基づき、一連の相異なるカットとして繰返されるカットペアを特定し、
    前記各カットの代表画像をカット遷移の順序に従って並べ、かつ前記カットペア間の境界を明示するカット構成画像を生成すること
    を含む動画像処理方法をコンピュータに実行させるためのプログラム。
JP2010179694A 2010-08-10 2010-08-10 動画像処理装置、動画像処理方法およびプログラム Withdrawn JP2012039522A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010179694A JP2012039522A (ja) 2010-08-10 2010-08-10 動画像処理装置、動画像処理方法およびプログラム
CN2011102253307A CN102426843A (zh) 2010-08-10 2011-08-03 运动图像处理装置、运动图像处理方法和程序
US13/197,029 US8682143B2 (en) 2010-08-10 2011-08-03 Moving image processing apparatus, moving image processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010179694A JP2012039522A (ja) 2010-08-10 2010-08-10 動画像処理装置、動画像処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2012039522A true JP2012039522A (ja) 2012-02-23

Family

ID=45564889

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010179694A Withdrawn JP2012039522A (ja) 2010-08-10 2010-08-10 動画像処理装置、動画像処理方法およびプログラム

Country Status (3)

Country Link
US (1) US8682143B2 (ja)
JP (1) JP2012039522A (ja)
CN (1) CN102426843A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111937071A (zh) * 2018-04-06 2020-11-13 株式会社创佳医疗 医疗运动图像处理系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102306538B1 (ko) * 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
US11676314B2 (en) * 2021-11-08 2023-06-13 Adobe Inc. Boundary correspondence determination for digital objects

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3340532B2 (ja) * 1993-10-20 2002-11-05 株式会社日立製作所 ビデオの検索方法および装置
JP4194272B2 (ja) * 2001-12-28 2008-12-10 キヤノン株式会社 動画像管理装置及び方法
JP3772117B2 (ja) * 2002-01-18 2006-05-10 ソニー株式会社 情報信号処理装置および情報信号処理方法
JP4935047B2 (ja) 2005-10-25 2012-05-23 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP4948118B2 (ja) 2005-10-25 2012-06-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2010073355A1 (ja) * 2008-12-26 2012-05-31 富士通株式会社 番組データ処理装置、方法、およびプログラム
JP5326910B2 (ja) * 2009-01-20 2013-10-30 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111937071A (zh) * 2018-04-06 2020-11-13 株式会社创佳医疗 医疗运动图像处理系统
CN111937071B (zh) * 2018-04-06 2021-11-26 株式会社创佳医疗 医疗运动图像处理系统
US11343464B2 (en) 2018-04-06 2022-05-24 Medi Plus Inc. Medical video processing system

Also Published As

Publication number Publication date
US20120039584A1 (en) 2012-02-16
US8682143B2 (en) 2014-03-25
CN102426843A (zh) 2012-04-25

Similar Documents

Publication Publication Date Title
CN104065869B (zh) 在电子装置中与播放音频组合地显示图像的方法
JP2021069117A5 (ja)
US9749684B2 (en) Multimedia processing method and multimedia apparatus
US8494338B2 (en) Electronic apparatus, video content editing method, and program
US8731307B2 (en) Information processing apparatus, information processing method, and program
JP4660861B2 (ja) 楽曲画像シンクロ動画シナリオ生成方法、プログラムおよび装置
JP2019198074A (ja) シーンメタ情報生成装置およびシーンメタ情報生成方法
Nymoen et al. Analyzing sound tracings: a multimodal approach to music information retrieval
TW200920115A (en) A method for incorporating a soundtrack into an edited video-with-audio recording and an audio tag
CN109286848B (zh) 一种终端视频信息的交互方法、装置及存储介质
CN110505498A (zh) 视频的处理、播放方法、装置及计算机可读介质
WO2012032953A1 (ja) 動画像処理装置、動画像処理方法およびプログラム
JP2015073198A (ja) 情報処理装置及びプログラム
US10007848B2 (en) Keyframe annotation
JP2012039522A (ja) 動画像処理装置、動画像処理方法およびプログラム
JP2012039523A (ja) 動画像処理装置、動画像処理方法およびプログラム
JP2018206292A (ja) 要約映像生成装置及びプログラム
CN110418148A (zh) 视频生成方法、视频生成设备及可读存储介质
JP2008084021A (ja) 動画シナリオ生成方法、プログラムおよび装置
CN113992973A (zh) 视频摘要生成方法、装置、电子设备和存储介质
CN106022332B (zh) 终端设备、将纸质读物转为待听读物播放的装置及方法
Sarda et al. Real-time feedback system for monitoring and facilitating discussions
CN113656643B (zh) 一种使用ai分析观影心情的方法
EP3503090A1 (en) Speech processing device and method
KR20190054721A (ko) 동영상을 이용한 카툰 생성장치 및 방법

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20131105