以下に、図面を参照して本発明を詳細に説明する。まず、本発明の一実施形態を、図1を参照して説明する。図1は、動画像データシーン分割装置の構成図である。
まず、非圧縮または圧縮された動画像データはショット分割部1でショット単位に分割され、ショット長Lsが取得される。次いで、動き情報解析部2において、ショットの動画像データから動き情報(動き強度、動き方向統一性など)が抽出され、またオーディオ解析部3において、付随するオーディオデータからオーディオ情報が抽出される。これらの処理については、特願2003-51514で開示されている手段などを用いることができる。したがって、その詳細な説明は省略するが、簡単に説明すると、下記のようになる。
すなわち、動き情報解析部2は、圧縮された動画像データに対しては、ショット内に存在する予測符号化画像が持つ動きベクトル値を用いて、ショットにおける動き強度の値MIsを計算する。動き強度MIsについては、MPEG-7で定義されている「動きアクティビティ記述子」の要素である「動き強度(Motion Intensity)」などを用いることができる。「動きアクティビティ記述子」の「動き強度」要素は、1から5までの整数で表現される(1が最低、5が最高)。
一方、非圧縮の動画像データに対しては、ブロックマッチング法などを用いて前画面からの動きを推定し、得られた値を動きベクトルとして表現し、上記と同様に動き強度MIsの値を計算する。この時、ショットとしての動き強度MIsは、対象とした予測符号化画像における動き強度の値をショット内で平均したものや、それらの最大値、中間値などを用いることができる。また、動き情報解析の対象とする予測符号化画像および動きベクトルとしては、順方向予測符号化画像や双方向予測符号化画像、および双方向予測符号化画像における順方向動きベクトル、逆方向動きベクトルのいずれの組み合わせでも用いることができる。
オーディオ解析部3は、オーディオパワー計算部を含み、該オーディオパワー計算部は入力されたショット内のオーディオデータのオーディオ信号のパワーPsあるいは帯域毎のオーディオパワーPsbを計算する。帯域毎のオーディオパワーPsbを計算する場合は、任意の帯域幅を選択することができる外、帯域毎に重み付けを行うことができる。これらの総和を、ショット内のオーディオパワーPsとする。該Psは以下のように表される。
ここで、Isbはオーディオパワーを計算する最低帯域の帯域番号、hsbは最高帯域の帯域番号、w[i]は帯域iにおけるオーディオパワーPsb[i]に対する重み付けである。該オーディオパワーPsを基に、サブバンドエネルギーSEsを求めることができる。
映画やドラマなどの動画像データにおいては、シーンとシーンの変化点に、遷移後のシーンの情景を説明するために風景を撮影した単数または連続した複数のショットが挿入されることが多い。従って、前記動き情報解析部2およびオーディオ解析部3に加えて、風景ショット判定部4を設ける。該風景ショット判定部4においては、画面内の動き情報を少なくとも用いて風景ショットを検出する。次に、該風景ショット判定部4の判定結果を用いることにより、シーン分割部5において、シーンの分割点を検出することができる。該シーン分割部5ではシーン情報が決定される。
前記動き情報解析部2は、前記動き強度に加え、動きの統一性を抽出する。これは、画面内の動き(カメラ、オブジェクト)の方向がどの程度一定であるかを示す指標である。動き方向の統一性を評価することにより、カメラが風景をゆっくりパン/チルトしているショットを識別することが可能となる。すなわち、画面内の動き方向が、ある評価尺度により統一性を有することが識別できれば、オブジェクト(被写体)の動きが少なく、カメラが比較的静止した風景をゆっくりとしたカメラワークで撮影していることが分かる。その他、パンシーンの判定には本発明者などの特許出願である特願2002-285667で開示されている手段などを用いることもできる。
次に、図2のフローチャートを参照して、前記風景ショット判定部4の動作を説明する。該風景ショット判定部4は、入力されたショット長Ls、動き情報としての動き強度MIs、動き方向の統一性MDCs、およびオーディオ情報としてのサブバンドエネルギーSEsなどを評価する。ここで、動き方向の統一性MDCsは、MPEG−7で定義されている動きアクティビティ記述子(Motion Activity)の支配的方向属性(Dominant Direction)などを用いることができるが、ここでは以下の式のように、画面内に存在する動きベクトルを任意数方向に分類し、その最も頻度が高い方向が全ての動きベクトルに占める割合として定義することもできる。
MDCs=最頻方向に一致する動きベクトル数/動きベクトルの総数
ここでは、動きベクトルの方向を8方向(45度単位)などとすることができる。
前述の通り、動き方向の統一性MDCsはカメラが風景を撮影するようなショットで大きくなり、被写体を大きく写したショットや被写体の動きが早いショットでは小さくなる。従って、ショット長Lsがある閾値THL(例えば、1.5秒)よりも大きく(ショット長Ls>THL)、動き強度MIsがある閾値THI(例えば、1.1)よりも小さく(動き強度MIs<THI)、動き方向の統一性MDCsがある閾値THMDC(例えば、0.2)よりも大きく(動き方向の統一性MDCs>THMDC)、かつサブバンドエネルギーSEsがある閾値THSE(例えば、2.2)よりも小さい場合(サブバンドエネルギーSEs<THSE)、ステップS2に進んで、該当するショットを風景ショットであると判定する。
なお、前記のようにショット長、動き情報、オーディオ情報を閾値処理することもできるが、予めこれらを特徴ベクトルとして入力した分類器(決定木など)を学習させ、入力されたショットを各種ショット種別に分類することもできる。
次に、本発明の第2の実施形態を、図3を参照して説明する。この実施形態は、従来装置の次の問題を解消するものである。すなわち、従来装置では、各ショットにおけるショット種別の判定のみを行っており、隣接または周辺のショットのショット種別を考慮していないため、例えば「アクション」クラスが連続する区間に単一の「会話」クラスが判定される場合があったため、分類精度が低下していたことが問題として挙げられる。また、この実施形態は、前記風景ショットを加味して、ショット種別補正およびショット統合を行うようにしたものである。なお、図3中の図1と同一または同等物には、同じ符号が付されている。
図において、11はショット種別分類処理部、12はショット種別補正処理部、13はショット統合部である。
ここで、前記ショット種別補正処理部12の動作を、図4のフローチャートを参照して説明する。該ショット種別補正処理部12は、以下の処理により、誤分類されたショットを補正する。ここで、Stype(n)は、n番目のショットのショット種別を表す。
ステップS10では、まずiを初期化(i=1)し、ステップS11では、第i番目のショットiの種別Stype(i)が入力する。ステップS12では、該ショットiが、風景ショットではなく、Stype(i)≠Stype(i−1)かつStype(i−1)=Stype(i+1)であるか否かを判断する。該判断が肯定であればステップS13に進んで、Stype(i)=Stype(i−1)と修正する。一方、該ステップS12の判断が否定であれば、ステップS13をスキップしてステップS14に進む。ステップS14では、全部のショットの処理が終了したか否かの判断を行い、この判断が否定の時にはステップS15に進んで,iを1インクリメントする。以下、前記と同じ動作を、ステップS14の判断が肯定になるまで、すなわち動画像データが終了するまで行う。
該ステップS14の判断が肯定になると、ステップS16でiを初期化(i=1)し、ステップS17に進み、再度第i番目のショットiの種別が入力する。ステップS18では、該ショットiが風景ショットではなく、Stype(i)≠Stype(i−1)かつStype(i)≠Stype(i+1)であるか否かを判断する。この判断が肯定の場合にはステップS19に進み、Stype(i)=Stype(i−1)と修正する。一方、前記ステップS18の判断が否定の時にはステップS20に進む。ステップS20では、全ショットの処理が終了したか否かの判断がなされ、この判断が否定の時にはステップS21に進んで、iを1インクリメントする。次いで、ステップS17に戻り、前記した処理を再度行う。以上の処理が繰り返し行われ、前記ステップS20の判断が肯定になると、ショット種別補正処理は終了する。
また、前記ショット種別補正処理部12は、多数決処理により、隣接するショット種別と異なるショット種別を補正するようにしてもよい。
図5は、図3のショット種別分類処理部11、ショット種別補正処理部12、およびショット統合部13により処理されるショットの具体例を示す。
図5(a)はシーン分割される動画像データを示し、同図(b)はショット分割されたショットを示す。同図(c)は前記ショット種別分類処理部11でショット分類されたショットを示す。図示の例では、「会話、アクション、会話」という系列のショット、「アクション、会話、アクション」という系列のショット、「アクション、風景、アクション」という系列のショット等が示されている。
同図(d)は前記ショット種別補正処理部12でショット種別補正されたショットを示す。該ショット種別補正処理部12の動作により、前記「会話、アクション、会話」という系列のショットは「会話、会話、会話」と補正される。また、「アクション、会話、アクション」という系列のショットは、「アクション、アクション、アクション」と補正される。
すなわち、対象となるショットが前後のショット種別と異なり、かつ前後のショット種別が同一の場合に、全て同一のショット種別に補正する。また、対象となるショットが前後のショット種別と異なり、かつ前後のショット種別も同一でない場合に、対象となるショットのショット種別を時間的に前のショット種別に補正する。
一方、「アクション、風景、アクション」という系列のショットは、風景ショットはシーンの分割点であるのでそのままに保持される。
次に、同図(e)は前記ショット統合部13でショット統合されたシーンを示す。図示から分かるように、同じ種別のショットは統合されて、一つのシーンとされる。なお、単独または連続して複数で出現する風景ショットはシーン分割点であるとし、該シーンの統合処理は行わない。風景ショットの開始時が、シーン分割点とされる。
以上の処理によって、補正されたジャンル種別の集合において、同一ショット種別が連続する区間はシーンと判定され、ショット種別が変化する点はシーン分割点とされる。また、単一のショットから構成されるシーンは回避される。
次に、図6を参照して、本発明の第3実施形態を説明する。なお、図6中の図3と同一または同等物には、同じ符号が付されている。この実施形態では、ショット種別分類処理部11への入力として、ショット分割部1からのショット長Ls、オーディオ解析部3からのオーディオ種別ACLSおよびサブバンドエネルギーSEsを入力する。
オーディオ種別ACLSの取得手段としては、特開平10-247093号公報で開示されている手段などを用いることができる。ショット種別分類処理部11で得られたショット種別Stypeは、ショット種別系列解析部21によりショット種別の系列を決定する。ショット種別系列解析部21では、HMM(隠れマルコフモデル)などの時系列シンボルを表現するモデルなどを用いて、ショット種別Stypeの確からしさを調べることができる。これにより、孤立したショット種別の補正を行う。ショット統合部13は、前記図5の(d)から(e)への過程と同様の処理により、ショット統合を行ってシーン情報を出力する。
ショット統合部13で得られたシーン情報は、シーン情報記述部22で少なくとも時間情報と共に記述され、MPEG−7などの記述フォーマットを用いることにより、シーン記述ファイルとして出力される。
本発明は、入力動画像データが映画コンテンツであってもよい。この場合、分類されるショット種別が、少なくともアクション、会話、風景、その他であり、風景ショット種別をシーンの分割点とし、アクション、会話、その他ショット種別のショットを前記ショット種別補正手段により補正し、少なくともアクションシーン、会話シーンおよびその他シーンに統合することができる。