JP4979029B2

JP4979029B2 - 動画像データのシーン分割装置

Info

Publication number: JP4979029B2
Application number: JP2009133053A
Authority: JP
Inventors: 勝菅野; 康之中島
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2009-06-02
Filing date: 2009-06-02
Publication date: 2012-07-18
Anticipated expiration: 2024-03-05
Also published as: JP2009232473A

Description

本発明は動画像データのシーン分割装置に関し、特に非圧縮または圧縮された動画像データを解析し、それらを様々なショット種別に分類した結果に基づいて、ショットよりも意味的に上位の概念を持つシーン分割を行う動画像データのシーン分割装置に関する。また、非圧縮または圧縮された動画像データを、様々なシーン種別へ分割することにより、動画像データの効率的な検索、分類や閲覧を提供することが可能な、動画像データのシーン分割装置に関する

動画像データのショット分類に関する従来技術としては、本出願人の特許出願である特願2003-51514において、ショットを「アクション」クラス、「ドラマチック」クラス、「会話」クラス、「汎用」クラスなどに分類する手段、スローシーン、ズームシーン、パンシーンなどの意味的な概念を持たないシーン種別、及びコマーシャルシーンやハイライトシーンなどの意味的な概念を持つシーン種別に分類する手段が開示されている。

また、シーン分割手法としては、特開平10-257436号公報や特開2000-56420号公報において、分割されたショット毎の類似度を用いてシーンに統合する装置が開示されている。また、特開平9-44639号公報や特開2002-125178号公報においては、ショットの特徴量として色情報のヒストグラムを用い、また前記特開平10-257436号公報においては、ショットの代表フレームを用いてファジィ推論により類似度を求めている。更に、特開2000-69420号公報では、CM検出によるシーン区切り判定と、音声の類似度やカメラの動き情報に基づくシーン統合する装置を開示している。

ここで、ショットとは1つのカメラワークで撮影された、連続するフレームの集合であり、シーンとは意味的につながりのある、連続するショットの集合であるとする。

特開平10-257436号公報特開2000-56420号公報特開平9-44639公報特開2002-125178号公報特開2000-69420号公報

従来技術はショット単位に分類を行っており、あるショット種別に属するショットを検索、閲覧しようとした場合に、分類の粒度が細かいため用途によっては検索・閲覧結果が膨大になるため、検索、閲覧効率が低下する可能性がある。また、ショット単位で分類した際、隣接または周辺のショットにおけるショット種別を考慮していなかったため、時間的に孤立したショットが孤立ショット（周辺のショット種別と異なるショット種別）に分類される可能性があり、分類精度の低下を招いていた。

また、従来のシーン分割技術としては、色や動き、音声といったいずれも信号レベルの特徴値を判定要素として用いているため、例えば同一シーンに複数の色特性が存在する場合や、同一シーンで異なるカメラワークが含まれたり、会話シーン中に効果音が入るなど異なる音声特徴が含まれたりする場合には、正確にシーンが分割できない可能性がある。

本発明は、前記した従来技術に鑑みてなされたものであり、その目的は、非圧縮または圧縮された動画像データを、画像特徴やオーディオ特徴を用いて様々なショット種別へ分類し、その分類結果に基づいてシーン分割する装置を提供することにある。また、他の目的は、ショット単位の信号レベルの特徴を評価するのではなく、より高度な概念（ショット種別）に分類してからショットを集約することにより、従来技術よりも正確なシーン分割を可能とする動画像データのシーン分割装置を提供することにある。

前記した目的を達成するために、本発明は、非圧縮または圧縮された動画像データのシーン分割装置において、動画像データのショット分割を行うショット分割手段と、動画像データを複数の意味的なショット種別に分類するショット種別分類手段と、同一のショット種別が連続する区間をシーンと見なし、同一種別を持つショットを統合することにより動画像データをシーンに分割するショット統合手段と、動画像データのショット長、画像内の動き情報、およびオーディオデータを用いてカメラが風景を撮影しているショットを判定する風景ショット判定手段とを具備し、該風景ショットをシーンの分割点とみなし、動画像データをシーンに分割するようにした点に特徴がある。

本発明によれば、映画やドラマなどの動画像データにおいてはシーンとシーンの変化点に風景のシーンが表れることが多いことに着目して、動画像から風景ショットを検出し、該風景ショットをシーンの分割点とするようにしたので、動画像データのシーン分割を簡単かつ正確に行うことができるようになる。また、このため、動画像データの中から所望のシーンを簡単にかつ精度良く検索・閲覧したり、多数の動画像データを効果的に分類したりすることが可能になる。

また、本発明によれば、動画像データを複数の意味的なショット種別に分類し、同一のショット種別が連続する区間をシーンと見なし、同一種別を持つショットを統合するようにしたので、単一のショットから構成されるシーンは回避され、動画像データのシーン分割が正確になる。また、該統合により同一ショット種別が連続するようになった区間はシーンと判定され、ショット種別が変化する点はシーン分割点とされるようになる。

また、本発明によれば、非圧縮または圧縮された動画像データの信号的な特徴を利用して、入力された動画像データを様々なショット種別へ自動かつ正確に分類できるほか、シーン分割することが可能となる。

本発明の第１の実施形態の概略の構成を示すブロック図である。風景ショット判定部の処理を示すフローチャートである。本発明の第２の実施形態の概略の構成を示すブロック図である。ショット種別補正処理部の処理を示すフローチャートである。該第２の実施形態の処理の要部の具体例の説明図である。本発明の第３の実施形態の概略の構成を示すブロック図である。

以下に、図面を参照して本発明を詳細に説明する。まず、本発明の一実施形態を、図１を参照して説明する。図１は、動画像データシーン分割装置の構成図である。

まず、非圧縮または圧縮された動画像データはショット分割部１でショット単位に分割され、ショット長Ｌｓが取得される。次いで、動き情報解析部２において、ショットの動画像データから動き情報（動き強度、動き方向統一性など）が抽出され、またオーディオ解析部３において、付随するオーディオデータからオーディオ情報が抽出される。これらの処理については、特願2003-51514で開示されている手段などを用いることができる。したがって、その詳細な説明は省略するが、簡単に説明すると、下記のようになる。

すなわち、動き情報解析部２は、圧縮された動画像データに対しては、ショット内に存在する予測符号化画像が持つ動きベクトル値を用いて、ショットにおける動き強度の値ＭＩｓを計算する。動き強度ＭＩｓについては、MPEG-7で定義されている「動きアクティビティ記述子」の要素である「動き強度（Motion Intensity)」などを用いることができる。「動きアクティビティ記述子」の「動き強度」要素は、１から５までの整数で表現される（１が最低、５が最高）。

一方、非圧縮の動画像データに対しては、ブロックマッチング法などを用いて前画面からの動きを推定し、得られた値を動きベクトルとして表現し、上記と同様に動き強度ＭＩｓの値を計算する。この時、ショットとしての動き強度ＭＩｓは、対象とした予測符号化画像における動き強度の値をショット内で平均したものや、それらの最大値、中間値などを用いることができる。また、動き情報解析の対象とする予測符号化画像および動きベクトルとしては、順方向予測符号化画像や双方向予測符号化画像、および双方向予測符号化画像における順方向動きベクトル、逆方向動きベクトルのいずれの組み合わせでも用いることができる。

オーディオ解析部３は、オーディオパワー計算部を含み、該オーディオパワー計算部は入力されたショット内のオーディオデータのオーディオ信号のパワーＰｓあるいは帯域毎のオーディオパワーＰｓｂを計算する。帯域毎のオーディオパワーＰｓｂを計算する場合は、任意の帯域幅を選択することができる外、帯域毎に重み付けを行うことができる。これらの総和を、ショット内のオーディオパワーＰｓとする。該Ｐｓは以下のように表される。

ここで、Ｉｓｂはオーディオパワーを計算する最低帯域の帯域番号、ｈｓｂは最高帯域の帯域番号、ｗ［ｉ］は帯域ｉにおけるオーディオパワーＰｓｂ［ｉ］に対する重み付けである。該オーディオパワーＰｓを基に、サブバンドエネルギーＳＥｓを求めることができる。

映画やドラマなどの動画像データにおいては、シーンとシーンの変化点に、遷移後のシーンの情景を説明するために風景を撮影した単数または連続した複数のショットが挿入されることが多い。従って、前記動き情報解析部２およびオーディオ解析部３に加えて、風景ショット判定部４を設ける。該風景ショット判定部４においては、画面内の動き情報を少なくとも用いて風景ショットを検出する。次に、該風景ショット判定部４の判定結果を用いることにより、シーン分割部５において、シーンの分割点を検出することができる。該シーン分割部５ではシーン情報が決定される。

前記動き情報解析部２は、前記動き強度に加え、動きの統一性を抽出する。これは、画面内の動き（カメラ、オブジェクト）の方向がどの程度一定であるかを示す指標である。動き方向の統一性を評価することにより、カメラが風景をゆっくりパン／チルトしているショットを識別することが可能となる。すなわち、画面内の動き方向が、ある評価尺度により統一性を有することが識別できれば、オブジェクト（被写体）の動きが少なく、カメラが比較的静止した風景をゆっくりとしたカメラワークで撮影していることが分かる。その他、パンシーンの判定には本発明者などの特許出願である特願2002-285667で開示されている手段などを用いることもできる。

次に、図２のフローチャートを参照して、前記風景ショット判定部４の動作を説明する。該風景ショット判定部４は、入力されたショット長Ｌｓ、動き情報としての動き強度ＭＩｓ、動き方向の統一性ＭＤＣｓ、およびオーディオ情報としてのサブバンドエネルギーＳＥｓなどを評価する。ここで、動き方向の統一性ＭＤＣｓは、ＭＰＥＧ−７で定義されている動きアクティビティ記述子（Motion Activity)の支配的方向属性（Dominant Direction)などを用いることができるが、ここでは以下の式のように、画面内に存在する動きベクトルを任意数方向に分類し、その最も頻度が高い方向が全ての動きベクトルに占める割合として定義することもできる。

ＭＤＣｓ＝最頻方向に一致する動きベクトル数／動きベクトルの総数

ここでは、動きベクトルの方向を８方向（４５度単位）などとすることができる。

前述の通り、動き方向の統一性ＭＤＣｓはカメラが風景を撮影するようなショットで大きくなり、被写体を大きく写したショットや被写体の動きが早いショットでは小さくなる。従って、ショット長Ｌｓがある閾値ＴＨＬ（例えば、１．５秒）よりも大きく（ショット長Ｌｓ＞ＴＨＬ）、動き強度ＭＩｓがある閾値ＴＨＩ（例えば、１．１）よりも小さく（動き強度ＭＩｓ＜ＴＨＩ）、動き方向の統一性ＭＤＣｓがある閾値ＴＨＭＤＣ（例えば、０．２）よりも大きく（動き方向の統一性ＭＤＣｓ＞ＴＨＭＤＣ）、かつサブバンドエネルギーＳＥｓがある閾値ＴＨＳＥ（例えば、２．２）よりも小さい場合（サブバンドエネルギーＳＥｓ＜ＴＨＳＥ）、ステップＳ２に進んで、該当するショットを風景ショットであると判定する。

なお、前記のようにショット長、動き情報、オーディオ情報を閾値処理することもできるが、予めこれらを特徴ベクトルとして入力した分類器（決定木など）を学習させ、入力されたショットを各種ショット種別に分類することもできる。

次に、本発明の第２の実施形態を、図３を参照して説明する。この実施形態は、従来装置の次の問題を解消するものである。すなわち、従来装置では、各ショットにおけるショット種別の判定のみを行っており、隣接または周辺のショットのショット種別を考慮していないため、例えば「アクション」クラスが連続する区間に単一の「会話」クラスが判定される場合があったため、分類精度が低下していたことが問題として挙げられる。また、この実施形態は、前記風景ショットを加味して、ショット種別補正およびショット統合を行うようにしたものである。なお、図３中の図１と同一または同等物には、同じ符号が付されている。

図において、１１はショット種別分類処理部、１２はショット種別補正処理部、１３はショット統合部である。

ここで、前記ショット種別補正処理部１２の動作を、図４のフローチャートを参照して説明する。該ショット種別補正処理部１２は、以下の処理により、誤分類されたショットを補正する。ここで、Ｓｔｙｐｅ（ｎ）は、ｎ番目のショットのショット種別を表す。

ステップＳ１０では、まずｉを初期化（ｉ＝１）し、ステップＳ１１では、第ｉ番目のショットｉの種別Stype(i)が入力する。ステップＳ１２では、該ショットｉが、風景ショットではなく、Ｓｔｙｐｅ（ｉ）≠Ｓｔｙｐｅ（ｉ−１）かつＳｔｙｐｅ（ｉ−１）＝Ｓｔｙｐｅ（ｉ＋１）であるか否かを判断する。該判断が肯定であればステップＳ１３に進んで、Ｓｔｙｐｅ（ｉ）＝Ｓｔｙｐｅ（ｉ−１）と修正する。一方、該ステップＳ１２の判断が否定であれば、ステップＳ１３をスキップしてステップＳ１４に進む。ステップＳ１４では、全部のショットの処理が終了したか否かの判断を行い、この判断が否定の時にはステップＳ１５に進んで，ｉを１インクリメントする。以下、前記と同じ動作を、ステップＳ１４の判断が肯定になるまで、すなわち動画像データが終了するまで行う。

該ステップＳ１４の判断が肯定になると、ステップＳ１６でｉを初期化（ｉ＝１）し、ステップＳ１７に進み、再度第ｉ番目のショットｉの種別が入力する。ステップＳ１８では、該ショットｉが風景ショットではなく、Ｓｔｙｐｅ（ｉ）≠Ｓｔｙｐｅ（ｉ−１）かつＳｔｙｐｅ（ｉ）≠Ｓｔｙｐｅ（ｉ＋１）であるか否かを判断する。この判断が肯定の場合にはステップＳ１９に進み、Ｓｔｙｐｅ（ｉ）＝Ｓｔｙｐｅ（ｉ−１）と修正する。一方、前記ステップＳ１８の判断が否定の時にはステップＳ２０に進む。ステップＳ２０では、全ショットの処理が終了したか否かの判断がなされ、この判断が否定の時にはステップＳ２１に進んで、ｉを１インクリメントする。次いで、ステップＳ１７に戻り、前記した処理を再度行う。以上の処理が繰り返し行われ、前記ステップＳ２０の判断が肯定になると、ショット種別補正処理は終了する。

また、前記ショット種別補正処理部１２は、多数決処理により、隣接するショット種別と異なるショット種別を補正するようにしてもよい。

図５は、図３のショット種別分類処理部１１、ショット種別補正処理部１２、およびショット統合部１３により処理されるショットの具体例を示す。

図５(a)はシーン分割される動画像データを示し、同図(b)はショット分割されたショットを示す。同図(c)は前記ショット種別分類処理部１１でショット分類されたショットを示す。図示の例では、「会話、アクション、会話」という系列のショット、「アクション、会話、アクション」という系列のショット、「アクション、風景、アクション」という系列のショット等が示されている。

同図(d)は前記ショット種別補正処理部１２でショット種別補正されたショットを示す。該ショット種別補正処理部１２の動作により、前記「会話、アクション、会話」という系列のショットは「会話、会話、会話」と補正される。また、「アクション、会話、アクション」という系列のショットは、「アクション、アクション、アクション」と補正される。

すなわち、対象となるショットが前後のショット種別と異なり、かつ前後のショット種別が同一の場合に、全て同一のショット種別に補正する。また、対象となるショットが前後のショット種別と異なり、かつ前後のショット種別も同一でない場合に、対象となるショットのショット種別を時間的に前のショット種別に補正する。

一方、「アクション、風景、アクション」という系列のショットは、風景ショットはシーンの分割点であるのでそのままに保持される。

次に、同図(e)は前記ショット統合部１３でショット統合されたシーンを示す。図示から分かるように、同じ種別のショットは統合されて、一つのシーンとされる。なお、単独または連続して複数で出現する風景ショットはシーン分割点であるとし、該シーンの統合処理は行わない。風景ショットの開始時が、シーン分割点とされる。

以上の処理によって、補正されたジャンル種別の集合において、同一ショット種別が連続する区間はシーンと判定され、ショット種別が変化する点はシーン分割点とされる。また、単一のショットから構成されるシーンは回避される。

次に、図６を参照して、本発明の第３実施形態を説明する。なお、図６中の図３と同一または同等物には、同じ符号が付されている。この実施形態では、ショット種別分類処理部１１への入力として、ショット分割部１からのショット長Ｌｓ、オーディオ解析部３からのオーディオ種別ＡＣＬＳおよびサブバンドエネルギーＳＥｓを入力する。

オーディオ種別ＡＣＬＳの取得手段としては、特開平10-247093号公報で開示されている手段などを用いることができる。ショット種別分類処理部１１で得られたショット種別Ｓｔｙｐｅは、ショット種別系列解析部２１によりショット種別の系列を決定する。ショット種別系列解析部２１では、ＨＭＭ（隠れマルコフモデル）などの時系列シンボルを表現するモデルなどを用いて、ショット種別Ｓｔｙｐｅの確からしさを調べることができる。これにより、孤立したショット種別の補正を行う。ショット統合部１３は、前記図５の(d)から(e)への過程と同様の処理により、ショット統合を行ってシーン情報を出力する。

ショット統合部１３で得られたシーン情報は、シーン情報記述部２２で少なくとも時間情報と共に記述され、ＭＰＥＧ−７などの記述フォーマットを用いることにより、シーン記述ファイルとして出力される。

本発明は、入力動画像データが映画コンテンツであってもよい。この場合、分類されるショット種別が、少なくともアクション、会話、風景、その他であり、風景ショット種別をシーンの分割点とし、アクション、会話、その他ショット種別のショットを前記ショット種別補正手段により補正し、少なくともアクションシーン、会話シーンおよびその他シーンに統合することができる。

１・・・ショット分割部、２・・・動き情報解析部、３・・・オーディオ解析部、４・・・風景ショット判定部、５・・・シーン分割部、１１・・・ショット種別分類処理部、１２・・・ショット種別補正処理部、１３・・・ショット統合部、２１・・・ショット種別系列解析部、２２・・・シーン情報記述部。

Claims

非圧縮または圧縮された動画像データのシーン分割装置において、
動画像データのショット分割を行うショット分割手段と、
動画像データを複数の意味的なショット種別に分類するショット種別分類手段と、
同一のショット種別が連続する区間をシーンと見なし、同一種別を持つショットを統合することにより動画像データをシーンに分割するショット統合手段と、
動画像データのショット長、画像内の動き情報、およびオーディオデータを用いてカメラが風景を撮影しているショットを判定する風景ショット判定手段とを具備し、
該風景ショットをシーンの分割点とみなし、動画像データをシーンに分割することを特徴とする動画像データのシーン分割装置。
請求項１に記載された動画像データのシーン分割装置において、
さらに、
前記ショット種別分類手段において得られたショット種別の時間的な連続性を考慮して、隣接するショット種別と異なるショット種別を補正するショット種別補正手段を具備したことを特徴とする動画像データのシーン分割装置。
請求項２に記載された動画像データのシーン分割装置において、
前記ショット種別補正手段は、ある区間内に存在するショット種別の多数決処理により、隣接するショット種別と異なるショット種別を補正することを特徴とする動画像データのシーン分割装置。
請求項２に記載された動画像データのシーン分割装置において、
前記ショット種別補正手段は、予め学習されたショット種別の系列モデルとの照合により対象となるショット種別を補正することを特徴とする動画像データのシーン分割装置。
請求項３または４に記載された動画像データのシーン分割装置において、
入力動画像データが映画コンテンツであり、分類されるショット種別が、少なくともアクション、会話、風景、その他であり、風景ショット種別をシーンの分割点とし、アクション、会話、その他ショット種別のショットを前記ショット種別補正手段により補正し、少なくともアクションシーン、会話シーンおよびその他シーンに統合することを特徴とする動画像データのシーン分割装置。
請求項１ないし５のいずれかに記載された動画像データのシーン分割装置において、
前記シーンに分割された情報を、少なくとも時間情報と共に記述するシーン情報記述手段を具備したことを特徴とする動画像データのシーン分割装置。