JP4396914B2

JP4396914B2 - 動画像データの分類装置

Info

Publication number: JP4396914B2
Application number: JP2003051514A
Authority: JP
Inventors: 勝菅野; 康之中島; 広昌柳原
Original assignee: KDDI R&D Laboratories Inc
Current assignee: KDDI R&D Laboratories Inc
Priority date: 2003-02-27
Filing date: 2003-02-27
Publication date: 2010-01-13
Anticipated expiration: 2023-02-27
Also published as: JP2004260734A

Description

【０００１】
【発明の属する技術分野】
本発明は、動画像データの分類装置に関し、特に、非圧縮または圧縮された動画像データを、予め定義されたクラスに分類することにより、動画像データの効率的な検索、分類あるいは閲覧を提供することが可能な動画像データの分類装置に関する。
【０００２】
【従来の技術】
動画像データのシーン分類に関する従来技術としては、例えばテレビ放送の動画像データを入力として、それをニュース、スポーツ、コマーシャルなど、比較的大きい単位で分類を行う方式が検討されている。また、いくつかの関連する動画区間を論理的ストーリー単位（Logical Story Unit）に分割する方式も検討されている。ここでは、動画像データとしての特徴のほかに、動画像データに付随するオーディオデータの特徴を用いるものも提案されている。
【０００３】
また、要約情報としてのハイライトシーンの検出については、圧縮動画像データの圧縮領域において、それに付随するオーディオの特性を用いて、スポーツ映像などのハイライトシーンを抽出する技術が提案されている。
【０００４】
さらに、本出願人による特願２００２−２８５６６７では、ショット単位の分類技術として、動的／静的シーンへの分類や、スローシーン、パンやズームなどのカメラ操作といった比較的抽象レベルの低いシーンから、スポーツ映像のハイライトシーンといった比較的抽象レベルの高いシーンへの分類方式が提案されている。
【０００５】
【発明が解決しようとする課題】
従来技術は主に非圧縮データ領域で動画像データやそれに付随するオーディオデータの解析を行うものが多く、圧縮された動画像データについては一度復号処理を行う必要があったり、処理コストが多くかかったりすることが問題であった。また、分類の単位についても、番組ごとや論理的ストーリー単位など、比較的大きい単位での分類が主流であるため、より詳細な単位での分類技術については例えば特願２００２−２８５６６７で示された技術などが必要である。詳細な単位での分類は、例えば動画像データにおける特定シーンの閲覧や、動画像データベースにおける分類などには重要かつ効果的である。特願２００２−２８５６６７で示された技術では、動的／静的なシーンやカメラ操作の抽出など、意味的に低いレベルでのシーン分類が主流であるため、より抽象レベルの高いシーン閲覧やコンテンツフィルタリングには対応できないという問題があった。例えば、映画コンテンツから暴力的なシーンを除外するといったフィルタリングはできないという問題があった。
【０００６】
本発明は前記した従来技術に鑑みてなされたものであり、その目的は、非圧縮または圧縮された動画像データを、動画像としての特徴や、必要に応じて動画像に付随するオーディオの特徴を用いて、低コストかつ高精度で様々なクラス（ショットクラス）へ分類する、動画像データの分類装置を提供することにある。
【０００７】
前記の目的を達成するために、本発明は、非圧縮または圧縮された動画像データの分類装置において、動画像データを時間軸上でショット単位に分割する動画像データ分割手段と、該ショット単位の動画像データの動き強度を解析する動き情報解析手段と、該ショット単位の動画像データに付随するオーディオデータを入力とし、少なくともオーディオ種別およびオーディオパワーを解析するオーディオデータ解析手段と、前記動画像データ分割手段によって分割されたショットの長さ（以下、ショット長）、前記動き情報解析手段により解析された動き強度、および前記オーディオデータ解析手段により解析されたオーディオ種別又はオーディオパワーを用いて、分割された動画像データを予め定義された「アクション」クラス、「ドラマチック」クラス、「会話」クラスおよび「汎用」クラスの少なくとも一つに分類する分類手段とを具備した点に第１の特徴がある。
【０００８】
この特徴によれば、非圧縮または圧縮された動画像データにおいて、その分割単位を様々な種別、例えばアクションクラス、ドラマチッククラス、会話クラス、汎用クラスなどに分類することによって、動画像データの中から所望のシーンを検索・閲覧したり、多数の動画像データを効果的に分類したりすることが可能になる。
【００１１】
【発明の実施の形態】
以下に、図面を参照して本発明を詳細に説明する。まず、本発明の一実施形態を、図１を参照して説明する。図１は、動画像データの分類装置の要部の構成を示すブロック図である。ここでは、入力された動画像データをショット分割部１でショット単位に分割する例を用いて説明するが、分割の単位は動画像を撮像する際のカメラ操作あるいは撮像された動画像の内容に関して、一貫性のある単位であれば任意である。例えば、カメラのスタートボタンが押されてから停止ボタンが押されるまで（この間に例えばズーム操作などがなされてもよい）の動画像を１分割単位と考えることができる。
【００１２】
まず、非圧縮または圧縮された動画像データおよびこれに付随するオーディオデータまたはこれと多重化されているオーディオデータが入力されると、ショット分割部１において動画像データはショットに分割される。ショット分割部１においては、入力された動画像データの各ショットのショット長Lsを保持しておく。ショット分割部で分割された各ショットの動画像データは、動き情報解析部２に渡される。
【００１３】
またこれと並行して、動画像データに付随するオーディオデータまたは動画像データと多重化されているオーディオデータを逆多重化して得られるオーディオデータが、オーディオ解析部３に渡される。
【００１４】
動き情報解析部２においては、圧縮された動画像データに対して、ショット内に存在する予測符号化画像が持つ動きベクトルの値を用いて、ショットにおける動き強度の値Isを計算する。動き強度Isについては、MPEG-7で定義されている「動きアクティビティ記述子」の要素である「動き強度（Motion Intensity）」などを用いることができる。「動きアクティビティ記述子」の「動き強度」要素は、１から５までの整数で表現される（１が最低、５が最高）。
【００１５】
一方、非圧縮の動画像データに対しては、ブロックマッチング法などを用いて前画面からの動きを推定し、得られた値を動きベクトルとして表現し、上記と同様に動き強度Isの値を計算する。このとき、ショットとしての動き強度Isは、対象とした予測符号化画像における動き強度Ipの値をショット内で平均したものや、それらの最大値、中間値などを用いることができる。また、動き情報解析の対象とする予測符号化画像および動きベクトルとしては、順方向予測符号化画像や双方向予測符号化画像、および双方向予測符号化画像における順方向動きベクトル、逆方向動きベクトルのいずれの組み合わせでも用いることができる。
【００１６】
オーディオ解析部３は、基本的にはオーディオパワー計算部３１を含むが、オーディオ種別解析部３２を含むこともできる。オーディオパワー計算部３１においては、入力されたショット内のオーディオデータのオーディオ信号のパワーPsあるいは帯域ごとのオーディオパワーPsbを計算する。帯域ごとのオーディオパワーPsbを計算する場合は、任意の帯域幅を選択することができるほか、帯域ごとに重み付けを行うこともでき、これらの総和をショット内のオーディオパワーPsとする。従って、Psは以下のように表される。

【００１７】
ここで、lsbはオーディオパワーを計算する最低帯域の帯域番号、hsbは最高帯域の帯域番号、w[i]は帯域iにおけるオーディオパワーPsb[i]に対する重み付けである。
【００１８】
さらに、オーディオ種別解析部３２が利用できる場合には、例えば入力されたショット内のオーディオデータが「無音」、「音声」、「音楽」、「歓声」などのオーディオ種別に分類される。オーディオ種別解析部３２の処理としては、特開平１０−２４７０９３号公報に述べられた方法などを用いることができる。単位時間辺りでこのオーディオ種別が決定される場合には、ショット内の最頻のクラスをショットの代表オーディオ種別Csと見なす。
【００１９】
ここで、本発明における分類装置で扱うショットクラスについて定義する。
「アクション」クラス…映画などで、銃撃や爆発など、オーディオの音量および動きなどが大きく、ショット長も短いショット、
「ドラマチック」クラス…映画などで、「アクション」クラスに先立つことが多く、何らかの重要なイベントが起こるまたは起ころうとしているショット、
「会話」クラス…映画などで、二人以上の登場人物が会話を交わしているショット、
「ハイライト」クラス…テレビスポーツ映像において、得点シーンなどの重要なイベントを含むショット、
「アナウンサー」クラス…テレビニュース映像において、アナウンサーがニュースを読み上げているショット、
【００２０】
アクションクラス判別部４、ドラマチッククラス判別部５においては、ショット分割部１から入力されるショット長Ls、動き情報解析部から得られるショット内動き強度Is、及びショット内オーディオパワーPsを入力とする。また、会話クラス判別部６においては、さらにショット内の代表オーディオ種別Csを入力とする。
【００２１】
次に、図１に示した、アクションクラス判別部４，ドラマチッククラス判別部５，および会話クラス判別部６の機能を詳細に説明する。
【００２２】
アクションクラス判別部４での判定処理は、図２に示されているように行われる。ステップＳ１では、ショット長Lsがある閾値THL1（例えば２秒など）よりも小さく（Ls＜THL1）、ショット内動き強度Isがある閾値THI1（例えば２．３など）よりも大きく（Is＞THI1）、さらにショット内オーディオパワーPsがある閾値THP1よりも大きい場合に（Ps＞THP1）、該当するショットが「アクション」クラスであると判定する。そして、ステップＳ２において、ショットクラスとして「アクション」を付与する。
【００２３】
ドラマチッククラス判別部５での判定処理は、図３に示されているように行われる。ステップＳ３では、ショット長Lsが前記閾値THL1よりも大きく（Ls＞THL1）、かつ別の閾値THL2（例えば５秒）よりも小さく（Ls＜THL2）、ショット内動き強度Isが前記閾値THI1よりも小さく（Is＜THI1）、且つ別の閾値THI2（例えば１．２など）よりも大きく（Is＞THI2）、さらにショット内オーディオパワーPsがある閾値THP2よりも大きい場合に（Ps＞THP2）、該当するショットが「ドラマチック」クラスであると判定する。そして、ステップＳ４において、ショットクラスとして「ドラマチック」を付与する。
【００２４】
会話クラス判別部６での判定処理は、図４に示されているように行われる。ステップＳ５では、ショット長Lsがある閾値THL3（THL3＞THL2、例えば６秒など）よりも大きく（Ls＞THL3）、ショット内動き強度Isがある閾値THI3（好ましくはTHI3≧THI2、例えば１．５など、なお場合によっては、THI3＜THI2であってもよい）よりも小さく（Is＜THI3）、ショット内オーディオパワーPsがある閾値THP3（THP3＜THP2）よりも小さく（Ps＜THP3）、さらにショット内代表オーディオ種別Csが「音声」である場合該当するショットが「会話」クラスであると判定する。そしてステップＳ６において、ショットクラスとして「会話」を付与する。
【００２５】
上記アクションクラス判別部４、ドラマチッククラス判別部５、および会話クラス判別部６においていずれのショットクラスにも属さないと判定されたショットは、「汎用」クラスであると判定し、ショットクラスとして「汎用」を付与する。
【００２６】
なお、前記実施形態では、前記アクションクラス判別部４、ドラマチッククラス判別部５、および会話クラス判別部６は、分割区間長L_Ｓ、動き情報I_Ｓ、およびオーディオデータP_Ｓを用いて各クラスを判別したが、本発明はこれに限定されず、上記のうちの少なくとも一つを用いて判別するようにしてもよい。
【００２７】
次に、本発明の第２実施形態を、図５を参照して説明する。図５において、図１と同一または同等物には同じ符号が付されている。この実施形態では、ショット分割部１でショット分割された動画像データは、特徴値抽出部１１に送られ、ショットの画像特徴値が抽出される。次いで、最頻ショット検出部１２は、該画像特徴値を基に最頻ショットを検出する。
【００２８】
前記画像特徴値としては、例えばショット分割部でショット分割点と判定された画像、すなわちショット先頭画面の画像データそのものを保持したり、その画像の縮小画像の画像データや、その画像から得られる、MPEG-7で定義された「色配置記述子（Color Layout Descriptor)」などを用いることができる。また、対象とする画像についても、前記ショット先頭画面だけでなく、ショットの中心画面や、ショットを代表する画面（キーフレーム）などを用いることができる。
【００２９】
ここでは、色配置記述子を用いた例について述べる。色配置記述子は、原画像を縮小した画像（8×8画素）の輝度成分、色差成分に8×8のDCTを施したものであり、各成分のDCT係数を値として持つ。
【００３０】
最頻ショット検出部１２の動作（最頻ショット検出処理１）を、図６のフローチャートを参照して説明する。ここに、最頻ショットとは、データ内に最も頻度が高く出現する類似ショットSfを意味する。まず、図７に示されているような入力動画像データ２１を一旦全て読み込み、ステップＳ１１で各ショット（１，２，３，・・・，ｎ）の先頭画面から画像特徴値、例えば色配置記述子（ａ１，ａ２，ａ３，・・・，ａｎ）を抽出する。ステップＳ１２では、ある置き数ｍ＝１とし、ステップＳ１３で該色配置記述子の第ｍ係数、例えば原画像を縮小した画像の輝度成分に8×8のDCTを施したものの第ｍ係数でヒストグラムを作成する。図７の例では、まず第１係数（ｍ＝１）Ｙ_１(1)，Ｙ_１(2)，Ｙ_１(3)，・・・，Ｙ_１(n)でヒストグラムを作成する。
【００３１】
ステップＳ１４では、ある置き数ｎ＝２とし、ステップＳ１５で第１最頻ビンの要素数と、第２最頻ビン（ｎ＝２）の要素数の差は予め定めた基準より小であるか否かの判断が行われる。例えば（第１の最頻ビンの要素数）×０．８５＜（第２の最頻ビンの要素数）を満たすか否かの判断をする。ここに、前記第１最頻ビンの要素数は、データ内に最も頻度が高く出現する類似ショットを意味する。したがって、ステップＳ１５では、出現頻度の最も大きいショットと次に出現頻度の大きいショットとの差が小さいか否かの判断がなされる。
【００３２】
この判断が肯定であれば、ステップＳ１６に進みｎが１インクリメントされて、ステップＳ１５で第１最頻ビンの要素数と、第（ｎ＋１）最頻ビンの要素数の差は予め定めた基準より小であるか否かの判断が行われる。この判断が肯定になると、第（ｎ＋１）最頻ビンも出現頻度の大きいショットになる。
【００３３】
上記の処理が行われ、ステップＳ１５の判断が否定になると、ステップＳ１７に進んで、第１〜（ｎ−１）最頻ビンを最頻ショットに採用する。以上により、第１係数による最頻ショットの絞り込みが終了する。次に、ステップＳ１８では、ｍを１インクリメントする。ステップＳ１９では、第１〜（ｎ−１）最頻ビンは収束したか否かの判断がなされる。すなわち、データ内に最も頻度が高く出現する類似ショットが十分に絞れたか否かの判断がなされる。
【００３４】
収束していない場合にはステップＳ１３に戻って、前記第１〜（ｎ−１）最頻ビンのショットの第（ｍ＋１）係数でのヒストグラム作成を行い、続いて前記したのと同様の処理を行い、類似ショットを絞る処理をする。この処理により、第２係数Ｙ_２による最頻ショットの絞り込みが行われる。以下、同様の処理を行い、第３係数Ｙ_３等の絞り込みを行い、類似ショットが十分に絞れたと判断される（ステップＳ１９の判断が肯定）と、最頻ショット検出処理は終了する。
【００３５】
なお、前記第１，２，３，・・・係数Ｙ１，Ｙ２，Ｙ３，・・・の順序付けは、図７の順序付けに限定されず、他の順序であってもよい。また、使用する成分は輝度成分のみ、色差成分のみ、または両者を用いることができ、各成分において使用できる係数も任意である。また、前記ステップＳ１５の処理により、色配置記述子の値の僅かな差で、あるショットが類似ショット検出から漏れてしまうのを防ぐことができる。このように色配置記述子を用いて類似ショットの絞込みを行い、最終的に最も要素数の多いビンに属するショットを最頻ショットSfとして決定する。
【００３６】
次に、さらに類似ショット検出の精度を高めるための処理（処理２）を、図８のフローチャートを参照して説明する。図８のステップＳ２０では、最頻ショットとして決定されたショットの色配置記述子の値の代表値（または参照値）を求め、ステップＳ２１では、この値を用いて全ショットにおける色配置記述子との距離Dの計算を行う。代表値としては、各成分・各係数の平均値や中間値などを用いることができる。距離Dの計算の結果、十分に小さい閾値THD以下の距離を持つショットを、最頻ショットとして検出することもできる。
【００３７】
距離Dの計算は、MPEG-7の検証モデルで推奨されている以下の式などを用いることができる。

【００３８】
ここで、Yr[i]、Cbr[i]、Crr[i]はそれぞれ輝度Y成分、色差Cb成分、色差Cr成分の第i係数の代表値、Y[i]、Cb[i]、Cr[i]はそれぞれの成分の低周波側からの第i係数、NY、NCb、NCrはそれぞれ距離Dの計算に用いる各成分の係数の数である。
【００３９】
図５に示すハイライトシーン判別部１３では、例えば野球中継などのテレビスポーツ映像を入力として、ヒットやホームランなどのハイライトシーンを検出する。ここで「シーン」とは、意味的に連続した一つ以上の「ショット」から構成される区間であることを示す。
【００４０】
ハイライトシーン判別部１３では、図６、図８の処理により得られた例えばテレビスポーツ映像における最頻ショットSfに対して、隣接する最頻ショットSf間のショット数Nsf、時間Tsfを求める。例えば野球中継の場合、ピッチャーがバッターに対してボールを投げるショット（以下、投球ショット）は、野球中継映像における最頻ショットであると考えられる。投球の結果がストライク、ボール、ファウルなどハイライトシーンとは見なせない場合には、次の投球ショットまでのショット数Nsfまたは時間Tsfは、それぞれ少ないまたは短いと考えられる。これに対して投球の結果がヒットやホームランなどハイライトシーンと認められる場合には、次の投球ショットまでのショット数Nsfまたは時間Tsfは、ある一定以上の値を取ると考えられる。
【００４１】
そこで、これらのいずれか若しくは両者がそれぞれある閾値THNsf（例えば30ショット）、THTsf（例えば60秒）以上の場合に（Nsf≧THNsf、Tsf≧THTsf）、これらの隣接する最頻ショットSf間の区間にハイライトシーンが存在すると判定する。ただし、野球中継の場合には主に攻守交替時にCMが挿入されることがあるため、投球ショット間のショット数Nsfおよび時間Tsfを併用することによって、効果的にハイライトシーンを抽出することができる。さらに、該区間含まれるショットにおけるショット内代表オーディオ種別Csに対して「歓声」が支配的であることを利用して、該区間がハイライトシーンであるとする判定の精度を向上させることができる。
【００４２】
また、該当する区間に存在する全てのショットをハイライトシーンとして判定することもできるが、上記オーディオ種別Csが「歓声」であり、且つオーディオパワーPsが最大であるショットを中心とした前後任意数のショットをハイライトシーンとして判定することもできる。これにより、例えば投球ショットが正常に検出されなかったり、投球の結果がアウトとなる場合など、ハイライトシーンではないが次の投球ショットまでのショット数Nsfまたは時間Tsfが大きくなってしまった場合の誤検出を抑えることができる。ハイライトシーンとして判定されたショット群に対して、それぞれショットクラス「ハイライト」を付与する。
【００４３】
また、図５に示すアナウンサークラス判別部１４においては、前記最頻ショット検出部１２で得られた最頻ショットを用いて、例えばテレビニュース映像からアナウンサークラスを検出する。該最頻ショットをテレビニュース映像に適用する場合、通常ニュース映像はアナウンサーショットに続き現場からの報告や資料映像、会見、解説などの映像が挿入され、これがニュース項目毎に繰り返される。アナウンサーショットは一つのニュース項目に対して一つ以上出現することが多いため、ニュース番組全体ではアナウンサーショットが最頻ショットであると考えられる。
【００４４】
ただし、解説などに使用される画面は背景色などが同一であるなど、最頻ショットと誤認識される可能性がある。これを防ぐために、色配置記述子の特に輝度成分について高い周波数成分の係数Y_ｎを解析する（例えばn＞6など）。解説画面は特に縮小画像にするとテクスチャが目立たなくなり、比較的平坦な画面となることが予想されるため、高い周波数成分Y_ｎの値は小さくなる。これに対してアナウンサーショットではアナウンサーが映っていることによりテクスチャが存在するため、高い周波数成分においても値は小さくならないと考えられる。この性質を利用して、最頻ショットとしてアナウンサーショットのみを抽出することができる。アナウンサーショットとして判定されたショットに対して、ショットクラス「アナウンサー」を付与する。
【００４５】
上記の「ハイライト」クラスのショットや、「アナウンサー」クラスのショットを集約して再生することにより、テレビスポーツ映像のハイライトや、テレビニュース映像のダイジェストなどを構成することができる。
【００４６】
次に、図９に本発明の第３の実施形態を示す。ここでは、入力動画像データがショット分割部１でショット分割され、図１と図５の処理を受ける。図１の処理により、ショットジャンル判別の処理４１、すなわち前記アクションクラス判別、ドラマチッククラス判別、および会話クラス判別の処理がなされる。一方、図５の処理により、サマリショット判別の処理４２、すなわちハイライトシーン判別と、アナウンサークラス判別の処理がなされる。
【００４７】
ショットジャンル判別部４１において決定されたショットクラスは、ショットジャンル記述部４３において、例えばMPEG-7で規定されている「分類スキーム（Classification Scheme)」で定義したショットのジャンルとして、各ショットの付属情報として記述することができる。
【００４８】
また、サマリショット判別部４２において、スポーツ映像のハイライトやニュース映像のダイジェストとして判定されたショットは、サマリショット記述部４４においてその時間情報などを記述することができる。サマリショット記述のフォーマットとしては、例えばMPEG-7で定義されている「階層的要約記述スキーム」などを用いることができる。記述された情報は、MPEG-7記述ファイルとして出力する。
【００４９】
【発明の効果】
以上の説明から明らかなように、請求項１、２の発明によれば、非圧縮または圧縮された動画像データにおいて、そのショットを様々な種別に分類することによって、動画像データの中から所望のシーンを検索・閲覧したり、多数の動画像データを効果的に分類したりすることが可能になる。
【００５０】
また、請求項３〜９の発明によれば、ショットを、アクションクラス、ドラマチッククラス、会話クラスおよび汎用クラスに高精度で分類することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態の動画像データ分類装置のブロック図である。
【図２】図１のアクションクラス判別部の動作を示すフローチャートである。
【図３】図１のドラマチッククラス判別部の動作を示すフローチャートである。
【図４】図１の会話クラス判別部の動作を示すフローチャートである。
【図５】本発明の第２実施形態の動画像データ分類装置のブロック図である。
【図６】図５の最頻ショット検出部の動作を示すフローチャートである。
【図７】色配置記述子を用いた最頻ショット検出処理の説明図である。
【図８】最頻ショット検出部の他の動作を示すフローチャートである。
【図９】本発明の第３実施形態の動画像データ分類装置のブロック図である。

Claims

非圧縮または圧縮された動画像データの分類装置において、
動画像データを時間軸上でショット単位に分割する動画像データ分割手段と、
該ショット単位の動画像データの動き強度を解析する動き情報解析手段と、
該ショット単位の動画像データに付随するオーディオデータを入力とし、少なくともオーディオ種別およびオーディオパワーを解析するオーディオデータ解析手段と、
前記動画像データ分割手段によって分割されたショットの長さ（以下、ショット長）、前記動き情報解析手段により解析された動き強度、および前記オーディオデータ解析手段により解析されたオーディオ種別又はオーディオパワーを用いて、分割された動画像データを予め定義された「アクション」クラス、「ドラマチック」クラス、「会話」クラスおよび「汎用」クラスの少なくとも一つに分類する分類手段とを具備したことを特徴とする動画像データの分類装置。
請求項１に記載の動画像データの分類装置において、
前記オーディオデータ解析手段は、オーディオパワー計算部と、オーディオ種別解析部とを含むことを特徴とする動画像データの分類装置。
請求項１又は２に記載の動画像データの分類装置において、
前記「アクション」クラスは、前記ショット長がある閾値よりも短く、ショット内の動き強度がある閾値よりも大きく、ショット内のオーディオパワーがある閾値よりも大きい場合に、該ショットを「アクション」クラスと分類されることを特徴とする動画像データの分類装置。
請求項１又は２に記載の動画像データの分類装置において、
前記「ドラマチック」クラスは、前記ショット長がある第一の閾値よりも長く且つ第二の閾値よりも短く、前記ショット内の動き強度がある第一の閾値よりも大きく且つ第二の閾値よりも小さく、かつ前記ショット内のオーディオパワーがある閾値よりも大きい場合に、該ショットを「ドラマチック」クラスと分類されることを特徴とする動画像データの分類装置。
請求項１又は２に記載の動画像データの分類装置において、
前記「会話」クラスは、前記ショット長がある閾値よりも長く、前記ショット内の動き強度がある閾値よりも小さく、前記ショット内のオーディオパワーがある閾値よりも小さく、かつ該ショット内のオーディオ種別が「音声」である場合に、該ショットを「会話」クラスと分類されることを特徴とする動画像データの分類装置。
請求項１に記載の動画像データの分類装置において、
前記「汎用」クラスは、前記予め定義されたクラスに分類する手段は、「汎用」クラスを分類する手段を具備し、請求項３から５に記載した判定手段によりいずれのクラスにも分類されなかったショットを、「汎用」クラスと分類することを特徴とする動画像データの分類装置。
請求項３ないし６のいずれかに記載の動画像データの分類装置において、
前記ショット内の動き強度は、入力動画像データが動き補償予測に基づく符号化データである場合に、ショット内に含まれる動き予測フレームの動きベクトルから得られることを特徴とする動画像データの分類装置。
請求項３ないし６のいずれかに記載の動画像データの分類装置において、
前記ショット内のオーディオパワーは、ショット内に含まれる単位時間あたりのオーディオパワーのショット内の平均値であることを特徴とする動画像データの分類装置。
請求項３ないし６のいずれかに記載の動画像データの分類装置において、
入力動画像データに付随するオーディオデータが帯域ごとに符号化されたデータである場合に、前記オーディオパワーは、該帯域ごとのデータから計算されることを特徴とする動画像データの分類装置。