JP4396914B2 - 動画像データの分類装置 - Google Patents

動画像データの分類装置 Download PDF

Info

Publication number
JP4396914B2
JP4396914B2 JP2003051514A JP2003051514A JP4396914B2 JP 4396914 B2 JP4396914 B2 JP 4396914B2 JP 2003051514 A JP2003051514 A JP 2003051514A JP 2003051514 A JP2003051514 A JP 2003051514A JP 4396914 B2 JP4396914 B2 JP 4396914B2
Authority
JP
Japan
Prior art keywords
shot
moving image
image data
class
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003051514A
Other languages
English (en)
Other versions
JP2004260734A (ja
Inventor
勝 菅野
康之 中島
広昌 柳原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI R&D Laboratories Inc
Original Assignee
KDDI R&D Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI R&D Laboratories Inc filed Critical KDDI R&D Laboratories Inc
Priority to JP2003051514A priority Critical patent/JP4396914B2/ja
Publication of JP2004260734A publication Critical patent/JP2004260734A/ja
Application granted granted Critical
Publication of JP4396914B2 publication Critical patent/JP4396914B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、動画像データの分類装置に関し、特に、非圧縮または圧縮された動画像データを、予め定義されたクラスに分類することにより、動画像データの効率的な検索、分類あるいは閲覧を提供することが可能な動画像データの分類装置に関する。
【0002】
【従来の技術】
動画像データのシーン分類に関する従来技術としては、例えばテレビ放送の動画像データを入力として、それをニュース、スポーツ、コマーシャルなど、比較的大きい単位で分類を行う方式が検討されている。また、いくつかの関連する動画区間を論理的ストーリー単位(Logical Story Unit)に分割する方式も検討されている。ここでは、動画像データとしての特徴のほかに、動画像データに付随するオーディオデータの特徴を用いるものも提案されている。
【0003】
また、要約情報としてのハイライトシーンの検出については、圧縮動画像データの圧縮領域において、それに付随するオーディオの特性を用いて、スポーツ映像などのハイライトシーンを抽出する技術が提案されている。
【0004】
さらに、本出願人による特願2002−285667では、ショット単位の分類技術として、動的/静的シーンへの分類や、スローシーン、パンやズームなどのカメラ操作といった比較的抽象レベルの低いシーンから、スポーツ映像のハイライトシーンといった比較的抽象レベルの高いシーンへの分類方式が提案されている。
【0005】
【発明が解決しようとする課題】
従来技術は主に非圧縮データ領域で動画像データやそれに付随するオーディオデータの解析を行うものが多く、圧縮された動画像データについては一度復号処理を行う必要があったり、処理コストが多くかかったりすることが問題であった。また、分類の単位についても、番組ごとや論理的ストーリー単位など、比較的大きい単位での分類が主流であるため、より詳細な単位での分類技術については例えば特願2002−285667で示された技術などが必要である。 詳細な単位での分類は、例えば動画像データにおける特定シーンの閲覧や、動画像データベースにおける分類などには重要かつ効果的である。特願2002−285667で示された技術では、動的/静的なシーンやカメラ操作の抽出など、意味的に低いレベルでのシーン分類が主流であるため、より抽象レベルの高いシーン閲覧やコンテンツフィルタリングには対応できないという問題があった。例えば、映画コンテンツから暴力的なシーンを除外するといったフィルタリングはできないという問題があった。
【0006】
本発明は前記した従来技術に鑑みてなされたものであり、その目的は、非圧縮または圧縮された動画像データを、動画像としての特徴や、必要に応じて動画像に付随するオーディオの特徴を用いて、低コストかつ高精度で様々なクラス(ショットクラス)へ分類する、動画像データの分類装置を提供することにある。
【0007】
前記の目的を達成するために、本発明は、非圧縮または圧縮された動画像データの分類装置において、動画像データを時間軸上でショット単位に分割する動画像データ分割手段と、該ショット単位の動画像データの動き強度を解析する動き情報解析手段と、該ショット単位の動画像データに付随するオーディオデータを入力とし、少なくともオーディオ種別およびオーディオパワーを解析するオーディオデータ解析手段と、前記動画像データ分割手段によって分割されたショットの長さ(以下、ショット長)、前記動き情報解析手段により解析された動き強度、および前記オーディオデータ解析手段により解析されたオーディオ種別又はオーディオパワーを用いて、分割された動画像データを予め定義された「アクション」クラス、「ドラマチック」クラス、「会話」クラスおよび「汎用」クラスの少なくとも一つに分類する分類手段とを具備した点に第1の特徴がある。
【0008】
この特徴によれば、非圧縮または圧縮された動画像データにおいて、その分割単位を様々な種別、例えばアクションクラス、ドラマチッククラス、会話クラス、汎用クラスなどに分類することによって、動画像データの中から所望のシーンを検索・閲覧したり、多数の動画像データを効果的に分類したりすることが可能になる。
【0011】
【発明の実施の形態】
以下に、図面を参照して本発明を詳細に説明する。まず、本発明の一実施形態を、図1を参照して説明する。図1は、動画像データの分類装置の要部の構成を示すブロック図である。ここでは、入力された動画像データをショット分割部1でショット単位に分割する例を用いて説明するが、分割の単位は動画像を撮像する際のカメラ操作あるいは撮像された動画像の内容に関して、一貫性のある単位であれば任意である。例えば、カメラのスタートボタンが押されてから停止ボタンが押されるまで(この間に例えばズーム操作などがなされてもよい)の動画像を1分割単位と考えることができる。
【0012】
まず、非圧縮または圧縮された動画像データおよびこれに付随するオーディオデータまたはこれと多重化されているオーディオデータが入力されると、ショット分割部1において動画像データはショットに分割される。ショット分割部1においては、入力された動画像データの各ショットのショット長Lsを保持しておく。ショット分割部で分割された各ショットの動画像データは、動き情報解析部2に渡される。
【0013】
またこれと並行して、動画像データに付随するオーディオデータまたは動画像データと多重化されているオーディオデータを逆多重化して得られるオーディオデータが、オーディオ解析部3に渡される。
【0014】
動き情報解析部2においては、圧縮された動画像データに対して、ショット内に存在する予測符号化画像が持つ動きベクトルの値を用いて、ショットにおける動き強度の値Isを計算する。動き強度Isについては、MPEG-7で定義されている「動きアクティビティ記述子」の要素である「動き強度(Motion Intensity)」などを用いることができる。「動きアクティビティ記述子」の「動き強度」要素は、1から5までの整数で表現される(1が最低、5が最高)。
【0015】
一方、非圧縮の動画像データに対しては、ブロックマッチング法などを用いて前画面からの動きを推定し、得られた値を動きベクトルとして表現し、上記と同様に動き強度Isの値を計算する。このとき、ショットとしての動き強度Isは、対象とした予測符号化画像における動き強度Ipの値をショット内で平均したものや、それらの最大値、中間値などを用いることができる。また、動き情報解析の対象とする予測符号化画像および動きベクトルとしては、順方向予測符号化画像や双方向予測符号化画像、および双方向予測符号化画像における順方向動きベクトル、逆方向動きベクトルのいずれの組み合わせでも用いることができる。
【0016】
オーディオ解析部3は、基本的にはオーディオパワー計算部31を含むが、オーディオ種別解析部32を含むこともできる。オーディオパワー計算部31においては、入力されたショット内のオーディオデータのオーディオ信号のパワーPsあるいは帯域ごとのオーディオパワーPsbを計算する。帯域ごとのオーディオパワーPsbを計算する場合は、任意の帯域幅を選択することができるほか、帯域ごとに重み付けを行うこともでき、これらの総和をショット内のオーディオパワーPsとする。従って、Psは以下のように表される。
Figure 0004396914
【0017】
ここで、lsbはオーディオパワーを計算する最低帯域の帯域番号、hsbは最高帯域の帯域番号、w[i]は帯域iにおけるオーディオパワーPsb[i]に対する重み付けである。
【0018】
さらに、オーディオ種別解析部32が利用できる場合には、例えば入力されたショット内のオーディオデータが「無音」、「音声」、「音楽」、「歓声」などのオーディオ種別に分類される。オーディオ種別解析部32の処理としては、特開平10−247093号公報に述べられた方法などを用いることができる。単位時間辺りでこのオーディオ種別が決定される場合には、ショット内の最頻のクラスをショットの代表オーディオ種別Csと見なす。
【0019】
ここで、本発明における分類装置で扱うショットクラスについて定義する。
「アクション」クラス…映画などで、銃撃や爆発など、オーディオの音量および動きなどが大きく、ショット長も短いショット、
「ドラマチック」クラス…映画などで、「アクション」クラスに先立つことが多く、何らかの重要なイベントが起こるまたは起ころうとしているショット、
「会話」クラス…映画などで、二人以上の登場人物が会話を交わしているショット、
「ハイライト」クラス…テレビスポーツ映像において、得点シーンなどの重要なイベントを含むショット、
「アナウンサー」クラス…テレビニュース映像において、アナウンサーがニュースを読み上げているショット、
【0020】
アクションクラス判別部4、ドラマチッククラス判別部5においては、ショット分割部1から入力されるショット長Ls、動き情報解析部から得られるショット内動き強度Is、及びショット内オーディオパワーPsを入力とする。また、会話クラス判別部6においては、さらにショット内の代表オーディオ種別Csを入力とする。
【0021】
次に、図1に示した、アクションクラス判別部4,ドラマチッククラス判別部5,および会話クラス判別部6の機能を詳細に説明する。
【0022】
アクションクラス判別部4での判定処理は、図2に示されているように行われる。ステップS1では、ショット長Lsがある閾値THL1(例えば2秒など)よりも小さく(Ls<THL1)、ショット内動き強度Isがある閾値THI1(例えば2.3など)よりも大きく(Is>THI1)、さらにショット内オーディオパワーPsがある閾値THP1よりも大きい場合に(Ps>THP1)、該当するショットが「アクション」クラスであると判定する。そして、ステップS2において、ショットクラスとして「アクション」を付与する。
【0023】
ドラマチッククラス判別部5での判定処理は、図3に示されているように行われる。ステップS3では、ショット長Lsが前記閾値THL1よりも大きく(Ls>THL1)、かつ別の閾値THL2(例えば5秒)よりも小さく(Ls<THL2)、ショット内動き強度Isが前記閾値THI1よりも小さく(Is<THI1)、且つ別の閾値THI2(例えば1.2など)よりも大きく(Is>THI2)、さらにショット内オーディオパワーPsがある閾値THP2よりも大きい場合に(Ps>THP2)、該当するショットが「ドラマチック」クラスであると判定する。そして、ステップS4において、ショットクラスとして「ドラマチック」を付与する。
【0024】
会話クラス判別部6での判定処理は、図4に示されているように行われる。ステップS5では、ショット長Lsがある閾値THL3(THL3>THL2、例えば6秒など)よりも大きく(Ls>THL3)、ショット内動き強度Isがある閾値THI3(好ましくはTHI3≧THI2、例えば1.5など、なお場合によっては、THI3<THI2であってもよい)よりも小さく(Is<THI3)、ショット内オーディオパワーPsがある閾値THP3(THP3<THP2)よりも小さく(Ps<THP3)、さらにショット内代表オーディオ種別Csが「音声」である場合該当するショットが「会話」クラスであると判定する。そしてステップS6において、ショットクラスとして「会話」を付与する。
【0025】
上記アクションクラス判別部4、ドラマチッククラス判別部5、および会話クラス判別部6においていずれのショットクラスにも属さないと判定されたショットは、「汎用」クラスであると判定し、ショットクラスとして「汎用」を付与する。
【0026】
なお、前記実施形態では、前記アクションクラス判別部4、ドラマチッククラス判別部5、および会話クラス判別部6は、分割区間長L、動き情報I、およびオーディオデータPを用いて各クラスを判別したが、本発明はこれに限定されず、上記のうちの少なくとも一つを用いて判別するようにしてもよい。
【0027】
次に、本発明の第2実施形態を、図5を参照して説明する。図5において、図1と同一または同等物には同じ符号が付されている。この実施形態では、ショット分割部1でショット分割された動画像データは、特徴値抽出部11に送られ、ショットの画像特徴値が抽出される。次いで、最頻ショット検出部12は、該画像特徴値を基に最頻ショットを検出する。
【0028】
前記画像特徴値としては、例えばショット分割部でショット分割点と判定された画像、すなわちショット先頭画面の画像データそのものを保持したり、その画像の縮小画像の画像データや、その画像から得られる、MPEG-7で定義された「色配置記述子(Color Layout Descriptor)」などを用いることができる。また、対象とする画像についても、前記ショット先頭画面だけでなく、ショットの中心画面や、ショットを代表する画面(キーフレーム)などを用いることができる。
【0029】
ここでは、色配置記述子を用いた例について述べる。色配置記述子は、原画像を縮小した画像(8×8画素)の輝度成分、色差成分に8×8のDCTを施したものであり、各成分のDCT係数を値として持つ。
【0030】
最頻ショット検出部12の動作(最頻ショット検出処理1)を、図6のフローチャートを参照して説明する。ここに、最頻ショットとは、データ内に最も頻度が高く出現する類似ショットSfを意味する。まず、図7に示されているような入力動画像データ21を一旦全て読み込み、ステップS11で各ショット(1,2,3,・・・,n)の先頭画面から画像特徴値、例えば色配置記述子(a1,a2,a3,・・・,an)を抽出する。ステップS12では、ある置き数m=1とし、ステップS13で該色配置記述子の第m係数、例えば原画像を縮小した画像の輝度成分に8×8のDCTを施したものの第m係数でヒストグラムを作成する。図7の例では、まず第1係数(m=1)Y(1),Y(2),Y(3),・・・,Y(n)でヒストグラムを作成する。
【0031】
ステップS14では、ある置き数n=2とし、ステップS15で第1最頻ビンの要素数と、第2最頻ビン(n=2)の要素数の差は予め定めた基準より小であるか否かの判断が行われる。例えば(第1の最頻ビンの要素数)×0.85<(第2の最頻ビンの要素数)を満たすか否かの判断をする。ここに、前記第1最頻ビンの要素数は、データ内に最も頻度が高く出現する類似ショットを意味する。したがって、ステップS15では、出現頻度の最も大きいショットと次に出現頻度の大きいショットとの差が小さいか否かの判断がなされる。
【0032】
この判断が肯定であれば、ステップS16に進みnが1インクリメントされて、ステップS15で第1最頻ビンの要素数と、第(n+1)最頻ビンの要素数の差は予め定めた基準より小であるか否かの判断が行われる。この判断が肯定になると、第(n+1)最頻ビンも出現頻度の大きいショットになる。
【0033】
上記の処理が行われ、ステップS15の判断が否定になると、ステップS17に進んで、第1〜(n−1)最頻ビンを最頻ショットに採用する。以上により、第1係数による最頻ショットの絞り込みが終了する。次に、ステップS18では、mを1インクリメントする。ステップS19では、第1〜(n−1)最頻ビンは収束したか否かの判断がなされる。すなわち、データ内に最も頻度が高く出現する類似ショットが十分に絞れたか否かの判断がなされる。
【0034】
収束していない場合にはステップS13に戻って、前記第1〜(n−1)最頻ビンのショットの第(m+1)係数でのヒストグラム作成を行い、続いて前記したのと同様の処理を行い、類似ショットを絞る処理をする。この処理により、第2係数Yによる最頻ショットの絞り込みが行われる。以下、同様の処理を行い、第3係数Y等の絞り込みを行い、類似ショットが十分に絞れたと判断される(ステップS19の判断が肯定)と、最頻ショット検出処理は終了する。
【0035】
なお、前記第1,2,3,・・・係数Y1,Y2,Y3,・・・の順序付けは、図7の順序付けに限定されず、他の順序であってもよい。また、使用する成分は輝度成分のみ、色差成分のみ、または両者を用いることができ、各成分において使用できる係数も任意である。また、前記ステップS15の処理により、色配置記述子の値の僅かな差で、あるショットが類似ショット検出から漏れてしまうのを防ぐことができる。このように色配置記述子を用いて類似ショットの絞込みを行い、最終的に最も要素数の多いビンに属するショットを最頻ショットSfとして決定する。
【0036】
次に、さらに類似ショット検出の精度を高めるための処理(処理2)を、図8のフローチャートを参照して説明する。図8のステップS20では、最頻ショットとして決定されたショットの色配置記述子の値の代表値(または参照値)を求め、ステップS21では、この値を用いて全ショットにおける色配置記述子との距離Dの計算を行う。代表値としては、各成分・各係数の平均値や中間値などを用いることができる。距離Dの計算の結果、十分に小さい閾値THD以下の距離を持つショットを、最頻ショットとして検出することもできる。
【0037】
距離Dの計算は、MPEG-7の検証モデルで推奨されている以下の式などを用いることができる。
Figure 0004396914
【0038】
ここで、Yr[i]、Cbr[i]、Crr[i]はそれぞれ輝度Y成分、色差Cb成分、色差Cr成分の第i係数の代表値、Y[i]、Cb[i]、Cr[i]はそれぞれの成分の低周波側からの第i係数、NY、NCb、NCrはそれぞれ距離Dの計算に用いる各成分の係数の数である。
【0039】
図5に示すハイライトシーン判別部13では、例えば野球中継などのテレビスポーツ映像を入力として、ヒットやホームランなどのハイライトシーンを検出する。ここで「シーン」とは、意味的に連続した一つ以上の「ショット」から構成される区間であることを示す。
【0040】
ハイライトシーン判別部13では、図6、図8の処理により得られた例えばテレビスポーツ映像における最頻ショットSfに対して、隣接する最頻ショットSf間のショット数Nsf、時間Tsfを求める。例えば野球中継の場合、ピッチャーがバッターに対してボールを投げるショット(以下、投球ショット)は、野球中継映像における最頻ショットであると考えられる。投球の結果がストライク、ボール、ファウルなどハイライトシーンとは見なせない場合には、次の投球ショットまでのショット数Nsfまたは時間Tsfは、それぞれ少ないまたは短いと考えられる。これに対して投球の結果がヒットやホームランなどハイライトシーンと認められる場合には、次の投球ショットまでのショット数Nsfまたは時間Tsfは、ある一定以上の値を取ると考えられる。
【0041】
そこで、これらのいずれか若しくは両者がそれぞれある閾値THNsf(例えば30ショット)、THTsf(例えば60秒)以上の場合に(Nsf≧THNsf、Tsf≧THTsf)、これらの隣接する最頻ショットSf間の区間にハイライトシーンが存在すると判定する。ただし、野球中継の場合には主に攻守交替時にCMが挿入されることがあるため、投球ショット間のショット数Nsfおよび時間Tsfを併用することによって、効果的にハイライトシーンを抽出することができる。さらに、該区間含まれるショットにおけるショット内代表オーディオ種別Csに対して「歓声」が支配的であることを利用して、該区間がハイライトシーンであるとする判定の精度を向上させることができる。
【0042】
また、該当する区間に存在する全てのショットをハイライトシーンとして判定することもできるが、上記オーディオ種別Csが「歓声」であり、且つオーディオパワーPsが最大であるショットを中心とした前後任意数のショットをハイライトシーンとして判定することもできる。これにより、例えば投球ショットが正常に検出されなかったり、投球の結果がアウトとなる場合など、ハイライトシーンではないが次の投球ショットまでのショット数Nsfまたは時間Tsfが大きくなってしまった場合の誤検出を抑えることができる。ハイライトシーンとして判定されたショット群に対して、それぞれショットクラス「ハイライト」を付与する。
【0043】
また、図5に示すアナウンサークラス判別部14においては、前記最頻ショット検出部12で得られた最頻ショットを用いて、例えばテレビニュース映像からアナウンサークラスを検出する。該最頻ショットをテレビニュース映像に適用する場合、通常ニュース映像はアナウンサーショットに続き現場からの報告や資料映像、会見、解説などの映像が挿入され、これがニュース項目毎に繰り返される。アナウンサーショットは一つのニュース項目に対して一つ以上出現することが多いため、ニュース番組全体ではアナウンサーショットが最頻ショットであると考えられる。
【0044】
ただし、解説などに使用される画面は背景色などが同一であるなど、最頻ショットと誤認識される可能性がある。これを防ぐために、色配置記述子の特に輝度成分について高い周波数成分の係数Yを解析する(例えばn>6など)。解説画面は特に縮小画像にするとテクスチャが目立たなくなり、比較的平坦な画面となることが予想されるため、高い周波数成分Yの値は小さくなる。これに対してアナウンサーショットではアナウンサーが映っていることによりテクスチャが存在するため、高い周波数成分においても値は小さくならないと考えられる。この性質を利用して、最頻ショットとしてアナウンサーショットのみを抽出することができる。アナウンサーショットとして判定されたショットに対して、ショットクラス「アナウンサー」を付与する。
【0045】
上記の「ハイライト」クラスのショットや、「アナウンサー」クラスのショットを集約して再生することにより、テレビスポーツ映像のハイライトや、テレビニュース映像のダイジェストなどを構成することができる。
【0046】
次に、図9に本発明の第3の実施形態を示す。ここでは、入力動画像データがショット分割部1でショット分割され、図1と図5の処理を受ける。図1の処理により、ショットジャンル判別の処理41、すなわち前記アクションクラス判別、ドラマチッククラス判別、および会話クラス判別の処理がなされる。一方、図5の処理により、サマリショット判別の処理42、すなわちハイライトシーン判別と、アナウンサークラス判別の処理がなされる。
【0047】
ショットジャンル判別部41において決定されたショットクラスは、ショットジャンル記述部43において、例えばMPEG-7で規定されている「分類スキーム(Classification Scheme)」で定義したショットのジャンルとして、各ショットの付属情報として記述することができる。
【0048】
また、サマリショット判別部42において、スポーツ映像のハイライトやニュース映像のダイジェストとして判定されたショットは、サマリショット記述部44においてその時間情報などを記述することができる。サマリショット記述のフォーマットとしては、例えばMPEG-7で定義されている「階層的要約記述スキーム」などを用いることができる。記述された情報は、MPEG-7記述ファイルとして出力する。
【0049】
【発明の効果】
以上の説明から明らかなように、請求項1、2の発明によれば、非圧縮または圧縮された動画像データにおいて、そのショットを様々な種別に分類することによって、動画像データの中から所望のシーンを検索・閲覧したり、多数の動画像データを効果的に分類したりすることが可能になる。
【0050】
また、請求項3〜9の発明によれば、ショットを、アクションクラス、ドラマチッククラス、会話クラスおよび汎用クラスに高精度で分類することができる。
【図面の簡単な説明】
【図1】 本発明の一実施形態の動画像データ分類装置のブロック図である。
【図2】 図1のアクションクラス判別部の動作を示すフローチャートである。
【図3】 図1のドラマチッククラス判別部の動作を示すフローチャートである。
【図4】 図1の会話クラス判別部の動作を示すフローチャートである。
【図5】 本発明の第2実施形態の動画像データ分類装置のブロック図である。
【図6】 図5の最頻ショット検出部の動作を示すフローチャートである。
【図7】 色配置記述子を用いた最頻ショット検出処理の説明図である。
【図8】 最頻ショット検出部の他の動作を示すフローチャートである。
【図9】 本発明の第3実施形態の動画像データ分類装置のブロック図である。

Claims (9)

  1. 非圧縮または圧縮された動画像データの分類装置において、
    動画像データを時間軸上でショット単位に分割する動画像データ分割手段と、
    該ショット単位の動画像データの動き強度を解析する動き情報解析手段と、
    該ショット単位の動画像データに付随するオーディオデータを入力とし、少なくともオーディオ種別およびオーディオパワーを解析するオーディオデータ解析手段と、
    前記動画像データ分割手段によって分割されたショットの長さ(以下、ショット長)、前記動き情報解析手段により解析された動き強度、および前記オーディオデータ解析手段により解析されたオーディオ種別又はオーディオパワーを用いて、分割された動画像データを予め定義された「アクション」クラス、「ドラマチック」クラス、「会話」クラスおよび「汎用」クラスの少なくとも一つに分類する分類手段とを具備したことを特徴とする動画像データの分類装置。
  2. 請求項1に記載の動画像データの分類装置において、
    前記オーディオデータ解析手段は、オーディオパワー計算部と、オーディオ種別解析部とを含むことを特徴とする動画像データの分類装置。
  3. 請求項1又は2に記載の動画像データの分類装置において、
    前記「アクション」クラスは、前記ショット長がある閾値よりも短く、ショット内の動き強度がある閾値よりも大きく、ショット内のオーディオパワーがある閾値よりも大きい場合に、該ショットを「アクション」クラスと分類されることを特徴とする動画像データの分類装置。
  4. 請求項1又は2に記載の動画像データの分類装置において、
    前記「ドラマチック」クラスは、前記ショット長がある第一の閾値よりも長く且つ第二の閾値よりも短く、前記ショット内の動き強度がある第一の閾値よりも大きく且つ第二の閾値よりも小さく、かつ前記ショット内のオーディオパワーがある閾値よりも大きい場合に、該ショットを「ドラマチック」クラスと分類されることを特徴とする動画像データの分類装置。
  5. 請求項1又は2に記載の動画像データの分類装置において、
    前記「会話」クラスは、前記ショット長がある閾値よりも長く、前記ショット内の動き強度がある閾値よりも小さく、前記ショット内のオーディオパワーがある閾値よりも小さく、かつ該ショット内のオーディオ種別が「音声」である場合に、該ショットを「会話」クラスと分類されることを特徴とする動画像データの分類装置。
  6. 請求項1に記載の動画像データの分類装置において、
    前記「汎用」クラスは、前記予め定義されたクラスに分類する手段は、「汎用」クラスを分類する手段を具備し、請求項3から5に記載した判定手段によりいずれのクラスにも分類されなかったショットを、「汎用」クラスと分類することを特徴とする動画像データの分類装置。
  7. 請求項3ないし6のいずれかに記載の動画像データの分類装置において、
    前記ショット内の動き強度は、入力動画像データが動き補償予測に基づく符号化データである場合に、ショット内に含まれる動き予測フレームの動きベクトルから得られることを特徴とする動画像データの分類装置。
  8. 請求項3ないし6のいずれかに記載の動画像データの分類装置において、
    前記ショット内のオーディオパワーは、ショット内に含まれる単位時間あたりのオーディオパワーのショット内の平均値であることを特徴とする動画像データの分類装置。
  9. 請求項3ないし6のいずれかに記載の動画像データの分類装置において、
    入力動画像データに付随するオーディオデータが帯域ごとに符号化されたデータである場合に、前記オーディオパワーは、該帯域ごとのデータから計算されることを特徴とする動画像データの分類装置。
JP2003051514A 2003-02-27 2003-02-27 動画像データの分類装置 Expired - Fee Related JP4396914B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003051514A JP4396914B2 (ja) 2003-02-27 2003-02-27 動画像データの分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003051514A JP4396914B2 (ja) 2003-02-27 2003-02-27 動画像データの分類装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009196734A Division JP4999015B2 (ja) 2009-08-27 2009-08-27 動画像データの分類装置

Publications (2)

Publication Number Publication Date
JP2004260734A JP2004260734A (ja) 2004-09-16
JP4396914B2 true JP4396914B2 (ja) 2010-01-13

Family

ID=33116639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003051514A Expired - Fee Related JP4396914B2 (ja) 2003-02-27 2003-02-27 動画像データの分類装置

Country Status (1)

Country Link
JP (1) JP4396914B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4730813B2 (ja) * 2005-03-29 2011-07-20 Kddi株式会社 動画像データの分類装置
JP2006279429A (ja) * 2005-03-29 2006-10-12 Kddi Corp 映像コンテンツの推薦システム
JP4895315B2 (ja) * 2009-04-24 2012-03-14 Kddi株式会社 動画像のカット点検出装置
CN103503454A (zh) * 2011-01-28 2014-01-08 艾艾欧有限公司 场景形式的视频流编码

Also Published As

Publication number Publication date
JP2004260734A (ja) 2004-09-16

Similar Documents

Publication Publication Date Title
KR100957902B1 (ko) 영상 요약 장치
JP4036328B2 (ja) 動画像データのシーン分類装置
US7761491B2 (en) Method for detecting a commercial in a video data stream by evaluating descriptor information
JP4424590B2 (ja) スポーツ映像の分類装置
US7327885B2 (en) Method for detecting short term unusual events in videos
KR100869038B1 (ko) 컨텐츠 에디터, 비디오 컨텐츠 검출기, 커머셜 및 컨텐츠 검출 방법
EP1204034B1 (en) Method for automatic extraction of sematically significant events from video
CN101303695B (zh) 用于处理运动视频的装置
KR100438269B1 (ko) 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법
US20030131362A1 (en) Method and apparatus for multimodal story segmentation for linking multimedia content
US20030061612A1 (en) Key frame-based video summary system
KR20040070269A (ko) 광고방송 및 다른 비디오 콘텐츠의 검출을 위한 패밀리히스토그램 기반으로 한 기술들
JP5537285B2 (ja) 要約映像生成装置及び要約映像生成プログラム
JP2004526372A (ja) ストリーミング映像ブックマーク
JP2004528790A (ja) 番組開始及び終了区切りを検出する拡張epg
JP2002016873A (ja) 信号処理装置及び方法
US20100259688A1 (en) method of determining a starting point of a semantic unit in an audiovisual signal
Zhang et al. Detecting sound events in basketball video archive
JP3728775B2 (ja) 動画像の特徴場面検出方法及び装置
JP4999015B2 (ja) 動画像データの分類装置
JP4396914B2 (ja) 動画像データの分類装置
Glasberg et al. New real-time approaches for video-genre-classification using high-level descriptors and a set of classifiers
Zhu et al. SVM-based video scene classification and segmentation
JP3906854B2 (ja) 動画像の特徴場面検出方法及び装置
Glasberg et al. Recognizing commercials in real-time using three visual descriptors and a decision-tree

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090827

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091014

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091015

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151030

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees