JP4730813B2 - 動画像データの分類装置 - Google Patents

動画像データの分類装置 Download PDF

Info

Publication number
JP4730813B2
JP4730813B2 JP2005094491A JP2005094491A JP4730813B2 JP 4730813 B2 JP4730813 B2 JP 4730813B2 JP 2005094491 A JP2005094491 A JP 2005094491A JP 2005094491 A JP2005094491 A JP 2005094491A JP 4730813 B2 JP4730813 B2 JP 4730813B2
Authority
JP
Japan
Prior art keywords
shot
moving image
image data
determination unit
explosion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005094491A
Other languages
English (en)
Other versions
JP2006277232A (ja
Inventor
勝 菅野
康弘 滝嶋
康之 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2005094491A priority Critical patent/JP4730813B2/ja
Publication of JP2006277232A publication Critical patent/JP2006277232A/ja
Application granted granted Critical
Publication of JP4730813B2 publication Critical patent/JP4730813B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Description

本発明は、非圧縮または圧縮された動画像データを解析し、それらを予め定義されたショット種別に分類する動画像データの分類装置に関し、特に意味的なショット種別に分類することによって動画像データの効率的な検索、閲覧、あるいは動画像の内容や文脈の推定をすることが可能な、動画像データの分類装置に関する。
動画像データのショット分類に関する従来技術としては、本発明者等による特開2004−260734号公報において、ショットを「アクション」クラス、「ドラマチック」クラス、「会話」クラス、「汎用」クラスなどに分類する手段、スローシーン、ズームシーン、パンシーンなどの意味的な概念を持たないシーン種別、及びコマーシャルシーンやハイライトシーンなどの意味的な概念を持つシーン種別に分類する装置が開示されている。
また、本発明者等による特願2004−62866号においては、ショット種別として「風景」クラスを導入し、同一クラスのショットの集合をシーンとして判定する装置が開示されている。
特開2004−260734号公報
前記した既存技術では、動画像データを予め定義されたショット種別に分類することができるが、これらは比較的大まかな分類であり、ショットのラベル付けという観点ではより詳細なショット種別が必要となる。例えば「アクション」クラスは比較的広義であり、実際には「爆発」や「カーチェイス」などの従属クラスが存在する。また、このようなショット種別を用いて動画像の内容や文脈を推定しようとした場合、詳細なショット種別を定義することにより動画像の内容や文脈を適切に捉えることができる。
本発明は、前記した従来技術に鑑みてなされたものであり、その目的は、より詳細なショット種別を判定することのできる非圧縮または圧縮された動画像データの分類装置を提供することにある。
本発明は、非圧縮または圧縮された動画像データの分類装置において、 前記動画像データのショット分割を行うショット分割部と、前記動画像データにおける色情報を解析する色情報解析部と、動き情報を解析する動き情報解析部と、前記動画像データに付随するオーディオデータを解析するオーディオ解析部と、前記動画像データの動き情報とオーディオデータからアクションを含むショットを判定するアクションショット判定部と、 前記動画像データの動き情報とオーディオデータから会話を含むショットを判定する会話ショット判定部と、前記アクションショット判定部から得られたアクションショットの中から前記色情報解析部で解析された色情報を用いて爆発ショットを判定する爆発ショット判定部と、前記アクションショット判定部から得られた動き情報を用いてチェイスショットを判定するチェイスショット判定部と、前記会話ショット判定部から得られた会話ショットの中からクローズアップショットを判定するクローズアップショット判定部とを具備し、前記爆発ショットとチェイスショットはアクションショットの従属クラス、前記クローズアップショットは会話ショットの従属クラスとすることにより、階層的なショット種別の分類を行うようにした点に特徴がある。
本発明によれば、非圧縮または圧縮された動画像データを、爆発ショット、チェイスショット、またはクローズアップショット等の意味的なショット種別に分類することができる。
また、アクションからさらにチェイスを含むショットを判定し、あるいは会話ショット判定部から得られた会話ショットからクローズアップを含むショットを判定し、階層的なショット種別の分類を行うことができるようになる。
また、本発明を用いれば、動画像データの検索、閲覧や、動画像の内容や文脈の推定を、効率的に行えるようになる。
以下に、図面を参照して本発明を詳細に説明する。まず、本発明の一実施形態を、図1を参照して説明する。図1は、動画像データの分割装置の構成図である。
まず、非圧縮または圧縮された動画像データはショット分割部でショット単位に分割され、その後各々のショットから色情報解析部2において色情報が、動き情報解析部3において動き情報が、さらに付随するオーディオデータからオーディオ解析部4においてオーディオ情報が抽出される。これらの処理については、前記特許文献1で開示されている手法などを用いることができる。
色情報を抽出する対象は、ショットの先頭フレームやショットを代表するキーフレーム、またはショット内の全てのフレームなど、任意のフレームを選択することができる。また、オーディオ情報としては、オーディオエネルギーやオーディオ種別などを用いることができるが、ここではサブバンドに分割されて符号化されているオーディオデータを対象として、サブバンドエネルギーの重み付け平均を用いるものとして説明する。
このとき、入力動画像データがMPEG形式など離散コサイン変換を用いて圧縮符号化されたデータである場合には、直流成分のみから構成される画像(DC画像)を用いて色情報を解析することができる。色情報としては、画像内の画素値のデータ、画像内の任意の色ヒストグラム、または画像内の色配置情報などを用いることができる。
また、予測符号化を用いて圧縮されている場合には、動き情報を抽出する対象は、順方向予測符号化画像や双方向予測符号化画像、および双方向予測符号化画像における順方向動きベクトル、逆方向動きベクトルのいずれの組み合わせでも用いることができる。これらを対象として抽出した動き情報に対し、ショット内の平均値や中間値、最大値など任意の値を動き情報として利用することができる。
色情報解析部3、動き情報解析部2、オーディオ情報解析部4の後段にはショット分類部5が配置される。このショット分類部5は、爆発ショット判定部51、チェイスショット判定部52、およびクローズアップショット判定部53から少なくとも構成される。ショット分類部5の出力は、ショット種別登録部6に登録される。
爆発ショット判定部51は色情報とオーディオ情報を、チェイスショット判定部52は動き情報を、クローズアップショット判定部53は色情報(または、必要に応じてオーディオ情報)を、それぞれ少なくとも入力とし、以降の判定処理を行う。
まず、爆発ショット判定部51における処理を、図2を参照して説明する。爆発ショット判定部51では、下記の(1)、(2)の少なくともいずれかを評価するとともに、爆発音に伴うオーディオ情報の特性を評価する。
(1)色情報を画素値データとしたときの、炎に該当する画素値を持つ画素数
(2)色情報を色ヒストグラムとしたときの、炎に該当する色範囲の頻度
具体的には、ステップS1で、爆発ショット判定部51にフレームFNが入力される。ステップS2では、爆発ショット判定部51に入力されたショット内の任意のフレームFNの色情報について、予め規定された炎に該当する色を持つ画素数P_flameを計数し、この値が予め定められた閾値THP_flameよりも大きい場合、もしくは予め規定された炎に該当する色範囲の頻度H_flameが予め定められた閾値THH_flameよりも大きい場合に、もしくは共に大きい場合にステップS3に進み、フレームFNに爆発が含まれると判定する。ステップS4では、このフレームを含むショットに爆発が含まれると判定する。
ここで、画像の特徴だけを用いた場合には例えば太陽の色などによる誤判定が生じる可能性があるため、前記の判定に対してさらにショット内のサブバンドエネルギーの重み付け平均SBEがある閾値THA_explosionよりも大きいという条件を追加することにより、精度を向上させることができる。さらに、急激な明るさの変化などによる誤判定にも対応するため、炎に該当する色を持つフレームが連続して出現すると同時に、その画素数が時間的に変動している場合に、これらのフレーム群を含むショットに爆発が含まれると判定することもできる。
次に、チェイスショット判定部52における処理を、図3を参照して説明する。カーチェイスなどのチェイスショットでは、車や戦闘機などのオブジェクトが高速に動いているほか、そのオブジェクトを撮影するカメラも規則的な動きをすることが多い。従って、チェイスショットに含まれる動きは比較的大きく、それらの方向は均一的である。そこで、チェイスショット判定部52では、ショット内に含まれる動きの大きさと動きの方向を評価する。
具体的には、ステップS11では、チェイスショット判定部52にショットSNが入力する。ステップS12では、チェイスショット判定部52に入力されたショットSNにおける動き情報について、動きベクトルから算出される動きの大きさのショット内平均MV_magと、動きの最頻方向の割合MV_dirがそれぞれある閾値THM_magとTHM_dirよりも大きいかどうか判断する。大きいと判断された場合に、ステップS13に進み、ショットSN内にチェイスが含まれると判定する。動き方向は任意数を選択することができ、例えば8方向などに設定できる。
なお、通常チェイスショットは連続的に出現することが多いため、チェイスショット判定部52の後段にチェイスシーン判定部(図示されていない)を設けることができ、チェイスショットが連続して判定される場合に、チェイスシーンと判定する。このとき、隣接するチェイスショットの間には他のショット種別が挿入されることもあるため、完全に隣接している必要はなく、ある既定数のショット間隔だけ離れていてもよい。
さらに、クローズアップショット判定部53における処理を、図4を参照して説明する。クローズアップショット判定部53では、次の(3)、(4)の少なくともいずれかを評価する。
(3)色情報を画素値データとしたときの、顔に該当する肌色の画素値を持つ画素数
(4)色情報を色ヒストグラムとしたときの、顔に該当する肌色の色範囲の頻度
具体的には、ステップS21で、クローズアップショット判定部53にフレームFNが入力する。ステップS22では、該クローズアップショット判定部53に入力されたショット内の任意のフレームFNにおける色情報について、予め規定された肌色に該当する色を持つ画素数P_skinを計数し、この値が予め定められた閾値THP_skinよりも大きい場合、もしくは予め規定された肌色に該当する色範囲の頻度H_skinが予め定められた閾値THH_skinよりも大きい場合に、もしくは共に大きい場合にステップS23に進み、フレームFNに顔のクローズアップが含まれると判定する。ステップS24では、このフレームを含むショットに顔のクローズアップが含まれると判定する。
ここで、肌色の画素数だけを用いた場合に体のほかの部位などによる誤判定が生じる可能性があるため、前記の判定に対してさらに肌色画素の領域の形状を評価したり、顔テンプレートなどにより、画像中に顔が含まれるかどうかを高精度に判定することもできる。
図5に、クローズアップショット判定部53の他の処理例を示す。この処理フローのように、オーディオ解析部から得られたオーディオ種別を用いて、ショットSNにおいてオーディオ種別が「音声」である秒数またはフレーム数のショット内での割合ACLが予め定められた閾値THA_voiceよりも大きいという条件を付加することもできる。オーディオ種別ACLの取得手段としては、特開平10-247093で開示されている手段などを用いることができる。
具体的には、ステップS31でショットSNを入力し、顔のクローズアップを含む事を示すフラグFFを0に置く。ステップS32では、フレームFNを入力する。ステップS33とS34では、前記ステップS22とS23と同様の処理を行い、ステップS35では、フレームFNはショットSNの最終フレームであるか否かの判断がされる。なお、ステップS34では、前記フラグFFを1にする。ステップS35の判断が否定の時にはステップS36に進んで、FNを1インクリメントする。
ステップS32〜S36の処理が繰り返し行われ、ステップS35の判断が肯定になると、ステップS37に進んで、フラグFF=1でかつACL>THA_voiceであるか否かの判断がなされる。この判断が肯定であれば、ステップS38に進んで、前記ショットSNの種別が、顔を含むクローズアップであると判定される。
図6は本発明の第2の実施形態を示す図である。この実施形態では、爆発ショット判定部51とチェイスショット判定部52の前段にアクションショット判定部54を設け、さらにクローズアップショット判定部53の前段に会話ショット判定部55を設けたものである。なお、他の符号は図1と同一または同等物を示す。
爆発ショット、チェイスショットは「アクション」クラスの従属クラス、クローズアップショットは「会話」クラスの従属クラスとみなすことができる。従って、階層的なショット種別の分類を行うことができるほか、予め判定対象とするショットを主クラスに属するショットに絞り込むことにより、判定に要する処理量を低減することができる。
アクションショット判定部54や会話ショット判定部55の処理については、前記特許文献1に示されている方法または手段を適用することができる。
本発明の一実施形態の動画像データ分類装置の構成を示すブロック図である。 爆発ショット判定部の処理を示すフローチャートである。 チェイスショット判定部の処理を示すフローチャートである。 クローズアップショット判定部の処理を示すフローチャートである。 クローズアップショット判定部の他の処理を示すフローチャートである。 本発明の他の実施形態の動画像データ分類装置の構成を示すブロック図である。
符号の説明
1・・・ショット分割部、2・・・色情報解析部、3・・・動き情報解析部、4・・・オーディオ解析部、5・・・ショット分類部、6・・・ショット種別登録部、51・・・爆発ショット判定部、52・・・チェイスショット判定部、53・・・クローズアップショット判定部、54・・・アクションショット判定部、55・・・会話ショット判定部。

Claims (10)

  1. 非圧縮または圧縮された動画像データの分類装置において、 前記動画像データのショット分割を行うショット分割部と、
    前記動画像データにおける色情報を解析する色情報解析部と、
    動き情報を解析する動き情報解析部と、
    前記動画像データに付随するオーディオデータを解析するオーディオ解析部と、
    前記動画像データの動き情報とオーディオデータからアクションを含むショットを判定するアクションショット判定部と、
    前記動画像データの動き情報とオーディオデータから会話を含むショットを判定する会話ショット判定部と、
    前記アクションショット判定部から得られたアクションショットの中から前記色情報解析部で解析された色情報を用いて爆発ショットを判定する爆発ショット判定部と、前記アクションショット判定部から得られた動き情報を用いてチェイスショットを判定するチェイスショット判定部と、
    前記会話ショット判定部から得られた会話ショットの中からクローズアップショットを判定するクローズアップショット判定部とを具備し、
    前記爆発ショットとチェイスショットはアクションショットの従属クラス、前記クローズアップショットは会話ショットの従属クラスとすることにより、階層的なショット種別の分類を行うことを特徴とする動画像データの分類装置。
  2. 請求項1に記載の動画像データの分類装置において、
    前記色情報は、画像内の画素データ、画像内の色ヒストグラム、および画像内の色配置情報の少なくとも一つであることを特徴とする動画像データの分類装置。
  3. 請求項1に記載の動画像データの分類装置において、
    前記爆発ショット判定部は、画像内の色情報として画像内の画素データを用い、炎に該当する色を持つ画素数を計数して、爆発を判定することを特徴とする動画像データの分類装置。
  4. 請求項1に記載の動画像データの分類装置において、
    前記爆発ショット判定部は、画像内の色情報として、画像内の色ヒストグラムを用い、炎に該当する色範囲の頻度を測定して、爆発を判定することを特徴とする動画像データの分類装置。
  5. 請求項1に記載の動画像データの分類装置において、
    前記爆発ショット判定部は、ショット内の任意のフレームにおいて、炎に該当する画素数または色範囲の頻度と、アクションショット判定部を経由してオーディオ解析部から入力された前記オーディオデータのサブバンドエネルギーの重み付け平均がそれぞれある規定値よりも大きい場合に、該フレームを爆発を含むフレームと見なし、該フレームを含むショットを爆発を含むショットと判定することを特徴とする動画像データの分類装置。
  6. 請求項5に記載の動画像データの分類装置において、
    前記爆発ショット判定部は、さらに爆発を含むと見なされたフレームが連続して出現し、かつその画素数または色範囲の頻度が時間的に変動している場合に、該フレーム群を爆発を含むフレーム群と見なし、該フレーム群を含むショットを爆発を含むショットと判定することを特徴とする動画像データの分類装置。
  7. 請求項1に記載の動画像データの分類装置において、
    前記チェイスショット判定部は、アクションショット判定部を経由して動き情報解析部から入力されたショット内における動きの最頻方向および動きの大きさのショット平均の少なくとも一つからチェイスショット判定することを特徴とする動画像データの分類装置。
  8. 請求項7に記載の動画像データの分類装置において、
    前記動画像データは予測符号化を用いて圧縮符号化されたデータであり、前記ショット内における動きの最頻方向および動きの大きさのショット平均は、ショット内における順方向動き予測画像と双方向動き予測画像の少なくとも一つにおける動き情報から算出されることを特徴とする動画像データの分類装置。
  9. 請求項8に記載の動画像データの分類装置において、
    前記チェイスショット判定部は、ショット内における動きの最頻方向の割合および動きの大きさのショット平均がそれぞれある規定値よりも大きい場合に、該ショットをチェイスを含むショットと判定することを特徴とする動画像データのの分類装置。
  10. 請求項1に記載の動画像データの分類装置において、
    前記クローズアップ判定部は、会話ショット判定部を経由してオーディオ解析部から入力されたオーディオ情報としてオーディオ種別を用い、ショット内のオーディオ種別が音声である割合がある規定値よりも大きい場合に、該ショットをクローズアップショットと判定することを特徴とする動画像データの分類装置。
JP2005094491A 2005-03-29 2005-03-29 動画像データの分類装置 Expired - Fee Related JP4730813B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005094491A JP4730813B2 (ja) 2005-03-29 2005-03-29 動画像データの分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005094491A JP4730813B2 (ja) 2005-03-29 2005-03-29 動画像データの分類装置

Publications (2)

Publication Number Publication Date
JP2006277232A JP2006277232A (ja) 2006-10-12
JP4730813B2 true JP4730813B2 (ja) 2011-07-20

Family

ID=37211945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005094491A Expired - Fee Related JP4730813B2 (ja) 2005-03-29 2005-03-29 動画像データの分類装置

Country Status (1)

Country Link
JP (1) JP4730813B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5283267B2 (ja) * 2009-02-12 2013-09-04 Kddi株式会社 コンテンツ識別方法及び装置
EP4113435A4 (en) 2020-02-27 2023-07-26 Panasonic Intellectual Property Management Co., Ltd. ESTIMATION DEVICE, ESTIMATION METHOD AND ESTIMATION SYSTEM
JP7499459B2 (ja) 2021-03-11 2024-06-14 パナソニックIpマネジメント株式会社 制御装置、制御方法、および、プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001343900A (ja) * 2000-05-31 2001-12-14 Matsushita Electric Ind Co Ltd 照明システムおよび照明制御データ作成方法
JP2004128550A (ja) * 2002-09-30 2004-04-22 Kddi R & D Laboratories Inc 動画像データのシーン分類装置
JP2004260734A (ja) * 2003-02-27 2004-09-16 Kddi R & D Laboratories Inc 動画像データの分類装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001343900A (ja) * 2000-05-31 2001-12-14 Matsushita Electric Ind Co Ltd 照明システムおよび照明制御データ作成方法
JP2004128550A (ja) * 2002-09-30 2004-04-22 Kddi R & D Laboratories Inc 動画像データのシーン分類装置
JP2004260734A (ja) * 2003-02-27 2004-09-16 Kddi R & D Laboratories Inc 動画像データの分類装置

Also Published As

Publication number Publication date
JP2006277232A (ja) 2006-10-12

Similar Documents

Publication Publication Date Title
US8442384B2 (en) Method and apparatus for video digest generation
JP4725690B2 (ja) 映像識別子抽出装置
KR100687732B1 (ko) 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단방법 및 그 장치
JP4426966B2 (ja) スケーラブルなビデオ要約およびナビゲーションのシステムおよび方法
EP2668785A2 (en) Encoding of video stream based on scene type
KR101435778B1 (ko) 비디오 기반 시각적 특징과 다단계 통계적 결합을 이용한 유해 동영상 분류 방법 및 장치
US9123133B1 (en) Method and apparatus for moving object detection based on cerebellar model articulation controller network
JP2000187477A (ja) 画像処理装置及び画像処理方法
JP2009042876A (ja) 画像処理装置及びその方法
US20170099485A1 (en) Encoding of Video Stream Based on Scene Type
EP3975133A1 (en) Processing of images captured by vehicle mounted cameras
JP4730813B2 (ja) 動画像データの分類装置
CN109285115B (zh) 图像处理装置、图像形成装置、图像处理方法以及记录介质
JP5096259B2 (ja) 要約コンテンツ生成装置および要約コンテンツ生成プログラム
CN111242205A (zh) 图像清晰度检测方法、装置及存储介质
JP5644505B2 (ja) 照合加重情報抽出装置
JP4979029B2 (ja) 動画像データのシーン分割装置
JP4349574B2 (ja) 動画像データのシーン分割装置
JP4999015B2 (ja) 動画像データの分類装置
JP2004248312A (ja) 画像処理装置及び画像処理方法
JP2021039642A (ja) 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム
JP4915860B2 (ja) 動画像分類装置
JP4396914B2 (ja) 動画像データの分類装置
Kobets et al. Analysis of streaming video content and generation relevant contextual advertising
Liu et al. Camera motion classification based on SVM

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100428

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110413

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110414

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees