JP4618166B2 - 画像処理装置、画像処理方法、およびプログラム - Google Patents

画像処理装置、画像処理方法、およびプログラム Download PDF

Info

Publication number
JP4618166B2
JP4618166B2 JP2006060592A JP2006060592A JP4618166B2 JP 4618166 B2 JP4618166 B2 JP 4618166B2 JP 2006060592 A JP2006060592 A JP 2006060592A JP 2006060592 A JP2006060592 A JP 2006060592A JP 4618166 B2 JP4618166 B2 JP 4618166B2
Authority
JP
Japan
Prior art keywords
scene
face
information
still image
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006060592A
Other languages
English (en)
Other versions
JP2007241496A (ja
Inventor
誠 村田
岳士 福田
大介 望月
環 児嶋
雅友 倉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006060592A priority Critical patent/JP4618166B2/ja
Priority to US11/714,074 priority patent/US8170269B2/en
Publication of JP2007241496A publication Critical patent/JP2007241496A/ja
Application granted granted Critical
Publication of JP4618166B2 publication Critical patent/JP4618166B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/745Browsing; Visualisation therefor the internal structure of a single video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Description

本発明は、画像処理装置、画像処理方法、およびプログラムに関し、特に、所定の対象物が被写体として映っているか否かを、シーン単位で判別することができるようにした画像処理装置、画像処理方法、およびプログラムに関する。
近年、低価格化によるカムコーダの普及、ディジタルスチルカメラやいわゆるムービーデジカメなどを用いた例えばMPEG(Moving Picture Experts Group)4フォーマットでの動画撮影機能の充実、携帯電話機を用いた動画撮影機能の向上などにより、一般のユーザが個人で動画の撮影を行う機会が増えてきている。
ところが、撮影した動画を見ることは少ない、撮影した動画をパーソナルコンピュータなどに取り込み、編集を行ってから友人に渡そうとしても編集自体が面倒でありそれをやらない、パーソナルコンピュータに取り込むことすらしない、というのが現実である。
仮に、撮影によりたまった動画全体から、「友達と盛り上がったあのシーン」、「子供がアップで映っているあのシーン」といったように、見たいシーンをすぐに再生することができたり、編集の対象として選択することができれば、そのようなこともなくなるものと考えられ、また、そのような機能を求めるユーザニーズも実際に存在するものと考えられる。
シーンの検索に用いられる従来の画面表示としては、例えば、撮影された動画を構成する静止画を時系列順に一方向に並べて表示する時系列フィルムロールビューや、撮影の開始直後の1フレーム目などのように、撮影された動画を構成する静止画のうちの所定の静止画だけをサムネイル表示するサムネイルビューといったものがあるものの、前者の表示によっては時系列順に確認するのが煩雑であり、後者の表示によってはサムネイル表示される静止画からそれに続く内容を覚えていなかったりすることから、目的とするシーンを探すのは難しい。
なお、時系列フィルムロールビューは、パーソナルコンピュータの動画編集用アプリケーションなどによって採用される画面表示の手法であり、サムネイルビューは、カムコーダなどの撮影機器によって採用される画面表示の手法である。
シーン検索に用いられる手法としては、ユーザが見たいと思うような「友達と盛り上がったあのシーン」、「子供がアップで映っているあのシーン」などは人の顔が映っているシーンであるため、動画から人の顔を検出し、人の顔が検出された動画の位置をユーザに提示して、再生などの対象にするシーンを選択させることも提案されている。
一般的な顔検出のアルゴリズムは静止画を対象にするものであるから、処理の負担を軽減するため、例えば、30fps(フレーム/秒)の動画を数fpsの動画に間引き、間引くことによって得られた動画を構成するそれぞれの静止画を対象にして顔検出が行われる。
特許文献1には、録画された番組の映像に映っている人の顔だけでなく、映像のシーンチェンジをも検出し、検出したそれらの情報を基準に、再生させる動画の位置を選択する技術が開示されている。特許文献2には、ニュース番組の映像などを対象として、シーン内の動きが小さく、かつ、あるモデル画像(特定色分布)にマッチするフレームが存在するシーンを顔が映っているセグメントとして決定する技術が開示されている。
特開2002−27411号公報 特開2003−264757号公報
人の顔が検出された静止画の位置を提示して再生の対象にする部分をユーザに選択させる場合、あるシーンの全体にわたって人が映っているときであっても、顔の向きなどによっては顔が検出されたりされなかったりすることから、細切れの部分が提示されることがある。
図1は、動画の1つのシーンを対象にした顔検出の結果の例を示す図である。
図1において、1から7の数字がふられている画像は、カムコーダなどで撮影された動画を所定のフレームレートの動画に間引いた後の動画を構成する静止画であり、これらの静止画1乃至7が顔検出の対象にされる。図1に示されるそれぞれの静止画の間には、顔検出の対象にならない、間引かれた静止画があることになる。
図1の例においては、静止画1乃至7のいずれにも、頭部を含めて人が映っているが、顔の向きなどによって、静止画2と6だけが、顔が映っている静止画として検出されている。
したがって、この場合、静止画2と6の位置が提示され、ユーザは、静止画2の位置を選択することによって、顔が検出された部分である静止画2から静止画3までの部分の動画を再生させたり、静止画6の位置を選択することによって静止画6から静止画7までの部分の動画を再生させたりすることはできるが、そのような提示からは、静止画1乃至7からなる1つのシーン全体をシーン単位で再生させることはできず、細切れに再生させることしかできない。
また、提示される静止画の位置の数も多くなり、結局、再生の対象にする動画の部分を探すことが難しくなる。
本発明はこのような状況に鑑みてなされたものであり、ユーザが扱いやすい単位の動画を提示するなどのために、所定の対象物が被写体として映っているか否かを、シーン単位で判別することができるようにするものである。
本発明の一側面の画像処理装置は、動画におけるシーンチェンジを検出するシーンチェンジ検出手段と、前記動画を構成する静止画から、被写体として含まれる所定の対象物を検出し、検出した前記所定の対象物の特徴を表す情報の時系列を検出する対象物検出手段と、前記所定の対象物を被写体に含む静止画を含むシーンを構成する静止画を対象にして前記対象物検出手段が行う検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルである第1のモデル情報を、判別するシーンの種類毎に複数記憶する記憶手段と、前記シーンチェンジ検出手段により検出されたシーンチェンジから時間軸上で隣のシーンチェンジまでのそれぞれのシーンを構成する静止画を対象にして前記対象物検出手段により検出された前記所定の対象物の特徴を表す情報の時系列のパターン認識を前記記憶手段に記憶されている複数の前記第1のモデル情報に基づいて行い、それぞれのシーンの種類を判別する判別手段とを備え、前記記憶手段は、前記所定の対象物を被写体に含まない静止画を含むシーンを構成する静止画を対象にして前記対象物検出手段が行う検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルである第2のモデル情報を、判別するシーンの種類毎に複数さらに記憶し、前記判別手段は、前記パターン認識の結果として前記第1のモデル情報から求められるスコアと、前記第2のモデル情報から求められるスコアから、それぞれのシーンの種類を判別する
前記対象物検出手段には、前記動画を構成する静止画に被写体として含まれる前記所定の対象物の数の情報、静止画の所定の位置を基準とした前記所定の対象物の位置の情報、前記所定の対象物の面積の情報のうちの少なくともいずれかの情報の時系列を、前記所定の対象物の特徴を表す情報の時系列として検出させ、前記判別手段には、前記対象物検出手段により検出された情報のうちの1つ以上の情報を用いて、それぞれのシーンの種類を判別させることができる。
前記判別手段による判別結果に基づいて、前記動画の再生をシーンの種類毎に行う再生手段をさらに設けることができる。
前記再生手段には、さらに、前記判別手段による判別結果に基づいて、それぞれの種類のシーンの前記動画全体における位置を表示させることができる。
時間軸上で並ぶ2つの静止画の特徴の差と閾値を比較することによって前記動画におけるシーンチェンジを検出する場合、前記シーンチェンジ検出手段には、前記閾値を変えて異なる粒度のシーンが定められるシーンチェンジを検出させることができる。
本発明の一側面の画像処理方法は、動画におけるシーンチェンジを検出し、前記動画を構成する静止画から、被写体として含まれる所定の対象物を検出し、検出した前記所定の対象物の特徴を表す情報の時系列を検出し、検出したシーンチェンジから時間軸上で隣のシーンチェンジまでのそれぞれのシーンを構成する静止画を対象にして検出した前記所定の対象物の特徴を表す情報の時系列のパターン認識を、判別するシーンの種類毎に記憶手段に複数記憶されている、前記所定の対象物を被写体に含む静止画を含むシーンを構成する静止画を対象にして前記所定の対象物の特徴を表す情報の時系列の検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルであるモデル情報に基づいて行い、それぞれのシーンの種類を判別するステップを含み、前記記憶手段には、前記所定の対象物を被写体に含まない静止画を含むシーンを構成する静止画を対象にして、前記所定の対象物の特徴を表す情報の時系列の検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルである第2のモデル情報が、判別するシーンの種類毎に複数さらに記憶されており、それぞれのシーンの種類を判別することは、前記パターン認識の結果として前記第1のモデル情報から求められるスコアと、前記第2のモデル情報から求められるスコアから、それぞれのシーンの種類を判別するようにして行われる
本発明の一側面のプログラムは、動画におけるシーンチェンジを検出し、前記動画を構成する静止画から、被写体として含まれる所定の対象物を検出し、検出した前記所定の対象物の特徴を表す情報の時系列を検出し、検出したシーンチェンジから時間軸上で隣のシーンチェンジまでのそれぞれのシーンを構成する静止画を対象にして検出した前記所定の対象物の特徴を表す情報の時系列のパターン認識を、判別するシーンの種類毎に記憶手段に複数記憶されている、前記所定の対象物を被写体に含む静止画を含むシーンを構成する静止画を対象にして前記所定の対象物の特徴を表す情報の時系列の検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルであるモデル情報に基づいて行い、それぞれのシーンの種類を判別するステップを含み、前記記憶手段には、前記所定の対象物を被写体に含まない静止画を含むシーンを構成する静止画を対象にして、前記所定の対象物の特徴を表す情報の時系列の検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルである第2のモデル情報が、判別するシーンの種類毎に複数さらに記憶されており、それぞれのシーンの種類を判別することは、前記パターン認識の結果として前記第1のモデル情報から求められるスコアと、前記第2のモデル情報から求められるスコアから、それぞれのシーンの種類を判別するようにして行われる処理をコンピュータに実行させる。
本発明の一側面においては、動画におけるシーンチェンジが検出され、前記動画を構成する静止画から、被写体として含まれる所定の対象物が検出され、検出された前記所定の対象物の特徴を表す情報の時系列が検出される。また、検出されたシーンチェンジから時間軸上で隣のシーンチェンジまでのそれぞれのシーンを構成する静止画を対象にして検出した前記所定の対象物の特徴を表す情報の時系列のパターン認識が、判別するシーンの種類毎に記憶手段に複数記憶されている、前記所定の対象物を被写体に含む静止画を含むシーンを構成する静止画を対象にして前記所定の対象物の特徴を表す情報の時系列の検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルであるモデル情報に基づいて行われ、それぞれのシーンの種類が判別される。また、前記記憶手段には、前記所定の対象物を被写体に含まない静止画を含むシーンを構成する静止画を対象にして、前記所定の対象物の特徴を表す情報の時系列の検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルである第2のモデル情報が、判別するシーンの種類毎に複数さらに記憶されており、それぞれのシーンの種類を判別することは、前記パターン認識の結果として前記第1のモデル情報から求められるスコアと、前記第2のモデル情報から求められるスコアから、それぞれのシーンの種類を判別するようにして行われる。
本発明の一側面によれば、所定の対象物が被写体として映っているか否かを、シーン単位で判別することができる。
以下、本発明の実施の形態について図を参照して説明する。
図2は、本発明の一実施形態に係る画像処理装置1と、画像処理装置1に接続されるディスプレイ2を示す図である。
画像処理装置1は、外部から供給されたパーソナルビデオに被写体として映っている人の顔を検出し、それぞれのシーンが、人(例えば1人)の顔が映っている静止画を含むシーン、多くの人(例えば5,6人)の顔が映っている静止画を含むシーン、人の顔が大きく映っている静止画を含むシーンなどの、所定の対象物が映っているシーンであるか否かを判別する。以下、適宜、人の顔が映っている静止画を含むシーンを顔シーンといい、多くの人の顔が映っている静止画を含むシーンをグループシーンという。また、人の顔が大きく映っている静止画を含むシーンをズームシーンという。
ここで、パーソナルビデオは、カムコーダ、ディジタルスチルカメラ、携帯電話機などに搭載される動画撮影機能を用いて一般のユーザが個人で撮影した動画であり、被写体ぶれや手ぶれが生じていることが多いという点などで、カメラマンが撮影したテレビジョン番組や映画などのパブリックな動画とは異なる。また、シーンは、動画全体の所定の位置に生じているあるシーンチェンジと、時間軸上で隣のシーンチェンジの間の静止画の時系列(動画)を含むパーソナルビデオの区間である。
画像処理装置1は、パーソナルビデオに生じているシーンチェンジの検出も行い、シーンチェンジの検出結果と、顔の検出結果に基づいて、上述したような判別を、パーソナルビデオを構成するそれぞれのシーンを対象として行う。
図3は、画像処理装置1により行われるシーンの判別の例を示す図である。
1から9の数字がふられている図3の画像は、フレームを間引いたパーソナルビデオを構成する静止画であり、これらの静止画を対象として顔検出が行われる。処理が可能である場合、フレームを間引くことなく、パーソナルビデオを構成する全ての静止画を対象として顔検出が行われるようにしてもよい。なお、シーンチェンジの検出は、例えば、フレームを間引いていないパーソナルビデオを対象として行われる。
図3の例においては、静止画1と静止画2の間、静止画8と静止画9の間でシーンチェンジが検出され、静止画1乃至9を含むパーソナルビデオが、シーン1乃至3の3つのシーンに分けられている。また、静止画1、静止画3、静止画7の3つの静止画が、人の顔が映っている静止画として検出されている。静止画1、静止画3、静止画7に重ねて示される四角形の枠Fは、顔検出によって人の顔として画像処理装置1により検出された部分を表す。
図3の例においては、このような検出結果から、シーン2が、顔シーン(人の顔が映っている静止画を含むシーン)であると判別されている。また、人の顔が検出された静止画を含まないシーン3だけでなく、人の顔が検出された静止画を含むシーン1も顔シーンではないと判別されている。
このように、顔が検出された静止画を含むシーンであっても、顔シーンであると判別されるシーンと顔シーンではないと判別されるシーンがある。これは、単に、顔が検出された静止画が含まれているか否かだけでなく、顔シーンを構成する静止画から検出された顔の位置、検出された顔の面積などの、顔シーンを構成するそれぞれの静止画から得られる特徴の時系列をモデル化したデータと、判別の対象になっているシーンを構成する静止画から顔として検出された部分の位置、面積の情報とを用いたパターン認識によって、それぞれのシーンが顔シーンであるか否かの判別が画像処理装置1においては行われるためである。
図4は、シーンの判別のより詳細な例を示す図である。
この例においては、顔検出の結果として、人の顔であるとして検出された部分までの静止画の中心からの距離を表す波形と、その面積を表す波形が示されている。すなわち、画像処理装置1においては、静止画を対象とした顔検出の際、顔があるか否かだけでなく、顔として検出された部分までの静止画の中心からの距離、その面積も検出される。
図4の顔検出の結果においては、静止画1から顔として検出された部分の距離は、静止画1の中心を基準として距離l1で表される距離であり、その部分の面積は、面積a1で表される面積とされている。
また、静止画3から顔として検出された部分の距離は、距離l1より近い、静止画3の中心を基準として0で表される距離であり(静止画3の中心に顔が検出されており)、その面積は、面積a1より大きい、面積a2で表される面積とされている。
同様に、静止画7から顔として検出された部分の距離は、距離l1より近い、静止画7の中心を基準として距離l3で表される距離であり、その面積は面積a2で表される面積とされている。
なお、図4においては、顔が検出されなかった場合、距離は距離l2として出力され、面積は0として出力されるようになされている。
例えば、このような検出結果から、顔として検出された部分までの距離が遠く、面積も小さいことなどから、シーン1は顔シーンではないと判別され、静止画1において検出された顔は、顔ではない部分が誤検出されたものとして画像処理装置1により扱われる。
また、画像の中心に近い位置で顔が検出され、面積も大きい顔が検出された静止画3と7を含むことなどから、シーン2は顔シーンあると判別される。
シーン3は、それに含まれる静止画である静止画9からは顔が検出されていないから、顔シーンではないと判別される。
静止画を対象にして顔検出を行った場合、顔ではない部分が誤検出されることがあり、このように、それぞれの静止画から検出結果として得られた部分が人の顔の部分であるか否かが、顔シーンを構成する静止画から得られる特徴の時系列をモデル化したデータなどを用いて判別されることにより、人の顔が実際には映っていないシーンやフレームの端の方に人の顔が瞬間的に映ったシーンなどが、顔シーンであると判別されてしまうことを防ぐことができる。
顔シーンを構成する静止画から得られる特徴の時系列をモデル化したデータなどに基づいて判断することなく、単に、顔が検出された静止画が含まれているか否かに基づいてそれぞれのシーンが顔シーンであるか否かを判別するとした場合、静止画1を含むシーン1は顔シーンであるとして誤って判別されることになる。図3、図4の例においては、静止画1には人の顔は映っておらず、人の顔以外の部分が人の顔の部分として検出されている。
また、判別がシーン単位で行われるため、短い期間毎に違う判別結果が得られ、判別結果が細切れになるようなことを防止することができる。これにより、判別結果を提示して、動画全体のうちの再生する部分や編集する部分をユーザに選択させるといった場合に、判別結果を提示する画面が複雑にならずに、扱いやすい単位の動画の部分を選択させることができる。
仮に、シーン単位ではなく、静止画単位で判別結果を求めるとした場合、図4の静止画1から静止画2までの部分は顔部分である、静止画2から静止画3までの部分は顔部分ではない、静止画3から静止画4までの部分は顔部分である、といったように違う判別結果が細切れに求められることになる。
画像処理装置1が処理対象にしているビデオは例えば一般のユーザが個人で撮影したパーソナルビデオであり、これには、一定のシーンを撮影したものであっても、ぶれなどによって、被写体にしている人の顔がうまくフレーム内に収まっていたり収まっていなかったりすることがテレビジョン番組や映画などに較べて多いから、このように、人の顔が映っているシーン(シーンを構成する静止画)の特徴をモデル化したデータを用いてシーン単位で判別が行われるようにすることにより、ぶれがそのまま判別結果に影響を与えてしまうことを防ぐことができる。
なお、顔検出により検出された部分が人の顔であるか否かが静止画の中心からの距離、面積に基づいて判断されるのは、人を被写体にして一般のユーザが撮影した場合、撮影範囲の中心付近に被写体の人の顔が収まるように、かつ、比較的顔によった形で構図が設定されることが多いためである。
それぞれのシーンがグループシーン(多くの人の顔が映っている静止画を含むシーン)であるか否かも同様に、グループシーンを構成する静止画から得られる特徴の時系列をモデル化したデータと、顔検出の結果などに基づいて判別される。グループシーンを構成する静止画からは、例えば、静止画の中心に近い位置に、所定の大きさの顔が複数検出されるなどの特徴が得られる。
また、それぞれのシーンがズームシーン(人の顔が大きく映っている静止画を含むシーン)であるか否かも、ズームシーンを構成する静止画から得られる特徴の時系列をモデル化したデータと、顔検出の結果などに基づいて判別される。ズームシーンを構成する静止画からは、例えば、静止画の中心に近い位置に広い面積の顔が検出されるなどの特徴が得られる。
図2の説明に戻り、例えば、パーソナルビデオを構成するシーン全体を対象としてシーンの判別を終えたとき、画像処理装置1は、判別結果に基づいて、パーソナルビデオ全体のうちのどこからどこまでが顔シーンであるのか、どこからどこまでがグループシーンであるのか、どこからどこまでがズームシーンであるのかをディスプレイ2に表示させる。
画像処理装置1は、ユーザにより選択されたシーンを再生し、再生して得られた映像をディスプレイ2に表示させるとともに、音声をスピーカから出力させる。
ディスプレイ2はLCD(Liquid Crystal Display)などよりなり、画像処理装置1からケーブルなどを介して供給された信号に基づいて、シーンの範囲を表す情報を表示する。また、ディスプレイ2は、パーソナルビデオの映像を表示し、音声を出力する。
これにより、ユーザは、パーソナルビデオ全体を時系列順に見るのではなく、顔シーン、グループシーン、ズームシーンのうち、自分が見たいシーンだけを選択して見ることができる。
図5は、ディスプレイ2に表示されるブラウザ画面の例を示す図である。
図5に示されるように、ブラウザ画面は、例えば、映像表示部11、操作部12、およびシーン情報表示部13から構成される。シーン情報表示部13には、再生中のパーソナルビデオの位置を表すポインタ14が表示される。
映像表示部11は、再生中の映像が表示される領域である。
操作部12は、ユーザにより操作されるボタンなどが表示される領域である。図5の例においては、巻き戻しを行うときに操作される巻き戻しボタン、パーソナルビデオを再生させるときに操作される再生ボタン、再生を停止させるときに操作される停止ボタン、早送りを行うときに操作される早送りボタンが表示されている。また、これらのボタンの下には、シーン情報表示部13にシーンの情報が表示されるパーソナルビデオの範囲(時間)のズーム/テレを行うときに操作されるズームバーが表示されている。
シーン情報表示部13は、フィルムロールと、パーソナルビデオ全体における、それぞれのシーンの範囲を表す帯状の情報(ラベル)が表示される領域である。
シーン情報表示部13には、上から、フィルムロール表示欄21、ファイル情報表示欄22、顔シーン情報表示欄23、グループシーン情報表示欄24、およびズームシーン情報表示欄25が設けられる。
フィルムロール表示欄21には、パーソナルビデオを構成する静止画を縮小させた画像が撮影順に並べて表示される。図5の例においては、より左側に表示されている静止画が撮影順で前の静止画であり、より右側に表示されている静止画が撮影順で後の静止画である。
ファイル情報表示欄22には、それぞれのファイルで管理されるパーソナルビデオの範囲を表す情報が表示される。例えば、1回の撮影で得られた静止画毎に異なるファイルで管理される場合、1つ目のファイルには1回目の撮影の開始から終わりまでに得られた静止画が格納され、2つ目のファイルには2回目の撮影の開始から終わりまでに得られた静止画が格納される。
図5の例においては、ファイル情報表示欄22にはファイル情報F1乃至F3が表示されており、ファイル情報F1とF2の間の切れ目が、そのタイミングで1回目の撮影が終了され、2回目の撮影が開始されたことを表す。また、ファイル情報F2とF3の間の切れ目が、そのタイミングで2回目の撮影が終了され、3回目の撮影が開始されたことを表す。
顔シーン情報表示欄23には、顔シーンの範囲を表す帯状の情報である顔シーン情報が表示され、グループシーン情報表示欄24には、グループシーンの範囲を表す帯状の情報であるグループシーン情報が表示される。ズームシーン情報表示欄25には、ズームシーンの範囲を表す帯状の情報であるズームシーン情報が表示される。
ユーザは、例えば、顔シーン、グループシーン、ズームシーンの3つのシーンのうちのいずれかのシーンの範囲を表す1つの帯状の情報を選択することによって、その情報の範囲に対応するパーソナルビデオの範囲のシーンを再生させることができる。また、ユーザは、3つのシーンのうちのいずれかのシーンを選択して、選択したシーンだけを連続して再生させることもできる。
図6は、図5のシーン情報表示部13のうち、ファイル情報F1が表示されている範囲を拡大して示す図である。図6において、横方向が時間方向を示す。
図6の例においては、ファイル情報F1は時刻t1から時刻t7までの範囲に示されている。すなわち、この例においては、1回目の撮影は、時刻t1から時刻t7まで行われたものとされている。
図6の顔シーン情報表示欄23には、時刻t1から時刻t2までの範囲に顔シーン情報f1が表示され、時刻t3から時刻t4までの範囲に顔シーン情報f2が表示されている。また、時刻t5から時刻t6までの範囲に顔シーン情報f3が表示されている。これらの情報により、顔シーン情報f1乃至f3が表示されている範囲に対応するパーソナルビデオのシーンに人の顔が映っていることが表される。
グループシーン情報表示欄24には、グループシーン情報が表示されておらず、これにより、1回目の撮影によって得られたパーソナルビデオを構成するシーンには、グループシーンがないことが表される。
ズームシーン情報表示欄25には、時刻t1から時刻t2までの範囲にズームシーン情報z1が表示され、時刻t3から時刻t4までの範囲にズームシーン情報z2が表示されている。これらの情報により、ズームシーン情報z1とz2が表示される範囲に対応するパーソナルビデオのシーンに人の顔が大きく映っていることが表される。
画像処理装置1においては、シーン単位で、それぞれのシーンが顔シーンであるか否か、グループシーンであるか否か、あるいは、ズームシーンであるか否かが判定され、その判定結果に基づいてブラウザ画面が表示されるため、図5、図6に示されるように、1つのシーンより細かい粒度で、細切れのラベルが表示されることはない。
シーンの判別と画面表示を行う画像処理装置1の動作についてはフローチャートを参照して後述する。
図7は、画像処理装置1の機能構成例を示すブロック図である。
図7に示されるように、画像処理装置1においては、シーンチェンジ検出部51、シーンチェンジスコア記憶部52、顔検出部53、顔データ記憶部54、シーン判別部55、およびブラウズアプリケーション56が実現される。シーン判別部55は認識用データ記憶部61を有している。図7に示される各機能部は、ブラウズアプリケーション56を除いてハードウエア的に実現されるようにしてもよいし、画像処理装置1により所定のプログラムが実行されることによってソフトウエア的に実現されるようにしてもよい。
シーンチェンジ検出部51は、供給されたパーソナルビデオを対象としてシーンチェンジの検出を行う。シーンチェンジの検出は、時間軸上で並ぶフレーム間の輝度値などの差分、被写体の動きを表す動きベクトル、動き補償したフレーム間の差分、カラーヒストグラムの差分などに基づいて行われる。シーンチェンジの検出結果は例えばスコアとして求められ、所定の閾値より高いスコアが求められたフレーム間の位置が、シーンチェンジが発生した位置として検出される。
シーンチェンジ検出部51は、検出結果として求められたシーンチェンジのスコアをシーンチェンジスコア記憶部52に記憶させるとともに、所定のタイミングで、シーンチェンジの位置をシーンチェンジスコア記憶部52に記憶させたスコアから判断し、パーソナルビデオ全体におけるそれぞれのシーンの開始位置(開始時刻)と終了位置(終了時刻)を記述した情報であるシーンチェンジデータを生成する。シーンチェンジ検出部51は、生成したシーンチェンジデータをシーンチェンジスコア記憶部52に記憶させる。
シーンチェンジスコア記憶部52は、シーンチェンジ検出部51から供給されたシーンチェンジのスコアやシーンチェンジデータを記憶する。シーンチェンジスコア記憶部52に記憶されたシーンチェンジデータはシーン判別部55により適宜読み出される。
図8は、シーンチェンジの検出の例を示す図である。
図8の上方には、シーンチェンジ検出の対象になるパーソナルビデオを構成する静止画1乃至7が撮影順に示されており、その下に、シーンチェンジの検出結果であるシーンチェンジスコアを表す波形が示されている。
図8の例においては、静止画4と静止画5の間で閾値より高いシーンチェンジスコアが求められており、図8の下方に示されるように、その静止画4と静止画5の間の位置が、シーンチェンジの位置として検出されている。静止画1から静止画4までのシーンがシーン1とされ、静止画5から静止画7までのシーンがシーン2とされている。
図9は、図8のシーンチェンジの検出結果から生成されたシーンチェンジデータの例を示す図である。
図9の例においては、図8の静止画1から静止画4までのシーンであるシーン1の開始時刻が「0.0」とされ、終了時刻が「100.0」とされている。また、静止画5から静止画7までのシーンであるシーン2の開始時刻が「100.0」とされ、終了時刻が「180.0」とされている。
シーン3以降についても同様に、パーソナルビデオ全体におけるそれぞれのシーンの開始時刻と終了時刻がシーンチェンジデータに記述される。
このような構造を有するシーンチェンジデータが、それぞれのシーンが顔シーンであるか否かなどを判別するときに用いられる。なお、シーンチェンジデータを生成することは、パーソナルビデオの全体についてスコアが求められてから一括して行われるようにしてもよいし、求められたスコアに基づいて閾値処理が順次行われ、シーンチェンジが検出される毎に行われるようにしてもよい。
また、シーンチェンジの判断に用いられる閾値をユーザが変更することができるようにしてもよい。これにより、ユーザは、1つのシーンの粒度を好みに応じて設定することができる。
図7の説明に戻り、顔検出部53は、供給されたパーソナルビデオを構成する静止画を対象として、またはフレームを間引いたパーソナルビデオを構成する静止画を対象として顔検出を行う。1枚の静止画内にある肌色の領域の大きさや形などから、あるいは、パーソナルビデオに映る顔の濃淡のパターンを統計的にモデル化することによって得られた情報を用いることによって顔が検出され、顔の数、静止画の中心を基準とした顔の位置、顔の面積を表す情報である顔データが顔検出部53により生成される。顔検出部53は、生成した顔データを顔データ記憶部54に記憶させる。
顔データ記憶部54は、顔検出部53により生成された顔データを記憶する。顔データ記憶部54に記憶された顔データはシーン判別部55により適宜読み出され、シーンの判別に用いられる。
図10は、顔検出の対象になる1つの静止画の例を示す図である。
図10に示される静止画には、中心Oから若干離れた左斜め上の部分と右斜め上の部分に人の顔がそれぞれ映っている。この静止画を対象として顔検出が行われた場合、例えば、枠F1とF2で囲んで示されるように2つの顔が検出される。
図11は、図10の静止画を対象として行われた顔検出の結果を表す顔データの例を示す図である。
図11に示されるように、顔データは、顔の数、顔の位置、顔の面積の情報からなり、図11の例においては、顔の数は「2」とされている。
また、検出された2つの顔の位置は、静止画の中心Oを(0,0)として「(−0.7,0.5)」と「(0.2,0.4)」で表される位置とされている。この例においては、図10の静止画における水平方向の右端、左端の位置をそれぞれ1.0,−1.0、垂直方向の上端、下端の位置をそれぞれ1.0、−1.0とし、検出された顔を囲む枠の中心の位置が検出されている。
2つの顔の面積は、それぞれ、所定の大きさを1として「0.25」、「0.11」で表される面積とされている。
このような情報からなる顔データが、パーソナルビデオを構成する静止画を対象とした顔検出が行われる毎に生成され、顔データ記憶部54に記憶される。対象にする静止画を撮影順に切り替えて顔検出が行われた場合、顔データ記憶部54には、「2」、「1」、「0」、・・・といったような顔の数の時系列データ、「(0.2,0.4)」、「(0.1,0.3)」、「(0,0.2)」、・・・といったような顔の位置の時系列データ、「0.25」、「0.20」、「0.15」、・・・といったような顔の面積の時系列データが記憶される。
なお、顔の数、顔の位置、顔の面積以外の他の特徴が顔検出によって検出され、それを基準に顔シーン、グループシーン、ズームシーンが判別されるようにしてもよい。
図7の説明に戻り、シーン判別部55は、シーンチェンジスコア記憶部52に記憶されているシーンチェンジデータと顔データ記憶部54に記憶されている顔データを読み出し、読み出したそれらのデータと、認識用データ記憶部61に記憶されている認識用データに基づいて、それぞれのシーンが、顔シーンであるか否か、グループシーンであるか否か、ズームシーンであるか否かを判別する。判別結果はブラウズアプリケーション56に出力される。
認識用データ記憶部61には、顔シーンであると人が目で確認したシーンを構成する静止画を対象として撮影順に顔検出を行ったときに求められた顔データ(顔の数、顔の位置、顔の面積の情報)に基づいて生成された顔シーンHMM(Hidden Markov Model)、顔シーンではないと人が目で確認したシーンを構成する静止画を対象として撮影順に顔検出を行ったときに求められた顔データに基づいて生成された非顔シーンHMMがあらかじめ記憶されており、これらの顔シーンHMMと非顔シーンHMMが用いられることによって、それぞれのシーンが顔シーンであるか、顔シーンでないかが判別される。
また、認識用データ記憶部61には、グループシーンであると人が目で確認したシーンを構成する静止画を対象として撮影順に顔検出を行ったときに求められた顔データに基づいて生成されたグループシーンHMM、グループシーンではないと人が目で確認したシーンを構成する静止画を対象として撮影順に顔検出を行ったときに求められた顔データに基づいて生成された非グループシーンHMMがあらかじめ記憶されており、これらのグループシーンHMMと非グループシーンHMMが用いられて、それぞれのシーンがグループシーンであるか、グループシーンでないかが判別される。
さらに、認識用データ記憶部61には、ズームシーンであると人が目で確認したシーンを構成する静止画を対象として撮影順に顔検出を行ったときに求められた顔データに基づいて生成されたズームシーンHMM、ズームシーンではないと人が目で確認したシーンを構成する静止画を対象として撮影順に顔検出を行ったときに求められた顔データに基づいて生成された非ズームシーンHMMがあらかじめ記憶されており、これらのズームシーンHMMと非ズームシーンHMMが用いられて、それぞれのシーンがズームシーンであるか、ズームシーンでないかが判別される。
なお、顔の数の情報だけに基づいて生成されたHMMを用いてシーンの判別を行うといったように、所定の1つの情報だけを用いて生成されたHMMを用いてシーンの判別を行うことも可能であるが、ここでは、シーンの判別の精度を高めるために、顔の数、顔の位置、顔の面積の3つの情報に基づいて生成されたHMMが用いられることによってシーンの判別が行われている。
図12は、顔シーンの判別について説明する図である。
図12の欄71に示される画像は、顔シーンの判別の対象になっているパーソナルビデオを構成する静止画であり、欄72に示される帯状の表示は、その範囲に対応するパーソナルビデオの範囲が、人が目で見て顔シーンであると判別したシーンの範囲、すなわち、シーン判別部55が判別しようとする正解の顔シーン(Ground Truth)であることを表す。人によるシーンの判別は、画像処理装置1のシーン判別部55がシーンの判別を行う前に行われ、判別結果がHMMの生成に用いられる。
欄73に示される帯状の表示は、その範囲に対応するパーソナルビデオの範囲が、シーンチェンジ検出の結果によって定められるそれぞれのシーンであることを表す。
欄74に示される波形は、欄71のパーソナルビデオを対象として顔検出を行ったときに求められる顔の数を表し、欄75に示される波形は、欄71のパーソナルビデオを対象として顔検出を行ったときに求められる顔の位置を表す。欄76に示される波形は、欄71のパーソナルビデオを対象として顔検出を行ったときに求められる顔の面積を表す。対象とする静止画を撮影順に切り替えて顔検出を行ったときに求められる顔の数、顔の位置、顔の面積の情報は上述したように時系列データであるから、これらの情報は図12に示されるように波形で表される。
図12の例においては、欄73に示されるように、欄71のパーソナルビデオ全体がシーン1乃至6の6つのシーンに分けられている。また、欄72に示されるように、6つのシーンのうちのシーン1、シーン2、シーン3、およびシーン6が顔シーンであることが人によって判別されている。
このような判別結果と顔データが求められている場合、図13に示されるように、人によって顔シーンであると判別されたシーン1、シーン2、シーン3、およびシーン6のそれぞれのシーンを構成する静止画から求められた顔データに基づいて学習が行われ、顔シーンHMMが生成される。
また、人によって顔シーンではないと判別されたシーン4とシーン5のそれぞれのシーンを構成する静止画から求められた顔データに基づいて学習が行われ、非顔シーンHMMが生成される。
HMMは、状態の遷移に応じてデータが出力される状態遷移確率モデルの1種であり、ある状態から他の状態に遷移する確率と、状態が遷移したときに遷移先の状態がデータ(観測値)を出力する確率分布(平均と分散)を表す関数で定義される。
図14は、顔シーンHMMと非顔シーンHMMを用いたシーンの判別について説明する図である。
図14に示されるように、それぞれのシーンを構成する静止画から求められた顔データの時系列が顔シーンHMMと非顔シーンHMMにそれぞれ入力され、顔シーンHMMから出力されたスコア(確率)と、非顔シーンHMMから出力されたスコアのうち、いずれのスコアが高いかによって、それぞれのシーンが顔シーンであるか、そうでないかが判別される。
図14の例においては、シーン1を構成する静止画から求められた顔データの時系列を入力として顔シーンHMMから出力されたスコアは0.75、非顔シーンHMMから出力されたスコアは0.25とされ、欄77に示されるように、これらのスコアから、シーン1は顔シーンであると判別されている。
また、シーン2を構成する静止画から求められた顔データの時系列を入力として顔シーンHMMから出力されたスコアは0.8、非顔シーンHMMから出力されたスコアは0.2とされ、欄77に示されるように、これらのスコアから、シーン2は顔シーンであると判別されている。
シーン3を構成する静止画から求められた顔データの時系列を入力として顔シーンHMMから出力されたスコアは0.65、非顔シーンHMMから出力されたスコアは0.45とされ、欄77に示されるように、これらのスコアから、シーン3は顔シーンであると判別されている。
シーン4を構成する静止画から求められた顔データの時系列を入力として顔シーンHMMから出力されたスコアは0.35、非顔シーンHMMから出力されたスコアは0.5とされ、欄77に示されるように、これらのスコアから、シーン4は顔シーンではないと判別されている。
シーン5を構成する静止画から求められた顔データの時系列を入力として顔シーンHMMから出力されたスコアは0.2、非顔シーンHMMから出力されたスコアは0.9とされ、欄77に示されるように、これらのスコアから、シーン5は顔シーンではないと判別されている。
シーン6を構成する静止画から求められた顔データの時系列を入力として顔シーンHMMから出力されたスコアは0.6、非顔シーンHMMから出力されたスコアは0.3とされ、欄77に示されるように、これらのスコアから、シーン6は顔シーンであると判別されている。
シーン判別部55においては、顔データ記憶部54に記憶されている顔データと認識用データ記憶部61に記憶されているHMMに基づいて以上のような判別が行われる。
図15は、HMMを用いることなく、顔が検出された部分を顔が映っている動画の部分として判別する場合の判別結果の例を示す図である。
図15の欄81に示される画像は図12の欄71に示される静止画と同じ画像である。図15の判別結果は図12で対象にされていたパーソナルビデオと同じパーソナルビデオを対象にしたときの結果を示す。
図15の欄82に示される顔シーンの表示(Ground Truth)と図12の欄72に示される表示は同じ表示であり、図15の欄84に示される顔の数を表す波形と図12の欄74に示される波形は同じ波形である。
欄84において、点線で示されるレベルL0は顔の数が0であることを表し、レベルL1は顔の数が1であることを表す。また、レベルL2は顔の数が2であることを表す。
図15の欄84に実線で示されるように、レベルL0以上、レベルL1以下のレベルが閾値として設定され、閾値以上の数の顔が検出された部分を顔が映っている動画の部分として判別する場合、欄83に示されるように、顔が映っている動画の部分であると判別される部分は、1つの時間が短い、細切れの部分になってしまうのに対し、上述したようにHMMを用いてシーン単位で判別を行った場合、図14の欄77に示されるように、判別結果が細切れになることはない。
ここでは、顔の数の時系列データに基づいて閾値処理を行うことによってシーンが判別されているが、顔の位置の時系列データに基づく閾値処理や顔の面積の時系列データに基づく閾値処理もあわせて行われ、複数の閾値処理の結果からシーンの判別が行われるようにしてもよい。
図7の説明に戻り、ブラウズアプリケーション56は、図5に示されるようなブラウザ画面をディスプレイ2に表示させる。具体的には、ブラウズアプリケーション56は、シーン判別部55から供給された判別結果に基づいて、顔シーン、グループシーン、ズームシーンのそれぞれのシーンが、パーソナルビデオ全体のどこからどこまでの範囲にあるのかをブラウザ画面のシーン情報表示部13に表示させるとともに、所定のシーンが選択されたとき、供給されたパーソナルビデオのうちのユーザにより選択されたシーンを再生し、再生したシーンの映像を映像表示部11に表示させる。
ここで、画像処理装置1の動作についてフローチャートを参照して説明する。
はじめに、図16のフローチャートを参照して、顔シーンの判別を行う画像処理装置1の処理について説明する。
ステップS1において外部からパーソナルビデオが供給されたとき、ステップS2において、供給されたパーソナルビデオはシーンチェンジ検出用のビデオと顔検出用のビデオに分けられ、一方はシーンチェンジ検出部51に、他方は顔検出部53にそれぞれ供給される。図5に示されるようなブラウザ画面を表示するとき、パーソナルビデオはブラウズアプリケーション56にも供給される。
ステップS3において、シーンチェンジ検出部51は、パーソナルビデオを対象としてシーンチェンジ検出を行い、求められたシーンチェンジスコアをシーンチェンジスコア記憶部52に記憶させる。また、シーンチェンジ検出部51は、所定のタイミングで、シーンチェンジスコア記憶部52に記憶させたシーンチェンジスコアと閾値からシーンチェンジの位置を検出し、検出したシーンチェンジで定められるシーンの開始時刻と終了時刻を記述したシーンチェンジデータを生成する。生成されたシーンチェンジデータはシーンチェンジスコア記憶部52に記憶される。
ステップS4において、顔検出部53は、パーソナルビデオを構成する静止画を対象として、またはフレームを間引いたパーソナルビデオを構成する静止画を対象として顔検出を行う。顔検出部53は、対象とする静止画を撮影順に切り替えて顔検出を行い、検出結果を表す顔データを顔データ記憶部54に記憶させる。
ステップS5において、シーン判別部55は、シーンチェンジスコア記憶部52から読み出したシーンチェンジデータに開始時刻と終了時刻が記述されている1つのシーンに注目し、ステップS6に進む。
シーン判別部55は、ステップS6において、注目しているシーンを構成する静止画から求められた顔データの時系列を顔データ記憶部54から読み出し、読み出した顔データの時系列を、認識用データ記憶部61に記憶されている顔シーンHMMと非顔シーンHMMのそれぞれに入力して(HMMを用いた認識を行って)スコアを求める。
シーン判別部55は、ステップS7において、顔シーンHMMから求められたスコアの方が、非顔シーンHMMから求められたスコアより高いか否かを判定する。
ステップS7において、シーン判別部55は、顔シーンHMMから求められたスコアの方が高いと判定した場合、ステップS8に進み、注目しているシーンが顔シーンであると判別する。
一方、シーン判別部55は、ステップS7において、顔シーンHMMから求められたスコアの方が低いと判定した場合、ステップS9に進み、注目しているシーンが顔シーンではないと判別する。
いま注目しているシーンの判別を終えたとき、ステップS10に進み、シーン判別部55は、シーンチェンジデータに開始時刻と終了時刻が記述されている全てのシーンに注目したか否かを判定し、全てのシーンにまだ注目していないと判定した場合、ステップS5に戻り、他のシーンに注目してそれ以降の処理を繰り返す。
シーン判別部55は、ステップS10において、全てのシーンに注目したと判定した場合、処理を終了させる。
次に、図17のフローチャートを参照して、グループシーンの判別を行う画像処理装置1の処理について説明する。
図17のステップS21乃至S25の処理は、図16のステップS1乃至S5の処理と同様の処理である。なお、図16の処理などが先に行われており、パーソナルビデオから求められたシーンチェンジデータがシーンチェンジスコア記憶部52に記憶されており、顔データが顔データ記憶部54に記憶されている場合、ステップS26以降の処理から開始されるようにしてもよい。
ステップS21においてパーソナルビデオが供給されたとき、ステップS22において、そのパーソナルビデオはシーンチェンジ検出用のビデオと顔検出用のビデオに分けられ、一方はシーンチェンジ検出部51に、他方は顔検出部53にそれぞれ供給される。
ステップS23において、シーンチェンジ検出部51は、供給されたパーソナルビデオを対象としてシーンチェンジ検出を行い、シーンチェンジスコアとシーンチェンジデータをシーンチェンジスコア記憶部52に記憶させる。
ステップS24において、顔検出部53は、パーソナルビデオを構成する静止画を対象として顔検出を行い、得られた顔データを顔データ記憶部54に記憶させる。
ステップS25において、シーン判別部55は、シーンチェンジスコア記憶部52から読み出したシーンチェンジデータに開始時刻と終了時刻が記述されている1つのシーンに注目し、ステップS26に進む。
シーン判別部55は、ステップS26において、注目しているシーンを構成する静止画から求められた顔データの時系列を顔データ記憶部54から読み出し、読み出した顔データの時系列を、認識用データ記憶部61に記憶されているグループシーンHMMと非グループシーンHMMのそれぞれに入力してスコアを求める。
シーン判別部55は、ステップS27において、グループシーンHMMから求められたスコアの方が、非グループシーンHMMから求められたスコアより高いか否かを判定する。
ステップS27において、シーン判別部55は、グループシーンHMMから求められたスコアの方が高いと判定した場合、ステップS28に進み、注目しているシーンがグループシーンであると判別する。
一方、シーン判別部55は、ステップS27において、グループシーンHMMから求められたスコアの方が低いと判定した場合、ステップS29に進み、注目しているシーンがグループシーンではないと判別する。
いま注目しているシーンの判別を終えたとき、ステップS30に進み、シーン判別部55は、全てのシーンに注目したか否かを判定し、全てのシーンにまだ注目していないと判定した場合、ステップS25に戻り、他のシーンに注目してそれ以降の処理を繰り返す。
シーン判別部55は、ステップS30において、全てのシーンに注目したと判定した場合、処理を終了させる。
次に、図18のフローチャートを参照して、ズームシーンの判別を行う画像処理装置1の処理について説明する。
図18のステップS41乃至S45の処理は、図16のステップS1乃至S5の処理と同様の処理である。図18の処理においても、例えば図16の処理が先に行われており、供給されたパーソナルビデオから求められたシーンチェンジデータがシーンチェンジスコア記憶部52に記憶されており、顔データが顔データ記憶部54に記憶されている場合、ステップS46以降の処理から開始されるようにしてもよい。
ステップS41においてパーソナルビデオが供給されたとき、ステップS42において、そのパーソナルビデオはシーンチェンジ検出用のビデオと顔検出用のビデオに分けられ、一方はシーンチェンジ検出部51に、他方は顔検出部53にそれぞれ供給される。
ステップS43において、シーンチェンジ検出部51は、供給されたパーソナルビデオを対象としてシーンチェンジ検出を行い、シーンチェンジスコアとシーンチェンジデータをシーンチェンジスコア記憶部52に記憶させる。
ステップS44において、顔検出部53は、パーソナルビデオを構成する静止画を対象として顔検出を行い、得られた顔データを顔データ記憶部54に記憶させる。
ステップS45において、シーン判別部55は、シーンチェンジスコア記憶部52から読み出したシーンチェンジデータに開始時刻と終了時刻が記述されている1つのシーンに注目し、ステップS46に進む。
シーン判別部55は、ステップS46において、注目しているシーンを構成する静止画から求められた顔データの時系列を顔データ記憶部54から読み出し、読み出した顔データの時系列を、認識用データ記憶部61に記憶されているズームシーンHMMと非ズームシーンHMMのそれぞれに入力してスコアを求める。
シーン判別部55は、ステップS47において、ズームシーンHMMから求められたスコアの方が、非ズームシーンHMMから求められたスコアより高いか否かを判定する。
ステップS47において、シーン判別部55は、ズームシーンHMMから求められたスコアの方が高いと判定した場合、ステップS48に進み、注目しているシーンがズームシーンであると判別する。
一方、シーン判別部55は、ステップS47において、ズームシーンHMMから求められたスコアの方が低いと判定した場合、ステップS49に進み、注目しているシーンがズームシーンではないと判別する。
いま注目しているシーンの判別を終えたとき、ステップS50に進み、シーン判別部55は、全てのシーンに注目したか否かを判定し、全てのシーンにまだ注目していないと判定した場合、ステップS45に戻り、他のシーンに注目してそれ以降の処理を繰り返す。
シーン判別部55は、ステップS50において、全てのシーンに注目したと判定した場合、処理を終了させる。
以上の処理により、パーソナルビデオに含まれるそれぞれのシーンが顔シーンであるか否か、グループシーンであるか否か、および、ズームシーンであるか否かが判別される。判別結果はブラウズアプリケーション56に供給され、ブラウザ画面の表示に用いられる。
次に、図19のフローチャートを参照して、ブラウザ画面の表示を制御する画像処理装置1の処理について説明する。
ステップS61において、ブラウズアプリケーション56はブラウザ画面を表示させるとともに、ブラウザ画面のシーン情報表示部13に設けられるフィルムロール表示欄21に、パーソナルビデオを構成する静止画を縮小した画像を撮影順に並べてフィルムロールとして表示させる。
ブラウズアプリケーション56は、ステップS62において、シーン判別部55から供給された判別結果に基づいて、顔シーンの範囲を表す情報をシーン情報表示部13に設けられる顔シーン情報表示欄23に、グループシーンの範囲を表す情報をグループシーン情報表示欄24に、ズームシーンの範囲を表す情報をズームシーン情報表示欄25にそれぞれ表示させる。
ユーザにより所定のシーンが選択されたとき、ステップS63において、ブラウズアプリケーション56は、ユーザにより選択されたシーンを再生し、得られた映像をブラウザ画面の映像表示部11に表示させる。例えば、ブラウザ画面の表示を終了することが指示されたとき、処理は終了される。
以上の処理により、図5に示されるようなブラウザ画面が表示され、ユーザは、人の顔が大きく映っているシーンだけといったように、好みのシーンだけを選択して見ることができる。
図20は、画像処理装置1の実装の例を示す図である。
図20の例においては、図7に示される画像処理装置1の全体の構成がビデオカメラ101の構成として実装されている。ビデオカメラ101にはカメラブロック111も設けられている。
カメラブロック111はレンズ、レンズを介して取り込まれた被写体からの光の光電変換を行う撮像素子、撮像素子から出力された信号に所定の処理を施してパーソナルビデオの信号を生成する信号処理回路などよりなり、ビデオカメラ101のシーンチェンジ検出部51は、このカメラブロック111から供給されたパーソナルビデオを対象としてシーンチェンジの検出を行う。また、顔検出部53はカメラブロック111から供給されたパーソナルビデオを構成する静止画を対象として顔検出を行う。
図20のブラウズアプリケーション56によっては、ブラウザ画面が例えばビデオカメラ101に設けられる表示部(図示せず)に表示される。なお、ビデオカメラ101には、パーソナルビデオをテープや光ディスクなどに記録するドライブなども設けられる。
ビデオカメラ(カムコーダ)において上述したようなシーンの判別が行われ、ブラウザ画面が表示されることによって、ユーザは、好みのシーンを選択して、自分が撮影したパーソナルビデオの内容を後から容易に確認することができる。
図21は、画像処理装置1の実装の他の例を示す図である。
図21の例においては、図7に示される画像処理装置1の構成のうちのシーンチェンジ検出部51、シーンチェンジスコア記憶部52、顔検出部53、および顔データ記憶部54はビデオカメラ121の構成として実装され、シーン判別部55とブラウズアプリケーション56はパーソナルコンピュータ141の構成として実装されている。ビデオカメラ121にはカメラブロック131も設けられている。
カメラブロック131は図20のカメラブロック111と同様に、レンズ、撮像素子、信号処理回路などよりなり、ビデオカメラ121のシーンチェンジ検出部51は、このカメラブロック131から供給されたパーソナルビデオを対象としてシーンチェンジの検出を行う。また、顔検出部53はカメラブロック131から供給されたパーソナルビデオを構成する静止画を対象として顔検出を行う。
シーンチェンジ検出部51により求められたシーンチェンジデータと顔検出部53により求められた顔データはシーンチェンジスコア記憶部52と顔データ記憶部54にそれぞれ記憶され、撮影されたパーソナルビデオとともに、所定のタイミングでパーソナルコンピュータ141により取り込まれる。シーンチェンジデータ、顔データ、パーソナルビデオの取り込みは、例えば、テープなどの記録媒体を介して、あるいは、無線を介した通信などにより行われる。取り込まれたそれらのデータは例えばパーソナルコンピュータ141が内蔵するハードディスクなどに記録される。
パーソナルコンピュータ141のシーン判別部55は、ビデオカメラ121から取り込まれたシーンチェンジデータと顔データに基づいて、上述したようなシーンの判別を行い、判別結果をブラウズアプリケーション56に出力する。ブラウズアプリケーション56は、パーソナルコンピュータ141に設けられるディスプレイなどにブラウザ画面を表示し、ユーザによる操作にしたがってパーソナルビデオを再生する。
すなわち、この例の場合、パーソナルビデオの取り込みからブラウザ画面の表示までの処理のうち、シーンチェンジデータと顔データを生成する中間の処理までがビデオカメラ121により行われ、それ以降の処理がパーソナルコンピュータ141により行われる。パーソナルコンピュータ141に実装するのと同様に、動画の他にも静止画や音楽などの各種のコンテンツを扱うホームサーバに画像処理装置1の構成を実装することも可能である。
図22は、画像処理装置1の実装のさらに他の例を示す図である。
図22の例においては、図7に示される画像処理装置1の全体の構成がパーソナルコンピュータ151の構成として実装されている。パーソナルコンピュータ151には、ビデオカメラなどを用いて撮影されたパーソナルビデオが、テープなどの記録媒体を介して、あるいは、無線を介した通信などにそのビデオカメラから取り込まれ、取り込まれたパーソナルビデオを対象として上述したようなシーンの判別、ブラウザ画面の表示が行われる。シーンチェンジの検出、顔検出、シーンの判別などの処理は、パーソナルビデオが取り込まれた直後に行われるのではなく、パーソナルコンピュータ141のアイドル時に行われるようにしてもよい。
このように、画像処理装置1の構成は、その全体を1つの機器に実装することもできるし、複数の機器に分けて実装することも可能である。
図23は、学習装置201の機能構成例を示すブロック図である。
上述したように、画像処理装置1の認識用データ記憶部61にはシーンの判別に用いられるHMMが認識用データとしてあらかじめ用意されるが、この認識用データが、学習装置201により生成される。例えば、画像処理装置1が図20に示されるようにビデオカメラに実装される場合、学習装置201は、メーカの開発者などによりビデオカメラの出荷前に用いられる。
図23に示されるように、学習装置201は、シーン判別部55に替えて学習部215が設けられる点とブラウズアプリケーション56が設けられない点を除いて基本的に画像処理装置1と同様の構成を有しており、シーンチェンジ検出部211、シーンチェンジスコア記憶部212、顔検出部213、顔データ記憶部214、および学習部215から構成される。
シーンチェンジ検出部211は図7のシーンチェンジ検出部51に対応し、シーンチェンジスコア記憶部212は図7のシーンチェンジスコア記憶部52に対応する。また、顔検出部213は図7の顔検出部53に対応し、顔データ記憶部214は図7の顔データ記憶部54に対応する。
シーンチェンジ検出部211は、供給されたパーソナルビデオを対象としてシーンチェンジの検出を行い、検出結果として求められたシーンチェンジのスコアをシーンチェンジスコア記憶部212に記憶させるとともに、シーンチェンジの位置をスコアから判断し、シーンチェンジデータをシーンチェンジスコア記憶部212に記憶させる。
顔検出部213は、供給されたパーソナルビデオを構成する静止画を対象として、またはフレームを間引いたパーソナルビデオを構成する静止画を対象として、画像処理装置1の顔検出部53が行う顔検出と同じ顔検出を行い、顔検出の結果である顔データを顔データ記憶部214に記憶させる。
シーンチェンジ検出部211と顔検出部213に供給されるパーソナルビデオは、ビデオカメラなどを用いて撮影された学習用のビデオであり、ここには、1人の人の顔や、複数の人の顔、ズームされた人の顔などが映っている。
学習部215は、人の顔などの、ある対象物が映っているシーンがユーザにより指定されたとき、図13を参照して説明したように、対象物が映っているシーンであるとユーザにより指定されたシーンを構成する静止画から求められた顔データの時系列を顔データ記憶部214から読み出し、読み出した顔データの時系列に基づいて、その対象物が映っているシーンを判別するためのHMMを生成する。
また、学習部215は、ある対象物が映ってないシーンがユーザにより指定されたとき(対象物が映っているシーンであると指定されなかったとき)、対象物が映っていないシーンであるとユーザにより指定されたシーンを構成する静止画から求められた顔データの時系列を顔データ記憶部214から読み出し、読み出した顔データの時系列に基づいて、その対象物が映っていないシーンを判別するためのHMMを生成する。
すなわち、メーカの開発者などの学習装置201のユーザは、シーンチェンジ検出部211と顔検出部213に供給されたパーソナルビデオと同じビデオを所定の再生機により再生させることによって目で見て、画像処理装置1に判別させたいシーンに応じて、どのシーンが対象物が映っているシーンであるのか、どのシーンが対象物が映っていないシーンであるのかを表す情報などを正解データとして学習装置201に入力する必要がある。
顔シーンとグループシーンとズームシーンを画像処理装置1に判別させる場合、どのシーンが人の顔が映っている静止画を含むシーンであるのかを表す情報、どのシーンが多くの人の顔が映っている静止画を含むシーンであるのかを表す情報、どのシーンが人の顔が大きく映っている静止画を含むシーンであるのかを表す情報を、正解データとしてユーザは学習装置201に入力することになる。
学習部215は、生成したHMMを認識用データとして出力する。出力された認識用データは画像処理装置1の認識用データ記憶部61に記憶される。
ここで、図24のフローチャートを参照して、学習装置201の学習処理について説明する。
ステップS101において、シーンチェンジ検出部211は、パーソナルビデオを対象としてシーンチェンジ検出を行い、シーンチェンジデータをシーンチェンジスコア記憶部212に記憶させる。
ステップS102において、顔検出部213は、パーソナルビデオを構成する静止画を対象として、またはフレームを間引いたパーソナルビデオを構成する静止画を対象として、画像処理装置1の顔検出部53が行う顔検出と同じ顔検出を行い、顔データを顔データ記憶部214に記憶させる。
ステップS103において、学習部215は、ユーザから入力された正解データと、顔データ記憶部214に記憶されている顔データの時系列に基づいて学習を行い、HMMを生成する。
学習部215は、ステップS104において、生成したHMMを認識用データとして出力し、処理を終了させる。
以上の処理により認識用データが生成され、生成された認識用データが画像処理装置1に用意される。これにより、画像処理装置1のユーザは、正解データを入力するなどしてHMMを自ら用意する必要がなく、パーソナルビデオを用意するだけでシーンの判別を行わせることができる。
当然、画像処理装置1のユーザが、自分が撮影したパーソナルビデオを対象として画像処理装置1に学習を行わせ、認識用データ記憶部61に認識用データを自ら用意するようにしてもよい。この場合、ユーザは、自分が撮影したパーソナルビデオを見て、判別させたいシーンに応じて、正解データを画像処理装置1に入力する必要がある。
以上においては、パーソナルビデオのそれぞれのシーンが顔シーンであるか否か、グループシーンであるか否か、ズームシーンであるか否かが判別されるものとしたが、判別させたい対象物に応じて画像処理装置1に用意する認識用データを替えることによって、他の対象物が映っている静止画を含むシーンであるか否かを判別させることもできる。
例えば、風景の特徴を検出し、検出した特徴に基づいて、風景が映っている静止画を含むシーンであるか否かを判別するためのHMMを画像処理装置1に用意することによって、風景のシーンであるか否かを判別させることも可能である。
また、以上においては、シーンの判別にはHMMが用いられるものとしたが、時系列データを対象とするパターン認識の他のアルゴリズムを用いて判別が行われるようにしてもよい。そのようなアルゴリズムとしては、例えば、ビタビアルゴリズムやニューラルネットワークなどがある。
さらに、パターン認識によりシーンの判別を行うのではなく、閾値処理により判別を行うようにしてもよい。例えば、パーソナルビデオを構成する全ての静止画から得られた顔データによって表される顔の数の平均を求め、その平均を閾値として、閾値より多い数の顔が映っている静止画を含むシーンを顔が多く映っているシーンとして判別することもできる。この場合も、判別はシーン単位で行われるから、シーンより細かい部分単位で判別結果を求める場合に較べて、判別結果が細切れになることを防ぐことができる。
パターン認識ではなく、このような閾値処理によって行うシーンの判別は、パターン認識によって行うシーンの判別より処理の負荷を抑えることができ、処理能力がパーソナルコンピュータなどと較べて劣る、携帯電話機やデジタルビデオカメラ、あるいはデジタルスチルカメラなどの機器に採用することができる。
また、以上においては、シーン判別部55によりシーンの判別が行われたとき、判別結果に基づいてブラウザ画面が表示され、ユーザはブラウザ画面から所定のシーンを再生させることができるものとしたが、パーソナルビデオと対応付けて判別結果が保存され、パーソナルビデオの編集などの他の処理に用いられるようにしてもよい。
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図25は、一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。
CPU(Central Processing Unit)221は、ROM(Read Only Memory)222、または記憶部228に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)223には、CPU221が実行するプログラムやデータなどが適宜記憶される。これらのCPU221、ROM222、およびRAM223は、バス224により相互に接続されている。
CPU221にはまた、バス224を介して入出力インターフェース225が接続されている。入出力インターフェース225には、キーボード、マウス、マイクロホンなどよりなる入力部226、ディスプレイ、スピーカなどよりなる出力部227が接続されている。CPU221は、入力部226から入力される指令に対応して各種の処理を実行する。そして、CPU221は、処理の結果を出力部227に出力する。
入出力インターフェース225に接続されている記憶部228は、例えばハードディスクからなり、CPU221が実行するプログラムや各種のデータを記憶する。通信部229は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
入出力インターフェース225に接続されているドライブ230は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア231が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部228に転送され、記憶される。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図25に示すように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア231、または、プログラムが一時的もしくは永続的に格納されるROM222や、記憶部228を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部229を介して、ローカルエリアネットワーク、インターネット、ディジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
顔検出の結果の例を示す図である。 本発明の一実施形態に係る画像処理装置と、画像処理装置に接続されるディスプレイを示す図である。 画像処理装置により行われる判別の例を示す図である。 判別のより詳細な例を示す図である。 ブラウザ画面の表示例を示す図である。 図5のブラウザ画面の一部を拡大して示す図である。 画像処理装置の機能構成例を示すブロック図である。 シーンチェンジ検出の例を示す図である。 シーンチェンジデータの例を示す図である。 顔検出の対象になる静止画の例を示す図である。 顔データの例を示す図である。 顔シーンの判別について説明する図である。 顔シーンの判別について説明する他の図である。 顔シーンの判別について説明するさらに他の図である。 判別結果の例を示す図である。 画像処理装置の顔シーン判別処理について説明するフローチャートである。 画像処理装置のグループシーン判別処理について説明するフローチャートである。 画像処理装置のズームシーン判別処理について説明するフローチャートである。 画像処理装置の表示制御処理について説明するフローチャートである。 画像処理装置の実装の例を示す図である。 画像処理装置の実装の他の例を示す図である。 画像処理装置の実装のさらに他の例を示す図である。 学習装置の機能構成例を示すブロック図である。 学習装置の学習処理について説明するフローチャートである。 パーソナルコンピュータの構成例を示すブロック図である。
符号の説明
1 画像処理装置, 2 ディスプレイ, 51 シーンチェンジ検出部, 52 シーンチェンジスコア記憶部, 53 顔検出部, 54 顔データ記憶部, 55 シーン判別部, 56 ブラウズアプリケーション, 61 認識用データ記憶部, 201 学習装置, 211 シーンチェンジ検出部, 212 シーンチェンジスコア記憶部, 213 顔検出部, 214 顔データ記憶部, 215 学習部

Claims (7)

  1. 動画におけるシーンチェンジを検出するシーンチェンジ検出手段と、
    前記動画を構成する静止画から、被写体として含まれる所定の対象物を検出し、検出した前記所定の対象物の特徴を表す情報の時系列を検出する対象物検出手段と、
    前記所定の対象物を被写体に含む静止画を含むシーンを構成する静止画を対象にして前記対象物検出手段が行う検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルである第1のモデル情報を、判別するシーンの種類毎に複数記憶する記憶手段と、
    前記シーンチェンジ検出手段により検出されたシーンチェンジから時間軸上で隣のシーンチェンジまでのそれぞれのシーンを構成する静止画を対象にして前記対象物検出手段により検出された前記所定の対象物の特徴を表す情報の時系列のパターン認識を前記記憶手段に記憶されている複数の前記第1のモデル情報に基づいて行い、それぞれのシーンの種類を判別する判別手段と
    を備え
    前記記憶手段は、前記所定の対象物を被写体に含まない静止画を含むシーンを構成する静止画を対象にして前記対象物検出手段が行う検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルである第2のモデル情報を、判別するシーンの種類毎に複数さらに記憶し、
    前記判別手段は、前記パターン認識の結果として前記第1のモデル情報から求められるスコアと、前記第2のモデル情報から求められるスコアから、それぞれのシーンの種類を判別する
    画像処理装置。
  2. 前記対象物検出手段は、前記動画を構成する静止画に被写体として含まれる前記所定の対象物の数の情報、静止画の所定の位置を基準とした前記所定の対象物の位置の情報、前記所定の対象物の面積の情報のうちの少なくともいずれかの情報の時系列を、前記所定の対象物の特徴を表す情報の時系列として検出し、
    前記判別手段は、前記対象物検出手段により検出された情報のうちの1つ以上の情報を用いて、それぞれのシーンの種類を判別する
    請求項1に記載の画像処理装置。
  3. 前記判別手段による判別結果に基づいて、前記動画の再生をシーンの種類毎に行う再生手段をさらに備える
    請求項1に記載の画像処理装置。
  4. 前記再生手段は、さらに、前記判別手段による判別結果に基づいて、それぞれの種類のシーンの前記動画全体における位置を表示させる
    請求項3に記載の画像処理装置。
  5. 時間軸上で並ぶ2つの静止画の特徴の差と閾値を比較することによって前記動画におけるシーンチェンジを検出する場合、前記シーンチェンジ検出手段は、前記閾値を変えて異なる粒度のシーンが定められるシーンチェンジを検出する
    請求項1に記載の画像処理装置。
  6. 動画におけるシーンチェンジを検出し、
    前記動画を構成する静止画から、被写体として含まれる所定の対象物を検出し、検出した前記所定の対象物の特徴を表す情報の時系列を検出し、
    検出したシーンチェンジから時間軸上で隣のシーンチェンジまでのそれぞれのシーンを構成する静止画を対象にして検出した前記所定の対象物の特徴を表す情報の時系列のパターン認識を、判別するシーンの種類毎に記憶手段に複数記憶されている、前記所定の対象物を被写体に含む静止画を含むシーンを構成する静止画を対象にして前記所定の対象物の特徴を表す情報の時系列の検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルであるモデル情報に基づいて行い、それぞれのシーンの種類を判別する
    ステップを含み、
    前記記憶手段には、前記所定の対象物を被写体に含まない静止画を含むシーンを構成する静止画を対象にして、前記所定の対象物の特徴を表す情報の時系列の検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルである第2のモデル情報が、判別するシーンの種類毎に複数さらに記憶されており、
    それぞれのシーンの種類を判別することは、前記パターン認識の結果として前記第1のモデル情報から求められるスコアと、前記第2のモデル情報から求められるスコアから、それぞれのシーンの種類を判別するようにして行われる
    画像処理方法。
  7. 動画におけるシーンチェンジを検出し、
    前記動画を構成する静止画から、被写体として含まれる所定の対象物を検出し、検出した前記所定の対象物の特徴を表す情報の時系列を検出し、
    検出したシーンチェンジから時間軸上で隣のシーンチェンジまでのそれぞれのシーンを構成する静止画を対象にして検出した前記所定の対象物の特徴を表す情報の時系列のパターン認識を、判別するシーンの種類毎に記憶手段に複数記憶されている、前記所定の対象物を被写体に含む静止画を含むシーンを構成する静止画を対象にして前記所定の対象物の特徴を表す情報の時系列の検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルであるモデル情報に基づいて行い、それぞれのシーンの種類を判別する
    ステップを含み、
    前記記憶手段には、前記所定の対象物を被写体に含まない静止画を含むシーンを構成する静止画を対象にして、前記所定の対象物の特徴を表す情報の時系列の検出と同じ検出を行って得られた時系列の情報をモデル化した状態遷移確率モデルである第2のモデル情報が、判別するシーンの種類毎に複数さらに記憶されており、
    それぞれのシーンの種類を判別することは、前記パターン認識の結果として前記第1のモデル情報から求められるスコアと、前記第2のモデル情報から求められるスコアから、それぞれのシーンの種類を判別するようにして行われる
    処理をコンピュータに実行させるプログラム。
JP2006060592A 2006-03-07 2006-03-07 画像処理装置、画像処理方法、およびプログラム Expired - Fee Related JP4618166B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006060592A JP4618166B2 (ja) 2006-03-07 2006-03-07 画像処理装置、画像処理方法、およびプログラム
US11/714,074 US8170269B2 (en) 2006-03-07 2007-03-05 Image processing apparatus, image processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006060592A JP4618166B2 (ja) 2006-03-07 2006-03-07 画像処理装置、画像処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2007241496A JP2007241496A (ja) 2007-09-20
JP4618166B2 true JP4618166B2 (ja) 2011-01-26

Family

ID=38587002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006060592A Expired - Fee Related JP4618166B2 (ja) 2006-03-07 2006-03-07 画像処理装置、画像処理方法、およびプログラム

Country Status (2)

Country Link
US (1) US8170269B2 (ja)
JP (1) JP4618166B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4797761B2 (ja) * 2006-04-12 2011-10-19 オムロン株式会社 動画表示装置
GB2448221B (en) * 2007-04-02 2012-02-01 Samsung Electronics Co Ltd Method and apparatus for providing composition information in digital image processing device
JP2009076982A (ja) * 2007-09-18 2009-04-09 Toshiba Corp 電子機器および顔画像表示方法
JP2009081699A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 電子機器および顔画像抽出制御方法
JP5057918B2 (ja) 2007-09-28 2012-10-24 株式会社東芝 電子機器およびシーン種類表示方法
JP2009089065A (ja) 2007-09-28 2009-04-23 Toshiba Corp 電子機器および顔画像表示装置
WO2009069831A1 (en) * 2007-11-29 2009-06-04 Kabushiki Kaisha Toshiba Picture processing method and picture processing apparatus
JP5213557B2 (ja) * 2008-07-11 2013-06-19 キヤノン株式会社 動画像処理装置および動画像処理方法
KR101644789B1 (ko) 2009-04-10 2016-08-04 삼성전자주식회사 방송 프로그램 연관 정보 제공 장치 및 방법
KR101051365B1 (ko) * 2009-07-16 2011-07-22 주식회사 유니온커뮤니티 카메라를 구비한 출입관리장치 및 그 출입관리방법
KR20110062982A (ko) * 2009-12-04 2011-06-10 삼성전자주식회사 실시간 방송 컨텐츠의 방송 요약 정보 생성 방법 및 장치와, 그 제공방법 및 방송 수신 장치
JP2011223325A (ja) * 2010-04-09 2011-11-04 Sony Corp コンテンツ検索装置および方法、並びにプログラム
US8451384B2 (en) * 2010-07-08 2013-05-28 Spinella Ip Holdings, Inc. System and method for shot change detection in a video sequence
JP5566984B2 (ja) * 2011-10-14 2014-08-06 株式会社東芝 電子機器および画像表示方法
US8761448B1 (en) 2012-12-13 2014-06-24 Intel Corporation Gesture pre-processing of video stream using a markered region
KR101978216B1 (ko) * 2013-01-04 2019-05-14 엘지전자 주식회사 이동 단말기 및 그 제어방법
CN104254019B (zh) * 2013-06-28 2019-12-13 广州华多网络科技有限公司 信息推送结果检测方法和系统
US10079317B2 (en) * 2013-07-15 2018-09-18 Constantine Gonatas Device for smoothing fluctuations in renewable energy power production cause by dynamic environmental conditions
CN105814561B (zh) * 2014-01-17 2019-08-09 株式会社日立制作所 影像信息处理系统
KR101815176B1 (ko) 2016-06-03 2018-01-05 주식회사 하이퍼커넥트 중개 방법, 장치 및 시스템
US11915722B2 (en) 2017-03-30 2024-02-27 Gracenote, Inc. Generating a video presentation to accompany audio
JP7230803B2 (ja) * 2017-07-19 2023-03-01 ソニーグループ株式会社 情報処理装置および情報処理方法
WO2019082268A1 (ja) * 2017-10-24 2019-05-02 三菱電機株式会社 画像処理装置及び画像処理方法
KR102293416B1 (ko) * 2017-11-02 2021-08-26 주식회사 하이퍼커넥트 통신 장치, 서버 및 그것의 통신 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167110A (ja) * 1999-12-08 2001-06-22 Matsushita Electric Ind Co Ltd 画像検索方法及びその装置
JP2003256432A (ja) * 2002-03-06 2003-09-12 Telecommunication Advancement Organization Of Japan 映像素材情報記述方法、遠隔検索システム、遠隔検索方法、編集装置および遠隔検索端末、遠隔編集システム、遠隔編集方法、編集装置および遠隔編集端末、ならびに、映像素材情報記憶装置および方法
JP2005333381A (ja) * 2004-05-19 2005-12-02 Toshiba Corp メディアデータ再生装置、メディアデータ再生システム、メディアデータ再生プログラムおよび遠隔操作プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7412998A (en) * 1996-11-27 1998-06-22 Princeton Video Image, Inc. Motion tracking using imagetexture templates
JP2002027411A (ja) 2000-07-13 2002-01-25 Sony Corp 映像信号記録装置および方法、映像信号再生装置および方法、並びに記録媒体
US6847680B2 (en) * 2001-12-17 2005-01-25 Mitsubishi Electric Research Laboratories, Inc. Method for detecting talking heads in a compressed video
JP4036321B2 (ja) 2002-03-11 2008-01-23 Kddi株式会社 映像の検索装置および検索プログラム
US7095786B1 (en) * 2003-01-11 2006-08-22 Neo Magic Corp. Object tracking using adaptive block-size matching along object boundary and frame-skipping when object motion is low
JP4444709B2 (ja) * 2004-03-26 2010-03-31 富士通株式会社 動画像補正係数算出装置、動画像補正装置、動画像補正係数算出方法および動画像補正係数算出プログラム
US7760956B2 (en) * 2005-05-12 2010-07-20 Hewlett-Packard Development Company, L.P. System and method for producing a page using frames of a video stream
US8330801B2 (en) * 2006-12-22 2012-12-11 Qualcomm Incorporated Complexity-adaptive 2D-to-3D video sequence conversion

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167110A (ja) * 1999-12-08 2001-06-22 Matsushita Electric Ind Co Ltd 画像検索方法及びその装置
JP2003256432A (ja) * 2002-03-06 2003-09-12 Telecommunication Advancement Organization Of Japan 映像素材情報記述方法、遠隔検索システム、遠隔検索方法、編集装置および遠隔検索端末、遠隔編集システム、遠隔編集方法、編集装置および遠隔編集端末、ならびに、映像素材情報記憶装置および方法
JP2005333381A (ja) * 2004-05-19 2005-12-02 Toshiba Corp メディアデータ再生装置、メディアデータ再生システム、メディアデータ再生プログラムおよび遠隔操作プログラム

Also Published As

Publication number Publication date
US20070274596A1 (en) 2007-11-29
JP2007241496A (ja) 2007-09-20
US8170269B2 (en) 2012-05-01

Similar Documents

Publication Publication Date Title
JP4618166B2 (ja) 画像処理装置、画像処理方法、およびプログラム
KR100827846B1 (ko) 동영상에 포함된 특정 인물을 검색하여 원하는 시점부터재생하기 위한 방법 및 시스템
JP4760892B2 (ja) 表示制御装置、表示制御方法及びプログラム
US9013604B2 (en) Video summary including a particular person
EP2710594B1 (en) Video summary including a feature of interest
JP4241709B2 (ja) 画像処理装置
US20080260255A1 (en) Image processing apparatus, imaging apparatus, image processing method, and computer program
US20120020643A1 (en) Thumbnail generating apparatus and thumbnail generating method
JP5107806B2 (ja) 画像処理装置
KR20120068078A (ko) 영상 처리 장치 및 그의 영상 데이터와 오디오 데이터의 연결 방법
JP3708854B2 (ja) メディア作品制作支援装置及びプログラム
JP2009044463A (ja) 電子カメラ及び被写界像再生装置
JP2011010276A (ja) 画像再生装置及び撮像装置
KR20100103776A (ko) 화상 처리 장치, 동화상 재생 장치, 이것들에 있어서의 처리 방법 및 프로그램
US20110064384A1 (en) Reproduction control apparatus, reproduction control method, and program
JP2008199330A (ja) 動画像管理装置
JP4835545B2 (ja) 画像再生装置、撮像装置、および画像再生方法、並びにコンピュータ・プログラム
JP2006229467A (ja) フォトムービー作成装置及びフォトムービー作成プログラム、並びに被写体認識方法
KR102066857B1 (ko) 객체 영상 트랙킹 스트리밍 시스템 및 이를 이용한 스트리밍 방법
JP5147737B2 (ja) 撮像装置
JP2006311145A (ja) 撮像装置、再生装置、制御方法、およびプログラム
WO2022030275A1 (ja) 撮像装置、情報処理装置、情報処理方法、及びプログラム
JP4673916B2 (ja) 情報処理装置、情報処理方法及び情報処理用プログラム
JP4934066B2 (ja) 情報生成装置、情報生成方法及び情報生成プログラム
JP5665380B2 (ja) 画像処理装置、画像処理装置の制御方法、プログラム、及び記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100325

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100514

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100820

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100928

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101011

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees