JP5464965B2 - 画像処理装置及びその制御方法、並びにプログラム及び記憶媒体 - Google Patents

画像処理装置及びその制御方法、並びにプログラム及び記憶媒体 Download PDF

Info

Publication number
JP5464965B2
JP5464965B2 JP2009238159A JP2009238159A JP5464965B2 JP 5464965 B2 JP5464965 B2 JP 5464965B2 JP 2009238159 A JP2009238159 A JP 2009238159A JP 2009238159 A JP2009238159 A JP 2009238159A JP 5464965 B2 JP5464965 B2 JP 5464965B2
Authority
JP
Japan
Prior art keywords
frame
specifying
face
range
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009238159A
Other languages
English (en)
Other versions
JP2011087105A (ja
Inventor
泰 加地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2009238159A priority Critical patent/JP5464965B2/ja
Publication of JP2011087105A publication Critical patent/JP2011087105A/ja
Application granted granted Critical
Publication of JP5464965B2 publication Critical patent/JP5464965B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Description

本発明は、ビデオ再生装置などの画像処理装置及びその制御方法、並びにプログラム及び記憶媒体に関する。
デジタルビデオカメラなどで動画撮影をして記録した複数のファイルは、再生時にサムネイルで表示されることが一般的に行われている。サムネイルは、ユーザに対して動画像ファイルの内容を把握しやすくすることを目的として表示されるものであり、従来ほとんど多くのサムネイルには動画像ファイル中の最初のシーンが使われていた。
しかしながら、このように最初のシーンをサムネイルに使用する場合には次のような問題がある。例えば、特定の人物に注目して撮影した動画像ファイルをサムネイルにする場合である。このような動画ファイルでは、撮影の対象とした人物が写っているシーンをサムネイルにするとユーザはファイルの内容を把握しやすくなることが考えられる。しかし、最初のシーンはその肝心の人物が写っていないこともあるので、必ずしもサムネイルに適しているとは言えない。
上記のように、人物を対象として撮影した動画像ファイルからサムネイルにふさわしい代表画像を選択するためには、顔検出技術を利用する方法がある。具体的には、動画像中から人物が登場したシーンを検出してサムネイルを作成する。これにより、動画像ファイルの内容をユーザに対してより分かりやすくすることができる。ただし、これを実現するためには、動画像ファイル中に複数の顔が登場する場合でも、処理の対象とする代表人物を特定する必要がある。
この代表人物を特定するための技術として、特許文献1では、動画撮影中に検出した顔を認識して登録し、各々の顔の検出頻度を算出して累積検出回数が高い顔に焦点を合わせて撮影するデジタルカメラについて紹介されている。この技術では、検出した顔を認識して登録するために、個人認識の技術を用いている。即ち、人物の顔の特徴を元に個人の照合を行う個人認識の技術によって各登場人物の顔の累積検出回数を記録している。
特開2007−6033号公報
しかしながら、上記特許文献1の技術では、個人認識の技術を用いているため、人物の顔を検出後にさらに個人の照合を行うため、処理の構成が複雑になるという問題があった。
また、長時間の撮影で記録した動画では、検出される顔が多数になることが予想され、上記特許文献1の累積検出回数を用いる方法によって代表人物を特定することは困難であった。
本発明は上記従来の問題点に鑑み、人物の顔照合を必要としない簡単な処理構成で、動画像データから代表人物が写ったシーンを特定することができる画像処理装置及びその制御方法、並びにプログラム及び記憶媒体を提供することを目的とする。
上記目的を達成するために、本発明の画像処理装置は、動画像データを処理する画像処理装置であって、前記動画像データから人物の顔が含まれる1つ以上のフレームを特定するフレーム特定手段と、前記フレーム特定手段により特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定手段と、前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得手段と、前記フレーム範囲取得手段によって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定手段と、動画像データに含まれる属性情報を取得する手段とを備え、前記フレーム範囲特定手段は、前記属性情報に基づいて、同一人物が連続して含まれるフレーム範囲を特定することを特徴とする。
上記目的を達成するために、本発明の画像処理装置は、動画像データを処理する画像処理装置であって、前記動画像データから人物の顔が含まれる1つ以上のフレームを特定するフレーム特定手段と、前記フレーム特定手段により特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定手段と、前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得手段と、前記フレーム範囲取得手段によって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定手段と、動画像データに含まれる属性情報を取得する手段と、前記属性情報から第1のフレームに含まれる人物の顔の位置を取得する第1の顔位置取得手段と、前記属性情報から前記第1のフレームの次の第2のフレームに含まれる人物の顔の位置を取得する第2の顔位置取得手段と、
前記第1と前記第2の顔位置取得手段によって取得した顔の位置の差が所定の範囲内であった場合に当該人物が同一人物と判定する人物追跡手段とを備え、前記フレーム範囲特定手段は、前記人物追跡手段により同一人物と判定される人物が連続して含まれるフレーム範囲を特定することを特徴とする。
上記目的を達成するために、本発明の画像処理装置は、動画像データを処理する画像処理装置であって、前記動画像データから人物の顔が含まれる1つ以上のフレームを特定するフレーム特定手段と、前記フレーム特定手段により特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定手段と、前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得手段と、前記フレーム範囲取得手段によって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定手段と、動画像データの各フレームから人物の顔を検出する顔検出手段と、前記顔検出手段によって検出された、第1のフレームに含まれる人物の顔の位置を取得する第1の顔位置取得手段と、前記第1のフレームの次の第2のフレームに含まれる人物の顔位置を取得する第2の顔位置取得手段と、前記第1と前記第2の顔位置取得手段によって取得した顔の位置の差が所定の範囲内であった場合に当該人物が同一人物と判定する人物追跡手段とを備えたことを特徴とする。
本発明によれば、人物の顔照合を必要としない簡単な処理構成で、動画像データから代表画像となるフレームを特定することが可能になる。
第1の実施の形態におけるビデオ再生装置の構成を示すブロック図である。 属性情報の内容を示す図である。 顔の検出状況とこれに関する属性情報を示す図である。 主顔フレーム抽出部の動作を示すフローチャートである。 フレーム範囲テーブルとフレーム群の時間テーブルを示す図である。 作成したサムネイルの様子を示す図である。 第2の実施の形態におけるビデオ再生装置の構成と属性情報を示す図である。 第3の実施の形態におけるビデオ再生装置の構成を示すブロック図である。
以下、本発明の実施の形態について、図面を参照しながら説明する。
[第1の実施の形態]
第1の実施の形態では、外部のビデオカメラで記録した動画像データから、顔を検出したフレーム情報と、連続したフレームで顔を追跡した情報を取得する場合について説明する。
<ビデオ再生装置の全体的な構成>
図1は、本発明の第1の実施の形態における画像処理装置を備えたビデオ再生装置の概略の構成を示すブロック図である。
このビデオ再生装置100は、制御部101、記録部102、動画像復号部103、表示部104、操作部105、及び主顔フレーム抽出部106から構成されている。
制御部101は、装置全体を制御し、またフレーム範囲取得手段の一例として機能する。制御部101は、記録部102に記録されている動画像データを読み出して動画像復号部103に入力する。ここで読み出す動画像データとは、動画中のビデオとオーディオのデータが格納されているファイルのことである。例えば、MPEG−2TS形式のファイルが動画像データとして利用できる。
記録部102は、装置の制御プログラムを格納するROMや各種プログラム実行時の作業領域となるRAM、さらにビデオ再生装置100に対して着脱可能な記録媒体(例えばSDカード)を用いて構成される。SDカードは、外部のビデオカメラ等で記録した動画像データ(MPEG−2TS形式のファイルと、動画ファイルに付属する属性情報(後述))を取得するために利用される。
動画像復号部103はMPEG−2 TS形式のファイルを読み出し、復号化して非圧縮画像データとして表示部104に送り出す。表示部104は、動画像、又は動画像ファイルのサムネイル画像などを生成して表示するものであり、入力された非圧縮画像データを適切なサイズにリサイズし、グラフィック描画としてLCDなどの表示器で表示する。
操作部105は、ビデオ再生装置100を操作する各ボタンを備えている。ユーザがこれらのボタンを押すと、対応した要求が制御部101に送られる。そして、制御部101は要求に応じた動作を行うために装置全体を制御する。
主顔フレーム抽出部106は、記録部102から読み出した動画像データから、人物の顔を最も長く連続して検出したフレーム群の情報を取得するモジュールである。主顔フレーム抽出部は、画像データ取得部107、フレーム特定部108、フレーム範囲特定部109、フレーム長比較部110から構成される。主顔フレーム抽出部106は、記録部102に格納されたプログラムが実行されることによって、その機能が実現される。
<主顔フレーム抽出部106の詳細>
(A)主顔フレーム抽出部106の構成
次に、主顔フレーム抽出部106の各構成要素について説明する。
画像データ取得部107は、記録部102に記録されている動画像データから、動画ファイル中で人物の顔部分を検出した情報(属性情報)を取得する。図2(a)に、属性情報のデータ構造を示す。
図2(a)に示すように、上記の属性情報は、フレーム情報201と顔情報識別値202から成る。フレーム情報201は、動画の各フレームを特定するためのタイムコードやフレーム番号であり、顔情報識別値202は、検出した人物の顔ごとに割り振られる顔IDである。
外部のビデオカメラは、動画フレームごとに、図2(a)に示すような構成のデータを記録する。つまり属性情報は、全体として図2(b)のように要素数n(全動画フレーム数)の配列で示される。1つのフレームには、検出された顔の数だけ顔IDが記録される。図2(b)の例では、要素1と要素2のフレームでは、1つ顔(顔ID1)が検出されているのに対し、要素m(<n)のフレームでは、複数の顔(顔ID1と顔ID2)が検出されている。また、外部のビデオカメラは、同一の顔を検出もしくは追跡したとき、同じ顔IDを割り当てる。よって、図2(b)の例からは、要素1〜要素mのフレーム間で同一人物の顔(顔ID1)が連続して検出されていることが判る。
フレーム特定部108は、前記属性情報を解析して、動画中で人物の顔が1つ以上含まれるフレームを特定する。顔が1つ以上含まれるフレームとは、属性情報の顔情報識別値202の領域に1つ以上の顔IDが格納されたフレームを示している。そこで、フレーム特定部108は、属性情報の顔情報識別値202に顔IDが格納されているか否かを判断し、その結果、顔IDが格納されているフレームを特定する。そしてフレーム特定部108は、ここで特定したフレームのフレーム情報201を登録する。前述したように、フレーム情報201にはタイムコードやフレーム番号が格納されているため、この情報を取得することによって目的のフレームを特定できることになる。
フレーム範囲特定部109は、同一の顔が連続して検出されたフレーム群の範囲を特定する。「顔が連続して検出された」とは、同一の顔IDが連続するフレームに含まれている状態を示す。具体的には、フレーム範囲特定部109は、フレーム情報201に格納されているフレームのタイムコードを見て、フレームが連続しているかどうかを判断する。そして、連続する各フレームの属性情報に同一の顔IDが含まれているとき、同一の顔が連続して検出されたフレーム群であると判断する。
フレーム範囲特定部109は、顔IDごとに連続して検出されたフレーム群を特定し、それらのフレーム群の始点と終了点に当たるフレームのタイムコードを取得する。ただし、ここでフレーム群の範囲を特定するために別のパラメータを利用してもよい。例えば、(1)フレームの開始点のタイムコードとフレーム範囲の時間、(2)フレームの開始点のフレーム番号と終了点のフレーム番号、(3)フレームの開始点のフレーム番号とフレーム範囲のフレーム数、などである。上記のフレーム範囲の「時間」や「フレーム数」は、属性情報のフレーム情報201から計算可能な値である。
フレーム長比較部110は、同一の顔が連続検出された複数のフレーム群を比較し、フレーム群の範囲が最長であるものを決定する。そのため、フレーム長比較部110は、フレーム群の始点と終了点のタイムコードの差を計算し、候補となるフレーム群におけるそれらの値を比較して最長となるフレーム群の範囲を決定する。
(B)主顔フレーム抽出部における動画像データの処理例
次に、実際に記録した動画像データを主顔フレーム抽出部106で処理する例を説明する。
説明の手順として、始めに前述した属性情報をビデオカメラで記録した動画像ファイルにおける顔検出状況を説明し、次にその動画ファイルの属性情報を基に主顔フレーム抽出部106が行う動作を説明する。ただし、ユーザは記録した動画像データをSDカード(記録部102)に記録していることを前提とする。
図3(a)は、記録した動画像ファイル中において、顔の検出状況を示す概略図である。
図3(a)の3aは検出された顔IDであり、この例では顔ID1〜ID4といった複数の顔を検出している。3bはフレームのタイムコードであり、ここではタイムコードt1〜t8を記録している(ただし、t1〜t8はそれぞれが連続したフレームのタイムコードではない)。また、棒グラフの横の長さが1つの顔を連続したフレームで検出した期間である。
そのため、顔ID4に割り当てられた顔については次のような状況が考えられる。(1)顔ID1、もしくは顔ID3の人物が再度検出された場合、(2)顔ID1と顔ID3以外の顔が新たに検出された場合、である。このように、同一人物の顔であっても属性情報には新しい顔ID(顔ID4)として記録される。また、異なる顔IDが同時に検出されている期間では、動画撮影中で同時に複数の人物が写っていることを示している。例えばタイムコードt4のフレームの属性情報には、顔ID1〜ID3の3人の顔IDが記録されている。
図3(b)は、図3(a)の動画像ファイルに付属して記録された属性情報の詳細(t1〜t8以外のタイムコードは省略)を示す図である。
この属性情報には、各フレームに対応して顔検出された情報(フレームのタイムコードと、そのフレームで検出した顔ID)が記録されている。
(C)属性情報を基に主顔フレーム抽出部が行う動作
次に、図3(b)に示す属性情報を基に主顔フレーム抽出部106が行う動作について、図4のフローチャートを用いて説明する。
始めにユーザは、動画像データが記録されたSDカードを記録部102のSDスロットに挿入する。
ステップS401では、画像データ取得部107は、SDカードに記録されている動画ファイルの属性情報を取得し、続くステップS402で、N(フレームの順番を示す数)に最初のフレームであることを示す“1”を代入する。
次のステップS403では、フレーム特定部108は、N番目のフレームの属性情報に記録されている顔ID(顔ID1〜顔ID4)を確認し、続くステップS404で、顔IDが少なくとも1つ含まれているフレームのタイムコードを記録する。次のステップS405では、フレーム特定部108は、N番目のフレームが動画ファイルのフレーム数と等しいかどうかを確認し、等しくない限りステップS406でNを1だけインクリメントしてステップS403の処理まで戻る。フレーム特定部108は、このような処理を動画ファイルのフレーム数回だけ繰り返す。そして、ステップS407では、M(検出した人数)に1人目を示す“1”を代入する。
次のステップS408では、フレーム範囲特定部109は、前記特定したフレームの中から、顔ID1を含むフレーム群を特定し、その始点と終了点のタイムコード(t1〜t4)を取得する。これによって、顔ID1を連続検出したフレーム群の範囲を特定できる。次のステップS409では、フレーム範囲特定部109は、Mが動画ファイルで検出した人数と等しいかどうかを確認し、等しくない限りステップS410でMを1だけインクリメントしてステップS408の処理まで戻る。フレーム範囲特定部109は、このような処理を顔ID2〜顔ID4に対しても行い、それぞれ連続検出したフレーム群の範囲を特定する。その結果、フレーム範囲特定部109は図5(a)に示すようなフレーム範囲テーブルを作成する。
次のステップS411では、フレーム長比較部110は、前記フレーム範囲テーブルにより、顔IDごとのフレーム範囲の時間の長さを計算し、図5(b)に示すようなフレーム群の時間テーブルを作成する。続くステップS412では、フレーム範囲比較部110は、前記作成した時間テーブルからフレーム群の長さを比較し、最長となる顔ID2のフレーム群の範囲(始点と終了点のタイムコード)を前記フレーム範囲テーブルから取得する。
以上が、主顔フレーム抽出部106が行う動作の説明である。
<サムネイルの選択方法>
前記特定した最長のフレーム群の範囲内で連続して登場する顔IDは、動画撮影時に最も注目して撮影された人物(以下、代表人物と記す)の顔である可能性が高い。
主顔フレーム抽出部106が特定したフレーム群の情報(始点と終了点のタイムコード)は、上記の代表人物(代表画像)が登場するフレーム群を特定できるものである(代表画像特定)。したがって、例えば主顔フレーム抽出部106が特定したフレーム群の範囲内から、動画像ファイルのサムネイルにする画像となるフレームを選択すれば、ユーザに対してファイルの内容を把握しやすいサムネイルを提供できる。
そこで以下では、主顔フレーム抽出部106で特定したフレーム群の範囲から、動画像ファイルのサムネイルにするフレームを選択する方法を説明する。
ここでは、目的が異なる2つのサムネイル選択方法について説明する。即ち、(1)代表人物以外の人物が最も少なく写っているフレームをサムネイルとする場合(選択方法1)と、(2)代表人物以外の人物が最も多く写っているフレームをサムネイルとする場合(選択方法2)を挙げる。
図3(a)で説明した動画像ファイルに登場する顔の検出状況を基に、選択方法1と選択方法2について説明する。
選択方法1では、「代表人物以外の人物が最も少なく写っている」という条件を満たすフレームはタイムコードt5〜t6と、タイムコードt7〜t8の間にあるフレームであり、これがサムネイルの候補となる。
制御部101はこの候補となるフレームを特定するために、フレーム範囲特定部109が作成するフレーム範囲テーブル(図5(a)参照)を取得し、前記条件を満たすタイムコードの期間(t5〜t6、t7〜t8)を求める。そして、制御部101は、さらにこのフレーム範囲から時間軸で最も先頭に近いフレーム(タイムコードt5)をサムネイルとし、記録部102にサムネイル情報となるタイムコードt5を記録する。
検出される顔が多くなれば、特定の1人だけが検出されたフレームを取り出すことは難しくなる。このような状況を考慮して、候補とするフレームの条件を、代表人物以外の人物が最も少なく検出されているフレームとする。
なお、上記の例では、候補となるフレームの中から最も先頭に近いフレームをサムネイルとした。しかし、候補フレームの中からサムネイルを決定するために別の条件を与えてもよい。例えば、代表人物の顔がより大きく、より画面中心近くに撮影されているフレームをサムネイルにする方法などがある。
次に、選択方法2について説明する。上記選択方法1のときと同様な方法でサムネイルにするフレーム(タイムコードt3)を特定する。詳細の動作の説明は省略する。
代表人物が登場するシーンの中では、登場時間が短い人物、つまり注目度が低い(可能性が高い)人物も登場することもある。そのため、代表人物が登場したシーンの中で登場した時間(制限時間と呼ぶ)が一定未満の人物を登場人物として算出しない方法もある。例えば、以下に前記制限時間を12秒とした場合の例を説明する。
代表人物とする顔ID2が検出された期間(タイムコード間隔)は、タイムコードt2〜t8である。この期間のうち、他の顔が登場している期間はそれぞれ、顔ID1がタイムコードt2〜t4(15秒)、ID3がタイムコードt3〜t5(10秒)、タイムコードt6〜t7(14秒)である。ここでは、制限時間が12秒未満である顔ID3は登場人物として算出しない。よって、それ以外の人物が一番多く写っているシーン(タイムコードt2〜t4と、タイムコードt6〜t7)の中から、サムネイル生成するフレームを選択する。
<サムネイルの表示方法>
以上で決定したサムネイルを表示する方法について説明する。
制御部101は、記録部102に記録しているサムネイル情報(フレームのタイムコード)を読み取り、記録部102から該当するフレームの画像データを取得する。そして、この画像データを画像動画像復号部103で復号化し、表示部104に出力する。これにより、表示部104は目的のフレームをサムネイル表示することができる。
図6は、作成したサムネイルの様子を示す図である。
図6において、600は表示部104で表示したGUIを示しており、ここではサムネイル610とサムネイル620が2枚並んで表示されている。サムネイル610は、前記選択方法1におけるサムネイルである。人物612が顔ID2の代表人物である、人物611はこのフレームの直前まで追跡されていた顔ID3の人物であり、このサムネイルのフレームで顔の追跡からはずれている。
また、サムネイル620は前記選択方法2におけるサムネイルである。人物622が顔ID2の代表人物、人物621が顔ID1、そして人物623が顔ID3である。
<第1の実施の形態に係る利点>
本実施の形態によれば、記録された動画ファイルの中で、最も長く連続して検出された顔をそのファイル内の代表人物であると判断し、そのシーンを抽出する。これにより、検出した人物の顔照合(個人認識の技術)を必要としない簡単な処理構成で、動画像データから代表人物が写ったシーンを特定することが可能であり、代表人物が写っているシーンの抽出情報をユーザに提供することができる。即ち、ユーザは、動画ファイル中の代表人物のワンシーンをサムネイルで観ることができるので、それぞれのファイルの中で、中心に撮影された人物を簡単に確認することができる。
[第2の実施の形態]
次に、本発明の第2の実施の形態について説明する。第2の実施の形態では、外部のビデオカメラで記録した動画像データから、顔を検出したフレーム情報(タイムコード)のみを取得できる場合、つまり連続したフレームで顔を追跡した情報は取得できないような場合の例を説明する。
<ビデオ再生装置の構成及び動作>
図7(a)は、本発明の第2の実施の形態における画像処理装置を備えたビデオ再生装置の構成を示す概略のブロック図であり、図1と共通の要素には同一の符号を付し、その説明を省略する。
第2の実施の形態におけるビデオ再生装置700は、制御部101、記録部102、動画像復号部103、表示部104、操作部105、及び主顔フレーム抽出部710から構成されている。
主顔フレーム抽出部710は、記録部102から読み出した動画像データから、人物の顔を最も長く連続して検出したフレーム群の情報を取得するモジュールである。主顔フレーム抽出部710は、画像データ取得部107、フレーム特定部108、フレーム範囲特定部109、フレーム長比較部110、及び顔追跡部711から構成される。
画像データ取得部107は、記録部102に記録されている属性情報を取得する。ただし、第2の実施の形態で読み出す属性情報は第1の実施の形態のそれとは異なり、図7(b)で示されるデータ構造となっている。これは、図7(b)に示すように、フレーム情報701、検出フラグ702、顔領域x座標703、顔領域y座標704、顔領域幅705、及び顔領域高さ706から構成される。
フレーム情報701は、動画の各フレームを特定するためのタイムコードやフレーム番号が格納される。検出フラグ702は、‘1’がそのフレームで人物の顔部分を検出したことを、‘0’が検出できなかったことを意味する。
第2の実施の形態において外部のビデオカメラが記録する属性情報は、図7(b)に示すような構造体の型をもち、要素数が動画のフレーム数となる配列で表せる。また、1つのフレームで複数の顔を検出した場合、フレーム情報701以外の上記の各領域(702〜706)は、検出した顔の数だけ確保されて値が記録される。
顔追跡部711は、顔追跡処理を用いて同一の顔として識別できる顔対象に顔IDを割り振る。具体的には、画像データ取得部107から前記属性情報を取得し、検出フラグ702が‘1’となるフレームを開始フレームとして、時間軸の順方向と逆方向のそれぞれに顔追跡処理を実行する。
顔追跡処理における同一顔の推定には、フレーム間の相関を利用する。即ち、前フレーム(第1のフレーム)における顔の位置と現フレーム(第2のフレーム)における顔位置との差が所定の範囲内であった場合に、同一の顔であると判定する手法を利用する(第1の顔位置取得手段、第2の顔位置取得手段、人物追跡手段)。これによって、顔追跡部711は同一の顔として判断した顔に顔IDを割り振っていき、その結果、第1の実施の形態で利用した属性情報(図2(a))と同様なデータ構造をもつ顔検出情報を作成する。
<第2の実施の形態における利点>
本実施の形態によれば、主顔フレーム抽出部710は、前記顔検出情報を利用することにより、第1の実施の形態と同様の方法で同一人物が連続して含まれているフレーム群のうち最長であるフレーム群の範囲を抽出することができる。
さらに、このように抽出したフレーム群の範囲は、第1の実施の形態で説明した例と同じように動画ファイルのサムネイルを作成する際に利用することができる。
[第3の実施の形態]
次に、本発明の第3の実施の形態について説明する。第3の実施の形態では、属性情報に顔検出した情報を含まない場合の例を説明する。
<ビデオ再生装置の構成及び動作>
図8は、本発明の第3の実施の形態における画像処理装置を備えたビデオ再生装置の概略構成を示すブロック図であり、図1及び図7(a)と共通の要素には同一の符号を付しその説明を省略する。
このビデオ再生装置800は、制御部101、記録部102、動画像復号部103、表示部104、操作部105、及び主顔フレーム抽出部806から構成されている。
主顔フレーム抽出部806は、動画像データを読み出して、人物の顔を最も長く連続して検出したフレーム群の情報を取得するモジュールである。主顔フレーム抽出部806は、画像データ取得部107、フレーム特定部108、フレーム範囲特定部109、フレーム長比較部110、顔追跡部711、及び顔検出部812から構成される。
画像データ取得部107は、動画像復号部103が復号化した非圧縮画像データを取得する。顔検出部812は、前記非圧縮画像データの各フレーム内に存在する顔の検出を行う。検出方法は公知の顔検出方法を用いる。顔検出の公知技術は、顔に関する知識(肌色情報、目・鼻・口などのパーツ)を利用する方法とニューラルネットに代表される学習アルゴリズムにより顔検出のための識別器を構成する方法などがある。具体的には特開2002−251380号公報に記載のウェーブレット変換と画像特徴量を利用して顔検出する方法などが挙げられる。顔検出部812により検出される顔領域の情報は、図7(b)に示したデータ構造と同様、顔を検出したフレーム情報(タイムコード)、各フレームの検出フラグ、フレーム検出した人数分の顔の位置、及び大きさ(幅と高さ)である。
よって主顔フレーム抽出部806は、顔検出部812により検出される顔領域の情報を顔追跡部711で処理することにより、第1の実施の形態と同様なデータ構造をもつ属性情報を作成できる。これにより、第1の実施の形態と同様の方法で同一人物が連続して含まれているフレーム群のうち最長であるフレーム群の範囲を抽出(始点と終了点のタイムコードを取得)することができる。
<第3の実施の形態に係る利点>
本実施の形態における構成と方法によれば、動画像データから顔検出した情報が取得できない場合であっても、同一人物が連続して含まれているフレーム群のうち最長であるフレーム群の範囲を抽出することができる。
[他の実施の形態]
なお、本発明の実施の形態は、ネットワーク又は各種記録媒体を介して取得したソフトウェア(プログラム)をパーソナルコンピュータ(CPU,プロセッサ)にて実行することでも実現できる。
101 制御部
102 記録部
104 表示部
106,710,806 主顔フレーム抽出部
107 画像データ取得部
108 フレーム特定部
109 フレーム範囲特定部
110 フレーム長比較部

Claims (12)

  1. 動画像データを処理する画像処理装置であって、
    前記動画像データから人物の顔が含まれる1つ以上のフレームを特定するフレーム特定手段と、
    前記フレーム特定手段により特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定手段と、
    前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得手段と、
    前記フレーム範囲取得手段によって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定手段と
    動画像データに含まれる属性情報を取得する手段とを備え、
    前記フレーム範囲特定手段は、前記属性情報に基づいて、同一人物が連続して含まれるフレーム範囲を特定することを特徴とする画像処理装置。
  2. 動画像データを処理する画像処理装置であって、
    前記動画像データから人物の顔が含まれる1つ以上のフレームを特定するフレーム特定手段と、
    前記フレーム特定手段により特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定手段と、
    前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得手段と、
    前記フレーム範囲取得手段によって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定手段と、
    動画像データに含まれる属性情報を取得する手段と、
    前記属性情報から第1のフレームに含まれる人物の顔の位置を取得する第1の顔位置取得手段と、
    前記属性情報から前記第1のフレームの次の第2のフレームに含まれる人物の顔の位置を取得する第2の顔位置取得手段と、
    前記第1と前記第2の顔位置取得手段によって取得した顔の位置の差が所定の範囲内であった場合に当該人物が同一人物と判定する人物追跡手段とを備え、
    前記フレーム範囲特定手段は、前記人物追跡手段により同一人物と判定される人物が連続して含まれるフレーム範囲を特定することを特徴とする画像処理装置。
  3. 動画像データを処理する画像処理装置であって、
    前記動画像データから人物の顔が含まれる1つ以上のフレームを特定するフレーム特定手段と、
    前記フレーム特定手段により特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定手段と、
    前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得手段と、
    前記フレーム範囲取得手段によって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定手段と、
    動画像データの各フレームから人物の顔を検出する顔検出手段と、
    前記顔検出手段によって検出された、第1のフレームに含まれる人物の顔の位置を取得する第1の顔位置取得手段と、
    前記第1のフレームの次の第2のフレームに含まれる人物の顔位置を取得する第2の顔位置取得手段と、
    前記第1と前記第2の顔位置取得手段によって取得した顔の位置の差が所定の範囲内であった場合に当該人物が同一人物と判定する人物追跡手段とを備えたことを特徴とする画像処理装置。
  4. 前記フレーム範囲取得手段は、
    フレームの開始点のタイムコードと終了点のタイムコード、フレームの開始点のタイムコードとフレーム範囲の時間、フレームの開始点のフレーム番号と終了点のフレーム番号、及びフレームの開始点のフレーム番号とフレーム範囲のフレーム数のうち少なくともいずれか1つを前記フレーム範囲として取得することを特徴とする請求項1乃至3の何れか1項に記載の画像処理装置。
  5. 前記代表画像特定手段は、
    前記フレーム範囲取得手段によって取得したフレーム範囲において、検出された人物の顔が最も少ないフレームを代表画像の候補とすることを特徴とする請求項1乃至4の何れか1項に記載の画像処理装置。
  6. 前記代表画像特定手段は、
    前記フレーム範囲取得手段によって取得したフレーム範囲において、検出された人物の顔が最も多いフレームを代表画像の候補とすることを特徴とする請求項1乃至4の何れか1項に記載の画像処理装置。
  7. 前記代表画像の候補に基づいてサムネイル画像を生成することを特徴とする請求項又はに記載の画像処理装置。
  8. 動画像データを処理する画像処理装置の制御方法であって、
    前記動画像データから人物の顔が含まれる1つ以上のフレームを特定するフレーム特定工程と、
    前記フレーム特定工程により特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定工程と、
    前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得工程と、
    前記フレーム範囲取得工程によって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定工程と
    動画像データに含まれる属性情報を取得する属性情報取得工程とを備え、
    前記フレーム範囲特定工程では、前記属性情報に基づいて、同一人物が連続して含まれるフレーム範囲を特定することを特徴とする画像処理装置の制御方法。
  9. 動画像データを処理する画像処理装置の制御方法であって、
    前記動画像データから人物の顔が含まれる1つ以上のフレームを特定するフレーム特定工程と、
    前記フレーム特定工程により特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定工程と、
    前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得工程と、
    前記フレーム範囲取得工程によって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定工程と、
    動画像データに含まれる属性情報を取得する工程と、
    前記属性情報から第1のフレームに含まれる人物の顔の位置を取得する第1の顔位置取得工程と、
    前記属性情報から前記第1のフレームの次の第2のフレームに含まれる人物の顔の位置を取得する第2の顔位置取得工程と、
    前記第1と前記第2の顔位置取得工程によって取得した顔の位置の差が所定の範囲内であった場合に当該人物が同一人物と判定する人物追跡工程とを備え、
    前記フレーム範囲特定工程では、前記人物追跡工程により同一人物と判定される人物が連続して含まれるフレーム範囲を特定することを特徴とする画像処理装置の制御方法。
  10. 動画像データを処理する画像処理装置の制御方法であって、
    前記動画像データから人物の顔が含まれる1つ以上のフレームを特定するフレーム特定工程と、
    前記フレーム特定工程により特定されたフレーム群において同一人物が連続して含まれるフレーム範囲を特定するフレーム範囲特定工程と、
    前記フレーム範囲の時間が最長であるフレーム範囲を取得するフレーム範囲取得工程と、
    前記フレーム範囲取得工程によって取得したフレーム範囲の中から、代表画像となるフレームを特定する代表画像特定工程と、
    動画像データの各フレームから人物の顔を検出する顔検出工程と、
    前記顔検出工程によって検出された、第1のフレームに含まれる人物の顔の位置を取得する第1の顔位置取得工程と、
    前記第1のフレームの次の第2のフレームに含まれる人物の顔位置を取得する第2の顔位置取得工程と、
    前記第1と前記第2の顔位置取得工程によって取得した顔の位置の差が所定の範囲内であった場合に当該人物が同一人物と判定する人物追跡工程とを備えたことを特徴とする画像処理装置の制御方法。
  11. コンピュータを、請求項1乃至7の何れか1項に記載された画像処理装置の各手段として機能させるためのプログラム。
  12. コンピュータを、請求項1乃至7の何れか1項に記載された画像処理装置の各手段として機能させるためのプログラムを格納したコンピュータが読み取り可能な記憶媒体。
JP2009238159A 2009-10-15 2009-10-15 画像処理装置及びその制御方法、並びにプログラム及び記憶媒体 Active JP5464965B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009238159A JP5464965B2 (ja) 2009-10-15 2009-10-15 画像処理装置及びその制御方法、並びにプログラム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009238159A JP5464965B2 (ja) 2009-10-15 2009-10-15 画像処理装置及びその制御方法、並びにプログラム及び記憶媒体

Publications (2)

Publication Number Publication Date
JP2011087105A JP2011087105A (ja) 2011-04-28
JP5464965B2 true JP5464965B2 (ja) 2014-04-09

Family

ID=44079737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009238159A Active JP5464965B2 (ja) 2009-10-15 2009-10-15 画像処理装置及びその制御方法、並びにプログラム及び記憶媒体

Country Status (1)

Country Link
JP (1) JP5464965B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5924114B2 (ja) 2012-05-15 2016-05-25 ソニー株式会社 情報処理装置、情報処理方法、コンピュータプログラムおよび画像表示装置
JP6797858B2 (ja) * 2018-04-18 2020-12-09 キヤノン株式会社 医用画像表示装置、表示制御装置および表示制御方法、プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008199330A (ja) * 2007-02-14 2008-08-28 Canon Inc 動画像管理装置

Also Published As

Publication number Publication date
JP2011087105A (ja) 2011-04-28

Similar Documents

Publication Publication Date Title
EP2710594B1 (en) Video summary including a feature of interest
US9013604B2 (en) Video summary including a particular person
KR100867173B1 (ko) 정보 처리 장치, 정보 처리 방법 및 기억매체
US8345118B2 (en) Image capturing apparatus, image capturing method, album creating apparatus, album creating method, album creating system and computer readable medium
US8762659B2 (en) Storage apparatus and method, program, and playback apparatus and method
JP4506801B2 (ja) 画像認識装置、画像認識方法、画像認識プログラム
US9685199B2 (en) Editing apparatus and editing method
CN107430780B (zh) 用于基于视频内容特性的输出创建的方法
KR101812103B1 (ko) 썸네일이미지 설정방법 및 설정프로그램
US9549162B2 (en) Image processing apparatus, image processing method, and program
CN105814905B (zh) 用于使使用信息在装置与服务器之间同步的方法和系统
JP2012105205A (ja) キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置
JP5464965B2 (ja) 画像処理装置及びその制御方法、並びにプログラム及び記憶媒体
JP5446035B2 (ja) 撮像装置、撮像方法、及びプログラム
JP2008199330A (ja) 動画像管理装置
JP4773998B2 (ja) 監視カメラ・システム,動画検索装置および顔画像データベース更新装置ならびにそれらの動作制御方法
JP2013117908A (ja) 画像処理装置、画像処理方法、および撮像装置
JP5761323B2 (ja) 撮像装置、撮像方法、及びプログラム
KR102066857B1 (ko) 객체 영상 트랙킹 스트리밍 시스템 및 이를 이용한 스트리밍 방법
JP6512208B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2005267455A (ja) 画像処理システム、表示装置、及び画像処理方法
JP2010004357A (ja) 撮像装置及び撮像方法
JP6841181B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP2013131795A (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2012004713A (ja) 画像処理装置、画像処理装置の制御方法、プログラム、及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121010

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140121

R151 Written notification of patent or utility model registration

Ref document number: 5464965

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151