JP2010118868A

JP2010118868A - 情報処理装置およびその制御方法

Info

Publication number: JP2010118868A
Application number: JP2008290322A
Authority: JP
Inventors: Hidetomo Soma; 英智相馬; Hiroshi Tojo; 洋東條; Satoru Yashiro; 哲八代
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-11-12
Filing date: 2008-11-12
Publication date: 2010-05-27
Anticipated expiration: 2028-11-12
Also published as: US20100118205A1; JP5483863B2; US8866900B2

Abstract

【課題】時系列に並んだ複数のフレーム画像を含む動画像データからより適切な代表フレーム画像を抽出する。
【解決手段】情報処理装置において、動画像データを入力する入力手段と、入力された動画像データから所定の画像パターンに類似する画像を含むフレーム画像を検出する検出手段と、検出されたフレーム画像に含まれる画像と類似する画像を含むフレーム画像を、検出されたフレーム画像の前後にあるフレーム画像から検出する追跡手段と、検出された連続したフレーム画像を画像シーケンスとして決定し、当該画像シーケンスに対応する前記動画像データ内における時間情報と関連付けて記憶する記憶手段と、１以上の画像シーケンスの各々の開始時刻および終了時刻を分割タイミングとして動画像データを複数の時間区間に分割する分割手段と、複数の時間区間の各々について代表フレーム画像を抽出する抽出手段と、を備える。
【選択図】図９

Description

本発明は、動画像データから当該動画像データに含まれる映像を端的に表す代表フレームを抽出する技術に関するものである。

近年、デジタルカメラや、デジタルビデオカムコーダ等の普及により、個人でも大量の静止画や動画を撮影するようになってきている。一般に、動画データはデータ量が膨大であり、かつ、静止画と異なり時間軸が加わっているため、その中の内容を簡単に把握することは難しい。そのため、内容の概略を知りたい場合や所望のシーンを探す場合には、例えば、利用者が機器を操作して早回しや巻き戻しなどを行っていた。そこで、動画の内容を短時間で把握するために、動画内のフレームの中から、動画の内容を良く示すような適切なフレームを選択し、これを動画の内容を示す情報として扱う、代表フレームの抽出に関する技術が提案されている。

ところで、一般の家庭で、購入・利用されているデジタルカメラは子供の成長の記録など、家庭内のイベントや出来事などを記録するために用いられることが多いという傾向がある。そのため、撮影される被写体は人物であることが多い。

したがって、このようなホームビデオで動画の内容把握を行いたい場合には、誰が登場人物であるかという情報がわかるような動画内のフレームを、代表画像として選ぶことが、非常に重要となる。また、家庭内のイベントや出来事などが主な対象なので、複数の登場人物がいる場合には、その人物が同時に写っていたという情報もあるほうが好ましい。

そこで、特許文献１では、動画に映っている人物に着目し、人物の構成が変化した場合に動画のシーンを分割する。その際に、人物の構成を示す情報をシーンのそれぞれに付与し、その人物の構成情報をインデックス化する技術が開示されている。そして、この人物の構成を示す情報を利用することによりシーンを検索することが出来る。

また、特許文献２では、オブジェクトの統計的な特徴に基づいた代表フレームの抽出技術が開示されている。これは、検出したいオブジェクトの画像を予め学習させておき、所定の方法でオブジェクトごとに辞書を用いて評価値を求め、フレーム単位で求めた各オブジェクトの評価値に基づいて動画インデックスを生成している。さらに、特許文献３では、会議中の撮影対象である話し手の顔の画像と、話した音声情報の時間区間（タイムライン）を関係付けて利用する技術が開示されている。
特開２００５−１０１９０６号公報特許第３３１２１０５号特開２００６−１２９４８０号公報

しかしながら、例えば特許文献１に記載の技術では、フレームごとに顔検出し、その結果のみに基づいて代表画像を抽出するため、動いている被写体の場合、顔検出に失敗する可能性がある。つまり、必ずしも顔がカメラの方向を向いているわけではないので、被写体となる人物がいても検出できない場合がある。このような現象は、特に子供が被写体の場合などに顕著である。また、複数の被写体がいる場合などでも向き合って話したりすることが多く、比較的発生しやすい現象となる。その結果、同一の人物が連続して撮影されていても、ある時その人物の検出に失敗すると、そこで構成が変化したと判断され、同一の登場人物について、何度も代表フレームが作成されてしまうという問題が生じてしまう。

また、フレームごとの評価値のみを用いるため、主要でない人物であっても、一瞬でもフレームの真ん中に大きく写るなどしていれば、評価値が高くなり、代表画像として抽出されてしまう。また、多数の類似した代表フレームが抽出され、これをインデックスとした場合冗長になるという問題がある。さらに、複数の人物に対する撮影区間が互いに重なっている場合について考慮していないため、２人が会話しているような場面からも２枚の代表画像が抽出されてしまい冗長になる。なおかつ、顔領域のみを切り出しているので、２人が会話している状況も把握できない。その結果、利用者は動画を内容を適切に把握することが出来なくなってしまう場合があった。

本発明は上述の問題に鑑みなされたものであり、動画像データから当該動画像データの内容をより適切に表現している代表フレーム画像を抽出可能とする技術を提供することを目的とする。

上述の１以上の問題点を解決するため本発明の情報処理装置は以下の構成を備える。すなわち、情報処理装置において、時系列に並んだ複数のフレーム画像を含む動画像データを入力する入力手段と、入力された動画像データから所定の画像パターンに類似する画像を含むフレーム画像を検出する検出手段と、前記検出手段により検出されたフレーム画像に含まれる前記画像と類似する画像を含むフレーム画像を、前記検出されたフレーム画像の前後にあるフレーム画像から検出する追跡手段と、前記追跡手段により検出された連続したフレーム画像を画像シーケンスとして決定し、当該画像シーケンスに対応する前記動画像データ内における時間情報と関連付けて記憶する記憶手段と、前記記憶手段に記憶された１以上の画像シーケンスの各々の開始時刻および終了時刻を分割タイミングとして、前記動画像データを複数の時間区間に分割する分割手段と、前記複数の時間区間の各々について代表フレーム画像を抽出する抽出手段と、を備える。

上述の１以上の問題点を解決するため本発明の情報処理装置の制御方法は以下の構成を備える。すなわち、時系列に並んだ複数のフレーム画像を含む動画像データから１以上の代表フレーム画像を抽出する情報処理装置の制御方法において、動画像データを入力する入力工程と、入力された動画像データから所定の画像パターンに類似する画像を含むフレーム画像を検出する検出工程と、前記検出工程により検出されたフレーム画像に含まれる前記画像と類似する画像を含むフレーム画像を、前記検出されたフレーム画像の前後にあるフレーム画像から検出する追跡工程と、前記追跡工程により検出された連続したフレーム画像を画像シーケンスとして決定し、当該画像シーケンスに対応する前記動画像データ内における時間情報と関連付けて記憶部に記憶する記憶工程と、前記記憶部に記憶された１以上の画像シーケンスの各々の開始時刻および終了時刻を分割タイミングとして、前記動画像データを複数の時間区間に分割する分割工程と、前記複数の時間区間の各々について代表フレーム画像を抽出する抽出工程と、を備える。

本発明によれば、動画像データから当該動画像データの内容をより適切に表現している代表フレーム画像を抽出可能とする技術を提供することができる。

以下に、図面を参照して、この発明の好適な実施の形態を詳しく説明する。なお、以下の実施の形態はあくまで例示であり、本発明の範囲を限定する趣旨のものではない。

（第１実施形態）
＜概要＞
第１実施形態では、動画像データから顔画像を検索し、個々の人物が写っている時間区間および人物の組み合わせなどに基づいて、代表フレーム画像を選択する方法について説明する。

＜装置構成＞
図１は、第１実施形態に係る情報処理装置の内部構成図である。

情報処理装置は、ＣＰＵ１００１、ＲＯＭ１００２、ＣＤ−ＲＯＭドライブ１００３、ＲＡＭ１００６、ハードディスクドライブ（ＨＤＤ）１００７、ＩＥＥＥ１３９４インターフェース（Ｉ／Ｆ）１０１０を含んでいる。そして、これらの各部はシステムバス１０１１を介して互いに通信可能なように接続されている。また、情報処理装置には、ユーザインタフェースとして、キーボード１００４、マウス１００５、ディスプレイ１００８、プリンタ１００９が接続されている。

ＣＰＵ１００１は、画像処理装置全体の動作制御を司り、例えばＲＯＭ１００２などにあらかじめ記憶された処理プログラムを読み出して実行することで図２で後述する各機能部を実現する。ＲＯＭ１００２は、ＣＰＵ１００１により実行されることにより後述の制御動作を行なうプログラムなどが格納される。ＲＡＭ１００６は、後述する顔シーケンス情報などの一時的なデータを格納する。また、ＣＤ−ＲＯＭドライブ１００３は、ＣＤ−ＲＯＭ１０１３に格納された制御プログラムを読み取り、当該制御プログラムをＲＡＭ１００６に格納することが出来る。また、ＨＤＤ１００７には、ＩＥＥＥ１３９４Ｉ／Ｆ１０１０を経由してカムコーダ１０１２から読み取った動画像データを記憶する。

なお、以下の説明においては、情報処理装置とカムコーダ１０１２とはＩＥＥＥ１３９４Ｉ／Ｆを介して接続され相互に通信可能であるものとする。

図２は、第１実施形態に係る情報処理装置の機能ブロック図である。また、図３は、各機能部内部の詳細機能ブロックを示す図である。

映像入力部２０１０は、ＩＥＥＥ１３９４インターフェース１０１０を介してカムコーダ１０１２から入力となる映像として動画像データの情報を入力する。なお、映像入力部２０１０は、動画像データを読み込み可能なものであれば、任意のインターフェース機器であってよい。なお、動画像データには、時系列に並んだ複数のフレーム画像が格納されている。

顔シーケンス生成部２０２０は、映像入力部２０１０で入力した映像を解析し、顔が写っている映像期間において各フレームから顔画像を抽出し、顔シーケンス（画像シーケンス）として出力する。なお、ここで顔シーケンスとは、連続した映像期間から抽出された顔画像および、その付帯情報の集まりを言う。付帯情報としては、顔画像を抽出したフレームの時間位置、そのフレームにおける顔画像を切り取った領域の情報などがある。

顔シーケンス生成部２０２０は、画像メモリ２０２１、顔検出部２０２２、顔追跡部２０２３、顔シーケンス記憶部２０２４より構成される。画像メモリ２０２１は、映像入力部２０１０から出力された動画像データをフレームごとに一時的にＲＡＭ１００６へ記憶する。ここで読み込まれた画像データは、２次元配列のデータであり、例えば各々が８ビットの画素により構成されるＲＧＢの３面により構成される。このとき、画像データがＭＰＥＧ、ＪＰＥＧ等の方式により圧縮されている場合は、画像データを所定の解凍方式にしたがって解凍し、ＲＧＢ各画素により構成される画像データとする。

顔検出部２０２２は、動画像データの所定のフレームから人物顔パターンの検出を行い、その検出結果を出力する。すなわち、動画像データの所定フレーム間隔ごとに各フレームから顔検出を行う。ここでは、以下の参考文献１で提案されているニューラル・ネットワークにより画像中の顔パターンを検出する方法を適用した場合について説明する。

まず、顔の検出を対象とする画像データをメモリに読み込み、顔と照合する所定の領域を読み込んだ画像中から切り出す。そして、切り出した領域の画素値の分布を入力としてニューラル・ネットワークによる演算で一つの出力を得る。このとき、ニューラル・ネットワークの重み、閾値が膨大な顔画像パターンと非顔画像パターンによりあらかじめ学習されており、例えば、ニューラル・ネットワークの出力が０以上なら顔、それ以外は非顔であると判別する。

図４は、ニューラル・ネットワークの手法により画像中から顔を検出する様子を例示的に示す図である。特に、ニューラル・ネットワークの入力である顔と照合する画像パターンの切り出し位置を、画像全域に対して縦横順次に走査する様子を示している。なお、様々な大きさの顔の検出に対応するため、図４に示すように読み込んだ画像を所定の割合で順次縮小し、それに対して前述した顔検出の走査を行うように構成すると好適である。

なお、画像中から顔を検出する方法は上で説明したニューラル・ネットワークによる方法に限定されるものではなく、例えば参考文献２に挙げられている各種方式が適用可能である。
参考文献１：Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998
参考文献２：Yang et al, "Detecting Faces in Images: A Survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.24 , NO.1, JANUARY 2002

顔追跡部２０２３は、顔検出部２０２２で検出された人物顔パターンを後続するフレーム中から探索し、その追跡結果から顔領域の情報と顔シーケンスの区間を出力する。

図５は、動画像データから顔シーケンスを生成する様子を例示的に示す図である。

顔検出の結果、図５に示すように動画像データの所定間隔のフレームにおいて顔を検出した結果、フレーム中から切り取られた矩形の画像パターンが顔画像として抽出される。そして、検出された顔画像の各々について後続するフレームで追跡を行い、その結果を顔シーケンスとして出力する。その際、顔画像を抽出したフレームの動画像データ内における時間情報（時間位置）、そのフレームにおける顔画像を切り取った領域の情報、などの付帯情報も関連付けて出力する。

＜装置の動作＞
・顔シーケンスの検出処理
図６は、顔シーケンスを検出するためのフローチャートである。これは、顔追跡部２０２３の動作に相当する。

ステップＳ５００１により処理を開始し、まず、ステップＳ５００２では、顔パターンの領域情報をもとに後続のフレームにおいて顔パターンの探索を行う探索領域を設定する。顔検出部２０２２において顔を検出したフレームの次フレームから探索を行う場合には、顔検出結果である顔の領域に対して水平、垂直位置について所定量だけその中心位置をずらした近傍の矩形領域を顔の探索範囲とする。さらに後続するフレームについて探索を行う場合には、同様に顔の追跡結果である顔の領域を利用する。

ステップＳ５００３では、探索領域内で切り取られた領域と探索する顔パターンとの相関をもとに顔の追跡を行う。例えば、探索領域として設定された中心位置を中心として探索する顔パターンと同じ大きさの矩形領域を順次切出し、切り出した領域と探索する顔パターンとの輝度分布をテンプレートとした相関値を算出する。そして、相関値が最も高い領域を顔パターンの追跡結果として、その相関値とともに出力する。なお、ここで顔パターンの追跡のために輝度分布の相関値を用いたが、ＲＧＢごとの画素値分布の相関を用いてもよい。また、領域内での輝度分布やＲＧＢ値のヒストグラムなど画像特徴量の相関を用いてもよい。

ステップＳ５００４では、顔の追跡処理で出力された相関値が所定の値以上であるかどかで、顔が追跡できたかどうかを判定する。所定の値以上の場合には、類似度が高いので顔が正確に追跡できたと判定しステップＳ５００５に進む。一方、所定値以下の場合には、類似度が低いので顔が追跡できなかったと判断し、顔の追跡を終了する（Ｓ５００８）。

ステップＳ５００５では、追跡した先に顔画像があるかどうかを判定する。顔画像がある場合にはステップＳ５００６に進み、無い場合にはステップＳ５００７に進む。

ステップＳ５００６では、ステップＳ５００５で検出した顔画像を、現在追跡中の顔であると見なし顔シーケンスとして統合を行う。この際に、顔情報の類似度計算を行い、統合するかどうかの判定を併せて行っても良い。

ステップＳ５００７では、顔の追跡を行なう対象とするフレームを後続するフレームに変更しステップＳ５００２に戻る。以上の処理を繰り返し行うことで検出した顔ごとの顔シーケンスを得る。

なお、ここでは、顔検出部２０２２で検出された人物顔パターンごとに後続するフレーム中から顔パターンを探索し追跡するよう説明した。しかし、顔パターンが検出されたフレーム画像に先行するフレーム画像を対象として顔パターンを探索し追跡するよう構成してもよい。その他、例えば動画像から動きベクトル分布を求め、当該動きベクトル分布を手がかりにして顔の追跡を行うようにしてもよい。

また、顔の前を何かが横切った場合や、フラッシュなどの影響などの場合に、顔シーケンスが過分割されることを防ぐため、所定の時間間隔をあけたフレームを使って顔追跡を行っても良い。また、時間的に近接する二つの顔シーケンスの顔特徴の相関を求め、相関が高い場合は区間を１つに結合しても良い。すなわち、結合する前側の区間の開始から後ろ側の区間の終了時までを結合した区間の区間とし、付帯情報もあわせて統合する。代表パターンは簡単には片方の顔シーケンスのものを用いれば良い。

顔シーケンスの類似度判定および結合は全ての前後の顔シーケンスについて順次行われ、類似する複数の顔シーケンスが１つの顔シーケンスに統合される。ただし、顔シーケンスに対応する映像区間が所定の時間以上離れている組は顔シーケンスの結合の候補としては用いない。また、映像中に人物が複数登場する場合には、複数の顔シーケンスで映像区間が重なる場合が生じるが、このような場合には、それぞれの顔シーケンスに対応する人物が別の人物と見なせるので顔シーケンスの結合の候補としては用いない。

図７は、顔シーケンスの情報を記録した付帯情報の一例を示す図である。当該データには、検出された顔シーケンスの各々についての情報が記録されている。

なお、ここでは、第１カラムはインデックスである”シーケンス番号”、第２カラムは動画像データ先頭からの秒数を示す”開始時刻”、および、第３カラムは顔シーケンスの継続時間を示す”長さ”が記録されるものとして説明する。なお、顔検出部が人物毎に検出可能であり、同一人物であるか、または誰であるかまで判別できる場合は人物ＩＤを併せて記録しても良い。

・代表フレーム画像抽出処理
代表フレーム抽出部２０３０は、所定の動画区間からその区間の内容を良く表すフレームを１ないし複数抽出する。代表フレーム抽出部２０３０は、顔シーケンス情報メモリ２０３１、代表フレーム抽出区間決定部２０３２、代表フレーム抽出位置決定部２０３３により構成される。顔シーケンス情報メモリ２０３１は、顔シーケンス生成部２０２０で生成した顔シーケンスデータを格納する部分である。

図８は、顔シーケンスと代表フレーム画像を抽出する対象となる時間区間との関係を示す図である。図８に示される時間範囲においては３つの顔シーケンスＡ〜Ｃが検出され、顔シーケンスＡと顔シーケンスＢ、顔シーケンスＢと顔シーケンスＣ、とは重複期間がある。このような、状態においては、代表フレーム画像を抽出する対象とする時間区間として、５つの時間区間１〜５が設定される。つまり、登場人物の組み合わせが一定である時間区間を、代表フレーム画像抽出の対象となる時間区間として選定する。以下、この時間区間の選定処理について詳述する。

図９は、代表フレーム画像抽出の対象となる時間区間を選定するフローチャートである。

ステップＳ８００１により処理を開始し、まず、ステップＳ８００２では、顔シーケンスの構成が変化する時点（時刻）を求める。図８に示した３つの顔シーケンスに対して、これを求めた結果が、時間軸に直交する点線部分である。つまり、１以上の顔シーケンスの各々の開始時刻および終了時刻が分割タイミングとなる。この時間区間は、顔シーケンスの構成（登場人物の組み合わせなど）が一定の時間区間となり、これを以降では”構成一定区間”と呼ぶことにする。図８では、構成一定区間が５つ選定される。

ステップＳ８００３では、構成一定区間の各々に対して、区間内のフレーム画像について所定の評価ルール（抽出の基準）に基づいて評価値を計算する。この計算方式には、いろいろなものが考えられるが、ここでは例として、顔画像そのものの評価を行う顔画像評価部を用いるものとする。これ以外にも、フレーム内の顔の位置や、フレーム内の彩度、色相の分布などを用いる方法があり、またこれらを混合して使用する方法なども考えられる。また、前後のフレームとの画像全体の相関を求め、動きの激しくない箇所で評価値が高くなるよう調整しても良い。以下、具体的な算出方法の一例を述べる。なお、以下の説明においては、代表フレーム画像として適しているものほど評価値が大きくなるような評価計算式であるとする。

代表フレーム抽出区間決定部２０３２の中に配置される顔状態判定部（不図示）は、主要顔判定部（不図示）で評価値が高い被写体について、被写体を良く表す顔画像であるか否かを示す評価値を算出する。例えば、顔の向き、目の開閉具合、表情、照明による影、顔の一部が他のオブジェクトで隠れていないかに着目し評価地を導出する。顔の向きや表情に関しては顔画像パターンに対して向きや表情の教師データを与えて前述したニューラルネットワークの重み、閾値を求めることで実現できる。

なお、顔の状態を正確に判定するためには、顔画像の中に目、口、鼻などの顔の各パーツが存在することが重要であると考えられる。すなわち、顔が横方向や斜めを向いているものよりも、正面を向いているものの方が顔の特徴を正確に表現している。したがって、顔状態判定部は顔シーケンス中の各顔画像の顔の向きを検出する構成をもつ。例えば、前述したニューラル・ネットワークによる顔判別器と同じ構成の複数の顔判別器を備える。但し、各顔判別器の判別のためのパラメータを顔の向きごとにサンプル学習によりチューニングし設定しておく。そして、複数の顔判別器のうち、もっとも出力の高い、すなわち尤度の高い顔判別器に対応した顔の向きを出力し、正面を向いた場合に高い評価値を与える。

また、例えば、顔画像から目、口、鼻などのパーツを個別に探索し、それぞれの存在の有無を解析結果として出力するようにしてもよい。また、目が開いているか、閉じているかを判定し解析結果を出力するようにしてもよい。また、顔に対する照明状態がよく全体的に肌部分が明るく撮影されている場合には部分的に陰がある場合よりも高い評価値を与えてもよい。影や隠れについては、たとえば参考文献３にあるようなＥｉｇｅｎｆａｃｅと呼ばれる手法で顔パターンをモデル化し、モデルパラメータを使って近似された顔画像と元画の顔画像との近似差を評価することで影や隠れ領域を求めることが出来る。モデルパラメータの一部には顔に当たった照明成分が含まれるので、その成分の強さから照明の方向と強さを求めることが出来る。
参考文献３：M. Turk and A. Pentland, "Eigenfaces for recognition", Journal of Cognitive Neuroscience 3 (1): 71-86, 1991

ステップＳ８００４では、各構成一定区間から、一番評価値が高いフレームを代表フレームとして選択して、これを記録する。これを以降では”代表フレーム候補位置”と呼ぶ。この処理により、各構成一定区間について、代表フレーム候補があるものについては、その代表フレーム候補を抽出したこととなる。

上述の代表フレーム画像抽出の対象となる時間区間の選定および各時間区間の代表フレーム候補を抽出した後、以下の処理により代表フレーム画像が抽出される。

代表フレーム抽出位置決定部２０３３は、代表フレーム抽出区間決定部２０３２で抽出された情報を基に、最終的な代表フレームを決定する。ここでは、被写体である登場人物が複数の場合には、その登場人物が一緒に写っているという情報を重視する。これは家庭内のイベントや出来事を主な撮影対象とする場合などに有効である。

この場合、複数の人物が同時に写っている時間区間から得られた代表フレーム候補を、最終的な代表フレームに入れることが重要となる。そこで、図８における時間区間２と時間区間４の代表フレーム候補を、最終的な代表フレーム候補とする。また、それ以外の構成一定区間でも、評価値が高い代表フレーム候補がある場合には、併せて最終的な代表フレームに追加する。また、同じ登場人物の構成一致区間が存在する場合には、代表フレーム候補の評価値の高いほうを選択する。なお、代表フレーム画像として適しているものほど評価値が小さくなるような評価計算式である場合には最小の評価値のフレーム画像を選択する。

このようにして、動画像データに複数の登場人物が写っている時間区間が存在する場合には、必ずその時間区間の代表フレーム画像を抽出することが可能となる。

なお、一般に一覧表示を目的とする場合には代表フレーム画像は少ない枚数が好ましく、検索に使用するインデックス情報を目的とする場合には代表フレーム画像は多くの枚数が存在したほうが良い。このように、目的によって必要な代表フレーム画像の数は異なるため、記憶部に格納する際に評価値を合わせて格納しておき、ユーザから指定された枚数の代表フレーム画像を残しておくことで必要な代表フレームの枚数を評価値の高いものから順に選ぶことが出来る。

また、代表フレーム画像の抽出結果を記憶部に格納する際のデータ形式は、システムが解釈可能である限り任意のデータ形式が使用できる。例えば、テキスト形式や、独自のＤＴＤ（Document Type Definition）を定義したＸＭＬ（Extensible Markup Language）形式等で表現するようにしてもよい。

図１０は、代表フレーム画像の一覧の出力例を示す図である。抽出した代表フレーム画像の一覧は、ディスプレイ１００８に表示するよう構成してもよいし、プリンタ１００９によって印刷出力するよう構成しても良い。

以上説明したとおり第１実施形態に係る情報処理装置によれば、動画像データから顔シーケンスを検出する。そして、検出された複数の顔シーケンスの時間区間に基づいて、登場人物の組み合わせなどが一定の時間区間（構成一定区間）を選定する。構成一定区間の各々について代表フレーム画像を抽出することにより、より適切な代表フレーム画像を抽出することが出来る。

特に、代表フレーム画像を、時間軸上で複数の画像シーケンスが重なり合う構成一定区間から優先して抽出することにより、より適切かつより少ない枚数の代表フレーム画像を抽出することも出来る。

（第２実施形態）
第２実施形態では、フレーム画像の構図を指定するための１以上の”構図テンプレート”を利用して代表フレーム画像を抽出する手法について説明する。

つまり、代表フレーム抽出の対象となる時間区間の選定を行う際に、主要な被写体の判定や適切な撮影構図の判定を利用することで、適切な代表フレームを保有する可能性のある代表フレーム抽出区間を選択することが可能としている。なお、構成や処理の内容は、代表フレーム抽出区間決定部２０３２以外の部分については、第１実施形態と同様であるので説明は省略する。

図１１は、代表フレーム画像抽出の対象となる時間区間を選定するフローチャートである。

ステップＳ１０００１により処理を開始し、まず、ステップＳ１０００２では、顔シーケンスの構成が変化する時点（時刻）を求める。図８に示した３つの顔シーケンスに対して、これを求めた結果が、時間軸に直交する点線部分である。この時間区間は、顔シーケンスの構成（登場人物の組み合わせなど）が一定の時間区間となり、これを以降では”構成一定区間”と呼ぶことにする。図８では、構成一定区間が５つ選定される。

ステップＳ１０００３では、構成一定区間内の各フレームを、予め指定されている構図テンプレートと照合して合致するものがあるかどうかの構図判定を行う。

図１２は、構図テンプレートの例を示す図である。構図テンプレートは、フレーム画像の構図の典型的なパターンを示すものである。構図テンプレート１２０１（テンプレート番号１）は、一人の人（Ｘ）が一定時間以上、ある程度の大きさの顔が写っている構図を示している。一方、構図テンプレート１２０２（テンプレート番号２）は、二人の人（ＸとＹ）が一定時間以上、両方とも、顔がある程度の大きさで、かつ、同じぐらいの大きさで写っているものを示している。これらは、あくまでも例であり、これら以外にも、特定のパターンの動作や移動などの構図テンプレートもあってもよい。

このように、構図テンプレートを利用することで、個々のフレーム画像に代表フレーム画像として適切なものが含まれるかどうかを調べる。これにより、後述の処理と合わせて、主要な被写体の顔の選択も同時に行っている。この構図テンプレートと比較して、顔の位置、大きさ、撮影された時間などを基準として、どれだけ満たしているかを数値化し、これを適合値とする。

ステップＳ１０００４では、各構成一定区間に対して、この適合値が一番大きい構図テンプレートを選び、その適合値がある閾値を超えた場合、それが該当する構成テンプレートとみなし、その構成テンプレート番号を記録する。

図１３は、図７の顔シーケンスに対して代表フレーム抽出区間決定処理を適用した結果を示す図である。

なお、ここでは、第１カラムは図８における”構成一定区間”の番号であり、第２カラムは適合すると判定された”テンプレート番号”である。ここで、構成一定区間５に対しては、構図テンプレートでの適合値が閾値を超えなかったため、構図テンプレート番号は「なし」になっている。なお、図１３の第５カラムは、各構成一定区間の登場人物であり、これは各区間にある顔シーケンスの組み合わせに相当する。

ステップＳ１０００５では、構図テンプレート番号が決定されている構成一定区間に対して、その区間内の動画のフレームについて評価値を計算する。計算方式には、いろいろなものが考えられるが、ここでは例として、前述した顔画像そのものの評価を行う顔画像評価部を用いるものとする。しかし、これ以外にも、フレーム内の顔の位置や、フレーム内の彩度、色相の分布、それから前述した構図テンプレートの適合値などを用いる方法があり、またこれらを混合して使用する方法なども考えられる。また、前後のフレームとの画像全体の相関を求め、動きの激しくない箇所で評価値が高くなるよう調整しても良い。

ステップＳ１０００６では、構図テンプレート番号がある構成一定区間に対して、最も評価値が高いフレームを代表フレームとして選択し記録する。前述の図１３における第３カラムは動画内の選択されたフレームの位置（動画先頭からの秒数）で、これを代表フレーム候補位置と呼ぶ。また、第４カラムは、その代表フレーム候補の評価値である。これにより、各構成一定区間について、代表フレーム候補があるものについては、その代表フレーム候補を抽出したこととなる。

上述の代表フレーム候補を抽出した後、以下の処理により代表フレーム画像が抽出される。

代表フレーム抽出位置決定部２０３３は、図１３のように記録された情報を基に、最終的な代表フレームを決定する。ここでは、被写体である登場人物が複数の場合には、その登場人物が一緒に写っているという情報を重視する。これは家庭内のイベントや出来事を主な撮影対象とする場合などに有効である。

この場合、複数の人物が同時に写っている時間区間から得られた代表フレーム候補を、最終的な代表フレームに入れることが重要となる。そこで、図１３のような状況においては、時間区間２と時間区間４の代表フレーム候補を、最終的な代表フレーム候補とする。また、それ以外の構成一定区間でも、評価値が高い代表フレーム候補がある場合には、併せて最終的な代表フレームに追加する。また、同じ登場人物の構成一致区間が存在する場合には、代表フレーム候補の評価値の高いほうを選択する。

このようにして、動画像データに複数の登場人物が写っている時間区間が存在する場合には、必ずその時間区間の代表フレーム画像を抽出することが可能となる。特に、予め指定した構図テンプレートにより示される構図のフレーム画像が抽出されるため、より適切な代表フレーム画像を抽出することが可能となる。

（第３実施形態）
第３実施形態では、図１３に示される情報に基づいて、より少ない枚数の代表フレーム画像を抽出する例について説明する。具体的には、同じ人物の組み合わせに対して代表フレーム画像を１つのみ抽出する手法について説明する。なお、構成や処理の内容は、代表フレーム抽出位置決定部２０３３以外の部分については、第２実施形態と同様であるので説明は省略する。

図１４は、代表フレーム抽出位置決定部２０３３の動作フローチャートである。

ステップＳ１３００１により処理を開始し、まず、ステップＳ１３００２では、図１３の結果に基づいて、代表フレーム候補に写っている被写体である登場人物の情報を取得する。ここでは、動画像データの全登場人物がＡ，Ｂ，Ｃとなっているという情報を得る。人物の特定については、前述したような、その顔画像そのもの類似度、個人の弁別や同定を行うような方法を用いても構わない。

ステップＳ１３００３では、ステップＳ１３００２で取得した登場人物を含む代表フレーム候補の組み合わせを導出する。

図１５は、ステップＳ１３００３における処理の結果を示す図である。第１カラムは、代表フレームの抽出位置の組み合わせの番号（代表フレーム抽出位置候補番号）であり、図１３から”Ａのみ”、”ＡとＢ”、”Ｂのみ”、”ＢとＣ”の４つの組み合わせがあることがわかる。第２カラムは、その組み合わせの内容で、構成一致区間番号の集合になっている。

ステップＳ１３００４では、代表フレーム抽出位置の組み合わせの中で、構成一致区間の個数が少ないものを探索し、代表フレーム画像を抽出する候補として残留させる。前述の図１５の第３カラムは、構成一致区間の個数であり、ここでは個数が一番少ない（２個）代表フレーム抽出位置候補番号３と代表フレーム抽出位置候補番号４を候補として残留させる。

ステップＳ１３００５では、残留した代表フレーム抽出位置候補について、その中の代表フレーム候補の評価値の合計を計算し、代表フレーム抽出位置候補の評価値とする。前述の第４カラムが、その合計（評価値）である。なお、代表フレーム抽出位置候補のうち、構成一致区間の個数が最低でなかったものについては、計算する必要がないので、図１５では「×」と表記されている。

ステップＳ１３００６では、代表フレーム候補に複数の被写体が存在し、かつ、代表フレーム抽出位置候補の評価値が最大のものを最終的な代表フレームとして選択する。前述の図１５の第５カラムに、最終的に選択された代表フレームの位置が示されている。

このようにして、動画像データに複数の登場人物が写っている時間区間が存在する場合に、より適切な代表フレーム画像を抽出することが可能となる。

（他の実施形態）
以上、本発明の実施形態について詳述したが、本発明は、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

なお、本発明は、前述した実施形態の機能を実現するプログラムを、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置が、供給されたプログラムコードを読み出して実行することによっても達成される。従って、本発明の機能処理をコンピュータで実現するために、コンピュータにインストールされるプログラムコード自体も本発明の技術的範囲に含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク（ＣＤ、ＤＶＤ）、光磁気ディスク、磁気テープ、不揮発性のメモリカード、ＲＯＭなどがある。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。その他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

第１実施形態に係る情報処理装置の内部構成図である。第１実施形態に係る情報処理装置の機能ブロック図である。各機能部内部の詳細機能ブロックを示す図である。ニューラル・ネットワークの手法により画像中から顔を検出する様子を例示的に示す図である。動画像データから顔シーケンスを生成する様子を例示的に示す図である。顔シーケンスを検出するためのフローチャートである。顔シーケンスの情報を記録した付帯情報の一例を示す図である。顔シーケンスと代表フレーム画像を抽出する対象となる時間区間との関係を示す図である。代表フレーム画像抽出の対象となる時間区間を選定するフローチャートである。代表フレーム画像の一覧の出力例を示す図である。代表フレーム画像抽出の対象となる時間区間を選定するフローチャートである。構図テンプレートの例を示す図である。図７の顔シーケンスに対して代表フレーム抽出区間決定処理を適用した結果を示す図である。代表フレーム抽出位置決定部の動作フローチャートである。ステップＳ１３００３における処理の結果を示す図である。

Claims

時系列に並んだ複数のフレーム画像を含む動画像データを入力する入力手段と、
入力された動画像データから所定の画像パターンに類似する画像を含むフレーム画像を検出する検出手段と、
前記検出手段により検出されたフレーム画像に含まれる前記画像と類似する画像を含むフレーム画像を、前記検出されたフレーム画像の前後にあるフレーム画像から検出する追跡手段と、
前記追跡手段により検出された連続したフレーム画像を画像シーケンスとして決定し、当該画像シーケンスに対応する前記動画像データ内における時間情報と関連付けて記憶する記憶手段と、
前記記憶手段に記憶された１以上の画像シーケンスの各々の開始時刻および終了時刻を分割タイミングとして、前記動画像データを複数の時間区間に分割する分割手段と、
前記複数の時間区間の各々について代表フレーム画像を抽出する抽出手段と、
を備えることを特徴とする情報処理装置。
前記抽出手段は、前記複数の時間区間の各々に含まれるフレーム画像の各々の評価値を所定の評価ルールに基づいて算出し、当該評価値が最大または最小となるフレーム画像を代表フレーム画像として抽出することを特徴とする請求項１に記載の情報処理装置。
前記抽出手段は、時間軸上で複数の画像シーケンスが重なり合う時間区間に含まれるフレーム画像からのみ前記代表フレーム画像を抽出することを特徴とする請求項１または２に記載の情報処理装置。
前記複数の時間区間の各々に含まれるフレーム画像が予め設定された１以上の構図テンプレートの何れかに対応する画像であるか否かを判定する構図判定手段をさらに備え、
前記抽出手段は、前記構図判定手段により前記１以上の構図テンプレートの何れかに対応する画像であると判定されたフレーム画像を含む時間区間からのみ前記代表フレーム画像を抽出することを特徴とする請求項１または２に記載の情報処理装置。
前記所定の画像パターンは人物の顔画像であり、
前記検出手段はフレーム画像に含まれる顔画像を人物毎に検出し、
前記抽出手段は、互いに異なる人物の組み合わせとなる時間区間からのみ前記代表フレーム画像を抽出することを特徴とする請求項１または２に記載の情報処理装置。
時系列に並んだ複数のフレーム画像を含む動画像データから１以上の代表フレーム画像を抽出する情報処理装置の制御方法であって、
動画像データを入力する入力工程と、
入力された動画像データから所定の画像パターンに類似する画像を含むフレーム画像を検出する検出工程と、
前記検出工程により検出されたフレーム画像に含まれる前記画像と類似する画像を含むフレーム画像を、前記検出されたフレーム画像の前後にあるフレーム画像から検出する追跡工程と、
前記追跡工程により検出された連続したフレーム画像を画像シーケンスとして決定し、当該画像シーケンスに対応する前記動画像データ内における時間情報と関連付けて記憶部に記憶する記憶工程と、
前記記憶部に記憶された１以上の画像シーケンスの各々の開始時刻および終了時刻を分割タイミングとして、前記動画像データを複数の時間区間に分割する分割工程と、
前記複数の時間区間の各々について代表フレーム画像を抽出する抽出工程と、
を備えることを特徴とする情報処理装置の制御方法。
コンピュータを、請求項１乃至５の何れか一項に記載の情報処理装置の各手段として機能させるためのプログラム。