JP2011100240A

JP2011100240A - 代表画像抽出方法，代表画像抽出装置および代表画像抽出プログラム

Info

Publication number: JP2011100240A
Application number: JP2009253683A
Authority: JP
Inventors: Uwe Kowalik; ウベコワリク; Yasuhiko Miyazaki; 泰彦宮崎; Takeshi Irie; 豪入江; Akira Kojima; 明小島; Mitsuhiro Wagatsuma; 光洋我妻
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-11-05
Filing date: 2009-11-05
Publication date: 2011-05-19

Abstract

【課題】画像列から利用者の嗜好に応じた代表画像を自動的に抽出する。
【解決手段】画像中の顔に関して計算により求められる複数の顔パラメータと，顔パラメータに対する利用者の評価スコアとを関連付けて，利用者プロファイルＤＢ１０３に保存しておく。代表画像を選出する際に，入力画像中の顔から算出した顔パラメータをもとに利用者プロファイルＤＢ１０３を参照して，入力画像の代表画像としての評価値（算出スコア）を算出し，この算出スコアが高いものを代表画像として選択する。選択された代表画像に対する利用者の評価スコアを入力し，算出スコアがその評価スコアに近似されるように新たなプロファイルを計算して利用者プロファイルＤＢ１０３を更新する。
【選択図】図２

Description

本発明は，特にホームビデオなどで撮影されたコンテンツの中から，顔認識や表情認識の技術を利用して，代表画像（代表フレーム画像ともいう）を自動的に抽出する技術であって，特に，利用者の嗜好に応じた結果を出力するための技術に関するものである。

近年，ビデオカメラ等の機器が一般化してきたことに伴い，ＣＧＶ（consumer generated video contents ）と呼ばれる一般利用者が撮影した映像データが爆発的に増えてきている。各種の行事や旅行において，写真ではなく，ビデオで映像を撮ることは，一般的な習慣となっている。

タイミングを狙ってカメラで撮影された静止画データと異なり，このような映像データには，その中に「ベストショット」が含まれていることが多いが，一方で，撮影された映像データのフレームの中から，そのようなベストショットの含まれる代表フレーム画像を探し出すことは，利用者が目視で探すには多くの労力が必要となってしまう。そのため，映像データの中から，「ベストショットの代表フレーム画像」を自動抽出する技術が求められている。

また，静止画像に関しても，デジタルカメラが一般化してきたことに伴い，現像といった手間がかからないことから，気軽にシャッターを押すことが増えており，撮影された静止画の枚数は増加していく傾向にある。一方で，枚数が増加することにより，その中でも特に鑑賞・保存する価値の高い「ベストショット」を，利用者が目視により選択することに多くの労力が必要となっており，大量の静止画から「ベストショット代表フレーム画像」を自動抽出する技術が求められている。

このようなコンテンツでは，家族や友人といった人物が撮影されていることが多く，そのため，「ベストショット」として，人物の顔が映っているフレームを抽出することが重要となってくる。画像データの中から，人物の「顔」を認識し，その領域を抽出する従来技術としては，特許文献１に記載されている技術などがある。

また，このような顔検出の技術を利用して，ベストショットフレームを抽出する従来技術として，非特許文献１には，検出された顔の数に基づいて抽出する方法が述べられている。すなわち，非特許文献１では，検出された顔が多いほど，利用者にとってよりふさわしい代表フレーム画像になることが述べられている。また，別の従来技術として，非特許文献２では，検出された顔の画像内における位置に基づく方法が述べられている。すなわち，非特許文献２では，検出された顔が，画像内の中央の予め決められた領域内に存在するフレームがより適切な代表フレーム画像となることが述べられている。しかしながら，非特許文献３では，利用者が代表フレーム画像を選ぶ際に，必ずしも顔の数や位置は影響しないということが述べられている。

実際，非特許文献１や非特許文献２では，被写体となった人物の状態が考慮されていない。例えば，悲しい顔をした被写体より，笑顔の被写体が写っているフレームのほうが，代表フレーム画像として，より魅力的である。

このような問題に対する関連従来技術として，近年では，画像データを解析して笑顔を認識する技術は知られており，例えば笑顔を認識してシャッターを切るカメラ等が市販されるようになっている。

さらに，笑顔以外の表情認識の方法として，非特許文献４や非特許文献５に記載されている技術が知られており，例えば，「驚いた顔」などを自動抽出することが可能となっている。誕生日プレゼントを開ける瞬間の驚いた顔のショットなどは，魅力的なものであり，このような表情認識をするための従来技術は，代表フレーム画像を選ぶために利用可能である。

特開２００９−０４３０３９号公報

Dufaux, F.: Key frame selection to represent a video, Proc of International Conference on Image Processing (2000) Zhang, T.: Intelligent Keyframe Extraction for Video Printing. In: Proc. of SPIE ’s Conference on Internet Multimedia Management Systems V, vol.5601, pp.25-35, Philadelphia (2004) Martinet, J., Satoh, S., Chiaramella, Y., Mulhem, P.: Media objects for user-centered similarity matching. Multimed Tools Appl. Vol. 39, Issue 2, pp. 263-291 (2008) Mase, K.: Recognition of Facial Expression from Optical Flow, IEICE Trans., Vol. E74, pp. 3,474-3,483, 1991. Kowalik, U., Hidaka, K., Irie, G., Kojima, A.: Creating joyful digests by exploiting smile/laughter facial expressions present in video, Proc. of International Workshop on Advanced Image Technology 2009 IWAIT2009, Seoul, Korea

しかしながら，抽出された代表フレーム画像が魅力的かどうかというのは，見る人の主観の問題であり，それゆえ，見る人個人によって変わり得る。例えば，ある人にとっては，笑顔より驚いた顔のほうを，より好むかもしれない。しかしながら，従来技術では，万人共通の嗜好性（例えば顔があるほうがいいとか，笑顔がいいなど）を仮定しており，個人ごとの嗜好性を考慮していない。

他の従来技術の問題点としては，悲しい表情や怒った表情など，やはりインパクトがある（ただしマイナスの）表情の共起を無視していることである。例えば，３人の顔が写っていて，そのうち２人がどんなに笑顔であっても，もう１人が怒った表情をしているような代表フレーム画像が抽出されると，見る人にとってむしろネガティブな印象を与えてしまうかもしれない。しかしながら，従来技術をそのまま利用するだけでは，「２人の笑顔がある」ということから，そのような代表フレーム画像が選択されてしまう可能性が高い。

本発明は，上記課題の解決を図り，多くの画像や映像のシーケンスから顔認識や表情認識の技術を利用して代表画像を選択する際に，利用者の嗜好に応じた代表画像を自動的に抽出することができるようにすることを目的としている。

顔認識や表情認識の技術を利用して，映像から代表画像を自動的に抽出する場合，代表画像として相応しいかどうかは画像中の人物の表情に対する利用者の嗜好に関係する。そのため，本発明では，画像中の顔に関して計算により求められる複数の顔パラメータと，顔パラメータに対する利用者の評価値（評価スコアという）とを関連付けて，利用者プロファイルとして保存しておき，代表画像を選出する際に入力画像中の顔から算出した顔パラメータをもとに利用者プロファイルを参照して，入力画像の評価値（算出スコアという）を算出する。この算出スコアが高いものを代表画像として選択する。選択された代表画像が利用者の嗜好に合わない場合，例えば入力画像ごとに利用者に評価スコアを入力させ，利用者プロファイルを更新する。こうすることで，利用者の嗜好に応じた代表画像を自動的に抽出することができる。

具体的には，本発明は，利用者の顔選択に関する評価尺度であるプロファイルのデータが蓄積された利用者プロファイルデータベースと，入力装置と，出力装置とを備える代表画像抽出装置が，複数の画像から構成される画像列から１つまたは複数の代表画像を抽出する方法であって，代表画像抽出対象となる画像列を構成する画像に含まれる人物の顔画像に関して，計算により取得できる複数のパラメータ値である顔パラメータを抽出する過程と，前記利用者プロファイルデータベースから，指定された利用者ごとのプロファイルを検索する過程と，前記顔パラメータと前記プロファイルとから，前記画像ごとの算出スコアを求める算出スコア計算過程と，前記算出スコアに基づき前記画像列から代表画像を選択して前記出力装置に出力する過程と，前記入力装置から，画像に対する利用者の主観による評価スコアを入力する入力過程と，前記入力過程によって評価スコアが入力された場合に，前記算出スコア計算過程で算出される算出スコアが，前記評価スコアに近似されるように新たなプロファイルを計算して前記利用者プロファイルデータベースを更新する過程とを有することを特徴とする。

画像から得られた顔パラメータと利用者の嗜好が反映されたプロファイルとから，代表画像として相応しいかどうかを評価する算出スコアを求めることにより，利用者の嗜好に合う代表画像の自動抽出が可能になる。

上記発明において，前記顔パラメータを抽出する過程では，前記画像列から取得した画像において人物の顔と認識される顔領域を求め，求められた顔領域の画像から，各顔領域に対して領域内の顔画像を取得してから，顔画像に関して計算により取得できる顔パラメータを抽出する。各画像に対して顔領域を求め，顔領域内の顔画像を取得することにより，顔の表情などを表すパラメータ値を抽出することができる。

また，上記発明において，前記顔パラメータとして，予め決められた表情分類に応じて前記顔画像を分類してラベル付けし，画像内におけるその表情分類の発生頻度確率値を用いる。顔パラメータとして，画像内におけるその表情分類の発生頻度確率値を用いることにより，特に利用者個人が全体として好ましいと思っている表情が写っている代表画像を優先的に抽出することができる。

また，上記発明において，前記利用者プロファイルデータベース中のプロファイルが，利用者の個人または利用者のグループに対応付けされていることを特徴とする。算出スコアの計算に用いるプロファイルを利用者の個人だけでなくグループにも対応可能にすることにより，例えば家族全体の嗜好を反映するような代表画像の選択も可能になる。

また，上記発明において，前記プロファイルとして各顔パラメータを構成する個々の値に対する重みを利用し，前記算出スコアを，前記各顔パラメータを構成する個々の値と重み値との線形結合により算出することを特徴とする。プロファイルとして，各顔パラメータを構成する個々の値に対する重みを利用することにより，利用者ごとに顔パラメータのどの要素を重視するかを反映することができる。

また，上記発明において，前記評価スコアとして，連続値，段階的なレベル値または２値の値を用いることを特徴とする。評価スコアとして，連続値もしくは段階的なレベル値を用いることにより，評価スコアに対して嗜好を定量的に反映することができる。また，評価スコアとして，２値の値を用いることにより，選択された代表画像を，利用者が気に入ったか気に入らないかというような単純な判断で，利用者プロファイルを簡易に更新することができる。

また，上記発明において，前記代表画像の選択では，予め指定された個数Ｎに対して，画像列内での算出スコア値の高さを比較し，１番目からＮ番目までの画像を代表画像として選択，または予め指定された閾値Ｔｈに対して，画像列内での算出スコア値が前記閾値Ｔｈより高い画像を代表画像として選択することを特徴とする。これにより，任意の個数Ｎの代表画像を抽出することも，また，利用者の嗜好の強さに応じた代表画像を抽出することも可能になる。

また，上記発明において，前記利用者プロファイルデータベースを更新する過程では，新たなプロファイル値を線形モデルにより計算することを特徴とする。これにより，プロファイル値の更新において，利用者の嗜好を適切に反映することができる。

以上のように，本発明では，複数の顔パラメータを用い，利用者ごとのプロファイルに応じて重み付けを考慮した上で算出スコアを計算し，その算出スコアに応じて代表画像を抽出することで，利用者の嗜好に応じた抽出結果とすることが可能となり，また，複数のパラメータを用いることで，単一の抽出結果だけによらない抽出結果とすることも可能となる。さらに，利用者の入力に応じて，プロファイルを更新することで，本発明による代表画像抽出方法を利用するに従って，より利用者の嗜好にあった抽出結果とすることが可能となる。

代表画像抽出装置の構成例を示す図である。代表画像抽出処理のフローチャートである。顔パラメータ算出処理のフローチャートである。ＰＦＥ認識処理のフローチャートである。利用者プロファイルＤＢ中のテーブルの例を示す図である。代表画像選択処理のフローチャートである。代表画像の表示と評価スコアの入力画面の例を示す図である。ＵＳＰＡの例を示す図である。利用者プロファイルの例を示す図である。利用者プロファイル更新処理のフローチャートである。重みベクトルＷの算出処理（その１）のフローチャートである。重みベクトルＷの算出処理（その２）のフローチャートである。

以下，本発明の実施の形態について，図を用いて説明する。

図１は，本発明の実施例に係る代表画像抽出装置の構成例を示す図である。代表画像抽出装置１００は，ＣＰＵ１０１と，メモリ１０２と，利用者の顔選択に関するプロファイルデータが蓄積された利用者プロファイルデータベース（ＤＢ）１０３と，代表画像抽出対象となる画像列の各画像を入力する画像入力部１０４と，各画像から１または複数の顔領域を抽出する顔領域認識部１０５と，顔領域内の顔画像から表情を認識するＰＦＥ認識部１０６と，認識した表情から予め決められた表情分類の画像内における発生頻度確率値であるＰＦＥ確率値を計算するＰＦＥ確率値計算部１０７と，各画像に対する代表画像としての評価値である算出スコアを計算する算出スコア計算部１０８と，算出スコアが高い画像を検索して代表画像を選出する画像検索部１０９と，利用者が指定した評価スコアを入力する評価スコア入力部１１０と，入力した評価スコアから利用者プロファイルとして各顔パラメータを構成する個々の値に対する重み値を評価する重み値評価部１１１と，利用者プロファイルＤＢ１０３から利用者プロファイルを検索する利用者プロファイル検索部１１２と，キーボードやマウス等の入力デバイス１１３と，ディスプレイやプリンタ等の出力デバイス１１４とを備える。

図２に，本発明の実施例に係る代表画像抽出方法の処理フローチャートを示す。まず，ステップＳ１０では，画像入力部１０４により，代表画像抽出対象の画像列から画像を逐次取得する。ステップＳ１１では，顔領域認識部１０５により，取得された画像ごとに顔領域を抽出する。１つの画像には，複数の顔領域が含まれていることもある。ステップＳ１２では，ＰＦＥ認識部１０６により，抽出された顔領域ごとに表情認識等の計算処理を行ってその画像の顔パラメータを算出する。以上のステップＳ１０〜Ｓ１２を画像列の画像が終了するまで繰り返す（ステップＳ１３）。

次に，ステップＳ１４では，利用者プロファイル検索部１１２によって利用者プロファイルＤＢ１０３を検索し，現在の利用者の利用者プロファイルを取得する。続いて，ステップＳ１５では，顔パラメータと利用者プロファイルとから画像ごとに算出スコアを計算する。本実施例では，ＰＦＥ確率値計算部１０７により，詳しくは後述するＰＦＥ確率値を計算し，それをもとに算出スコア計算部１０８によって算出スコアを計算する。

次に，ステップＳ１６では，画像検索部１０９によって画像列の中から算出スコアが高い画像を代表画像として選択し，選択された代表画像をディスプレイ等の出力デバイス１１４に表示する。ステップＳ１７では，評価スコア入力部１１０によって表示結果に対する利用者からの入力を受け付ける。ステップＳ１８では，入力デバイス１１３から評価スコアの入力があるかどうかを判別し，入力があれば，ステップＳ１９へ進む。評価スコアの入力がなければ処理を終了する。

ステップＳ１９では，評価スコアの入力があった場合に，重み値評価部１１１により，算出スコアが評価スコアの近似となるように顔パラメータの個々の値に対する重み値を評価し，利用者プロファイルの値を更新し，更新内容を利用者プロファイルＤＢ１０３に書き込む。

以上の処理において，例えばステップＳ１０〜Ｓ１３と，ステップＳ１４との処理順序を入れ替えてもよく，同じ効果が得られる。

以下では，図２に示す各ステップについての処理内容をさらに詳しく説明する。

［ステップＳ１０］
ステップＳ１０では，代表画像抽出対象となる画像列を入力する。画像列としては，例えば，デジタルカメラで撮影された複数の静止画像が考えられ，その場合には，画像データが保存されたメモリカードや，それらのデータが保存された計算機上のハードディスクから，ＪＰＥＧ形式等で保存された画像ファイルを１つずつオープンして処理するといった実施方法がある。また，より好適な実施方法としては，ビデオカメラ等で撮影された映像データを対象とし，ＭＰＥＧ等の形式で保存された映像データから，その映像を構成するフレーム画像データを逐次展開して処理するといった実施方法がある。なお，この場合，処理量軽減の目的から，全フレーム画像を対象とするのではなく，例えば，１秒ごとに１フレーム画像データのみを対象にするといった方法をとることも実用的である。

［ステップＳ１１］
ステップＳ１１では，ステップＳ１０で入力した画像列の各画像について，顔領域の抽出を行う。本ステップの実施に当たっては，特許文献１に記載された従来技術を適用することができる。それにより，各画像データから，顔と認識される領域が抽出され，その個数・画像内の位置・切り出された顔画像領域の画像データなどが計算機上で取り出され，それらの情報がメモリ１０２に格納される。

［ステップＳ１２］
ステップＳ１２では，各画像に対して，顔パラメータを算出する。具体的な顔パラメータとしては，実施例としていろいろなパラメータが適応可能であって，例えば，ステップＳ１１で求められる顔領域の数や，抽出された顔領域の画像中心位置からのずれの平均値などの値も，顔パラメータとなり得る。

ここでは，特に，ＰＦＥ（prototypic facial expression）確率値という値を顔パラメータに用いる例について詳述する。

図３は，そのＰＦＥ確率値算出のためのフロー，すなわち図２に示すステップＳ１２の詳細な顔パラメータ算出処理手順を示している。まず，ステップＳ１２０では，ステップＳ１１で求められた顔領域内の顔画像データを入力として取り込む。次に，ステップＳ１２１では，ＰＦＥ認識という処理を行い，元の画像内に他の顔領域があれば，その顔領域について同様にステップＳ１２０，Ｓ１２１を繰り返す（ステップＳ１２２）。

次に，ステップＳ１２３では，ＰＦＥ認識の結果からＰＦＥ確率値を算出して，ステップＳ１２４では，ＰＦＥ確率値を出力として，次の処理へ引き渡す。

ＰＦＥ認識とは，表情を予め決められたいくつかの表情クラス（例えば“anger, disgust, fear, joy, neutral, sadness, surprise ”という７つのクラス）に分類し，ラベル付けすることである。実際にラベル付けする手段については，例えば非特許文献４や非特許文献５に記載されている従来技術の方法を用いることができる。ステップＳ１１で求められた各顔領域に対して，このようなラベル付けを繰り返す。

図４は，ＰＦＥ認識処理，すなわち図３に示すステップＳ１２１の詳細な処理の流れを示している。ステップＳ１２１０では，まず，前のステップで切り出した顔画像を入力する。ステップＳ１２１１では，顔画像から特徴量を抽出する。ステップＳ１２１２では，抽出した特徴量をもとに，顔画像を予め決められた表情クラスに分類する。ステップＳ１２１３では，分類結果を示すラベルを出力する。

次に，予め決められた表情クラスｉごとのＰＦＥ確率値Ｈ_iを，図３のステップＳ１２３において次のように求める。

Ｈ_i＝Ｎ_i／Ｎ_F
ここで，Ｎ_Fは，ある画像で検出された顔領域の数であり，Ｎ_iは，そのうち「ｉ」とラベル付けされた顔の数である。

例えば，ある画像に対して，４つの顔領域が検出され，ＰＦＥ検出により，２つが“joy ”，１つが“sadness ”，残りの１つが“surprise”とラベル付けされたとする。この場合，ＰＦＥ確率値は，
Ｈjoy ＝０．５，Ｈsadness ＝０．２５，Ｈsurprise＝０．２５，その他のＨpfe ＝０，と計算される。

計算された結果のＰＦＥ確率値は，ステップＳ１２４において，ベクトル値Ｈとして出力され，次のステップへ渡される。

上記の例の場合，ＰＦＥ確率値（顔パラメータ）は，“anger, disgust, fear, joy, neutral, sadness, surprise ”で順序付けするとして，
Ｈ＝（0.0, 0.0, 0.0, 0.5, 0.0, 0.25, 0.25 ）というベクトル値になる。

以下，このようにベクトル値となった顔パラメータＨについて，その次元数をＭとし，また，顔パラメータＨの各要素を順序付け，ｈ₁，ｈ₂，…，ｈ_Mと表記する。さらに，線形回帰の手法を適用するために，顔パラメータＨの０番目の要素をｈ₀＝１と定義し，顔パラメータＨにはそれも含むとする。

上記の例の場合，Ｍ＝７であって，
Ｈ＝（1.0, 0.0, 0.0, 0.0, 0.5, 0.0, 0.25, 0.25）となる。

［ステップＳ１４］
ステップＳ１４では，利用者プロファイル検索部１１２により，利用者プロファイルを利用者プロファイルＤＢ１０３から検索する。上記で述べたＰＦＥ確率値のみを利用する場合の，利用者プロファイルＤＢ１０３上のテーブル構成例を図５に示す。利用者プロファイルＤＢ１０３では，利用者プロファイルとして図５に示すように，各利用者Ａ，Ｂ，…またはそのグループごとに，各表情クラスに対して利用者の嗜好を反映した重み値が格納されている。ステップＳ１４は，このようなテーブルに対して，利用者のＩＤを検索キーとして検索するという通常のデータベース管理機能を利用して実施できる。

利用者のＩＤの指定は，例えば，本処理を計算機に実行させるためのプログラムの起動パラメータとして指定する方法や，本ステップの実行時に，入力デバイス１１３を通じて利用者からの入力を受け取る方法などがある。

利用者は，通常，１人ずつＩＤを持ち，各ＩＤごとに異なるプロファイルデータのレコードで管理されるという実施方法をとる。

その他，複数の利用者ＩＤが属する集団（例えば家族）のグループＩＤを設け，本ステップでのデータベース検索において，グループＩＤに変換してから検索するという実施方法をとることも可能である。この場合，個人ではなく，その集団（例えば家族）全体の嗜好を反映するような効果をもたらす。

［ステップＳ１５］
ステップＳ１５では，ステップＳ１２で求められた顔パラメータＨと，ステップＳ１４で検索された利用者プロファイルのデータから，算出スコアを計算する。顔パラメータＨとして，７つに分類されたＰＦＥ確率値ｈ₁，ｈ₂，…，ｈ₇とｈ₀を用い，利用者プロファイルのデータとして，図５に示すような重み値による重みベクトルＷ＝（ｗ₀，ｗ₁，ｗ₂，…，ｗ₇）を用いる。算出スコアＳは，
Ｓ＝Σ_i=0 ^M（ｗ_i・ｈ_i）
によって計算する。すなわち，ここでは，プロファイルデータとしての重みベクトルＷと，ステップＳ１２で求められたベクトルＨ（顔パラメータ）の内積値を求めることによって，算出スコアとしている。

ステップＳ１５では，画像列内の各画像に対して処理を行うことで，画像列内の各画像ごとの算出スコアＳが計算される。

［ステップＳ１６］
ステップＳ１６において，算出スコアをもとに，代表画像を選択する方法としては，図６に示すような代表画像選択処理を行う。まず，代表画像として抽出する枚数Ｎを入力する（ステップＳ１６０）。この枚数Ｎは，抽出する枚数の最大値であり，顔画像の数がＮ未満の場合には，実際に抽出される枚数がＮ未満のこともある。次に，前のステップＳ１５で算出された算出スコアの列を入力し（ステップＳ１６１），算出スコアを降順でソートする（ステップＳ１６２）。次に，ソートされた算出スコアの列のうち，先頭のＮ個に関連付けられた画像を代表画像として選択する（ステップＳ１６３）。この選択されたＮ枚の代表画像を出力する（ステップＳ１６４）。

なお，ステップＳ１６０で入力する代表画像の抽出枚数Ｎは，予め固定値として決めておいてもよいし，本実施例を実装したプログラムの起動パラメータとして渡す方式や，本ステップにおいて，入力デバイス１１３を使用して利用者から入力する方法などを用いることもできる。

以上のように，算出スコアでソートしておき，決められた枚数Ｎに対して，トップのＮ枚を選択する方法の他に，別の方法として，次のような方法を用いることもできる。例えば，閾値Ｔh を定めて，その閾値Ｔh より大きな算出スコアを持つものだけを選択するという方法である。この場合も，閾値Ｔh は，固定値，起動パラメータ，利用者入力などの方法で決めることができる。

選択された代表画像は，ディスプレイなどの出力デバイス１１４を通じて，利用者に対して出力される。あるいは，他の実施形態としては，外部メモリカードなどに出力したり，保存用のファイルとしてハードディスク（ＨＤＤ）等の外部記憶媒体に出力したりすることも考えられる。

図７は，代表画像の表示と評価スコアの入力画面の例を示す。代表画像の画面への出力に当たっては，例えば図７（Ａ）〜（Ｃ）のように出力し，利用者からのフィードバックを入力できるようにする。

本システムにおいては，特に，プロファイルデータが初期状態のときなど，必ずしも利用者の嗜好によく合致した結果を出力しない可能性がある。そのため，利用者は，その出力結果を見て，図７（Ａ）〜（Ｃ）のような入力インタフェースを通じて，利用者自身の評価スコアを入力できるようにしておく。

図７（Ａ）のような画面においては，代表画像とともに算出スコアの値を示すスライドバーを表示する。このスライドバーによって，利用者は，スコア値に違和感がある場合，マウス等の入力デバイス１１３の指示により，評価スコア（連続値）を変更することができる。

図７（Ｂ）のような表示においては，連続的なスコア値を，段階的に区分けし，その区分を表示している。利用者は，スコア値（正確には，それを段階的に区分けした後の段階値）に違和感がある場合，マウス等の入力デバイス１１３により，段階値を変更することができる。指定された場合には，その指定された区分け内の代表値に評価スコアが変更されたとして，以後の処理を行う。なお，「区分け内の代表値」とは，例えば，中間値（算出スコア値が，１０．０から３０．０までの画像を，レベル１とした場合に，新たにレベル１と指定された画像データの評価スコア値が２０．０と指定されたものとする）を使用する方法や，もともとそのレベルとして算出されていた画像の算出スコア値の平均値を使用する方法がある。

なお，段階数が２の場合には，要するに「気に入ったか」，「気に入らないか」という２値による指定を意味し，その場合には，図７（Ｂ）のような実施形態のほかに，別の実施形態では，図７（Ｃ）のように抽出された各代表画像とともに，チェックボックスによる２値評価の入力画面を表示することも可能である。

なお，２値による評価は，図７（Ｃ）のように明示的に指定する他にも，「特に，気に入ったものは，印刷を行う（あるいは特別なフォルダへ保存する）」などといった実施例と組み合わせることで，間接的に２値評価するような実施例とすることも可能である。この場合には，利用者が保存したり印刷したりした代表画像が，評価スコアの値が高い画像として扱われる。

［ステップＳ１８，Ｓ１９］
ステップＳ１８では，実際に，利用者からの評価スコア入力があったかどうかを確認し，入力がなければ，処理を終了する。

利用者からの評価スコアの入力があった場合には，ステップＳ１９へ進み，ステップＳ１２で算出された顔パラメータとそれに対する評価スコア値の関連（以下，ＵＳＰＡ：user score-parameter associationと呼ぶ）を保存する。

ＵＳＰＡの例を，図８に示す。ＵＳＰＡは，１枚の画像データから算出された顔パラメータ（この例ではＰＦＥ確率値Ｈ_image）と，それに対する利用者の評価スコアＵＳ_imageのセットである。なお，ｈ₀＝１は固定値なので略している。

ＵＳＰＡの保存先としては，図９に示すように，利用者プロファイルＤＢ１０３上に逐次追加して保存する方法がある。また，後述するように統計的なモデルの仮定によっては，永続的に保存しておく必要がないので，そのような実施方式においては，ＵＳＰＡはメモリ１０２上に保持しておけばよい。

図１０は，以上の利用者プロファイル更新処理の流れを示す。図１０の処理は，図２に示すステップＳ１９の処理である。まず，ステップＳ１９０では，画像列内の画像を１つ取り出す。次に，ステップＳ１９１では，前述した方法によりＵＳＰＡを作成し，利用者プロファイルＤＢ１０３に１レコード追加する。ステップＳ１９０，Ｓ１９１を画像列の画像が終了するまで繰り返す（ステップＳ１９２）。その後，ステップＳ１９３では，保存されたＵＳＰＡに対して，一般に知られている統計的手法を適用することにより，重みベクトルＷといった利用者プロファイルを算出する。ステップＳ１９４では，求めた重みベクトルＷを利用者プロファイルＤＢ１０３に保存する。

上述したステップＳ１９３において，重みベクトルＷを求める最も一般的な方法は，最小二乗モデルにより線形回帰式を求める方法である。具体的には，例えば次の参考文献１（p.５〜p.７）に記載された方法により，保存されたＵＳＰＡから重みベクトルＷを算出できる。
〔参考文献１〕守谷他：多変量解析とコンピュータプログラム，日刊工業新聞社，昭和47年
図７（Ｂ），（Ｃ）のような場合にも，各段階の代表値としての評価スコア値を指定されたとみなすことで，このモデルによる重みベクトルＷの算出が可能となる。

なお，特に図７（Ｃ）のような２値による評価の場合には，上記のように代表値を与えて回帰を行うという方法のほかにも，判別分析（上記参考文献１のp.１０３〜p.１１７参照）という手法を用い，Ｗと同様な線形結合による判別関数を利用して，「気にいる」か「気に入らないか」に分類する方法も考えられ，その場合にも，保存されたＵＳＰＡから判別関数の係数（Ｗに相当する）を算出することができる。

なお，既にいくつかの画像に対して評価スコアの入力とその入力値に基づくプロファイル（重みベクトル）が算出されている場合に，追加で入力された評価スコアによって，どのようにプロファイル（重みベクトル）を更新するかについては，次のように実施することができる。

〔実施方法１〕
まず，重みベクトルＷを厳密に算出する方法としては，実際に入力されたＵＳＰＡをすべてデータベース上に保持しておき，図１１に示すような処理によって再度プロファイルを算出しなおすという実施方法がある。まず，ステップＳ１９３０では，すべてのＵＳＰＡ，すなわち既存のＵＳＰＡと図１０のステップＳ１９１で追加されたＵＳＰＡを，利用者プロファイルＤＢ１０３から読み込む。次に，ステップＳ１９３１では，モデルパラメータ推定によりＵＳＰＡから重みベクトルＷを求める。ステップＳ１９３２では，求めた重みベクトルＷを次のステップに対して出力する。

すなわち，この方法では，利用者により評価スコアを入力された画像に関するＵＳＰＡは消去されることなく逐次追加されていくために，重みベクトルＷの算出にあたって，過去の履歴を含む全てのＵＳＰＡを利用できる。この場合，ＵＳＰＡの履歴を保持しておくために，データ量が増大することと，データ量が増大した場合に再計算のための計算コストが増大するという問題があるが，統計上の処理を厳密に適用できることと，特に統計モデルに制約なく適用できるという効果がある。

〔実施方法２〕
他の実施方法としては，特定の統計モデルを仮定した場合には，いくつかの統計上のモデル状態値を保持しておくことだけで，追加されたＵＳＰＡに対して，再計算により新たなプロファイルの計算を行うことも可能である。

図１２に，実施方法２の重みベクトルＷの算出処理のフローを示す。最初に，ステップＳ１９３３では，図１０のステップＳ１９１で新たに追加されたＵＳＰＡのみが読み出される。ステップＳ１９３４では，既存のモデル状態値を利用者プロファイルＤＢ１０３から読み込み，ステップＳ１９３５では，モデルパラメータ推定により，ＵＳＰＡから重みベクトルＷとモデル状態値を求める。ステップＳ１９３６では，新たなモデル状態値を利用者プロファイルＤＢ１０３に保存する。ステップＳ１９３７では，ステップＳ１９１で新たに追加されたＵＳＰＡを削除し，ステップＳ１９３８では，ステップＳ１９３５で求めた重みベクトルＷを次のステップに対して出力する。

この場合には，ＵＳＰＡを全て保持しておく必要がないため，再計算後には，入力されたＵＳＰＡを削除し，新たなプロファイル値とともに，次回再計算に必要なパラメータのみをデータベース上に保持すればよい。

本実施方法の具体例を示す。以下では，ベクトル値ｆを「^*」を付けて^*ｆと表記する（他のベクトル表記も同様）。

最初に，全部のＵＳＰＡ（Ｎ個とする）から重みベクトルＷ（以下では^*ｗと表記する）を線形モデルで求める場合について説明し，その後にデータ更新によって^*ｗを再計算する場合の例について説明する。ｉ番目のＵＳＰＡを，ベクトルで表される顔パラメータの^*ｆ_iと，評価スコアｓ_iのセット（^*ｆ_i，ｓ_i）とする。顔パラメータ^*ｆ_iと評価スコアｓ_iの関係を，Ｍ次元のベクトル^*ｗを用いて，次のように表すこととする。

^*ｆ_i・^*ｗ＝ｓ_i＋ｅ_i
この線形モデルを最もよく説明する^*ｗは，次の誤差ｅ_iの二乗和Ｅを最小にする^*ｗである。

Ｅ＝Σ_i=1 ^N（ｅ_i）²
Ｅを最小にする^*ｗは必ず存在し，そのときの^*ｗはｊ番目の成分をｗ_jとすれば，
∂Ｅ／∂ｗ_j＝０ …式(1)
を満たす。行列ＦおよびＮ次元のベクトル^*ｓを，
Ｆ＝（^*ｆ₁ ^*ｆ₂…^*ｆ_N）
^*ｓ＝（ｓ₁，ｓ₂，…，ｓ_N）^T
とすれば，式(1) を解いて得られる最適な^*ｗは，
Ｆ^TＦ^*ｗ＝Ｆ^{T *}ｓ
を満たす。よって，これから最適な^*ｗを求めればよい。

次に，データ更新により^*ｗを再計算する場合の例について説明する。顔パラメータと評価スコアのセット（Ｆ，^*ｓ）から最適な^*ｗを求めた後，新たにＮ′個のデータ（Ｆ′，^*ｓ′）が追加されれば，^*ｗを更新する必要が生じる。更新されたデータを加味した最適な^*ｗは，
（Ｆ^TＦ＋Ｆ′^TＦ′）^*ｗ＝Ｆ^{T *}ｓ＋Ｆ′^{T *}ｓ′
を満たしている。この式の一部であるＦ^TＦとＦ^{T *}ｓは，更新前に計算済みであるので，計算済みの部分を記憶しておくことで，求解にかかる計算を大幅に減らして^*ｗを算出することができる。

顔パラメータとして，“anger, disgust, fear, joy, neutral, sadness, surprise ”に分類するＰＦＥ確率値を利用する場合には，Ｍ＝７固定（個数としては，０から７までなので，８個固定）となる。この場合には，再計算に必要となる，（８×８行列）と（８次元ベクトル）を「モデル状態値」として保存しておけばよい。

この場合の処理を，図１２のフローに従って再度説明する。まず，新たに追加されたＵＳＰＡのデータ（上記Ｆ′と^*ｓ′とに相当する）を取得し（ステップＳ１９３３），またプロファイルから「モデル状態値」に相当するＦ^TＦとＦ^{T *}ｓを取得する（ステップＳ１９３４）。方程式
（Ｆ^TＦ＋Ｆ′^TＦ′）^*ｗ＝Ｆ^{T *}ｓ＋Ｆ′^{T *}ｓ′
の解^*ｗを求め（Ｓ１９３５），（Ｆ^TＦ＋Ｆ′^TＦ′）と（Ｆ^{T *}ｓ＋Ｆ′^{T *}ｓ′）とを新たな「モデル状態値」として保存し（ステップＳ１９３６），新たに追加されたＵＳＰＡを消去して（ステップＳ１９３７），^*ｗ（重みベクトルＷ）を出力する（ステップＳ１９３８）。

〔実施方法３〕
さらに別の実施方法としては，「最新に追加されたＵＳＰＡのみを使用する」という考え方で，新たに追加されたＵＳＰＡのみから重みベクトルＷを計算し，利用者プロファイルに上書きするという実施方法も可能である。この場合にも，追加されたＵＳＰＡは，重みベクトルＷを算出した後には消去される。

再計算されたプロファイル（重みベクトル）は，利用者プロファイルＤＢ１０３上の当該ＩＤのレコードに書き込まれて更新される。

以上説明した代表画像抽出の処理は，コンピュータとソフトウェアプログラムとによって実現することができ，そのプログラムをコンピュータ読み取り可能な記録媒体に記録することも，ネットワークを通して提供することも可能である。

１００代表画像抽出装置
１０１ＣＰＵ
１０２メモリ
１０３利用者プロファイルデータベース（ＤＢ）
１０４画像入力部
１０５顔領域認識部
１０６ＰＦＥ認識部
１０７ＰＦＥ確率値計算部
１０８算出スコア計算部
１０９画像検索部
１１０評価スコア入力部
１１１重み値評価部
１１２利用者プロファイル検索部
１１３入力デバイス
１１４出力デバイス

Claims

利用者の顔選択に関する評価尺度であるプロファイルデータが蓄積された利用者プロファイルデータベースと，入力装置と，出力装置とを備える代表画像抽出装置が，複数の画像から構成される画像列から１つまたは複数の代表画像を抽出する方法であって，
代表画像抽出対象となる画像列を構成する画像に含まれる人物の顔画像に関して，計算により取得できる複数のパラメータ値である顔パラメータを抽出する過程と，
前記利用者プロファイルデータベースから，指定された利用者ごとのプロファイルを検索する過程と，
前記顔パラメータと前記プロファイルとから，前記画像ごとの算出スコアを求める算出スコア計算過程と，
前記算出スコアに基づき前記画像列から代表画像を選択して前記出力装置に出力する出力過程と，
前記入力装置から，画像に対する利用者の主観による評価スコアを入力する入力過程と，
前記入力過程によって評価スコアが入力された場合に，前記算出スコア計算過程で算出される算出スコアが，前記評価スコアに近似されるように新たなプロファイルを計算して前記利用者プロファイルデータベースを更新する過程とを有する
ことを特徴とする代表画像抽出方法。
請求項１記載の代表画像抽出方法において，
前記顔パラメータを抽出する過程では，
前記画像列から取得した画像において人物の顔と認識される顔領域を求め，求められた顔領域の画像から，各顔領域に対して領域内の顔画像を取得してから，顔画像に関して計算により取得できる顔パラメータを抽出する
ことを特徴とする代表画像抽出方法。
請求項１または請求項２記載の代表画像抽出方法において，
前記顔パラメータとして，予め決められた表情分類に応じて前記顔画像を分類してラベル付けし，画像内におけるその表情分類の発生頻度確率値を用いる
ことを特徴とする代表画像抽出方法。
請求項１，請求項２または請求項３記載の代表画像抽出方法において，
前記利用者プロファイルデータベース中のプロファイルが，利用者の個人または利用者のグループに対応付けされている
ことを特徴とする代表画像抽出方法。
請求項１から請求項４までのいずれか１項に記載の代表画像抽出方法において，
前記プロファイルとして各顔パラメータを構成する個々の値に対する重みを利用し，前記算出スコアを，前記各顔パラメータを構成する個々の値と重み値との線形結合により算出する
ことを特徴とする代表画像抽出方法。
請求項１から請求項５までのいずれか１項に記載の代表画像抽出方法において，
前記評価スコアとして，連続値，段階的なレベル値または２値の値を用いる
ことを特徴とする代表画像抽出方法。
請求項１から請求項６までのいずれか１項に記載の代表画像抽出方法において，
前記代表画像の選択では，予め指定された個数Ｎに対して，画像列内での算出スコア値の高さを比較し，１番目からＮ番目までの画像を代表画像として選択，または予め指定された閾値Ｔｈに対して，画像列内での算出スコア値が前記閾値Ｔｈより高い画像を代表画像として選択する
ことを特徴とする代表画像抽出方法。
請求項１から請求項６までのいずれか１項に記載の代表画像抽出方法において，
前記利用者プロファイルデータベースを更新する過程では，新たなプロファイル値を線形モデルにより計算する
ことを特徴とする代表画像抽出方法。
入力装置と，出力装置とを備え，複数の画像から構成される画像列から１つまたは複数の代表画像を抽出する代表画像抽出装置であって，
利用者の顔選択に関する評価尺度であるプロファイルデータが蓄積された利用者プロファイルデータベースと，
代表画像抽出対象となる画像列を構成する画像に含まれる人物の顔画像に関して，計算により取得できる複数のパラメータ値である顔パラメータを抽出する手段と，
前記利用者プロファイルデータベースから，指定された利用者ごとのプロファイルを検索する手段と，
前記顔パラメータと前記プロファイルとから，前記画像ごとの算出スコアを求める算出スコア計算手段と，
前記算出スコアに基づき前記画像列から代表画像を選択して前記出力装置に出力する出力手段と，
前記入力装置から，画像に対する利用者の主観による評価スコアを入力する入力手段と，
前記入力手段によって評価スコアが入力された場合に，前記算出スコア計算手段で算出される算出スコアが，前記評価スコアに近似されるように新たなプロファイルを計算して前記利用者プロファイルデータベースを更新する手段とを備える
ことを特徴とする代表画像抽出装置。
請求項１から請求項８までのいずれか１項に記載の代表画像抽出方法を，コンピュータに実行させるための代表画像抽出プログラム。