JP2010251841A

JP2010251841A - 画像抽出プログラムおよび画像抽出装置

Info

Publication number: JP2010251841A
Application number: JP2009095983A
Authority: JP
Inventors: Keiichi Nitta; 啓一新田; Yuko Hattori; 佑子服部; Taro Makigaki; 太郎牧垣; Takashi Nishi; 岳志西; Hideo Hojuyama; 秀雄宝珠山; Mari Sugihara; 麻理杉原
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2009-04-10
Filing date: 2009-04-10
Publication date: 2010-11-04
Anticipated expiration: 2029-04-10
Also published as: JP5532661B2

Abstract

【課題】複数の画像の中から使用者の意に適った画像を抽出する。
【解決手段】撮像装置とマイクロフォンにより画像と音声を取得する。撮像した画像から画像解析により視聴者を識別するとともに、集音した音声から音声解析により話者を識別し会話内容を解析する手順と、撮像された複数の画像から会話内容に関連する画像が記録されている場合は関連画像を抽出してランク付けするとともにランクの高い画像を表示する手順、とをコンピューターに実行させる。
【選択図】図２

Description

本発明は、画像抽出プログラムおよび画像抽出装置に関する。

多くの画像を撮影日ごとに分類し、分類された画像の中から撮影日ごとのインデックス画像を抽出する表示制御装置が知られている（例えば、特許文献１参照）。また、多くの画像の中からスライドショーに用いる画像を抽出する画像表示制御装置が知られている（例えば、特許文献２参照）。

特開２００８−０４６５１９号公報特開２００７−２５６９７１号公報

しかしながら、上述した画像抽出装置により抽出された画像は、必ずしも使用者の意に適った画像とは限らないという問題がある。

(１) 請求項１の発明の画像抽出プログラムは、集音された音声を解析する解析手順と、複数の画像の中から、解析手順における音声の解析結果に応じた画像を抽出する抽出手順とをコンピューターに実行させる。
(２) 請求項２の発明の画像抽出プログラムは、請求項１に記載の画像抽出プログラムにおいて、解析手順では音声を解析して会話内容を認識し、抽出手順では解析手順で認識された会話内容に応じた画像を抽出する。
(３) 請求項３の発明の画像抽出プログラムは、請求項２に記載の画像抽出プログラムにおいて、解析手順では音声を解析して発話者を特定し、抽出手順では解析手順で特定された発話者に関連する画像を抽出する。
(４) 請求項４の発明の画像抽出プログラムは、請求項２に記載の画像抽出プログラムにおいて、解析手順では音声を解析して発話者を特定し、抽出手順では解析手順で特定された発話者と相関関係のある人物に関連する画像を抽出する。
(５) 請求項５の発明の画像抽出プログラムは、請求項３または請求項４に記載の画像抽出プログラムにおいて、解析手順で特定された発話者に応じて画像を抽出する基準を変更する変更手順をさらにコンピューターに実行させる。
(６) 請求項６の発明の画像抽出プログラムは、画像を解析する解析手順と、解析手順における画像の解析結果に基づいて、画像の中の人物以外の被写体が観光地を代表する被写体か否かを判別する判別手順と、複数の前記画像の中から、判別手順により観光地を代表する被写体が写っていると判別された画像を抽出する抽出手順とをコンピューターに実行させる。
(７) 請求項７の発明の画像抽出プログラムは、画像を解析する解析手順と、解析手順における画像の解析結果に基づいて、画像の視聴者を設定する設定手順と、複数の前記画像の中から、設定手順で設定された視聴者と相関関係のある人物が写っている画像を抽出する抽出手順とをコンピューターに実行させる。
(８) 請求項８の発明の画像抽出プログラムは、画像を解析する解析手順と、解析手順における画像の解析結果に基づいて、画像に写っているイベントを識別する識別手順と、識別手順で識別されたイベントに応じて画像を抽出する基準を変更する変更手順と、複数の画像の中から、変更手順で変更された基準にしたがって画像を抽出する抽出手順とをコンピューターに実行させる。
(９) 請求項９の発明の画像抽出装置は、複数の画像を記憶する記憶装置と、請求項１〜８のいずれか一項に記載の画像抽出プログラムを実行し、記憶装置に記憶されている複数の画像の中から画像を抽出するコンピューターと、コンピューターにより抽出された画像を表示する表示装置とを備える。

本発明によれば、複数の画像の中から使用者の意に適った画像を抽出することができる。

一実施の形態の構成を示す図音声認識による画像抽出のプログラムを示すフローチャート人物相関図の一例を示す図視聴者に応じた画像抽出のプログラムを示すフローチャート撮影場所に応じた画像抽出のプログラムを示すフローチャート人物相関図による画像抽出のプログラムを示すフローチャートイベントに応じた画像抽出のプログラムを示すフローチャート

図１は、一実施の形態の画像抽出装置１の構成を示すブロック図である。記憶装置２は各種の記録媒体２ａを挿入可能なスロットを備えており、記憶装置２には記録媒体２ａから読み出された画像データと音声データが記憶される。記憶装置２にはまた、撮像装置３により撮像された画像データ、マイクロフォン４により集音された音声データ、後述する通信装置９を介してインターネットなどから入手した画像データおよび音声データ、これらの画像データ、音声データを後述する手法により解析・処理した結果、及び様々な条件に応じた画像抽出手順および基準などが記憶されている。撮像装置３は画像抽出装置１の周囲を撮像する。この撮像画像には画像抽出装置１の視聴者が含まれる。また、マイクロフォン４は画像抽出装置１の周囲の音声を集音する。この音声には視聴者の会話などが含まれる。なお、マイクロフォン４は撮像装置３による撮像時はもちろんのこと、非撮像時の周囲音声も集音する。操作部材５は、画像抽出や画像と音声の再生に関する操作を行うための各種スイッチ、方向キーなどである。

コンピューター６はＣＰＵなどのハードウエア(不図示)と、ＣＰＵのソフトウエア形態で構成される制御部６ａや解析・処理部６ｂなどを備えている。制御部６ａは、操作部材５からの操作入力にしたがって画像抽出および画像と音声の再生に関わるすべての処理を制御する。解析・処理部６ｂは、記憶装置２に記憶されている画像データと音声データ、撮像装置２により撮像された画像データ、マイクロフォン４により集音された音声データなどを解析し、画像抽出と再生に関する処理を施す。ディスプレイ７は記憶装置２に記憶されている画像、撮像装置３による撮像画像、抽出結果の画像の他に、メニュー画面などの各種情報を表示する。スピーカー８は記憶装置２に記憶されている音声やマイクロフォン４により集音された音声などを再生するとともに、操作に関する音声ガイドや警告音などを発音する。通信装置９は、インターネットなどを介して画像や種々の情報の授受を行うとともに、プリンターなどの外部機器へ画像や種々の情報を出力する。

なお、この一実施の形態では、予め記憶されている複数の画像の中から種々の条件に応じた画像を抽出し、それらを再生する画像抽出装置１を例に挙げて説明するが、本願発明に係わる画像抽出プログラムを実行するコンピューター６と操作部材５を画像抽出装置とし、外部に記憶装置２、撮像装置３、マイクロフォン４、ディスプレイ７、スピーカー８、通信装置９などを設けてもよい。あるいは、本願発明に係わる画像抽出プログラムをパーソナルコンピューターで実行し、画像抽出および再生の機能を実現する形態としてもよい。さらには、本願発明の画像抽出装置と画像抽出プログラムをデジタルカメラやカメラ付き携帯電話機に組み込み、デジタルカメラやカメラ付き携帯電話機単体で本願発明の画像抽出機能を実現するようにしてもよい。また、一実施の形態では静止画像を抽出対象画像として説明するが、動画像を構成するフレーム画像を抽出する構成としてもよい。

以下に説明する各実施の形態の構成は、図１に示す構成と同様であり、それぞれの実施の形態における構成の説明を省略する。

《第１の実施の形態》
記憶装置２に記憶された画像を用いてスライドショーを行う場合に、マイクロフォン４で集音される音声データ、あるいは撮像装置３により撮像された画像データをもとに、スライドショーの視聴者を判定し、視聴者に応じた画像を抽出して再生するようにした第１の実施の形態を説明する。画像データによる視聴者の識別は個人認証により行い、音声データによる視聴者の識別は声紋解析により行う。声紋による個人認識は、例えば特開２００７−２３３０７５号公報に開示されている手法などを用いる。すなわち、複合信号を窓関数に通し周波数ベクトルを計算して得られた周波数や信号成分の強さなどの情報を、声紋として予め個人ごとに記憶装置２に記憶しておき、マイクロフォン４で集音した視聴者の音声データを解析した声紋情報と照合して話者を特定するとともに、その発話内容を記憶装置２に記憶されている言葉などと照合して認識する。また、声道の長さ、硬口蓋の長さ、声を発するための声道の形の調整の仕方（調音）が男女、成人、子供により異なるため、ホルマント（音声波形のスペクトルの中で特にエネルギーが集中している周波数成分）、基本周波数（声帯の振動周期の逆数）、音声波の音圧レベルをもとに男性、女性、子供の声を識別する。もちろん、これらを撮像装置３で撮像された画像データのみを用いて識別することもできるし、上述した音声解析と画像解析とを併用してもよい。

図２は、画像抽出装置１で画像を抽出しながらスライドショーを行う場合の画像抽出プログラムを示すフローチャートである。コンピューター６の制御部６ａは、操作部材５によりスライドショーモードが設定されると図２に示す動作を開始する。ステップ１において、撮像装置３による撮像と、マイクロフォン４による音声の集音を開始する。続くステップ２で撮像した画像を解析・処理部６ｂにより解析してスライドショーの視聴者を識別し、ステップ３で集音した音声を解析・処理部６ｂにより解析して発話者を識別する。また、ステップ４では解析・処理部６ｂにより視聴者の会話内容を解析する。

図３は、架空の主人公である小学生“Ｎａｏちゃん”を中心とした人物相関図である。人物相関は、特定の人物ここではＮａｏちゃんを中心とした人および物（ペットを含む）との相関関係を、それぞれの人および物の画像データ(不図示)や音声（声紋）データ(不図示)、あるいは個人情報(不図示)とともに記録したもので、記憶装置２に記録されている。なお、上記の人物相関は、必ずしも図３に示すような図のかたちで記録されている必要はなく、各個人毎に他人との相関関係が記録されているものであっても構わない。例えば、ヒロくんに関する情報として、Ｎａｏちゃんと同じ父母と祖父母とペットのヒナちゃんとを家族として有し、近所のお友達としてＩちゃん、Ｊちゃんがいる旨が記録される構成としてもよい。

例えば図３に示す人物相関図の中のＮａｏちゃんの父と母との間で、「入学式のＮａｏちゃんの服装って可愛かったね」のような会話がなされた場合には、撮像装置３により撮像された画像やマイクロフォン４により集音された音声に基づいてスライドショーの視聴者である「父」と「母」を識別し、これらの視聴者の会話の解析結果から会話内容が「入学式」の「Ｎａｏちゃん」の「服装」に関するものであることを識別する。

ステップ５において、「入学式」の「Ｎａｏちゃん」が顔だけでなく「服装」も大きく写っている画像が記憶装置２に記憶されているか否かを検索する。このとき、視聴者である「父」と「母」がともに写っている画像を優先して抽出する構成としてもよい。また、会話の内容が「Ｎａｏちゃん」の「笑顔が可愛かったね」のような「表情」に関するものであれば、笑顔の画像を抽出する。会話に関連する画像が記憶されていない場合にはステップ３へ戻り、上述した処理を繰り返す。この場合には、従来と同様に視聴者の会話と直接関係のない画像を再生してスライドショーを継続する。

視聴者の会話に関連する画像が記憶されている場合にはステップ６へ進み、該当する画像を優先順位を付けて抽出する。同じ入学式のイベントの際に撮影され、「入学式」のタグが割り付けられている画像であっても、「入学式」が一目で判る画像、例えば入学式の看板とともにＮａｏちゃんが写っている画像を優先して抽出する。さらに、Ｎａｏちゃんが所定以上の大きさで写っている画像、笑顔で写っている画像、「父」と「母」と一緒に写っている画像を優先する。そして、これらの優先順位にしたがって関連画像のランク付けを行う。ステップ７でランクの一番高い画像を次に再生する画像として記憶装置２から読み出し、ディスプレイ７に表示する。

ステップ８でマイクロフォン４から音声入力があるか否かを判別し、視聴者の会話が続けられていて音声入力がある場合はステップ３へ戻り、上述した処理を繰り返す。音声入力がなく視聴者の会話が途切れていると判別された場合はステップ９へ進み、所定時間後に次にランク付けされた画像を記憶装置２から読み出し、ディスプレイ７に再生表示する。

このように、スライドショーの視聴者の会話内容に応じた関連画像を次々に抽出して再生することができ、スライドショーの再生画像や再生シナリオを予め視聴者が設定する必要がない。なお、会話がない場合に備えて、視聴者情報に基づいて視聴者に共通するイベント画像を用いたスライドショーのシナリオを予め用意しておくことが望ましい。

上述したスライドショーのための画像抽出動作において、ステップ６では、視聴者の会話に関連する画像を優先順位を付けて抽出するようにしたが、視聴者の会話に代えて、記憶装置２に記憶される画像の撮像時に取得した音声データを記憶装置２から読み出し、この音声を解析・処理部６ｂで解析して会話内容や周囲の音を識別し、撮像時の会話や音に関連する画像を優先順位を付けて抽出するようにしてもよい。例えば、「あのとき、誰かが・・・・って言っていたよね」という視聴者の会話に応じて、記憶装置２に記憶されている画像を、撮像時に録音された音声とともに再生する。

さらには、記憶装置２から再生する画像を抽出する際の初期画像を、視聴開始時に撮像装置３により撮像された画像、あるいはマイクロフォン４で集音された音声の解析結果をもとに設定するようにしてもよい。例えば、視聴時にＮａｏちゃん、Ｇちゃん、Ｈちゃんの声が認識された場合には、人物相関をもとに近所のお友達が視聴者であると判別し、Ｎａｏちゃん、Ｇちゃん、Ｈちゃんが写っている画像を抽出して再生する。あるいはこの３人が参加しているイベントの画像を抽出して再生してもよい。

なお、視聴者（操作者）の性別や年齢を認識し、画像抽出の判断基準を変更するようにしてもよい。例えば、視聴者が年齢の低い子供の場合には、視聴者が泣いている画像を抽出せず、笑っている画像を抽出する。泣いている子供にとってはそのような画像に楽しい思い出はなく、他の視聴者にいじめられるかも知れないから、視聴者にとって都合の悪い画像を抽出しない。一方、視聴者が大人の場合には、憤慨している画像や泣いている画像などの抽出を許容してもよい。
また、「カラーテレビ画像の好ましい色再現」（西村、太田著、映像メディア学会誌（旧テレビジョン学会誌）Vol.28 No.8(1974) pp623-632）には、被験者の性別により好みの色（膚色）に差が見られることが示されている（男性の方が黄色方向よりにある）。このような性別差を考慮し、視聴者の性別を認識し、認識結果に応じて各性別で好ましいと判断される、例えば膚色画像などの色を有する画像を抽出、選択する構成としてもよい。例えば、顔検出領域の膚色のｘ、ｙ色度値を算出することで当該画像中の膚色が、男女何れが好みの色かを判別することができる。

画像抽出に際して、例えば人物の画像を抽出するときに、画像がぶれていない、主要被写体の大きさが所定値以上、目をつぶっていない、横を向いていない、などの一次抽出（ふるい落とし）を行った上で、顔の表情、口の開き具合などをもとに二次抽出を行う。画像のぶれに関しては、例えば特開平０２−１５７９８０号公報に開示されているように、画像の複数の局所領域のフレーム間の相関を利用して画像ブレ検出を行う方法を用いることができる。さらに、主要被写体の大きさや顔の向きなどの認識は、認識された顔の大きさによって判別することができる。また、目をつぶっているか否かは、目瞑り検出によって行うことができる。

さらに、このような一次抽出においては、構図などの類似する画像の中から、上記の基準で類似画像ごとに１枚の画像を抽出する構成としてもよい。構図の類似する画像の抽出は、例えばＵＳＰ6711293号公報に開示されるようなＳＩＦＴ特徴量（Scale Invariant Feature Transform）を用いることができる。同公報には、画像をガウス関数を用いて階層的にぼかして特徴点を抽出し、特徴点周辺の局所特徴量を算出する手法が開示されている。このＳＩＦＴ特徴量は、回転・スケールに対して不変な局所情報であるため、複雑な被写体でもロバストな物体認識が可能である。この特徴量に基づいて２つの画像の比較を行うことで、２つの画像で同じ被写体を撮影したか、またその構図が類似しているかについて判断することができる。この特徴量の画面内の統計量、例えばヒストグラムをとることによって、類似画像を抽出することができる。もちろん、例えば画面内をグリッドに分割してグリッドごとの色、エッジ、テクスチャー情報をもとに２枚の画像間でこれらの情報を比較して類似画像を抽出するなど、他の手法を用いてもよい。特徴量が近い値を有する２つの特徴点が２枚の画像上でほぼ同じ位置にある場合に、２枚の画像の構図が類似していると考えることができ、２枚の画像の内のいずれかを代表画像として用い、残りを削除する。このような一次、二次抽出を行った結果を、記憶装置２に記憶されている各画像に対して各被写体ごとに分類をしてタグ付けをしておき、このタグ情報に基づいて画像抽出を行うようにすれば、抽出時間を短縮することができる。

上述した画像抽出例では、画像の一次抽出は一般的な「よい画像」の抽出を行い、二次抽出において視聴者個人の好みによる画像抽出を行う例を示した。このような個人の好みによる画像抽出は、学習によって抽出基準を更新していく構成としてもよい。例えば図２のステップ７の段階において、一次抽出の結果をランクが高い順にサムネイル表示し、ステップ９で次に大きく表示させる画像を操作者に選択させる。コンピューター６の制御部６ａは、次に大きく表示させる画像として操作者により選択された画像のランクから、操作者が顔の表情を優先して画像を選択したか、多少右向きの顔を優先して画像を選択したか、画像の色の鮮やかさ、あるいは特定の色が含まれているなどに基づいて選択したか、などを学習し、各視聴者ごとの抽出基準を構築する。このような抽出基準が構築された後は、例えばステップ９で表示される画像は、学習結果をもとに自動的に１枚の画像が選択される構成としてもよい。このような構成とすれば、視聴者各個人の好みに応じた画像抽出を行うことができる。また、上記の二次抽出を、上述のように視聴者の年齢、あるいは性別を認識し、この認識結果に応じて行う構成としてもよい。

上述した画像の二次抽出例では、同じアプリケーション（スライドショー）における画像選択結果に基づいて学習を行う例について説明したが、他のアプリケーションにおける画像選択結果をもとに、例えばスライドショーでの画像抽出基準を構築する構成としてもよい。この場合、コンピューター６の制御部６ａは他のアプリケーションの各部動作制御も司ることができる。例えば、ブログを作成するアプリケーションでブログに子供の誕生会の画像を掲載する場合には、操作者は記憶装置２に記憶されている子供の誕生会の画像の中からブログに掲載する画像を選択する。コンピューター６の制御部６ａは、記憶装置２に記憶される子供の誕生会の画像と最終的に選択された画像とから選択基準を構築する。

具体的には、制御部６ａは、例えば記憶装置２に記憶される子供の誕生会の画像の表情（例えば笑顔度合い）、顔の向き、撮影方向（上方から撮影した画像か、下方から見上げて撮影した画像か、水平方向から撮影した画像か、など）、画像中の主要色の彩度などを予め抽出しておく。

制御部６ａは、例えばブログの作成過程において、最終的に選択された画像がこれらのどれに該当するかをいくつかの画像選択過程で学習し、ある操作者の画像基準を構築する。例えば、ある操作者は人物を画像の左寄りに配置し、下から見上げた撮影で、選択された画像の中に彩度の高いピンク色領域が多く含まれることが多い、という学習結果が得られ、この操作者がスライドショーのアプリケーションにおける視聴者であると判断された場合には、制御部６ａは、スライドショーのアプリケーションにおいてもこれに該当する画像を探索する。上記の例では人物の配置、撮影方向、主要色にも優先順位が付けられ、種々の条件のすべてに合致する画像が存在しない場合であっても、優先順位の高い順にランク付けされた画像が抽出される。

上記の例では、ブログの操作者とスライドショーの視聴者が同じであることを前提にして説明したが、ブログ作成時の画像選択の際にも、撮像部で操作者の個人認証を行い、スライドショーの視聴者と同一であることを判断することで実現することができる。例えば、ブログ作成過程の画像抽出の優先順位が、(人物配置)＞(撮影方向)＞(主要色)であった場合に、画像Ａ（人物が左に配置、下から見上げて撮影、主要色が緑）、画像Ｂ（人物が左に配置、上から見下ろして撮影、主要色がピンク）、画像Ｃ（人物が右に配置、下から見上げて撮影、主要色がピンク）という画像が記憶装置２にスライドショー再生画像として記録されている場合には、画像Ａ、Ｂ、Ｃの順にランクが高い画像として抽出され、結果として操作者の好みに合った画像として画像Ａがスライドショーの次に表示される画像に選択される。同じ画像であっても、画像選択の基準は人によって異なることが想定される。上記の構成によれば、個人の選択基準に適合した画像を自動的に提示することができる。

《第２の実施の形態》
スライドショーを行うための画像の他の抽出方法を説明する。記憶装置２に記憶されている画像の中から画像を抽出し、スライドショーを行う場合に、視聴者の言葉を認識し、認識結果に関連する画像を抽出し、次の再生画像とする。記憶装置２に記憶されている画像データには、解析・処理部６ｂにより行われた認識の結果と、ＧＰＳ情報を含む各種撮影情報とが関連づけて記憶されている。視聴者が話す言葉はマイクロフォン４により集音され、その内容は解析・処理部６ｂにより解析されて認識される。例えば、視聴者の会話の中に「入学式のＮａｏちゃん可愛かったねー」という言葉が認識された場合には、記憶装置２に記憶されている画像の中から笑顔度の一番高いＮａｏちゃんの画像が抽出され再生される。また、会話の流れの中で飲み会でのＬさんの歌が話題になった場合には、飲み会イベントが写されている画像の中で、Ｌさんが歌を歌っている画像が抽出され再生される。

さらに、会話の中に「寒い」や「冷たい」という言葉が出てきた場合には、これらの言葉に合った画像を抽出するようにしてもよい。例えば、「寒い」、「冷たい」や、「暖かい」、「暑い」に対応する画像は、解析・処理部６で画像の色成分を解析し、主要色成分がそれぞれ青または灰や、黄またはオレンジまたは赤の画像を抽出する。さらに、例えば「騒々しい」に対応する画像は、街角で車や人が所定数以上写っている画像を抽出すればよい。このような言葉に対する画像の選択基準は記憶装置２に予め記憶されている。このような構成とすれば、視聴者の手を煩わせることなく、視聴者の会話の流れに沿った画像の抽出と再生が自動的に行える。なお、視聴者が所定時間無言状態にあった場合には、そのときに再生されている画像と同種の画像を抽出して再生すればよい。

このように、第１および第２の実施の形態によれば、集音された音声を解析して会話内容を認識し、複数の画像の中から解析結果の会話内容に応じた画像を抽出するようにしたので、視聴者自ら煩わしい画像の選択操作をする必要がなく、視聴者の話題にしている内容に関連した画像を自動的に提示することができる。

また、第１および第２の実施の形態によれば、音声を解析して発話者を特定し、複数の画像の中から発話者に関連する画像を抽出するようにしたので、視聴者自ら煩わしい画像の選択操作をする必要がなく、視聴者に関連する画像を自動的に提示することができる。

さらに、第１および第２の実施の形態によれば、音声を解析して発話者を特定し、複数の画像の中から発話者と相関関係のある人物に関連する画像を抽出するようにしたので、視聴者自ら煩わしい画像の選択操作をする必要がなく、視聴者と相関関係のある人物に関連する画像を自動的に提示することができる。

《第３の実施の形態》
次に、視聴者によって画像抽出の基準を変更する実施の形態を説明する。図４は、視聴者によって画像抽出基準を変更する場合の画像抽出プログラムを示すフローチャートである。なお、ここでは記憶装置２に１００枚の画像が記憶されており、それらの画像の中から基準にしたがって画像を抽出する例を示す。ステップ２１において、操作者が図３に示す人物相関図の中のＮａｏちゃんと親しいかどうかを判別する。撮像装置３により撮像した操作者の顔と、マイクロフォン４により集音した操作者の声紋をそれぞれ記憶装置２に記録されている人物ごとの顔および声紋のデータと照合し、図３に示す人物相関図を参照してＮａｏちゃんとどの程度親しいかを判別する。なお、人物の顔や声紋のデータの記憶装置２への登録は、操作者により手動で行うか、あるいは同一人物の顔や声紋を所定回数（例えば５回）取得したら自動的に登録する。

まず、操作者がＮａｏちゃんと親しくない場合について説明する。ステップ２２において記憶装置２に記憶されている１００枚の画像から顔が写っている画像を抽出する。画像の中から人物の顔を検出するには、画像の中から肌色の領域を検出し、顔形状に相当する顔領域を選択する。ここでは、１００枚の画像の中から顔が写っている画像が７５枚抽出されたものとする。次に、ステップ２３で顔の大きさが所定範囲内の画像を抽出する。顔が写っている７５枚の画像の中から、顔領域の垂直または水平方向の肌色の画素数が所定範囲内の画像を抽出する。ここでは、７５枚の画像から３０枚が抽出されたとする。

さらに、ステップ２４では顔が正面を向いている画像を抽出する。画像中の顔の向きは、顔領域における目、鼻、口の位置およびそれらの間の間隔に基づいて判別する。ここでは、３０枚の画像の中から１０枚の画像が抽出されたものとする。続くステップ２５では目つぶりしていない画像を抽出する。画像に写っている目がつぶられているか否かは、目の垂直方向の長さと水平方向の長さの比率に基づいて判別する（例えば特開２００２−１９９２０２号公報参照）。ここでは、１０枚の画像の中から該当する画像が５枚抽出されたとする。最後にステップ２６において、口の開き具合が所定範囲の画像を抽出する。画像中の人物の顔の口の開き具合は、人物の顔の垂直方向の長さに対する口の垂直方向の長さの比率に基づいて判別する。ここでは、５枚の画像の中から口の開き具合が所定範囲の画像が１枚抽出されたとする。

ステップ２７において、抽出された画像をディスプレイ７に表示する。なお、抽出される画像が複数枚あっても構わない。その場合には、操作者によって好みの画像が異なることもあり、操作者が任意の画像を選択する操作手順を加えてもよい。

次に、操作者がＮａｏちゃんと親しい場合の画像抽出手順を説明する。ステップ２８において、上述したステップ２２における抽出方法により画像に顔が写っている画像を抽出する。続くステップ２９では、顔の大きさが所定値以上の画像を抽出する。顔領域の垂直または水平方向の肌色の画素数が所定数以上の画像を抽出する。操作者がＮａｏちゃんと親しくない場合には、ステップ２３で顔の大きさが所定範囲内の画像を抽出したが、操作者がＮａｏちゃんと親しい場合には、Ｎａｏちゃんのアップの顔が写っている画像が抽出されてもよいとする。ステップ３０で、口の開き具合が所定以上の画像を抽出する。具体的には、画像中の人物の顔の垂直方向の長さに対する口の垂直方向の長さの比率が所定値以上の画像を抽出する。操作者がＮａｏちゃんと親しくない場合には、口の開き具合が所定範囲の画像を抽出したが、操作者がＮａｏちゃんと親しい場合は、口を大きく開けて大笑いしているような画像も抽出する。また、操作者がＮａｏちゃんと親しい場合には、抽出される画像の中に目をつぶっている画像や、顔が横向きの画像があってもよいものとする。

上記のような構成によれば、例えば大きく口をあけて大笑いしているような恥ずかしい画像の閲覧を、視聴者に応じて自動的に制限することができる。
また、第３の実施の形態によれば、集音された音声を解析して発話者（視聴者）を特定し、発話者に応じて画像を抽出する基準を変更するようにしたので、視聴者ごとに適切な画像を自動的に提示することができる。さらには、撮像した画像を解析した結果得られた操作者の情報に基づいて、画像を抽出する基準を変更するようにしたので、視聴者ごとに適切な画像を自動的に提示することができる。

《第４の実施の形態》
旅行先で撮影した多くの画像を旅行先ごとに分類することがある。このような場合の画像抽出方法を説明する。図５は旅行先ごとの画像抽出プログラムを示すフローチャートである。ここでは、記憶装置２の所定フォルダに１００枚の画像が記憶されており、それらの画像の中から基準にしたがって画像を抽出する例を示す。ステップ４１において、画像抽出の目的が年賀状を作成する目的かどうかを判別する。年賀状を作成する場合にはステップ４２へ進み、記憶装置２に記憶されている画像の中から、観光地で撮影された画像を抽出する。各画像には撮影場所と撮影方向の情報（ＧＰＳ情報）が記録されており、この情報に基づいて観光地ごとに画像を抽出する。例えば、日光東照宮、ドゥオモ、エッフェル塔、サグラダファミリア、バッキンガム宮殿、万里の長城などの観光地ごとに７５枚の画像が抽出されたとする。

ステップ４３では、自宅から観光地までの距離が所定値以上の観光地の画像を抽出する。ここでは、東京の自宅から所定距離以上離れたドゥオモ、エッフェル塔、サグラダファミリア、バッキンガム宮殿の画像が３０枚抽出されたとする。続くステップ４４で、旅行期間が所定日数以上の画像を抽出する。各画像に記録されている撮影日時と撮影場所の情報に基づいて抽出する。ここでは、４日間のドゥオモ、３日間のエッフェル塔、２日間のサグラダファミリアの画像が合計１０枚が抽出されたものとする。さらにステップ４５において、画像の解析結果に基づいて撮影枚数が所定枚数以上の観光地の画像を抽出する。ここでは、７枚のドゥオモの画像が抽出されたものとする。ステップ４６で、抽出した画像をディスプレイ７に表示する。なお、抽出される画像が複数枚あっても構わない。その場合には、操作者によって好みの画像が異なることもあり、操作者が任意の画像を選択する操作手順を加えてもよい。

年賀状の作成目的ではない場合にはステップ４７へ進み、画像に記録されている撮影場所の情報に基づいて例えば北海道旅行で撮影された画像を抽出する。ステップ４８では、抽出された画像の中に富良野のラベンダー畑で撮影された画像があるか否かを判別する。ラベンダー畑で撮影された画像がある場合にはステップ４９へ進み、富良野のラベンダー畑で撮影された画像を抽出する。続くステップ５０において、画像解析により画像全体に対してラベンダーの色が占める面積の割合が所定値以上の画像を抽出する。制御部６ａは、記憶装置２内に、前記所定フォルダとは別に「富良野・ラベンダー畑」のフォルダを作成し、ステップ４９で抽出された画像データを同フォルダに移動する。この際に、ステップ５０で抽出された、画像全体に対してラベンダーの色が占める面積の割合が所定値以上の画像データに対してフラグを付加する。一方、富良野のラベンダー畑で撮影された画像がない場合にはステップ５１へ進み、美瑛のセブンスターの木で撮影された画像を抽出する。続くステップ５２で、セブンスターの木が主要被写体として撮影された画像を抽出する。各画像にはオートフォーカス情報と撮影距離情報が記録されており、これらの情報に基づいて画像の中の主要被写体を判別し、主要被写体の像と記憶装置２に予め記憶されているセブンスターの木のテンプレート画像とを照合して抽出する。制御部６ａは、記憶装置２内に、前記所定フォルダとは別に「美瑛・セブンスター」のフォルダを作成し、ステップ５１で抽出された画像データを同フォルダに移動する。この際に、ステップ５２で抽出されたセブンスターの木が主要被写体となっている画像のデータに対してフラグを付加する。このようなフラグを付加しておくことで、その後、ステップ４６で、フラグの付加された抽出画像をディスプレイ７に表示することができる。上記の例においては、年賀状作成以外の用途で、富良野のラベンダー畑、美瑛のセブンスターの木を撮影した画像を抽出する例について示したが、これらの画像抽出を年賀状作成用途に用いるものであっても構わない。また、日光東照宮、ドゥオモ、エッフェル塔、サグラダファミリア、バッキンガム宮殿、万里の長城などの撮影画像を、年賀状作成以外の用途に用いるものであっても構わない。この場合には、図５のステップ４７〜ステップ５２の処理が、各観光地ごとに設けられる。この処理を複数回繰り返すことにより、撮影画像を旅行先ごとに分類することが実現できる。

上述した抽出方法により旅行先で撮影した多くの画像を旅行先ごとに分類し、アルバムを作成する場合に、旅行先ごとの代表的な画像を選択してインデックス画像とし、各分類ごとの旅行先が一目でわかるようにすることがある。インデックス画像には旅行先を代表する被写体が写っているのが望ましく、各画像に記録されている撮影場所と撮影方向の情報（ＧＰＳ情報）を参照しながら、画像解析を行って人物以外の被写体、例えばエッフェル塔や日光東照宮などのような有名な建造物や、ナイヤガラの滝のような景勝などを認識し、このような被写体が写っている画像を抽出してインデックス画像とする。

このように、第４の実施の形態によれば、画像を解析して画像の中の人物以外の被写体が観光地を代表する被写体か否かを判別し、複数の画像の中から観光地を代表する被写体が写っていると判別された画像を抽出するようにしたので、それぞれの観光地を代表する画像を自動的に提示することができる。なお、上記の例において、画像中に観光地を代表する被写体とともに、特定個人が写っている画像を抽出する構成としても構わない。この場合には、画像中の特定個人は所定値以上の大きさであることが好ましく、さらに、画像中の観光地を代表する被写体、及び特定個人がぼけていない画像を優先的に抽出する構成とすることが望ましい。これらの被写体がぼけているか否かの判別は、画像データの周波数解析により行うことができる。

《第５の実施の形態》
特定の人物の人物相関図に基づいて画像を抽出する実施の形態を説明する。図６は人物相関図に基づく画像抽出プログラムを示すフローチャートである。ステップ６１において、コンピューター６の解析・処理部６ｂは、記録媒体２ａから読み出され記憶装置２に記憶されている画像を、撮影日時情報を用いて時間軸でクラスタリングし、ある特定のイベントで撮影されたと考えられる画像群を検索する。

次に、ステップ６２で画像群に写されているイベントを識別する。イベントの識別は、映像に映っている主人公などの主要被写体の動作の認識処理や、主人公などの服装の特徴抽出、あるいは認識処理などを行うことによって実現される。動作の認識処理は、例えば特開平５−４６５８３号公報に開示されるように、画像をメッシュ状に分割し、各メッシュの内部で算出した特徴量（オプティカルフロー等）をベクトルとし、この特徴量ベクトルの時系列変化を確率的状態遷移モデルで認識する方法や、特開２００５−２１５９２７号公報に開示されるように、行動を認識する場合における認識処理を第１ステップと第２ステップとの２段階構成とし、第１ステップの動作要素抽出部では、画像データを処理して検出される動きの情報の時系列変化に基づき短時間に行われる一定の動作パターンを認識するとともに、第２ステップの行動認識部では、認識対象とする期間に含まれる一定の動作パターンの割合に基づき、長期間に亘る動作を認識する方法、さらには特開２００８−１４０２６７号公報に開示されるような高次局所自己相関特徴を用いて動作を認識する方法などを用いることができる。また、服装などの特徴抽出は、例えば、認識された顔の位置の下部領域の色情報、エッジ情報、テクスチャ情報を抽出することによって実現することができる。さらに、これらの抽出された情報をもとに、体操服やウェディングドレスなど、イベント特有の服装を認識することができる。なお、イベント判別に際して画像データに関連付けられて記録されている音声データを参照し、より正確なイベント判別を行ってもよい。また、イベント特有の被写体（例えば「運動会」のイベントであれば、万国旗）を認識してイベントを判別する構成としてもよい。このようなイベント特有の被写体の種類は、その認識手法と共に制御部６ａに、各イベントに対応付けられて予め記録されている。この例では、同じ撮影日の画像群の画像に対して文字認識を行い、画像群の撮影対象イベントがＮａｏちゃんの入学式であると識別されたとする。

ステップ６３において画像の配信先を決定する。ここでは、Ｎａｏちゃんの入学式の画像の配信先を決定する。配信先の決定手順はイベントあるいは写っている被写体に応じて予め定められ、記憶装置２に記憶されている。例えば、家族全員が写っている画像がある場合には、入学式の看板とＮａｏちゃんが単独で写っている画像と合わせて父方の祖父母、母方の祖父母、父の弟の家族に対して配信される。また、家族全員が写っている画像がなく、母とＮａｏちゃんの写っている画像がある場合には、入学式の看板とＮａｏちゃんとが単独で写っている画像を父方の祖父母、母方の祖父母、父の弟の家族に配信し、母方の祖父母にはさらに母とＮａｏちゃんの写っている画像を配信する。母方の祖父母にとっては、自分の子供（Ｎａｏちゃんの母）と孫（Ｎａｏちゃん）により関心を持つため、配信する画像をＮａｏちゃんとの関係に応じて選択する。つまり、必ずしも写っている人に画像を配信するのではなく、写っている人との関係に応じて配信先を決定する。

ステップ６４では配信先に応じた画像を抽出する。父方と母方の祖父母に孫のＮａｏちゃんの入学式の画像を配信するために、制御部６ａは、Ｎａｏちゃんの入学式の画像群の中から入学式の看板とＮａｏちゃんが単独で写っている画像、および家族が写っている画像を抽出する。このとき、各個人は個人認証により識別し、入学式の看板は文字認識により識別する。なお、家族全員が写っている画像がない場合には、母とＮａｏちゃん、父とＮａｏちゃんが写っている画像を抽出する。ステップ６５において、抽出した画像を通信装置９からインターネットを介して父方と母方の祖父母に配信する。

なお、画像の最終利用者として母方の祖父母が指定された場合に、Ｎａｏちゃん、母、弟が写っている画像を抽出するようにしてもよい。また、画像の配信先として母方の祖父母が指定された場合、家族全員の画像、Ｎａｏちゃん、母、弟が写っている画像を抽出するようにしてもよい。つまり、父が単独で写っている画像を抽出しない。

また、配信先に関する情報を、イベント種類情報とともに各画像に関連づけて記録するようにしてもよい。これにより、配信先を指定するだけで人物相関を考慮した画像を抽出することができる。さらに、画像が入学式のイベントを写したものであることが識別されたら、画像の中から主人公を識別し、主人公が写っている画像を抽出するようにしてもよい。この場合、撮影時に主要被写体として選択されたオートフォーカス領域の情報を用い、画像の中の選択されたオートフォーカス領域の被写体を主人公と認定してもよい。

このように、第５の実施の形態によれば、画像を解析して画像の視聴者を設定し、複数の画像の中から、設定された視聴者と相関関係のある人物が写っている画像を抽出するようにしたので、画像ごとに最適な視聴者を自動的に設定することができ、各画像をそれぞれの最適な視聴者に自動的に提示することができる。

《第６の実施の形態》
画像に写っているイベントを識別し、イベントに応じて画像抽出の基準を変更する第６の実施の形態を説明する。コンピューター６の解析・処理部６ｂは、記録媒体２ａから読み出され、記憶装置２に記憶されている画像を、撮影日時情報を用いて時間軸でクラスタリングするとともに、被写体認識によりクラスタリングを行い、ある特定のイベントで撮影されたと考えられる画像群を検索する。例えば、最初に撮影した画像とその日の最後に撮影した画像に写っている人物の多くが共通しており、ホワイトバランスの制御値が同じである場合には、その間に撮影された画像はある特定のイベントで撮影された画像であると判定する。

図７は、Ｎａｏちゃんの両親（図３に示す人物相関図参照）がＮａｏちゃんの写真を額縁に入れて飾るために１枚の画像をプリントアウトする場合の画像抽出例を示すフローチャートである。この例では幼稚園の遠足と小学校の入学式のイベントが撮影された画像群から１枚の画像を抽出する例を示すが、イベントの種類と数は特に限定されない。また、各画像データには、例えば上述した方法によるイベントの識別結果が記録されているものとする。

ステップ７１において、使用者により画像抽出対象のイベントが選択されたか否かを判別し、イベントが選択されていればステップ７２へ進む。ステップ７２で、イベントが幼稚園の遊園地への遠足か否かを判別し、遊園地への遠足であればステップ７３へ進む。ステップ７３において、記憶装置２に記憶されている画像の中から、各画像データに関連付けて記録されているイベントの識別データを参照して幼稚園の遊園地への遠足イベントの画像群を抽出する。続くステップ７４では、抽出した幼稚園の遊園地遠足のイベント画像群の中から、構図や画像の中に写っている人を個人認証により判別し、上述した方法により類似画像を除外する。

次にステップ７５で、遊園地遠足イベントの画像群から、Ｎａｏちゃんが仲のよい友達と所定以上の大きさで、かつ笑顔で写っている画像を抽出する。このとき、クラス全員の集合写真など、顔の大きさが小さい画像は除外される。続くステップ７６では、上記ステップ７５で抽出した画像群から、Ｎａｏちゃんと観覧車などの遊園地特有の乗り物やお城などの遊園地特有の建物がいっしょに写っている画像を抽出する。ここで、遊園地特有の建物は、画像データに関連付けて記録されている撮影場所および撮影方向や、画像のエッジ成分より抽出した形状や色情報などに基づいて識別することができる。また、遊園地の遊具は、画像のエッジ成分より抽出した形状、色情報、撮影時のスルー画生成時に取得した動き情報（撮影時のスルー画生成時に取得した動き情報は、動き物体の領域、動き方向、動き量などが画像データに関連付けて記録されている）に基づいて識別することができる。

ステップ７７において、抽出した画像をディスプレイ７にサムネイル表示する。ステップ７８で使用者が表示画像の中からいずれかの画像を選択したか否かを確認し、選択したらステップ７９へ進み、使用者が選択した画像のデータを通信装置９を介して外部のプリンターへ送信し、プリントアウトする。

使用者が選択したイベントが幼稚園の遊園地遠足でない場合にはステップ８０へ進み、小学校の入学式のイベントか否かを確認する。小学校の入学式のイベントが選択された場合にはステップ８１へ進み、記憶装置２に記憶されている画像の中から、各画像に記録されているイベントの識別データを参照して小学校の入学式イベントの画像群を抽出する。続くステップ８２では、抽出した小学校の入学式のイベント画像群の中から、構図や画像の中に写っている人を個人認証により判別し、上述した方法により類似画像を除外する。

ステップ８３では、小学校入学式イベントの画像群の中から、Ｎａｏちゃんが所定以上の大きさ（上述したステップ７５の大きさよりも大きく設定されている）で父母とともにランドセルを背負っている画像を抽出する。このとき、他人が写っていない画像を優先的に抽出する。画像中の人が他人か否かの判断は、図３の人物相関図を用いて判別することができる。他人が写っていても、Ｎａｏちゃんと父母より小さく、かつＮａｏちゃんと父母より後ろに移っている画像を優先的に抽出する構成としてもよい。なお、ランドセルは、Ｎａｏちゃんの顔領域下の人体領域に隣接した領域のエッジ分析による形状分析と色情報により認識することができる。また、父母は個人認証により識別可能である。続くステップ８４で、上記ステップ８３で抽出した画像群の中から、入学式会場の看板や校門が写っている画像を抽出する。ここで、入学式の看板は、記憶装置２に記憶されている「入学式」などの特定文字と照合して識別する。

幼稚園の遠足と小学校の入学式のイベントを例に挙げて、イベントに応じた画像抽出基準を説明したが、その他のイベントにおいてもイベントに応じた画像抽出基準が設定されている。例えば、Ｎａｏちゃんの父親が会社の同僚と飲み会に行ったときの画像は、次のような基準にしたがって抽出する。まず、記憶装置２に記憶されている画像の中から、画像に関連付けて記録されているイベントの識別データに基づいて飲み会の画像群を抽出する。イベントが飲み会である場合には、熱唱している、芸を披露しているなどの場合を除いて、一人で黙々と食事をしている画像を抽出してもあまり意味がない。したがって、撮影時のスルー画生成時に取得した動き情報に基づいて、カラオケを熱唱している、芸を披露しているなどの画像を抽出するとともに、多くの人が正面を向いている画像を抽出する。

また、結婚式のイベントでは、新郎新婦が誓いの言葉を朗読している画像、指輪を交換している画像などを抽出するのが望ましい。この場合、画像データに関連付けて記憶されている音声データを解析し、新郎新婦による誓いの言葉の朗読や司会者による「次は指輪交換です」のアナウンスを音声認識し、結婚式における代表的なシーンの画像を抽出する。また、結婚式イベントの画像抽出に際しては、新郎新婦の顔がぶれていない、目つぶりしていない画像を抽出する。新郎、新婦、神父または神主などは個人認証により識別する。

また、画像抽出者のイベントへの関わり度合いに基づいて画像を抽出してもよい。例えば、イベントが結婚式の場合には、画像抽出者が結婚式の主役（新郎、新婦）であれば、結婚式で撮影されたすべての画像を抽出し、画像抽出者が新婦側の親族であれば、新婦側出席者が写っている画像を抽出する。また、画像抽出者が新郎の同僚である場合には、新郎の同僚あるいは新郎、新婦と一緒に写っている画像を抽出する。画像抽出は使用者が操作部材５から手動で入力して行うものでももよいし、画像抽出時に撮像装置３により撮像した画像を解析・処理部６ｂにより解析し、画像抽出者（使用者）を自動的に識別して設定するようにしてもよい。結婚式のイベントの識別は、例えば教会、ウエディングドレス、神父の服装、バージンロードの画像認識などに基づいて行うことができる。また、各人のイベントへの関わり度合いは、上述した人物相関図に基づいて判定することができる。画像抽出者はすなわち画像を抽出したい人であるから、人物相関図にしたがってイベントへの関わり度合いを判定し、判定結果に基づいて画像を抽出する。

パリや有名な遊園地への旅行イベントの画像を抽出する場合には、画像データに関連付けて記録されている撮影場所および撮影方向のデータ、インターネットなどを介して入手した遊園地のキャラクター情報などを用い、旅行先を特定し、旅行先ごとの特有の建造物やキャラクターを識別し、それらといっしょに写っている画像を抽出する。また、サッカー試合のイベントの画像を抽出する場合には、画像解析によるゴールやボールの特定（空間周波数やエッジ抽出などによる）や選手どうしの距離の推定などを行い、選手がゴールする画像、二人の選手がボールを奪い合う画像などを抽出する。さらに、１００ｍ走のイベント画像を抽出する場合には、画像解析により選手がゴールテープを切るシーンやスタートラインに整列する選手を特定し、ゴールやスタートの瞬間の画像を抽出する。

なお、画像配信やスライドショーなどの画像抽出の目的に応じて画像抽出の基準を変更してもよい。

このように、第６の実施の形態によれば、画像を解析して画像に写っているイベントを識別し、イベントに応じて画像を抽出する基準を変更し、複数の画像の中から、変更された基準にしたがって画像を抽出するようにしたので、各イベントに相応しい画像を自動的に提示することができる。

《第７の実施の形態》
次に、他のアプリケーションプログラム（例えばブログ）による画像の選択結果に基づいて画像を抽出する方法を説明する。一般に、記録されている画像の中からパソコンの壁紙に使用する画像を選択したり、ブログに貼り付ける画像を選択することがある。例えば、上述した人物相関図の中の父が毎日ブログ、つまり一実施の形態の画像抽出プログラムとは別のアプリケーションプログラムを実行する場合には、制御部６ａおよび解析・処理部６ｂによりブログに選択される画像の傾向を認識し、選択傾向に基づいてパソコンの壁紙にする画像の候補を抽出するようにしてもよい。ブログに貼り付けられる画像の傾向として犬が写っている画像が多いと認識された場合には、記憶装置２に記憶されている画像の中から犬に関する画像を抽出し、壁紙候補として提示する。このとき、図３に示す人物相関図にしたがって、自分のペットであるヒナちゃんの画像がコロちゃんよりも優先的に抽出される。

さらに、青空の下で犬を写した画像がブログに貼り付けられる傾向があると解析された場合には、青空に生える白い毛色の犬を優先的に抽出するようにしてもよい。犬や青空は被写体認識により識別し、毛色は画像の色解析により識別することができる。このように、他のアプリケーションプログラム（ブログ）による画像の選択傾向を定常的に取得するようにすれば、画像選択の傾向の変化に柔軟に対応することができ、その傾向に応じた画像を速やかにかつ的確に抽出することができる上に、視聴者が興味のある画像を無意識のうちに抽出することができる。

《第８の実施の形態》
雑誌や新聞を編集する際に、掲載する画像を選択するための画像抽出方法を説明する。雑誌や新聞に記事とともに画像を掲載する場合には、記事の内容に適した画像を選択しなければならない。例えば、記事の文章が「＊＊省の官僚○○は、ｘｘｘｘ年ｙｙ月ｚｚ日の記者会見において、これより前に行われた記者との懇親会食における飲酒の影響か、途中眠ったように意識がおかしい状況であった」というような場合には、この文章を解析した結果に基づいて、ｘｘｘｘ年ｙｙ月ｚｚ日に撮影された画像を各画像の撮影日時情報に基づいて抽出し、それらの画像の中から＊＊省の官僚○○が写っている画像を個人認証を行って抽出する。さらに、抽出された画像の中から上述した方法で目をつぶっている画像を抽出する。

また、記事の文章が「追突事故で死亡した○×の姉であるタレントの○△は、ｘｘｘｘ年ｙｙ月ｚｚ日の会見において、加害者への怒りを涙ながらに語った」というような場合には、上記と同様に、ｘｘｘｘ年ｙｙ月ｚｚ日に撮影された画像の中から、タレント○△が涙を流して怒りを込めている画像を抽出する。上記の怒りのような感情の画像データからの抽出は、例えば特開２００６−１２３１３６号公報（段落００５７〜００５９等参照）に開示されているように、顔の筋肉の動きを特徴量として求め、それぞれの感情について特徴量の組み合わせを学習させておいたＳＶＭ(Support Vector Machine)を用い、感情の有無を判別する手法を用いることができる。制御部６ａは、記事の中から被写体の状態を表している言葉を抽出し、これに該当する画像を例えば上記手法を用いて選択する。上記の例では、記事をもとに画像を抽出する例について説明したが、例えば日記のように、一般人が作成する文章データから画像を抽出する構成としてもよい。上記のような構成によれば、文章を作成するだけで、文章の内容に合った画像を自動的に抽出、選択することができる。

《第９の実施の形態》
多くの画像を複数のグループに分類したときに、各画像グループにどのような画像が含まれているかを容易に把握するために、各グループを代表する画像をインデックス画像として表示することがある。このような場合に、各画像に対して人物の表情認識を行って人物の表情を代表する画像をインデックス画像として抽出することができる。例えば、インタビューの際に、怒っている人がふと笑ったような動画像や連写画像などの場合には、怒っている画像と笑っている画像とがインデックス画像として抽出される。このような主要被写体の異なった表情をインデックス画像とすることができる。

なお、上述した実施の形態とそれらの変形例において、実施の形態どうし、または実施の形態と変形例とのあらゆる組み合わせが可能である。

１；画像抽出装置、２；記憶装置、３；撮像装置、４；マイクロフォン、５；操作部材、６；コンピューター、６ａ；制御部、６ｂ；解析・処理部、７；ディスプレイ、８；スピーカー、９；通信装置

Claims

集音された音声を解析する解析手順と、
複数の画像の中から、前記解析手順における前記音声の解析結果に応じた画像を抽出する抽出手順とをコンピューターに実行させることを特徴とする画像抽出プログラム。
請求項１に記載の画像抽出プログラムにおいて、
前記解析手順では、前記音声を解析して会話内容を認識し、
前記抽出手順では、前記解析手順で認識された前記会話内容に応じた画像を抽出することを特徴とする画像抽出プログラム。
請求項２に記載の画像抽出プログラムにおいて、
前記解析手順では、前記音声を解析して発話者を特定し、
前記抽出手順では、前記解析手順で特定された前記発話者に関連する画像を抽出することを特徴とする画像抽出プログラム。
請求項２に記載の画像抽出プログラムにおいて、
前記解析手順では、前記音声を解析して発話者を特定し、
前記抽出手順では、前記解析手順で特定された前記発話者と相関関係のある人物に関連する画像を抽出することを特徴とする画像抽出プログラム。
請求項３または請求項４に記載の画像抽出プログラムにおいて、
前記解析手順で特定された前記発話者に応じて画像を抽出する基準を変更する変更手順をさらにコンピューターに実行させることを特徴とする画像抽出プログラム。
画像を解析する解析手順と、
前記解析手順における前記画像の解析結果に基づいて、前記画像の中の人物以外の被写体が観光地を代表する被写体か否かを判別する判別手順と、
複数の前記画像の中から、前記判別手順により前記観光地を代表する被写体が写っていると判別された画像を抽出する抽出手順とをコンピューターに実行させることを特徴とする画像抽出プログラム。
画像を解析する解析手順と、
前記解析手順における前記画像の解析結果に基づいて、前記画像の視聴者を設定する設定手順と、
複数の前記画像の中から、前記設定手順で設定された前記視聴者と相関関係のある人物が写っている画像を抽出する抽出手順とをコンピューターに実行させることを特徴とする画像抽出プログラム。
画像を解析する解析手順と、
前記解析手順における前記画像の解析結果に基づいて、前記画像に写っているイベントを識別する識別手順と、
前記識別手順で識別された前記イベントに応じて画像を抽出する基準を変更する変更手順と、
複数の前記画像の中から、前記変更手順で変更された前記基準にしたがって画像を抽出する抽出手順とをコンピューターに実行させることを特徴とする画像抽出プログラム。
複数の画像を記憶する記憶装置と、
請求項１〜８のいずれか一項に記載の画像抽出プログラムを実行し、前記記憶装置に記憶されている前記複数の画像の中から画像を抽出するコンピューターと、
前記コンピューターにより抽出された前記画像を表示する表示装置とを備えることを特徴とする画像抽出装置。