JP2010251841A - 画像抽出プログラムおよび画像抽出装置 - Google Patents

画像抽出プログラムおよび画像抽出装置 Download PDF

Info

Publication number
JP2010251841A
JP2010251841A JP2009095983A JP2009095983A JP2010251841A JP 2010251841 A JP2010251841 A JP 2010251841A JP 2009095983 A JP2009095983 A JP 2009095983A JP 2009095983 A JP2009095983 A JP 2009095983A JP 2010251841 A JP2010251841 A JP 2010251841A
Authority
JP
Japan
Prior art keywords
image
procedure
images
extracted
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009095983A
Other languages
English (en)
Other versions
JP5532661B2 (ja
Inventor
Keiichi Nitta
啓一 新田
Yuko Hattori
佑子 服部
Taro Makigaki
太郎 牧垣
Takashi Nishi
岳志 西
Hideo Hojuyama
秀雄 宝珠山
Mari Sugihara
麻理 杉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP2009095983A priority Critical patent/JP5532661B2/ja
Publication of JP2010251841A publication Critical patent/JP2010251841A/ja
Application granted granted Critical
Publication of JP5532661B2 publication Critical patent/JP5532661B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】複数の画像の中から使用者の意に適った画像を抽出する。
【解決手段】撮像装置とマイクロフォンにより画像と音声を取得する。撮像した画像から画像解析により視聴者を識別するとともに、集音した音声から音声解析により話者を識別し会話内容を解析する手順と、撮像された複数の画像から会話内容に関連する画像が記録されている場合は関連画像を抽出してランク付けするとともにランクの高い画像を表示する手順、とをコンピューターに実行させる。
【選択図】図2

Description

本発明は、画像抽出プログラムおよび画像抽出装置に関する。
多くの画像を撮影日ごとに分類し、分類された画像の中から撮影日ごとのインデックス画像を抽出する表示制御装置が知られている(例えば、特許文献1参照)。また、多くの画像の中からスライドショーに用いる画像を抽出する画像表示制御装置が知られている(例えば、特許文献2参照)。
特開2008−046519号公報 特開2007−256971号公報
しかしながら、上述した画像抽出装置により抽出された画像は、必ずしも使用者の意に適った画像とは限らないという問題がある。
(1) 請求項1の発明の画像抽出プログラムは、集音された音声を解析する解析手順と、複数の画像の中から、解析手順における音声の解析結果に応じた画像を抽出する抽出手順とをコンピューターに実行させる。
(2) 請求項2の発明の画像抽出プログラムは、請求項1に記載の画像抽出プログラムにおいて、解析手順では音声を解析して会話内容を認識し、抽出手順では解析手順で認識された会話内容に応じた画像を抽出する。
(3) 請求項3の発明の画像抽出プログラムは、請求項2に記載の画像抽出プログラムにおいて、解析手順では音声を解析して発話者を特定し、抽出手順では解析手順で特定された発話者に関連する画像を抽出する。
(4) 請求項4の発明の画像抽出プログラムは、請求項2に記載の画像抽出プログラムにおいて、解析手順では音声を解析して発話者を特定し、抽出手順では解析手順で特定された発話者と相関関係のある人物に関連する画像を抽出する。
(5) 請求項5の発明の画像抽出プログラムは、請求項3または請求項4に記載の画像抽出プログラムにおいて、解析手順で特定された発話者に応じて画像を抽出する基準を変更する変更手順をさらにコンピューターに実行させる。
(6) 請求項6の発明の画像抽出プログラムは、画像を解析する解析手順と、解析手順における画像の解析結果に基づいて、画像の中の人物以外の被写体が観光地を代表する被写体か否かを判別する判別手順と、複数の前記画像の中から、判別手順により観光地を代表する被写体が写っていると判別された画像を抽出する抽出手順とをコンピューターに実行させる。
(7) 請求項7の発明の画像抽出プログラムは、画像を解析する解析手順と、解析手順における画像の解析結果に基づいて、画像の視聴者を設定する設定手順と、複数の前記画像の中から、設定手順で設定された視聴者と相関関係のある人物が写っている画像を抽出する抽出手順とをコンピューターに実行させる。
(8) 請求項8の発明の画像抽出プログラムは、画像を解析する解析手順と、解析手順における画像の解析結果に基づいて、画像に写っているイベントを識別する識別手順と、識別手順で識別されたイベントに応じて画像を抽出する基準を変更する変更手順と、複数の画像の中から、変更手順で変更された基準にしたがって画像を抽出する抽出手順とをコンピューターに実行させる。
(9) 請求項9の発明の画像抽出装置は、複数の画像を記憶する記憶装置と、請求項1〜8のいずれか一項に記載の画像抽出プログラムを実行し、記憶装置に記憶されている複数の画像の中から画像を抽出するコンピューターと、コンピューターにより抽出された画像を表示する表示装置とを備える。
本発明によれば、複数の画像の中から使用者の意に適った画像を抽出することができる。
一実施の形態の構成を示す図 音声認識による画像抽出のプログラムを示すフローチャート 人物相関図の一例を示す図 視聴者に応じた画像抽出のプログラムを示すフローチャート 撮影場所に応じた画像抽出のプログラムを示すフローチャート 人物相関図による画像抽出のプログラムを示すフローチャート イベントに応じた画像抽出のプログラムを示すフローチャート
図1は、一実施の形態の画像抽出装置1の構成を示すブロック図である。記憶装置2は各種の記録媒体2aを挿入可能なスロットを備えており、記憶装置2には記録媒体2aから読み出された画像データと音声データが記憶される。記憶装置2にはまた、撮像装置3により撮像された画像データ、マイクロフォン4により集音された音声データ、後述する通信装置9を介してインターネットなどから入手した画像データおよび音声データ、これらの画像データ、音声データを後述する手法により解析・処理した結果、及び様々な条件に応じた画像抽出手順および基準などが記憶されている。撮像装置3は画像抽出装置1の周囲を撮像する。この撮像画像には画像抽出装置1の視聴者が含まれる。また、マイクロフォン4は画像抽出装置1の周囲の音声を集音する。この音声には視聴者の会話などが含まれる。なお、マイクロフォン4は撮像装置3による撮像時はもちろんのこと、非撮像時の周囲音声も集音する。操作部材5は、画像抽出や画像と音声の再生に関する操作を行うための各種スイッチ、方向キーなどである。
コンピューター6はCPUなどのハードウエア(不図示)と、CPUのソフトウエア形態で構成される制御部6aや解析・処理部6bなどを備えている。制御部6aは、操作部材5からの操作入力にしたがって画像抽出および画像と音声の再生に関わるすべての処理を制御する。解析・処理部6bは、記憶装置2に記憶されている画像データと音声データ、撮像装置2により撮像された画像データ、マイクロフォン4により集音された音声データなどを解析し、画像抽出と再生に関する処理を施す。ディスプレイ7は記憶装置2に記憶されている画像、撮像装置3による撮像画像、抽出結果の画像の他に、メニュー画面などの各種情報を表示する。スピーカー8は記憶装置2に記憶されている音声やマイクロフォン4により集音された音声などを再生するとともに、操作に関する音声ガイドや警告音などを発音する。通信装置9は、インターネットなどを介して画像や種々の情報の授受を行うとともに、プリンターなどの外部機器へ画像や種々の情報を出力する。
なお、この一実施の形態では、予め記憶されている複数の画像の中から種々の条件に応じた画像を抽出し、それらを再生する画像抽出装置1を例に挙げて説明するが、本願発明に係わる画像抽出プログラムを実行するコンピューター6と操作部材5を画像抽出装置とし、外部に記憶装置2、撮像装置3、マイクロフォン4、ディスプレイ7、スピーカー8、通信装置9などを設けてもよい。あるいは、本願発明に係わる画像抽出プログラムをパーソナルコンピューターで実行し、画像抽出および再生の機能を実現する形態としてもよい。さらには、本願発明の画像抽出装置と画像抽出プログラムをデジタルカメラやカメラ付き携帯電話機に組み込み、デジタルカメラやカメラ付き携帯電話機単体で本願発明の画像抽出機能を実現するようにしてもよい。また、一実施の形態では静止画像を抽出対象画像として説明するが、動画像を構成するフレーム画像を抽出する構成としてもよい。
以下に説明する各実施の形態の構成は、図1に示す構成と同様であり、それぞれの実施の形態における構成の説明を省略する。
《第1の実施の形態》
記憶装置2に記憶された画像を用いてスライドショーを行う場合に、マイクロフォン4で集音される音声データ、あるいは撮像装置3により撮像された画像データをもとに、スライドショーの視聴者を判定し、視聴者に応じた画像を抽出して再生するようにした第1の実施の形態を説明する。画像データによる視聴者の識別は個人認証により行い、音声データによる視聴者の識別は声紋解析により行う。声紋による個人認識は、例えば特開2007−233075号公報に開示されている手法などを用いる。すなわち、複合信号を窓関数に通し周波数ベクトルを計算して得られた周波数や信号成分の強さなどの情報を、声紋として予め個人ごとに記憶装置2に記憶しておき、マイクロフォン4で集音した視聴者の音声データを解析した声紋情報と照合して話者を特定するとともに、その発話内容を記憶装置2に記憶されている言葉などと照合して認識する。また、声道の長さ、硬口蓋の長さ、声を発するための声道の形の調整の仕方(調音)が男女、成人、子供により異なるため、ホルマント(音声波形のスペクトルの中で特にエネルギーが集中している周波数成分)、基本周波数(声帯の振動周期の逆数)、音声波の音圧レベルをもとに男性、女性、子供の声を識別する。もちろん、これらを撮像装置3で撮像された画像データのみを用いて識別することもできるし、上述した音声解析と画像解析とを併用してもよい。
図2は、画像抽出装置1で画像を抽出しながらスライドショーを行う場合の画像抽出プログラムを示すフローチャートである。コンピューター6の制御部6aは、操作部材5によりスライドショーモードが設定されると図2に示す動作を開始する。ステップ1において、撮像装置3による撮像と、マイクロフォン4による音声の集音を開始する。続くステップ2で撮像した画像を解析・処理部6bにより解析してスライドショーの視聴者を識別し、ステップ3で集音した音声を解析・処理部6bにより解析して発話者を識別する。また、ステップ4では解析・処理部6bにより視聴者の会話内容を解析する。
図3は、架空の主人公である小学生“Naoちゃん”を中心とした人物相関図である。人物相関は、特定の人物ここではNaoちゃんを中心とした人および物(ペットを含む)との相関関係を、それぞれの人および物の画像データ(不図示)や音声(声紋)データ(不図示)、あるいは個人情報(不図示)とともに記録したもので、記憶装置2に記録されている。なお、上記の人物相関は、必ずしも図3に示すような図のかたちで記録されている必要はなく、各個人毎に他人との相関関係が記録されているものであっても構わない。例えば、ヒロくんに関する情報として、Naoちゃんと同じ父母と祖父母とペットのヒナちゃんとを家族として有し、近所のお友達としてIちゃん、Jちゃんがいる旨が記録される構成としてもよい。
例えば図3に示す人物相関図の中のNaoちゃんの父と母との間で、「入学式のNaoちゃんの服装って可愛かったね」のような会話がなされた場合には、撮像装置3により撮像された画像やマイクロフォン4により集音された音声に基づいてスライドショーの視聴者である「父」と「母」を識別し、これらの視聴者の会話の解析結果から会話内容が「入学式」の「Naoちゃん」の「服装」に関するものであることを識別する。
ステップ5において、「入学式」の「Naoちゃん」が顔だけでなく「服装」も大きく写っている画像が記憶装置2に記憶されているか否かを検索する。このとき、視聴者である「父」と「母」がともに写っている画像を優先して抽出する構成としてもよい。また、会話の内容が「Naoちゃん」の「笑顔が可愛かったね」のような「表情」に関するものであれば、笑顔の画像を抽出する。会話に関連する画像が記憶されていない場合にはステップ3へ戻り、上述した処理を繰り返す。この場合には、従来と同様に視聴者の会話と直接関係のない画像を再生してスライドショーを継続する。
視聴者の会話に関連する画像が記憶されている場合にはステップ6へ進み、該当する画像を優先順位を付けて抽出する。同じ入学式のイベントの際に撮影され、「入学式」のタグが割り付けられている画像であっても、「入学式」が一目で判る画像、例えば入学式の看板とともにNaoちゃんが写っている画像を優先して抽出する。さらに、Naoちゃんが所定以上の大きさで写っている画像、笑顔で写っている画像、「父」と「母」と一緒に写っている画像を優先する。そして、これらの優先順位にしたがって関連画像のランク付けを行う。ステップ7でランクの一番高い画像を次に再生する画像として記憶装置2から読み出し、ディスプレイ7に表示する。
ステップ8でマイクロフォン4から音声入力があるか否かを判別し、視聴者の会話が続けられていて音声入力がある場合はステップ3へ戻り、上述した処理を繰り返す。音声入力がなく視聴者の会話が途切れていると判別された場合はステップ9へ進み、所定時間後に次にランク付けされた画像を記憶装置2から読み出し、ディスプレイ7に再生表示する。
このように、スライドショーの視聴者の会話内容に応じた関連画像を次々に抽出して再生することができ、スライドショーの再生画像や再生シナリオを予め視聴者が設定する必要がない。なお、会話がない場合に備えて、視聴者情報に基づいて視聴者に共通するイベント画像を用いたスライドショーのシナリオを予め用意しておくことが望ましい。
上述したスライドショーのための画像抽出動作において、ステップ6では、視聴者の会話に関連する画像を優先順位を付けて抽出するようにしたが、視聴者の会話に代えて、記憶装置2に記憶される画像の撮像時に取得した音声データを記憶装置2から読み出し、この音声を解析・処理部6bで解析して会話内容や周囲の音を識別し、撮像時の会話や音に関連する画像を優先順位を付けて抽出するようにしてもよい。例えば、「あのとき、誰かが・・・・って言っていたよね」という視聴者の会話に応じて、記憶装置2に記憶されている画像を、撮像時に録音された音声とともに再生する。
さらには、記憶装置2から再生する画像を抽出する際の初期画像を、視聴開始時に撮像装置3により撮像された画像、あるいはマイクロフォン4で集音された音声の解析結果をもとに設定するようにしてもよい。例えば、視聴時にNaoちゃん、Gちゃん、Hちゃんの声が認識された場合には、人物相関をもとに近所のお友達が視聴者であると判別し、Naoちゃん、Gちゃん、Hちゃんが写っている画像を抽出して再生する。あるいはこの3人が参加しているイベントの画像を抽出して再生してもよい。
なお、視聴者(操作者)の性別や年齢を認識し、画像抽出の判断基準を変更するようにしてもよい。例えば、視聴者が年齢の低い子供の場合には、視聴者が泣いている画像を抽出せず、笑っている画像を抽出する。泣いている子供にとってはそのような画像に楽しい思い出はなく、他の視聴者にいじめられるかも知れないから、視聴者にとって都合の悪い画像を抽出しない。一方、視聴者が大人の場合には、憤慨している画像や泣いている画像などの抽出を許容してもよい。
また、「カラーテレビ画像の好ましい色再現」(西村、太田著、映像メディア学会誌(旧テレビジョン学会誌)Vol.28 No.8(1974) pp623-632)には、被験者の性別により好みの色(膚色)に差が見られることが示されている(男性の方が黄色方向よりにある)。このような性別差を考慮し、視聴者の性別を認識し、認識結果に応じて各性別で好ましいと判断される、例えば膚色画像などの色を有する画像を抽出、選択する構成としてもよい。例えば、顔検出領域の膚色のx、y色度値を算出することで当該画像中の膚色が、男女何れが好みの色かを判別することができる。
画像抽出に際して、例えば人物の画像を抽出するときに、画像がぶれていない、主要被写体の大きさが所定値以上、目をつぶっていない、横を向いていない、などの一次抽出(ふるい落とし)を行った上で、顔の表情、口の開き具合などをもとに二次抽出を行う。画像のぶれに関しては、例えば特開平02−157980号公報に開示されているように、画像の複数の局所領域のフレーム間の相関を利用して画像ブレ検出を行う方法を用いることができる。さらに、主要被写体の大きさや顔の向きなどの認識は、認識された顔の大きさによって判別することができる。また、目をつぶっているか否かは、目瞑り検出によって行うことができる。
さらに、このような一次抽出においては、構図などの類似する画像の中から、上記の基準で類似画像ごとに1枚の画像を抽出する構成としてもよい。構図の類似する画像の抽出は、例えばUSP6711293号公報に開示されるようなSIFT特徴量(Scale Invariant Feature Transform)を用いることができる。同公報には、画像をガウス関数を用いて階層的にぼかして特徴点を抽出し、特徴点周辺の局所特徴量を算出する手法が開示されている。このSIFT特徴量は、回転・スケールに対して不変な局所情報であるため、複雑な被写体でもロバストな物体認識が可能である。この特徴量に基づいて2つの画像の比較を行うことで、2つの画像で同じ被写体を撮影したか、またその構図が類似しているかについて判断することができる。この特徴量の画面内の統計量、例えばヒストグラムをとることによって、類似画像を抽出することができる。もちろん、例えば画面内をグリッドに分割してグリッドごとの色、エッジ、テクスチャー情報をもとに2枚の画像間でこれらの情報を比較して類似画像を抽出するなど、他の手法を用いてもよい。特徴量が近い値を有する2つの特徴点が2枚の画像上でほぼ同じ位置にある場合に、2枚の画像の構図が類似していると考えることができ、2枚の画像の内のいずれかを代表画像として用い、残りを削除する。このような一次、二次抽出を行った結果を、記憶装置2に記憶されている各画像に対して各被写体ごとに分類をしてタグ付けをしておき、このタグ情報に基づいて画像抽出を行うようにすれば、抽出時間を短縮することができる。
上述した画像抽出例では、画像の一次抽出は一般的な「よい画像」の抽出を行い、二次抽出において視聴者個人の好みによる画像抽出を行う例を示した。このような個人の好みによる画像抽出は、学習によって抽出基準を更新していく構成としてもよい。例えば図2のステップ7の段階において、一次抽出の結果をランクが高い順にサムネイル表示し、ステップ9で次に大きく表示させる画像を操作者に選択させる。コンピューター6の制御部6aは、次に大きく表示させる画像として操作者により選択された画像のランクから、操作者が顔の表情を優先して画像を選択したか、多少右向きの顔を優先して画像を選択したか、画像の色の鮮やかさ、あるいは特定の色が含まれているなどに基づいて選択したか、などを学習し、各視聴者ごとの抽出基準を構築する。このような抽出基準が構築された後は、例えばステップ9で表示される画像は、学習結果をもとに自動的に1枚の画像が選択される構成としてもよい。このような構成とすれば、視聴者各個人の好みに応じた画像抽出を行うことができる。また、上記の二次抽出を、上述のように視聴者の年齢、あるいは性別を認識し、この認識結果に応じて行う構成としてもよい。
上述した画像の二次抽出例では、同じアプリケーション(スライドショー)における画像選択結果に基づいて学習を行う例について説明したが、他のアプリケーションにおける画像選択結果をもとに、例えばスライドショーでの画像抽出基準を構築する構成としてもよい。この場合、コンピューター6の制御部6aは他のアプリケーションの各部動作制御も司ることができる。例えば、ブログを作成するアプリケーションでブログに子供の誕生会の画像を掲載する場合には、操作者は記憶装置2に記憶されている子供の誕生会の画像の中からブログに掲載する画像を選択する。コンピューター6の制御部6aは、記憶装置2に記憶される子供の誕生会の画像と最終的に選択された画像とから選択基準を構築する。
具体的には、制御部6aは、例えば記憶装置2に記憶される子供の誕生会の画像の表情(例えば笑顔度合い)、顔の向き、撮影方向(上方から撮影した画像か、下方から見上げて撮影した画像か、水平方向から撮影した画像か、など)、画像中の主要色の彩度などを予め抽出しておく。
制御部6aは、例えばブログの作成過程において、最終的に選択された画像がこれらのどれに該当するかをいくつかの画像選択過程で学習し、ある操作者の画像基準を構築する。例えば、ある操作者は人物を画像の左寄りに配置し、下から見上げた撮影で、選択された画像の中に彩度の高いピンク色領域が多く含まれることが多い、という学習結果が得られ、この操作者がスライドショーのアプリケーションにおける視聴者であると判断された場合には、制御部6aは、スライドショーのアプリケーションにおいてもこれに該当する画像を探索する。上記の例では人物の配置、撮影方向、主要色にも優先順位が付けられ、種々の条件のすべてに合致する画像が存在しない場合であっても、優先順位の高い順にランク付けされた画像が抽出される。
上記の例では、ブログの操作者とスライドショーの視聴者が同じであることを前提にして説明したが、ブログ作成時の画像選択の際にも、撮像部で操作者の個人認証を行い、スライドショーの視聴者と同一であることを判断することで実現することができる。例えば、ブログ作成過程の画像抽出の優先順位が、(人物配置)>(撮影方向)>(主要色)であった場合に、画像A(人物が左に配置、下から見上げて撮影、主要色が緑)、画像B(人物が左に配置、上から見下ろして撮影、主要色がピンク)、画像C(人物が右に配置、下から見上げて撮影、主要色がピンク)という画像が記憶装置2にスライドショー再生画像として記録されている場合には、画像A、B、Cの順にランクが高い画像として抽出され、結果として操作者の好みに合った画像として画像Aがスライドショーの次に表示される画像に選択される。同じ画像であっても、画像選択の基準は人によって異なることが想定される。上記の構成によれば、個人の選択基準に適合した画像を自動的に提示することができる。
《第2の実施の形態》
スライドショーを行うための画像の他の抽出方法を説明する。記憶装置2に記憶されている画像の中から画像を抽出し、スライドショーを行う場合に、視聴者の言葉を認識し、認識結果に関連する画像を抽出し、次の再生画像とする。記憶装置2に記憶されている画像データには、解析・処理部6bにより行われた認識の結果と、GPS情報を含む各種撮影情報とが関連づけて記憶されている。視聴者が話す言葉はマイクロフォン4により集音され、その内容は解析・処理部6bにより解析されて認識される。例えば、視聴者の会話の中に「入学式のNaoちゃん可愛かったねー」という言葉が認識された場合には、記憶装置2に記憶されている画像の中から笑顔度の一番高いNaoちゃんの画像が抽出され再生される。また、会話の流れの中で飲み会でのLさんの歌が話題になった場合には、飲み会イベントが写されている画像の中で、Lさんが歌を歌っている画像が抽出され再生される。
さらに、会話の中に「寒い」や「冷たい」という言葉が出てきた場合には、これらの言葉に合った画像を抽出するようにしてもよい。例えば、「寒い」、「冷たい」や、「暖かい」、「暑い」に対応する画像は、解析・処理部6で画像の色成分を解析し、主要色成分がそれぞれ青または灰や、黄またはオレンジまたは赤の画像を抽出する。さらに、例えば「騒々しい」に対応する画像は、街角で車や人が所定数以上写っている画像を抽出すればよい。このような言葉に対する画像の選択基準は記憶装置2に予め記憶されている。このような構成とすれば、視聴者の手を煩わせることなく、視聴者の会話の流れに沿った画像の抽出と再生が自動的に行える。なお、視聴者が所定時間無言状態にあった場合には、そのときに再生されている画像と同種の画像を抽出して再生すればよい。
このように、第1および第2の実施の形態によれば、集音された音声を解析して会話内容を認識し、複数の画像の中から解析結果の会話内容に応じた画像を抽出するようにしたので、視聴者自ら煩わしい画像の選択操作をする必要がなく、視聴者の話題にしている内容に関連した画像を自動的に提示することができる。
また、第1および第2の実施の形態によれば、音声を解析して発話者を特定し、複数の画像の中から発話者に関連する画像を抽出するようにしたので、視聴者自ら煩わしい画像の選択操作をする必要がなく、視聴者に関連する画像を自動的に提示することができる。
さらに、第1および第2の実施の形態によれば、音声を解析して発話者を特定し、複数の画像の中から発話者と相関関係のある人物に関連する画像を抽出するようにしたので、視聴者自ら煩わしい画像の選択操作をする必要がなく、視聴者と相関関係のある人物に関連する画像を自動的に提示することができる。
《第3の実施の形態》
次に、視聴者によって画像抽出の基準を変更する実施の形態を説明する。図4は、視聴者によって画像抽出基準を変更する場合の画像抽出プログラムを示すフローチャートである。なお、ここでは記憶装置2に100枚の画像が記憶されており、それらの画像の中から基準にしたがって画像を抽出する例を示す。ステップ21において、操作者が図3に示す人物相関図の中のNaoちゃんと親しいかどうかを判別する。撮像装置3により撮像した操作者の顔と、マイクロフォン4により集音した操作者の声紋をそれぞれ記憶装置2に記録されている人物ごとの顔および声紋のデータと照合し、図3に示す人物相関図を参照してNaoちゃんとどの程度親しいかを判別する。なお、人物の顔や声紋のデータの記憶装置2への登録は、操作者により手動で行うか、あるいは同一人物の顔や声紋を所定回数(例えば5回)取得したら自動的に登録する。
まず、操作者がNaoちゃんと親しくない場合について説明する。ステップ22において記憶装置2に記憶されている100枚の画像から顔が写っている画像を抽出する。画像の中から人物の顔を検出するには、画像の中から肌色の領域を検出し、顔形状に相当する顔領域を選択する。ここでは、100枚の画像の中から顔が写っている画像が75枚抽出されたものとする。次に、ステップ23で顔の大きさが所定範囲内の画像を抽出する。顔が写っている75枚の画像の中から、顔領域の垂直または水平方向の肌色の画素数が所定範囲内の画像を抽出する。ここでは、75枚の画像から30枚が抽出されたとする。
さらに、ステップ24では顔が正面を向いている画像を抽出する。画像中の顔の向きは、顔領域における目、鼻、口の位置およびそれらの間の間隔に基づいて判別する。ここでは、30枚の画像の中から10枚の画像が抽出されたものとする。続くステップ25では目つぶりしていない画像を抽出する。画像に写っている目がつぶられているか否かは、目の垂直方向の長さと水平方向の長さの比率に基づいて判別する(例えば特開2002−199202号公報参照)。ここでは、10枚の画像の中から該当する画像が5枚抽出されたとする。最後にステップ26において、口の開き具合が所定範囲の画像を抽出する。画像中の人物の顔の口の開き具合は、人物の顔の垂直方向の長さに対する口の垂直方向の長さの比率に基づいて判別する。ここでは、5枚の画像の中から口の開き具合が所定範囲の画像が1枚抽出されたとする。
ステップ27において、抽出された画像をディスプレイ7に表示する。なお、抽出される画像が複数枚あっても構わない。その場合には、操作者によって好みの画像が異なることもあり、操作者が任意の画像を選択する操作手順を加えてもよい。
次に、操作者がNaoちゃんと親しい場合の画像抽出手順を説明する。ステップ28において、上述したステップ22における抽出方法により画像に顔が写っている画像を抽出する。続くステップ29では、顔の大きさが所定値以上の画像を抽出する。顔領域の垂直または水平方向の肌色の画素数が所定数以上の画像を抽出する。操作者がNaoちゃんと親しくない場合には、ステップ23で顔の大きさが所定範囲内の画像を抽出したが、操作者がNaoちゃんと親しい場合には、Naoちゃんのアップの顔が写っている画像が抽出されてもよいとする。ステップ30で、口の開き具合が所定以上の画像を抽出する。具体的には、画像中の人物の顔の垂直方向の長さに対する口の垂直方向の長さの比率が所定値以上の画像を抽出する。操作者がNaoちゃんと親しくない場合には、口の開き具合が所定範囲の画像を抽出したが、操作者がNaoちゃんと親しい場合は、口を大きく開けて大笑いしているような画像も抽出する。また、操作者がNaoちゃんと親しい場合には、抽出される画像の中に目をつぶっている画像や、顔が横向きの画像があってもよいものとする。
上記のような構成によれば、例えば大きく口をあけて大笑いしているような恥ずかしい画像の閲覧を、視聴者に応じて自動的に制限することができる。
また、第3の実施の形態によれば、集音された音声を解析して発話者(視聴者)を特定し、発話者に応じて画像を抽出する基準を変更するようにしたので、視聴者ごとに適切な画像を自動的に提示することができる。さらには、撮像した画像を解析した結果得られた操作者の情報に基づいて、画像を抽出する基準を変更するようにしたので、視聴者ごとに適切な画像を自動的に提示することができる。
《第4の実施の形態》
旅行先で撮影した多くの画像を旅行先ごとに分類することがある。このような場合の画像抽出方法を説明する。図5は旅行先ごとの画像抽出プログラムを示すフローチャートである。ここでは、記憶装置2の所定フォルダに100枚の画像が記憶されており、それらの画像の中から基準にしたがって画像を抽出する例を示す。ステップ41において、画像抽出の目的が年賀状を作成する目的かどうかを判別する。年賀状を作成する場合にはステップ42へ進み、記憶装置2に記憶されている画像の中から、観光地で撮影された画像を抽出する。各画像には撮影場所と撮影方向の情報(GPS情報)が記録されており、この情報に基づいて観光地ごとに画像を抽出する。例えば、日光東照宮、ドゥオモ、エッフェル塔、サグラダファミリア、バッキンガム宮殿、万里の長城などの観光地ごとに75枚の画像が抽出されたとする。
ステップ43では、自宅から観光地までの距離が所定値以上の観光地の画像を抽出する。ここでは、東京の自宅から所定距離以上離れたドゥオモ、エッフェル塔、サグラダファミリア、バッキンガム宮殿の画像が30枚抽出されたとする。続くステップ44で、旅行期間が所定日数以上の画像を抽出する。各画像に記録されている撮影日時と撮影場所の情報に基づいて抽出する。ここでは、4日間のドゥオモ、3日間のエッフェル塔、2日間のサグラダファミリアの画像が合計10枚が抽出されたものとする。さらにステップ45において、画像の解析結果に基づいて撮影枚数が所定枚数以上の観光地の画像を抽出する。ここでは、7枚のドゥオモの画像が抽出されたものとする。ステップ46で、抽出した画像をディスプレイ7に表示する。なお、抽出される画像が複数枚あっても構わない。その場合には、操作者によって好みの画像が異なることもあり、操作者が任意の画像を選択する操作手順を加えてもよい。
年賀状の作成目的ではない場合にはステップ47へ進み、画像に記録されている撮影場所の情報に基づいて例えば北海道旅行で撮影された画像を抽出する。ステップ48では、抽出された画像の中に富良野のラベンダー畑で撮影された画像があるか否かを判別する。ラベンダー畑で撮影された画像がある場合にはステップ49へ進み、富良野のラベンダー畑で撮影された画像を抽出する。続くステップ50において、画像解析により画像全体に対してラベンダーの色が占める面積の割合が所定値以上の画像を抽出する。制御部6aは、記憶装置2内に、前記所定フォルダとは別に「富良野・ラベンダー畑」のフォルダを作成し、ステップ49で抽出された画像データを同フォルダに移動する。この際に、ステップ50で抽出された、画像全体に対してラベンダーの色が占める面積の割合が所定値以上の画像データに対してフラグを付加する。一方、富良野のラベンダー畑で撮影された画像がない場合にはステップ51へ進み、美瑛のセブンスターの木で撮影された画像を抽出する。続くステップ52で、セブンスターの木が主要被写体として撮影された画像を抽出する。各画像にはオートフォーカス情報と撮影距離情報が記録されており、これらの情報に基づいて画像の中の主要被写体を判別し、主要被写体の像と記憶装置2に予め記憶されているセブンスターの木のテンプレート画像とを照合して抽出する。制御部6aは、記憶装置2内に、前記所定フォルダとは別に「美瑛・セブンスター」のフォルダを作成し、ステップ51で抽出された画像データを同フォルダに移動する。この際に、ステップ52で抽出されたセブンスターの木が主要被写体となっている画像のデータに対してフラグを付加する。このようなフラグを付加しておくことで、その後、ステップ46で、フラグの付加された抽出画像をディスプレイ7に表示することができる。上記の例においては、年賀状作成以外の用途で、富良野のラベンダー畑、美瑛のセブンスターの木を撮影した画像を抽出する例について示したが、これらの画像抽出を年賀状作成用途に用いるものであっても構わない。また、日光東照宮、ドゥオモ、エッフェル塔、サグラダファミリア、バッキンガム宮殿、万里の長城などの撮影画像を、年賀状作成以外の用途に用いるものであっても構わない。この場合には、図5のステップ47〜ステップ52の処理が、各観光地ごとに設けられる。この処理を複数回繰り返すことにより、撮影画像を旅行先ごとに分類することが実現できる。
上述した抽出方法により旅行先で撮影した多くの画像を旅行先ごとに分類し、アルバムを作成する場合に、旅行先ごとの代表的な画像を選択してインデックス画像とし、各分類ごとの旅行先が一目でわかるようにすることがある。インデックス画像には旅行先を代表する被写体が写っているのが望ましく、各画像に記録されている撮影場所と撮影方向の情報(GPS情報)を参照しながら、画像解析を行って人物以外の被写体、例えばエッフェル塔や日光東照宮などのような有名な建造物や、ナイヤガラの滝のような景勝などを認識し、このような被写体が写っている画像を抽出してインデックス画像とする。
このように、第4の実施の形態によれば、画像を解析して画像の中の人物以外の被写体が観光地を代表する被写体か否かを判別し、複数の画像の中から観光地を代表する被写体が写っていると判別された画像を抽出するようにしたので、それぞれの観光地を代表する画像を自動的に提示することができる。なお、上記の例において、画像中に観光地を代表する被写体とともに、特定個人が写っている画像を抽出する構成としても構わない。この場合には、画像中の特定個人は所定値以上の大きさであることが好ましく、さらに、画像中の観光地を代表する被写体、及び特定個人がぼけていない画像を優先的に抽出する構成とすることが望ましい。これらの被写体がぼけているか否かの判別は、画像データの周波数解析により行うことができる。
《第5の実施の形態》
特定の人物の人物相関図に基づいて画像を抽出する実施の形態を説明する。図6は人物相関図に基づく画像抽出プログラムを示すフローチャートである。ステップ61において、コンピューター6の解析・処理部6bは、記録媒体2aから読み出され記憶装置2に記憶されている画像を、撮影日時情報を用いて時間軸でクラスタリングし、ある特定のイベントで撮影されたと考えられる画像群を検索する。
次に、ステップ62で画像群に写されているイベントを識別する。イベントの識別は、映像に映っている主人公などの主要被写体の動作の認識処理や、主人公などの服装の特徴抽出、あるいは認識処理などを行うことによって実現される。動作の認識処理は、例えば特開平5−46583号公報に開示されるように、画像をメッシュ状に分割し、各メッシュの内部で算出した特徴量(オプティカルフロー等)をベクトルとし、この特徴量ベクトルの時系列変化を確率的状態遷移モデルで認識する方法や、特開2005−215927号公報に開示されるように、行動を認識する場合における認識処理を第1ステップと第2ステップとの2段階構成とし、第1ステップの動作要素抽出部では、画像データを処理して検出される動きの情報の時系列変化に基づき短時間に行われる一定の動作パターンを認識するとともに、第2ステップの行動認識部では、認識対象とする期間に含まれる一定の動作パターンの割合に基づき、長期間に亘る動作を認識する方法、さらには特開2008−140267号公報に開示されるような高次局所自己相関特徴を用いて動作を認識する方法などを用いることができる。また、服装などの特徴抽出は、例えば、認識された顔の位置の下部領域の色情報、エッジ情報、テクスチャ情報を抽出することによって実現することができる。さらに、これらの抽出された情報をもとに、体操服やウェディングドレスなど、イベント特有の服装を認識することができる。なお、イベント判別に際して画像データに関連付けられて記録されている音声データを参照し、より正確なイベント判別を行ってもよい。また、イベント特有の被写体(例えば「運動会」のイベントであれば、万国旗)を認識してイベントを判別する構成としてもよい。このようなイベント特有の被写体の種類は、その認識手法と共に制御部6aに、各イベントに対応付けられて予め記録されている。この例では、同じ撮影日の画像群の画像に対して文字認識を行い、画像群の撮影対象イベントがNaoちゃんの入学式であると識別されたとする。
ステップ63において画像の配信先を決定する。ここでは、Naoちゃんの入学式の画像の配信先を決定する。配信先の決定手順はイベントあるいは写っている被写体に応じて予め定められ、記憶装置2に記憶されている。例えば、家族全員が写っている画像がある場合には、入学式の看板とNaoちゃんが単独で写っている画像と合わせて父方の祖父母、母方の祖父母、父の弟の家族に対して配信される。また、家族全員が写っている画像がなく、母とNaoちゃんの写っている画像がある場合には、入学式の看板とNaoちゃんとが単独で写っている画像を父方の祖父母、母方の祖父母、父の弟の家族に配信し、母方の祖父母にはさらに母とNaoちゃんの写っている画像を配信する。母方の祖父母にとっては、自分の子供(Naoちゃんの母)と孫(Naoちゃん)により関心を持つため、配信する画像をNaoちゃんとの関係に応じて選択する。つまり、必ずしも写っている人に画像を配信するのではなく、写っている人との関係に応じて配信先を決定する。
ステップ64では配信先に応じた画像を抽出する。父方と母方の祖父母に孫のNaoちゃんの入学式の画像を配信するために、制御部6aは、Naoちゃんの入学式の画像群の中から入学式の看板とNaoちゃんが単独で写っている画像、および家族が写っている画像を抽出する。このとき、各個人は個人認証により識別し、入学式の看板は文字認識により識別する。なお、家族全員が写っている画像がない場合には、母とNaoちゃん、父とNaoちゃんが写っている画像を抽出する。ステップ65において、抽出した画像を通信装置9からインターネットを介して父方と母方の祖父母に配信する。
なお、画像の最終利用者として母方の祖父母が指定された場合に、Naoちゃん、母、弟が写っている画像を抽出するようにしてもよい。また、画像の配信先として母方の祖父母が指定された場合、家族全員の画像、Naoちゃん、母、弟が写っている画像を抽出するようにしてもよい。つまり、父が単独で写っている画像を抽出しない。
また、配信先に関する情報を、イベント種類情報とともに各画像に関連づけて記録するようにしてもよい。これにより、配信先を指定するだけで人物相関を考慮した画像を抽出することができる。さらに、画像が入学式のイベントを写したものであることが識別されたら、画像の中から主人公を識別し、主人公が写っている画像を抽出するようにしてもよい。この場合、撮影時に主要被写体として選択されたオートフォーカス領域の情報を用い、画像の中の選択されたオートフォーカス領域の被写体を主人公と認定してもよい。
このように、第5の実施の形態によれば、画像を解析して画像の視聴者を設定し、複数の画像の中から、設定された視聴者と相関関係のある人物が写っている画像を抽出するようにしたので、画像ごとに最適な視聴者を自動的に設定することができ、各画像をそれぞれの最適な視聴者に自動的に提示することができる。
《第6の実施の形態》
画像に写っているイベントを識別し、イベントに応じて画像抽出の基準を変更する第6の実施の形態を説明する。コンピューター6の解析・処理部6bは、記録媒体2aから読み出され、記憶装置2に記憶されている画像を、撮影日時情報を用いて時間軸でクラスタリングするとともに、被写体認識によりクラスタリングを行い、ある特定のイベントで撮影されたと考えられる画像群を検索する。例えば、最初に撮影した画像とその日の最後に撮影した画像に写っている人物の多くが共通しており、ホワイトバランスの制御値が同じである場合には、その間に撮影された画像はある特定のイベントで撮影された画像であると判定する。
図7は、Naoちゃんの両親(図3に示す人物相関図参照)がNaoちゃんの写真を額縁に入れて飾るために1枚の画像をプリントアウトする場合の画像抽出例を示すフローチャートである。この例では幼稚園の遠足と小学校の入学式のイベントが撮影された画像群から1枚の画像を抽出する例を示すが、イベントの種類と数は特に限定されない。また、各画像データには、例えば上述した方法によるイベントの識別結果が記録されているものとする。
ステップ71において、使用者により画像抽出対象のイベントが選択されたか否かを判別し、イベントが選択されていればステップ72へ進む。ステップ72で、イベントが幼稚園の遊園地への遠足か否かを判別し、遊園地への遠足であればステップ73へ進む。ステップ73において、記憶装置2に記憶されている画像の中から、各画像データに関連付けて記録されているイベントの識別データを参照して幼稚園の遊園地への遠足イベントの画像群を抽出する。続くステップ74では、抽出した幼稚園の遊園地遠足のイベント画像群の中から、構図や画像の中に写っている人を個人認証により判別し、上述した方法により類似画像を除外する。
次にステップ75で、遊園地遠足イベントの画像群から、Naoちゃんが仲のよい友達と所定以上の大きさで、かつ笑顔で写っている画像を抽出する。このとき、クラス全員の集合写真など、顔の大きさが小さい画像は除外される。続くステップ76では、上記ステップ75で抽出した画像群から、Naoちゃんと観覧車などの遊園地特有の乗り物やお城などの遊園地特有の建物がいっしょに写っている画像を抽出する。ここで、遊園地特有の建物は、画像データに関連付けて記録されている撮影場所および撮影方向や、画像のエッジ成分より抽出した形状や色情報などに基づいて識別することができる。また、遊園地の遊具は、画像のエッジ成分より抽出した形状、色情報、撮影時のスルー画生成時に取得した動き情報(撮影時のスルー画生成時に取得した動き情報は、動き物体の領域、動き方向、動き量などが画像データに関連付けて記録されている)に基づいて識別することができる。
ステップ77において、抽出した画像をディスプレイ7にサムネイル表示する。ステップ78で使用者が表示画像の中からいずれかの画像を選択したか否かを確認し、選択したらステップ79へ進み、使用者が選択した画像のデータを通信装置9を介して外部のプリンターへ送信し、プリントアウトする。
使用者が選択したイベントが幼稚園の遊園地遠足でない場合にはステップ80へ進み、小学校の入学式のイベントか否かを確認する。小学校の入学式のイベントが選択された場合にはステップ81へ進み、記憶装置2に記憶されている画像の中から、各画像に記録されているイベントの識別データを参照して小学校の入学式イベントの画像群を抽出する。続くステップ82では、抽出した小学校の入学式のイベント画像群の中から、構図や画像の中に写っている人を個人認証により判別し、上述した方法により類似画像を除外する。
ステップ83では、小学校入学式イベントの画像群の中から、Naoちゃんが所定以上の大きさ(上述したステップ75の大きさよりも大きく設定されている)で父母とともにランドセルを背負っている画像を抽出する。このとき、他人が写っていない画像を優先的に抽出する。画像中の人が他人か否かの判断は、図3の人物相関図を用いて判別することができる。他人が写っていても、Naoちゃんと父母より小さく、かつNaoちゃんと父母より後ろに移っている画像を優先的に抽出する構成としてもよい。なお、ランドセルは、Naoちゃんの顔領域下の人体領域に隣接した領域のエッジ分析による形状分析と色情報により認識することができる。また、父母は個人認証により識別可能である。続くステップ84で、上記ステップ83で抽出した画像群の中から、入学式会場の看板や校門が写っている画像を抽出する。ここで、入学式の看板は、記憶装置2に記憶されている「入学式」などの特定文字と照合して識別する。
ステップ77において、抽出した画像をディスプレイ7にサムネイル表示する。ステップ78で使用者が表示画像の中からいずれかの画像を選択したか否かを確認し、選択したらステップ79へ進み、使用者が選択した画像のデータを通信装置9を介して外部のプリンターへ送信し、プリントアウトする。
幼稚園の遠足と小学校の入学式のイベントを例に挙げて、イベントに応じた画像抽出基準を説明したが、その他のイベントにおいてもイベントに応じた画像抽出基準が設定されている。例えば、Naoちゃんの父親が会社の同僚と飲み会に行ったときの画像は、次のような基準にしたがって抽出する。まず、記憶装置2に記憶されている画像の中から、画像に関連付けて記録されているイベントの識別データに基づいて飲み会の画像群を抽出する。イベントが飲み会である場合には、熱唱している、芸を披露しているなどの場合を除いて、一人で黙々と食事をしている画像を抽出してもあまり意味がない。したがって、撮影時のスルー画生成時に取得した動き情報に基づいて、カラオケを熱唱している、芸を披露しているなどの画像を抽出するとともに、多くの人が正面を向いている画像を抽出する。
また、結婚式のイベントでは、新郎新婦が誓いの言葉を朗読している画像、指輪を交換している画像などを抽出するのが望ましい。この場合、画像データに関連付けて記憶されている音声データを解析し、新郎新婦による誓いの言葉の朗読や司会者による「次は指輪交換です」のアナウンスを音声認識し、結婚式における代表的なシーンの画像を抽出する。また、結婚式イベントの画像抽出に際しては、新郎新婦の顔がぶれていない、目つぶりしていない画像を抽出する。新郎、新婦、神父または神主などは個人認証により識別する。
また、画像抽出者のイベントへの関わり度合いに基づいて画像を抽出してもよい。例えば、イベントが結婚式の場合には、画像抽出者が結婚式の主役(新郎、新婦)であれば、結婚式で撮影されたすべての画像を抽出し、画像抽出者が新婦側の親族であれば、新婦側出席者が写っている画像を抽出する。また、画像抽出者が新郎の同僚である場合には、新郎の同僚あるいは新郎、新婦と一緒に写っている画像を抽出する。画像抽出は使用者が操作部材5から手動で入力して行うものでももよいし、画像抽出時に撮像装置3により撮像した画像を解析・処理部6bにより解析し、画像抽出者(使用者)を自動的に識別して設定するようにしてもよい。結婚式のイベントの識別は、例えば教会、ウエディングドレス、神父の服装、バージンロードの画像認識などに基づいて行うことができる。また、各人のイベントへの関わり度合いは、上述した人物相関図に基づいて判定することができる。画像抽出者はすなわち画像を抽出したい人であるから、人物相関図にしたがってイベントへの関わり度合いを判定し、判定結果に基づいて画像を抽出する。
パリや有名な遊園地への旅行イベントの画像を抽出する場合には、画像データに関連付けて記録されている撮影場所および撮影方向のデータ、インターネットなどを介して入手した遊園地のキャラクター情報などを用い、旅行先を特定し、旅行先ごとの特有の建造物やキャラクターを識別し、それらといっしょに写っている画像を抽出する。また、サッカー試合のイベントの画像を抽出する場合には、画像解析によるゴールやボールの特定(空間周波数やエッジ抽出などによる)や選手どうしの距離の推定などを行い、選手がゴールする画像、二人の選手がボールを奪い合う画像などを抽出する。さらに、100m走のイベント画像を抽出する場合には、画像解析により選手がゴールテープを切るシーンやスタートラインに整列する選手を特定し、ゴールやスタートの瞬間の画像を抽出する。
なお、画像配信やスライドショーなどの画像抽出の目的に応じて画像抽出の基準を変更してもよい。
このように、第6の実施の形態によれば、画像を解析して画像に写っているイベントを識別し、イベントに応じて画像を抽出する基準を変更し、複数の画像の中から、変更された基準にしたがって画像を抽出するようにしたので、各イベントに相応しい画像を自動的に提示することができる。
《第7の実施の形態》
次に、他のアプリケーションプログラム(例えばブログ)による画像の選択結果に基づいて画像を抽出する方法を説明する。一般に、記録されている画像の中からパソコンの壁紙に使用する画像を選択したり、ブログに貼り付ける画像を選択することがある。例えば、上述した人物相関図の中の父が毎日ブログ、つまり一実施の形態の画像抽出プログラムとは別のアプリケーションプログラムを実行する場合には、制御部6aおよび解析・処理部6bによりブログに選択される画像の傾向を認識し、選択傾向に基づいてパソコンの壁紙にする画像の候補を抽出するようにしてもよい。ブログに貼り付けられる画像の傾向として犬が写っている画像が多いと認識された場合には、記憶装置2に記憶されている画像の中から犬に関する画像を抽出し、壁紙候補として提示する。このとき、図3に示す人物相関図にしたがって、自分のペットであるヒナちゃんの画像がコロちゃんよりも優先的に抽出される。
さらに、青空の下で犬を写した画像がブログに貼り付けられる傾向があると解析された場合には、青空に生える白い毛色の犬を優先的に抽出するようにしてもよい。犬や青空は被写体認識により識別し、毛色は画像の色解析により識別することができる。このように、他のアプリケーションプログラム(ブログ)による画像の選択傾向を定常的に取得するようにすれば、画像選択の傾向の変化に柔軟に対応することができ、その傾向に応じた画像を速やかにかつ的確に抽出することができる上に、視聴者が興味のある画像を無意識のうちに抽出することができる。
《第8の実施の形態》
雑誌や新聞を編集する際に、掲載する画像を選択するための画像抽出方法を説明する。雑誌や新聞に記事とともに画像を掲載する場合には、記事の内容に適した画像を選択しなければならない。例えば、記事の文章が「**省の官僚○○は、xxxx年yy月zz日の記者会見において、これより前に行われた記者との懇親会食における飲酒の影響か、途中眠ったように意識がおかしい状況であった」というような場合には、この文章を解析した結果に基づいて、xxxx年yy月zz日に撮影された画像を各画像の撮影日時情報に基づいて抽出し、それらの画像の中から**省の官僚○○が写っている画像を個人認証を行って抽出する。さらに、抽出された画像の中から上述した方法で目をつぶっている画像を抽出する。
また、記事の文章が「追突事故で死亡した○×の姉であるタレントの○△は、xxxx年yy月zz日の会見において、加害者への怒りを涙ながらに語った」というような場合には、上記と同様に、xxxx年yy月zz日に撮影された画像の中から、タレント○△が涙を流して怒りを込めている画像を抽出する。上記の怒りのような感情の画像データからの抽出は、例えば特開2006−123136号公報(段落0057〜0059等参照)に開示されているように、顔の筋肉の動きを特徴量として求め、それぞれの感情について特徴量の組み合わせを学習させておいたSVM(Support Vector Machine)を用い、感情の有無を判別する手法を用いることができる。制御部6aは、記事の中から被写体の状態を表している言葉を抽出し、これに該当する画像を例えば上記手法を用いて選択する。上記の例では、記事をもとに画像を抽出する例について説明したが、例えば日記のように、一般人が作成する文章データから画像を抽出する構成としてもよい。上記のような構成によれば、文章を作成するだけで、文章の内容に合った画像を自動的に抽出、選択することができる。
《第9の実施の形態》
多くの画像を複数のグループに分類したときに、各画像グループにどのような画像が含まれているかを容易に把握するために、各グループを代表する画像をインデックス画像として表示することがある。このような場合に、各画像に対して人物の表情認識を行って人物の表情を代表する画像をインデックス画像として抽出することができる。例えば、インタビューの際に、怒っている人がふと笑ったような動画像や連写画像などの場合には、怒っている画像と笑っている画像とがインデックス画像として抽出される。このような主要被写体の異なった表情をインデックス画像とすることができる。
なお、上述した実施の形態とそれらの変形例において、実施の形態どうし、または実施の形態と変形例とのあらゆる組み合わせが可能である。
1;画像抽出装置、2;記憶装置、3;撮像装置、4;マイクロフォン、5;操作部材、6;コンピューター、6a;制御部、6b;解析・処理部、7;ディスプレイ、8;スピーカー、9;通信装置

Claims (9)

  1. 集音された音声を解析する解析手順と、
    複数の画像の中から、前記解析手順における前記音声の解析結果に応じた画像を抽出する抽出手順とをコンピューターに実行させることを特徴とする画像抽出プログラム。
  2. 請求項1に記載の画像抽出プログラムにおいて、
    前記解析手順では、前記音声を解析して会話内容を認識し、
    前記抽出手順では、前記解析手順で認識された前記会話内容に応じた画像を抽出することを特徴とする画像抽出プログラム。
  3. 請求項2に記載の画像抽出プログラムにおいて、
    前記解析手順では、前記音声を解析して発話者を特定し、
    前記抽出手順では、前記解析手順で特定された前記発話者に関連する画像を抽出することを特徴とする画像抽出プログラム。
  4. 請求項2に記載の画像抽出プログラムにおいて、
    前記解析手順では、前記音声を解析して発話者を特定し、
    前記抽出手順では、前記解析手順で特定された前記発話者と相関関係のある人物に関連する画像を抽出することを特徴とする画像抽出プログラム。
  5. 請求項3または請求項4に記載の画像抽出プログラムにおいて、
    前記解析手順で特定された前記発話者に応じて画像を抽出する基準を変更する変更手順をさらにコンピューターに実行させることを特徴とする画像抽出プログラム。
  6. 画像を解析する解析手順と、
    前記解析手順における前記画像の解析結果に基づいて、前記画像の中の人物以外の被写体が観光地を代表する被写体か否かを判別する判別手順と、
    複数の前記画像の中から、前記判別手順により前記観光地を代表する被写体が写っていると判別された画像を抽出する抽出手順とをコンピューターに実行させることを特徴とする画像抽出プログラム。
  7. 画像を解析する解析手順と、
    前記解析手順における前記画像の解析結果に基づいて、前記画像の視聴者を設定する設定手順と、
    複数の前記画像の中から、前記設定手順で設定された前記視聴者と相関関係のある人物が写っている画像を抽出する抽出手順とをコンピューターに実行させることを特徴とする画像抽出プログラム。
  8. 画像を解析する解析手順と、
    前記解析手順における前記画像の解析結果に基づいて、前記画像に写っているイベントを識別する識別手順と、
    前記識別手順で識別された前記イベントに応じて画像を抽出する基準を変更する変更手順と、
    複数の前記画像の中から、前記変更手順で変更された前記基準にしたがって画像を抽出する抽出手順とをコンピューターに実行させることを特徴とする画像抽出プログラム。
  9. 複数の画像を記憶する記憶装置と、
    請求項1〜8のいずれか一項に記載の画像抽出プログラムを実行し、前記記憶装置に記憶されている前記複数の画像の中から画像を抽出するコンピューターと、
    前記コンピューターにより抽出された前記画像を表示する表示装置とを備えることを特徴とする画像抽出装置。
JP2009095983A 2009-04-10 2009-04-10 画像抽出プログラムおよび画像抽出装置 Active JP5532661B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009095983A JP5532661B2 (ja) 2009-04-10 2009-04-10 画像抽出プログラムおよび画像抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009095983A JP5532661B2 (ja) 2009-04-10 2009-04-10 画像抽出プログラムおよび画像抽出装置

Publications (2)

Publication Number Publication Date
JP2010251841A true JP2010251841A (ja) 2010-11-04
JP5532661B2 JP5532661B2 (ja) 2014-06-25

Family

ID=43313729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009095983A Active JP5532661B2 (ja) 2009-04-10 2009-04-10 画像抽出プログラムおよび画像抽出装置

Country Status (1)

Country Link
JP (1) JP5532661B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013012993A (ja) * 2011-06-30 2013-01-17 Nikon Corp 画像処理装置、撮像装置および画像処理プログラム
WO2013084395A1 (ja) * 2011-12-07 2013-06-13 株式会社ニコン 電子機器、情報処理方法およびプログラム
US9317750B2 (en) 2013-11-27 2016-04-19 Olympus Corporation Imaging device
JP2018028921A (ja) * 2011-03-14 2018-02-22 株式会社ニコン 電子機器およびプログラム
WO2020065706A1 (ja) * 2018-09-25 2020-04-02 三菱電機株式会社 情報処理装置及び情報処理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000217058A (ja) * 1998-12-05 2000-08-04 Lg Electronics Inc 映像検索システム及びデ―タ構造、そしてそれによる検索方法
JP2005352933A (ja) * 2004-06-14 2005-12-22 Fuji Xerox Co Ltd 表示装置、システムおよび表示方法
WO2006022071A1 (ja) * 2004-08-25 2006-03-02 Matsushita Electric Industrial Co., Ltd. 映像表示装置及び映像表示方法
JP2007281618A (ja) * 2006-04-03 2007-10-25 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2008160232A (ja) * 2006-12-21 2008-07-10 Funai Electric Co Ltd 映像音声再生装置
JP2008294722A (ja) * 2007-05-24 2008-12-04 Panasonic Corp 動画再生装置および動画再生方法
JP2009059042A (ja) * 2007-08-30 2009-03-19 Olympus Imaging Corp 画像取扱装置、画像取扱方法および画像取扱のためのプログラム
JP2009071480A (ja) * 2007-09-12 2009-04-02 Sony Corp 撮像装置、撮像方法、およびプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000217058A (ja) * 1998-12-05 2000-08-04 Lg Electronics Inc 映像検索システム及びデ―タ構造、そしてそれによる検索方法
JP2005352933A (ja) * 2004-06-14 2005-12-22 Fuji Xerox Co Ltd 表示装置、システムおよび表示方法
WO2006022071A1 (ja) * 2004-08-25 2006-03-02 Matsushita Electric Industrial Co., Ltd. 映像表示装置及び映像表示方法
JP2007281618A (ja) * 2006-04-03 2007-10-25 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2008160232A (ja) * 2006-12-21 2008-07-10 Funai Electric Co Ltd 映像音声再生装置
JP2008294722A (ja) * 2007-05-24 2008-12-04 Panasonic Corp 動画再生装置および動画再生方法
JP2009059042A (ja) * 2007-08-30 2009-03-19 Olympus Imaging Corp 画像取扱装置、画像取扱方法および画像取扱のためのプログラム
JP2009071480A (ja) * 2007-09-12 2009-04-02 Sony Corp 撮像装置、撮像方法、およびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018028921A (ja) * 2011-03-14 2018-02-22 株式会社ニコン 電子機器およびプログラム
US10275643B2 (en) 2011-03-14 2019-04-30 Nikon Corporation Electronic device, electronic device control method, and computer-readable recording medium having stored thereon electronic device control program
JP2013012993A (ja) * 2011-06-30 2013-01-17 Nikon Corp 画像処理装置、撮像装置および画像処理プログラム
WO2013084395A1 (ja) * 2011-12-07 2013-06-13 株式会社ニコン 電子機器、情報処理方法およびプログラム
US9317750B2 (en) 2013-11-27 2016-04-19 Olympus Corporation Imaging device
US9525841B2 (en) 2013-11-27 2016-12-20 Olympus Corporation Imaging device for associating image data with shooting condition information
WO2020065706A1 (ja) * 2018-09-25 2020-04-02 三菱電機株式会社 情報処理装置及び情報処理方法
JPWO2020065706A1 (ja) * 2018-09-25 2021-04-30 三菱電機株式会社 情報処理装置及び情報処理方法
JP7026812B2 (ja) 2018-09-25 2022-02-28 三菱電機株式会社 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
JP5532661B2 (ja) 2014-06-25

Similar Documents

Publication Publication Date Title
CN110612533B (zh) 用于根据表情对图像进行识别、排序和呈现的方法
JP4612772B2 (ja) 画像処理方法、画像処理装置、コンピュータ読み取り可能な記憶媒体
US8548249B2 (en) Information processing apparatus, information processing method, and program
KR101605983B1 (ko) 얼굴 검출을 이용한 이미지 재구성
KR101010081B1 (ko) 미디어 식별
CN111480156A (zh) 利用深度学习选择性存储视听内容的系统和方法
JP2019114243A (ja) 撮像装置および学習方法
CN103179330B (zh) 照相机、图像显示装置和图像显示方法
CN101262561B (zh) 成像设备及其控制方法
WO2010143388A1 (ja) コンテンツ再生装置、コンテンツ再生方法、プログラム、及び集積回路
JP2011215963A (ja) 電子機器、画像処理方法及びプログラム
US20170213576A1 (en) Live Comics Capturing Camera
JP5532661B2 (ja) 画像抽出プログラムおよび画像抽出装置
US9525841B2 (en) Imaging device for associating image data with shooting condition information
JP6783479B1 (ja) 動画生成プログラム、動画生成装置及び動画生成方法
Merchant (Re) constructing the tourist experience? Editing experience and mediating memories of learning to dive
JP2010021721A (ja) カメラ
CN107656760A (zh) 数据处理方法及装置、电子设备
O'Connor et al. Photo provocations: Thinking in, with, and about photographs
Sandbye Play, Process and Materiality in Japanese Purikura Photography
WO2020158536A1 (ja) 情報処理システム、情報処理方法および情報処理装置
JP2008225886A (ja) 画像表示装置、画像表示方法、及びプログラム
US20210390134A1 (en) Presentation file generation
JP6830634B1 (ja) 情報処理方法、情報処理装置及びコンピュータプログラム
CN112218102B (zh) 视频内容发包制作方法、客户端及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

R150 Certificate of patent or registration of utility model

Ref document number: 5532661

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140414

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250