JP2014164705A

JP2014164705A - 画像処理装置、撮像装置及び画像処理プログラム

Info

Publication number: JP2014164705A
Application number: JP2013037769A
Authority: JP
Inventors: Nobuhiro Fujinawa; 展宏藤縄; Hidenori Kuribayashi; 英範栗林; Hiroko Kobayashi; 寛子小林
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2013-02-27
Filing date: 2013-02-27
Publication date: 2014-09-08

Abstract

【課題】画像データを見た際に人間が生じる感性に対して良好な整合性を有するテキストを生成し得る画像処理装置を提供する。
【解決手段】
画像データに関する情報を取得する情報取得部（４３）と、取得した前記情報からテキストを生成するテキスト生成部（５０）と、を有する画像処理装置であって、前記情報取得部は、前記画像データに含まれる人物の像における当該人物の年齢を推定して複数のグループに分類する年齢情報取得部（４５）を有し、前記テキスト生成部は、前記年齢情報取得部による分類結果に応じて、生成する前記テキストを変更することを特徴とする画像処理装置。
【選択図】図２

Description

本発明は、画像データからテキストを生成する画像処理装置、撮像装置及び画像処理プログラムに関する。

画像データを解析した解析結果と、画像データに含まれる撮像情報等に基づいて、画像データに対するテキストを作成する技術が提案されている（特許文献１等参照）。また、近年では、複数のバリエーションを有するコメントリストを用意するなどして、ユーザーの感覚と整合性の高いテキストを作成する技術が提案されている。

また、テキスト作成のために有用と考えられる画像データの解析手法としては、例えば顔認識や色情報の抽出等が挙げられる。

特開２０１０−２０６２３９号公報

笑顔レベルの判定結果からテキストを生成する従来の技術は、同じ笑顔レベルの表情であっても、被写体や撮影状況によって、画像を見た人に与える印象が異なるために、撮影者等の感性に整合しないテキストを生成してしまう場合があり、問題となっている。

そこで本発明の目的は、画像データから、当該画像データを見た際に人間が生じる感性に対して良好な整合性を有するテキストを生成し得る画像処理装置を提供することである。

上記目的を達成するために、本発明に係る画像処理装置は、
画像データに関する情報を取得する情報取得部と、取得した前記情報からテキストを生成するテキスト生成部と、を有する画像処理装置であって、
前記情報取得部は、前記画像データに含まれる人物の像の年齢を推定して複数のグループに分類する年齢情報取得部を有し、
前記テキスト生成部は、前記年齢情報取得部による分類結果に応じて、生成する前記テキストを変更することを特徴とする。

また、例えば、前記年齢情報取得部によって分類される前記複数のグループには、少なくとも乳幼児を含む第１グループと、前記第１グループより推定された前記年齢が高い第２グループとが含まれても良い。

また、例えば、前記テキスト生成部は、前記年齢情報取得部が少なくとも１の前記人物の像を前記第１グループに分類した場合に前記テキストを生成可能な第１テキスト生成部と、前記年齢情報取得部が少なくとも１の前記人物の像を前記第２グループに分類した場合に前記テキストを生成可能な第２テキスト生成部と、を有しても良い。

また、例えば、前記テキスト生成部は、前記年齢情報取得部が少なくとも１の前記人物の像を前記第１グループに分類し、かつ前記年齢情報取得部が少なくとも１の前記人物の像を前記第２グループに分類した場合には、前記第１テキスト生成部を用いて前記テキストを生成しても良い。

また、例えば、操作者の入力信号に応じて、乳幼児の成長に関連して発生するイベントに関連する語句を、リストから選択できるイベント情報入力部をさらに有しても良く、
前記第１テキスト生成部は、選択された前記語句に関連する前記テキストを生成可能であっても良い。

また、例えば、前記情報取得部は、前記画像データに含まれる前記人物の像の性別を推定して女性と男性に分類する性別情報取得部をさらに有しても良く、
前記テキスト生成部は、前記性別情報取得部による分類結果に応じて、生成する前記テキストを変更しても良い。

また、例えば、前記テキスト生成部は、
前記画像データに複数の前記人物の像が含まれる場合において、
前記性別情報取得部が全ての前記人物の像を前記女性に分類した場合に前記テキストを生成する第３テキスト生成部と、前記性別情報取得部が一部の前記人物の像を前記女性に分類し他の一部の前記人物の像を前記男性に分類した場合に前記テキストを生成する第４テキスト生成部と、前記性別情報取得部が全ての前記人物の像を前記男性に分類した場合に前記テキストを生成する第５テキスト生成部と、を有しても良い。

本発明に係る撮像装置は、上記のうちいずれかの画像処理装置と、被写体を撮像して前記画像データを生成する撮像部と、を有する。

本発明に係る画像処理プログラムは、コンピュータに、画像データに関する情報を取得する情報取得処理と、取得した前記情報からテキストを生成するテキスト生成処理と、を実行させる画像処理プログラムであって、
前記情報取得処理では、前記画像データに含まれる人物の像の年齢を推定して複数のグループに分類することができ、
前記テキスト生成処理では、前記年齢情報取得部による分類結果に応じて、生成する前記テキストを変更できることを特徴とする。

図１は、本発明の一実施形態に係る撮像装置の概略ブロック図である。図２は、図１に示す撮像装置に含まれる画像処理部の内部構成を表す概略ブロック図である。図３は、図２に示す画像処理部において行われるテキスト生成処理の全体像を表すフローチャートである。図４は、図３に示す「人物写真」に対するテキスト生成処理の詳細を表すフローチャートである。図５は、第１実施例に係る画像処理を表す概念図である。図６は、第２実施例に係る画像処理を表す概念図である。図７は、第３実施例に係る画像処理を表す概念図である。図８は、第４実施例に係る画像処理を表す概念図である。図９は、第５実施例に係る画像処理を表す概念図である。図１０は、第６実施例に係る画像処理を表す概念図である。図１１は、第１テキスト用辞書の内容の一例を示す概念図である。図１２は、第２〜第５テキスト用辞書の内容の一例を示す概念図である。図１３は、「遠景写真」及び「その他写真」のテキスト生成処理に用いる辞書の内容の一例を示す概念図である。

図１は、本発明の一実施形態に係る撮像装置１０の概略ブロック図である。撮像装置１０は、撮像部１２、カメラ制御部２０、操作部２２、画像処理部４０、表示部２６、記憶部２８、バッファメモリ部３０、通信部３２、メモリカード（記憶媒体）３４等を有しており、各部分は、バス２４を介して相互に通信することができる。

撮像部１２は、光学系１４、撮像素子１６、Ａ／Ｄ変換部１８等を有しており、画像データを生成する。光学系１４は、１又は２以上のレンズを備え、レンズに入射した光の像を、撮像素子１６の受光面に形成する。

撮像素子１６は、例えばＣＣＤやＣＭＯＳ等の固体撮像素子によって構成され、光学系１４を介して受光面に結像した光学像を、電気信号に変換する。撮像素子１６は、生成した電気信号を、Ａ／Ｄ変換部１８に出力する。Ａ／Ｄ変換部１８は、撮像素子１６によって生成された電気信号に対して、アナログ／デジタル変換等を行い、カメラ制御部２０及び画像処理部４０等で処理可能な画像データを生成する。

撮像部１２による画像データの生成動作は、カメラ制御部２０によって制御される。例えば、撮像部１２は、カメラ制御部２０による制御により、操作部２２等を介して撮影信号が入力されたタイミングで撮像素子１６による光電変換を行い、いわゆる静止画の画像データを生成することができる。また、撮像部１２は、カメラ制御部２０による制御により、操作部２２等を介して動画撮影開始信号が入力されたタイミングで、連続的な光電変換を行い、いわゆる動画の画像データを生成することができる。

撮像部１２で生成された画像データは、カメラ制御部２０の制御により、バッファメモリ部３０及び画像処理部４０を介して、メモリカード３４に保存される。なお、撮像部１２は、操作部２２等からの操作信号が入力されていない状態で、自動的に画像データの生成を行い、いわゆるスルー画の画像データを生成することもできる。この場合、撮像部１２で生成されたスルー画の画像データは、カメラ制御部２０の制御により、表示部２６に表示される。

画像処理部４０は、メモリカード３４又はバッファメモリ部３０に記憶されている画像データに対して、各種の画像処理を実行する。画像処理部４０は、撮像部１２で生成された静止画、動画、スルー画等について画像処理を行う他、メモリカード３４等に保存されている撮像部１２以外で生成された画像データについても、画像処理を行うことができる。画像処理部４０は、各種補正処理や、データの圧縮及び変換、顔認識や色の抽出などを行うことができるが、画像処理部４０の詳細については、後ほど述べる。

表示部２６は、液晶ディスプレイ等で構成されており、カメラ制御部２０の制御に従って、画像データや、操作メニュー等を表示する。また、表示部は、画像処理部４０によるテキスト生成処理によって生成されたテキストを、画像データに重ねて表示することができる。記憶部２８には、撮像装置１０の制御に用いる撮影条件、画像処理条件、再生制御条件、表示制御条件、記録制御条件、入出力制御条件や、テキストの生成に用いる辞書（テキスト集）など、各種の情報が記憶されている。カメラ制御部２０や画像処理部４０は、必要に応じて、記憶部２８に記憶されている情報を読み出し、演算処理に利用することができる。記憶部２８は、ＲＯＭ等によって構成される。

バッファメモリ部３０は、カメラ制御部２０及び画像処理部４０が演算処理を実施する際の作業領域として利用される。例えば、画像処理部４０が画像データに対して画像処理を行う場合、処理の対象となる画像データは、記憶媒体から読み出され、バッファメモリ部３０に一次的に格納される。バッファメモリ部３０は、ＲＡＭ等によって構成される。

操作部２２は、操作者が撮像装置１０に対して情報を入力するためのスイッチ等を有している。操作部２２は、電源スイッチ、レリーズスイッチ、モードスイッチ、メニュースイッチ、選択キー等を備えており、操作者の操作に対応した信号を、カメラ制御部２０に出力する。

通信部３２は、メモリカード３４を取り付けるスロットや、他の情報機器と通信を行うための送受信部等を有しており、撮像装置１０は、通信部３２を介して、メモリカード３４や他の情報機器から情報を取得できる。また、カメラ制御部２０は、通信部３２を介してメモリカード３４に画像データを出力し、メモリカード３４に画像データを保存することができる。

メモリカード３４は、通信部３２を介して着脱自在に接続される記憶媒体であり、撮像部１２で生成された画像データ等を記憶することができる。メモリカード３４に保存される画像データの形式は特に限定されないが、例えば画像データは、イグジフ（Ｅｘｉｆ）形式のファイルとして、メモリカード３４に保存される。

カメラ制御部２０は、撮像装置１０が備えている各部分の制御を行う。例えば、カメラ制御部２０には、電源部（不図示）が接続されており、カメラ制御部２０は、撮像装置１０内の各部分に対して適切に電力が供給されるように、制御を行う。カメラ制御部２０は、例えばマイクロプロセッサ等によって構成される。なお、カメラ制御部２０と画像処理部４０の演算処理は、共通のマイクロプロセッサで行われても良く、また別個の電子回路で行われても良い。

図２は、図１に示す画像処理部４０に含まれる処理部を、ブロック図で表したものである。画像処理部４０は、画像データ入力部４１と、イベント情報入力部４２と、情報取得部４３と、テキスト生成部５０と、文章付加部５６とを有する。画像処理部４０は、図１に示す撮像部１２等で生成された画像データについて、各種の解析処理を行うことにより、画像データに関する各種の情報を取得し、取得した情報から画像データの内容と整合性の高いテキストを作成し、画像データにテキストを付加することができる。

図２に示す画像データ入力部４１は、メモリカード３４又はバッファメモリ部３０に格納されている画像データを読み出し、情報取得部４３に出力する。

情報取得部４３は、領域情報取得部４４、年齢情報取得部４５、性別情報取得部４６、笑顔情報取得部４７及び色情報取得部４９を有しており、画像データから情報を取得する。また、情報取得部４３は、Ｅｘｉｆファイル等の形式で画像データに関連付けて保存されている撮影情報を取得することができる。情報取得部４３がＥｘｉｆファイル等から取得可能な撮影情報は、画像データの撮影状況を示すデータであれば特に限定されないが、画像データの生成年月日、生成時間に関する情報や、画像データの生成場所（ＧＰＳデータ）、撮影者等に関する情報が含まれる。情報取得部４３で取得された画像データに関する情報は、テキスト生成部５０に出力され、テキスト生成部５０は、その情報をテキストの生成等に利用することができる。

領域情報取得部４４は、画像データから特定の領域を抽出し、画像データの領域に関する情報を取得する。例えば、領域情報取得部４４は、エッジ抽出やテンプレートマッチング等の技術により、画像データから人物の像が写っている領域を抽出し、画像データに含まれる人物の像の数に関する情報を取得する。また、領域情報取得部４４は、人物の像における顔の位置や、人物の像における肌の領域の位置及び広さ等に関する情報を取得しても良い。さらに、領域情報取得部４４は、画像データのエッジ情報や色情報から、空が映っている領域と地上又は水上が写っている領域の抽出や、主要被写体領域の抽出を行うことができる。

年齢情報取得部４５は、画像データに含まれる人物の像における当該人物の年齢を推定し、各人物の像を年齢に対応する複数のグループに分類する。年齢情報取得部４５による年齢の推定方法は特に限定されないが、例えば人物の像における顔の輪郭及び目、鼻、口の配置等の情報や、肌の状態等の情報から、人物の年齢を推定することができる。年齢情報取得部４５が分類するグループの数など、具体的な分類方法は特に限定されないが、年齢情報取得部４５によって分類される複数のグループには、乳幼児を含む第１グループ（例えば０歳から１０歳程度）と、第１グループより推定された年齢が高い第２グループ（例えば１１歳以上）とが含まれることが好ましい。第１グループに含まれる乳幼児と第２グループに含まれる大人とでは、同じ笑顔レベル（笑顔情報取得部４７の説明を参照）であっても、観察者が画像から受ける印象が異なるからである。

性別情報取得部４６は、画像データに含まれる人物の像における当該人物の性別を推定し、女性と男性に分類する。性別情報取得部４６による性別の推定方法は特に限定されないが、人物の像における髪型、顔の輪郭、衣服、肌の状態等の情報から人物の性別を推定することができる。性別情報取得部４６は、画像データから抽出された全ての人物の像について、性別による分類を実施しても良く、また、年齢情報取得部４５によって、乳幼児でない第２グループに分類された人物の像についてのみ、性別による分類を実施しても良い。

笑顔情報取得部４７は、画像データに含まれる人物の像における当該人物の笑顔レベルを、顔における口角部分の上がり具合を数値化するなどして画像データから取得することが可能である。例えば、笑顔情報取得部４７は、口角部分が大きくあがっている顔を有する人物の像であるほど、笑顔レベルが高いと認定することができる。

色情報取得部４９は、画像データの色（色相以外の要素を含む）に関する情報を抽出し、または、抽出した情報を元に更に演算処理を行うことにより、色情報を得ることができる。色情報取得部４９による色情報の種別、算出方法等は特に限定されないが、画像データに含まれる各画素のＨＳＶ値を集計したものや、集計したＨＳＶ値から算出された代表色などが、色情報に含まれる。ただし、色情報取得部４９が色情報を算出する際における解像度は、演算処理の負担等を考慮して適宜変更すれば良く、また、色空間の種類もＨＳＶに限られず、ＲＧＢ、ＣＭＹ、ＣＭＹＫ等であっても良い。また、色情報取得部４９による代表色の算出方法も特に限定されないが、例えば画像データ若しくはその領域に含まれる画素の平均色を代表色としても良く、また、色別の頻度分布に対してＫ−ｍｅａｎｓ法などの手法を用いてクラスタリングを行うことにより、代表色を算出しても良い。

テキスト生成部５０は、情報取得部４３やイベント情報入力部４２等から送信された情報を用いてテキストを生成し、生成したテキストと画像データとを関連づける。テキスト生成部５０は、テキストを生成する際に使用する辞書が互いに異なる第１テキスト生成部５１、第２テキスト生成部５２、第３テキスト生成部５３、第４テキスト生成部５４及び第５テキスト生成部５５を有している。また、テキスト生成部５０は、情報取得部４３やイベント情報入力部４２等から送信された情報を用いて、第１テキスト生成部５１〜第５テキスト生成部５５のうちどれを用いてテキストを生成するかを決定する。

第１テキスト生成部５１は、年齢情報取得部４５が推定年齢に基づき少なくとも１の人物の像を第１グループ（乳幼児）に分類した場合に、テキストを生成可能である。第１テキスト生成部５１は、図１１に示すような「笑顔」、「肌」、「イベント」、「親子」等の辞書を用いてテキストを生成することができる。すなわち、第１テキスト生成部５１は、情報取得部４３で取得された情報に基づき、図１１に示す辞書から語句を選択し、必要に応じて撮影年月日等の撮影情報と組み合わせることにより、画像データに付加するテキストを生成する。例えば、年齢情報取得部４５が１の人物の像を第１グループに分類した場合、当該人物の笑顔レベルが笑顔情報取得部４７によって取得され、第１テキスト生成部５１は、取得された笑顔レベルに対応するテキストを、図１１に示す「笑顔」辞書を用いて生成する。

また、第１テキスト生成部５１は、イベント情報入力部４２によって選択された語句を使用して、画像データに付加するテキストを生成することもできる。この際、イベント情報入力部４２は、図１１の「イベント」辞書に示すような語句のリストを表示部２６に表示し、操作部２２からの操作者の入力信号に応じて語句を選択し、選択された語句に関する情報を第１テキスト生成部５１に送信する。イベント情報入力部４２が操作者の入力信号に応じて選択する語句は特に限定されないが、乳幼児の成長に関連して発生するイベントに関連する語句であることが好ましい。

第１テキスト生成部５１が使用する第１テキスト用辞書（図１１）に含まれる語句は特に限定されないが、第２テキスト生成部５２が使用する第２テキスト用辞書（図１２）とは異なり、乳幼児の表情から受ける印象にマッチする語句を含むことが好ましい。例えば第１テキスト生成部５１が使用する「笑顔」辞書では、笑顔レベルが高いときに「にっこりえがお」のテキストを生成するが、同じ笑顔レベルであっても、第１テキスト生成部５１が使用する「笑顔」辞書は、「大曝笑」のテキストを生成する。また、乳幼児については大人と異なり、泣き顔や寝顔が撮影されることも多いため、笑顔情報取得部４７が目つぶり検出や口の形検出などを複合的に用いて泣き顔や寝顔を識別可能であって、第１テキスト生成部５１が用いる辞書には、識別された泣き顔や寝顔にマッチするテキストが用意されていても良い。また、第１テキスト生成部５１は、意図的に漢字を使用せず、平仮名や片仮名のみで構成されるテキストを生成しても良い。

さらに、乳幼児については、肌に着目した写真が撮影されることも多いため、領域情報取得部４４および年齢情報取得部４５によって、乳幼児の肌の領域が画像データ全体に占める割合を抽出し、その割合が所定の閾値より大きい場合には、第１テキスト生成部５１は、肌に関連する語句を有する「肌」辞書を用いてテキストを生成することが可能である。

また、さらに、テキスト生成部５０は、年齢情報取得部４５が少なくとも１の人物の像を第１グループ（乳幼児）に分類し、かつ少なくとも１の人物の像を第２グループ（大人）に分類した場合には、第１テキスト生成部５１を用いてテキストを生成することが好ましい。この場合、撮影者は乳幼児に注目している場合が多いからである。また、第１グループ（乳幼児）に含まれる人物の像と、第２グループ（大人）に含まれる人物の像の両方を領域情報取得部４４が抽出した場合、第１テキスト生成部５１は、親子若しくは祖父母と子を撮った写真であることを表す語句を含む「親子」辞書（図１１参照）を用いてテキストを生成してもよい。

第２テキスト生成部５２は、年齢情報取得部４５が推定年齢に基づき少なくとも１の人物の像を第２グループ（大人）に分類した場合に、テキストを生成可能である。例えば、年齢情報取得部４５が１の人物の像を第２グループに分類した場合、当該人物の笑顔レベルが笑顔情報取得部４７によって取得され、第２テキスト生成部５２は、取得された笑顔レベルに対応するテキストを、図１２（Ａ）に示す「笑顔」辞書を用いて生成する。

第３テキスト生成部５３は、画像データに複数の人物の像が含まれる場合において、性別情報取得部４６が全ての人物の像を女性に分類した場合にテキストを生成することができる。第３テキスト生成部５３が用いる「女性」辞書には、図１１（Ｂ）に示すように、「仲良し」、「楽しい」など、人物関係やポジティブな感情をストレートに表現した語句が含まれることが好ましい。

第４テキスト生成部５４は、画像データに複数の人物の像が含まれる場合において、性別情報取得部４６が一部の人物の像を女性に分類し他の一部の人物の像を男性に分類した場合にテキストを生成することができる。第４テキスト生成部５４が用いる「男女」辞書には、「去年の秋の思い出」、「はいチーズ！」など、人間関係や感情に関しては中立的な（一般的又は普遍的に適合する）語句が含まれることが好ましい。

第５テキスト生成部５５は、画像データに複数の人物の像が含まれる場合において、性別情報取得部４６が全ての人物の像を男性に分類した場合にテキストを生成することができる。第５テキスト生成部５５が用いる「男性」辞書には、図１１（Ｄ）に示すように、「昨年冬の記念写真」、「〇〇にて」など、撮影日時や撮影場所などの事実に着目した語句が含まれることが好ましい。また、年齢情報取得部４５が、Ｅｘｉｆデータ等から取得される撮影者の年齢より推定年齢の高い人物の像を認識した場合、第５テキスト生成部５５は、「ご一緒させていただきありがとうございます」のように敬語表現を取り入れたテキストを生成しても良い。

文章付加部５６は、テキスト生成部５０によって生成されたテキストを、画像データに付与する。具体的には、文章付加部５６は、テキストのフォント、色、表示位置などを決定し、画像データとテキストを合成した表示内容に関する情報を生成する。文章付加部５６は、画像データとテキストを合成した新たな画像データを生成してもよく、合成画像を表示する際に画像データに追加される表示情報及び画像データとの関連付け情報を含むファイルを生成しても良い。文章付加部５６は、必要に応じて、画像データとテキストを合成した表示内容を表示部２６に表示させても良く、生成した新たな画像データ及び情報ファイルを、メモリカード３４に記憶させても良い。

以下に、画像処理部４０において行われる処理の具体例を説明するが、本発明はこれに限定されない。

図３は、図２に示す画像処理部４０において行われるテキスト生成処理の全体像を表すフローチャートである。図３におけるステップＳ００１では、操作部２２等を介して操作者の入力信号を検知したカメラ制御部２０等が、画像処理部４０に対して、テキスト生成処理に関する画像処理の開始を指示する（図１参照）。

ステップＳ００２では、図２に示す画像データ入力部４１が、操作部２２及び表示部２６の表示内容を介して取得した操作者の選択内容に従い、メモリカード３４に格納されている画像データを読み出し、情報取得部４３に出力する。

ステップＳ００３では、読み出した画像データが「人物写真」であるか否かを判断する。例えば、領域情報取得部４４が画像データから人物の像を取得した場合には、処理の対象である画像データが「人物写真」であると判断し、ステップＳ００４へ進む。なお、ステップＳ００５〜ステップＳ００８での処理については、ステップＳ００４の後に説明する。

ステップＳ００４では、テキスト生成部５０が、情報取得部４３で取得された情報を用いて、処理対象である画像データについてテキストを生成する。図４は、図３に示す「人物写真」に対するテキスト生成処理の詳細を表すフローチャートである。また、「人物写真」に対するテキスト処理の説明では、実施例１〜実施例６に係る画像６０〜画像６５（図５（Ａ）〜図１０（Ａ）参照）を用いて説明を行う。

図４のステップＳ１０１では、処理対象である画像データに写っているのが乳幼児のみであるか否かを判断する。具体的には、画像データに含まれる全ての人物の像が、年齢情報取得部４５によって第１グループ（乳幼児）に分類される場合は、乳幼児のみが写っている画像データであると判断してステップＳ１０２へ進む。これに対して、少なくとも１の人物の像が、年齢情報取得部４５によって第２グループ（大人）に分類される場合は、乳幼児のみが写っている画像データではないと判断してステップＳ１０５へ進む。なお、以下の記載では、ステップＳ１０２〜ステップＳ１０４について先に説明し、ステップＳ１０５へ進む場合については、その後に記載する。

図５（Ａ）〜図１０（Ａ）に示す画像６０〜画像６５のうち、画像６０（図５（Ａ））及び画像６１（図６（Ａ））が処理対象である場合には、ステップＳ１０１において乳幼児のみが写っている画像データであると判断され、ステップＳ１０２へ進む。これに対して、画像６２（図７（Ａ））、画像６３（図８（Ａ））、画像６４（図９（Ａ））及び画像６５（図１０（Ａ））が処理対象である場合には、ステップＳ１０１において乳幼児のみが写っている画像データではないと判断され、ステップＳ１０５へ進む。

ステップＳ１０２では、処理対象である画像データについて、乳幼児の肌の領域が大きいか否かを判断する。具体的には、領域情報取得部４４が、乳幼児の肌の領域が画像データ全体に占める割合を抽出し、その割合が所定の閾値より大きい場合には、乳幼児の肌の領域が大きいと判断し、ステップＳ１０３へ進む。これに対して、乳幼児の肌の領域の割合が所定の閾値以下である場合には、乳幼児の肌の領域が大きくないと判断し、ステップＳ１０４へ進む。

ステップＳ１０２へ進む画像６０（図５（Ａ））及び画像６１（図６（Ａ））のうち、画像６０（図５（Ａ））は乳幼児の肌の領域が大きくないと判断されてステップＳ１０４へ進み、画像６１（図６（Ａ））は乳幼児の肌の領域が大きいと判断されてステップＳ１０３へ進む。

ステップＳ１０３では、乳幼児の肌の領域が大きいと判断された画像データに対して、第１テキスト生成部５１が、図１１に示す「肌」辞書を用いてテキストを生成する。図６（Ｂ）は、第１テキスト生成部５１によって「肌」辞書を用いて生成されたテキスト「ほっぺたぷにゅぷにゅ」が、実施例２に係る画像６１（図６（Ａ））と伴に表示部２６に表示された状態を表している。このように、画像処理部４０は、被写体の年齢を推定することにより、画像データにおける乳幼児の肌のように、撮影者や観察者が着目する対象を適切に識別可能であり、これらの情報を用いてテキストを生成することにより、画像とのマッチング感の高いテキストを生成することができる。

ステップＳ１０４では、乳幼児の肌の領域が大きくないと判断された画像データに対して、第１テキスト生成部５１が、図１１に示す「笑顔」辞書を用いてテキストを生成する。第１テキスト生成部５１は、笑顔情報取得部４７で取得された乳幼児の笑顔レベルに基づき、「笑顔」辞書から対応するテキストを選択することにより、テキストを生成する。図５（Ｂ）は、第１テキスト生成部５１によって「笑顔」辞書を用いて生成されたテキスト「にっこりえがお」が、実施例１に係る画像６０（図５（Ａ））と伴に表示部２６に表示された状態を表している。このように、画像処理部４０は、被写体の年齢を推定することにより、例えば大人と子供の印象の違いを考慮したテキストを生成可能であり、画像とテキストのマッチング感を向上させることができる。

ステップＳ１０１の説明に戻る。ステップＳ１０１において、画像データに写っているのが乳幼児のみではないと判断されると、ステップＳ１０５へ進む。ステップＳ１０５では、処理対象である画像データに乳幼児と大人が両方写っているか否かを判断する。具体的には、少なくとも１の人物の像が、年齢情報取得部４５によって第１グループ（乳幼児）に分類され、かつ少なくとも１の人物の像が第２グループ（大人）に分類される場合は、乳幼児と大人が両方写っている画像データであると判断してステップＳ１０６へ進む。また、年齢情報取得部４５によって１の人物の像も第１グループ（乳幼児）に分類されなかった場合は、乳幼児と大人が両方写っている画像データではない（大人のみが写っている画像データである）と判断し、ステップＳ１０７へ進む。

ステップＳ１０５へ進む画像６２（図７（Ａ））、画像６３（図８（Ａ））、画像６４（図９（Ａ））及び画像６５（図１０（Ａ））のうち、画像６２（図７（Ａ））は、乳幼児と大人が両方写っている画像データであると判断されてステップＳ１０６へ進み、それ以外の画像データは乳幼児と大人が両方写っている画像データではないと判断されてステップＳ１０７へ進む。

ステップＳ１０６では、乳幼児と大人が両方写っていると判断された画像データに対して、第１テキスト生成部５１が、図１１に示す「親子」辞書を用いてテキストを生成する。図７（Ｂ）は、第１テキスト生成部５１によって「親子」辞書を用いて生成されたテキスト「おじいちゃんとおばあちゃんと一緒！」が、実施例３に係る画像６２（図７（Ａ））と伴に表示部２６に表示された状態を表している。このように、画像処理部４０は、画像データから人の像を複数検出した場合において、画像データに写っている人の年齢を推定することにより、親子撮影ように、ありがちな撮影シチュエーションを考慮したテキストを生成可能であり、画像とテキストのマッチング感を向上させることができる。なお、乳幼児と大人が両方写っている場合、大人に着目して、第２〜第５テキスト生成部にテキストを生成させても良い。

ステップＳ１０７では、画像データに女性のみが複数写っているか否かを判断する。具体的には、領域情報取得部４４によって複数の人の像が画像データから抽出され、かつ全ての人物の像が性別情報取得部４６によって女性に分類される場合には、女性のみが複数写っている画像データであると判断してステップＳ１０８へ進む。また、領域情報取得部４４によって１の人の像のみが画像データから抽出されるか、又は性別情報取得部４６によって男性に分類される人の像がある場合には、女性のみが複数写っている画像データではないと判断してステップＳ１０９へ進む。

ステップＳ１０７へ進む画像６３（図８（Ａ））、画像６４（図９（Ａ））及び画像６５（図１０（Ａ））のうち、画像６３（図８（Ａ））は、女性のみが複数写っている画像データであると判断されてステップＳ１０８へ進み、それ以外の画像データは女性のみが複数写っている画像データではないと判断されてステップＳ１０９へ進む。

ステップＳ１０８では、女性のみが複数写っていると判断された画像データに対して、第３テキスト生成部５３が、図１２（Ｂ）に示す「女性」辞書を用いてテキストを生成する。図８（Ｂ）は、第３テキスト生成部５３によって「女性」辞書を用いて生成されたテキスト「仲良し女子会」が、実施例４に係る画像６３（図８（Ａ））と伴に表示部２６に表示された状態を表している。このように、画像処理部４０は、処理対象である画像データに含まれる人の像の数及びその年齢構成と性別構成とを判断することにより、撮影者や観察者が画像データから受ける印象を精度良く推測することが可能であり、その情報を利用して画像と好適にマッチングするテキストを生成できる。

ステップＳ１０９では、画像データに女性と男性が両方写っているか否かを判断する。具体的には、領域情報取得部４４によって複数の人の像が画像データから抽出され、かつ性別情報取得部４６によってその一部が女性に分類され他の一部が男性に分類される場合には、女性と男性が両方写っている画像データであると判断してステップＳ１１０へ進む。また、領域情報取得部４４によって１の人の像のみが画像データから抽出されるか、又は性別情報取得部４６によって女性に分類される人物の像がない場合は、女性と男性が両方写っている画像データではないと判断してステップＳ１１１へ進む。

ステップＳ１０９へ進む画像６４（図９（Ａ））及び画像６５（図１０（Ａ））のうち、画像６４は、女性と男性が両方写っている画像データであると判断されてステップＳ１１０へ進み、画像６５は女性と男性が両方写っている画像データではないと判断されてステップＳ１１１へ進む。

ステップＳ１１０では、女性と男性が両方写っている画像データに対して、第４テキスト生成部５４が、図１２（Ｃ）に示す「男女」辞書を用いてテキストを生成する。図９（Ｂ）は、第４テキスト生成部５４によって「男女」辞書を用いて生成されたテキスト「みんないい表情！」が、実施例５に係る画像６４（図９（Ａ））と伴に表示部２６に表示された状態を表している。このように、画像処理部４０は、処理対象である被写体の年齢構成や性別構成に応じて、テキストそのものや、テキストを生成するために使用する辞書を変更することができるため、撮影者や観察者が画像データから受ける感性とマッチングしないテキストを生成してしまう問題を防止できる。

ステップＳ１１１では、画像データに男性のみが複数写っているか否かを判断する。具体的には、領域情報取得部４４によって複数の人の像が画像データから抽出され、かつ全ての人物の像が性別情報取得部４６によって男性に分類される場合には、男性のみが複数写っている画像データであると判断してステップＳ１１２へ進む。また、領域情報取得部４４によって１の人の像のみが画像データから抽出されるか、又は性別情報取得部４６によって女性に分類される人の像がある場合には、男性のみが複数写っている画像データではないと判断してステップＳ１１３へ進む。ステップＳ１１１へ進む画像６５（図１０（Ａ））は、男性のみが複数写っている画像データではないと判断されてステップＳ１１３へ進む。

ステップＳ１１２では、男性のみが複数写っている画像データに対して、第５テキスト生成部５５が、図１２（Ｃ）に示す「男性」辞書を用いてテキストを生成する。例えば第５テキスト生成部５５は、Ｅｘｉｆファイル等に保存されている撮影日時に関する情報から撮影された季節の情報を取得し、その季節にマッチするテキストである「昨年冬の記念写真」を「男性」辞書から選択することにより、テキストを生成する。このように、画像処理部４０は、撮影情報等を用いて生成される客観的事実に関するテキストと、笑顔レベル等を用いて生成される内面的な感情に関するテキストとを、被写体の年齢構成や性別構成に応じて使い分けることができるため、生成されるテキストと画像データとのマッチングを向上させることができる。

ステップＳ１１３では、第２テキスト生成部５２が、笑顔情報取得部４７で取得される笑顔レベル及び図１２（Ａ）に示す「笑顔」辞書を用いてテキストを生成する。ステップＳ１１３では、結果的に、大人（第２グループ）が一人で写っている画像データが処理される。図１０（Ｂ）は、第２テキスト生成部５２によって「笑顔」辞書を用いて生成されたテキスト「わっ、微笑んでる。」が、実施例６に係る画像６５（図１０（Ａ））と伴に表示部２６に表示された状態を表している。第１実施例（図５）と第６実施例（図１０）の比較から解るように、同じような笑顔であっても被写体の年齢によって画像から受ける印象が異なるが、画像処理部４０は、被写体の年齢に応じてテキストを変更することができるため、生成されるテキストと画像データとのマッチングを向上させることができる。

図３に示すステップＳ００５〜ステップＳ００８の説明へ戻る。ステップＳ００３で領域情報取得部４４が画像データから人物の像を取得できなかった場合は、ステップＳ００５へ進む。ステップＳ００５では、画像データが遠景写真であるか否かを判断する。例えば、領域情報取得部４４が画像データから地平線の位置を抽出して画像データを空領域と地上領域に分割できた場合は、処理の対象である画像データは遠景写真であると判断し、ステップＳ００６へ進む。これに対して、領域情報取得部４４が画像データから地平線の位置を抽出できなかった場合は、処理の対象である画像データはその他写真であると判断してステップＳ００７へ進む。

ステップＳ００６では、遠景写真に分類された画像データについて、情報取得部４３の色情報取得部４９で取得された情報等を用いて、テキスト生成部５０がテキストを生成する。テキスト生成部５０は、遠景写真に付与するテキストを生成する場合、例えば画像データの代表色から連想される語句を含む「遠景写真」辞書（図１３参照）を用いることができる。

ステップＳ００７では、その他写真に分類された各画像データについて、情報取得部４３の領域情報取得部４４で取得された情報等を用いて、テキスト生成部５０がテキストを生成する。テキスト生成部５０は、その他写真に付与するテキストを生成する場合、例えば被写体の形状や大きさの特徴から連想される語句を含む「その他写真」辞書（図１３参照）を用いることができる。

図３におけるステップＳ００４、ステップＳ００６及びステップＳ００７においてテキストを生成した後、ステップＳ００８へ進み、画像処理部４０は、一連のテキスト生成処理を終了する。画像処理部４０は、テキスト生成処理を終了する前に、生成されたテキストを文章付加部５６に出力し、テキストの表示方法（表示位置、フォント等）を決定した後、画像データと関連づけてメモリカード３４等に保存することができる。

上述した画像処理部４０によれば、被写体の年齢及び性別に応じて生成するテキストを変更することができるため、画像を見た際に人間が生じる感性に対して良好な整合性を有するテキストを生成することができる。

上述の実施形態及び実施例では、画像処理部４０を備える撮像装置１０を例に挙げて、画像処理装置の説明を行ったが、画像処理部４０を備える画像処理装置はこれに限定されず、パーソナルコンビュータ、携帯電話等、撮像部を必ずしも有しない装置であっても良い。また、画像データからテキストを生成するプログラムは、撮像装置１０だけでなく、画像処理を実施するその他の情報機器にも、実装することができる。

１０…撮像装置
１２…撮像部
１４…光学系
１６…撮像素子
１８…Ａ／Ｄ変換部
２０…カメラ制御部
２２…操作部
２４…バス
２６…表示部
２８…記憶部
３０…バッファメモリ部
３２…通信部
３４…メモリカード
４０…画像処理部
４１…画像データ入力部
４２…イベント情報入力部
４３…情報取得部
４４…領域情報取得部
４５…年齢情報取得部
４６…性別情報取得部
４７…笑顔情報取得部
４９…色情報取得部
５０…テキスト生成部
５１…第１テキスト生成部
５２…第２テキスト生成部
５３…第３テキスト生成部
５４…第４テキスト生成部
５５…第５テキスト生成部
５６…文章付加部
６０，６１，６２，６３，６４，６５…画像

Claims

画像データに関する情報を取得する情報取得部と、取得した前記情報からテキストを生成するテキスト生成部と、を有する画像処理装置であって、
前記情報取得部は、前記画像データに含まれる人物の像における当該人物の年齢を推定して複数のグループに分類する年齢情報取得部を有し、
前記テキスト生成部は、前記年齢情報取得部による分類結果に応じて、生成する前記テキストを変更することを特徴とする画像処理装置。
請求項１に記載された画像処理装置であって、
前記年齢情報取得部によって分類される前記複数のグループには、少なくとも乳幼児を含む第１グループと、前記第１グループより推定された前記年齢が高い第２グループとが含まれることを特徴とする画像処理装置。
請求項２に記載された画像処理装置であって、
前記テキスト生成部は、前記年齢情報取得部が少なくとも１の前記人物の像を前記第１グループに分類した場合に前記テキストを生成可能な第１テキスト生成部と、前記年齢情報取得部が少なくとも１の前記人物の像を前記第２グループに分類した場合に前記テキストを生成可能な第２テキスト生成部と、を有することを特徴とする画像処理装置。
請求項３に記載された画像処理装置であって、
前記テキスト生成部は、前記年齢情報取得部が少なくとも１の前記人物の像を前記第１グループに分類し、かつ前記年齢情報取得部が少なくとも１の前記人物の像を前記第２グループに分類した場合には、前記第１テキスト生成部を用いて前記テキストを生成することを特徴とする画像処理装置。
請求項３又は請求項４に記載された画像処理装置であって、
操作者の入力信号に応じて、乳幼児の成長に関連して発生するイベントに関連する語句を、リストから選択できるイベント情報入力部をさらに有し、
前記第１テキスト生成部は、選択された前記語句に関連する前記テキストを生成可能であることを特徴とする画像処理装置。
請求項１から請求項５までのいずれか１項に記載された画像処理装置であって、
前記情報取得部は、前記画像データに含まれる前記人物の像における当該人物の性別を推定して女性と男性に分類する性別情報取得部をさらに有し、
前記テキスト生成部は、前記性別情報取得部による分類結果に応じて、生成する前記テキストを変更することを特徴とする画像処理装置。
請求項６に記載された画像処理装置であって、
前記テキスト生成部は、
前記画像データに複数の前記人物の像が含まれる場合において、
前記性別情報取得部が全ての前記人物の像を前記女性に分類した場合に前記テキストを生成する第３テキスト生成部と、前記性別情報取得部が一部の前記人物の像を前記女性に分類し他の一部の前記人物の像を前記男性に分類した場合に前記テキストを生成する第４テキスト生成部と、前記性別情報取得部が全ての前記人物の像を前記男性に分類した場合に前記テキストを生成する第５テキスト生成部と、を有することを特徴とする画像処理装置。
請求項１から請求項７までのいずれか１項に記載された画像処理装置と、
被写体を撮像して前記画像データを生成する撮像部と、を有する撮像装置。
コンピュータに、画像データに関する情報を取得する情報取得処理と、取得した前記情報からテキストを生成するテキスト生成処理と、を実行させる画像処理プログラムであって、
前記情報取得処理では、前記画像データに含まれる人物の像の年齢を推定して複数のグループに分類することができ、
前記テキスト生成処理では、前記年齢情報取得部による分類結果に応じて、生成する前記テキストを変更できることを特徴とする画像処理プログラム。