JP2014165666A

JP2014165666A - 画像処理装置、撮像装置及び画像処理プログラム

Info

Publication number: JP2014165666A
Application number: JP2013035000A
Authority: JP
Inventors: Hiroko Kobayashi; 寛子小林
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2013-02-25
Filing date: 2013-02-25
Publication date: 2014-09-08

Abstract

【課題】画像データから、当該画像データを見た際に人間が生じる感性に対して良好な整合性を有するテキストを生成し得る画像処理装置を提供する。
【解決手段】
画像データ（６０）から、主要被写体像を含む主要領域（６０Ａ）を抽出する領域抽出部（４４）と、前記主要領域の所定の特徴に関する第１特徴情報（Ａ）と、前記画像データから前記主要領域を除いた非主要領域の前記所定の特徴に関する第２特徴情報（Ｂ）とを抽出する特徴抽出部（４５）と、前記第１特徴情報と前記第２特徴情報とを用いてテキストを生成し、前記画像データと関連付けるテキスト生成部（５４）と、を有する画像処理装置。
【選択図】図２

Description

本発明は、画像データからテキストを生成する画像処理装置、撮像装置及び画像処理プログラムに関する。

画像データを解析した解析結果と、画像データに含まれる撮像情報等に基づいて、画像データに対するテキストを作成する技術が提案されている（特許文献１等参照）。また、近年では、複数のバリエーションを有するコメントリストを用意するなどして、ユーザーの感覚と整合性の高いテキストを作成する技術が提案されている。

また、テキスト作成のために有用と考えられる画像データの解析手法としては、例えば顔認識や色情報の抽出等が挙げられる。

特開２０１０−２０６２３９号公報

色情報の解析結果からテキストを生成する技術は、撮影者及び画像の観察者の感性に近いテキストを自動で付与するために有効な手段ではあるものの、色情報の抽出のみでは、撮影者等の感性に近いテキストを作成することが困難な場合もある。例えば、画像データから抽出された色が暗い色である場合には、撮影者の感性が、抽出された暗い色から連想されるイメージと整合しない場合も多く、課題を有している。

そこで本発明の目的は、画像データから、当該画像データを見た際に人間が生じる感性に対して良好な整合性を有するテキストを生成し得る画像処理装置を提供することである。

上記目的を達成するために、本発明に係る画像処理装置は、
画像データから、主要被写体像を含む主要領域を抽出する領域抽出部と、
前記主要領域の所定の特徴に関する第１特徴情報と、前記画像データから前記主要領域を除いた非主要領域の前記所定の特徴に関する第２特徴情報とを抽出する特徴抽出部と、
前記第１特徴情報と前記第２特徴情報とを用いてテキストを生成し、前記画像データと関連付けるテキスト生成部と、を有する。

また、例えば、前記所定の特徴は、エッジ量と、前記画像データにおける位置と、明るさと、のうち少なくとも一つを含んでも良い。

また、例えば、前記所定の特徴は、前記主要領域及び前記非主要領域に含まれるエッジ量を含んでも良く、
前記テキスト生成部は、前記第１特徴情報と前記第２特徴情報の差に応じて、生成する前記テキストを変化させても良い。

また、例えば、前記所定の特徴は、前記主要領域及び前記非主要領域に含まれるエッジ量を含んでも良く、
前記テキスト生成部は、前記第１特徴情報が第１の閾値より大きいか又は前記第２特徴情報が第２の閾値より大きい場合には第１の辞書を用いて前記テキストを生成し、前記第１特徴情報が前記第１の閾値より小さくかつ前記第２特徴情報が前記第２の閾値より小さい場合には前記第１の辞書とは異なる第２の辞書を用いて前記テキストを生成しても良い。

また、例えば、前記テキスト生成部は、前記第１特徴情報と前記第２特徴情報から、前記画像データを撮影した撮影者の撮影スキルを判定し、前記撮影スキルを示す前記テキストを生成してもよい。

本発明に係る撮像装置は、上記のうちいずれかの画像処理装置と、被写体を撮像して前記画像データを生成する撮像部と、を有する。

本発明に係る画像処理プログラムは、コンピュータに、
画像データから、主要被写体像を含む主要領域と、前記主要被写体像の周辺の像を含む非主要領域とを抽出する処理と、
前記主要領域の所定の特徴に関する第１特徴情報と、前記非主要領域の前記所定の特徴に関する第２特徴情報とを抽出する処理と、
前記第１特徴情報と前記第２特徴情報とを用いてテキストを生成し、前記画像データと関連付ける処理と、を実行させる。

図１は、本発明の一実施形態に係る撮像装置の概略ブロック図である。図２は、図１に示す撮像装置に含まれる画像処理部の内部構成を表す概略ブロック図である。図３は、図２に示す画像処理部において行われるテキスト生成処理の全体像を表すフローチャートである。図４は、図３に示す「その他写真」サブルーチンの内容を表すフローチャートである。図５は、図４に示す「その他写真」サブルーチンの変形例を表すフローチャートである。図６は、図２に示す画像処理部による処理の一例を表す概念図である。図７は、図２に示す画像処理部によって生成されたテキスト及びその画像データの一例を表す概念図である。図８は、図３又は図４のフローチャートに含まれる処理内容を表す概念図である。図９は、図２に示す記憶部に保存された辞書の内容の一例を示す概念図である。図１０は、図２に示す記憶部に保存された辞書の内容の他の一例を示す概念図である。

図１は、本発明の一実施形態に係る撮像装置１０の概略ブロック図である。撮像装置１０は、撮像部１２、カメラ制御部２０、操作部２２、画像処理部４０、表示部２６、記憶部２８、バッファメモリ部３０、通信部３２、メモリカード（記憶媒体）３４等を有しており、各部分は、バス２４を介して相互に通信することができる。

撮像部１２は、光学系１４、撮像素子１６、Ａ／Ｄ変換部１８等を有しており、画像データを生成する。光学系１４は、１又は２以上のレンズを備え、レンズに入射した光の像を、撮像素子１６の受光面に形成する。

撮像素子１６は、例えばＣＣＤやＣＭＯＳ等の固体撮像素子によって構成され、光学系１４を介して受光面に結像した光学像を、電気信号に変換する。撮像素子１６は、生成した電気信号を、Ａ／Ｄ変換部１８に出力する。Ａ／Ｄ変換部１８は、撮像素子１６によって生成された電気信号に対して、アナログ／デジタル変換等を行い、カメラ制御部２０及び画像処理部４０等で処理可能な画像データを生成する。

撮像部１２による画像データの生成動作は、カメラ制御部２０によって制御される。例えば、撮像部１２は、カメラ制御部２０による制御により、操作部２２等を介して撮影信号が入力されたタイミングで撮像素子１６による光電変換を行い、いわゆる静止画の画像データを生成することができる。また、撮像部１２は、カメラ制御部２０による制御により、操作部２２等を介して動画撮影開始信号が入力されたタイミングで、連続的な光電変換を行い、いわゆる動画の画像データを生成することができる。

撮像部１２で生成された画像データは、カメラ制御部２０の制御により、バッファメモリ部３０及び画像処理部４０を介して、メモリカード３４に保存される。なお、撮像部１２は、操作部２２等からの操作信号が入力されていない状態で、自動的に画像データの生成を行い、いわゆるスルー画の画像データを生成することもできる。この場合、撮像部１２で生成されたスルー画の画像データは、カメラ制御部２０の制御により、表示部２６に表示される。

画像処理部４０は、メモリカード３４又はバッファメモリ部３０に記憶されている画像データに対して、各種の画像処理を実行する。画像処理部４０は、撮像部１２で生成された静止画、動画、スルー画等について画像処理を行う他、メモリカード３４等に保存されている撮像部１２以外で生成された画像データについても、画像処理を行うことができる。画像処理部４０は、各種補正処理や、データの圧縮及び変換、顔認識や色の抽出などを行うことができるが、画像処理部４０の詳細については、後ほど述べる。

表示部２６は、液晶ディスプレイ等で構成されており、カメラ制御部２０の制御に従って、画像データや、操作メニュー等を表示する。また、表示部は、画像処理部４０によるテキスト生成処理によって生成されたテキストを、画像データに重ねて表示することができる。記憶部２８には、撮像装置１０の制御に用いる撮影条件、画像処理条件、再生制御条件、表示制御条件、記録制御条件、入出力制御条件や、テキストの生成に用いる辞書（テキスト集）など、各種の情報が記憶されている。カメラ制御部２０や画像処理部４０は、必要に応じて、記憶部２８に記憶されている情報を読み出し、演算処理に利用することができる。記憶部２８は、ＲＯＭ等によって構成される。

バッファメモリ部３０は、カメラ制御部２０及び画像処理部４０が演算処理を実施する際の作業領域として利用される。例えば、画像処理部４０が画像データに対して画像処理を行う場合、処理の対象となる画像データは、記憶媒体から読み出され、バッファメモリ部３０に一次的に格納される。バッファメモリ部３０は、ＲＡＭ等によって構成される。

操作部２２は、操作者が撮像装置１０に対して情報を入力するためのスイッチ等を有している。操作部２２は、電源スイッチ、レリーズスイッチ、モードスイッチ、メニュースイッチ、選択キー等を備えており、操作者の操作に対応した信号を、カメラ制御部２０に出力する。

通信部３２は、メモリカード３４を取り付けるスロットや、他の情報機器と通信を行うための送受信部等を有しており、撮像装置１０は、通信部３２を介して、メモリカード３４や他の情報機器から情報を取得できる。また、カメラ制御部２０は、通信部３２を介してメモリカード３４に画像データを出力し、メモリカード３４に画像データを保存することができる。

メモリカード３４は、通信部３２を介して着脱自在に接続される記憶媒体であり、撮像部１２で生成された画像データ等を記憶することができる。メモリカード３４に保存される画像データの形式は特に限定されないが、例えば画像データは、イグジフ（Ｅｘｉｆ）形式のファイルとして、メモリカード３４に保存される。

カメラ制御部２０は、撮像装置１０が備えている各部分の制御を行う。例えば、カメラ制御部２０には、電源部（不図示）が接続されており、カメラ制御部２０は、撮像装置１０内の各部分に対して適切に電力が供給されるように、制御を行う。カメラ制御部２０は、例えばマイクロプロセッサ等によって構成される。なお、カメラ制御部２０と画像処理部４０の演算処理は、共通のマイクロプロセッサで行われても良く、また別個の電子回路で行われても良い。

図２は、図１に示す画像処理部４０に含まれる処理部を、ブロック図で表したものである。画像処理部４０は、画像データ入力部４２と、解析部４３と、テキスト生成部５０と、文章付加部５６とを有する。画像処理部４０は、図１に示す撮像部１２等で生成された画像データについて、各種の解析処理を行うことにより、画像データの内容に関する各種の情報を取得し、画像データの内容と整合性の高いテキストを作成し、画像データにテキストを付加することができる。

図２に示す画像データ入力部４２は、メモリカード３４又はバッファメモリ部３０に格納されている画像データを読み出し、解析部４３に出力する。

解析部４３は、領域抽出部４４、特徴抽出部４５及び色情報抽出部４９を有しており、画像データに対して解析処理を行う。

領域抽出部４４は、画像データから、主要被写体像を含む主要領域を抽出する。領域抽出部４４によって抽出される主要領域は、撮影者が注目したか、若しくは画像の鑑賞者が注目する可能性が高いと推認される表示部分に対応する領域であることが好ましい。例えば、領域抽出部４４は、画像中のどの部分にピントが合っているかを検出し、ピントが合っている被写体の表示部分に対応する領域を、主要領域とすることができる。また、例えば、領域抽出部４４は、画像データから人物の顔が表示される領域を抽出し、その領域を主要領域としても良い。領域抽出部４４が画像データから主要領域を抽出した場合、画像データから主要領域を除いた残部を、非主要領域とすることができる。領域抽出部４４が抽出する主要領域は、連続しない複数の部分に分かれていても良く、また、非主要領域も、画像データから主要領域を除いた残部すべてである必要はなく、残部の一部であっても良い。なお、領域抽出部４４は、画像データが主要領域を含まない旨の判断を行うこともできる。

特徴抽出部４５は、画像データにおけるエッジ量、主要領域又は非主要領域の相対位置、明るさなど、色（色相）以外の所定の特徴を、画像データから抽出する。特徴抽出部４５は、画像データ全体の特徴に関する全体特徴情報だけでなく、領域抽出部で抽出された主要領域の所定の特徴に関する第１特徴情報や、非主要領域の第２特徴情報を、抽出することができる。第１特徴情報と第２特徴情報は、少なくとも１つの共通の特徴（例えばエッジ量）に関する情報を含むことが好ましいが、第１特徴情報に含まれる特徴と第２特徴情報に含まれる特徴の間に、違いがあってもかまわない。特徴抽出部４５は、画像データのエッジ情報を抽出するエッジ情報抽出部４６と、画像データの明るさに関する情報を抽出する明るさ情報抽出部４７と、画像データの構図に関する情報を抽出する構図情報抽出部４８とを有する。

エッジ情報抽出部４６は、画像データに含まれるエッジ量及びエッジ分布等に関するエッジ情報を得る。エッジ情報抽出部４６によるエッジ情報の算出方法は特に限定されないが、例えば画像データに含まれる各画素の輝度値やＲＧＢ値等を取得し、当該取得した輝度値又はＲＧＢ値等の勾配を算出した後、当該勾配が所定の閾値以上となる部分をエッジとして抽出することにより、画像データのエッジ量を得ることができる。また、エッジ情報抽出部４６は、画像データ全体に対してだけでなく、領域抽出部４４等で抽出された領域毎に、エッジ情報の抽出を実施することができる。例えば、エッジ情報抽出部４６は、画像データ全体のエッジ量と、主要領域のエッジ量と、非主要領域のエッジ量とを個別に算出することができる。エッジ情報抽出部４６で得られたエッジ情報は、テキスト生成部５０へ送られる。

明るさ情報抽出部４７は、画像データの輝度や明度など、画像データの明るさに関する明るさ情報を抽出し、テキスト生成部５０へ出力する。明るさ情報抽出部４７による情報の抽出方法は特に限定されないが、画像データに含まれる各画素の輝度値を集計し、平均値や最頻値等の代表値を得ることにより行うことができる。明るさ情報抽出部４７も、エッジ情報抽出部４６と同様に、画像データ全体に対してだけでなく、領域抽出部４４等で抽出された領域毎に、明るさ情報の抽出を実施することができる。

構図情報抽出部４８は、主要領域の配置、全体に占める割合、主要領域と非主要領域の相対位置など、画像データの構図に関する情報を抽出し、テキスト生成部５０へ出力する。

色情報抽出部４９は、画像データの色（色相以外の要素を含む）に関する情報を抽出し、または、抽出した情報を元に更に演算処理を行うことにより、色情報を得ることができる。色情報抽出部４９による色情報の種別、算出方法等は特に限定されないが、画像データに含まれる各画素のＨＳＶ値を集計したものや、集計したＨＳＶ値から算出された代表色などが、色情報に含まれる。ただし、色情報抽出部４９が色情報を算出する際における解像度は、演算処理の負担等を考慮して適宜変更すれば良く、また、色空間の種類もＨＳＶに限られず、ＲＧＢ、ＣＭＹ、ＣＭＹＫ等であっても良い。また、色情報抽出部４９も、特徴抽出部４５と同様に、画像データ全体に対してだけでなく、領域抽出部４４等で抽出された領域毎に、色情報の抽出を実施することができる。さらに、色情報抽出部４９による代表色の算出方法も特に限定されないが、たとえば色情報抽出部４９は、各画素のＨＳＶ値等に対してk-means法（ｋ平均法）によるクラスタリング（クラスタ分析）を実施し、クラスタリングの結果に基づき画像データ全体または各領域の代表色を算出することができる。色情報抽出部４９で得られた色情報は、第１特徴情報や第２特徴情報と同様に、テキスト生成部５０へ送られる。

テキスト生成部５０は、解析部４３等から送信された情報を用いてテキストを生成し、生成したテキストと画像データとを関連づける。特に、テキスト生成部５０は、特徴抽出部４５で抽出された第１特徴情報と第２特徴情報を用いてテキストを生成することが可能であるが（スキル判定テキスト生成部５４参照）、これ以外にも、色情報抽出部４９による色情報や、その他の情報を用いてテキストを生成することができる。テキスト生成部５０は、笑顔度テキスト生成部５２と、色形容テキスト生成部５３と、スキル判定テキスト生成部５４とを有する。

笑顔度テキスト生成部５２は、解析部４３によって取得された情報を用いて、対象となる画像データが人物写真であると判断された際（図３のステップＳ００４）等に、被写体像である人物の笑顔レベルに応じたテキストを生成する。なお、人物写真における笑顔レベルは、顔における口角部分の上がり具合を数値化することにより、解析部４３によって算出されるが、笑顔レベルの具体的算出方法は特に限定されず、顔認識等に関する公知の技術を用いることができる。

色形容テキスト生成部５３は、色情報抽出部４９で取得された色情報を反映したテキストを生成する。例えば、テキスト生成部５０及び色形容テキスト生成部５３は、画像データ又は領域の代表色が、ＣＣＩＣ表色系等のカラーチャートのどのエリアに属するかを判断し、さらに特徴抽出部４５からの情報やＥｘｉｆファイル等に保存される撮影情報を併せて用いることで、対象である画像データの撮影シーンを決定する。さらに、色形容テキスト生成部５３は、決定された撮影シーンに対応する辞書から、単語又は文書を選択し、テキストを生成する。撮影シーン及びこれに対応する辞書は特に限定されないが、たとえば図９に示すように、「夕焼け」、「紅葉」、「夜景」、「イルミネーション」、「青空」の撮影シーンに対応する辞書が記憶部２８等に記憶されており、色形容テキスト生成部５３は、これらの撮影シーンのうち、いずれか１つから連想される単語を含むテキストを生成可能である。なお、色形容テキスト生成部５３は、「赤」、「青い」のような色情報から直接連想される単語を用いることにより、撮影シーンの分析を経ずにテキストを生成することも可能である。

スキル判定テキスト生成部５４は、主要領域の特徴に関する第１特徴情報と、非主要領域の特徴に関する第２特徴情報から、画像データを撮影した撮影者の撮影スキルを判定し、撮影者の撮影スキルを示すテキストを生成する。スキル判定テキスト生成部５４は、例えば、エッジ情報抽出部４６によって抽出された主要領域のエッジ量Ａ（第１特徴情報に相当）及び非主要領域のエッジ量Ｂ（第２特徴情報に相当）や、明るさ情報抽出部４７によって抽出された主要領域の明るさＣ（第１特徴情報に相当）及び非主要領域の明るさＤ（第２特徴情報に相当）を用いて、撮影者の撮影スキルを判定できる（図８（Ａ）及び（Ｃ）参照）。スキル判定テキスト生成部５４は、決定された撮影スキルに対応する辞書から、単語又は文書を選択し、テキストを生成する。撮影スキルの分類方法及び特定の撮影スキルに対応する辞書は特に限定されないが、たとえば図１０に示すように、「ナイスショット」、「ブレ・ボケ」、「明るすぎ」、「暗すぎ」、「構図が悪い」などの撮影スキルに対応する辞書が記憶部２８等に記憶されており、スキル判定テキスト生成部５４は、判定した撮影スキルに対応するテキストを生成可能である。また、スキル判定テキスト生成部５４は、撮影スキルの判定結果を数値化することも可能であり、図１０の「点数」辞書を用いて、撮影スキルの採点結果を示すテキストを生成することもできる。

テキスト生成部５０及びこれに含まれる笑顔度テキスト生成部５２、色形容テキスト生成部５３、スキル判定テキスト生成部５４は、画像データを表示部２６（図１参照）に表示させる際に、カメラ制御部２０が当該画像データに対応するテキストを読み出せるように、画像データと関連づけて、生成したテキストをメモリカード３４等に保存できる。また、テキスト生成部５０は、生成したテキストを文章付加部５６に出力する。

文章付加部５６は、テキスト生成部５０によって生成されたテキストを、画像データに付与する。具体的には、文章付加部５６は、テキストのフォント、色、表示位置などを決定し、画像データとテキストを合成した表示内容に関する情報を生成する。文章付加部５６は、画像データとテキストを合成した新たな画像データを生成してもよく、合成画像を表示する際に画像データに追加される表示情報及び画像データとの関連付け情報を含むファイルを生成しても良い。文章付加部５６は、必要に応じて、画像データとテキストを合成した表示内容を表示部２６に表示させても良く、生成した新たな画像データ及び情報ファイルを、メモリカード３４に記憶させても良い。

以下に、画像処理部４０において行われる処理の具体例を説明するが、本発明はこれに限定されない。

図３は、図２に示す画像処理部４０において行われるテキスト生成処理の全体像を表すフローチャートである。図３におけるステップＳ００１では、操作部２２等を介して操作者の入力信号を検知したカメラ制御部２０等が、画像処理部４０に対して、テキスト生成処理に関する画像処理の開始を指示する（図１参照）。

ステップＳ００２では、図２に示す画像データ入力部４２が、操作部２２及び表示部２６の表示内容を介して取得した操作者の選択内容に従い、メモリカード３４に格納されている画像データを読み出し、解析部４３に出力する。以下の説明では、図６（Ａ）に示すような画像データ６０が、テキスト生成処理の対象となった場合を例に説明を行う。また、ステップＳ００２では、図２に示す画像データ入力部４２が、画像データ６０とともにイグジフファイル等に保存されている撮影情報を読み出し、テキスト生成部５０に出力しても良い。

ステップＳ００３では、読み出した画像データ６０が人物写真であるか否かを、解析部４３及びテキスト生成部５０が判断する。例えば、解析部４３は、画像データ６０の中に人物の顔が写っている領域が所定の態様で含まれるか否かを検出し、当該解析結果を基に、テキスト生成部５０は、画像データ６０が人物写真であるか否かを判断する。今回の例では、解析部４３は、画像データ６０から人物の顔が写っている領域を検出せず、これを受けたテキスト生成部５０は、画像データ６０を人物写真でないと判断し、ステップＳ００５へ進む。なお、解析部４３が画像データから人物の顔が写っている領域を検出し、テキスト生成部５０が処理の対象となる画像データを人物写真であると判断した場合は、ステップＳ００４へ進む。ステップＳ００４では、テキスト生成部５０における笑顔度テキスト生成部５２が、解析部４３によって検出された人物の顔の笑顔レベル等を用いて、テキストを生成する。ステップＳ００３における人物写真の判定については、笑顔レベルの判定と同様に、顔認識に関する周知の技術を用いることができる。

ステップＳ００５では、画像データ６０が遠景写真であるか否かを、解析部４６及びテキスト生成部５０が判断する。解析部４３は、色情報抽出部４９によって抽出された画像データ６０の輝度分布や、エッジ情報抽出部４６によって抽出された画像データ６０のエッジ分布の傾向から、画像データ６０を、空が映っている上部領域（比較的明るく、エッジが少ない傾向）と地上が写っている下部領域（比較的暗く、エッジが多い傾向）に分割することを試みる。解析部４３は、画像データを上部領域と下部領域に分割できる境界を検出した場合、上部領域と下部領域の間で輝度分布又はエッジ量に所定の閾値を超える差異が認められるか否かをさらに検出し、当該差異を認めた場合は画像データを遠景写真であると判断する。今回の例では、解析部４３は、画像データ６０を上部領域と下部領域に分割できず、これを受けたテキスト生成部５０は、画像データ６０を遠景写真でないと判断し、ステップＳ００７へ進む。なお、解析部４３が画像データを遠景写真であると判断した場合は、ステップＳ００６へ進む。ステップＳ００６では、色情報抽出部４９が画像データの色情報を抽出し、抽出された色情報から色形容テキスト生成部５３が撮影シーンを特定し、各撮影シーンに対応する辞書（図９参照）を用いてテキストを生成する。

図４は、図３に示すその他写真サブルーチン（図３のステップＳ００７）の処理内容を表すフローチャートである。その他写真サブルーチンでは、まず、解析部４３及びテキスト生成部５０が、画像データ６０に主要領域６０Ａが有るか否かを判断する。具体的には、解析部４３の領域抽出部４４が、画像データ６０から主要被写体像を含む主要領域６０Ａの抽出を試み、主要領域６０Ａの抽出に成功した場合は、画像データ６０には主要領域が有ると判断し、主要領域の抽出に失敗した場合は、画像データ６０には主要領域が無いと判断する。今回の例では、図６（Ｂ）に示すように、エッジ領域抽出部４４が画像データ６０のエッジ情報（エッジ分布）を抽出し、当該エッジ情報を受信したテキスト生成部５０は、エッジが集中している画像データ６０の左上部分を主要領域６０Ａであると認識し、画像データ６０には主要領域が存在すると判断する。この際、テキスト生成部５０は、画像データ６０から主要領域６０Ａを除いた残部を、非主要領域６０Ｂであると認識する。なお、画像データ６０に主要領域が無いと判断した場合には、ステップＳ１０６へ進み、図３におけるステップＳ００６と同様に、色形容テキスト生成部５３が画像データの撮影シーンを特定し、各撮影シーンに対応する辞書（図９参照）を用いてテキストを生成する。

図４に示すように、ステップＳ１０１において画像データ６０に主要領域６０Ａが有ると判断した場合、ステップＳ１０２へ進む。ステップＳ１０２では、解析部４３及びテキスト生成部５０が、特徴抽出部４５で抽出した第１特徴情報及び第２特徴情報を用いて、図８（Ａ）に示す「ナイスショット判定」を画像データ６０に対して実施する。具体的には、まず、解析部４３におけるエッジ情報抽出部４６が、主要領域６０Ａのエッジ量Ａを第１特徴情報として抽出し、非主要領域６０Ｂのエッジ量Ｂを第２特徴情報として抽出して、第１特徴情報及び第２特徴情報をテキスト生成部５０に出力する。次に、テキスト生成部５０のスキル判定テキスト生成部５４は、第１特徴情報であるエッジ量Ａと第２特徴情報であるエッジ量Ｂの差と、所定の閾値αとを比較し、エッジ量Ａとエッジ量Ｂの差（Ａ−Ｂ）が、閾値αより大きい場合には、画像データ６０を「ナイスショット」であると判定して、ステップＳ１０３へ進む。なお、「ナイスショット判定」における閾値αは特に限定されないが、例えば、対象となる画像の主要被写体像のエッジが、その周辺の像のエッジに比べて明確に強調されているとの印象を、一般的な観察者に与えると推定される値に基づき、設定することができる。

ステップＳ１０３では、テキスト生成部５０のスキル判定テキスト生成部５４がテキストを生成し、画像データ６０と関連づけて保存する。画像データ６０は、ステップＳ１０２において「ナイスショット」であると認定されているため、スキル判定テキスト生成部５４は、図１０に示す「ナイスショット」辞書に含まれる単語又は文書のうち１つを選択し、それを画像データ６０に対応するテキストであると決定する。スキル判定テキスト生成部５４が生成したテキストは、文章付加部５６に出力され、テキストの表示方法（表示位置、フォント等）が決定された後、画像データ６０と関連づけてメモリカード３４等に保存される。また、テキスト生成部５０は、スキル判定テキスト生成部５４が撮影スキルに対応するテキストを生成するのに加えて、Ｅｘｉｆファイルから読み出された撮影情報等に基づき、画像の撮影日等に関するテキストを生成し、画像データ６０に関連づけて保存しても良い。

ステップＳ１０３の後、ステップＳ１０７へ進んでその他写真サブルーチンを終了し、さらに図３のステップＳ００８へ進むことにより、画像処理部４０は、一連のテキスト生成処理を終了する。図６（Ｃ）は、上述した具体例に係るテキスト生成処理で生成されたテキスト「絶妙なボケ味・・・」と、画像の生成日を表すテキスト「（２０１１／０８／１６）」が、画像データ６０と伴に表示部２６に表示された状態を表している。このように、画像処理部４０は、特徴抽出部４５が抽出した第１特徴情報と第２特徴情報を用いることにより、色相を含む色情報や、当該色情報に基づき推定された撮影シーン等からテキストを生成する従来の手法とは異なり、被写体像や撮影シーンが想定外であるような場合にでも、撮影者や観察者の感性に適合するテキストを生成することができる。

図４のステップＳ１０２へ戻り、画像データ６０が「ナイスショット」でないと判定される場合について説明する。ステップＳ１０２において、エッジ量Ａとエッジ量Ｂの差（Ａ−Ｂ）が閾値α以下である場合には、スキル判定テキスト生成部５４は、画像データ６０は「ナイスショット」ではないと判定し、ステップＳ１０４へ進む。ステップＳ１０４では、解析部４３及びテキスト生成部５０が、特徴抽出部４５で抽出した第１特徴情報及び第２特徴情報を用いて、画像データ６０に対して図８（Ａ）に示す「ブレ・ボケ判定」を実施する。具体的には、スキル判定テキスト生成部５４が、解析部４３のエッジ情報抽出部４６によって抽出された主要領域６０Ａのエッジ量Ａ（第１特徴情報）及び非主要領域６０Ｂのエッジ量Ｂ（第２特徴情報）を、所定の閾値β１，β２と比較する。スキル判定テキスト生成部５４は、エッジ量Ａが閾値β１（第１の閾値）より大きいか、又はエッジ量Ｂが閾値β２（第２の閾値）より大きい場合は、画像データ６０を「ブレ・ボケ」ではないと判定して、ステップＳ１０６へ進む（ステップＳ１０６の処理は先に説明済み）。これに対して、スキル判定テキスト生成部５４は、エッジ量Ａが閾値β１より小さくかつエッジ量Ｂが閾値β２より小さい場合には、画像データ６０を「ブレ・ボケ」であると判定して、ステップＳ１０５へ進む。なお、「ブレ・ボケ」判定における閾値β１,β２は特に限定されないが、例えば、一般的な観察者が失敗画像であるとの印象を持つと推定される値に基づき、設定することができる。

ステップＳ１０５では、テキスト生成部５０のスキル判定テキスト生成部５４がテキストを生成し、画像データ６０と関連づけて保存する。画像データ６０は、ステップＳ１０４において「ブレ・ボケ」であると認定されたため、スキル判定テキスト生成部５４は、ステップＳ１０６で用いられる撮影シーンに対応する辞書（第１の辞書（図９参照））とは異なる「ブレ・ボケ」辞書（第２の辞書（図１０参照））を用いて、テキストを生成する。テキスト生成後の処理は、ステップＳ１０３と同様である。

このように、画像処理部４０は、特徴抽出部４５が抽出した第１特徴情報と第２特徴情報を用いてテキストを生成するため、画像の色合いがどのようなものであってもそれと関係なく、撮影者や観察者の感性に適合するテキストを生成することができる。また、画像処理部４０は、第１特徴情報と第２特徴情報を用いて撮影者の撮影スキルを判定し、撮影スキルを示すテキストを生成するため、撮影者が抱く良い写真を撮りたいと思う気持ちに適合するテキストを生成することができる。また、画像処理部４０は、被写体像や撮影シーンに関係なくテキストを生成できるので、従来の手法で撮影シーン等を特定できなかった画像データについて本実施形態のテキスト生成処理を適用することにより、撮影者や観察者の感性に適合しないテキストを生成してしまったり、テキストを生成できずに処理を終了してしまう頻度を、減少させることができる。

上述の実施形態で説明したテキスト生成処理における判定内容や、テキストを選択又は決定する際の処理は一例にすぎず、発明の要旨を逸脱しない範囲内において様々な態様で実施し得ることは勿論である。例えば、ステップＳ１０２で行われる「ナイスショット判定」及びステップＳ１０４で行われる「ブレ・ボケ判定」は、図８（Ｃ）に示す「明るすぎる判定」及び「暗すぎる判定」に置き換えることが可能である。「明るすぎる判定」及び「暗すぎる判定」では、解析部４３における明るさ情報抽出部４７によって抽出された主要領域の明るさＣ（第１特徴情報）及び非主要領域の明るさＤ（第２特徴情報）を、スキル判定テキスト生成部５４が所定の閾値γ１〜γ４と比較する。「明るすぎる判定」により明るすぎると判定された画像データに対しては、スキル判定テキスト生成部５４が図１０に示す「明るすぎる」辞書を用いてテキストを生成する。また、「暗すぎる判定」により暗すぎると判定された画像データに対しては、スキル判定テキスト生成部５４が図１０に示す「暗すぎる」辞書を用いてテキストを生成する。なお、図８（Ｃ）に示す「明るすぎる判定」及び「暗すぎる判定」は、「ナイスショット判定」及び「ブレ・ボケ判定」の後に追加する態様で実施することも可能である。

また、図４に示すその他写真サブルーチン全体を、図５に示す態様に変更しても良い。図５に示す例では、ステップＳ１０１において画像データ６０に主要領域が有ると判断した場合、ステップＳ１０８へ進む。ステップＳ１０８では、まず、解析部４３及びテキスト生成部５０が、特徴抽出部４５で抽出した第１特徴情報及び第２特徴情報を用いて、図８（Ｂ）に示す「採点処理」を実施する。「採点処理」では、処理の対象となる画像データに対して、主要領域６０Ａのエッジ量Ａ（第１特徴情報）と非主要領域６０Ｂのエッジ量Ｂ（第２特徴情報）の差（Ａ−Ｂ）に応じた点数を付与する。さらに、テキスト生成部５０のスキル判定テキスト生成部５４は、図１０に示す「点数」辞書に含まれる文章から１つを選択し、文章中の空欄に「採点処理」で得られた点数をあてはめることにより、テキストを生成する。

図７は、図５に示すステップＳ１０８で生成されたテキスト「採点結果は９８点です！」が、画像データ６０と伴に表示部２６に表示された状態を表している。このようなテキスト生成処理を行う画像処理部４０は、被写体像や撮影シーンの種類に関係なく、撮影者や観察者の感性に適合するテキストを生成することができる。また、画像処理部４０は、撮影スキルを示すテキストを生成することにより、撮影者の撮影スキルの向上を支援することができる。なお、スキル判定テキスト生成部５４が画像データを採点する場合には、エッジ情報抽出部４６で抽出されたエッジ情報だけでなく、明るさ情報抽出部４７で抽出された明るさ情報や、構図情報抽出部４８で抽出された構図情報等を考慮しても良い。

上述の実施形態及び実施例では、画像処理部４０を備える撮像装置１０を例に挙げて、画像処理装置の説明を行ったが、画像処理部４０を備える画像処理装置はこれに限定されず、パーソナルコンビュータ、携帯電話等、撮像部を必ずしも有しない装置であっても良い。また、画像データからテキストを生成するプログラムは、撮像装置１０だけでなく、画像処理を実施するその他の情報機器にも、実装することができる。

１０…撮像装置
１２…撮像部
１４…光学系
１６…撮像素子
１８…Ａ／Ｄ変換部
２０…カメラ制御部
２２…操作部
２４…バス
２６…表示部
２８…記憶部
３０…バッファメモリ部
３２…通信部
３４…メモリカード
４０…画像処理部
４３…解析部
４４…領域抽出部
４５…特徴抽出部
４６…エッジ情報抽出部
４７…明るさ情報抽出部
４８…構図情報抽出部
４９…色情報抽出部
５０…テキスト生成部
５２…笑顔度テキスト生成部
５３…色形容テキスト生成部
５４…スキル判定テキスト生成部
５６…文章付加部
６０…画像データ
６０Ａ…主要領域
６０Ｂ…非主要領域

Claims

画像データから、主要被写体像を含む主要領域を抽出する領域抽出部と、
前記主要領域の所定の特徴に関する第１特徴情報と、前記画像データから前記主要領域を除いた非主要領域の前記所定の特徴に関する第２特徴情報とを抽出する特徴抽出部と、
前記第１特徴情報と前記第２特徴情報とを用いてテキストを生成し、前記画像データと関連付けるテキスト生成部と、を有する画像処理装置。
請求項１に記載された画像処理装置であって、
前記所定の特徴は、エッジ量と、前記画像データにおける位置と、明るさと、のうち少なくとも一つを含むことを特徴とする請求項１に記載の画像処理装置。
請求項１又は請求項２に記載された画像処理装置であって、
前記所定の特徴は、前記主要領域及び前記非主要領域に含まれるエッジ量を含み、
前記テキスト生成部は、前記第１特徴情報と前記第２特徴情報の差に応じて、生成する前記テキストを変化させることを特徴とする画像処理装置。
請求項１から請求項３までのいずれか１項に記載された画像処理装置であって、
前記所定の特徴は、前記主要領域及び前記非主要領域に含まれるエッジ量を含み、
前記テキスト生成部は、前記第１特徴情報が第１の閾値より大きいか又は前記第２特徴情報が第２の閾値より大きい場合には第１の辞書を用いて前記テキストを生成し、前記第１特徴情報が前記第１の閾値より小さくかつ前記第２特徴情報が前記第２の閾値より小さい場合には前記第１の辞書とは異なる第２の辞書を用いて前記テキストを生成することを特徴とする画像処理装置。
請求項１から請求項４までのいずれか１項に記載された画像処理装置であって、
前記テキスト生成部は、前記第１特徴情報と前記第２特徴情報から、前記画像データを撮影した撮影者の撮影スキルを判定し、前記撮影スキルを示す前記テキストを生成することを特徴とする画像処理装置。
請求項１から請求項５までのいずれか１項に記載された画像処理装置と、
被写体を撮像して前記画像データを生成する撮像部と、を有する撮像装置。
コンピュータに、
画像データから、主要被写体像を含む主要領域と、前記主要被写体像の周辺の像を含む非主要領域とを抽出する処理と、
前記主要領域の所定の特徴に関する第１特徴情報と、前記非主要領域の前記所定の特徴に関する第２特徴情報とを抽出する処理と、
前記第１特徴情報と前記第２特徴情報とを用いてテキストを生成し、前記画像データと関連付ける処理と、を実行させる画像処理プログラム。