JP2023096759A

JP2023096759A - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2023096759A
Application number: JP2021212731A
Authority: JP
Inventors: 和也小笠原; Kazuya Ogasawara; 信二郎堀; Shinjiro Hori
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2023-07-07
Also published as: US20230206660A1

Abstract

【課題】好適に画像を選択すること。【解決手段】候補画像群の中から画像を選択するためのプログラムであって、コンピュータを、複数の画像を含む候補画像群を取得する取得手段と、候補画像群の中から優先的に画像を選択するための特定の条件を決定する決定手段と、候補画像群の画像を解析する画像解析手段と候補画像群の画像に付されているキャプションを解析するキャプション解析手段と、決定手段、画像解析手段、およびキャプション解析手段の結果に基づき候補画像群から特定の画像を選択する選択手段と、として機能させることを特徴とする。【選択図】図５

Description

本発明は、画像を選択する技術に関する。

複数の画像の中からアルバム作成のための画像を自動で選択し、アルバムのテンプレートを自動で決定し、テンプレートへの画像の自動割り当てを実施する自動レイアウト技術がある。

特許文献１には、優先的にレイアウトしたい被写体（以下、優先被写体という）と少なくとも１つのサブ被写体とを認識し、認識した被写体の関係に基づいて優先被写体の状態を推定し、優先被写体の状態に基づいて画像を選択する技術が開示されている。

特許文献２には、ＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）に投稿された画像からアルバムを作成する際に、レイアウトされた画像に付属しているコメントに基づいてテンプレートまたはスタンプ画像を選択する技術が開示されている。この方法では、画像と予め決めたキーワードとの関連性からスコアを算出し、関連性の高いテンプレートまたはスタンプ画像の選択を可能にしている。

特開２０１８－０９７４９２号公報特開２０２１－０７１８７０号公報

ＯｒｉｏｌＶｉｎｙａｌｓ，ＡｌｅｘａｎｄｅｒＴｏｓｈｅｖ，ＳａｍｙＢｅｎｇｉｏ，ａｎｄＤｕｍｉｔｒｕＥｒｈａｎ． "ＳｈｏｗａｎｄＴｅｌｌ：ＡＮｅｕｒａｌＩｍａｇｅＣａｐｔｉｏｎＧｅｎｅｒａｔｏｒ"，２０１５ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１５，ｐｐ．３１５６－３１６４ＴｏｍａｓＭｉｋｏｌｏｖ，ＫａｉＣｈｅｎ，ＧｒｅｇＳ．Ｃｏｒｒａｄｏ，ａｎｄＪｅｆｆｒｅｙＤｅａｎ "ＥｆｆｉｃｉｅｎｔＥｓｔｉｍａｔｉｏｎｏｆＷｏｒｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｉｎＶｅｃｔｏｒＳｐａｃｅ"，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ（ＩＣＬＲ），２０１３

好適に画像を選択する技術が求められる。

そこで本発明は、好適に画像を選択することを目的とする。

本発明の一様態に係るプログラムは、候補画像群の中から画像を選択するためのプログラムであって、コンピュータを、複数の画像を含む前記候補画像群を取得する取得手段と、前記候補画像群の中から優先的に画像を選択するための特定の条件を決定する決定手段と、前記候補画像群の画像を解析する画像解析手段と前記候補画像群の画像に付されているキャプションを解析するキャプション解析手段と、前記決定手段、前記画像解析手段、および前記キャプション解析手段の結果に基づき前記候補画像群から特定の画像を選択する選択手段と、として機能させることを特徴とする。

本発明によれば、好適に画像を選択することができる。

比較例の課題を説明する図である。画像処理装置のハードウェアの構成を示すブロック図である。アルバム作成アプリケーションのソフトウェアブロック図である。アルバム作成アプリケーションが提供するＵＩの一例を説明する図である。自動レイアウト処理を示すフローチャートである。画像特徴量を示す図である。キャプション自動生成モデルを説明する図である。キャプション解析情報を示す図である。得点化処理を示すフローチャートである。画像データのレイアウトに使うテンプレート群を示す図である。実施形態の効果を説明する図である。自動レイアウト処理を示すフローチャートである。得点化処理を示すフローチャートである。自動レイアウト処理を示すフローチャートである。キャプション生成及び解析処理を示すフローチャートである。キャプション生成及び解析処理を示すフローチャートである。

以下、添付図面に従って本発明に係る画像処理装置の好ましい実施形態について詳説する。ただし、発明の範囲は図示例に限定されるものではない。

本件の説明の前に、比較例として、後述する画像のキャプション解析を用いていない場合の、優先被写体の情報を用いた画像選択について、図１を用いて説明する。図１（ａ）は電車を主体に撮影した画像であり、図１（ｂ）は図１（ａ）の画像を撮影する際にカメラの前を横切った人が写りこんでしまった画像である。優先被写体を「電車」と設定した場合、自動で選ばれる画像としてユーザが期待するのは図１（ａ）の画像であり、図１（ｂ）の画像は選ばれるべきではないと想定できる。しかしながら、比較例では、これらの画像から認識される被写体は図１（ａ）、図１（ｂ）ともに「電車」と「人」である。そのため、図１（ａ）、図１（ｂ）ともに優先被写体である「電車」が写っている画像だと判断され、優先的に選ばれる制御がなされる。したがって、従来の方法では、望ましくない優先被写体の画像が選ばれる場合がある。

以下の実施形態では、優先被写体を設定することに加え、画像に紐づくキャプションを取得し、取得したキャプションの解析によって得られた情報を用いることで画像選択の精度を向上させる方法を説明していく。なお以下の実施形態においてキャプションとは具体的には、画像に紐づけられて設定された文章である。なおキャプションは、後述するアルバム作成のためのアプリケーション（以下、「アプリ」ともいう）とは異なる他のアプリにより、画像に対して付加・設定されるものである。他のアプリとは具体的には例えば、ソーシャルネットワークサービス（SNS）に画像を投稿することが可能なSNS用アプリや複数の画像を管理してユーザに閲覧させることが可能な画像管理アプリである。これらのアプリにおいてユーザが任意の文章を入力することで、画像にキャプションが付加・設定される。なおアプリにより自動で生成された文章が、キャプションとして画像に付加・設定されても良い。この場合、他のアプリは、画像を解析して、解析結果に適した文章をキャプションとして自動で画像に付加・設定するアプリであっても良い。後述するアルバム作成のためのアプリは、例えば上述のようにして他のアプリにより設定されたキャプションを取得・解析することで以下の実施形態を実現する。なおキャプションは、上述の形態に限定されるものではなく、例えば写真画像にカメラが付加・設定したEXIF情報のように、アプリによって付加された情報以外の情報であっても良い。

＜＜第１実施形態＞＞
＜システムの説明＞
本実施形態では、画像処理装置２００において、アルバム作成のためのアプリを動作させ、自動レイアウトを生成する方法を例に挙げて説明する。なお、以下の説明において、「画像」とは、特に断りが無い限り、静止画、動画、及び動画中から抜き出されたフレーム画像を含む。また、ここでの画像は、ネットワーク上のサービス及びネットワーク上のストレージ等のネットワーク上に保持され、ネットワーク経由で取得可能な、静止画、動画、及び動画中のフレーム画像をも含みうる。

図２は、画像処理装置２００のハードウェアの構成を示すブロック図である。なお、画像処理装置２００としては、例えば、パーソナルコンピュータ（以下、ＰＣと記載）またはスマートフォン等が挙げられる。本実施形態では、画像処理装置２００は、ＰＣであるものとして説明する。画像処理装置２００は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、ＨＤＤ２０４、ディスプレイ２０５、キーボード２０６、ポインティングデバイス２０７、及びデータ通信部２０８を有する。

ＣＰＵ（中央演算装置またはプロセッサ）２０１は、画像処理装置２００を統括的に制御し、例えば、ＲＯＭ２０２に記憶されたプログラムをＲＡＭ２０３に読み出して実行することにより、本実施形態の動作を実現する。図２では、ＣＰＵは１つであるが、複数のＣＰＵで構成されても良い。ＲＯＭ２０２は、汎用的なＲＯＭであり、例えば、ＣＰＵ２０１により実行されるプログラムが記憶されている。ＲＡＭ２０３は、汎用的なＲＡＭであり、例えば、ＣＰＵ２０１によるプログラムの実行時に、各種情報を一時的に記憶するためのワーキングメモリとして用いられる。ＨＤＤ（ハードディスク）２０４は、画像ファイル、及び、画像解析などの処理結果を保持するデータベース、ならびに、アルバム作成アプリケーションにより用いられるテンプレートなどを記憶するための記憶媒体（記憶部）である。

ディスプレイ２０５は、本実施形態のユーザインタフェース（ＵＩ）、及び、画像データ（以下、「画像」ともいう）のレイアウト結果として電子アルバムをユーザに表示する。キーボード２０６及びポインティングデバイス２０７は、ユーザからの指示操作を受け付ける。ディスプレイ２０５は、タッチセンサ機能を備えても良い。キーボード２０６は、例えば、ユーザが、ディスプレイ２０５に表示されたＵＩ上に作成したいアルバムの見開き数を入力する際に用いられる。なお、本明細書において、「見開き」とは、表示においてはひとつの表示用ウィンドウに相当し、印刷においては典型的には２ページ分に対応する領域であり、シートに印刷された互いに隣接する、ユーザが一目で鑑賞できる１対のページを示す。ポインティングデバイス２０７は、例えば、ユーザが、ディスプレイ２０５に表示されたＵＩ上のボタンをクリックする際に用いられる。

データ通信部２０８は、有線又は無線等のネットワークを介して、ＳＮＳまたはクラウド等の外部の装置との通信を行う。データ通信部２０８は、例えば、自動レイアウト機能によりレイアウトされたデータを画像処理装置２００と通信可能なプリンタ又はサーバに送信する。また、後述する自動レイアウト処理の一部又は全部の処理を外部のクラウドコンピュータで実現するために、自動レイアウト処理に係るデータをクラウドコンピュータに送信する。データバス２０９は、図２の各ブロック間を相互に通信可能に接続する。

尚、図２に示す構成は、一例に過ぎず、これに限られるものではない。例えば、画像処理装置２００は、ディスプレイ２０５を有しておらず、外部のディスプレイにＵＩを表示してもよい。

本実施形態におけるアルバム作成アプリケーションは、ＨＤＤ２０４に保存されている。そして、後述するようにユーザがディスプレイ２０５に表示されているアプリケーションのアイコンをポインティングデバイス２０７により選択して、クリックまたはダブルクリックするといった操作によって起動される。

＜ソフトウェアブロックの説明＞
図３は、アルバム作成アプリケーションのソフトウェアブロックを示す図である。図３に示す各構成要素に対応する各プログラムモジュールが、上述のアルバム作成アプリケーションに含まれている。そして、ＣＰＵ２０１が各プログラムモジュールを実行することで、ＣＰＵ２０１が図３に示す各構成要素として機能する。以降、図３に示す各構成要素の説明として、各構成要素が種々の処理を実行するものとして説明する。また図３は、特に、自動レイアウト機能を実行する自動レイアウト処理部３１８に関するソフトウェアブロック図を示している。

アルバム作成条件指定部３０１は、ポインティングデバイス２０７によるＵＩ操作に応じてアルバム作成条件を自動レイアウト処理部３１８に指定する。本実施形態では、アルバム作成条件として、アルバムに使用する候補画像を含むアルバム候補画像群、見開き数、テンプレートの種類、及びアルバムで採用される画像の被写体を人物優先とするかペット優先とするかを指定可能である。また、作成するアルバムのテーマ、アルバムに画像補正をするか否かなどの条件、アルバムに配置する枚数を調整する写真枚数調整量、及び、アルバムを作成する商材を指定可能である。アルバム候補画像群の指定は、例えば撮影日時などの個別の画像の属性情報によって指定されてもよいし、デバイスおよびディレクトリ等のように画像を含むファイルシステムの構造に基づいて指定されてもよい。また、任意の画像を２枚指定させ、それぞれの画像データが撮影された日時の間に撮影された全ての画像を対象の画像群としてもよい。

画像取得部３０２は、アルバム作成条件指定部３０１により指定されたアルバム候補画像群をＨＤＤ２０４から取得する。画像取得部３０２は、メタ情報（画像に付随する付加的なデータ）として、取得した画像に含まれる画像の幅もしくは高さ情報、撮影時のＥｘｉｆ情報に含まれる撮影日時情報、又は画像がユーザ画像群に含まれるのかを示す情報等を画像解析部３０４へ出力する。また、画像取得部３０２は、取得した画像データを画像変換部３０３へ出力する。各画像には、識別情報が付与され、画像解析部３０４に出力されたメタ情報、および後述する画像変換部３０３を介して画像解析部３０４に出力された画像データは、画像解析部３０４にて対応付けが可能である。

ＨＤＤ２０４に保存されている画像としては、静止画像及び動画から切り出されたフレーム画像が挙げられる。静止画像及びフレーム画像は、デジタルカメラ及びスマートデバイス等の撮像デバイスから取得されたものである。撮像デバイスは、画像処理装置２００が備えていてもよいし、外部装置が備えるものであってもよい。なお、撮像デバイスが外部装置である場合は、画像は、データ通信部２０８を介して取得される。また、静止画像及び切り出し画像は、データ通信部２０８を介してネットワークまたはサーバから取得した画像であってもよい。ネットワークまたはサーバから取得した画像としては、ＳＮＳ画像が挙げられる。ＣＰＵ２０１によって実行されるプログラムは、各画像に対して、画像に付属したデータを解析して保存元を判定する。ＳＮＳ画像は、アプリケーションを介してＳＮＳから画像を取得することで、アプリケーション内で取得先を管理してもよい。画像は、上述した画像に限定されるものではなく、他の種類の画像であってもよい。

画像変換部３０３は、画像取得部３０２から入力した画像データを画像解析部３０４で使用するための画素数及び色情報に変換して、画像解析部３０４に出力する。本実施形態では、画像を、所定の画素数（例えば短辺４２０画素）にして、長辺は元の各辺の比率を維持した大きさに変換する。さらに、色の解析を行うためにｓＲＧＢなどの色空間に統一されるように変換する。このように画像変換部３０３は、画素数及び色空間が統一された解析画像へ変換するものとする。画像変換部３０３は、変換した画像を画像解析部３０４に出力する。また、画像変換部３０３は、レイアウト情報出力部３１５および画像補正部３１７に画像を出力する。

画像解析部３０４は、画像変換部３０３から入力する解析画像に対し、後述する方法で画像データを解析して、画像特徴量を取得する。画像特徴量とは、例えば、画像に格納されているメタ情報、または、画像を解析することで取得できる特徴量のことである。解析処理としては、ピントの合焦度合いの推定、顔検出、個人認識、またはオブジェクト判定の各処理を実行し、これらの画像特徴量を取得する。画像特徴量としては、他には、色味、明るさ、解像度、データ量、またはボケ・ブレの程度などが挙げられるが、それ以外の画像特徴量を取得してもよい。画像解析部３０４は、これらの画像特徴量と共に、画像取得部３０２から入力するメタ情報から必要な情報を抽出して組み合わせて、特徴量として画像得点部３０７へ出力する。また、画像解析部３０４は、撮影日時情報を見開き割当部３１２に出力する。

キャプション取得部３０５は、取得した画像に付属するキャプションを取得し、キャプション解析部３０６に出力する。キャプション生成部３１９は、キャプションが付属していない画像に対して、既知のキャプション生成モデルを適用することでキャプションを生成し、キャプション解析部３０６に出力する。

キャプション解析部３０６は、キャプション取得部３０５から入力するキャプションに対し、後述する方法でキャプションを解析して、キャプション解析情報を取得し、画像得点部３０７へ出力する。

画像得点部３０７は、画像解析部３０４から取得した特徴量及びキャプション解析部３０６から取得したキャプション解析情報を使用してアルバム候補画像群の各画像に対して得点付けを行う。ここでいう得点とは、各画像に対するレイアウトへの適切度を示した指標であり、高得点であるほどレイアウトに適していることを示す。得点付けした結果は、画像選択部３１１および画像レイアウト部３１４に出力される。

写真枚数調整量入力部３０８は、アルバム作成条件指定部３０１から指定された、アルバムに配置する写真枚数を調整する調整量を、写真枚数決定部３１０に入力する。見開き数入力部３０９は、アルバム作成条件指定部３０１から指定された、アルバムの見開き数を、写真枚数決定部３１０および見開き割当部３１２に入力する。アルバムの見開き数は、複数の画像が配置される複数のテンプレートの数に相当する。

写真枚数決定部３１０は、写真枚数調整量入力部３０８から指定された調整量および見開き数入力部３０９から指定された見開き数に基づいて、アルバムを構成する総写真枚数を決定し、画像選択部３１１に入力する。

画像選択部３１１は、写真枚数決定部３１０から入力された写真枚数および画像得点部３０７で算出した得点に基づいて画像選択を行い、アルバムで使用されるレイアウト画像群のリストを作成して、見開き割当部３１２へ提供する。

見開き割当部３１２は、画像選択部３１１で選択された画像群に対して、撮影日情報を用いて、各画像を見開きに割り当てる。ここでは見開き単位で割り当てる例を説明するが、ページ単位に割り当ててもよい。

テンプレート入力部３１３は、アルバム作成条件指定部３０１から指定されたテンプレート情報に応じた複数のテンプレートをＨＤＤ２０４から読み込み、画像レイアウト部３１４に入力する。

画像レイアウト部３１４は、個々の見開きについての画像のレイアウト処理を行う。具体的には、処理対象の見開きについて、テンプレート入力部３１３により入力された複数のテンプレートから画像選択部３１１で選択した画像に適したテンプレートを決定し、各画像のレイアウトを決定する。

レイアウト情報出力部３１５は、画像レイアウト部３１４が決定したレイアウトに従って、ディスプレイ２０５に表示するためのレイアウト情報を出力する。レイアウト情報は、例えば、決定したテンプレートに画像選択部３１１により選択された選択画像のデータがレイアウトされたビットマップデータである。

画像補正条件入力部３１６は、アルバム作成条件指定部３０１から指定された画像補正のＯＮ／ＯＦＦ情報を画像補正部３１７に提供する。補正の種類としては、例えば、輝度補正、覆い焼き補正、赤目補正、またはコントラスト補正などが挙げられる。画像補正のＯＮまたはＯＦＦは、補正の種類ごとに指定されてもよいし、全ての種類についてまとめて指定されてもよい。

画像補正部３１７は、画像補正条件入力部３１６より受信した、画像補正条件に基づいて、レイアウト情報出力部３１５が保持するレイアウト情報に対して補正を実施する。尚、画像変換部３０３から画像補正部３１７で処理する画像の画素数は、画像レイアウト部３１４で決定したレイアウト画像のサイズに合わせて変えることができる。なお、本実施形態では、レイアウト画像を生成した後に、各画像に画像補正を行うものとしたが、これに限定されず、見開き又はページにレイアウトする前に、各画像の補正を行うようにしてもよい。

アルバム作成アプリケーションが画像処理装置２００にインストールされると、画像処理装置２００上で動作するＯＳ（オペレーティングシステム）のトップ画面（デスクトップ）上に、起動アイコンが表示される。ユーザがディスプレイ２０５に表示されている起動アイコンをポインティングデバイス２０７でダブルクリックすると、ＨＤＤ２０４に保存されているアプリのプログラムがＲＡＭ２０３にロードされ、ＣＰＵ２０１により実行されることで起動する。

なお、ソフトウェアブロックの構成要素の一部又は全ての機能が専用の回路を用いることで実現されてもよい。また、ソフトウェアブロックの構成要素の一部又は全ての機能が、クラウドコンピュータを用いることで実現されてもよい。

＜ＵＩ画面の例＞
図４は、アルバム作成アプリケーションが提供するアプリ起動画面４０１の一例を示す図である。アプリ起動画面４０１は、ディスプレイ２０５に表示される。ユーザはアプリ起動画面４０１を介して後述するアルバムの作成条件を設定する。アルバム作成条件指定部３０１は、このＵＩ画面を通じてユーザからの設定内容を取得する。

アプリ起動画面４０１上のパスボックス４０２は、アルバム作成の対象となる複数の画像（例えば複数の画像ファイル）のＨＤＤ２０４中の保存場所（パス）を表示する。フォルダ選択ボタン４０３がユーザからのポインティングデバイス２０７でのクリック操作により指示されると、ＯＳに標準で搭載されているフォルダの選択画面が表示される。フォルダの選択画面では、ＨＤＤ２０４で設定されているフォルダがツリー構成で表示され、ユーザは、ポインティングデバイス２０７により、アルバム作成の対象とする画像を含むフォルダを選択することができる。ユーザにより選択されたアルバム候補画像群が格納されるフォルダのパスが、パスボックス４０２に表示される。

テーマ選択ドロップダウンリスト４０４はユーザからのテーマの設定を受け付ける。テーマとはレイアウトする画像に一種の統一性を持たせるための指標であり、例えば、「旅行」「セレモニー」「日常」などである。テンプレート指定領域４０５は、ユーザがテンプレート情報を指定するための領域であり、テンプレート情報がアイコンとして表示される。テンプレート指定領域４０５には、複数のテンプレート情報のアイコンが並んで表示され、ユーザがポインティングデバイス２０７によりクリックすることでテンプレート情報を選択可能である。

見開き数ボックス４０６は、ユーザからのアルバムの見開き数の設定を受け付ける。ユーザは、キーボード２０６を介して見開き数ボックス４０６に直接数字を入力するか、ポインティングデバイス２０７を用いてリストから見開き数ボックス４０６に数字を入力する。

チェックボックス４０７は、ユーザからの画像補正のＯＮ／ＯＦＦの指定を受け付ける。チェックが入った状態は画像補正ＯＮが指定された状態であり、チェックが入っていない状態は画像補正ＯＦＦが指定された状態である。本実施形態では、全ての画像補正が１つのボタンでＯＮ／ＯＦＦされるものとしたが、これに限定されず、画像補正の種類毎にチェックボックスを備えるようにしてもよい。

優先モード選択ボタン４０８は、作成するアルバムにおいて、人物画像を優先的に選択させるのか、ペット画像を優先的に選択させるのかの優先モードの設定をユーザから受け付ける。なお、本実施形態では優先モードを人物、またはペットの２つのモードから選択するようになっているがこれに限らず、例えば風景、乗り物、または食べ物等、他のモードがあってもよい。ここで設定した優先モードを基に、画像得点部３０７は、画像の得点化の際の補正等を行う基準として用いる優先被写体を決定する。

写真枚数調整４０９は、アルバムの見開きに配置する画像枚数をスライダーバーで調整するためのものである。ユーザは、スライダーバーを左右に移動させることにより、アルバムの各見開き配置する画像枚数を調整することができる。写真枚数調整４０９は、例えば、少は－５、多は＋５などの適当な数字に割り当てることで、見開き内に配置できる画像枚数の数を調整できるようにする。なお、スライダーバーを用いずにユーザが写真枚数を入力するような形態があってもよい。

商材指定部４１０は、作成するアルバムの商材を設定する。商材は、アルバムのサイズ、アルバムの用紙種類を設定することができる。また、個別に表紙種類および綴じ部の種類を設定してもよい。

ユーザによりＯＫボタン４１１が押下されると、アルバム作成条件指定部３０１は、アプリ起動画面４０１上で設定されている内容をアルバム作成アプリケーションの自動レイアウト処理部３１８に出力する。

その際、パスボックス４０２に入力されているパスは、画像取得部３０２に伝えられる。また、見開き数ボックス４０６に入力されている見開き数は、見開き数入力部３０９に伝えられる。テンプレート指定領域４０５で選択されているテンプレート情報は、テンプレート入力部３１３に伝えられる。画像補正チェックボックスの画像補正のＯＮ／ＯＦＦは、画像補正条件入力部３１６に伝えられる。アプリ起動画面４０１上のリセットボタン４１２は、アプリ起動画面４０１上の各設定情報をリセットするためのボタンである。

＜処理の流れ＞
図５は、アルバム作成アプリケーションの自動レイアウト処理部３１８の処理を示すフローチャートである。図５に示すフローチャートは、例えば、ＣＰＵ２０１がＨＤＤ２０４に記憶されたプログラムをＲＡＭ２０３に読み出して実行することにより実現される。図５の説明では、ＣＰＵ２０１が上記アルバム作成アプリケーションを実行することで機能する、図３に示す各構成要素が処理を実行するものとして説明する。図５を参照しながら、自動レイアウト処理を説明する。尚、各処理の説明における記号「Ｓ」は、当該フローチャートにおけるステップであることを意味する（本実施形態以降についても同様である）。

Ｓ５０１において画像得点部３０７は、アルバム作成条件指定部３０１で指定された優先モード情報に基づいて、優先被写体を決定する。例えば、人物画像を優先して選択する人物優先モードが指定された場合は、「人物」「男性」「女性」「子ども」などといった、人物に関連する被写体を優先被写体に決定する。対して、ペット画像を優先して選択するペット優先モードが指定された場合は、「ペット」「犬」「猫」「ハムスター」などといった、ペットに関連する被写体を優先被写体に決定する。このように、Ｓ５０１では指定された優先モードに紐づけられた、少なくとも１つの優先被写体を決定する。

本実施形態では、優先モード選択ボタン４０８において指定された優先モードに基づいて優先被写体を決定したが、これに限らず、例えば、不図示の優先被写体ボックスを介して、ユーザが任意の優先被写体を指定してもよい。また、テーマ選択ドロップダウンリスト４０４において指定されたテーマに基づいて、優先被写体を決定してもよい。

Ｓ５０２において画像変換部３０３は、画像を変換して解析画像を生成する。ここで解析に用いられる画像は、アルバム作成条件指定部３０１で指定されたＨＤＤ２０４内のフォルダに格納されたアルバム候補画像群の中の画像である。従って、Ｓ５０２の時点では、アプリ起動画面４０１のＵＩ画面を通じた各種の設定が完了している状態であり、アルバム作成条件及びアルバム候補画像群が設定済みであるものとする。画像変換部３０３は、アルバム候補画像群をＨＤＤ２０４からＲＡＭ２０３に読み出す。そして画像変換部３０３は、読み出された画像ファイルの画像を、前述したように、所定の画素数及び色情報を有する解析画像に変換する。本実施形態では、短辺が４２０画素であり、ｓＲＧＢに変換された色情報を有する解析画像に変換する。

Ｓ５０３において画像解析部３０４は、Ｓ５０２で生成された解析画像の解析処理を実行し、画像特徴量を取得する。本実施形態では、解析処理として、ピントの合焦度合いの取得、顔検出、個人認識、及びオブジェクト判定を実行するが、これに限定されず、その他の解析処理を実行してもよい。以下、Ｓ５０３において画像解析部３０４で行われる処理の詳細を説明する。

画像解析部３０４は、画像取得部３０２から受け取ったメタ情報のうち、必要なメタ情報を抽出する。画像解析部３０４は、例えば、ＨＤＤ２０４から読み出された画像ファイルに付属するＥｘｉｆ情報から、該画像ファイル内の画像の時間情報として、撮影日時を取得する。尚、メタ情報としては、例えば、画像の位置情報またはＦ値などを取得しても良い。また、メタ情報として、画像ファイルに付属する以外の情報を取得してもよい。例えば、画像の撮影日時に紐づくスケジュール情報を取得してもよい。

また、前述したが、画像解析部３０４は、Ｓ５０２で生成された解析画像から画像特徴量を取得する。画像特徴量としては、例えば、ピントの合焦度合いが挙げられる。ピントの合焦度合いを求める方法として、エッジの検出が行われる。エッジの検出方法として一般的にソーベルフィルタが知られている。ソーベルフィルタでエッジ検出を行い、エッジの始点と終点との輝度差を、始点と終点との距離で割れば、エッジの傾きが算出される。画像中のエッジの平均傾きを算出した結果から、平均傾きが大きい画像は、平均傾きが小さい画像よりもピントが合っているとみなすことができる。そして、傾きに対して異なる値の複数の閾値を設定すれば、どの閾値以上かを判定することが可能となり、ピント量の評価値を出力可能である。本実施形態では、異なる２つの閾値を予め設定しておき、「○」、「△」、及び「×」の３段階により、ピント量を判定する。例えば、「○」を、アルバムに採用したいピントの傾きと判定し、「△」を、許容可能なピントの傾きと判定し、「×」を、許容不可能な傾きと判定するように、各閾値を予め設定しておく。閾値の設定は、例えば、アルバム作成アプリケーションの作成元等により提供されても良いし、ユーザインタフェース上で設定可能としても良い。尚、画像特徴量としては、例えば、画像の明るさ、色味、彩度、または解像度などを取得してもよい。

また、画像解析部３０４は、Ｓ５０２で生成された解析画像に対して、顔検出を実行する。ここで、顔検出の処理には、公知の方法を用いることができる。例えば、複数用意した弱識別器から強識別器を作成するＡｄａｂｏｏｓｔが顔検出処理に用いられる。本実施形態では、Ａｄａｂｏｏｓｔにより作成した強識別器により人物（オブジェクト）の顔画像が検出される。画像解析部３０４は、顔画像を抽出するとともに、検出した顔画像の位置の左上座標値と右下座標値とを取得する。この２種の座標を持つことにより、画像解析部３０４は、顔画像の位置と顔画像のサイズとを取得可能である。

画像解析部３０４は、顔検出で検出した、解析画像に基づく処理対象の画像内の顔画像と、顔辞書データベースに個人ＩＤ毎に保存されている代表顔画像とを比較することにより、個人認識を行う。画像解析部３０４は、複数の代表顔画像のそれぞれに対して、処理対象の画像内の顔画像との類似性を取得する。また、類似性が閾値以上であり且つ類似性が最も高い代表顔画像を特定する。そして、特定された代表顔画像に対応する個人ＩＤを、処理対象の画像内の顔画像のＩＤとする。尚、上記複数の代表顔画像のすべてについて、処理対象の画像内の顔画像との類似性が閾値未満の場合、画像解析部３０４は、処理対象の画像内の顔画像を、新規の代表顔画像として、新規の個人ＩＤと対応付けて顔辞書データベースに登録する。

また、画像解析部３０４は、Ｓ５０２で生成された解析画像に対して、オブジェクト認識を実行する。ここで、オブジェクト認識の処理には、公知の方法を用いることができる。本実施形態では、ＤｅｅｐＬｅａｒｎｉｎｇにより作成した判別器によりオブジェクトが認識される。判別器は各オブジェクトに対する０～１の尤度を出力し、ある閾値を超えたオブジェクトに対し、画像中にあると認識する。画像解析部３０４は、オブジェクト画像を認識することで、犬または猫などのペット、花、食べ物、建物、置物、またはランドマークなどのオブジェクトの種類を取得可能となる。本実施形態ではオブジェク判別しているが、これに限定されず、表情、撮影構図、または、旅行または結婚式などのシーンなどを認識することで、それぞれの種類を取得してもよい。また、判別を実行する前の、判別器から出力された尤度そのものを利用しても良い。

図６は、画像特徴量を示す図である。画像解析部３０４は、Ｓ５０２で取得した画像特徴量を、図６に示すように各画像（解析画像）を識別するＩＤ毎に区別して、ＲＯＭ２０２等の記憶領域に記憶する。例えば、図６に示すように、Ｓ５０２で取得された撮影日時情報、ピント判別結果、検出された顔数とその位置情報及び類似性、並びに、認識したオブジェクトの種類が、テーブル形式で記憶される。尚、顔画像の位置情報は、Ｓ５０２で取得された個人ＩＤ毎に区別して記憶される。また１つの画像から複数種類のオブジェクトが認識された場合、図６に示すテーブルには、その１つの画像に対応する行に、オブジェクトの複数種類がすべて記憶される。

Ｓ５０４においてキャプション取得部３０５は、画像にキャプションが付属しているか否かを判定する。キャプションが付属していると判定された場合、Ｓ５０５の処理に進み、キャプションが付属していないと判定された場合、Ｓ５０６の処理に進む。

Ｓ５０５においてキャプション取得部３０５は、画像に付属しているキャプションを取得する。尚、ユーザが付与したキャプションある場合、または、過去のアルバム作成等でキャプションを付けた履歴等があってキャプションが付いている場合は、そのキャプションのデータを取得する。

Ｓ５０６においてキャプション生成部３１９は、既知のキャプション生成モデルを用いて画像のキャプションを自動で生成する。キャプションの自動生成方法は特に限定されないが、本実施形態では、非特許文献１に記載のＳｈｏｗａｎｄＴｅｌｌモデルを用いて、キャプションを自動で生成する。

図７は、ＳｈｏｗａｎｄＴｅｌｌモデルを例に、キャプション生成モデルについて説明する図である。キャプション生成モデルは大きく分けて３つのネットワークで構成される。３つのネットワークとは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、単語分散表現Ｗｅ（ＷｏｒｄＥｍｂｅｄｄｉｎｇ）、およびＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）、である。ＣＮＮは画像を特徴量ベクトルに変換する。単語分散表現Ｗｅは、単語を特徴量ベクトルに変換する。ＬＳＴＭは、次の単語の出現確率を出力するものである。キャプションを生成する際は、まず、ＣＮＮに画像を入力する。そして入力して得られた特徴量ベクトルをＬＳＴＭに入力することで、単語の出現確率を文の先頭から順番に求めていき、単語の出現確率の積が高い単語列をキャプション文として出力する。

Ｓ５０７においてキャプション解析部３０６は、Ｓ５０５で取得したキャプション及びＳ５０６で生成したキャプションを解析し、キャプション解析情報を取得する。本実施形態では、解析処理として、構文解析を実行する。構文解析とは、言語を形態素に分解し、さらにその間の統語論的な関係を明確にする処理である。構文解析の実現手段としては、演算子順位法、トップダウン構文解析法、またはボトムアップ構文解析法などといった公知の手法を用いてよい。キャプション解析部３０６は、Ｓ５０５で取得したキャプション及びＳ５０６で生成したキャプションに対して構文解析を行うことで、キャプションにおける主語、動詞、目的語、または補語といった要素を取得する。

本実施形態では、以上でキャプション解析処理を終了するが、構文解析で得られた要素の単語に対して更なる解析処理を実施してもよい。例えば、要素となった単語を、公知の技術を用いて分散表現に変換してもよい。分散表現とは、文字または単語をベクトル空間に埋め込み、その空間上のひとつの点として捉える表現方法である。公知の技術としては、例えば、非特許文献２に記載のＷｏｒｄ２Ｖｅｃが挙げられる。

図８は、キャプション解析情報を示す図である。キャプション解析部３０６は、Ｓ５０７で取得したキャプション解析情報を、図８に示すように各画像を識別するＩＤ毎に区別して、ＲＯＭ２０２等の記憶領域に記憶する。例えば、図８に示すように、Ｓ５０７で取得された主語、動詞、目的語、または補語の各要素が、テーブル形式で記憶される。尚、図８には、単語を分散表現に変換した場合の例も示している。

Ｓ５０８において画像得点部３０７は、アルバム候補画像群の各画像に対して得点化を実行する。ここで述べる得点とは、各画像に対するレイアウトへの適切度を示した指標である。得点化とは、画像ごとに得点を付与すること（スコアリング）である。付与された得点は、画像選択部３１１に提供され、後述のレイアウトに用いられる画像の選択時に参照される。

図９は、Ｓ５０８の得点化処理の詳細を示すフローチャートである。以下、図９を用いて、Ｓ５０８で行われる得点化処理を説明する。

まず、Ｓ９０１において画像得点部３０７は、Ｓ５０２で取得した画像特徴量ごとに、アルバム候補画像群の平均値および標準偏差を算出する。Ｓ９０２において画像得点部３０７は、全ての画像特徴量項目に対して、Ｓ９０１の処理が終了したか否かが判定される。ここで、終了していないと判定された場合、Ｓ９０１からの処理を繰り返す。終了していると判定された場合、処理はＳ９０３に進む。

Ｓ９０３において画像得点部３０７は、下記に記載の式（１）を用いて、得点化の対象となる画像（「注目画像」という）ごとの得点を算出する。尚、得点化の対象となる画像は、アルバム候補画像群の画像である。
Ｓｊｉ＝５０－｜１０×（μｉ―ｆｊｉ）／σｉ｜・・・式（１）

ここで、ｊは注目画像のインデックスを、ｉは画像特徴量のインデックスを、ｆｊｉは注目画像の画像特徴量を、Ｓｊｉは画像特徴量ｆｊｉに対応する得点を示す。また、μｉおよびσｉはそれぞれアルバム候補画像群の画像特徴量ごとの平均値および標準偏差を示している。そして、画像得点部３０７は、式（１）で求めた、注目画像ごと、かつ画像特徴量ごとの得点Ｓｊｉと、下記の式（２）と、を用いて、各注目画像の得点を算出する。
Ｐｊ＝Σｉ（Ｓｊｉ）／Ｎｉ・・・式（２）

ここで、Ｐｊは各注目画像の得点を、Ｎｉは画像特徴量の項目数を示している。つまり、各注目画像の得点は、各画像特徴量の得点の平均として算出される。尚、ここで、アルバムに用いる画像はピントが合っている方が好ましいので、図７に示すピントの特徴量が「〇」である注目画像に対しては所定の得点を加算するようにしても良い。

Ｓ９０４において画像得点部３０７は、Ｓ５０７で取得したキャプション解析情報に基づいて、Ｓ９０３で算出した得点を補正する。補正方法としては、Ｓ５０７で取得した主語の情報と、Ｓ５０１で設定した優先被写体の情報とが一致する場合に、Ｓ９０３で算出した得点を増加させる方法が挙げられる。ユーザが付加したキャプションにおいて、主語は画像中の重要な被写体を決定づける重要な情報であり、主語となった被写体は主要被写体であると捉えられる。したがって、この方法に依れば、優先的にレイアウトしたい被写体が、画像中の重要な被写体となっているような、望ましい優先被写体の画像が選択されやすくなるような得点付けができる。本実施形態では、主語の情報と優先被写体の情報とが一致した画像の得点を例えば２０点上げるようにしているが、これ以外の増加値でもよい。

また、他の補正方法として、主語の情報と優先被写体の情報とが一致しない場合に、Ｓ９０３で算出した得点を減少させる方法を用いてもよい。この方法に依れば、優先的にレイアウトしたい被写体が、画像中の重要な被写体となっておらず、レイアウトには望ましくない優先被写体の画像が選択されにくくなるような制御が可能となる。

上記の補正方法では、主語の情報と優先被写体の情報とが一致するか否かで得点を補正したが、図４の優先モード選択ボタン４０８において選択するような被写体の優先モードを用いた完全に一致している必要はなく、類義であるか否かで得点を補正しても良い。例えば、図４の優先モード選択ボタン４０８において「ペット優先モード」を選択した場合に、主語が「犬」または「猫」といった「ペット」と類義である情報と一致するか否かで得点を補正しても良い。この方法に依れば、より柔軟な得点補正が可能となる。具体的な方法としては、例えば、公知のＷｏｒｄＮｅｔを用いて優先被写体と主語とが類義であるか否かを判定し、類義である場合に得点を増加させる方法が挙げられる。また、単語間の類義関係を予めＲＯＭ２０２に保持しておき、優先被写体と主語とが類義関係であるか否かを探索してもよい。

また、Ｓ５０４においてキャプションが付属していないと判定された場合に、キャプション生成のステップ（Ｓ５０６）に進むのではなく、Ｓ９０３において算出した得点を減少させてもよい。ユーザがキャプションを付加していない画像は、キャプションを付加した画像と比べるとユーザにとって重要ではない画像であるという考え方もできる。したがって、この方法に依れば、キャプションを付加していない画像の得点が下がることで、キャプションを付加しているユーザにとって重要な画像が相対的に選ばれやすくなる。

反対に、Ｓ５０４において、キャプションが付属していると判定された画像の得点を増加させても良い。この方法に依れば、キャプションが付属している画像の得点が上がることで、キャプションを付加しているユーザにとって重要な画像が選ばれやすくなる。

また、Ｓ５０５において、単語を分散表現で表した場合、分散表現された空間ベクトル上における優先被写体と取得した主語との関係に基づいて得点を補正してもよい。例えば、空間ベクトル上における優先被写体と取得した主語との距離が、ある閾値以下となった場合に得点を増加してもよい。この方法に依れば、優先被写体と取得した主語が完全に一致するか否かではなく、両単語が意味的に類似しているか否かで得点の補正が可能となる。尚、この場合、Ｓ９０４以前において予め優先被写体の単語を分散表現に変換しておくのが望ましい。

Ｓ９０５において画像得点部３０７は、ユーザ指定のフォルダ内の全てのアルバム候補画像群の画像に対してＳ９０３及びＳ９０４の処理が終了したか否かを判定する。終了していないと判定された場合、Ｓ９０３からの処理が繰り返される。終了していると判定された場合、図９の得点化処理は終了する。

図５の説明に戻る。Ｓ５０８に続き、Ｓ５０９において画像得点部３０７は、ユーザ指定のフォルダ内の全てのアルバム候補画像群の画像に対してＳ５０８の画像得点化が終了したか否かを判定する。終了していないと判定された場合、Ｓ５０２からの処理が繰り返される。終了していると判定された場合、Ｓ５１０に処理が進む。

Ｓ５１０において写真枚数決定部３１０は、アルバムに配置する写真枚数を決定する。本実施形態においては、写真枚数調整量入力部３０８から入力された、見開き写真枚数を調整する調整量と、見開き数入力部３０９から入力された見開き数とを用いて、式（３）により、アルバムに配置する写真枚数を決定する。
写真枚数＝[見開き数×（基本写真枚数＋調整量）]・・・式（３）

ここで、[・]は小数部分を切り捨てる床関数を示し、基本写真枚数は調整しない場合の見開きに配置する画像枚数を示している。本実施形態においては、基本写真枚数はレイアウト時の見栄えを考慮して６枚とし、アルバム作成アプリケーションのプログラムに予め組み込んでおく。

Ｓ５１１において画像選択部３１１は、画像得点部３０７で算出した各画像に対する得点および写真枚数決定部３１０から決定した写真枚数から、レイアウトする画像を選択する。以下、選択された画像群のことを、レイアウト画像群という。本実施形態においては、画像選択部３１１は、レイアウトする総画像枚数だけ、アルバム作成条件指定部３０１で指定した画像群から、画像得点部３０７で付与された得点が高い順番に画像を選択する。なお、画像選択の方法として、得点が高いほど、高い選択確率を設定し、確率で選択するようにしてもよい。このようにして、確率で選択することによって、自動レイアウト処理部３１８による自動レイアウト機能を実行する度にレイアウト画像を変えることができる。例えば、ユーザが自動レイアウト結果に納得しない場合に、ＵＩ不図示の再選択ボタンを押すことで、ユーザは前回と異なるレイアウト結果を得ることができるようにしてもよい。

また、画像選択部３１１において、画像得点部３０７で算出した得点が、ある閾値以上となった画像をレイアウト画像として選択してもよい。この場合は、写真枚数決定部３１０において写真枚数を決定しなくてもよい。この場合、選択される画像枚数が見開き数となるような値が、閾値として設定され得る上限となる。

Ｓ５１２において見開き割当部３１２は、Ｓ５１１で取得したレイアウト画像群を、見開き数入力部３０９から入力された見開き数分の画像群に分割して割り当てる。本実施形態では、レイアウト画像をＳ５０３で取得した撮影時間順に並べ、隣り合う画像間の撮影時間の時間差が大きい場所で分割する。このような処理を、見開き数入力部３０９から入力された見開き数分に分割するまで行う。つまり、（見開き数－１）回の分割を行う。これにより、撮影時間順に画像が並んだアルバムを作成することができる。なお、Ｓ５１２の処理は、見開き単位ではなく、ページ単位で行っても良い。

Ｓ５１３において画像レイアウト部３１４は、画像レイアウトの決定を行う。以下、テンプレート入力部３１３が、指定されたテンプレート情報に従って、ある見開きに対して図１０の（ａ）～（ｐ）を入力する例を説明する。

図１０は、画像データのレイアウトに使うテンプレート群を示す図である。テンプレート群に含まれている複数のテンプレートのそれぞれが、各見開きに対応している。テンプレート１００１は１枚のテンプレートである。テンプレート１００１には、メインスロット１００２と、サブスロット１００３と、サブスロット１００４とが含まれる。メインスロット１００２は、テンプレート１００１内でメインとなるスロット（画像をレイアウトする枠）であり、サブスロット１００３およびサブスロット１００４よりもサイズが大きい。

ここでは、入力されたテンプレートのスロット数は一例として３と指定されている。図１０（ｑ）は、指定されたテンプレートの数に従って選択されている３枚の画像を撮影日時順に並べた図である。また、３枚の画像は、向き（縦向き、または横向き）も区別された状態で並べられている。

ここでは、見開きに割り当てられた各画像群において、画像得点部３０７で算出した得点が最も大きい画像をメインスロット用とし、その他の画像をサブスロット用に設定する。なお、画像解析部３０４で取得したある画像特徴量に基づいてメインスロット用かサブスロット用かを設定してもよいし、ランダムに設定しても良い。

ここでは、画像データ１００５がメインスロット用であり、画像データ１００６と１００７とがサブスロット用であるものとする。本実施形態では、テンプレートの左上（テンプレート１００１でいうメインスロット１００２）に撮影日時のより古い画像データがレイアウトされ、右下（テンプレート１００１でいうサブスロット１００４）に撮影日時のより新しい画像がレイアウトされる。図１０（ｑ）では、メインスロット用の画像データ１００５は、縦向きであり、撮影日時が一番新しいので、テンプレートの右下がメインスロットとなるようにレイアウトされる。従って、図１０（ｉ）～（ｌ）のテンプレートが候補となる。また、サブスロット用の古い方の画像データ１００６が縦画像であり、新しい方の画像データ１００７が横画像であるので、結果、図１０（ｊ）のテンプレートが、選択された３つの画像データに最も適したテンプレートとして決定され、レイアウトが決まる。Ｓ５１３では、どの画像をどのテンプレートのどのスロットにレイアウトするかが決定される。

Ｓ５１４において画像補正部３１７は、画像補正を実行する。画像補正部３１７は、画像補正条件入力部３１６から画像補正がＯＮであることを示す情報が入力された場合、画像補正を実行する。画像補正として、例えば、覆い焼き補正（輝度補正）、赤目補正、またはコントラスト補正が実行される。画像補正部３１７は、画像補正条件入力部３１６から画像補正がＯＦＦであることを示す情報が入力された場合、画像補正を実行しない。画像補正は、例えば、短辺１２００画素で、ｓＲＧＢの色空間にサイズが変換された画像データに対しても実行可能である。

Ｓ５１５においてレイアウト情報出力部３１５は、レイアウト情報を作成する。画像レイアウト部３１４は、Ｓ５１３で決定されたテンプレートの各スロットに対して、Ｓ５１４の画像補正が実行された画像データをレイアウトする。このとき、画像レイアウト部３１４は、スロットのサイズ情報に合わせてレイアウトする画像データを変倍してレイアウトする。そして、レイアウト情報出力部３１５は、テンプレートに画像データがレイアウトされたビットマップデータを、出力画像として生成する。

Ｓ５１６において画像レイアウト部３１４は、Ｓ５１３からＳ５１５の処理が全ての見開きに対して終了したか否かが判定される。終了していないと判定された場合、Ｓ５１３からの処理を繰り返す。終了していると判定された場合、図５の自動レイアウト処理は終了する。

＜第１実施形態の効果＞
以上説明したように、本実施形態によれば、好適に画像を選択することができる。以下、比較例と本実施形態との画像選択の効果の違いを、図を用いて説明する。

図１１は、本実施形態の効果を説明する図である。１１０１及び１１０２はそれぞれ、図１（ａ）及び図１（ｂ）と同じ画像である。そして、優先被写体が「電車」の場合において、画像１１０１は選ばれるべき画像であり、画像１１０２は選びたくない画像である。従来においては、優先被写体が「電車」と設定されていることにより、電車が写っている画像１１０１と画像１１０２との両方が選ばれやすくなっていた。本実施形態では、優先被写体の設定に加え、画像に紐づくキャプションを取得し、構文解析を実施することで主要被写体たり得る主語を特定し、優先被写体と主語が一致する画像の得点を増加させた。この方法に依れば、Ｓ５０５からＳ５０８の処理によって、画像１１０１の主語は電車１１０３となり、画像１１０２の主語は人１１０４となる。そのため、優先被写体と主要被写体たり得る主語とが一致する画像１１０１は、得点が増加されて選ばれやすくなり、画像１１０２は得点が補正されないことで相対的に選ばれにくくなる。すなわち、ユーザにとってより望ましい優先被写体の画像が選択できるようになる。

＜＜第２実施形態＞＞
第２実施形態では、第１実施形態で説明したＳ５０３の画像解析処理を行わず、キャプション解析結果を用いて画像の得点化を実現する。

本実施形態におけるアルバム作成アプリケーションのソフトウェアブロック図は、基本的に実施形態１の図３と同様であるが、画像解析処理は行わないため、画像解析部３０４はなくてもよい。

＜処理の流れ＞
図１２は、第２実施形態におけるアルバム作成アプリケーションの自動レイアウト処理部３１８の処理を示すフローチャートである。図１２を参照しながら、第２実施形態における自動レイアウト処理を説明する。尚、自動レイアウト処理の基本的な処理は、第１実施形態で説明した例と同様であり、以下では、異なる点を中心に説明することにする。

Ｓ１２０１においてキャプション解析部３０６は、Ｓ５０５で取得したキャプション、またはＳ５０６で生成したキャプションを解析し、キャプション解析情報を取得する。本実施形態においても、キャプション解析部３０６は、Ｓ５０５で取得したキャプション、またはＳ５０６で生成したキャプションに対して構文解析を実行し、キャプションにおける主語、動詞、目的語、または補語といった要素を取得する。そして、本実施形態においては、各要素となった単語を、公知の技術を用いて分散表現で表す。本実施形態では、Ｗｏｒｄ２Ｖｅｃを用いて単語の分散表現を実現する。

Ｓ１２０２において画像得点部３０７は、ユーザ指定のフォルダ内の全てのアルバム候補画像群の画像に対してＳ１２０１のキャプション解析が終了したか否かを判定する。終了していないと判定された場合、Ｓ５０２からの処理が繰り返される。終了していると判定された場合、Ｓ１２０３に処理が進む。

Ｓ１２０３において画像得点部３０７は、アルバム候補画像群の各画像に対して得点化を実行する。第１実施形態では、画像を解析して得られた画像特徴量と、キャプションを解析して得られたキャプション解析情報を用いて得点化を実行した。本実施形態では、キャプション解析情報のみを用いて得点化を実行する。

図１３は、Ｓ１２０３の得点化処理の詳細を示すフローチャートである。以下、図１３を用いて、Ｓ１２０３で行われる得点化処理を説明する。まず、Ｓ１３０１において画像得点部３０７は、Ｓ１２０１で取得したキャプション解析情報における、構文解析結果の各要素（主語、動詞、目的語、または補語）から１つの要素を選択する。

Ｓ１３０２において画像得点部３０７は、Ｓ１３０１において選択した要素に関してクラスタリングを行い、クラスタごとに画像を分割する。本実施形態では、クラスタリング手法としてｗａｒｄ法を用いる。もちろん、クラスタリング手法はこれに限定されず、例えば、最長距離法またはｋ－ｍｅａｎｓ法などでもよい。Ｓ１３０３において画像得点部３０７は、構文解析結果の各要素に対してＳ１３０２の処理が終了したか否かを判定する。終了していないと判定された場合、Ｓ１３０１からの処理が繰り返される。終了していると判定された場合、Ｓ１３０４に処理が進む。

Ｓ１３０４において画像得点部３０７は、式（４）を用いて、構文解析結果の要素ごとに注目画像の得点を算出する。
Ｓｋｊ＝５０×（Ｎｊｉ／Ｎｋ）・・・式（４）

ここで、ｋは注目画像のインデックスを、ｊは構文解析結果の要素のインデックスを、ｉは要素ｊに関するクラスタのインデックスを、Ｓｋｊは注目画像ｋにおける要素ｊに対応する得点を示している。また、Ｎｋはアルバム候補画像群に含まれる画像枚数を、Ｎｊｉは要素ｊにおけるクラスタｉに含まれる注目画像の画像枚数を示している。式（４）に依れば、アルバム候補画像群に紐づくキャプション群において頻出される単語を有する画像ほど高い得点となり、選ばれやすくなる。すなわち、各要素において統一感のある画像選択が可能となる。

そして、画像得点部３０７は、式（４）で求めた、注目画像ごと、かつ要素ごとの得点Ｓｋｊと、式（５）と、を用いて、各注目画像の得点を算出する。
Ｐｋ＝Σｊ（Ｓｊｋ）／Ｎｊ・・・式（５）

ここで、Ｐｋは各注目画像の得点を、Ｎｊは要素の項目数を示している。つまり、各注目画像の得点は、各要素の得点の平均として算出される。

以下、２つの注目画像を例に、式（４）および式（５）を用いた得点の算出方法を説明していく。注目画像１は、構文解析の結果が「電車が山の中を走っている」となる画像であるとする。この注目画像１において、主語は「電車」、動詞は「走っている」、またシーンを示す補語は「山」となる。アルバム候補画像群に含まれる画像枚数（Ｎｋ）が１００枚であるものとし、１００枚の画像に対する構文解析の結果、主語が「電車」となる画像が２５枚、動詞が「走っている」となる画像が１０枚、またシーンが「山」となる画像が５枚含まれているとする。この場合、式（４）を用いて注目画像１の要素ごとの得点を算出すると、主語＝１２．５点、動詞＝５点、目的語＝０点、シーン＝２．５点となる。この結果に式（５）を適用し各要素の平均点を算出するとＰｋ＝５点となり、この点数が注目画像１の得点となる。

同様に、注目画像２は構文解析の結果が「電車が海沿いを走っている」となる画像であるとする。注目画像２においては、主語は「電車」、動詞は「走っている」、またシーンを示す補語は「海」となる。１００枚のアルバム候補画像群のうち、シーンが「海」となる画像は１０枚含まれているとする。この場合、式（４）を用いて注目画像２の要素ごとの得点を算出すると、主語＝１２．５点、動詞＝５点、目的語＝０点、シーン＝５点となる。この結果に式（５）を適用し各要素の平均点を算出するとＰｋ＝５．６点となり、この点数が注目画像２の得点となる。従って、注目画像１および注目画像２を比較すると注目画像２の得点が高くなるためこの時点では注目画像２が選択される可能性が高くなる。実際は下記で説明する優先被写体と主語との関係による得点の補正が行われて得点化の処理が終了する。

Ｓ１３０５において画像得点部３０７は、Ｓ１２０２で取得したキャプション解析情報に基づいて、Ｓ１３０４で算出した得点を補正する。本実施形態においても、第１実施形態と同様に、優先被写体と主語との関係に基づいて得点を補正する。具体的な補正方法に関しては、第１実施形態におけるＳ９０４と同様であるため、説明を省略する。

Ｓ１３０６において画像得点部３０７は、ユーザ指定のフォルダ内の全てのアルバム候補画像群の画像に対してＳ１３０４及びＳ１３０５の処理が終了したか否かを判定する。終了していないと判定された場合、Ｓ１３０４からの処理が繰り返される。終了していると判定された場合、図１３の得点化処理は終了する。

図１２の説明に戻る。Ｓ１２０３に続き、Ｓ１２０４において画像得点部３０７は、ユーザ指定のフォルダ内の全てのアルバム候補画像群の画像に対してＳ１２０３の画像得点化が終了したか否かを判定する。終了していないと判定された場合、Ｓ１２０３の処理が繰り返される。終了していると判定された場合、Ｓ５１０に処理が進む。その後の処理は第一実施形態と同様の処理であるため、説明は省略する。Ｓ５１６の処理をもって、図１２の自動レイアウト処理は終了する。

＜第２実施形態の効果＞
以上説明したように、本実施形態によれば、第１実施形態におけるＳ５０３の画像解析処理を実施することなく、キャプション解析情報のみを用いて自動レイアウト処理が可能となる。従って、画像解析処理による処理負荷を排除することができ、処理の高速化が可能となる。

＜第２実施形態の変形例＞
上記の実施形態では、Ｓ１３０３において画像得点部３０７は、式（４）を用いて構文解析結果の要素ごとに注目画像の得点を算出することで、統一感のある画像選択を可能とした。しかしながら、画像得点部３０７は式（４）に代わり、以下の式（６）を用いて、構文解析結果の要素ごとに注目画像の得点を算出してもよい。
Ｓｋｊ＝５０×（１－Ｎｊｉ／Ｎｋ）・・・式（６）

式（６）に依れば、アルバム候補画像群に紐づくキャプション群において出現頻度が低い、すなわち散発される単語を有する画像ほど高い得点となり、選ばれやすくなる。すなわち、各要素においてバリエーション豊富な画像選択が可能となる。

＜＜第３実施形態＞＞
第３実施形態では、第１実施形態で説明したＳ５０６のキャプション生成処理において、キャプション生成を完了せずに、生成途中の情報を抽出して画像得点化に用いる。

＜処理の流れ＞
図１４は、第３実施形態におけるアルバム作成アプリケーションの自動レイアウト処理部３１８の処理を示すフローチャートである。図１４を参照しながら、第３実施形態における自動レイアウト処理を説明する。尚、自動レイアウト処理の基本的な処理は、第１実施形態で説明した例と同様であり、以下では、異なる点を中心に説明することにする。

Ｓ１４０１においてキャプション生成部３１９は、画像のキャプションを自動生成及び解析する。本実施形態においても、非特許文献１に記載のＳｈｏｗａｎｄＴｅｌｌモデルを用いて、キャプションを自動で生成する。

ＳｈｏｗａｎｄＴｅｌｌモデルでは、キャプションが文末まで生成完了するまでの過程で、出現確率の高い単語列を得ることができる。本実施形態ではキャプション生成モデルにおける上記の特性に基づき、キャプション生成過程で得られる情報を用いて、キャプション生成が完了する前に主語を推定する。

図１５は、キャプション生成および解析処理を示す図である。以下、図１５を用いて、Ｓ１４０１で行われるキャプション生成及び解析処理を説明する。Ｓ１５０１においてキャプション生成部３１９は、ＳｈｏｗａｎｄＴｅｌｌモデルを用いてｉ番目の単語を推定する。ＳｈｏｗａｎｄＴｅｌｌモデルにおいては、ＬＳＴＭの出力から分かる単語の出現確率をもとに上位複数個の単語が候補となり、ｉ－１番目までに推定された単語候補と合わせて、複数の単語列候補が推定される。

Ｓ１５０２においてキャプション生成部３１９は、ｉ－１番目までに推定された複数の単語列候補の中から、単語列に含まれる単語の出現確率の積が最も高い単語列を代表単語列として決定する。すなわち、複数個の単語列候補から、キャプションとして最も適していると推定された単語列を決定する。ここまでで、ｉ番目以降の単語に関しての単語の推定は行われていないままＳ１５０３の処理へ進む。

Ｓ１５０３においてキャプション生成部３１９は、代表単語列におけるｉ番目の単語の品詞を取得する。品詞とは、名詞または動詞といった、語を文法的な基準で分類したグループのことである。本実施形態では、単語と品詞との対応関係を予めＲＯＭ２０２に保持しておき、推定した単語に基づいて品詞を取得する。また、他の品詞取得方法としては、代表単語列に対して形態素解析を行い、ｉ番目の単語に対して推定された品詞を取得しても良い。形態素解析とは、文字で表記された自然言語の文において、意味を持つ最小の言語単位（形態素）に分けることである。

Ｓ１５０４においてキャプション生成部３１９は、Ｓ１５０３で取得されたｉ番目の単語の品詞が、名詞であるか否かを判定する。名詞であると判定された単語は、単語列における主語となる可能性がある。名詞であると判定された場合は、Ｓ１５０５に処理が進む。名詞ではないと判定された場合は、Ｓ１５０１からの処理を繰り返す。Ｓ１５０５においてキャプション生成部３１９は、Ｓ１５０４において名詞であると判定された代表文字列のｉ番目の単語を出力する。Ｓ１５０５の処理が終了すると、図１５のキャプション生成及び解析処理は終了する。上述の方法によれば、ｉ番目までの単語の推定で、代表単語列の名詞（主語）を出力することが可能とる。

尚、本実施形態では、Ｓ１５０２の代表単語列決定処理の後に、Ｓ１５０３の品詞取得処理及びＳ１５０４の名詞判定処理を行ったが、Ｓ１５０２の代表単語列決定処理はＳ１５０４の名詞判定処理の後に行っても良い。つまり、複数の単語列候補それぞれにおいてＳ１５０３の品詞取得処理、及びＳ１５０４の名詞判定処理を行い、名詞であると判定された１又は複数の単語列候補に対してＳ１５０２の代表単語列決定処理を行ってもよい。この方法に依れば、Ｓ１５０４の名詞判定処理をより多くの単語列に実行できるため、より短いステップで名詞を出力できる場合がある。

ここで、図１６は、図１５とは異なる方法を用いたキャプション生成および解析処理を示す図である。図１５に示すキャプション生成及び解析は、下記で説明するように、図１６に示す処理フローを用いることでも実行することができる。尚、一部の処理は図１５で説明した例と同様であり、以下では、異なる点を中心に説明する。

Ｓ１６０１においてキャプション生成部３１９は、Ｓ１５０２で取得された代表単語列におけるｉ番目の単語と、Ｓ５０１で取得した優先被写体とが一致するか否かを判定する。一致すると判定された場合、代表単語列がｉ番目までしか単語の推定が完了していない単語列であったとしても、構文解析をした場合のｉ番目の単語が主語であると推定することができる。一致すると判定された場合は、Ｓ１６０２に処理が進む。一致しないと判定された場合は、Ｓ１５０１からの処理を繰り返す。

Ｓ１６０２においてキャプション生成部３１９は、代表単語列に対して構文解析を実行する。
Ｓ１６０３においてキャプション生成部３１９は、Ｓ１６０２で構文解析した結果、主語と判定された単語を出力する。Ｓ１６０３の処理が終了すると、図１６のキャプション生成及び解析処理は終了する。図１６の方法も図１５と同様に、単語の推定がｉ番目までしか行っていなくとも、代表単語列の主語を出力することが可能となるため、処理を短縮することができる。

図１４の説明に戻る。Ｓ１４０１で推定された主語情報は、Ｓ５０７で取得したキャプション解析情報に追加され、Ｓ５０８の画像得点化に用いられる。そして、Ｓ５１６の処理をもって、図１４の自動レイアウト処理は終了する。尚、本実施形態では、キャプション生成モデルとしてＳｈｏｗａｎｄＴｅｌｌモデルを用いたが、これに限らず、主語が推定できた状態のような、キャプション生成途中の情報が取得できるのであれば、その他のキャプション生成モデルを用いても良い。

また、本実施形態にて実施したキャプション生成途中における主語の推定は、実施形態１、または２においてキャプションを生成する場合にも用いることが可能であり、より早くキャプション解析に処理を進めることができる。

＜第３実施形態の効果＞
以上説明したように、本実施形態によれば、キャプション生成処理の完了を待たずに、キャプション生成途中の情報を抽出して画像得点化に用いることができる。したがって、キャプション生成処理に係る処理負荷を軽減することができる。

＜＜その他の実施形態＞＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

候補画像群の中から画像を選択するためのプログラムであって、
コンピュータを、
複数の画像を含む前記候補画像群を取得する取得手段と、
前記候補画像群の中から優先的に画像を選択するための特定の条件を決定する決定手段と、
前記候補画像群の画像を解析する画像解析手段と
前記候補画像群の画像に付されているキャプションを解析するキャプション解析手段と、
前記決定手段、前記画像解析手段、および前記キャプション解析手段の結果に基づき前記候補画像群から特定の画像を選択する選択手段と、
として機能させることを特徴とするプログラム。
前記特定の条件は、前記特定の画像を優先的に選択するための優先被写体の設定を含むことを特徴とする請求項１に記載のプログラム。
前記キャプション解析手段は、前記キャプションを単語に分解し、前記候補画像群の画像の主語を判定することを特徴とする請求項２に記載のプログラム。
前記選択手段は、前記キャプション解析手段によって判定された前記候補画像群の画像の前記主語が、前記優先被写体と一致する場合、当該画像を優先的に選択することを特徴とする請求項３に記載のプログラム。
コンピュータを、
前記候補画像群の画像にキャプションが付与されていない場合に、キャプションを生成するキャプション生成手段としてさらに機能させることを特徴とする請求項１に記載のプログラム。
前記キャプション生成手段は、ＳｈｏｗａｎｄＴｅｌｌモデルを用いて画像のキャプションを生成することを特徴とする請求項５に記載のプログラム。
前記キャプション解析手段は、さらに前記キャプション生成手段によって生成された前記キャプションを解析することを特徴とする請求項６に記載のプログラム。
前記画像解析手段は、前記画像のピントの合焦度合いの推定、顔検出、個人認識、またはオブジェクト判定を行うことを特徴とする請求項１に記載のプログラム。
前記特定の条件は、画像のピントの合焦度合い、顔数、またはオブジェクトを含むことを特徴とする請求項１乃至８のいずれか一項に記載のプログラム。
候補画像群の中から画像を選択するためのプログラムであって、
コンピュータを、
複数の画像を含む候補画像群を取得する取得手段と、
前記候補画像群の中から優先的に画像を選択するための特定の条件を決定する決定手段と、
前記候補画像群の画像に付されているキャプションを解析するキャプション解析手段と、
前記決定手段、および前記キャプション解析手段の結果に基づき前記候補画像群から特定の画像を選択する選択手段と、
として機能させることを特徴とするプログラム。
前記特定の条件は、前記特定の画像を優先的に選択するための優先被写体の設定を含むことを特徴とする請求項１０に記載のプログラム。
前記キャプション解析手段は、前記キャプションを単語に分解し、前記候補画像群の画像の主語を判定することを特徴とする請求項１１に記載のプログラム。
前記選択手段は、前記キャプション解析手段によって判定された前記候補画像群の画像の前記主語が、前記優先被写体と一致する場合、当該画像を優先的に選択することを特徴とする請求項１２に記載のプログラム。
コンピュータを、
前記候補画像群の画像にキャプションが付与されていない場合に、キャプションを生成するキャプション生成手段としてさら機能させることを特徴とする請求項１０に記載のプログラム。
前記キャプション生成手段は、ＳｈｏｗａｎｄＴｅｌｌモデルを用いて画像のキャプションを生成することを特徴とする請求項１４に記載のプログラム。
前記キャプション解析手段は、さらに前記キャプション生成手段によって生成された前記キャプションを解析することを特徴とする請求項１５に記載のプログラム。
前記キャプション解析手段は、前記キャプション生成手段による前記キャプションの生成途中に、前記キャプションの解析を行うことを特徴とする請求項５または１４に記載のプログラム。
複数の画像を含む候補画像群を取得する取得手段と、
前記候補画像群の中から優先的に画像を選択するための特定の条件を決定する決定手段と、
前記候補画像群の画像を解析する画像解析手段と
前記候補画像群の画像に付されているキャプションを解析するキャプション解析手段と、
前記決定手段、前記画像解析手段、および前記キャプション解析手段の結果に基づき前記候補画像群から特定の画像を選択する選択手段と、
を備えることを特徴とする画像処理装置。
複数の画像を含む候補画像群を取得する取得ステップと、
前記候補画像群の中から優先的に画像を選択するための特定の条件を決定する決定ステップと、
前記候補画像群の画像を解析する画像解析ステップと
前記候補画像群の画像に付されているキャプションを解析するキャプション解析ステップと、
前記決定ステップ、前記画像解析ステップ、および前記キャプション解析ステップの結果に基づき前記候補画像群から特定の画像を選択する選択ステップと、
を備えることを特徴とする画像処理装置の制御方法。
複数の画像を含む候補画像群を取得する取得手段と、
前記候補画像群の中から優先的に画像を選択するための特定の条件を決定する決定手段と、
前記候補画像群の画像に付されているキャプションを解析するキャプション解析手段と、
前記決定手段、および前記キャプション解析手段の結果に基づき前記候補画像群から特定の画像を選択する選択手段と、
を備えることを特徴とする画像処理装置。
複数の画像を含む候補画像群を取得する取得ステップと、
前記候補画像群の中から優先的に画像を選択するための特定の条件を決定する決定ステップと、
前記候補画像群の画像に付されているキャプションを解析するキャプション解析ステップと、
前記決定ステップ、および前記キャプション解析ステップの結果に基づき前記候補画像群から特定の画像を選択する選択ステップと、
として機能させることを特徴とする画像処理装置の制御方法。