JP7303953B2

JP7303953B2 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7303953B2
Application number: JP2023006661A
Authority: JP
Inventors: 満中澤; ビヨンシュテンガー
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2021-11-05
Filing date: 2023-01-19
Publication date: 2023-07-05
Anticipated expiration: 2041-11-05
Also published as: JP2023070198A; JP2023126831A

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

複数の画像を含むコンテンツを提示し、あるいはかかるコンテンツに誘導する目的で、コンテンツ内の複数の画像を所定の配置、例えばタイル配置に並べた合成画像の需要がある。例えば、企業や店舗のｗｅｂページデザイン、観光地や旅行パッケージの広告ポスター、映画やゲームの紹介、電子商取引に係る商品の紹介バナーなどである。かかる合成画像の作成は、デザイナーが必要な数の画像を選び出し、これを所定の位置に配置することによりなされている。

しかしながら、かかる合成画像を逐一デザイナーが作成していては、数多くの合成画像を作成することはできず、又コストも問題となる。しかしながら、かかる合成画像を自動作成しようとしても、画像を何らかの基準で選択し、それらを単純に所定の位置に配置することによっては、品質要求を満足する合成画像を得ることは難しい。なぜなら、選択された個々の画像の品質がそれぞれ独立して鑑賞に耐えうるものであったとしても、それら画像を並べて配置した場合に、合成画像全体として見たときの色合いのバランスが崩れたり、近似した画像が含まれることにより、見る者に奇異な印象を与えたりすることが生じるため、合成画像が低品質なものとなり得るからである。

このように、複数の画像に基づいて、高品質な合成画像を得る技術はこれまでのところ、知られていない。

本発明は、かかる事情に鑑みてなされたものであり、その目的は、複数の画像に基づく高品質な合成画像の作成に寄与することである。

上記課題を解決すべく本出願において開示される発明は種々の側面を有しており、それら側面の代表的なものの概要は以下のとおりである。

（１）Ｎ枚（Ｎ＞１）の画像からＭ枚（Ｍ≦Ｎ）の画像を選択する単画像選択部と、あらかじめ定められたＭ個の枠に選択された前記Ｍ枚の画像をそれぞれ配置して、合成画像を作成する合成部と、選択された前記Ｍ枚の画像のそれぞれの単画像評価値の線形和である選択評価値と、前記合成画像の単画像評価値である合成評価値との線形和を少なくとも含む総合評価値を前記作成された合成画像と対応付け決定する評価部と、を有し、前記総合評価値は、選択された画像同士の類似性を示す類似性評価値の線形和をさらに含む、情報処理装置。

（２）（１）において、前記評価部は、選択されたＭ枚の画像のそれぞれの単画像評価値と、前記あらかじめ定められたＭ個の枠のそれぞれと対応する重み係数とに基づいて、前記選択評価値を決定する、情報処理装置。

（３）（１）において、前記評価部は、選択された前記画像の枚数であるＭに基づき前記類似性評価値を規格化し、Ｍが異なる複数の前記合成画像のそれぞれの前記総合評価値を決定する、情報処理装置。

（４）（３）において、前記総合評価値Ｒｅｗａｒｄは、次式により得られる、情報処理装置。

ここで、λ_１、λ_２、λ_３は任意の重み係数、ｗ_ｉはｉ番目の前記枠に対応する重み係数、Ｉ_ｉはｉ番目の画像、Ｉ_{ｗｈｏｌｅ}は合成画像、Ｓｃｏｒｅ（Ｉ）は画像Ｉの単画像評価値、Ｓｉｍｉｌａｒｉｔｙ（Ｉ_ｉ，Ｉ_ｊ）は画像Ｉ_ｉと画像Ｉ_ｊの近似度である。

（５）（１）～（４）のいずれかにおいて、前記合成画像は、前記Ｍ個の枠以外の部分に、あらかじめ配置された固定画像を含む、情報処理装置。

（６）（１）～（５）のいずれかにおいて、前記評価部は、選択された画像または前記合成画像を機械学習モデルに入力することで、入力された当該画像または当該合成画像と対応する単画像評価値を取得する、情報処理装置。

（７）（１）～（６）のいずれかにおいて、前記総合評価値に基づいて、少なくとも一の前記合成画像を選択する合成画像選択部と、をさらに有する情報処理装置。

（９）Ｎ枚（Ｎ＞１）の画像からＭ枚（Ｍ≦Ｎ）の画像を選択する単画像選択ステップと、あらかじめ定められたＭ個の枠に選択された前記Ｍ枚の画像をそれぞれ配置して、合成画像を作成する合成ステップと、選択された前記Ｍ枚の画像のそれぞれの単画像評価値の線形和である選択評価値と、前記合成画像の単画像評価値である合成評価値との線形和を少なくとも含む総合評価値を前記作成された合成画像と対応付け決定する評価ステップと、をコンピュータに実行させる情報処理方法であって、前記総合評価値は、選択された画像同士の類似性を示す類似性評価値の線形和をさらに含む、情報処理方法。

（１０）コンピュータを、Ｎ枚（Ｎ＞１）の画像からＭ枚（Ｍ≦Ｎ）の画像を選択する単画像選択部と、あらかじめ定められたＭ個の枠に選択された前記Ｍ枚の画像をそれぞれ配置して、合成画像を作成する合成部と、選択された前記Ｍ枚の画像のそれぞれの単画像評価値の線形和である選択評価値と、前記合成画像の単画像評価値である合成評価値との線形和を少なくとも含む総合評価値を前記作成された合成画像と対応付け決定する評価部と、を有し、前記総合評価値は、選択された画像同士の類似性を示す類似性評価値の線形和をさらに含む、情報処理装置として機能させる情報処理プログラム。

本発明の第１の実施形態に係る情報処理装置の機能的な観念図である。Ｎ枚の画像から、複数のＭの値について合成画像が作成される様子を模式的に示す図である。一般的なコンピュータの代表的な物理構成を示す構成図である。本発明の第１の実施形態に係る単画像選択部の動作のフローの一例を示す図である。テンプレートの種々の例を示す図である。本発明の第１の実施形態に係る合成部の動作のフローの一例を示す図である。重み係数ｗ_ｉの設定例を示す図である。本発明の第１の実施形態に係る評価部の動作のフローの一例を示す図である。本発明の第１の実施形態に係る合成画像選択部の動作のフローの一例を示す図である。本発明の第２の実施形態に係る情報処理装置の機能的な観念図である。

図１は、本発明の第１の実施形態に係る情報処理装置１００の機能的な観念図である。情報処理装置１００は、同図に示された機能を適切な物理的手段、例えば、適切なコンピュータプログラムを実行するコンピュータ、によって実現することによって実現される。

情報処理装置１００は、単画像選択部１０、合成部２０、評価部３０及び合成画像選択部４０を備えている。そして、情報処理装置１００は、情報処理の対象となるＮ枚の画像（Ｎｉｍａｇｅｓ）を入力とし、合成画像（Ｃｏｍｂｉｎｅｄｉｍａｇｅ）を出力するものである。ここで、Ｎ＞１である。

ここで、情報処理装置１００が行おうとする情報処理について簡潔に説明する。Ｎ枚の画像は所与の画像であり、例えば、画像ライブラリや、任意のコンテンツに含まれる画像群である。そして、情報処理装置１００が行おうとすることは、このＮ枚の画像の中からＭ枚の画像を選び出し（Ｍ≦Ｎ）、これをあらかじめ定められたＭ個の枠に配置し、できる限り高品質な、すなわち、見る者を惹きつけ、肯定的な評価が得られる合成画像の作成に寄与することである。このとき、Ｎ枚の画像の中からＭ枚の画像を選び出す選び方と、選ばれたＭ枚の画像をそれぞれ、Ｍ個の枠のどの枠に配置するかにより、得られる合成画像は様々なものとなり、その評価も異なる。

したがって、情報処理装置１００は、得られる合成画像の評価を人に頼ることなく、機械的に（すなわち、コンピュータによる情報処理により）行い、見る者を惹きつけ、肯定的な評価が得られると合理的に推定される合成画像の作成に寄与するように構成されている。

ここで、Ｍの値は必ずしも所与の一定値ではないことに注意すべきである。図２は、Ｎ枚の画像から、複数のＭの値について合成画像が作成される様子を模式的に示す図である。ここで、Ｍの値が４，６，９の３種を想定したものを示している。そして、Ｍの値に応じて作成される合成画像Ａ乃至合成画像Ｃは、同図の右側に示すように、Ｍ＝４の場合は、４枚の画像を縦横２×２のタイル状の枠に配置したもの、Ｍ＝６の場合は、６枚の画像を縦横３×２のタイル状の枠に配置したもの、Ｍ＝９の場合は、９枚の画像を３×３のタイル状の枠に配置したものとなっている。なお、ここで示したのは一例であり、Ｍの値の種類や枠の数はさらに大きくともよく、また、枠の配置も任意である。例えば、Ｍ＝４の場合に、４枚の画像を縦横１×４のタイル状の枠に配置したものもあり得る。また、Ｍ＝４の場合において、上で示した縦横２×２のタイル状の枠と縦横１×４のタイル状の枠の両方があってもよい。Ｍ＝６，９等の場合も同様である。

この時、合成画像Ａ乃至合成画像Ｃのいずれが最も観者を引き付けるものとなるかは、用意されたＮ枚の画像に依存し、一概にこれを定めることはできない。なぜならば、Ｎ枚の画像中には、互いに類似する画像も含まれうる（例えば、同一の料理や景色などを異なったアングルから撮影した写真画像など）と考えられるところ、例えば、Ｎ枚の画像を類似する画像のグループに分けたとして、そのグループ数が４であったならば、合成画像Ａは互いに類似しない画像のみを用いて構成できるが、合成画像Ｂ及びＣはどのようにしても類似する画像が含まれてしまうため、全体として冗長で魅力に乏しいものになってしまうだろう。あるいは、類似する画像のグループ数が多数、例えば９以上であったならば、合成画像Ｃはより多様な画像を提示できるのに対し、合成画像ＡやＢは、Ｎ枚の画像が潜在的に有する魅力を十分に伝えることができないであろう。

同様のことが、Ｍの値を同じくし、枠の配置のみが異なる合成画像についてもいえるであろう。したがって、情報処理装置１００は、異なるＭや、異なる配置の枠を有する合成画像についても評価を行い、それらの中から最終的に、見る者を惹きつけ、肯定的な評価が得られると合理的に推定される合成画像を作成することができるものとされている。

情報処理装置１００は、物理的には、一般的なコンピュータを用いて実現して良い。図３はそのような一般的なコンピュータ１の代表的な物理構成を示す構成図である。

コンピュータ１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１ａ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１ｂ、静的記憶装置１ｃ、ＧＣ（ＧｒａｐｈｉｃｓＣｏｎｔｒｏｌｌｅｒ）１ｄ、入力デバイス１ｅ及びＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）１ｆがデータバス１ｇにより相互に電気信号のやり取りができるよう接続されている。ここで、静的記憶装置１ｃはＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの静的に情報を記録できる装置である。またＧＣ１ｄからの信号はＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）やいわゆるフラットパネルディスプレイなどの、使用者が視覚的に画像を認識するモニタ１ｈに出力され、画像として表示される。入力デバイス１ｅはキーボードやマウス、タッチパネルなどの、ユーザが情報を入力するための機器であり、Ｉ／Ｏ１ｆはコンピュータ１が外部の機器と情報をやり取りするためのインタフェースである。ＣＰＵ１ａはコンピュータ１が必要とする情報処理の負荷に応じて、複数用意されて並列演算がなされるように構成されていてもよい。

コンピュータ１を情報処理装置１００として機能させるための命令列を含む情報処理プログラムは、外部記憶装置１ｃにインストールされ、必要に応じてＲＡＭ１ｂに読みだされてＣＰＵ１ａにより実行される。また、かかるプログラムは、適宜の光ディスク、光磁気ディスク、フラッシュメモリなどの適宜のコンピュータ可読情報記録媒体に記録されて提供されても、インターネットなどの情報通信回線を介して提供されてもよい。また、情報処理装置１００を使用者が使用するためのインタフェースは、コンピュータ１自身にかかるインタフェースが実装され、使用者が直接コンピュータ１を操作するものであってもよいし、他のコンピュータ上でｗｅｂブラウザのような汎用のソフトウェアを用い、Ｉ／Ｏ１ｆを介してコンピュータ１から機能が提供される、いわゆるクラウドコンピューティングの方法によってもよく、さらに、コンピュータ１が他のコンピュータに対してＡＰＩ（アプリケーションプログラミングインタフェース）を利用可能に提供することにより、他のコンピュータからの求めに応じてコンピュータ１が情報処理装置１００として動作するものであってもよい。

図１において示した情報処理装置１００の各構成は、コンピュータ１において、ＣＰＵ１ｃが適宜の情報処理プログラムを実行し、また、ＲＡＭ１ｂ及び／又は静的記憶装置１ｃに適宜の記憶領域を割り当てることにより実現されてよい。

以下、情報処理装置１００の各構成について簡明に説明する。単画像選択部１０は、Ｎ枚の画像からＭ枚の画像を選択する。この時のＭは、合成部２０で選択された画像を合成して得られる合成画像の枠の数に等しい。本実施形態では、単画像選択部１０は、Ｎ枚の画像からＭ枚の画像を選択する可能な組み合わせを抽出するものとなっている。したがって、単画像選択部１０は、かかる組み合わせの数をｋ通りとすると、ｋ組のＭ枚の画像（Ｍｉｍａｇｅｓ）を出力するものとなっている。

図４は、本実施形態に係る単画像選択部１０の動作のフローの一例を示す図である。ここでは、Ｍ個の枠を含む合成画像のテンプレートが複数種類あるものとし、Ｍの値はテンプレート毎に定まっている。

まず、ステップＳ１０１にて、単画像選択部１０は変数ｘに初期値１を代入し、続くステップＳ１０２にて、ｘ番目のテンプレートを選択する。ｘ番目のテンプレートには、Ｍ個の枠が設定されているため、ステップＳ１０３にて、単画像選択部１０は、同じ組み合わせが選ばれないように、Ｎ枚の画像から、Ｍ枚の画像を選択する。

ステップＳ１０４では、可能なすべての組み合わせのＭ枚の画像の組が選択されたか否かを判定する。まだ全ての組み合わせが選択されていなければ、ステップＳ１０３へと戻り、引き続きＭ枚の画像を選択する。既に全ての組み合わせが選択されている場合には、ステップＳ１０５へと進み、複数のテンプレートがすべて選択されたかを判定する。

まだ全てのテンプレートが選択されていなければ、ステップＳ１０６へとすすみ、変数ｘに１を加算してステップＳ１０２へと処理を戻す。既に全てのテンプレートが選択されている場合には、あり得る全てのＭについて、可能なすべての組み合わせのＭ枚の画像の組が選択されたことになるから、処理を終了する。

なお、Ｍが等しい互いに異なるテンプレートが存在する場合、かかるテンプレートについて選択されるＭ枚の画像の組には違いがないから、すでに得られている結果を援用することにより、処理の負荷を低減するようにしてもよい。

図５は、テンプレートの種々の例を示す図である。（ａ）及び（ｂ）は、画像の枠ｆとして、矩形の領域をタイル配置した例である。（ａ）に示したテンプレートには、縦３×横２の６個の枠ｆが、（ｂ）に示したテンプレートには、縦３×横３の９個の枠ｆが配置されている（なお、符号ｆは代表して１つのみ示している）。また、（ｃ）のテンプレートには、矩形の枠ｆが７個配置されているほか、枠ｆ以外の部分に、あらかじめ配置された固定画像ｐが含まれている。したがって、（ｃ）のテンプレートを用いて作成された合成画像には、Ｍ枚の選択された画像がＭ個の枠に配置されるとともに、固定画像ｐが含まれるものとなる。（ｄ）のテンプレートには、形状やサイズも不同の、ここでは円又は楕円形状の枠ｆが３つ配置され、下部に固定画像ｐが配置されている。

このように、用意されるテンプレートにおいて、枠ｆの配置・数・形状およびサイズは任意であり、（ａ）及び（ｂ）に示したような、矩形の枠ｆを規則正しくタイル配置したものに限定されない。また、テンプレートには、（ｃ）及び（ｄ）に示すように、任意の固定画像ｐを枠ｆ以外の部分に配置することができるので、例えば、企業のロゴや商品名などの文字情報や、デザイン上要求される飾り枠やその他の画像を含む合成画像を作成することができ、そして、合成画像の品質は、固定画像ｐを含む全体として評価することができる。

図１に戻り、合成部２０は、単画像選択部１０からＭ枚の画像の組を受け取り、各テンプレートにおける、あらかじめ定められたＭ個の枠に選択されたＭ枚の画像をそれぞれ配置して、合成画像（ＣｏｍｂｉｎｅｄＩｍａｇｅｓ）を作成する。この時、Ｍ個の枠にＭ枚の画像を配置する配列には、Ｍ！通りの順列があるから、Ｍ！通りの互いに異なる合成画像が作成されることとなる。なお、合成部２０は、単画像選択部１０から受け取ったＭ枚の画像の組とテンプレート上の各画像の配置との組み合わせを合成情報として決定してもよい。

図６は、本実施形態に係る合成部２０の動作のフローの一例を示す図である。まず、ステップＳ２０１にて、合成部２０は変数ｘに初期値１を代入し、続くステップＳ２０２にて、ｘ番目のテンプレートを選択する。ｘ番目のテンプレートには、Ｍ個の枠が設定されており、単画像選択部１０により、Ｍ枚の画像の組がＭ！組だけ選択されている。そこで、これらの画像の組を順に選択するため、ステップＳ２０３にて、変数ｙに初期値１を代入し、続くステップＳ２０４にて、ｙ番目のＭ枚の画像の組を選択する。

合成部２０は、選択された画像の組について、ステップＳ２０５にて、Ｍ！通りの順列に従って、選択されたＭ枚の画像をＭ個の枠に配置し、Ｍ！枚の合成画像を作成する。続くステップＳ２０６では、選択されたｘ番目のテンプレートについて、全ての画像の組を選択したか否かを判定する。まだ全ての画像の組が選択されていなければ、ステップＳ２０７にてｙに１を加算し、ステップＳ２０４へと戻り処理を繰り返す。

すでにすべての画像の組が選択されていれば、ステップＳ２０８へと進み、複数のテンプレートがすべて選択されたかを判定する。まだ全てのテンプレートが選択されていなければ、ステップＳ２０９へとすすみ、変数ｘに１を加算してステップＳ２０２へと処理を戻す。既に全てのテンプレートが選択されている場合には、あり得る全てのテンプレートについての全ての画像の組について、全ての順列に係る合成画像が作成されたことになるから、処理を終了する。

なお、本明細書では、画像を１枚の独立したものとみなして取り扱う場合に、かかる画像を「単画像」という場合がある。Ｎ枚の画像に含まれる個々の画像は「単画像」として取り扱われるほか、合成部２０により作成された合成画像を、その元となった画像やテンプレートから離れて１枚の独立した画像として取り扱う場合には、合成画像は「単画像」として取り扱われることになる。

図１に戻り、評価部３０は、合成部２０から合成画像を受け取り、それぞれの合成画像について、単画像評価値の線形和である選択評価値と、合成画像の単画像評価値である合成評価値との線形和を少なくとも含む総合評価値（Ｒｅｗａｒｄ）を、作成された合成画像と対応付け決定する。なお、評価部３０は、合成部２０から合成情報を受け取り、総合評価値を合成情報と対応付け決定してもよい。

ここで、単画像評価値とは、ある画像を単画像として見て評価した際に得られる評価値である。したがって、総合評価値に含まれる選択評価値とは、合成画像の合成元となったＭ枚の画像それぞれを単画像として見て評価して得られるＭ個の評価値の線形和を取ったものとの意味である。また、合成評価値とは、合成画像それ自体を１枚の単画像とみなして評価して得られる評価値のことである。

この結果、評価部３０により、合成部２０により作成された合成画像には、それぞれその評価として総合評価値が与えられることになる。その結果、この総合評価値に基づいて、より観者にとって魅力的な合成画像を決定することができるようになる。

そのためには、総合評価値が、合成画像を見る者にとっての魅力を合理的に反映するものとなっていなければならない。以降では、評価部３０における総合評価値を決定する方法をより具体的に説明する。

本実施形態に係る評価部３０では、総合評価値Ｒｅｗａｒｄを次の数１により決定している。

ここで、λ_１、λ_２、λ_３は任意の重み係数、ｗ_ｉはｉ番目の枠に対応する重み係数、Ｉ_ｉはｉ番目の画像、Ｉ_{ｗｈｏｌｅ}は合成画像、Ｓｃｏｒｅ（Ｉ）は画像Ｉの単画像評価値、Ｓｉｍｉｌａｒｉｔｙ（Ｉ_ｉ，Ｉ_ｊ）は画像Ｉ_ｉと画像Ｉ_ｊの近似度である。

数１の右辺第１項は、選択評価値を示している。すなわち、選択されたＭ枚の画像に１～Ｍの番号を付けて区別し、ｉ番目の画像Ｉ_ｉの単画像評価値Ｓｃｏｒｅ（Ｉ_ｉ）に任意の重み係数ｗ_ｉを乗じたものの和、すなわち線形和を選択評価値として用いている。重み係数λ_１は、総合評価値Ｒｅｗａｒｄ全体の中で選択評価値が占める重みを指定するものであり、１／Ｍは規格化係数である。

ここで、選択評価値は、画像Ｉ_ｉについての個々の単画像評価値Ｓｃｏｒｅ（Ｉ_ｉ）が高いほど、高い値を示す。すなわち、単画像としての評価の高い画像が多く選択されるほど、選択評価値は高いものとなる。一方で、規格化をしていなければ、選択評価値の大きさは、画像の選択枚数Ｍに依存してしまう。すなわち、より多くの画像を合成元として使用する合成画像ほど、選択評価値が大きくなってしまうことになる。

そこで、規格化係数を乗じることにより、選択評価値をＭの値に依存しないものとしている。なお、規格化係数はＭの関数であり、次の数２を満たすｇとして与えられる。

ここで、ｆ（Ｉ）は画像Ｉに対して０でない評価値を与える任意の評価関数であり、ａは０でない任意の実数である。

したがって、評価部３０は、選択された画像の枚数であるＭに基づき、選択評価値を規格化している。規格化係数ｇとしてａ／Ｍは数２を満たしており、上で挙げた１／Ｍはａ＝１とした場合である。

また、重み係数ｗ_ｉは、テンプレートの枠ごとに定められている。すなわち、あるテンプレートにおいて、観者にとってより重要と考えられる位置の枠であるほど大きい値が、また相対的に重要でない一の枠であるほど小さい値が定められてよい。

図７は、重み係数ｗ_ｉの設定例を示す図である。図７中の（ｅ）のテンプレートは、３×３のタイル配置された矩形の枠９個を含んでおり、それぞれの枠につけられた色が濃いものほど、重み係数ｗ_ｉの値が大きいことを示している。このテンプレートは、得られた合成画像中の枠に配置された各画像を、観者が左上のものから順に右下に向かって見ていくと考えられる利用シーンを想定したものであり、図中の矢印の向きに従い、向かって左上の枠に近いものほど大きい重み係数ｗ_ｉの値が与えられ、右下の枠に近いものほど小さい重み係数ｗ_ｉの値が与えられている。

図７中の（ｆ）のテンプレートも同じく、３×３のタイル配置された矩形の枠９個を含んでいる。このテンプレートでは、観者が合成画像を１個の画像として全体を見るような利用シーンを想定したものであり、観者の視線の中心となると考えられる中央の枠に大きい重み係数ｗ_ｉの値が与えられ、周辺に配置された枠には相対的に小さい重み係数ｗ_ｉの値が与えられている。

したがって、評価部３０は、選択されたＭ枚の画像のそれぞれの単画像評価値Ｓｃｏｒｅ（Ｉ_ｉ）と、テンプレートにおいてあらかじめ定められたＭ個の枠のそれぞれと対応する重み係数ｗ_ｉとに基づいて、選択評価値を決定している。

数１の右辺第２項は、合成評価値を示している。すなわち、合成画像Ｉ_{ｗｈｏｌｅ}を単画像として見たときの評価値Ｓｃｏｒｅ（Ｉ_{ｗｈｏｌｅ}）に、総合評価値Ｒｅｗａｒｄ全体の中で選択評価値が占める重みを指定する重み係数λ_２を乗じたものである。

合成評価値の意味は、合成画像を構成する個々の画像とは独立に、合成画像を単画像として見たときの観者に対する魅力を数値的に評価したものである。したがって、個々の画像の内容とは別に、合成画像全体としての色やディテールのバランスが優れたものほど合成評価値は高い値を示すものと考えられる。

ここで、画像Ｉに対する単画像評価値Ｓｃｏｒｅ（Ｉ）を与える具体的な手法について説明する。単画像評価値は、所与の画像Ｉに対して、画像単体として見たときの魅力を合理的に与える手法であればどのようなものを用いてもよいが、ここでは、審美性評価値（ＡｅｓｔｈｅｔｉｃＶａｌｕｅ）と呼ばれるものと、ＣＴＲ（ＣｌｉｃｋＴｈｒｏｕｇｈＲａｔｅ）予測値と呼ばれるもののいずれか、または両方を併用することにより単画像評価値を与える手法を説明する。

審美性評価値及び、ＣＴＲ予測値は、いずれも、学習済みの機械学習モデルに画像Ｉを入力することにより得ることができる。審美性評価値を出力する機械学習モデルを得るための学習データは、研究用あるいは実用用として無償或いは有償でインターネット上に公開されているものが既に存在しているため、かかる学習データを用いて例えばＣＮＮ（畳み込みニューラルネットワーク）による機械学習モデルを訓練することにより、学習済みの機械学習モデルを容易に得ることができる。ＣＴＲ予測値を出力する機械学習モデルについては、学習データとして、画像と当該画像について得られたＣＴＲとの組を用いて、同様に、例えばＣＮＮによる機械学習モデルを訓練することにより得ることができる。機械学習モデルをＣＴＲ予測値を出力するものとして訓練するための学習データは、例えばＥＣ（電子商取引）サイトに用いられる各種の画像について、ユーザに表示された回数（インプレッション回数）に対する、ユーザが当該画像をクリック（選択）した回数の割合を計算して求めることにより入手可能である。

評価部３０は、画像Ｉをそれぞれの機械学習モデルに入力することで、入力された画像Ｉ、ここでは選択された画像または合成画像、と対応する単画像評価値を取得することができる。本実施形態では、画像Ｉに対し得られる審美性評価値をＳｃｏｒｅ_{Ａｅｓｔｈｅｔｉｃ}（Ｉ）、ＣＴＲ予測値をＳｃｏｒｅ_ＣＴＲ（Ｉ）との線形和により単画像評価値を得ている。すなわち、次の数３により単画像評価値Ｓｃｏｒｅ（Ｉ）を得る。

ここで、Ｗ_{Ａｅｓｔｈｅｔｉｃ}及びＷ_ＣＴＲは任意の重み係数である。

なお、単画像評価値Ｓｃｏｒｅ（Ｉ）を得るにあたり、審美性評価値またはＣＴＲ予測値を単独で用いてもよいし、これ以外の評価値を使用してもよい。

数１の右辺第３項は、類似性評価値を示している。類似性評価値は、選択された画像同士の類似性を示す。本例では、選択されたＭ枚の画像に１～Ｍの番号を付けて区別した際に、このＭ枚の画像の中に互いに類似した画像が含まれるほどより高い値を示すものとなっている。

類似性評価値は、ｉ番目の画像Ｉ_ｉとｊ番目の画像Ｉ_ｊとの類似性、すなわち近似の度合いを示す近似度Ｓｉｍｉａｒｉｔｙ（Ｉ_ｉ，Ｉ_ｊ）の総和に、重み係数λ_３と、規格化係数１／_ＭＣ_２を乗じたものである。ここで、重み係数λ_３は、総合評価値Ｒｅｗａｒｄ全体の中で類似性評価値が占める重みを指定するものである。

そのため、類似性評価値は、Ｍ枚の選択された画像の中に、互いに類似する画像の対が多く含まれるほど、また、その画像の対がより類似しているほど、高い値を示す。合成画像を作成する際に、互いに類似する画像が含まれていると、観者に対し冗長な印象を与えてしまうため、類似性評価値が高いほど、作成された合成画像の魅力は損なわれると考えられる。そのため、数１では、類似性評価値の符号は負となっており、類似性評価値の値が高いほど、総合評価値Ｒｅｗａｒｄの値は小さくなる。

類似性評価値において近似度Ｓｉｍｉａｒｉｔｙ（Ｉ_ｉ，Ｉ_ｊ）は、Ｍ枚の画像中から任意の２枚の画像を選択する組み合わせの数に等しいだけ求められる。その数は、_ＭＣ_２であるから、本例で用いた規格化係数はこの組み合わせの数の逆数であり、１／_ＭＣ_２となる。この規格化係数もまた、上述の数２を満足する。

ここで、画像Ｉ_ｉ，Ｉ_ｊ間における近似度Ｓｉｍｉａｒｉｔｙ（Ｉ_ｉ，Ｉ_ｊ）を与える具体的な手法としては、既知の任意の画像処理技術において用いられる手法を用いてよく、そのような方法としては、ＣＮＮ等のＤＮＮ（ディープニューラルネットワーク）その他の機械学習モデルを用いる手法、画像特徴量ベクトル間の距離を用いる手法、これらの方法の組み合わせ、等が例示される。本実施形態では、ＣＮＮに基づく機械学習モデルを用いて類似度を得ている。

数１に示されるように、総合評価値Ｒｅｗａｒｄは、上で説明した選択評価値と、合成評価値と、類似性評価値の線形和となっている。各項の符号は、選択評価値と合成評価値が正、類似性評価値が負となるように線形結合されており、選択評価値と合成評価値が高い値を示すほど総合評価値Ｒｅｗａｒｄは高い値を示し、類似性評価値が高い値を示すほど総合評価値Ｒｅｗａｒｄは低い値を示すこととなる。すなわち、合成画像を構成するものとして選択された個々の画像の評価値が高いほど、また、合成画像全体を単画像として見た場合の評価値が高いほど総合評価値Ｒｅｗａｒｄは高く評価され、合成画像を構成する画像の中に互いに類似する画像が含まれるほど、又その画像がより類似しているほど、総合評価値Ｒｅｗａｒｄは低く評価されることになる。

このように総合評価値Ｒｅｗａｒｄを設計することにより、得られた合成画像の観者に対する魅力を合理的かつ定量的に評価できる。なお、総合評価値Ｒｅｗａｒｄを求める具体的な式は本実施形態に示したものと異なっていてもよい。例えば、合成画像に含まれる画像の部分集合を単画像として見た評価値を考慮してもよいし、類似性評価値はこれを考慮しないものとしてもよい。あるいは、類似性評価値において、より近い位置に配置された画像同士の近似度、例えば隣接する画像、の影響がより大きいものとなるように、適宜の重み付けをするなどしてもよい。

図８は、本実施形態に係る評価部３０の動作のフローの一例を示す図である。まず、ステップＳ３０１にて、評価部３０は変数ｘに初期値１を代入し、続くステップＳ３０２にて、ｘ番目の合成画像を選択する。ステップＳ３０３では、数１に基づいて、選択されたｘ番目の合成画像の総合評価値Ｒｅｗａｒｄを決定する。

続くステップＳ３０４では、全ての合成画像を選択したか否かを判定する。まだ全ての合成画像が選択されていなければ、ステップＳ３０５にてｘに１を加算し、ステップＳ３０２へと戻り処理を繰り返す。既にすべての合成画像が選択されていれば、全ての合成画像について、総合評価値Ｒｅｗａｒｄが決定されたことになるから、処理を終了する。

図１に戻り、合成部２０により作成された合成画像には、評価部３０により総合評価値Ｒｅｗａｒｄが対応付けられて与えられる。合成画像選択部４０は、総合評価値Ｒｅｗａｒｄに基づいて、少なくとも一の合成画像を選択する。なお、合成画像選択部４０は、総合評価値Ｒｅｗａｒｄに基づいて、少なくとも一の合成情報を選択し、選択された合成情報に基づき合成画像を作成してもよい。

もっとも単純には、最も高い総合評価値Ｒｅｗａｒｄを示す合成画像を選択すればよい。その他の動作としては、総合評価値Ｒｅｗａｒｄの高い上位の任意の枚数、例えば１０枚を示し、ユーザに選択させるようにすることもできる。

図９は、本実施形態に係る合成画像選択部４０の動作のフローの一例を示す図である。本実施形態に係る合成画像選択部４０は、単に最も高い総合評価値Ｒｅｗａｒｄを示す合成画像を選択するものであるから、ステップＳ４０１にて、かかる合成画像を選択し、動作を終了すればよい。

なお、以上の説明では、説明の便宜上、図１に示した各機能ブロックの動作が個別に完結するものとして説明した。すなわち、単画像選択部１０の動作は単画像選択部１０のみにて完結し、以下同じ要領で説明したが、この通りでなく、図１の各機能ブロックの動作は逐次的に行われてもよい。例えば、単画像選択部１０において、Ｍ枚の画像が１組選択されると、選択されたＭ枚の画像は直ちに合成部２０に受け渡され、受け渡されたＭ枚の画像についての合成画像が作成されてよい。同様に、合成部２０において１枚の合成画像が作成されると、作成された合成画像は直ちに評価部３０に受け渡され、その総合評価値が決定されてよい。

以上説明した第１の実施形態に係る情報処理装置１００では、与えられたＮ枚の画像に対して、可能なすべての組み合わせのＭ枚の画像を選択し、また、Ｍ枚の画像の組それぞれについて、テンプレートに画像を配置するすべての順列について合成画像を得てその総合評価値を決定している。この手法は、確実に、有り得る最大の総合評価値を有する合成画像を得ることができる点で優れているが、Ｎの数が増大すると、総合評価値を決定すべき合成画像の数が指数関数的に増大し、情報処理の計算負荷が重くなる欠点がある。

そこで、図１０に示す本発明の第２の実施形態に係る情報処理装置２００では、より小さい計算負荷によって合理的に高い総合評価値を示す合成画像を選択することを企図している。なお、情報処理装置２００において、第１の実施形態に係る情報処理１００と共通の又は対応する構成には同符号を付し、以下では第１の実施形態に係る情報処理１００と異なっている点のみを説明することとし、共通する点については第１の実施形態についてした説明を援用するものとする。

情報処理装置２００では、有り得る全ての合成画像に対する総合評価値を決定することなく、特定のアルゴリズムを用い、一又は複数の既知の合成画像についての既知の総合評価値に基づいて、作成し評価すべき合成画像を逐次決定することにより、探索的に最も高い総合評価値を与える、又は最も高い総合評価値を与えると考えられる合成画像を発見するように構成されている。

すなわち、情報処理装置２００の合成画像選択部４０は、すでに得られている合成画像とその総合評価値に基づいて、単画像選択部１０に次に選択すべきＭ枚の画像の組を指定し、また、合成部２０について、次に選択すべき画像の配置の順列を指定するようになっている。これにより、最初は任意に選択された１又は複数のＭ枚の画像の組及びそのテンプレートに対する配置の順列による合成画像についての総合評価値を得、以降はそれに基づいて、より高い総合評価値を示す合成画像を探索していく。

そのような手法として、線形計画法におけるシンプレックス法、カーマーカーアルゴリズムといった各種のアルゴリズムや、ヒューリスティック探索における山登り法、最良優先探索、Ａ＊アルゴリズムといった各種のアルゴリズムを用いてよい。したがって、第２の実施形態に係る情報処理装置２００は、所与の画像の枚数Ｎが多い場合や、画像配置の順列の数が多くなる、テンプレートあたりに含まれる枠の個数Ｍが多い場合に、合理的な計算時間及び計算負荷において、観者にとって魅力的な合成画像を得ようとする際に有用である。一方で、Ｎ，Ｍが比較的小さい値である場合には、第１の実施形態に係る情報処理装置１００を用いると、最適な合成画像が得られることが保証される利点がある。

Claims

Ｎ枚（Ｎ＞１）の画像からＭ枚（Ｍ≦Ｎ）の画像を選択する単画像選択部と、
あらかじめ定められたＭ個の枠に選択された前記Ｍ枚の画像をそれぞれ配置して、合成画像を作成する合成部と、
選択された前記Ｍ枚の画像のそれぞれの単画像評価値の線形和である選択評価値と、前記合成画像の単画像評価値である合成評価値との線形和を少なくとも含む総合評価値を前記作成された合成画像と対応付け決定する評価部と、
を有し、
前記総合評価値は、選択された画像同士の類似性を示す類似性評価値の線形和をさらに含む、
情報処理装置。
前記評価部は、選択されたＭ枚の画像のそれぞれの単画像評価値と、前記あらかじめ定められたＭ個の枠のそれぞれと対応する重み係数とに基づいて、前記選択評価値を決定する、
請求項１に記載の情報処理装置。
前記評価部は、選択された前記画像の枚数であるＭに基づき前記類似性評価値を規格化し、Ｍが異なる複数の前記合成画像のそれぞれの前記総合評価値を決定する、
請求項１に記載の情報処理装置。
前記総合評価値Ｒｅｗａｒｄは、次式により得られる、請求項３に記載の情報処理装置。

ここで、λ_１、λ_２、λ_３は任意の重み係数、ｗ_ｉはｉ番目の前記枠に対応する重み係数、Ｉ_ｉはｉ番目の画像、Ｉ_{ｗｈｏｌｅ}は合成画像、Ｓｃｏｒｅ（Ｉ）は画像Ｉの単画像評価値、Ｓｉｍｉｌａｒｉｔｙ（Ｉ_ｉ，Ｉ_ｊ）は画像Ｉ_ｉと画像Ｉ_ｊの近似度である。
前記合成画像は、前記Ｍ個の枠以外の部分に、あらかじめ配置された固定画像を含む、
請求項１～４のいずれか１項に記載の情報処理装置。
前記評価部は、選択された画像または前記合成画像を機械学習モデルに入力することで、入力された当該画像または当該合成画像と対応する単画像評価値を取得する、
請求項１～５のいずれか１項に記載の情報処理装置。
前記総合評価値に基づいて、少なくとも一の前記合成画像を選択する合成画像選択部と、
をさらに有する請求項１～６のいずれか１項に記載の情報処理装置。
Ｎ枚（Ｎ＞１）の画像からＭ枚（Ｍ≦Ｎ）の画像を選択する単画像選択ステップと、
あらかじめ定められたＭ個の枠に選択された前記Ｍ枚の画像をそれぞれ配置して、合成画像を作成する合成ステップと、
選択された前記Ｍ枚の画像のそれぞれの単画像評価値の線形和である選択評価値と、前記合成画像の単画像評価値である合成評価値との線形和を少なくとも含む総合評価値を前記作成された合成画像と対応付け決定する評価ステップと、
をコンピュータに実行させる情報処理方法であって、
前記総合評価値は、選択された画像同士の類似性を示す類似性評価値の線形和をさらに含む、
情報処理方法。
コンピュータを、
Ｎ枚（Ｎ＞１）の画像からＭ枚（Ｍ≦Ｎ）の画像を選択する単画像選択部と、
あらかじめ定められたＭ個の枠に選択された前記Ｍ枚の画像をそれぞれ配置して、合成画像を作成する合成部と、
選択された前記Ｍ枚の画像のそれぞれの単画像評価値の線形和である選択評価値と、前記合成画像の単画像評価値である合成評価値との線形和を少なくとも含む総合評価値を前記作成された合成画像と対応付け決定する評価部と、
を有し、
前記総合評価値は、選択された画像同士の類似性を示す類似性評価値の線形和をさらに含む、
情報処理装置として機能させる情報処理プログラム。