JP7265686B1

JP7265686B1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7265686B1
Application number: JP2022557885A
Authority: JP
Inventors: ヒヤロイ; 満中澤; ビヨンシュテンガー
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-04-26
Anticipated expiration: 2041-09-30
Also published as: WO2023053365A1; EP4216155A1; EP4216155A4; JPWO2023053365A1

Abstract

入力画像と、属性とを入力とし、前記入力画像における少なくとも１つの領域と、当該少なくとも１つの領域のそれぞれについての評価値とを出力とする、機械学習モデル（１１１）を少なくとも含む画像評価部（１１０）を有する情報処理装置（１００）であって、共通の前記入力画像に対して、一の属性が与えられた際に出力される前記領域及び前記評価値は、前記一の属性と異なる他の属性が与えられた際に出力される前記領域及び前記評価値とは互いに異なる、情報処理装置（１００）。

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

非特許文献１には、いわゆるイメージクロッピング、すなわち、画像中の要部を抜き出す画像処理技術であって、畳み込みニューラルネットワークにおけるアテンションマップを活用して美的評価値(aesthetic value)を求め、かかる美的評価値に基づいて抜き出すべき要部の枠を求めるものが記載されている。

Wenguan Wang、Jianbing Shen、"Deep Cropping via Attention Box Prediction and Aesthetics Assessment"、[online]、ICCV-2017、[令和3年8月13日検索]、インターネット<URL: https://openaccess.thecvf.com/content_ICCV_2017/papers/Wang_Deep_Cropping_via_ICCV_2017_paper.pdf>

非特許文献１に示されているものを含め、これまで知られているイメージクロッピングの技術では、単一の評価基準（非特許文献１では美的評価値）により画像中の要部の位置を決定している。

しかしながら、画像の要部は、本来、その画像が用いられる目的に応じて異なるものである。例えば、同じ情景を写した写真画像であっても、かかる写真画像が風景画として用いられるならば、画像中の背景に映る事物に要部が存在するであろうし、かかる写真画像が人物画として用いられるならば、画像中の手前に映りこむ人物像に要部が存在することになる。同様に、同じ人物を映した写真画像であっても、かかる写真画像が人物の特定に用いられるならば、人物の顔部分に要部が存在するであろうし、かかる写真画像がファッションの紹介に用いられるならば、画像中の人物の服飾に要部が存在することになるはずである。

しかしながら、画像の目的に応じて適切にイメージクロッピングを行う技術は、これまで知られていない。

本発明は、かかる事情に鑑みてなされたものであり、その目的は、画像の目的に応じて適切にイメージクロッピングを行うことである。

上記課題を解決すべく本出願において開示される発明は種々の側面を有しており、それら側面の代表的なものの概要は以下のとおりである。

（１）入力画像と、属性とを入力とし、前記入力画像における少なくとも１つの領域と、当該少なくとも１つの領域のそれぞれについての評価値とを出力とする、機械学習モデルを少なくとも含む画像評価部を有する情報処理装置であって、共通の前記入力画像に対して、一の属性が与えられた際に出力される前記領域及び前記評価値は、前記一の属性と異なる他の属性が与えられた際に出力される前記領域及び前記評価値とは互いに異なる、情報処理装置。

（２）前記画像評価部は、前記入力画像と、前記属性とを入力とし、前記属性に応じたヒートマップを出力とするヒートマップ出力モデルを前記機械学習モデルとして少なくとも含み、さらに、前記ヒートマップを入力とし、前記ヒートマップにおける少なくとも１つの領域を抽出する領域抽出器と、前記領域に対応する前記入力画像の部分画像を入力とし、前記部分画像についての評価値を推定する評価値推定器と、を含む、（１）の情報処理装置。

（３）前記ヒートマップ出力モデルは、前記入力画像と、前記属性を設問とし、前記入力画像の入力に対して中間ヒートマップを生成する複数の互いに異なる学習済み機械学習モデルから得られる複数の中間ヒートマップを、前記属性に応じて合成して得られるヒートマップを解答とする教師データを用いて学習させることにより得られたものである、（２）の情報処理装置。

（４）前記画像評価部は、前記入力画像と、前記属性とを入力とし、前記属性に応じたヒートマップを出力とするヒートマップ出力モデルと、前記入力画像と、前記ヒートマップとを入力とし、前記入力画像における少なくとも１つの領域と、当該少なくとも１つの領域のそれぞれについての評価値とを出力とする領域評価値出力モデルと、を前記機械学習モデルとして少なくとも含む、（１）の情報処理装置。

（５）前記ヒートマップ出力モデルは、前記入力画像と、前記属性を設問とし、前記入力画像の入力に対して中間ヒートマップを生成する複数の互いに異なる学習済み機械学習モデルから得られる複数の中間ヒートマップを、前記属性に応じて合成して得られるヒートマップを解答とする教師データを用いて学習させることにより得られたものであり、前記領域評価値出力モデルは、前記ヒートマップを設問とし、前記ヒートマップの入力に対して領域を出力する学習済み機械学習モデル又はアルゴリズムから得られる領域と、入力画像の前記領域に対応する部分に対して評価値を出力する学習済み機械学習モデルから得られる評価値とを解答とする教師データを用いて学習することにより得られたものである、（４）の情報処理装置。

（６）前記画像評価部は、単一の機械学習モデルを前記機械学習モデルとして含む、（１）の情報処理装置。

（７）前記単一の機械学習モデルは、前記入力画像と、前記属性を設問とし、前記入力画像の入力に対して中間ヒートマップを生成する複数の互いに異なる学習済み機械学習モデルから得られる複数の中間ヒートマップを、前記属性に応じて合成して得られるヒートマップを、ヒートマップの入力に対して領域を出力する学習済み機械学習モデル又はアルゴリズムに入力して得られる領域と、入力画像の前記領域に対応する部分に対して評価値を出力する学習済み機械学習モデルから得られる評価値とを解答とする教師データを用いて学習することにより得られたものである、（６）の情報処理装置。

（８）入力画像と、属性とを機械学習モデルに入力することで、前記入力画像における少なくとも１つの領域と、当該少なくとも１つの領域のそれぞれについての評価値とを出力する、画像評価ステップをコンピュータに実行させる情報処理方法であって、共通の前記入力画像に対して、一の属性が与えられた際に出力される前記領域及び前記評価値は、前記一の属性と異なる他の属性が与えられた際に出力される前記領域及び前記評価値とは互いに異なる、情報処理方法。

（９）コンピュータを、入力画像と、属性とを機械学習モデルに入力することで、前記入力画像における少なくとも１つの領域と、当該少なくとも１つの領域のそれぞれについての評価値とを出力する、画像評価部として機能させる情報処理プログラムであって、共通の前記入力画像に対して、一の属性が与えられた際に出力される前記領域及び前記評価値は、前記一の属性と異なる他の属性が与えられた際に出力される前記領域及び前記評価値とは互いに異なる、情報処理プログラム。

（１０）機械学習モデルを、入力画像と、属性を設問とし、前記入力画像の入力に対して中間ヒートマップを生成する複数の互いに異なる学習済み機械学習モデルから得られる複数の中間ヒートマップを、前記属性に応じて合成して得られるヒートマップを解答とする教師データを用いて学習させることにより、ヒートマップ出力モデルとして訓練する、ヒートマップ出力モデル訓練ステップをコンピュータに実行させる、情報処理方法。

（１１）一の機械学習モデルを、入力画像と、属性を設問とし、前記入力画像の入力に対して中間ヒートマップを生成する複数の互いに異なる学習済み機械学習モデルから得られる複数の中間ヒートマップを、前記属性に応じて合成して得られるヒートマップを解答とする教師データを用いて学習させることにより、ヒートマップ出力モデルとして訓練する、ヒートマップ出力モデル訓練ステップと、他の機械学習モデルを、前記ヒートマップを設問とし、前記ヒートマップの入力に対して領域を出力する学習済み機械学習モデル又はアルゴリズムから得られる領域と、入力画像の前記領域に対応する部分に対して評価値を出力する学習済み機械学習モデルから得られる評価値とを解答とする教師データを用いて学習させることにより、前記領域評価値出力モデルとして訓練する、領域評価値出力モデル訓練ステップと、をコンピュータに実行させる、情報処理方法。

（１２）機械学習モデルを、入力画像と、属性を設問とし、前記入力画像の入力に対して中間ヒートマップを生成する複数の互いに異なる学習済み機械学習モデルから得られる複数の中間ヒートマップを、前記属性に応じて合成して得られるヒートマップを、ヒートマップの入力に対して領域を出力する学習済み機械学習モデル又はアルゴリズムに入力して得られる領域と、入力画像の前記領域に対応する部分に対して評価値を出力する学習済み機械学習モデルから得られる評価値とを解答とする教師データを用いて学習させる、機械学習モデル訓練ステップをコンピュータに実行させる、情報処理方法。

本発明の好適な種々の実施形態において共通に観念される、情報処理装置の機能的な観念図である。入力画像の例である。入力画像における、種々の「要部」の例である。情報処理装置の画像評価部に含まれる機械学習モデルを学習させる方法を示す模式図である。ＣＴＲ予測を示す中間ヒートマップの例である。美的評価値を示す中間ヒートマップの例である。服飾を示す中間ヒートマップの例である。鞄を示す中間ヒートマップの例である。生成されたヒートマップの例である。生成されたヒートマップの例である。領域抽出器で実行される処理の一例を説明する図である。得られた領域の例である。領域抽出器で実行される処理フローを示す図である。評価値推定器の構成の一例を示す図である。第１の実施形態に係る情報処理装置の構成を、機械学習モデルの学習時の動作と合わせて示す図である。第２の実施形態に係る情報処理装置の構成を、機械学習モデルの学習時の動作と合わせて示す図である。第３の実施形態に係る情報処理装置の構成を、機械学習モデルの学習時の動作と合わせて示す図である。図１に示した機械学習モデルを実装するアーキテクチャの一例として、ＦａｓｔｅｒＲ－ＣＮＮに基づく機械学習モデルパイプラインの構成を示す図である。一般的なコンピュータの代表的な物理構成を示す構成図である。

図１は、本発明の好適な種々の実施形態において共通に観念される、情報処理装置１００の機能的な観念図である。情報処理装置１００は、同図に示された機能を適切な物理的手段、例えば、適切なコンピュータプログラムを実行するコンピュータ、によって実現することによって実現される。

情報処理装置１００は、端的には、用意した入力画像を画像評価部１１０に入力すると、同図右側に示すように、入力画像における少なくとも１つの領域Ｗと、かかる領域Ｗについての評価値Ｅを出力するというものである。ここで、領域Ｗと評価値Ｅは、通常は複数組出力されるため、図１では添え字を付してそれらを区別している。また、図１では図示の都合上、領域Ｗと評価値Ｅを３組のみ示しているが、この数はもっと多くともよく、また、画像評価部１１０の設計によっては、出力される領域Ｗと評価値Ｅは単独のものであってもよい。

ここで、領域Ｗは、入力画像の「要部」の候補となる領域を指す。以降、本実施形態においては、領域Ｗの形状として矩形のものを例示して説明するが、領域Ｗの外形形状は任意の形状であってよく、また、複数の異なる形状の領域Ｗを同時に出力するように画像評価部１１０を設計してもよい。ここで、入力画像の「要部」とは、入力画像のうち、観者の注目をひく重要な部分を指している。どのように入力画像の「要部」を定めるべきかの詳細な説明はこの後説明する。

また、画像評価部１１０には、入力画像と合わせて、属性が入力される。この属性は、その入力画像をどのように用いるかに関連する情報であるが、この属性が意味する具体的な説明は、上の「要部」と合わせて、この後説明する。

ここで、情報処理装置１００は、入力される属性に応じて、入力画像に対して出力する領域Ｗと評価値Ｅが変化する。換言すると、共通の入力画像に対して、一の属性が与えられた際に出力される領域Ｗ及び評価値Ｅは、当該一の属性と異なる他の属性が与えられた際に出力される領域Ｗ及び評価値Ｅとは互いに異なることになる。

ここで、「入力される属性に応じて、入力画像に対して出力する領域Ｗと評価値Ｅが変化する」とは、特定の入力画像に対し、入力する属性が異なれば、画像評価部１１０から出力される領域Ｗと評価値Ｅが常に異なることを意味しない。通常そのようなことはほぼ起こりえないと考えられるが、入力画像の選択など、条件によっては、偶然に、互いに異なる属性に対して、同一（又は実質的に同一）の領域Ｗと評価値Ｅが出力される場合が存在してもよい。しかしながら、ある入力画像に対して、同一の領域Ｗと評価値Ｅを出力するような互いに異なる属性を入力とした場合に、画像評価部１１０が互いに異なる領域Ｗと評価値Ｅを出力する少なくとも一の別の入力画像は必ず存在する。このことは逆に言えば、いかなる入力画像に対しても、常に同一の領域Ｗと評価値Ｅを出力するような２つの属性があったとするならば、それら２つの属性は異なるものではなく、同一である。

また、画像評価部１１０は、少なくとも一の機械学習モデル１１１を含んでいる。機械学習モデルの種類やアーキテクチャにも特段の制限はなく、入力画像の性質や機械学習技術の進展に伴って、好適なモデルを選択すればよい。現状においては、Ｒ－ＣＮＮ（ＲｅｇｉｏｎｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）等のＤＮＮ（ＤｅｅｐＮｅｗｒａｌＮｅｔｗｏｒｋ）が好適に適用できるため、本明細書でも、以降機械学習モデル１１１としてＤＮＮを念頭に置いた説明をするが、それ以外のモデルを用いることを制限するものではない。また、本明細書でいう「機械学習モデル」は、機械学習モデル自体のアーキテクチャを制限的に解釈するものではない。すなわち、Ｒ－ＣＮＮ等に見られるように、独立したものとしてみなすこともできる、複数の機械学習用のＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）の入力と出力を適切に組み合わせることによって所望の結果を得る、いわゆる機械学習パイプラインであっても、これを特に区別することなく、「機械学習モデル」と呼ぶものとする。なお、画像評価部１１０は、外部のコンピュータやサーバが有する少なくとも一の機械学習モデルと連携することで、当該少なくとも一の機械学習モデルを含んでもよい。

ここで、上述の情報処理装置１００の技術上及び実用上の意義、及び、本明細書において用いられる用語の意味について併せて説明する。

図２は入力画像の例である。同図に示したものは、人物の写真であるが、被写体がどのようなものであるかは特に限定されるものではなく、また、入力画像が実写によるものであるかそれ以外のもの（イラストレーション等）であるかも問わない。また、入力画像のフォーマットも特に限定されるものではなく、ラスタ画像、ベクトル画像の別や解像度、フォーマットも任意であるが、少なくとも、入力画像が画像評価部１１０に入力される際には、入力画像は電子データとして用意されることになる。

さて、ここで情報処理装置１００が目指すものは、図２に示したような入力画像の要部を示すことである。要部の位置及び形状が特定できていれば、その後のプロセス、例えばトリミング等を行って、画像の活用に用立てることは容易である。ところが、例に示した単純な入力画像に対しても、その「要部」を一律に定めることは実はできない。

というのも、ある入力画像の「要部」は、その入力画像をどのように用いるかにより異なり得るからである。具体例で示すと、図３に示す図２と同じ入力画像に対して、「要部」として、人物像が要求されているならば、不要な余白が除去された、図中破線Ａで示される枠内の領域が妥当と考えられる。しかしながら、「要部」として、服飾（あるいはファッション）が要求されているならば、「要部」は図中一点鎖線Ｂで示される枠内の領域が妥当であろうし、「要部」として鞄が要求されているならば、図中二点鎖線Ｃで示される枠内の領域が妥当となるであろう。

したがって、入力画像の「要部」は、その入力画像をどのように用いるかを示す情報に基づいて定められなければならず、かかる情報は入力画像とは別に、何らかの手法により与えられる。かかる情報を、以降、入力画像の「属性」と称する。図３に即して挙げるならば、「人物像」、「服飾」、「鞄」はいずれも属性の具体例である。

ところで、画像解析の技術分野において、適切な学習データを用意することにより、画像を構成する画素単位で重要性の評価を数値的にしめす評価画像を作成できることはすでに知られている。本明細書では、かかる評価画像を以降、「ヒートマップ」と称する。ヒートマップの解像度は必ずしも入力画像と一致している必要はなく、個々の評価値は、３×３や、５×５など、複数画素ごとに示されるものであっても構わない。

しかしながら、かかるヒートマップがどのような観点（すなわち、属性）に基づいて生成されるかは、用意された機械学習の学習データに依存する。そのため、ヒートマップにより示される領域を要部として抽出するにしても、従来知られている技術を単に用いるだけでは、種々の観点に応じて、都度適した要部を示すことはできない。

一方で、観点毎に別々に学習を行った機械学習モデルを用意することにより、観点に応じた「要部」を得ることは理論的には可能である。しかしながら、このような方法では、多数の画像と、その「要部」を示す正解画像との組からなる多数の学習データを、観点毎に逐一用意して機械学習モデルを訓練しなければならない。従って、かかる方法により観点毎の「要部」を得るのは、理論的には可能ではあるものの、観点毎の学習データを用意するのがむつかしく、現実的ではない。

そこで、本発明に係る情報処理装置１００では、比較的容易に入手できる学習データにより実現される機械学習モデルから、画像評価部１１０を構築できるようにしている。

図４は、情報処理装置１００の画像評価部１１０に含まれる機械学習モデル１１１を学習させる方法を示す模式図である。情報処理装置１００は同図の下側に示されており、ここでは、画像評価部１１０に含まれる機械学習モデル１１１は、未学習であるか、又は学習中である。

一方、図４において、情報処理装置１００の上側には、機械学習パイプライン１０が示されている。機械学習パイプライン１０は、入力画像と、属性の入力を受けて、既存の、又は容易に構築の可能な機械学習モデル１１の群を用いて、入力画像の要部を示すヒートマップＨＭ、要部に対応する領域Ｗ、かかる領域Ｗに対応する評価値Ｅの推定値の少なくともいずれかを出力するものである。すなわち、機械学習パイプライン１０を用いれば、入力画像と属性を設問とし、ヒートマップＨＭ、領域Ｗ、評価値Ｅの少なくともいずれかを解答とする学習データが得られるため、かかる学習データを用いて、画像評価部１１０に含まれる機械学習モデル１１１を学習させることにより、入力画像と属性とを入力として、領域Ｗ及び評価値Ｅを出力とする画像評価部１１０を現実的に構築することができることになる。

機械学習モデル１１１の学習データとして、ヒートマップＨＭ、領域Ｗ、評価値Ｅのいずれを用いるかは、画像評価部１１０の構成に依存する。画像評価部１１０の種々の具体的構成例及び、当該構成における機械学習モデル１１１の学習方法については後述する。

また、図４に示す機械学習モデル１１１を学習させる方法は、機械学習の技術分野において、知識の蒸留、またはＴｅａｃｈｅｒ－ＳｔｕｄｅｎｔＭｏｄｅｌとして知られる学習方法を応用したものとなっている。すなわち、画像評価部１１０に含まれる機械学習モデル１１１は、機械学習パイプライン１０により実現されている知識を蒸留したものとなっており、機械学習器として見た場合に、機械学習パイプラインに含まれる知識をよりコンパクトな（すなわち、よりノード数が少ない、又は推論に要する総計算数が少ない）モデルに効率よく格納したものとなっている。そのため、入力画像に対し、属性に応じた領域Ｗ及び評価値Ｅを出力するという点では、機械学習パイプライン１０と、情報処理装置１００とは同等の結果をもたらすが、コンピュータ上で実行する際に、推論に要する演算負荷は、情報処理装置１００の方が小さくなり、また、推論速度も速いというメリットがある。

以下、機械学習パイプライン１０の具体的構成を説明する。機械学習パイプライン１０では、機械学習モデル１１として、上述したように既存の、又は容易に構築の可能なものを複数用意している。図４では、一例として機械学習モデル１１ａ～１１ｄの４つを示しているが、この数は任意でよく、用いたい属性の数等に応じて必要なだけ用意すればよい。

ここで、機械学習モデル１１ａ～１１ｄは、入力画像の属性に応じて異なる、画像の要部を示すヒートマップではなく、機械学習モデル１１ａ～１１ｄ毎に定められた、特定の観点におけるヒートマップを出力するものである。以降、本明細書では、入力画像の属性に即した、画像の要部を示すヒートマップを単にヒートマップＨＭと称し、個別の機械学習モデル１１ａ～１１ｄにより得られる、単観点によるヒートマップを中間ヒートマップ１２と称し、両者を区別することとする。中間ヒートマップは、例えば、個別の機械学習モデルに含まれるＡｔｔｅｎｔｉｏｎモデルを用いて生成されるＡｔｔｅｎｔｉｏｎマップやＡｔｔｅｎｔｉｏｎ画像などの出力に相当する。このとき、機械学習モデルは、その機械学習モデルに含まれるＣＮＮ（畳み込みニューラルネットワーク）などの特徴抽出器により出力された特徴量マップに基づき、Ａｔｔｅｎｔｉｏｎモデルを用いて、ＡｔｔｅｎｔｉｏｎマップやＡｔｔｅｎｔｉｏｎ画像などの出力を中間ヒートマップとして生成する。なお、ここでのＡｔｔｅｎｔｉｏｎマップとは、Ａｔｔｅｎｔｉｏｎモデルに基づいて生成されるマップであってよく、Ａｔｔｅｎｔｉｏｎモデルに基づかずに生成されるマップであってよもよい。例えば、ＣＴＲ予測や美的評価値予測における中間ヒートマップとしてのＡｔｔｅｎｔｉｏｎマップは、Ａｔｔｅｎｔｉｏｎモデルに基づいて生成されるＡｔｔｅｎｔｉｏｎマップに相当する。。

図５～図８は、図２に例示的に示した入力画像に対する、中間ヒートマップ１２の例である。

図５の中間ヒートマップ１２ａは、ＣＴＲ（クリックスルーレート）予測である。ＣＴＲ予測を中間ヒートマップ１２ａとして出力する機械学習モデル１１ａは、例えば、ＣＮＮとして知られる機械学習のアーキテクチャを用い、学習データとして、ＣＴＲに相当するスコアがアノテーションされた画像を用いて学習させることで得ることができる。かかる学習データは、例えばＥＣ（電子商取引）サイト上に表示させる画像に対するユーザ操作をトラッキングすることにより入手可能である。

図６の中間ヒートマップ１２ｂは、美的評価値である。美的評価値を中間ヒートマップ１２ｂとして出力する機械学習モデル１１ｂを得るための学習データは、研究用あるいは実用用として無償或いは有償でインターネット上に公開されているものが既に存在しているため、かかる学習データを用いて例えばＣＮＮによる機械学習モデル１１１を訓練することにより、機械学習モデル１１ｂを得ることができる。一般に、かかる学習データにおいては、美的評価値として、特に用途などを限定することなく、画像において観者の注意をひきやすい部分に高い評価をつけ、あまり注意を引かない部分には低い評価をつけるような学習をさせるものとなっている。なお、ここでの美的評価値は、審美性スコアとも表現され得る。

図７の中間ヒートマップ１２ｃは、服飾を示している。すなわち、画像中、「服飾」に該当する部分を示す画像であり、入力画像中、人物が着用している服が写っている領域を示している。かかる中間ヒートマップ１２ｃを出力する機械学習モデル１１ｃを得るには、専用の学習データを逐一作成してもよいが、より簡便には、例えば、画像のセグメンテーション技術を用い、任意の画像に対し、領域の抽出とラベリングを行って、「服」のラベル付けがなされた領域のデータを学習データとして用い、機械学習モデル１１ｃを訓練すればよい。そのような画像のセグメンテーション技術としては、Ｒ－ＣＮＮ、あるいは、ＦａｓｔｅｒＲ－ＣＮＮとして知られているものが著名であり、これらを用いることができる。あるいは、Ｒ－ＣＮＮやＦａｓｔｅｒＲ－ＣＮＮを直接、機械学習モデル１１ｃとして用い、「服」のラベル付けがなされた領域のデータのみを取り出して中間ヒートマップ１２ｃとして用いてもよい。

図８の中間ヒートマップ１２ｄは、鞄を示しており、その意味は、入力画像中、鞄が写っている領域を示すものである。かかる中間ヒートマップ１２ｄを出力する機械学習モデル１１ｄを得るには、図７において服飾について説明したと同様のことを鞄について行えばよい。

同様にして、任意の必要な数の種類の機械学習モデル１１を用意し、必要な数の種類の中間ヒートマップ１２を得られるようにしておく。なお、図５～図８に示した中間ヒートマップ１２ａ～１２ｄの例では、図示の都合上、これら中間ヒートマップ１２ａ～１２ｄが二値画像であるかのように示しているが、これに限定するものではなく、任意のビット数のグレースケール画像であってよい。

また、機械学習モデル１１ａ～１１ｄは、上の例示ではＣＮＮを用いるものとして説明したが、機械学習モデルのアーキテクチャはこれに限られない。ＣＮＮのようなＤＮＮだけでなく、他の機械学習手法を用いるものであっても差し支えないし、得ようとする中間ヒートマップ１２ごと、すなわち、機械学習モデル１１毎にそのアーキテクチャは異なっていてもよい。また、入力画像のフォーマットは、入力しようとする機械学習モデル１１に応じて変換される。例えば、所定のサイズ、所定の解像度のラスタ画像に変換されるなどである。

得られた複数の中間ヒートマップ１２は、合成部１３によって一枚のヒートマップＨＭに合成される。この合成の際に、属性が加味され、得られるヒートマップＨＭはその属性に応じたものとなる。

図９及び図１０は、合成部１３により生成されたヒートマップＨＭの例である。図９に示したヒートマップＨＭは、属性として服飾を指定したもの、図１０に示したヒートマップＨＭは、属性として鞄を指定したものであり、いずれも同じ図２に示した入力画像に基づいて生成されたものであって、指定された属性が異なると、互いに全く異なるヒートマップＨＭが生成されていることがわかる。一方で、例えば、図９に示したヒートマップと、図７に示した服飾を示す中間ヒートマップとを比較すると、両者は同一でなく、図７の中間ヒートマップでは服飾のみを示す領域が示されているのに対し、図９に示すヒートマップでは、服飾部分を中心としつつ、その周囲の適度な領域をも含む領域が示され、入力画像を服飾を示す画像として用いるにあたり、その要部を示す領域として妥当な領域が選択されていることがわかる。図１０に示したヒートマップにおいても同様に妥当と考えられる領域が適切に選択されていることがわかる。

かかるヒートマップＨＭが得られる合成手法として、合成部１３は、例えば、指定された属性に応じた重みに基づいて中間ヒートマップ１２を合成する。例えば、図４に即した例で説明すると、中間ヒートマップ１２ａ～１２ｄを合成する際のそれぞれの中間ヒートマップ１２に乗じる重みの係数をそれぞれ、（ａ，ｂ，ｃ，ｄ）と示すこととして、属性として服飾が指定された場合の重み係数を、（０．３，０．３，０．４，０）のように設定する。このようにすると、合成部１３では、ＣＴＲ及び美的評価値を考慮しつつ、服飾に関係する領域により高い評価がなされた、図９に示すようなヒートマップＨＭを出力する。これに対し、属性として鞄が指定された場合には、重み係数として、（０．３，０．３，０，０．４）のように設定すると、今度は、合成部１３では、ＣＴＲ及び美的評価値を考慮しつつ、鞄に関係する領域により高い評価がなされた、図１０に示すようなヒートマップＨＭを出力することになる。

なお、以上の説明では、合成部１３での処理として、属性に応じた重みに基づいて、中間ヒートマップ１２ａ～１２ｄを合成する例を説明したが、中間ヒートマップ１２に基づいて、属性に応じたヒートマップＨＭを合成できるのであれば、別の手法を用いてもよい。そのような手法としては、例えば、あらかじめ、属性に応じて、入力画像が入力される機械学習モデル１１を選択しておき、選択された機械学習モデル１１から出力された中間ヒートマップ１２を合成してヒートマップＨＭを得る方法や、機械学習モデル１１から出力された中間ヒートマップ１２の中から、属性に応じて、合成部１３に入力される中間ヒートマップ１２を選択し、選択された中間ヒートマップ１２を合成してヒートマップＨＭを得る方法、さらにはこれらの方法の組み合わせ等を用いてもよい。

領域抽出器１４は、合成部１３により合成されたヒートマップＨＭに基づいて、入力画像の一部分である主要部分にあたる領域Ｗを特定する。本明細書に示す例では、領域Ｗの形状は矩形であるが、楕円や星型その他不定形状など、主要部分の形状は任意のものであって差し支えない。

図１１は、領域抽出器１４で実行される処理の一例を説明する図である。ここで説明する手法としては、スライディングウィンドウと呼称される方法を用いている。まず、領域抽出器１４は、ヒートマップＨＭに対し、大きさと形状の異なる種々の切り出し窓Ｘを設定する。例えば、図１１に示すＸ_Ａｌ、Ｘ_Ｂｍ、Ｘ_Ｃｎはいずれも切り出し窓Ｘの一部である。ここでＸの後の一文字目の添え字（Ａ、Ｂ、Ｃ・・・）は切り出し窓Ｘのサイズ及び形状を示し、二文字目の添え字（ｌ，ｍ，ｎ・・・）は切り出し窓ＸのヒートマップＨＭ上の位置を示している。

すなわち、あるサイズ及び形状の切り出し窓Ｘ、例えばＸ_Ａが、ヒートマップＨＭ上の全ての領域を覆うように、位置をずらしながらＸ_Ａ１・・・Ｘ_Ａｌのｌ個設定される。同様に、Ｘ_Ｂはｍ個、Ｘ_Ｃはｎ個設定される。ここでは説明のため、切り出し窓Ｘのサイズ及び形状として、Ｘ_Ａ～Ｘ_Ｃの３種のみを示したが、より多数の種々のサイズ及び形状の領域についても同様に設定する。

このようにして設定された切り出し窓Ｘのうち、次の条件を満足するものを候補窓Ｘ_ｃａｎｄとして抽出する。

ここで、ｘはヒートマップＨＭに含まれる画素、Ｐ（ｘ）は画素ｘにおけるヒートマップＨＭの値、λは０＜λ＜１である任意の閾値である。すなわち、上の数１は結局、ヒートマップＨＭ全ての画素ｘについての値の総計に対して、切り出し窓Ｘに含まれる画素ｘについての値の総計の割合がλより大きくなるＸを候補窓Ｗ_ｃａｎｄとして抽出することをいうものである。なお、λの値は任意の固定値、例えば０．７等として与えてもよいし、全ての領域Ｗのうち上位の任意割合、例えば５％が候補窓Ｘ_ｃａｎｄとして抽出されるように設定してもよい。

その後、候補窓Ｘ_ｃａｎｄの中から、領域Ｗとして適したものを選び出す。一例として、次の数２に示される方法を用いてよい。

ここで、｜Ｘ｜は切り出し窓Ｘに含まれる画素数を示しているから、数２は結局、候補領域Ｘ_ｃａｎｄに含まれる切り出し窓Ｘのうち、最もサイズの小さいものを選択することをいうものである。このようにして、最終的には、例えば、図１２に示されるように、領域Ｗが得られる。

なお、Ｘ_ｃａｎｄに含まれる切り出し窓Ｘから領域Ｗとして適したものを選び出す方法は上述のものに限定されない。例えば、図４に関して説明した美的評価値を出力する機械学習モデル１１ｂを用いて、Ｘ_ｃａｎｄに含まれる切り出し窓Ｘのうち、最も高い美的評価値を含むものを、次の数３のようにして選択してもよい。

ここで、Ｑ（Ｘ）は、美的評価値についての中間マップにおける美的評価値を示す。すなわち、数３は、Ｘ_ｃａｎｄに含まれる切り出し窓Ｘにおいて、各画素の美的評価値の総計が最も大きいものを選び出すことをいうものである。なお、本実施形態では、切り出し窓Ｗについての１又は複数のスコアの総計に基づく何らかのスコアを数３における美的評価値として扱ってよい。

図１３は、以上説明した例における、領域抽出器１４で実行される処理フローを示す図である。領域抽出器１４は、処理を開始すると、すでに説明したように種々の大きさと形状および位置の切り出し窓ＸをステップＳ０１にて設定し、ステップＳ０２で数１に示した方法又は類似するその他の方法により候補窓Ｘ_ｃａｎｄを抽出する。その後ステップＳ０３にて、数２又は数３に示した方法或いはその他の方法により、領域Ｗとして適したものを選定する。

あるいは、領域抽出器１４では、別の処理を実行することにより領域Ｗを求めてもよい。その一例としては、機械学習モデル、好適には学習済みのＲ－ＣＮＮを用いて、ヒートマップから直接領域Ｗの大きさと形状および位置を出力させるようにしてもよい。機械学習モデルを得るためには、種々のヒートマップの例と、対応する領域Ｗを示す学習データを用いて訓練すればよい。かかる学習データを得るために、上の領域抽出器１４で行われる処理として説明したスライディングウィンドウと呼称される方法を用いてもよい。

図４に戻り、領域抽出器１４により得られた領域Ｗにおける評価値Ｅを評価値推定器１５により推定する。図１４は評価値推定器１５の構成の一例を示す図である。

評価値推定器１５は、入力画像のうち、領域Ｗに相当する部分のみの画像による評価を行うものである。そのため、まず、乗算器１６により入力画像と領域Ｗとの乗算を行い、領域画像１７を得る。その後、領域画像１７に所定の評価を行えばよいが、本例では、その評価基準として、すでに説明したＣＴＲと美的評価値を用いる。

すなわち、評価値推定器１５は、機械学習モデル１８ａと機械学習モデル１８ｂの２つを有しており、機械学習モデル１８ａは、画像の入力に対して、そのＣＴＲであるＥ_ＣＴＲを出力するものであり、同様に、機械学習モデル１８ｂは、画像の入力に対して、その美的評価値であるＥ_{ａｅｓｔｈｅｔｉｃ}を出力するものである。機械学習モデル１８ａと機械学習モデル１８ｂはいずれもＣＮＮなどのＤＮＮであってよく、また、その学習データは前述したように比較的入手が容易であるから、これら機械学習モデル１８ａ，１８ｂの構築は十分に可能である。

なお、機械学習モデル１８ａ及び機械学習モデル１８ｂは、先の図４にて説明した機械学習モデル１１ａ及び機械学習モデル１１ｂとは異なり、中間ヒートマップ１２を出力するものではなく、評価値Ｅ_ＣＴＲ、Ｅ_{ａｅｓｔｈｅｔｉｃ}を直接出力するように学習がなされている。しかしながら、これに替えて、図４に示したものと同じ機械学習モデル１１ａ及び機械学習モデル１１ｂを用い、これらより出力された中間ヒートマップから評価値Ｅ_ＣＴＲ、Ｅ_{ａｅｓｔｈｅｔｉｃ}を演算するようにしてもよい（例えば、中間ヒートマップに含まれる各画素の評価値の平均値を画像自体の評価値として用いるなど）。

得られた評価値Ｅ_ＣＴＲ、Ｅ_{ａｅｓｔｈｅｔｉｃ}は加算器１９により加算され、最終的な評価値Ｅを得る。この時、適当な重みｗ_ＣＴＲおよびｗａ_{ｅｓｔｈｅｔｉｃ}を数４に示すように乗じて、ＣＴＲと美的評価値の評価値Ｅに与える影響の大きさを調整するとよい。

なお、評価値推定器１５において用いる評価値Ｅとして上にあげたＥ_ＣＴＲとＥ_{ａｅｓｔｈｅｔｉｃ}の和は、評価値Ｅの一例である。Ｅ_ＣＴＲとＥ_{ａｅｓｔｈｅｔｉｃ}のいずれか一方をそのまま評価値Ｅとしてもよいし、その他の値を評価値Ｅとして用いてもよい。また、評価値Ｅは必ずしも単独の値である必要はなく、Ｅ_ＣＴＲとＥ_{ａｅｓｔｈｅｔｉｃ}の両方を用いても、これらに替えて、又は追加してその他の値を用いてもよい。その場合、評価値Ｅはスカラー値ではなく、ベクトル値として観念される。

以上説明した機械学習パイプライン１０からは、入力画像及び属性に対して、ヒートマップＨＭ、領域Ｗ、評価値Ｅが得られるため、これらを学習データとして、情報処理装置１００の画像評価部１１０に含まれる機械学習モデル１１１を学習させることができる。

以下、機械学習パイプライン１０から得られた学習データにより学習がなされる情報処理装置１００の具体的構成の種々の実施形態を説明する。

図１５は、第１の実施形態に係る情報処理装置２００の構成を、機械学習モデル２１１の学習時の動作と合わせて示す図である。

情報処理装置２００の画像評価部２１０には、機械学習モデル２１１、領域抽出器２１４、評価値予測機２１５が接続されており、画像評価部２１０は全体として情報処理器のパイプラインとなっている。

機械学習モデル２１１は、入力画像と属性の入力に対して、属性に応じたヒートマップＨＭを出力されるように学習がなされた、ヒートマップ出力モデルである。したがって、機械学習モデル２１１に、例えば、図２に例示した入力画像を入力し、属性として服飾を入力すると、同モデルは、図９に示したような属性：服飾に応じたヒートマップＨＭを出力し、同じ入力画像に対して属性として鞄を入力すると、図１０に示したような属性：鞄に応じたヒートマップＨＭを出力するものである。

このように、機械学習モデル２１１に入力画像と属性を与えると、直接、属性に応じたヒートマップＨＭが得られるため、これを領域抽出器２１４に入力して領域Ｗを、さらに、領域Ｗを評価値推定器２１５に入力して評価値Ｅを得ることができる。すなわち、共通の入力画像に対して、一の属性が与えられた際に出力されるヒートマップＨＭと、当該一の属性と異なる他の属性が与えられた際に出力されるヒートマップＨＭが互いに異なるため、当然に、情報処理装置２００では、共通の入力画像に対して、一の属性が与えられた際に出力される領域Ｗ及び評価値Ｅは、当該一の属性と異なる他の属性が与えられた際に出力される領域Ｗ及び評価値Ｅとは互いに異なることとなる。

ここで、情報処理装置２００の領域抽出器２１４及び評価値推定器２１５は、図４の機械学習パイプライン１０において説明した、領域抽出器１４及び評価値推定器１５と同一のものであってよい。したがって、改めてこれらの詳細な説明を重複してすることはしない。

引き続き図１５を参照して、機械学習モデル２１１を得る、すなわち、機械学習モデル２１１を学習する方法について説明する。なお、図１５において、機械学習モデル２１１の学習時の動作については、これを破線で示すことで明示している。

機械学習モデル２１１は、すでに説明したとおり、入力画像と属性の入力に対し、ヒートマップＨＭを出力するものである。そして、これもすでに説明したとおり、図４に示した機械学習パイプライン１０（図１５中にも示した）もまた、入力画像と属性の入力に対し、ヒートマップＨＭを出力することができる。

そこで、同じ入力画像と属性の入力に対し、機械学習パイプライン１０より得られたヒートマップＨＭを正解画像、機械学習モデル２１１より得られたヒートマップＭＨを予測画像とし、両者の誤差２０を得る。ここで、誤差２０は交差エントロピー誤差、最小二乗誤差など機械学習の技術において一般に用いられるいかなるものであってもよい。その後、逆誤差伝播法その他適宜の方法を用いて、機械学習モデル２１１の内部状態を更新する。

これを必要な回数適宜繰り返すことにより、機械学習モデル２１１の学習がなされる。なお、機械学習パイプライン１０による正解画像としてのヒートマップＨＭの出力と、機械学習モデル２１１からの予測画像としてのヒートマップＨＭの出力は、必ずしも同時並行的に実施されなくともよく、用意された入力画像と属性に対して、機械学習パイプライン１０によるヒートマップＨＭの出力を事前に行って学習データのセットを作成しておき、その後、同学習データを用いて機械学習モデル２１１の学習を行っても差し支えない。

そして、機械学習パイプライン１０においては、すでに説明したとおり、ヒートマップＨＭは、入力画像の入力に対して中間ヒートマップ１２を生成する複数の互いに異なる学習済み機械学習モデル１１から得られる複数の中間ヒートマップ１２を、前記属性に応じて合成することにより得られる。したがって、機械学習モデル２１１は、入力画像と、属性を設問とし、機械学習パイプライン１０により得られるかかるヒートマップＨＭを解答とする教師データを用いて学習させる学習方法によって得られたものである。

図１６は、第２の実施形態に係る情報処理装置３００の構成を、機械学習モデル３１１ａ，３１１ｂの学習時の動作と合わせて示す図である。

情報処理装置３００の画像評価部３１０には、機械学習モデル３１１ａ及び機械学習モデル３１１ｂが含まれており、画像評価部２１０は全体として、機械学習モデル３１１ａ及び機械学習モデル３１１ｂを接続した一種の機械学習のパイプラインとなっている。

機械学習モデル３１１ａは、先の第１の実施形態に係る情報処理装置２００にて示した機械学習モデル２１１と同じものであり、入力画像と属性の入力に対して、属性に応じたヒートマップＨＭを出力されるように学習がなされた、ヒートマップ出力モデルである。したがって、機械学習モデル３１１ａについての重複する説明は、先の第１の実施形態に係る情報処理装置２００についての説明を援用することとし、これを省略する。

機械学習モデル３１１ａから得られたヒートマップＨＭは、機械学習モデル３１１ｂに入力される。機械学習モデル３１１ｂは、先の第１の実施形態に係る情報処理装置２００における領域抽出器２１４と評価値推定器２１５に替えて設けられるものであり、ヒートマップＨＭ及び、入力画像を入力とし、領域Ｗ及び評価値Ｅの組（Ｗ，Ｅ）を出力とするよう学習された、領域評価値出力モデルである。

このような構成の画像評価部３１０においても、機械学習モデル３１１ａに入力画像と属性を与えると、直接、属性に応じたヒートマップＨＭが得られるため、これをさらに機械学習モデル３１１ｂに与えることにより得られる領域と評価値の組（Ｗ，Ｅ）は、当然に、共通の入力画像に対して、一の属性が与えられた際に出力される領域と評価値の組（Ｗ，Ｅ）は、当該一の属性と異なる他の属性が与えられた際に出力される領域と評価値の組（Ｗ，Ｅ）とは互いに異なることとなる。

引き続き図１５を参照して、機械学習モデル３１１ａ及び３１１ｂを得る、すなわち、機械学習モデル３１１ａ及び３１１ｂを学習する方法について説明する。なお、図１６においても、機械学習モデル３１１ａ及び３１１ｂの学習時の動作については、これを破線で示すことで明示している。

機械学習モデル３１１ａの学習については、先の第１の実施形態に係る情報処理装置２００についてすでに説明したとおりである。そのため、これについても、重複する説明は、先の第１の実施形態に係る情報処理装置２００についての説明を援用することとし、これを省略する。なお、図１５において誤差２０として示されたものは、図１６における誤差２０ａに相当する。

機械学習モデル３１１ｂは、すでに説明したとおり、入力画像とヒートマップＨＭとを入力とし、当該入力画像における少なくとも１つの領域Ｗと、当該少なくとも１つの領域Ｗのそれぞれについての評価値Ｅとを出力とするものである。そして、これもすでに説明したとおり、図４に示した機械学習パイプライン１０（図１６中にも示した）は、入力画像の入力に対し、ヒートマップＨＭ、領域Ｗ及び評価値Ｅを出力することができるものである。

そこで、入力画像と属性の入力に対し、機械学習パイプライン１０より得られたヒートマップＨＭを設問とし、同じく機械学習パイプライン１０より得られた領域と評価値の組（Ｗ，Ｅ）を正解データ、機械学習モデル３１１ｂより得られた領域と評価値の組（Ｗ，Ｅ）を予測データとし、両者の誤差２０ｂを得る。ここで、誤差２０ｂは交差エントロピー誤差、最小二乗誤差など機械学習の技術において一般に用いられるいかなるものであってもよい。その後、逆誤差伝播法その他適宜の方法を用いて、機械学習モデル３１１ｂの内部状態を更新する。

これを必要な回数適宜繰り返すことにより、機械学習モデル３１１ｂの学習がなされる。なお、機械学習パイプライン１０からの正解画像としてのヒートマップＨＭの出力と、機械学習モデル２１１からのヒートマップＨＭ、領域Ｗ及び評価値Ｅの出力を事前に行って学習データのセットを作成しておき、その後、同学習データを用いて機械学習モデル３１１ｂの学習を行っても差し支えない点については機械学習モデル３１１ａと同様である。

なお、以上の説明では、機械学習モデル３１１ａと機械学習モデル３１１ｂの学習をそれぞれ独立に行うものとして説明したが、これをパイプラインとして一体のものとして同時に学習させてもよい。その場合、機械学習モデル３１１ｂに設問として入力されるヒートマップＨＭは、機械学習パイプライン１０から出力されたものではなく、機械学習モデル３１１ａから出力されるものとなる。

したがって、機械学習モデル３１１ａは、入力画像と、属性を設問とし、機械学習パイプライン１０により得られるヒートマップＨＭを解答とする教師データを用いて学習させる学習方法によって得られたものである。また、機械学習モデル３１１ｂは、ヒートマップＨＭを設問とし、機械学習パイプライン１０から得られる領域Ｗ及びＥ、すなわち、ヒートマップＨＭを設問とし、ヒートマップＨＭの入力に対して領域Ｗを出力する学習済み機械学習モデル又はアルゴリズムから得られる領域Ｗと、入力画像の当該領域Ｗに対応する部分に対して評価値Ｅを出力する学習済み機械学習モデルから得られる評価値Ｅとを解答とする教師データを用いて学習させる学習方法により得られたものである。

図１７は、第３の実施形態に係る情報処理装置４００の構成を、機械学習モデル４１１の学習時の動作と合わせて示す図である。

情報処理装置４００の画像評価部４１０には、単一の機械学習モデル４１１が含まれている。そして、機械学習モデル４１１は、入力画像と属性の入力に対して、直接、領域Ｗ及び評価値Ｅの組（Ｗ，Ｅ）を出力とするよう学習されたものである。したがって、情報処理装置４００を用いて画像の評価を行う、すなわち、入力画像にたいして属性を与え、領域Ｗ及び評価値Ｅを得る際には、上記した第１の実施形態、第２の実施形態のように、ヒートマップＨＭが明に現れることはない。

しかしながら、以降説明する、機械学習モデル４１１の学習方法から明らかなように、本実施形態に係る情報処理装置４００の画像評価部４１０においても、当然に、共通の入力画像に対して、一の属性が与えられた際に出力される領域と評価値の組（Ｗ，Ｅ）は、当該一の属性と異なる他の属性が与えられた際に出力される領域と評価値の組（Ｗ，Ｅ）とは互いに異なることとなる。

引き続き図１７を参照して、機械学習モデル４１１ｂを得る、すなわち、機械学習モデル４１１を学習する方法について説明する。なお、図１７においても、機械学習モデル４１１の学習時の動作については、これを破線で示すことで明示している。

機械学習モデル４１１は、すでに説明したとおり、入力画像と属性とを入力とし、領域Ｗ及び評価値Ｅの組（Ｗ，Ｅ）を出力とするものである。そして、これもすでに説明したとおり、図４に示した機械学習パイプライン１０（図１７中にも示した）は、入力画像及び属性の入力に対し、領域Ｗ及び評価値Ｅを出力することができるものである。

そこで、入力画像と属性を設問とし、機械学習パイプライン１０より得られた領域と評価値の組（Ｗ，Ｅ）を正解データ、機械学習モデル４１１より得られた領域と評価値の組（Ｗ，Ｅ）を予測データとし、両者の誤差２０を得る。ここで、誤差２０は交差エントロピー誤差、最小二乗誤差など機械学習の技術において一般に用いられるいかなるものであってもよい。その後、逆誤差伝播法その他適宜の方法を用いて、機械学習モデル４１１の内部状態を更新する。

これを必要な回数適宜繰り返すことにより、機械学習モデル４１１の学習がなされる。なお、機械学習パイプライン１０からの領域Ｗ及び評価値Ｅの出力を事前に行って学習データのセットを作成しておき、その後、同学習データを用いて機械学習モデル４１１の学習を行っても差し支えない点についてはこれまで説明してきたとおりである。

なお、以上の説明では、機械学習モデル４１１の学習を評価値Ｅの組（Ｗ，Ｅ）を正解データとして行うものとして説明したが、これに加え、機械学習パイプライン１０から出力されるヒートマップＨＭを機械学習モデル４１１の中間層の学習に用いてもよい。すなわち、機械学習モデル４１１がＣＮＮに基づくアーキテクチャを有している場合に、中間層として、アテンションマスクに基づくアテンションマップの生成層を設けておき、出力されたアテンションマップを予測画像、ヒートマップＨＭを正解画像とする中間層学習を併せて行ってもよい。このような学習機構を採用することにより、より少ない繰り返し回数で効率よく学習を進めることができる。

以上説明したように、単一の機械学習モデル４１１は、入力画像と、属性を設問とし、機械学習パイプライン１０により得られる領域Ｗ及びＥ、すなわち、入力画像の入力に対して中間ヒートマップ１２を生成する複数の互いに異なる学習済み機械学習モデル１１から得られる複数の中間ヒートマップ１２を、当該属性に応じて合成して得られるヒートマップＨＭを、ヒートマップＨＭの入力に対して領域Ｗを出力する学習済み機械学習モデル又はアルゴリズムに入力して得られる領域Ｗと、入力画像の当該領域Ｗに対応する部分に対して評価値Ｅを出力する学習済み機械学習モデルから得られる評価値Ｅとを教師データとして用いて学習させる方法により得られたものである。

図１８は、図１に示した機械学習モデル１１１を実装するアーキテクチャの一例として、ＦａｓｔｅｒＲ－ＣＮＮに基づく機械学習モデルパイプラインの構成を示している。

ＦａｓｔｅｒＲ－ＣＮＮでは、入力画像は、ＣＮＮ１１１ａにより入力され、得られた特徴マップ（Ｆｅａｔｕｒｅｍａｐ）はＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）１１１ｂに入力されて、特徴的であると判断されるアンカーボックスが得られる（この時、ＮＭＳ（Ｎｏｎ－ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）等の手法により重複が排除される）。特徴的であると判断されたアンカーボックスに係る特徴マップは、ＲｏＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）Ｐｏｏｌｉｎｇ１１１ｃにより、単一層に規格化される。

規格化されたアンカーボックスに係る特徴マップについてどのように処理するかは、ＦａｓｔｅｒＲ－ＣＮＮをどのように用いるかに依存する。ここでは、機械学習モデル１１１を、第３の実施形態に係る情報処理装置４００における機械学習モデル４１１のように、領域Ｗと評価値Ｅを出力するものとする場合には、ＣＮＮ１１１ａにさらに、属性を入力するものとし、規格化されたアンカーボックスに係る特徴マップをＲｅｇｒｅｓｓｉｏｎＬａｙｅｒｓ１１１ｄ及び、ＳｃｏｒｅＰｒｅｄｉｃｔｏｒ１１１ｅに入力すればよい。ＲｅｇｒｅｓｓｉｏｎＬａｙｅｒｓ１１１ｄ及びＳｃｏｒｅＰｒｅｄｉｃｔｏｒ１１１ｅはいずれもＣＮＮであってよい。ＲｅｇｒｅｓｓｉｏｎＬａｙｅｒｓ１１１ｄからは領域Ｗが、ＳｃｏｒｅＰｒｅｄｉｃｔｏｒ１１１ｅからは評価値Ｅが出力されるように、機械学習モデル１１１を学習させることが可能である。

なお、機械学習モデル１１１から評価値Ｅに替えて、又は追加してＣＴＲについての評価値であるＥ_ＣＴＲや、美的評価値Ｅ_{ａｅｓｔｈｅｔｉｃ}を出力させたいならば、ＳｃｏｒｅＰｒｅｄｉｃｔｏｒ１１１ｅに替えて、又は追加してＥ_ＣＴＲや美的評価値Ｅ_{ａｅｓｔｈｅｔｉｃ}を予測するＣＮＮを設ければよい。また、機械学習モデル４１１以外の種々の機械学習モデルを作成するためには、適宜必要な層を追加しまたは不要な層を削除するなどして、図１８に示した機械学習パイプラインの構成を適宜変更すればよい。

以上説明した情報処理装置１００，２００，３００及び４００は、物理的には、一般的なコンピュータを用いて実現して良い。図１９はそのような一般的なコンピュータ１の代表的な物理構成を示す構成図である。

コンピュータ１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１ａ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１ｂ、外部記憶装置１ｃ、ＧＣ（ＧｒａｐｈｉｃｓＣｏｎｔｒｏｌｌｅｒ）１ｄ、入力デバイス１ｅ及びＩ／Ｏ（Ｉｎｐｕｒ／Ｏｕｔｐｕｔ）１ｆがデータバス１ｇにより相互に電気信号のやり取りができるよう接続されている。ここで、外部記憶装置１ｃはＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の静的に情報を記録できる装置である。またＧＣ１ｄからの信号はＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）やいわゆるフラットパネルディスプレイ等の、使用者が視覚的に画像を認識するモニタ１ｈに出力され、画像として表示される。入力デバイス１ｅはキーボードやマウス、タッチパネル等の、ユーザが情報を入力するための機器であり、Ｉ／Ｏ１ｆはコンピュータ１が外部の機器と情報をやり取りするためのインタフェースである。ＣＰＵ１ａはコンピュータ１が必要とする情報処理の負荷に応じて、複数用意されて並列演算がなされるように構成されていてもよい。

コンピュータ１を情報処理装置１００として機能させるための命令列を含むアプリケーションプログラムは、外部記憶装置１ｃにインストールされ、必要に応じてＲＡＭ１ｂに読みだされてＣＰＵ１ａにより実行される。また、かかるプログラムは、適宜の光ディスク、光磁気ディスク、フラッシュメモリ等の適宜のコンピュータ可読情報記録媒体に記録されて提供されても、インターネット等の情報通信回線を介して提供されてもよい。また、情報処理装置１００を使用者が使用するためのインタフェースは、コンピュータ１自身にかかるインタフェースが実装され、使用者が直接コンピュータ１を操作するものであってもよいし、他のコンピュータ上でｗｅｂブラウザのような汎用のソフトウェアを用い、Ｉ／Ｏ１ｆを介してコンピュータ１から機能が提供される、いわゆるクラウドコンピューティングの方法によってもよく、さらに、コンピュータ１が他のコンピュータに対してＡＰＩ（アプリケーションプログラミングインタフェース）を利用可能に提供することにより、他のコンピュータからの求めに応じてコンピュータ１が情報処理装置１００として動作するものであってもよい。

Claims

入力画像と、属性とを入力とし、前記入力画像における少なくとも１つの領域と、当該少なくとも１つの領域のそれぞれについての評価値とを出力とする、機械学習モデルを少なくとも含む画像評価部を有する情報処理装置であって、
共通の前記入力画像に対して、一の属性が与えられた際に出力される前記領域及び前記評価値は、前記一の属性と異なる他の属性が与えられた際に出力される前記領域及び前記評価値とは互いに異なる、
情報処理装置。
前記画像評価部は、
前記入力画像と、前記属性とを入力とし、前記属性に応じたヒートマップを出力とするヒートマップ出力モデルを前記機械学習モデルとして少なくとも含み、さらに、
前記ヒートマップを入力とし、前記ヒートマップにおける少なくとも１つの領域を抽出する領域抽出器と、
前記領域に対応する前記入力画像の部分画像を入力とし、前記部分画像についての評価値を推定する評価値推定器と、
を含む、
請求項１に記載の情報処理装置。
前記ヒートマップ出力モデルは、前記入力画像と、前記属性を設問とし、前記入力画像の入力に対して中間ヒートマップを生成する複数の互いに異なる学習済み機械学習モデルから得られる複数の中間ヒートマップを、前記属性に応じて合成して得られるヒートマップを解答とする教師データを用いて学習させることにより得られたものである、
請求項２に記載の情報処理装置。
前記画像評価部は、
前記入力画像と、前記属性とを入力とし、前記属性に応じたヒートマップを出力とするヒートマップ出力モデルと、
前記入力画像と前記ヒートマップとを入力とし、前記入力画像における少なくとも１つの領域と、当該少なくとも１つの領域のそれぞれについての評価値とを出力とする領域評価値出力モデルと、
を前記機械学習モデルとして少なくとも含む、
請求項１に記載の情報処理装置。
前記ヒートマップ出力モデルは、前記入力画像と、前記属性を設問とし、前記入力画像の入力に対して中間ヒートマップを生成する複数の互いに異なる学習済み機械学習モデルから得られる複数の中間ヒートマップを、前記属性に応じて合成して得られるヒートマップを解答とする教師データを用いて学習させることにより得られたものであり、
前記領域評価値出力モデルは、前記ヒートマップを設問とし、前記ヒートマップの入力に対して領域を出力する学習済み機械学習モデル又はアルゴリズムから得られる領域と、入力画像の前記領域に対応する部分に対して評価値を出力する学習済み機械学習モデルから得られる評価値とを解答とする教師データを用いて学習することにより得られたものである、
請求項４に記載の情報処理装置。
前記画像評価部は、単一の機械学習モデルを前記機械学習モデルとして含む、
請求項１に記載の情報処理装置。
前記単一の機械学習モデルは、前記入力画像と、前記属性を設問とし、前記入力画像の入力に対して中間ヒートマップを生成する複数の互いに異なる学習済み機械学習モデルから得られる複数の中間ヒートマップを、前記属性に応じて合成して得られるヒートマップを、ヒートマップの入力に対して領域を出力する学習済み機械学習モデル又はアルゴリズムに入力して得られる領域と、入力画像の前記領域に対応する部分に対して評価値を出力する学習済み機械学習モデルから得られる評価値とを解答とする教師データを用いて学習することにより得られたものである、
請求項６に記載の情報処理装置。
入力画像と、属性とを機械学習モデルに入力することで、前記入力画像における少なくとも１つの領域と、当該少なくとも１つの領域のそれぞれについての評価値とを出力する、画像評価ステップをコンピュータに実行させる情報処理方法であって、
共通の前記入力画像に対して、一の属性が与えられた際に出力される前記領域及び前記評価値は、前記一の属性と異なる他の属性が与えられた際に出力される前記領域及び前記評価値とは互いに異なる、
情報処理方法。
コンピュータを、入力画像と、属性とを機械学習モデルに入力することで、前記入力画像における少なくとも１つの領域と、当該少なくとも１つの領域のそれぞれについての評価値とを出力する、画像評価部として機能させる情報処理プログラムであって、
共通の前記入力画像に対して、一の属性が与えられた際に出力される前記領域及び前記評価値は、前記一の属性と異なる他の属性が与えられた際に出力される前記領域及び前記評価値とは互いに異なる、
情報処理プログラム。
機械学習モデルを、入力画像と、属性を設問とし、前記入力画像の入力に対して中間ヒートマップを生成する複数の互いに異なる学習済み機械学習モデルから得られる複数の中間ヒートマップを、前記属性に応じて合成して得られるヒートマップを解答とする教師データを用いて学習させることにより、ヒートマップ出力モデルとして訓練する、ヒートマップ出力モデル訓練ステップをコンピュータに実行させる、
情報処理方法。
一の機械学習モデルを、入力画像と、属性を設問とし、前記入力画像の入力に対して中間ヒートマップを生成する複数の互いに異なる学習済み機械学習モデルから得られる複数の中間ヒートマップを、前記属性に応じて合成して得られるヒートマップを解答とする教師データを用いて学習させることにより、ヒートマップ出力モデルとして訓練する、ヒートマップ出力モデル訓練ステップと、
他の機械学習モデルを、前記ヒートマップを設問とし、前記ヒートマップの入力に対して領域を出力する学習済み機械学習モデル又はアルゴリズムから得られる領域と、入力画像の前記領域に対応する部分に対して評価値を出力する学習済み機械学習モデルから得られる評価値とを解答とする教師データを用いて学習させることにより、領域評価値出力モデルとして訓練する、領域評価値出力モデル訓練ステップと、
をコンピュータに実行させる、
情報処理方法。
機械学習モデルを、入力画像と、属性を設問とし、前記入力画像の入力に対して中間ヒートマップを生成する複数の互いに異なる学習済み機械学習モデルから得られる複数の中間ヒートマップを、前記属性に応じて合成して得られるヒートマップを、ヒートマップの入力に対して領域を出力する学習済み機械学習モデル又はアルゴリズムに入力して得られる領域と、入力画像の前記領域に対応する部分に対して評価値を出力する学習済み機械学習モデルから得られる評価値とを解答とする教師データを用いて学習させる、機械学習モデル訓練ステップをコンピュータに実行させる、
情報処理方法。