JP2020091662A

JP2020091662A - 情報処理装置及びプログラム

Info

Publication number: JP2020091662A
Application number: JP2018228519A
Authority: JP
Inventors: 佑介山浦; Yusuke Yamaura; 幸寛坪下; Yukihiro Tsuboshita
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2020-06-11
Also published as: US20200184279A1; CN111274423A

Abstract

【課題】被写体を撮影した画像から、ある部分を抽出した部分画像１つだけを用いて、その部分画像から人が受ける印象の重みを決定し、その重みから撮影した画像の印象を求める場合と比較して、撮影した画像の印象を精度よく求めることができる情報処理装置及びプログラムを提供する。【解決手段】被写体を撮影した全体画像、及び被写体の一部を有する複数の部分画像を含む複数の画像各々について、人が受ける印象である第１印象に関する第１印象情報と、人が受ける印象であって且つ第１印象とは異なる第２印象に関する第２印象情報とを取得する取得部と、複数の画像各々の第２印象情報に基づいて、複数の画像各々の第１印象情報に対し、対応する第２印象情報に応じた重みを設定する設定部と、設定部によって設定された重みを用いて、複数の画像各々の第１印象情報から、全体画像の第１印象を出力する出力部と、を備えた情報処理装置とする。【選択図】図２

Description

本発明は、情報処理装置及びプログラムに関する。

特許文献１には、複数の画像のそれぞれについて、画像内を複数のセグメントに分割する分割部と、一の画像内における異なるセグメント間の関係性、あるいは前記一の画像のセグメントと所定の他の画像とのセグメント同士の関係性に基づいて、前記一の画像内のセグメントそれぞれの重要度を算出する算出部と、前記分割されたセグメントを、オブジェクト、前景および背景のうちのいずれか１つの種類に分類する分類部と、を備え、前記算出部は、セグメントの注目度、セグメントの共起度、およびオブジェクト重要度のうち、の少なくとも１つを用いて算出し、前記算出部は、前記セグメントの注目度を、前記一の画像内において撮影者が注目したと推定される注目位置に近いセグメントほど高く算出し、算出したセグメントの注目度に基づいて前景セグメントと背景セグメントの重要度を算出し、前記算出部は、前記一の画像内のオブジェクトセグメントの重心を求め、当該画像の中心点を中心として前記重心の点対称となる位置を前記注目位置として求めることを特徴とする画像処理装置が記載されている。

特許文献２には、画像から、被写体の候補領域を抽出する候補領域抽出手段と、前記候補領域抽出手段により抽出された被写体の候補領域から前記画像の属性に関する特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段で抽出された特徴量に基づいて、前記候補領域抽出手段により抽出された被写体の候補領域の属性を判定する属性判定手段と、前記属性判定手段の判定結果を統合することにより、画像の属性を同定する判定結果統合手段とを有することを特徴とする認識装置が記載されている。

特許文献３には、入力画像のピクセルごとの顕著度を、各ピクセルの周囲の局所領域から得られる情報に基づいて計算する、ローカル顕著性取得部と、前記入力画像に対し、複数の候補領域を設定する候補領域設定部と、前記複数の候補領域それぞれの顕著度を、各候補領域内のピクセルごとの顕著度の特徴を表すローカル顕著性特徴量と、前記入力画像の全体に対する各候補領域の特徴を表すグローバル特徴量とを含む情報に基づいて計算する、グローバル顕著性取得部と、前記グローバル顕著性取得部により得られた前記複数の候補領域の顕著度を統合して、前記入力画像の顕著性情報を生成する統合部と、を有することを特徴とする顕著性情報取得装置が記載されている。

特許文献４には、画像群を取得する画像取得手段と、前記画像取得手段で取得した各画像において、画像に含まれるオブジェクトを検出するオブジェクト検出手段と、前記画像取得手段で取得した各画像において検出された各オブジェクトを、各オブジェクトのオブジェクト特徴量に応じて、複数のクラスタのいずれかに分類するオブジェクト分類手段と、各オブジェクトについて、当該オブジェクトと前記クラスタとの関連の高さを示す確度と当該オブジェクトと同じクラスタに共に属するオブジェクトの個数の大小とに基づいて算出される評価値を用いて、オブジェクトの重要度であるオブジェクト重要度を評価するオブジェクト重要度評価手段と、一の画像に含まれるオブジェクトのオブジェクト重要度に基づいて、当該一の画像の重要度を評価する画像重要度評価手段とを備え、前記オブジェクト重要度評価手段は、前記クラスタ間の共起に関する情報であって、前記画像群において共起関係が検出された回数に基づく共起度を含む共起情報と、前記オブジェクトのオブジェクト特徴量と前記クラスタのクラスタ特徴量とがどの程度近い値を持つかを示す類似度とに基づいて前記確度を算出することを特徴とする画像管理装置が記載されている。

特許第６０２３０５８号公報特開２０１５−２０４０３０号公報特開２０１７−４４８０号公報特許第５３３０５３０号公報

被写体を撮影した画像の印象を求める場合に、被写体の部分を抽出した部分画像の印象を考慮して、撮影した画像の印象を求めることがある。

本発明の目的は、被写体を撮影した画像から、ある部分を抽出した部分画像１つだけを用いて、その部分画像から人が受ける印象の重みを決定し、その重みから撮影した画像の印象を求める場合と比較して、撮影した画像の印象を精度よく求めることができる情報処理装置及びプログラムを提供することにある。

第１態様に係る情報処理装置は、被写体を撮影した画像、及び前記被写体の一部を有する複数の部分画像を含む複数の画像各々について、人が受ける印象である第１印象を表す第１印象情報と、人が受ける印象であって且つ前記第１印象とは異なる第２印象を表す第２印象情報とを取得する取得部と、前記複数の画像各々の前記第２印象情報に基づいて、前記複数の画像各々の前記第１印象情報に対し、対応する前記第２印象情報に応じた重みを設定する設定部と、前記設定部によって設定された重みを用いて、前記複数の画像各々の前記第１印象情報から、前記被写体を撮影した画像の第１印象を出力する出力部と、を備えた情報処理装置である。

第２態様に係る情報処理装置は、第１態様に係る情報処理装置において、前記部分画像は、前記被写体に含まれる物体毎の画像、または、前記被写体を構成する部品毎の画像である。

第３態様に係る情報処理装置は、第１態様または第２態様に記載の情報処理装置において、前記設定部は、対応する部分画像の第２印象情報と他の画像の第２印象情報との類似度に基づいて、前記類似度が高くなるに従って大きくなる重みを、対応する第１印象情報に設定する。

第４態様に係る情報処理装置は、第３態様に係る情報処理装置において、前記類似度は、対応する部分画像の第２印象情報と全体画像の第２印象情報との類似度、または、対応する部分画像の第２印象情報と他の部分画像の第２印象情報との類似度である。

第５態様に係る情報処理装置は、第１態様から第４態様までのいずれかの態様に係る情報処理装置において、前記第２印象情報が、第２印象の１つのカテゴリーである。

第６態様に係る情報処理装置は、第１態様から第５態様までのいずれかの態様に係る情報処理装置において、前記取得部は、学習用の画像情報、第１印象情報、及び第２印象情報のセットを複数含む教師データを用いて、深層学習により予め学習させた畳み込みニューラルネットワークにより、前記第１印象情報及び前記第２印象情報を取得する。

第７態様に係る情報処理装置は、第６態様に係る情報処理装置において、前記第１印象情報が、予め定めた複数の異なる第１印象のカテゴリー各々への所属確率を表す第１印象分類結果であり、前記第２印象情報が、予め定めた複数の異なる第２印象のカテゴリー各々への所属確率を表す第２印象分類結果である。

第８態様に係る情報処理装置は、第７態様に係る情報処理装置において、前記出力部は、前記設定部によって設定された重みを用いて、前記複数の画像各々の前記第１印象分類結果の重み付け和を求め、前記重み付け和から推定される第１印象の１つのカテゴリーを、前記被写体を撮影した画像の第１印象として出力する。

第９態様に係るプログラムは、コンピュータを、第１態様から第８態様までのいずれかの態様に係る情報処理装置の各部として機能させるためのプログラムである。

第１態様、第９態様によれば、被写体を撮影した画像から、ある部分を抽出した部分画像１つだけを用いて、その部分画像から人が受ける印象の重みを決定し、その重みから撮影した画像の印象を求める場合と比較して、撮影した画像の印象を精度よく求めることができる。

第２態様、第８態様によれば、被写体が複数の物体（または部品）の組合せである場合に、複数の物体（または部品）各々に由来する印象を、撮影した画像の印象に反映することができる。

第３態様、第４態様、第５態様、第７態様によれば、複数の部分画像から得られた複数の第１印象情報各々の重みを、事前知識なしに動的に設定することができる。

第６態様によれば、深層学習により学習させた畳み込みニューラルネットワークを使用しない場合と比較して、信頼性の高い第１印象情報及び第２印象情報を取得することができる。

本発明の実施の形態に係る情報処理装置の電気的な構成の一例を示すブロック図である。本発明の実施の形態に係る情報処理装置の機能的な構成の一例を示すブロック図である。印象分類結果の一例を示すグラフである。インテリア画像から部分領域を抽出する手順を説明する模式図である。統合処理の手順を具体的に説明する模式図である。全体画像及び部分画像各々のテイスト（第１印象）と部屋（第２印象）の一例を示す模式図である。本発明の実施の形態に係る教師データの一例を示す模式図である。本発明の実施の形態に係る情報処理装置の学習機能の構成の一例を示すブロック図である。印象分類部の入出力の他の一例を示すブロック図である。本発明の実施の形態に係る情報処理装置の学習機能の構成の他の一例を示すブロック図である。印象分類部の入出力の更に他の一例を示すブロック図である。本発明の実施の形態に係る「印象出力処理」の流れの一例を示すフローチャートである。「印象分類処理」の流れの一例を示すフローチャートである。「重み設定処理」の流れの一例を示すフローチャートである。「統合処理」の流れの一例を示すフローチャートである。顔画像から部分領域を抽出する手順を説明する模式図である。統合処理の手順を具体的に説明する模式図である。全体画像及び部分画像各々の年齢（第１印象）と性別（第２印象）の一例を示す模式図である。

以下、図面を参照して本発明の実施の形態の一例を詳細に説明する。

＜情報処理装置＞
本発明の実施の形態に係る情報処理装置について説明する。

（電気的構成）
まず、情報処理装置の電気的な構成について説明する。図１は本発明の実施の形態に係る情報処理装置の電気的な構成の一例を示すブロック図である。情報処理装置１２は、接続された各装置を制御すると共に各種演算を行うコンピュータとして構成されている。即ち、情報処理装置１２は、ＣＰＵ（中央処理装置：Central Processing Unit）１２Ａ、ＲＯＭ（Read Only Memory）１２Ｂ、ＲＡＭ（Random Access Memory）１２Ｃ、不揮発性のメモリ１２Ｄ、及び入出力部（Ｉ／Ｏ）１２Ｅを備えている。

ＣＰＵ１２Ａ、ＲＯＭ１２Ｂ、ＲＡＭ１２Ｃ、メモリ１２Ｄ、及びＩ／Ｏ１２Ｅの各々は、バス１２Ｆを介して接続されている。ＣＰＵ１２Ａは、例えばＲＯＭ１２Ｂに記憶されたプログラムを読み出し、ＲＡＭ１２Ｃをワークエリアとして使用してプログラムを実行する。また、情報処理装置１２のＩ／Ｏ１２Ｅには、例えば、ディスプレイ等の表示装置１４、キーボードやマウス等の入力装置１６、通信インターフェース（Ｉ／Ｆ）１８、及び記憶装置１９等が、周辺装置として接続されていてもよい。

通信Ｉ／Ｆ１８は、有線又は無線の通信回線を介して外部装置と通信を行うためのインターフェースである。例えば、ＬＡＮ（Local Area Network）、インターネット等のネットワークに接続されたコンピュータ等の外部装置と通信を行うためのインターフェースとして機能する。記憶装置１９は、ハードディスク等の外部記憶装置である。

各種プログラムや各種データが、ＲＯＭ１２Ｂ等の記憶装置に記憶されている。本実施の形態では、後述する「印象出力処理」を実行するためのプログラムが、ＲＯＭ１２Ｂに記憶されている。プログラムの記憶領域はＲＯＭ１２Ｂには限定されない。各種プログラムは、メモリ１２Ｄや記憶装置１９等の他の記憶装置に記憶されていてもよく、通信Ｉ／Ｆ１８を介して外部装置から取得してもよい。

また、情報処理装置１２には、各種ドライブが接続されていてもよい。各種ドライブは、ＣＤ−ＲＯＭ、ＵＳＢ（Universal Serial Bus)メモリなどのコンピュータで読み取り可能な可搬性の記録媒体からデータを読み込んだり、記録媒体に対してデータを書き込んだりする装置である。各種ドライブを備える場合には、可搬性の記録媒体にプログラムを記録しておいて、これを対応するドライブで読み込んで実行してもよい。

（機能的構成）
次に、情報処理装置１２の機能的な構成について説明する。図２は本発明の実施の形態に係る情報処理装置の機能的な構成の一例を示すブロック図である。図２に示すように、情報処理装置１２は、画像取得部２０、部分領域抽出部２２、印象分類部２４、重み設定部３０、及び印象出力部３２を備えている。印象分類部２４は、第１印象分類部２６及び第２印象分類部２８を含む。

画像取得部２０は、被写体を撮影して得られた画像（以下、「全体画像」という。）の画像情報を取得する。画像取得部２０は、取得した全体画像の画像情報を、第１印象分類部２６及び第２印象分類部２８の各々に出力する。

部分領域抽出部２２は、画像取得部２０により取得された全体画像から、被写体の一部を有する部分領域を抽出する。例えば、被写体が複数の物体を含む場合は、物体毎に物体らしさの高い候補領域（例えば、矩形領域）を、スライディングウィンドウ等で切り出す。部分領域抽出部２２は、抽出された部分領域の画像（以下、「部分画像」という。）の画像情報を、第１印象分類部２６及び第２印象分類部２８の各々に出力する。

第１印象分類部２６は、学習済みの分類モデルであり、画像情報が入力された場合に、入力された画像情報に係る画像（以下、「入力された画像」という。）から人が受ける「第１印象」を分類するタスクを実行する。第１印象分類部２６は、第１印象の分類結果（以下、「第１印象分類結果」という。）を、印象出力部３２に出力する。第１印象分類部２６は、全体画像の第１印象分類結果と、複数の部分画像各々の第１印象分類結果とを、印象出力部３２に出力する。第１印象分類結果は、「第１印象情報」の一例である。

画像から人が受ける印象とは、画像を見たときに看者により感じ取られたものである。画像から想起される印象の種類（何を感じ取るか）は、被写体がインテリアなら「テイストと部屋」、被写体が顔なら「年齢と性別」というように、被写体に応じて変わる。また、印象の分類（どんな印象か）は、色や形状等、被写体の内容に応じて変わる。本実施の形態では、被写体は複数の物体（または、部品）を含んでおり、複数の物体の組合せに応じて印象の分類が変化し得る。

図３は印象分類結果の一例を示すグラフである。図３に示すように、印象の分類として、被写体に応じて予め定めた複数の異なるカテゴリー（以下、「分類先の複数のカテゴリー」という。）が用意されている。印象分類結果は、分類先の複数のカテゴリー各々への所属確率である分類スコア（確率分布）を表す情報である。他のカテゴリーより所属確率が高い１つのカテゴリーが、入力された画像から人が受ける「印象」と推定される。

例えば、被写体がインテリア、第１印象が「テイスト」だとする。テイストの分類として、モダン、ナチュラル、シンプル等、分類先の複数のカテゴリーが用意されている。例えば、カテゴリーが例示した３種類しかない場合、画像情報が入力されると、モダン（０．５）、ナチュラル（０．３）、シンプル（０．２）等の、第１印象分類結果が出力される。括弧内は、対応するカテゴリーへの所属確率である。他のカテゴリーより所属確率が高い「モダン」が、第１印象と推定される。

第２印象分類部２８は、第１印象分類部２６と同様、学習済みの分類モデルであり、画像情報が入力された場合に、入力された画像が人に与える「第２印象」を分類するタスクを実行する。第２印象分類部２８は、第２印象の分類結果（以下、「第２印象分類結果」という。）を、重み設定部３０に出力する。第２印象分類部２８は、全体画像の第２印象分類結果と、複数の部分画像各々の第２印象分類結果とを、重み設定部３０に出力する。第２印象分類結果は、「第２印象情報」の一例である。

例えば、被写体がインテリア、第２印象が「部屋（らしさ）」だとする。部屋の分類として、リビングルーム（Ｒ）、ベッドＲ、ダイニングＲ等、分類先の複数のカテゴリーが用意されている。例えば、カテゴリーが例示した３種類しかない場合、リビングＲ（０．５）、ベッドＲ（０．３）、ダイニングＲ（０．２）等の、第２印象分類結果が出力される。他のカテゴリーより所属確率が高い「リビングＲ」が、第２印象と推定される。

第１印象及び第２印象は、同じ画像から得られる２種類の印象である。第１印象分類部２６及び第２印象分類部２８は、同じ画像から共通する特徴量を抽出して分類を行うマルチタスクであり、互いに関連性を有している。このため、第１印象分類部２６及び第２印象分類部２８の一方の分類結果が、第１印象分類部２６及び第２印象分類部２８の他方の分類結果に影響を与える。本実施の形態では、同じ画像から得られた第１印象分類結果と第２印象分類結果とが対応付けられる。

重み設定部３０は、第２印象分類部２８から得られた複数の第２印象分類結果に基づいて、第１印象分類部２６から得られた複数の第１印象分類結果各々に対し、対応する第２印象分類結果に応じた「重み」を設定する。例えば、複数の第２印象分類結果間の類似度に基づいて、複数の第１印象分類結果各々の「重み」を設定する。

印象出力部３２は、重み設定部３０によって設定された重みを用いて、複数の第１印象分類結果を統合する。例えば、統合された第１印象分類結果は、複数の第１印象分類結果の重み付け和であり、修正された分類スコアを表す情報である。印象出力部３２は、統合された第１印象分類結果から求めた、全体画像の「修正後の第１印象」を出力する。なお、重み設定部３０で設定された重みの一部を使用して、複数の第１印象分類結果を統合してもよい。また、複数の第１印象分類結果の一部を統合してもよい。

本実施の形態では、全体画像の第１印象分類結果と、複数の部分画像各々の第１印象分類結果とが、重み付けされて統合される。これにより、複数の物体各々に由来する第１印象が考慮されて、全体画像の「修正後の第１印象」に反映される。全体画像だけから第１印象を推定する場合に比べて、複数の物体の組合せによる全体画像の第１印象が、精度よく求められる。

目的とする出力は、全体画像の「修正後の第１印象」である。本実施の形態では、複数の第１印象分類結果各々の重みを設定するために、同じ画像について「第２印象」を分類するサブタスクを実行して、第２印象分類結果を取得する。複数の第１印象分類結果各々に、対応する第２印象分類結果に応じた重みを設定することにより、事前知識が不要となり、動的に重みが変更される。

また、本実施の形態では、複数の画像から得られた複数の第２印象分類結果に基づいて、部分画像の第１印象分類結果に対する重みが設定される。即ち、部分画像の第１印象分類結果に対する重みが、全体画像と部分画像、部分画像と他の部分画像など、複数の画像から設定される。第１印象分類結果から推定される第１印象（カテゴリー）の所属確率を重みにする等、部分画像の第１印象分類結果に対する重みが、１つの部分画像から設定される場合と比較して、全体画像の第１印象の分類精度が向上する。

なお、被写体に含まれる物体（または、部品）の分類、例えば、インテリアであればソファ、ベッド等の特定を、第１印象分類部２６及び第２印象分類部２８のいずれかで行ってもよい。

（類似度に応じた重み）
複数の第１印象分類結果の各々に対して、対応する第２印象分類結果と他の第２印象分類結果との「類似度」に応じた「重み」を設定してもよい。例えば、「類似度」が高くなるほど大きくなる「重み」を、複数の第１印象分類結果各々に対して設定する。物体は置かれる状況に応じて第１印象が変化する。第２印象分類結果間の類似度に基づいて重みを設定することにより、物体が置かれる状況に応じた重みが動的に設定される。

第２印象分類結果間の類似度は、対応する部分画像の第２印象分類結果と、全体画像の第２印象分類結果とを比較した場合の類似度としてもよい。部分画像の第２印象分類結果と全体画像の第２印象分類結果とが類似している場合は、対応する第１印象分類結果の重みを大きくする。部分画像の第２印象分類結果と全体画像の第２印象分類結果とが異なる場合は、対応する第１印象分類結果の重みを小さくする。

また、第２印象分類結果間の類似度は、対応する部分画像の第２印象分類結果と、他の部分画像の第２印象分類結果とを比較した場合の類似度としてもよい。部分画像同士の第２印象分類結果が類似している場合は、対応する第１印象分類結果の重みを大きくする。対応する部分画像の第２印象分類結果が、他の部分画像の第２印象分類結果と異なり「仲間はずれ」となる場合は、対応する第１印象分類結果の重みを小さくする。なお、「仲間はずれ」となる第２印象分類結果が、全体画像の第２印象分類結果と類似している場合であっても、対応する第１印象分類結果の重みを小さくする。

なお、全体画像の第１印象分類結果の重みは、予め定めた値としてもよい。

−分類スコア間の類似度−
第２印象分類結果間の類似度は、第２印象分類結果が表す「分類スコア間」の類似度である。第２印象分類結果は、カテゴリー数をＭ個とした場合、分類スコア（Ｍ個のカテゴリー各々への所属確率）を特徴量とする、Ｍ次元の特徴ベクトルで表される。第２印象分類結果は、Ｍ次元の特徴空間における点である。したがって、２つの第２印象分類結果間の「類似度」は、特徴空間での２点間の距離で表される。距離が近いほど「類似度」が高くなる。

−第２印象間の類似度−
また、本実施の形態では、第１印象分類結果は「第１印象情報」の一例であり、第２印象分類結果は「第２印象情報」の一例である。第１印象分類部２６は「第１印象情報」として１つの第１印象のカテゴリーを出力してもよいし、第２印象分類部２８は「第２印象情報」として１つの第２印象のカテゴリーを出力してもよい。

この場合は、第２印象分類結果間の類似度に代えて、「第２印象」を表すカテゴリー間の類似度を用いてもよい。例えば、第２印象分類結果からも、１つの第２印象のカテゴリーが得られる。この場合は、カテゴリー同士を比較して「類似度」を求める。例えば、得られた複数のカテゴリーについて多数決を取り、多数派に属するほど類似度を高く設定し、少数派になるほど類似度を低く設定してもよい。

或いは、「第２印象」を表す複数のカテゴリーについて、カテゴリー同士の類似度を予め設定し、表やグラフで記憶しておいてもよい。例えば、第２印象が「部屋」の場合、リビングＲとダイニングＲとの類似度は高く設定され、ダイニングＲとベッドＲとの類似度は低く設定される。

（具体例）
ここで、インテリア画像の「テイスト」を推定する具体例について説明する。この例では、インテリア画像から得られるテイストを「第１印象」とし、インテリア画像から得られる部屋を「第２印象」とする。

図４はインテリア画像から部分領域を抽出する手順を説明する模式図である。インテリア画像には、ソファ、ベッド、テーブル、カーテン、ラグ等、複数の物体が映っている。複数の物体各々を検出して、物体毎に部分画像を取得する。図示した例では、全体画像＃０から、Ｎ個の部分画像＃１〜＃Ｎが取得されている。

図５は統合処理の手順を具体的に説明する模式図である。図５に示すように、全体画像＃０及び部分画像＃１〜＃Ｎについて、学習済みの分類モデルを用いて、テイスト分類と部屋分類とが行われる。

全体画像＃０からは、テイスト分類結果ｓ_０と部屋分類結果ｒ_０とが取得される。Ｎ個の部分画像＃１〜＃Ｎからは、Ｎ個のテイスト分類結果ｓ_１〜ｓ_Ｎと、Ｎ個の部屋分類結果ｒ_１〜ｒ_Ｎとが取得される。部分画像＃１〜＃Ｎのｉ番目の部分画像＃ｉからは、テイスト分類結果ｓ_ｉと部屋分類結果ｒ_ｉとが取得される。テイスト分類結果及び部屋分類結果の各々は、分類先の複数のカテゴリー各々への所属確率である分類スコアを表す情報である

部屋分類結果ｒ_０〜ｒ_Ｎを見比べることにより、テイスト分類結果ｓ_０〜ｓ_Ｎの各々について、対応する重みｗ_０〜ｗ_Ｎが設定される。例えば、テイスト分類結果ｓ_０〜ｓ_Ｎの各々対し、自画像から得られた部屋分類結果ｒ_ｉと、他の画像から得られた部屋分類結果ｒ（≠ｒ_ｉ）との類似度に応じて、類似度が高いほど大きくなる重みｗ_０〜ｗ_Ｎが設定される。

図６は全体画像及び部分画像各々のテイスト（第１印象）と部屋（第２印象）の一例を示す模式図である。図示した例では、Ｎ＝３として、全体画像＃０から、ソファの部分画像＃１、ベッドの部分画像＃２、及びラグの部分画像＃３が取得されている。

全体画像＃０は、テイストは「ナチュラル」に分類され、部屋は「リビングＲ」に分類されている。ソファの部分画像＃１は、テイストは「モダン」に分類され、部屋は「リビングＲ」に分類されている。ベッドの部分画像＃２は、テイストは「クリア」に分類され、部屋は「ベッドＲ」に分類されている。ラグの部分画像＃３は、テイストは「プリティ」に分類され、部屋は「リビングＲ」に分類されている。

部屋分類結果を見比べると、他の画像が「リビングＲ」に分類されているのに対し、ベッドの部分画像＃２だけが「ベッドＲ」に分類されている。ベッドの部分画像＃２の部屋分類だけが、他の画像の部屋分類と大きく異なり「仲間はずれ」となっている。

ベッドの部分画像＃２の部屋分類は、全体画像＃０の部屋分類と比較しても類似していない。また、ベッドの部分画像＃２の部屋分類は、他の部分画像＃１、＃３の部屋分類と比較しても類似していない。

この場合、部屋分類の類似度が低いベッドの部分画像＃２について、そのテイスト（クリア）の重みｗ_２は小さい値に設定する。一方、部屋分類の類似度が高いソファの部分画像＃１とラグの部分画像＃３については、各々のテイストの重みｗ_１、重みｗ_３は大きな値に設定する（図５参照）。

テイスト分類結果ｓ_０〜ｓ_Ｎの各々が、対応する重みｗ_０〜ｗ_Ｎで重み付けされて足し合わされて、テイスト分類結果ｓ_０〜ｓ_Ｎの重み付け和ｓが求められる。重み付け和ｓは、テイスト分類結果と同様に、分類先の複数のカテゴリー各々への所属確率である分類スコアを表す情報である。他のカテゴリーより所属確率が高いカテゴリーが、全体画像＃０のテイストと推定される。

テイスト分類結果ｓ_０〜ｓ_Ｎの各々が重み付けされて統合されることで、複数の物体各々に由来するテイストが考慮されて、全体画像＃０のテイストに反映される。

（学習済みの分類モデル）
次に、学習済みの分類モデルについて説明する。
第１印象分類部２６及び第２印象分類部２８の各々は、教師データを用いて学習された学習済みの分類モデルである。本実施の形態では、深層学習（ディープラーニング）により学習させた、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）等のニューラルネットワークを用いる。ＣＮＮは、入力層、複数の中間層、及び出力層を有する多層ニューラルネットワークの一例である。以下では、学習方法の一例について説明する。

深層学習では、ラベル付けされた大量の画像情報を教師データとして与えることにより、ＣＮＮは、データ間のパターンを見つけ出し、画像から自動で最適な特徴量を抽出して学習する。

まず、教師データについて説明する。
図７は本発明の実施の形態に係る教師データの一例を示す模式図である。学習用画像を表す画像情報には、その画像から人が受ける「第１印象」を表す第１印象情報と、その画像から人が受ける「第２印象」を表す第２印象情報とがラベル付けされる。図示した例では、同じ画像情報に対し、「ナチュラル」というテイスト情報と、「リビングＲ」という部屋情報とがラベル付けされている。

印象は、看者によって変化する主観的なものである。このため、本実施の形態では、複数人に対し学習用画像の第１印象及び第２印象を問うアンケートを実施する等、統計的な手法によって得られた、学習用の画像情報、第１印象情報、及び第２印象情報の組の複数組を「教師データ」とする。この教師データを用いて分類モデルを学習させる。アンケートの参加者が多いほど、印象分類結果の信頼度が高くなる。

例えば、部屋、年齢、性別等、分類するカテゴリーの個数が決まっている場合は、学習用画像の印象が、分類先の複数のカテゴリーのうちのいずれに該当するかを問うアンケートを実施する。

一方、テイスト等、分類先のカテゴリーの個数が決まっていない場合は、学習用画像の印象を問うアンケートを実施して、アンケートで抽出されたカテゴリーを、分類先の複数のカテゴリーとしてもよい。また、分類先のカテゴリーの個数が決まっていない場合でも、利用者が分類先の複数のカテゴリーを設定して、学習用画像の印象が分類先の複数のカテゴリーのうちのいずれに該当するかを問うアンケートを実施してもよい。

教師データは、画像情報と第１印象情報との組を複数組含む「第１教師データ」と、画像情報と第２印象情報との組を複数組含む「第２教師データ」とを含む。

次に、情報処理装置１２の学習機能の構成について説明する。
図８は本発明の実施の形態に係る情報処理装置の学習機能の構成の一例を示すブロック図である。図８に示すように、情報処理装置１２は、教師データ記憶部３４、第１学習部３６、及び第２学習部３８を備えている。なお、教師データ記憶部３４は、情報処理装置１２の外部に配置されていてもよい。

教師データ記憶部３４は、上記の教師データを記憶している。例えば、第１学習部３６は、教師データ記憶部３４に記憶された第１教師データを用いて、画像情報を入力とし、ラベル付けされた第１印象情報を出力として、深層学習により分類モデルを学習させることによって、第１印象分類部２６を構築する。

同様に、第２学習部３８は、学習データ記憶部３４に記憶された第２教師データを用いて、画像情報を入力とし、ラベル付けされた第２印象情報を出力として、深層学習により分類モデルを学習させることによって、第２印象分類部２８を構築する。

（学習方法の変形例）
上記説明では、第１学習部３６が第１学習データを用いて分類モデルを学習させて、第１印象分類部２６を構築し、第２学習部３８が第２学習データを用いて分類モデルを学習させて、第２印象分類部２８を構築する例について説明したが、学習方法はこれに限定されない。

ここでは、第１印象分類部２６及び第２印象分類部２８の２つのタスクについて、タスク間の関連性を高めるための学習方法の一例について説明する。

図９は情報処理装置の学習機能の構成の他の一例を示すブロック図である。例えば、図９に示すように、第１学習部３６は、第１教師データ及び第２教師データを用いて、画像情報を入力とし、ラベル付けされた第１印象情報を出力として、深層学習により分類モデルを学習させることによって、第１印象分類部２６を構築してもよい。

また、図１０、図１１は情報処理装置の学習機能の構成の更に他の一例を示すブロック図である。この例では、図１０に示すように、第２印象分類部２８が先に構築される。次に、図１１に示すように、第２印象分類部２８は、画像情報が入力された場合に、第２印象分類結果を出力する。

第１学習部３６は、第１教師データ及び第２印象分類結果を用いて、画像情報とその画像情報から得られた第２印象分類結果とを入力とし、ラベル付けされた第１印象情報を出力として、深層学習により分類モデルを学習させることによって、第１印象分類部２６を構築してもよい。

インテリア画像のテイスト（第１印象）と部屋（第２印象）の例では、ＣＮＮを深層学習により学習させた結果、以下の事例に示すように、物体の分類（例えば、ベッドやカーテン）や部屋分類結果に応じて、テイストが分類されるようになる。

（事例１）黒いベッドがベッドＲにある場合は、テイストは「シンプル」に分類されるが、黒いベッドがリビングＲにある場合は、テイストは「奇抜」に分類されるようになる。この例では、部屋分類結果に応じて、テイスト分類結果が修正される。

（事例２）また、柄物カーテンがベッドＲにある場合は、カーテンのテイストが「重要視」されるようになる。すなわち、カーテンのテイストの重みが大きくなる。この例では、部屋分類結果に応じて、テイストの重みが修正される。

＜印象分類処理＞
次に、印象分類処理について説明する。
図１２は本発明の実施の形態に係る「印象出力処理」の流れの一例を示すフローチャートである。「印象出力処理」を実行するためのプログラムは、利用者によりプログラムの実行が指示されると、ＣＰＵ１２ＡによりＲＯＭ１２Ｂから読み出されて実行される。

まず、図１２のステップ１００で、被写体を撮影して得られた画像（全体画像）の画像情報を取得する。

次に、図１２のステップ１０２で、「印象分類処理」を実行する。
ここで「印象分類処理」について詳細に説明する。図１３は「印象分類処理」の流れの一例を示すフローチャートである。

ステップ２００で、全体画像から被写体の一部を有する部分領域を抽出する。これにより、抽出された部分領域の画像（部分画像）の画像情報が取得される。次に、ステップ２０２で、学習済みの分類モデルを用いて、全体画像及び部分画像各々の第１印象分類結果を取得する。次に、ステップ２０４で、学習済みの分類モデルを用いて、全体画像及び部分画像各々の第２印象分類結果を取得して、印象分類処理のルーチンを終了する。

次に、図１２のステップ１０４で、「重み設定処理」を実行する。
ここで「重み設定処理」について詳細に説明する。図１４は「重み設定処理」の流れの一例を示すフローチャートである。

ステップ３００で、全体画像及び部分画像各々の第１印象分類結果及び第２印象分類結果を取得する。次に、ステップ３０２で、複数の部分画像各々について、対応する２印象分類結果と他の部分画像の第２印象分類結果との類似度を算出する。次に、ステップ３０４で、全体画像及び部分画像各々について、対応する第１印象分類結果に対し、ステップ３０２で得られた類似度に応じた重みを設定して、重み設定処理のルーチンを終了する。

次に、図１２のステップ１０６で、ステップ１０４で得られた重みを用いて、複数の第１印象分類結果を統合する「統合処理」を実行して、「印象出力処理」のルーチンを終了する。

ここで「統合処理」について詳細に説明する。図１５は「統合処理」の流れの一例を示すフローチャートである。ステップ４００で、重み付けされた複数の第１印象分類結果の「和」を算出する。次に、ステップ４０２で、ステップ４００で得られた「重み付け和」から推定される、全体画像の「修正後の第１印象」を出力して、統合処理のルーチンを終了する。

＜変形例＞
なお、上記実施の形態で説明した情報処理装置及びプログラムの構成は一例であり、本発明の主旨を逸脱しない範囲内においてその構成を変更してもよいことは言うまでもない。

（他の具体例）
上記の実施の形態では、インテリア画像の「テイスト」を推定する具体例について説明したが、被写体、第１印象、及び第２印象の組合せは、これに限定されるものではない。印象の種類（何を感じ取るか）は被写体に応じて変わる。例えば、被写体を顔とする顔画像から「年齢」を推定してもよい。この例では、顔画像から得られる年齢を「第１印象」とし、顔画像から得られる性別を「第２印象」とする。

図１６は顔画像から部分領域を抽出する手順を説明する模式図である。顔画像は、目、鼻、口等、複数の部品から構成される。複数の部品各々を検出して、部品毎に部分画像を取得する。図示した例では、全体画像＃０から、目の部分画像＃１、鼻の部分画像＃２、及び口の部分画像＃３の、３個の部分画像が取得されている。

図１７は統合処理の手順を具体的に説明する模式図である。図１７に示すように、全体画像＃０及び部分画像＃１〜＃Ｎの各々について、学習済みの分類モデルを用いて、年齢分類と性別分類とが行われる。全体画像＃０及び部分画像＃１〜＃Ｎから、年齢分類結果ｓ_０〜ｓ_Ｎと、性別分類結果ｒ_０〜ｒ_Ｎとが取得される。

図１８は全体画像及び部分画像各々の年齢と性別の一例を示す模式図である。図１８に示すように、全体画像＃０、目の部分画像＃１、及び口の部分画像＃３は、年齢は「５０代」分類され、性別は「男性」に分類されている。これに対し、鼻の部分画像＃２は、年齢は「３０代」に分類され、性別は「女性」に分類されている。

性別分類結果を見比べると、他の画像が「男性」に分類されているのに対し、鼻の部分画像＃２だけが「女性」に分類されている。鼻の部分画像＃２の性別分類だけが、他の画像の性別分類と大きく異なり「仲間はずれ」となっている。

年齢分類と性別分類とは、同じ画像から共通する特徴量を抽出して分類を行うマルチタスクであり、性別分類結果が年齢分類結果に影響を与える。例えば、鼻の性別分類を「女性」と推定した場合、「女性」として年齢を推定してしまう。

この場合、性別分類の類似度が低い鼻の部分画像＃２について、その年齢（３０代）の重みｗ_２は小さい値に設定する。一方、性別分類の類似度が高い、目の部分画像＃１と口の部分画像＃３については、各々の年齢（５０代）の重みｗ_１、重みｗ_３は大きな値に設定する（図１７参照）。

年齢分類結果ｓ_０〜ｓ_Ｎの各々が、対応する重みｗ_０〜ｗ_Ｎで重み付けされて足し合わされ、年齢分類結果ｓ_０〜ｓ_Ｎの重み付け和ｓが求められる。得られた重み付け和ｓから、全体画像＃０が人に与える「年齢」が推定される。

年齢分類結果ｓ_０〜ｓ_Ｎの各々が重み付けされて統合されることで、複数の部品各々に由来する年齢が考慮されて、全体画像＃０の年齢分類に反映される。

（学習済みの分類モデルの利用形態）
上記の実施の形態では、「学習済みの分類モデル」を用いて、全体画像及び部分画像の各々について第１印象分類結果及び第２印象分類結果を取得する例について説明したが、「学習済みの分類モデル」の利用形態はこれには限定されない。

例えば、画像の特徴量の抽出までは外部で行ってもよい。この場合は、「学習済みの分類モデル」を用いて、抽出された画像の特徴量から、第１印象分類結果及び第２印象分類結果が取得される。

また、「学習済みの分類モデル」を用いて、部分領域の抽出を行ってもよい。この場合は、画像情報が入力されると、画像情報から部分領域が自動で抽出され、全体画像及び部分画像の各々について第１印象分類結果及び第２印象分類結果が取得される。

更に、「学習済みの分類モデル」を用いずに、印象分類を実施してもよい。入力された画像から特徴量を抽出し、印象の分類先のカテゴリー毎に用意された複数の標準画像の特徴量と比較して、一致する標準画像のカテゴリーを入力画像の印象とする。

例えば、インテリア画像のテイスト分類であれば、色相や色調等の色特徴によってテイストを複数のカテゴリーに分類し、分類先のカテゴリー毎に標準画像を用意する。入力された画像の色特徴を求め、色特徴が一致する標準画像のカテゴリーを入力画像のテイストとする。

（印象情報）
上記の実施の形態では、「印象情報」として印象分類結果または印象のカテゴリーを取得する例について説明したが、分類結果が得られる前に、種々の中間特徴量が取得される。これらの中間特徴量を「印象情報」としてもよい。

１２情報処理装置
１４表示装置
１６入力装置
１８通信Ｉ/Ｆ
１９記憶装置
２０画像取得部
２２部分領域抽出部
２４印象分類部
２６第１印象分類部
２８第２印象分類部
３０重み設定部
３２印象出力部
３４教師データ記憶部
３６第１学習部
３８第２学習部

Claims

被写体を撮影した画像、及び前記被写体の一部を有する複数の部分画像を含む複数の画像各々について、人が受ける印象である第１印象を表す第１印象情報と、人が受ける印象であって且つ前記第１印象とは異なる第２印象を表す第２印象情報とを取得する取得部と、
前記複数の画像各々の前記第２印象情報に基づいて、前記複数の画像各々の前記第１印象情報に対し、対応する前記第２印象情報に応じた重みを設定する設定部と、
前記設定部によって設定された重みを用いて、前記複数の画像各々の前記第１印象情報から、前記被写体を撮影した画像の第１印象を出力する出力部と、
を備えた情報処理装置。
前記部分画像は、前記被写体に含まれる物体毎の画像、または、前記被写体を構成する部品毎の画像である、
請求項１に記載の情報処理装置。
前記設定部は、
対応する部分画像の第２印象情報と他の画像の第２印象情報との類似度に基づいて、前記類似度が高くなるに従って大きくなる重みを、対応する第１印象情報に設定する、
請求項１または請求項２に記載の情報処理装置。
前記類似度は、
対応する部分画像の第２印象情報と、全体画像の第２印象情報との類似度、
または、
対応する部分画像の第２印象情報と、他の部分画像の第２印象情報との類似度である、
請求項３に記載の情報処理装置。
前記第２印象情報が、第２印象の１つのカテゴリーである、
請求項１または請求項４に記載の情報処理装置。
前記取得部は、
学習用の画像情報、第１印象情報、及び第２印象情報のセットを複数含む教師データを用いて、深層学習により予め学習させた畳み込みニューラルネットワークにより、前記第１印象情報及び前記第２印象情報を取得する、
請求項１から請求項５までのいずれか１項に記載の情報処理装置。
前記第１印象情報が、予め定めた複数の異なる第１印象のカテゴリー各々への所属確率を表す第１印象分類結果であり、
前記第２印象情報が、予め定めた複数の異なる第２印象のカテゴリー各々への所属確率を表す第２印象分類結果である、
請求項６に記載の情報処理装置。
前記出力部は、
前記設定部によって設定された重みを用いて、前記複数の画像各々の前記第１印象分類結果の重み付け和を求め、前記重み付け和から推定される第１印象の１つのカテゴリーを、前記被写体を撮影した画像の第１印象として出力する、
請求項７に記載の情報処理装置。
コンピュータを、請求項１から請求項８までのいずれか１項に記載の情報処理装置の各部として機能させるための、プログラム。