JP2020091662A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2020091662A JP2020091662A JP2018228519A JP2018228519A JP2020091662A JP 2020091662 A JP2020091662 A JP 2020091662A JP 2018228519 A JP2018228519 A JP 2018228519A JP 2018228519 A JP2018228519 A JP 2018228519A JP 2020091662 A JP2020091662 A JP 2020091662A
- Authority
- JP
- Japan
- Prior art keywords
- impression
- image
- information
- classification
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 53
- 238000013135 deep learning Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 235000019640 taste Nutrition 0.000 description 41
- 238000000034 method Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 25
- 238000013145 classification model Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 14
- 230000010354 integration Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/36—Indoor scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/167—Detection; Localisation; Normalisation using comparisons between temporally consecutive images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】被写体を撮影した画像から、ある部分を抽出した部分画像1つだけを用いて、その部分画像から人が受ける印象の重みを決定し、その重みから撮影した画像の印象を求める場合と比較して、撮影した画像の印象を精度よく求めることができる情報処理装置及びプログラムを提供する。【解決手段】被写体を撮影した全体画像、及び被写体の一部を有する複数の部分画像を含む複数の画像各々について、人が受ける印象である第1印象に関する第1印象情報と、人が受ける印象であって且つ第1印象とは異なる第2印象に関する第2印象情報とを取得する取得部と、複数の画像各々の第2印象情報に基づいて、複数の画像各々の第1印象情報に対し、対応する第2印象情報に応じた重みを設定する設定部と、設定部によって設定された重みを用いて、複数の画像各々の第1印象情報から、全体画像の第1印象を出力する出力部と、を備えた情報処理装置とする。【選択図】図2
Description
本発明は、情報処理装置及びプログラムに関する。
特許文献1には、複数の画像のそれぞれについて、画像内を複数のセグメントに分割する分割部と、一の画像内における異なるセグメント間の関係性、あるいは前記一の画像のセグメントと所定の他の画像とのセグメント同士の関係性に基づいて、前記一の画像内のセグメントそれぞれの重要度を算出する算出部と、前記分割されたセグメントを、オブジェクト、前景および背景のうちのいずれか1つの種類に分類する分類部と、を備え、前記算出部は、セグメントの注目度、セグメントの共起度、およびオブジェクト重要度のうち、の少なくとも1つを用いて算出し、前記算出部は、前記セグメントの注目度を、前記一の画像内において撮影者が注目したと推定される注目位置に近いセグメントほど高く算出し、算出したセグメントの注目度に基づいて前景セグメントと背景セグメントの重要度を算出し、前記算出部は、前記一の画像内のオブジェクトセグメントの重心を求め、当該画像の中心点を中心として前記重心の点対称となる位置を前記注目位置として求めることを特徴とする画像処理装置が記載されている。
特許文献2には、画像から、被写体の候補領域を抽出する候補領域抽出手段と、前記候補領域抽出手段により抽出された被写体の候補領域から前記画像の属性に関する特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段で抽出された特徴量に基づいて、前記候補領域抽出手段により抽出された被写体の候補領域の属性を判定する属性判定手段と、前記属性判定手段の判定結果を統合することにより、画像の属性を同定する判定結果統合手段とを有することを特徴とする認識装置が記載されている。
特許文献3には、入力画像のピクセルごとの顕著度を、各ピクセルの周囲の局所領域から得られる情報に基づいて計算する、ローカル顕著性取得部と、前記入力画像に対し、複数の候補領域を設定する候補領域設定部と、前記複数の候補領域それぞれの顕著度を、各候補領域内のピクセルごとの顕著度の特徴を表すローカル顕著性特徴量と、前記入力画像の全体に対する各候補領域の特徴を表すグローバル特徴量とを含む情報に基づいて計算する、グローバル顕著性取得部と、前記グローバル顕著性取得部により得られた前記複数の候補領域の顕著度を統合して、前記入力画像の顕著性情報を生成する統合部と、を有することを特徴とする顕著性情報取得装置が記載されている。
特許文献4には、画像群を取得する画像取得手段と、前記画像取得手段で取得した各画像において、画像に含まれるオブジェクトを検出するオブジェクト検出手段と、前記画像取得手段で取得した各画像において検出された各オブジェクトを、各オブジェクトのオブジェクト特徴量に応じて、複数のクラスタのいずれかに分類するオブジェクト分類手段と、各オブジェクトについて、当該オブジェクトと前記クラスタとの関連の高さを示す確度と当該オブジェクトと同じクラスタに共に属するオブジェクトの個数の大小とに基づいて算出される評価値を用いて、オブジェクトの重要度であるオブジェクト重要度を評価するオブジェクト重要度評価手段と、一の画像に含まれるオブジェクトのオブジェクト重要度に基づいて、当該一の画像の重要度を評価する画像重要度評価手段とを備え、前記オブジェクト重要度評価手段は、前記クラスタ間の共起に関する情報であって、前記画像群において共起関係が検出された回数に基づく共起度を含む共起情報と、前記オブジェクトのオブジェクト特徴量と前記クラスタのクラスタ特徴量とがどの程度近い値を持つかを示す類似度とに基づいて前記確度を算出することを特徴とする画像管理装置が記載されている。
被写体を撮影した画像の印象を求める場合に、被写体の部分を抽出した部分画像の印象を考慮して、撮影した画像の印象を求めることがある。
本発明の目的は、被写体を撮影した画像から、ある部分を抽出した部分画像1つだけを用いて、その部分画像から人が受ける印象の重みを決定し、その重みから撮影した画像の印象を求める場合と比較して、撮影した画像の印象を精度よく求めることができる情報処理装置及びプログラムを提供することにある。
第1態様に係る情報処理装置は、被写体を撮影した画像、及び前記被写体の一部を有する複数の部分画像を含む複数の画像各々について、人が受ける印象である第1印象を表す第1印象情報と、人が受ける印象であって且つ前記第1印象とは異なる第2印象を表す第2印象情報とを取得する取得部と、前記複数の画像各々の前記第2印象情報に基づいて、前記複数の画像各々の前記第1印象情報に対し、対応する前記第2印象情報に応じた重みを設定する設定部と、前記設定部によって設定された重みを用いて、前記複数の画像各々の前記第1印象情報から、前記被写体を撮影した画像の第1印象を出力する出力部と、を備えた情報処理装置である。
第2態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記部分画像は、前記被写体に含まれる物体毎の画像、または、前記被写体を構成する部品毎の画像である。
第3態様に係る情報処理装置は、第1態様または第2態様に記載の情報処理装置において、前記設定部は、対応する部分画像の第2印象情報と他の画像の第2印象情報との類似度に基づいて、前記類似度が高くなるに従って大きくなる重みを、対応する第1印象情報に設定する。
第4態様に係る情報処理装置は、第3態様に係る情報処理装置において、前記類似度は、対応する部分画像の第2印象情報と全体画像の第2印象情報との類似度、または、対応する部分画像の第2印象情報と他の部分画像の第2印象情報との類似度である。
第5態様に係る情報処理装置は、第1態様から第4態様までのいずれかの態様に係る情報処理装置において、前記第2印象情報が、第2印象の1つのカテゴリーである。
第6態様に係る情報処理装置は、第1態様から第5態様までのいずれかの態様に係る情報処理装置において、前記取得部は、学習用の画像情報、第1印象情報、及び第2印象情報のセットを複数含む教師データを用いて、深層学習により予め学習させた畳み込みニューラルネットワークにより、前記第1印象情報及び前記第2印象情報を取得する。
第7態様に係る情報処理装置は、第6態様に係る情報処理装置において、前記第1印象情報が、予め定めた複数の異なる第1印象のカテゴリー各々への所属確率を表す第1印象分類結果であり、前記第2印象情報が、予め定めた複数の異なる第2印象のカテゴリー各々への所属確率を表す第2印象分類結果である。
第8態様に係る情報処理装置は、第7態様に係る情報処理装置において、前記出力部は、前記設定部によって設定された重みを用いて、前記複数の画像各々の前記第1印象分類結果の重み付け和を求め、前記重み付け和から推定される第1印象の1つのカテゴリーを、前記被写体を撮影した画像の第1印象として出力する。
第9態様に係るプログラムは、コンピュータを、第1態様から第8態様までのいずれかの態様に係る情報処理装置の各部として機能させるためのプログラムである。
第1態様、第9態様によれば、被写体を撮影した画像から、ある部分を抽出した部分画像1つだけを用いて、その部分画像から人が受ける印象の重みを決定し、その重みから撮影した画像の印象を求める場合と比較して、撮影した画像の印象を精度よく求めることができる。
第2態様、第8態様によれば、被写体が複数の物体(または部品)の組合せである場合に、複数の物体(または部品)各々に由来する印象を、撮影した画像の印象に反映することができる。
第3態様、第4態様、第5態様、第7態様によれば、複数の部分画像から得られた複数の第1印象情報各々の重みを、事前知識なしに動的に設定することができる。
第6態様によれば、深層学習により学習させた畳み込みニューラルネットワークを使用しない場合と比較して、信頼性の高い第1印象情報及び第2印象情報を取得することができる。
以下、図面を参照して本発明の実施の形態の一例を詳細に説明する。
<情報処理装置>
本発明の実施の形態に係る情報処理装置について説明する。
本発明の実施の形態に係る情報処理装置について説明する。
(電気的構成)
まず、情報処理装置の電気的な構成について説明する。図1は本発明の実施の形態に係る情報処理装置の電気的な構成の一例を示すブロック図である。情報処理装置12は、接続された各装置を制御すると共に各種演算を行うコンピュータとして構成されている。即ち、情報処理装置12は、CPU(中央処理装置:Central Processing Unit)12A、ROM(Read Only Memory)12B、RAM(Random Access Memory)12C、不揮発性のメモリ12D、及び入出力部(I/O)12Eを備えている。
まず、情報処理装置の電気的な構成について説明する。図1は本発明の実施の形態に係る情報処理装置の電気的な構成の一例を示すブロック図である。情報処理装置12は、接続された各装置を制御すると共に各種演算を行うコンピュータとして構成されている。即ち、情報処理装置12は、CPU(中央処理装置:Central Processing Unit)12A、ROM(Read Only Memory)12B、RAM(Random Access Memory)12C、不揮発性のメモリ12D、及び入出力部(I/O)12Eを備えている。
CPU12A、ROM12B、RAM12C、メモリ12D、及びI/O12Eの各々は、バス12Fを介して接続されている。CPU12Aは、例えばROM12Bに記憶されたプログラムを読み出し、RAM12Cをワークエリアとして使用してプログラムを実行する。また、情報処理装置12のI/O12Eには、例えば、ディスプレイ等の表示装置14、キーボードやマウス等の入力装置16、通信インターフェース(I/F)18、及び記憶装置19等が、周辺装置として接続されていてもよい。
通信I/F18は、有線又は無線の通信回線を介して外部装置と通信を行うためのインターフェースである。例えば、LAN(Local Area Network)、インターネット等のネットワークに接続されたコンピュータ等の外部装置と通信を行うためのインターフェースとして機能する。記憶装置19は、ハードディスク等の外部記憶装置である。
各種プログラムや各種データが、ROM12B等の記憶装置に記憶されている。本実施の形態では、後述する「印象出力処理」を実行するためのプログラムが、ROM12Bに記憶されている。プログラムの記憶領域はROM12Bには限定されない。各種プログラムは、メモリ12Dや記憶装置19等の他の記憶装置に記憶されていてもよく、通信I/F18を介して外部装置から取得してもよい。
また、情報処理装置12には、各種ドライブが接続されていてもよい。各種ドライブは、CD−ROM、USB(Universal Serial Bus)メモリなどのコンピュータで読み取り可能な可搬性の記録媒体からデータを読み込んだり、記録媒体に対してデータを書き込んだりする装置である。各種ドライブを備える場合には、可搬性の記録媒体にプログラムを記録しておいて、これを対応するドライブで読み込んで実行してもよい。
(機能的構成)
次に、情報処理装置12の機能的な構成について説明する。図2は本発明の実施の形態に係る情報処理装置の機能的な構成の一例を示すブロック図である。図2に示すように、情報処理装置12は、画像取得部20、部分領域抽出部22、印象分類部24、重み設定部30、及び印象出力部32を備えている。印象分類部24は、第1印象分類部26及び第2印象分類部28を含む。
次に、情報処理装置12の機能的な構成について説明する。図2は本発明の実施の形態に係る情報処理装置の機能的な構成の一例を示すブロック図である。図2に示すように、情報処理装置12は、画像取得部20、部分領域抽出部22、印象分類部24、重み設定部30、及び印象出力部32を備えている。印象分類部24は、第1印象分類部26及び第2印象分類部28を含む。
画像取得部20は、被写体を撮影して得られた画像(以下、「全体画像」という。)の画像情報を取得する。画像取得部20は、取得した全体画像の画像情報を、第1印象分類部26及び第2印象分類部28の各々に出力する。
部分領域抽出部22は、画像取得部20により取得された全体画像から、被写体の一部を有する部分領域を抽出する。例えば、被写体が複数の物体を含む場合は、物体毎に物体らしさの高い候補領域(例えば、矩形領域)を、スライディングウィンドウ等で切り出す。部分領域抽出部22は、抽出された部分領域の画像(以下、「部分画像」という。)の画像情報を、第1印象分類部26及び第2印象分類部28の各々に出力する。
第1印象分類部26は、学習済みの分類モデルであり、画像情報が入力された場合に、入力された画像情報に係る画像(以下、「入力された画像」という。)から人が受ける「第1印象」を分類するタスクを実行する。第1印象分類部26は、第1印象の分類結果(以下、「第1印象分類結果」という。)を、印象出力部32に出力する。第1印象分類部26は、全体画像の第1印象分類結果と、複数の部分画像各々の第1印象分類結果とを、印象出力部32に出力する。第1印象分類結果は、「第1印象情報」の一例である。
画像から人が受ける印象とは、画像を見たときに看者により感じ取られたものである。画像から想起される印象の種類(何を感じ取るか)は、被写体がインテリアなら「テイストと部屋」、被写体が顔なら「年齢と性別」というように、被写体に応じて変わる。また、印象の分類(どんな印象か)は、色や形状等、被写体の内容に応じて変わる。本実施の形態では、被写体は複数の物体(または、部品)を含んでおり、複数の物体の組合せに応じて印象の分類が変化し得る。
図3は印象分類結果の一例を示すグラフである。図3に示すように、印象の分類として、被写体に応じて予め定めた複数の異なるカテゴリー(以下、「分類先の複数のカテゴリー」という。)が用意されている。印象分類結果は、分類先の複数のカテゴリー各々への所属確率である分類スコア(確率分布)を表す情報である。他のカテゴリーより所属確率が高い1つのカテゴリーが、入力された画像から人が受ける「印象」と推定される。
例えば、被写体がインテリア、第1印象が「テイスト」だとする。テイストの分類として、モダン、ナチュラル、シンプル等、分類先の複数のカテゴリーが用意されている。例えば、カテゴリーが例示した3種類しかない場合、画像情報が入力されると、モダン(0.5)、ナチュラル(0.3)、シンプル(0.2)等の、第1印象分類結果が出力される。括弧内は、対応するカテゴリーへの所属確率である。他のカテゴリーより所属確率が高い「モダン」が、第1印象と推定される。
第2印象分類部28は、第1印象分類部26と同様、学習済みの分類モデルであり、画像情報が入力された場合に、入力された画像が人に与える「第2印象」を分類するタスクを実行する。第2印象分類部28は、第2印象の分類結果(以下、「第2印象分類結果」という。)を、重み設定部30に出力する。第2印象分類部28は、全体画像の第2印象分類結果と、複数の部分画像各々の第2印象分類結果とを、重み設定部30に出力する。第2印象分類結果は、「第2印象情報」の一例である。
例えば、被写体がインテリア、第2印象が「部屋(らしさ)」だとする。部屋の分類として、リビングルーム(R)、ベッドR、ダイニングR等、分類先の複数のカテゴリーが用意されている。例えば、カテゴリーが例示した3種類しかない場合、リビングR(0.5)、ベッドR(0.3)、ダイニングR(0.2)等の、第2印象分類結果が出力される。他のカテゴリーより所属確率が高い「リビングR」が、第2印象と推定される。
第1印象及び第2印象は、同じ画像から得られる2種類の印象である。第1印象分類部26及び第2印象分類部28は、同じ画像から共通する特徴量を抽出して分類を行うマルチタスクであり、互いに関連性を有している。このため、第1印象分類部26及び第2印象分類部28の一方の分類結果が、第1印象分類部26及び第2印象分類部28の他方の分類結果に影響を与える。本実施の形態では、同じ画像から得られた第1印象分類結果と第2印象分類結果とが対応付けられる。
重み設定部30は、第2印象分類部28から得られた複数の第2印象分類結果に基づいて、第1印象分類部26から得られた複数の第1印象分類結果各々に対し、対応する第2印象分類結果に応じた「重み」を設定する。例えば、複数の第2印象分類結果間の類似度に基づいて、複数の第1印象分類結果各々の「重み」を設定する。
印象出力部32は、重み設定部30によって設定された重みを用いて、複数の第1印象分類結果を統合する。例えば、統合された第1印象分類結果は、複数の第1印象分類結果の重み付け和であり、修正された分類スコアを表す情報である。印象出力部32は、統合された第1印象分類結果から求めた、全体画像の「修正後の第1印象」を出力する。なお、重み設定部30で設定された重みの一部を使用して、複数の第1印象分類結果を統合してもよい。また、複数の第1印象分類結果の一部を統合してもよい。
本実施の形態では、全体画像の第1印象分類結果と、複数の部分画像各々の第1印象分類結果とが、重み付けされて統合される。これにより、複数の物体各々に由来する第1印象が考慮されて、全体画像の「修正後の第1印象」に反映される。全体画像だけから第1印象を推定する場合に比べて、複数の物体の組合せによる全体画像の第1印象が、精度よく求められる。
目的とする出力は、全体画像の「修正後の第1印象」である。本実施の形態では、複数の第1印象分類結果各々の重みを設定するために、同じ画像について「第2印象」を分類するサブタスクを実行して、第2印象分類結果を取得する。複数の第1印象分類結果各々に、対応する第2印象分類結果に応じた重みを設定することにより、事前知識が不要となり、動的に重みが変更される。
また、本実施の形態では、複数の画像から得られた複数の第2印象分類結果に基づいて、部分画像の第1印象分類結果に対する重みが設定される。即ち、部分画像の第1印象分類結果に対する重みが、全体画像と部分画像、部分画像と他の部分画像など、複数の画像から設定される。第1印象分類結果から推定される第1印象(カテゴリー)の所属確率を重みにする等、部分画像の第1印象分類結果に対する重みが、1つの部分画像から設定される場合と比較して、全体画像の第1印象の分類精度が向上する。
なお、被写体に含まれる物体(または、部品)の分類、例えば、インテリアであればソファ、ベッド等の特定を、第1印象分類部26及び第2印象分類部28のいずれかで行ってもよい。
(類似度に応じた重み)
複数の第1印象分類結果の各々に対して、対応する第2印象分類結果と他の第2印象分類結果との「類似度」に応じた「重み」を設定してもよい。例えば、「類似度」が高くなるほど大きくなる「重み」を、複数の第1印象分類結果各々に対して設定する。物体は置かれる状況に応じて第1印象が変化する。第2印象分類結果間の類似度に基づいて重みを設定することにより、物体が置かれる状況に応じた重みが動的に設定される。
複数の第1印象分類結果の各々に対して、対応する第2印象分類結果と他の第2印象分類結果との「類似度」に応じた「重み」を設定してもよい。例えば、「類似度」が高くなるほど大きくなる「重み」を、複数の第1印象分類結果各々に対して設定する。物体は置かれる状況に応じて第1印象が変化する。第2印象分類結果間の類似度に基づいて重みを設定することにより、物体が置かれる状況に応じた重みが動的に設定される。
第2印象分類結果間の類似度は、対応する部分画像の第2印象分類結果と、全体画像の第2印象分類結果とを比較した場合の類似度としてもよい。部分画像の第2印象分類結果と全体画像の第2印象分類結果とが類似している場合は、対応する第1印象分類結果の重みを大きくする。部分画像の第2印象分類結果と全体画像の第2印象分類結果とが異なる場合は、対応する第1印象分類結果の重みを小さくする。
また、第2印象分類結果間の類似度は、対応する部分画像の第2印象分類結果と、他の部分画像の第2印象分類結果とを比較した場合の類似度としてもよい。部分画像同士の第2印象分類結果が類似している場合は、対応する第1印象分類結果の重みを大きくする。対応する部分画像の第2印象分類結果が、他の部分画像の第2印象分類結果と異なり「仲間はずれ」となる場合は、対応する第1印象分類結果の重みを小さくする。なお、「仲間はずれ」となる第2印象分類結果が、全体画像の第2印象分類結果と類似している場合であっても、対応する第1印象分類結果の重みを小さくする。
なお、全体画像の第1印象分類結果の重みは、予め定めた値としてもよい。
−分類スコア間の類似度−
第2印象分類結果間の類似度は、第2印象分類結果が表す「分類スコア間」の類似度である。第2印象分類結果は、カテゴリー数をM個とした場合、分類スコア(M個のカテゴリー各々への所属確率)を特徴量とする、M次元の特徴ベクトルで表される。第2印象分類結果は、M次元の特徴空間における点である。したがって、2つの第2印象分類結果間の「類似度」は、特徴空間での2点間の距離で表される。距離が近いほど「類似度」が高くなる。
第2印象分類結果間の類似度は、第2印象分類結果が表す「分類スコア間」の類似度である。第2印象分類結果は、カテゴリー数をM個とした場合、分類スコア(M個のカテゴリー各々への所属確率)を特徴量とする、M次元の特徴ベクトルで表される。第2印象分類結果は、M次元の特徴空間における点である。したがって、2つの第2印象分類結果間の「類似度」は、特徴空間での2点間の距離で表される。距離が近いほど「類似度」が高くなる。
−第2印象間の類似度−
また、本実施の形態では、第1印象分類結果は「第1印象情報」の一例であり、第2印象分類結果は「第2印象情報」の一例である。第1印象分類部26は「第1印象情報」として1つの第1印象のカテゴリーを出力してもよいし、第2印象分類部28は「第2印象情報」として1つの第2印象のカテゴリーを出力してもよい。
また、本実施の形態では、第1印象分類結果は「第1印象情報」の一例であり、第2印象分類結果は「第2印象情報」の一例である。第1印象分類部26は「第1印象情報」として1つの第1印象のカテゴリーを出力してもよいし、第2印象分類部28は「第2印象情報」として1つの第2印象のカテゴリーを出力してもよい。
この場合は、第2印象分類結果間の類似度に代えて、「第2印象」を表すカテゴリー間の類似度を用いてもよい。例えば、第2印象分類結果からも、1つの第2印象のカテゴリーが得られる。この場合は、カテゴリー同士を比較して「類似度」を求める。例えば、得られた複数のカテゴリーについて多数決を取り、多数派に属するほど類似度を高く設定し、少数派になるほど類似度を低く設定してもよい。
或いは、「第2印象」を表す複数のカテゴリーについて、カテゴリー同士の類似度を予め設定し、表やグラフで記憶しておいてもよい。例えば、第2印象が「部屋」の場合、リビングRとダイニングRとの類似度は高く設定され、ダイニングRとベッドRとの類似度は低く設定される。
(具体例)
ここで、インテリア画像の「テイスト」を推定する具体例について説明する。この例では、インテリア画像から得られるテイストを「第1印象」とし、インテリア画像から得られる部屋を「第2印象」とする。
ここで、インテリア画像の「テイスト」を推定する具体例について説明する。この例では、インテリア画像から得られるテイストを「第1印象」とし、インテリア画像から得られる部屋を「第2印象」とする。
図4はインテリア画像から部分領域を抽出する手順を説明する模式図である。インテリア画像には、ソファ、ベッド、テーブル、カーテン、ラグ等、複数の物体が映っている。複数の物体各々を検出して、物体毎に部分画像を取得する。図示した例では、全体画像#0から、N個の部分画像#1〜#Nが取得されている。
図5は統合処理の手順を具体的に説明する模式図である。図5に示すように、全体画像#0及び部分画像#1〜#Nについて、学習済みの分類モデルを用いて、テイスト分類と部屋分類とが行われる。
全体画像#0からは、テイスト分類結果s0と部屋分類結果r0とが取得される。N個の部分画像#1〜#Nからは、N個のテイスト分類結果s1〜sNと、N個の部屋分類結果r1〜rNとが取得される。部分画像#1〜#Nのi番目の部分画像#iからは、テイスト分類結果siと部屋分類結果riとが取得される。テイスト分類結果及び部屋分類結果の各々は、分類先の複数のカテゴリー各々への所属確率である分類スコアを表す情報である
部屋分類結果r0〜rNを見比べることにより、テイスト分類結果s0〜sNの各々について、対応する重みw0〜wNが設定される。例えば、テイスト分類結果s0〜sNの各々対し、自画像から得られた部屋分類結果riと、他の画像から得られた部屋分類結果r(≠ri)との類似度に応じて、類似度が高いほど大きくなる重みw0〜wNが設定される。
図6は全体画像及び部分画像各々のテイスト(第1印象)と部屋(第2印象)の一例を示す模式図である。図示した例では、N=3として、全体画像#0から、ソファの部分画像#1、ベッドの部分画像#2、及びラグの部分画像#3が取得されている。
全体画像#0は、テイストは「ナチュラル」に分類され、部屋は「リビングR」に分類されている。ソファの部分画像#1は、テイストは「モダン」に分類され、部屋は「リビングR」に分類されている。ベッドの部分画像#2は、テイストは「クリア」に分類され、部屋は「ベッドR」に分類されている。ラグの部分画像#3は、テイストは「プリティ」に分類され、部屋は「リビングR」に分類されている。
部屋分類結果を見比べると、他の画像が「リビングR」に分類されているのに対し、ベッドの部分画像#2だけが「ベッドR」に分類されている。ベッドの部分画像#2の部屋分類だけが、他の画像の部屋分類と大きく異なり「仲間はずれ」となっている。
ベッドの部分画像#2の部屋分類は、全体画像#0の部屋分類と比較しても類似していない。また、ベッドの部分画像#2の部屋分類は、他の部分画像#1、#3の部屋分類と比較しても類似していない。
この場合、部屋分類の類似度が低いベッドの部分画像#2について、そのテイスト(クリア)の重みw2は小さい値に設定する。一方、部屋分類の類似度が高いソファの部分画像#1とラグの部分画像#3については、各々のテイストの重みw1、重みw3は大きな値に設定する(図5参照)。
テイスト分類結果s0〜sNの各々が、対応する重みw0〜wNで重み付けされて足し合わされて、テイスト分類結果s0〜sNの重み付け和sが求められる。重み付け和sは、テイスト分類結果と同様に、分類先の複数のカテゴリー各々への所属確率である分類スコアを表す情報である。他のカテゴリーより所属確率が高いカテゴリーが、全体画像#0のテイストと推定される。
テイスト分類結果s0〜sNの各々が重み付けされて統合されることで、複数の物体各々に由来するテイストが考慮されて、全体画像#0のテイストに反映される。
(学習済みの分類モデル)
次に、学習済みの分類モデルについて説明する。
第1印象分類部26及び第2印象分類部28の各々は、教師データを用いて学習された学習済みの分類モデルである。本実施の形態では、深層学習(ディープラーニング)により学習させた、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)等のニューラルネットワークを用いる。CNNは、入力層、複数の中間層、及び出力層を有する多層ニューラルネットワークの一例である。以下では、学習方法の一例について説明する。
次に、学習済みの分類モデルについて説明する。
第1印象分類部26及び第2印象分類部28の各々は、教師データを用いて学習された学習済みの分類モデルである。本実施の形態では、深層学習(ディープラーニング)により学習させた、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)等のニューラルネットワークを用いる。CNNは、入力層、複数の中間層、及び出力層を有する多層ニューラルネットワークの一例である。以下では、学習方法の一例について説明する。
深層学習では、ラベル付けされた大量の画像情報を教師データとして与えることにより、CNNは、データ間のパターンを見つけ出し、画像から自動で最適な特徴量を抽出して学習する。
まず、教師データについて説明する。
図7は本発明の実施の形態に係る教師データの一例を示す模式図である。学習用画像を表す画像情報には、その画像から人が受ける「第1印象」を表す第1印象情報と、その画像から人が受ける「第2印象」を表す第2印象情報とがラベル付けされる。図示した例では、同じ画像情報に対し、「ナチュラル」というテイスト情報と、「リビングR」という部屋情報とがラベル付けされている。
図7は本発明の実施の形態に係る教師データの一例を示す模式図である。学習用画像を表す画像情報には、その画像から人が受ける「第1印象」を表す第1印象情報と、その画像から人が受ける「第2印象」を表す第2印象情報とがラベル付けされる。図示した例では、同じ画像情報に対し、「ナチュラル」というテイスト情報と、「リビングR」という部屋情報とがラベル付けされている。
印象は、看者によって変化する主観的なものである。このため、本実施の形態では、複数人に対し学習用画像の第1印象及び第2印象を問うアンケートを実施する等、統計的な手法によって得られた、学習用の画像情報、第1印象情報、及び第2印象情報の組の複数組を「教師データ」とする。この教師データを用いて分類モデルを学習させる。アンケートの参加者が多いほど、印象分類結果の信頼度が高くなる。
例えば、部屋、年齢、性別等、分類するカテゴリーの個数が決まっている場合は、学習用画像の印象が、分類先の複数のカテゴリーのうちのいずれに該当するかを問うアンケートを実施する。
一方、テイスト等、分類先のカテゴリーの個数が決まっていない場合は、学習用画像の印象を問うアンケートを実施して、アンケートで抽出されたカテゴリーを、分類先の複数のカテゴリーとしてもよい。また、分類先のカテゴリーの個数が決まっていない場合でも、利用者が分類先の複数のカテゴリーを設定して、学習用画像の印象が分類先の複数のカテゴリーのうちのいずれに該当するかを問うアンケートを実施してもよい。
教師データは、画像情報と第1印象情報との組を複数組含む「第1教師データ」と、画像情報と第2印象情報との組を複数組含む「第2教師データ」とを含む。
次に、情報処理装置12の学習機能の構成について説明する。
図8は本発明の実施の形態に係る情報処理装置の学習機能の構成の一例を示すブロック図である。図8に示すように、情報処理装置12は、教師データ記憶部34、第1学習部36、及び第2学習部38を備えている。なお、教師データ記憶部34は、情報処理装置12の外部に配置されていてもよい。
図8は本発明の実施の形態に係る情報処理装置の学習機能の構成の一例を示すブロック図である。図8に示すように、情報処理装置12は、教師データ記憶部34、第1学習部36、及び第2学習部38を備えている。なお、教師データ記憶部34は、情報処理装置12の外部に配置されていてもよい。
教師データ記憶部34は、上記の教師データを記憶している。例えば、第1学習部36は、教師データ記憶部34に記憶された第1教師データを用いて、画像情報を入力とし、ラベル付けされた第1印象情報を出力として、深層学習により分類モデルを学習させることによって、第1印象分類部26を構築する。
同様に、第2学習部38は、学習データ記憶部34に記憶された第2教師データを用いて、画像情報を入力とし、ラベル付けされた第2印象情報を出力として、深層学習により分類モデルを学習させることによって、第2印象分類部28を構築する。
(学習方法の変形例)
上記説明では、第1学習部36が第1学習データを用いて分類モデルを学習させて、第1印象分類部26を構築し、第2学習部38が第2学習データを用いて分類モデルを学習させて、第2印象分類部28を構築する例について説明したが、学習方法はこれに限定されない。
上記説明では、第1学習部36が第1学習データを用いて分類モデルを学習させて、第1印象分類部26を構築し、第2学習部38が第2学習データを用いて分類モデルを学習させて、第2印象分類部28を構築する例について説明したが、学習方法はこれに限定されない。
ここでは、第1印象分類部26及び第2印象分類部28の2つのタスクについて、タスク間の関連性を高めるための学習方法の一例について説明する。
図9は情報処理装置の学習機能の構成の他の一例を示すブロック図である。例えば、図9に示すように、第1学習部36は、第1教師データ及び第2教師データを用いて、画像情報を入力とし、ラベル付けされた第1印象情報を出力として、深層学習により分類モデルを学習させることによって、第1印象分類部26を構築してもよい。
また、図10、図11は情報処理装置の学習機能の構成の更に他の一例を示すブロック図である。この例では、図10に示すように、第2印象分類部28が先に構築される。次に、図11に示すように、第2印象分類部28は、画像情報が入力された場合に、第2印象分類結果を出力する。
第1学習部36は、第1教師データ及び第2印象分類結果を用いて、画像情報とその画像情報から得られた第2印象分類結果とを入力とし、ラベル付けされた第1印象情報を出力として、深層学習により分類モデルを学習させることによって、第1印象分類部26を構築してもよい。
インテリア画像のテイスト(第1印象)と部屋(第2印象)の例では、CNNを深層学習により学習させた結果、以下の事例に示すように、物体の分類(例えば、ベッドやカーテン)や部屋分類結果に応じて、テイストが分類されるようになる。
(事例1)黒いベッドがベッドRにある場合は、テイストは「シンプル」に分類されるが、黒いベッドがリビングRにある場合は、テイストは「奇抜」に分類されるようになる。この例では、部屋分類結果に応じて、テイスト分類結果が修正される。
(事例2)また、柄物カーテンがベッドRにある場合は、カーテンのテイストが「重要視」されるようになる。すなわち、カーテンのテイストの重みが大きくなる。この例では、部屋分類結果に応じて、テイストの重みが修正される。
<印象分類処理>
次に、印象分類処理について説明する。
図12は本発明の実施の形態に係る「印象出力処理」の流れの一例を示すフローチャートである。「印象出力処理」を実行するためのプログラムは、利用者によりプログラムの実行が指示されると、CPU12AによりROM12Bから読み出されて実行される。
次に、印象分類処理について説明する。
図12は本発明の実施の形態に係る「印象出力処理」の流れの一例を示すフローチャートである。「印象出力処理」を実行するためのプログラムは、利用者によりプログラムの実行が指示されると、CPU12AによりROM12Bから読み出されて実行される。
まず、図12のステップ100で、被写体を撮影して得られた画像(全体画像)の画像情報を取得する。
次に、図12のステップ102で、「印象分類処理」を実行する。
ここで「印象分類処理」について詳細に説明する。図13は「印象分類処理」の流れの一例を示すフローチャートである。
ここで「印象分類処理」について詳細に説明する。図13は「印象分類処理」の流れの一例を示すフローチャートである。
ステップ200で、全体画像から被写体の一部を有する部分領域を抽出する。これにより、抽出された部分領域の画像(部分画像)の画像情報が取得される。次に、ステップ202で、学習済みの分類モデルを用いて、全体画像及び部分画像各々の第1印象分類結果を取得する。次に、ステップ204で、学習済みの分類モデルを用いて、全体画像及び部分画像各々の第2印象分類結果を取得して、印象分類処理のルーチンを終了する。
次に、図12のステップ104で、「重み設定処理」を実行する。
ここで「重み設定処理」について詳細に説明する。図14は「重み設定処理」の流れの一例を示すフローチャートである。
ここで「重み設定処理」について詳細に説明する。図14は「重み設定処理」の流れの一例を示すフローチャートである。
ステップ300で、全体画像及び部分画像各々の第1印象分類結果及び第2印象分類結果を取得する。次に、ステップ302で、複数の部分画像各々について、対応する2印象分類結果と他の部分画像の第2印象分類結果との類似度を算出する。次に、ステップ304で、全体画像及び部分画像各々について、対応する第1印象分類結果に対し、ステップ302で得られた類似度に応じた重みを設定して、重み設定処理のルーチンを終了する。
次に、図12のステップ106で、ステップ104で得られた重みを用いて、複数の第1印象分類結果を統合する「統合処理」を実行して、「印象出力処理」のルーチンを終了する。
ここで「統合処理」について詳細に説明する。図15は「統合処理」の流れの一例を示すフローチャートである。ステップ400で、重み付けされた複数の第1印象分類結果の「和」を算出する。次に、ステップ402で、ステップ400で得られた「重み付け和」から推定される、全体画像の「修正後の第1印象」を出力して、統合処理のルーチンを終了する。
<変形例>
なお、上記実施の形態で説明した情報処理装置及びプログラムの構成は一例であり、本発明の主旨を逸脱しない範囲内においてその構成を変更してもよいことは言うまでもない。
なお、上記実施の形態で説明した情報処理装置及びプログラムの構成は一例であり、本発明の主旨を逸脱しない範囲内においてその構成を変更してもよいことは言うまでもない。
(他の具体例)
上記の実施の形態では、インテリア画像の「テイスト」を推定する具体例について説明したが、被写体、第1印象、及び第2印象の組合せは、これに限定されるものではない。印象の種類(何を感じ取るか)は被写体に応じて変わる。例えば、被写体を顔とする顔画像から「年齢」を推定してもよい。この例では、顔画像から得られる年齢を「第1印象」とし、顔画像から得られる性別を「第2印象」とする。
上記の実施の形態では、インテリア画像の「テイスト」を推定する具体例について説明したが、被写体、第1印象、及び第2印象の組合せは、これに限定されるものではない。印象の種類(何を感じ取るか)は被写体に応じて変わる。例えば、被写体を顔とする顔画像から「年齢」を推定してもよい。この例では、顔画像から得られる年齢を「第1印象」とし、顔画像から得られる性別を「第2印象」とする。
図16は顔画像から部分領域を抽出する手順を説明する模式図である。顔画像は、目、鼻、口等、複数の部品から構成される。複数の部品各々を検出して、部品毎に部分画像を取得する。図示した例では、全体画像#0から、目の部分画像#1、鼻の部分画像#2、及び口の部分画像#3の、3個の部分画像が取得されている。
図17は統合処理の手順を具体的に説明する模式図である。図17に示すように、全体画像#0及び部分画像#1〜#Nの各々について、学習済みの分類モデルを用いて、年齢分類と性別分類とが行われる。全体画像#0及び部分画像#1〜#Nから、年齢分類結果s0〜sNと、性別分類結果r0〜rNとが取得される。
図18は全体画像及び部分画像各々の年齢と性別の一例を示す模式図である。図18に示すように、全体画像#0、目の部分画像#1、及び口の部分画像#3は、年齢は「50代」分類され、性別は「男性」に分類されている。これに対し、鼻の部分画像#2は、年齢は「30代」に分類され、性別は「女性」に分類されている。
性別分類結果を見比べると、他の画像が「男性」に分類されているのに対し、鼻の部分画像#2だけが「女性」に分類されている。鼻の部分画像#2の性別分類だけが、他の画像の性別分類と大きく異なり「仲間はずれ」となっている。
年齢分類と性別分類とは、同じ画像から共通する特徴量を抽出して分類を行うマルチタスクであり、性別分類結果が年齢分類結果に影響を与える。例えば、鼻の性別分類を「女性」と推定した場合、「女性」として年齢を推定してしまう。
この場合、性別分類の類似度が低い鼻の部分画像#2について、その年齢(30代)の重みw2は小さい値に設定する。一方、性別分類の類似度が高い、目の部分画像#1と口の部分画像#3については、各々の年齢(50代)の重みw1、重みw3は大きな値に設定する(図17参照)。
年齢分類結果s0〜sNの各々が、対応する重みw0〜wNで重み付けされて足し合わされ、年齢分類結果s0〜sNの重み付け和sが求められる。得られた重み付け和sから、全体画像#0が人に与える「年齢」が推定される。
年齢分類結果s0〜sNの各々が重み付けされて統合されることで、複数の部品各々に由来する年齢が考慮されて、全体画像#0の年齢分類に反映される。
(学習済みの分類モデルの利用形態)
上記の実施の形態では、「学習済みの分類モデル」を用いて、全体画像及び部分画像の各々について第1印象分類結果及び第2印象分類結果を取得する例について説明したが、「学習済みの分類モデル」の利用形態はこれには限定されない。
上記の実施の形態では、「学習済みの分類モデル」を用いて、全体画像及び部分画像の各々について第1印象分類結果及び第2印象分類結果を取得する例について説明したが、「学習済みの分類モデル」の利用形態はこれには限定されない。
例えば、画像の特徴量の抽出までは外部で行ってもよい。この場合は、「学習済みの分類モデル」を用いて、抽出された画像の特徴量から、第1印象分類結果及び第2印象分類結果が取得される。
また、「学習済みの分類モデル」を用いて、部分領域の抽出を行ってもよい。この場合は、画像情報が入力されると、画像情報から部分領域が自動で抽出され、全体画像及び部分画像の各々について第1印象分類結果及び第2印象分類結果が取得される。
更に、「学習済みの分類モデル」を用いずに、印象分類を実施してもよい。入力された画像から特徴量を抽出し、印象の分類先のカテゴリー毎に用意された複数の標準画像の特徴量と比較して、一致する標準画像のカテゴリーを入力画像の印象とする。
例えば、インテリア画像のテイスト分類であれば、色相や色調等の色特徴によってテイストを複数のカテゴリーに分類し、分類先のカテゴリー毎に標準画像を用意する。入力された画像の色特徴を求め、色特徴が一致する標準画像のカテゴリーを入力画像のテイストとする。
(印象情報)
上記の実施の形態では、「印象情報」として印象分類結果または印象のカテゴリーを取得する例について説明したが、分類結果が得られる前に、種々の中間特徴量が取得される。これらの中間特徴量を「印象情報」としてもよい。
上記の実施の形態では、「印象情報」として印象分類結果または印象のカテゴリーを取得する例について説明したが、分類結果が得られる前に、種々の中間特徴量が取得される。これらの中間特徴量を「印象情報」としてもよい。
12 情報処理装置
14 表示装置
16 入力装置
18 通信I/F
19 記憶装置
20 画像取得部
22 部分領域抽出部
24 印象分類部
26 第1印象分類部
28 第2印象分類部
30 重み設定部
32 印象出力部
34 教師データ記憶部
36 第1学習部
38 第2学習部
14 表示装置
16 入力装置
18 通信I/F
19 記憶装置
20 画像取得部
22 部分領域抽出部
24 印象分類部
26 第1印象分類部
28 第2印象分類部
30 重み設定部
32 印象出力部
34 教師データ記憶部
36 第1学習部
38 第2学習部
Claims (9)
- 被写体を撮影した画像、及び前記被写体の一部を有する複数の部分画像を含む複数の画像各々について、人が受ける印象である第1印象を表す第1印象情報と、人が受ける印象であって且つ前記第1印象とは異なる第2印象を表す第2印象情報とを取得する取得部と、
前記複数の画像各々の前記第2印象情報に基づいて、前記複数の画像各々の前記第1印象情報に対し、対応する前記第2印象情報に応じた重みを設定する設定部と、
前記設定部によって設定された重みを用いて、前記複数の画像各々の前記第1印象情報から、前記被写体を撮影した画像の第1印象を出力する出力部と、
を備えた情報処理装置。 - 前記部分画像は、前記被写体に含まれる物体毎の画像、または、前記被写体を構成する部品毎の画像である、
請求項1に記載の情報処理装置。 - 前記設定部は、
対応する部分画像の第2印象情報と他の画像の第2印象情報との類似度に基づいて、前記類似度が高くなるに従って大きくなる重みを、対応する第1印象情報に設定する、
請求項1または請求項2に記載の情報処理装置。 - 前記類似度は、
対応する部分画像の第2印象情報と、全体画像の第2印象情報との類似度、
または、
対応する部分画像の第2印象情報と、他の部分画像の第2印象情報との類似度である、
請求項3に記載の情報処理装置。 - 前記第2印象情報が、第2印象の1つのカテゴリーである、
請求項1または請求項4に記載の情報処理装置。 - 前記取得部は、
学習用の画像情報、第1印象情報、及び第2印象情報のセットを複数含む教師データを用いて、深層学習により予め学習させた畳み込みニューラルネットワークにより、前記第1印象情報及び前記第2印象情報を取得する、
請求項1から請求項5までのいずれか1項に記載の情報処理装置。 - 前記第1印象情報が、予め定めた複数の異なる第1印象のカテゴリー各々への所属確率を表す第1印象分類結果であり、
前記第2印象情報が、予め定めた複数の異なる第2印象のカテゴリー各々への所属確率を表す第2印象分類結果である、
請求項6に記載の情報処理装置。 - 前記出力部は、
前記設定部によって設定された重みを用いて、前記複数の画像各々の前記第1印象分類結果の重み付け和を求め、前記重み付け和から推定される第1印象の1つのカテゴリーを、前記被写体を撮影した画像の第1印象として出力する、
請求項7に記載の情報処理装置。 - コンピュータを、請求項1から請求項8までのいずれか1項に記載の情報処理装置の各部として機能させるための、プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018228519A JP2020091662A (ja) | 2018-12-05 | 2018-12-05 | 情報処理装置及びプログラム |
US16/383,675 US20200184279A1 (en) | 2018-12-05 | 2019-04-15 | Information processing apparatus and non-transitory computer readable medium storing program |
CN201910474820.7A CN111274423A (zh) | 2018-12-05 | 2019-06-03 | 信息处理装置、记录媒体及信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018228519A JP2020091662A (ja) | 2018-12-05 | 2018-12-05 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020091662A true JP2020091662A (ja) | 2020-06-11 |
Family
ID=70971740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018228519A Pending JP2020091662A (ja) | 2018-12-05 | 2018-12-05 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200184279A1 (ja) |
JP (1) | JP2020091662A (ja) |
CN (1) | CN111274423A (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130034295A1 (en) * | 2011-08-02 | 2013-02-07 | Toyota Motor Engineering & Manufacturing North America, Inc. | Object category recognition methods and robots utilizing the same |
WO2017079521A1 (en) * | 2015-11-04 | 2017-05-11 | Nec Laboratories America, Inc. | Cascaded neural network with scale dependent pooling for object detection |
JP2017182437A (ja) * | 2016-03-30 | 2017-10-05 | 株式会社エクォス・リサーチ | 画像認識装置、移動体装置、及び画像認識プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012053311A1 (ja) * | 2010-10-22 | 2012-04-26 | Necソフト株式会社 | 属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム |
JP5231685B1 (ja) * | 2011-07-07 | 2013-07-10 | 花王株式会社 | 顔印象分析方法、美容カウンセリング方法および顔画像生成方法 |
WO2013031096A1 (ja) * | 2011-08-29 | 2013-03-07 | パナソニック株式会社 | 画像処理装置、画像処理方法、プログラム、集積回路 |
US10872114B2 (en) * | 2015-12-17 | 2020-12-22 | Hitachi, Ltd. | Image processing device, image retrieval interface display device, and method for displaying image retrieval interface |
-
2018
- 2018-12-05 JP JP2018228519A patent/JP2020091662A/ja active Pending
-
2019
- 2019-04-15 US US16/383,675 patent/US20200184279A1/en not_active Abandoned
- 2019-06-03 CN CN201910474820.7A patent/CN111274423A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130034295A1 (en) * | 2011-08-02 | 2013-02-07 | Toyota Motor Engineering & Manufacturing North America, Inc. | Object category recognition methods and robots utilizing the same |
WO2017079521A1 (en) * | 2015-11-04 | 2017-05-11 | Nec Laboratories America, Inc. | Cascaded neural network with scale dependent pooling for object detection |
JP2017182437A (ja) * | 2016-03-30 | 2017-10-05 | 株式会社エクォス・リサーチ | 画像認識装置、移動体装置、及び画像認識プログラム |
Non-Patent Citations (1)
Title |
---|
XINHUA LIU ET AL.: "An Image Retrieval Algorithm Based on Multiple Convolutional Features of RPN and Weighted Cosine Sim", 2018 CHINESE CONTROL AND DECISION CONFERENCE (CCDC), JPN6022048864, 9 June 2018 (2018-06-09), pages 4095 - 4098, XP033370897, ISSN: 0005057859, DOI: 10.1109/CCDC.2018.8407835 * |
Also Published As
Publication number | Publication date |
---|---|
US20200184279A1 (en) | 2020-06-11 |
CN111274423A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Agustsson et al. | Apparent and real age estimation in still images with deep residual regressors on appa-real database | |
US11747898B2 (en) | Method and apparatus with gaze estimation | |
Abudarham et al. | Reverse engineering the face space: Discovering the critical features for face identification | |
JP6664163B2 (ja) | 画像識別方法、画像識別装置及びプログラム | |
US9020250B2 (en) | Methods and systems for building a universal dress style learner | |
JP5554984B2 (ja) | パターン認識方法およびパターン認識装置 | |
EP2481025B1 (en) | Estimating aesthetic quality of digital images | |
US8705875B1 (en) | Demographic analysis of facial landmarks | |
CN112040834A (zh) | 眼球跟踪方法及系统 | |
US8897560B2 (en) | Determining the estimated clutter of digital images | |
Lovato et al. | Faved! biometrics: Tell me which image you like and I'll tell you who you are | |
JP2014505952A (ja) | 画像品質の評価 | |
KR101301821B1 (ko) | 안색 정보 생성 장치 및 그 방법, 안색 정보를 이용한 건강 상태 판단 장치 및 그 방법, 건강 분류 함수 생성 장치 및 그 방법 | |
JP2017506379A5 (ja) | ||
JP2008538998A (ja) | 画像に含まれる人物を認識する際の時刻の利用 | |
JP6527421B2 (ja) | 人物認識装置及びそのプログラム | |
JP2009230751A (ja) | 年令推定装置 | |
WO2021143667A1 (zh) | 人脸表情分析方法和系统及人脸表情满意度分析方法和系统 | |
US8731291B2 (en) | Estimating the clutter of digital images | |
Wang et al. | Distortion recognition for image quality assessment with convolutional neural network | |
TWI397024B (zh) | 影像畫面自動選取方法及其電腦系統 | |
JP2015094973A (ja) | 画像処理装置、画像処理方法、画像処理プログラム、及び記録媒体 | |
CN116597507A (zh) | 一种人体动作规范性评估方法及系统 | |
JP2020091662A (ja) | 情報処理装置及びプログラム | |
Shubhangi et al. | A machine learning approach for early detection and diagnosis of autism and normal controls and estimating severity levels based on face recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211118 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221122 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230516 |