JP2018005611A - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP2018005611A
JP2018005611A JP2016132527A JP2016132527A JP2018005611A JP 2018005611 A JP2018005611 A JP 2018005611A JP 2016132527 A JP2016132527 A JP 2016132527A JP 2016132527 A JP2016132527 A JP 2016132527A JP 2018005611 A JP2018005611 A JP 2018005611A
Authority
JP
Japan
Prior art keywords
facility
image
information
feature amount
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016132527A
Other languages
English (en)
Inventor
俊樹 酒井
Toshiki Sakai
俊樹 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2016132527A priority Critical patent/JP2018005611A/ja
Publication of JP2018005611A publication Critical patent/JP2018005611A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像の意味情報を高い精度で推定すること。【解決手段】情報処理装置1は、画像データ、及び画像が撮像された位置を示す位置情報データを含む入力データの入力を受け付ける入力部101と、画像データを画像特徴量に変換する画像特徴量算出部102と、位置情報データにより示された位置の周辺に存在する一又は複数の施設を特定し、特定した施設毎に、施設のカテゴリを示す情報を含む周辺施設情報を出力する施設情報出力部103と、施設情報出力部103により出力された各周辺施設情報に基づき、カテゴリ毎に施設数を集計した周辺施設特徴量を算出する周辺施設特徴量算出部104と、画像特徴量及び周辺施設特徴量を結合することにより入力データ特徴量を得る特徴量結合部105と、入力データ特徴量に基づき、画像データから人間が受け取ることのできる意味情報を推定する推定部106と、を備える。【選択図】図2

Description

本発明は、画像認識技術に係る情報処理装置に関する。
画像を含む入力データから、画像中の被写体の名称及びカテゴリ、画像に写っている風景やイベントの名称及びカテゴリ、並びに、画像から人が感じる感情、等の画像から人間が受け取る意味・雰囲気(以下、「意味情報」と記載)を推定する技術が知られている。このような技術では、予め、大量の画像データと、各画像データの人間が判断した意味情報とから、各意味情報に特徴的な画像の傾向、規則が機械学習技術により学習され、ユーザから新しい画像が入力された際には、予め学習されている規則に基づき、新しい画像の意味情報が推定される。
以下では、上述した技術を画像認識技術と呼ぶ場合がある。画像認識技術は、例えば、スマートフォン及びデジタルカメラ等で撮影された画像に自動でタグ付けを行うことにより画像の検索・整理・管理を手助けする技術等に利用されている(例えばGoogle Photos等)。
機械学習を用いた画像認識技術としては、例えば非特許文献1に開示されているようなDeep Learningを用いた画像認識手法や、Support Vector Machineを用いた画像認識手法などが知られている。また、画像をそのまま用いるのではなく、画像特徴量とよばれる画像の抽象的な特徴を表す数値群に変換し、利用する手法が知られている。画像特徴量としては、画像内の色の分布を表す色ヒストグラムや、画像内の輝度の分布や画像内のエッジの分布を表す特徴量などが用いられる他、非特許文献2に開示されているようなBag of Visual Featuresや上述したDeep Learningを用いて画像特徴量に変換し、画像に写っている物体の認識を行う手法(非特許文献3)が知られている。
また、画像の撮影位置の位置情報も画像の撮影や管理の場で用いられている。上述したGoogle Photosでは画像の撮影位置のGPS情報に基づき、画像の撮影場所を推定し、画像にタグを付けるサービスが提供されている。
特許文献1、特許文献2、特許文献3には、デジタルカメラにおいて適切な撮影条件(撮影のためのデジタルカメラのパラメータ)を選択するための撮影シーン(人物を撮影するシーン、夜景を撮影するシーン等)の判定技術において、画像データもしくは画像の撮影位置情報のいずれか一つ以上を用いて撮影シーンを判定する方法が開示されている。
特許文献1には、画像及びGPS情報から別々に取得された画像中の被写体情報及び現在位置と、現在時刻とに基づいて、予め与えられた複数の撮影シーン候補の中から撮影地点の撮影シーンを選択する技術が開示されている。特許文献2には、GPSによって取得された撮影位置が予め定められた複数の撮影場所のカテゴリ(例えば、「山岳」、「平地」、「海辺」、「市街地」)の何れかに属するかを判定し、判定されたカテゴリに従って撮影シーンを判定する技術が開示されている。特許文献3には、GPSの位置情報もしくは地図上のあるメッシュに対応する撮影シーンとその信頼度とのデータベースを用いて、撮影位置のシーンを推定する技術が開示されている。
その他、画像認識技術において、画像特徴量を生成する際、ユーザが入力した画像だけでなく、ユーザが入力した画像に付与された位置情報周辺の航空写真も用いる事で、画像認識技術の推定精度を向上する技術が知られている(非特許文献4)。
また、画像認識技術の一つとして、大量の画像の画像特徴量と、各々の画像に写っている物体の名称及びカテゴリ、並びに、画像に写っている風景やイベントの名称及びカテゴリとをデータベースとして保持しておき、ユーザが入力した画像の画像特徴量に対して、画像特徴量が似たデータベース上の画像を複数検索し、当該似た画像に紐づけられている物体の名称や、カテゴリ、画像に写っている風景やイベントの名称やカテゴリを集計する事で、ユーザが入力した画像データから、画像に写っている物体の名称や、カテゴリ、画像に写っている風景やイベントの名称やカテゴリを推定する技術が知られている。当該技術において、データベースに画像の撮影位置の情報を予め登録しておき、検索の際にユーザが入力した画像の位置情報を用いて、入力画像の撮影位置の周辺のデータベース上の画像のみに検索対象を絞り込む事で、推定速度及び推定精度を向上する技術が知られている(非特許文献5)。
特開2007−228118号公報 特開2007−306461号公報 WO2012/165088
Alex Krizhevsky、Ilya Sutskever、Geoffrey E. Hinton著、「ImageNet Classificationwith Deep Convolutional Neural Networks」、(米)、Advancesin Neural Information Processing Systems、 25、2012年、p. 1106-1114 G. Csurka、他4名、「Visual categorization withbags of keypoints」 ECCV In Workshop on StatisticalLearning in Computer Vision、[onlie]、 2004年、XEROX CORPORATION、[平成 28 年 5 月 16日検索]、インターネット〈URL:http://www.xrce.xerox.com/Research-Development/Publications/2004-010〉 J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, T.Darrell著、「DeCAF: A Deep Convolutional ActivationFeature for Generic Visual Recognition」 Proceedings ofthe International Conference on Machine Learning、(米)、2014年、pp. 647-655 Keita Yaegashi、他1名、 「Can Geotags Help Image Recognition」、(ドイツ)、2009、p 361-373 T.Wu、他3名、 「Geo-LocalizationBased Scene Recognition」、 Proc. IEEE InternationalConference on Multimedia Big Data、 (米)、2015年、 pp. 1-2
しかしながら、上述した各文献の技術を用いた場合であっても、画像の意味情報を高い精度で推定することはできていない。例えば、特許文献1及び2に記載された技術は、いずれも撮像位置が正確に測位されることが前提の技術であるが、実際にデジタルカメラやスマートフォン等で取得されるGPS情報による位置推定には誤差があるため、画像の意味情報を十分な精度で推定することは難しい。また、特許文献3に記載された技術は、位置情報ごとにデータベースに撮影シーンの設定値を登録する必要があるため汎用性が低く、現実的には、多種の画像の意味情報を適切に推定することは難しい。また、例えば非特許文献5に記載された技術は、撮影位置の周辺に位置情報付画像データが存在しなければ、意味情報を推定することはできない。
本発明は上記実情に鑑みてなされたものであり、画像の意味情報を高い精度で推定することを目的とする。
本発明の一態様に係る情報処理装置は、画像及び該画像が撮像された位置を示す位置情報を含む入力データの入力を受け付ける入力手段と、画像を、該画像の特徴を示す数値データである画像特徴量に変換する画像特徴量算出手段と、位置情報により示された位置の周辺に存在する一又は複数の施設を特定し、特定した施設毎に、施設のカテゴリを示す情報を含む周辺施設情報を出力する施設情報出力手段と、施設情報出力手段により出力された各周辺施設情報に基づき、カテゴリ毎に施設数を集計した周辺施設特徴量を算出する周辺施設特徴量算出手段と、画像特徴量及び周辺施設特徴量を結合することにより、入力データの特徴を示す数値データである入力データ特徴量を得る特徴量結合手段と、入力データ特徴量に基づき、画像から人間が受け取ることのできる意味情報を推定する推定手段と、を備える。
この情報処理装置では、意味情報の推定において、画像特徴量と周辺施設特徴量とを結合することにより得られた入力データ特徴量が用いられている。周辺施設特徴量は、画像の撮像位置の周辺に存在する施設のカテゴリを示す情報である周辺施設情報に基づき、カテゴリ毎に施設数を集計することにより得られた値である。このような周辺施設特徴量が考慮されることにより、撮像位置周辺の施設の情報が考慮されて意味情報が推定されるので、例えばレストランの中で撮影した画像は料理画像の可能性が高い、というような推定が可能となり、画像単体で意味情報が推定される場合と比較して推定精度を向上させることができる。また、撮像位置から直接的に意味情報が推定されるのではなく、撮像位置の周辺の施設のカテゴリに応じて意味情報が推定されるので、位置情報に誤差が含まれている場合でも、高精度に意味情報を推定することができる。以上より、当該情報処理装置によれば、画像の意味情報を高い精度で推定することができる。
上記情報処理装置では、施設情報出力手段が、施設のカテゴリを示す情報と該施設の重要度を示す指標とを含む情報を、周辺施設情報として出力してもよい。これにより、周辺施設が一律に扱われず、予め定められた重要度に応じて周辺施設特徴量が決定されることとなる。このため、例えば、経験則等に基づき意味情報の推定において影響力が大きいと思われる周辺施設の重要度を高くする等が可能となるので、画像の意味情報をより高い精度で推定することが可能となる。
上記情報処理装置では、施設情報出力手段が、位置情報により示された位置からの距離、及び、施設の人気度の少なくともいずれか一方を、重要度を示す指標としてもよい。これにより、画像の意味情報の推定において影響力が大きいと思われる周辺施設の重要度を適切に高くすることができ、画像の意味情報をより高い精度で推定することが可能となる。
上記情報処理装置では、周辺施設特徴量算出手段が、カテゴリ毎の施設数の集計結果に対して、各施設の重要度を示す指標に基づく重み付けを行うことにより、周辺施設特徴量を算出してもよい。これにより、重要度が周辺施設特徴量に適切に反映されることとなり、画像の意味情報をより高い精度で推定することが可能となる。
上記情報処理装置では、推定手段が、機械学習によって習得された規則に基づき、意味を推定してもよい。これにより、正解データを用いて効率的に習得された情報に基づき、高い精度で画像の意味情報を推定することができる。
本発明によれば、画像の意味情報を高い精度で推定することができる。
本発明の実施形態に係る情報処理装置の全体構成を示す図であり、特に、ハードウェア構成を詳細に示す図である。 本発明の実施形態に係る情報処理装置の機能構成を示す図である。 周辺施設検索結果の一例を示す表である。 周辺施設特徴量の一例を示す表である。 本発明の実施形態に係る情報処理装置の処理を示すフローチャートである。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。
図1は、本実施形態に係る情報処理装置の全体構成を示す図であり、特に、ハードウェア構成を詳細に示す図である。図1に示される情報処理装置1は、ユーザから入力された画像、及び該画像の撮像位置を示す位置情報に基づき、画像から人間が受け取ることのできる意味情報を推定する装置である。意味情報とは、画像中の被写体の名称及びカテゴリ、画像に写っている風景やイベントの名称及びカテゴリ、並びに、画像から人が感じる感情、等の画像から人間が受け取る意味・雰囲気に関する情報である。
情報処理装置1は、例えばスマートフォン、タブレット端末、パーソナルコンピュータ、又はサーバなどである。情報処理装置1は、物理的には、図1に示すように、1又は複数のCPU11、主記憶装置であるRAM12及びROM13、入力デバイスである入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、及び半導体メモリ等の補助記憶装置17等を含むコンピュータとして構成されている。
入力装置14は、タッチセンサやマウス、キーボード等を有するGUI(Graphical User Interface)、又は、他のコンピュータ、プログラムからのデータ入力を受け付けるAPI(Application Program Interface)を有する。出力装置15は、液晶ディスプレイ等を有し、CPU11の制御に基づいて制御結果を表示する、又は、制御結果をテクストデータ等のコンピュータによって解釈可能な形式で出力する。
CPU11は、RAM12をワークエリアとして用いてROM13や補助記憶装置17に記憶されたプログラムを実行することによって各機能の動作を制御する。すなわち、情報処理装置1では、CPU11がプログラムを実行することにより、後述する各機能が実現される。CPU11は、日時を算出するリアルタイムクロック(不図示)から現在の日時に関する情報を取得する。
通信モジュール16は、有線又は無線での通信を行うための通信回路を有し、インターネット等を含む外部ネットワーク2を介した通信を行う。なお、外部ネットワーク2とは、例えばTCP(Transmission Control Protocol)/IP(Internet Protocol)などのプロトコルに基づき装置間の通信を仲介するシステムである。
補助記憶装置17は、フラッシュメモリ等を有し、CPU11が制御に用いるデータやOS(Operating System:基本ソフトウェア)等のプログラムを記憶する。
次に、図2を参照して情報処理装置1の各機能について説明する。図2は、本実施形態に係る情報処理装置1の機能構成を示す図である。図2に示されるように、情報処理装置1は、入力部101(入力手段)と、画像特徴量算出部102(画像特徴量算出手段)と、施設情報出力部103(施設情報出力手段)と、周辺施設特徴量算出部104(周辺施設特徴量算出手段)と、特徴量結合部105(特徴量結合手段)と、推定部106(推定手段)と、を備えて構成されている。
入力部101は、画像データ、及び画像が撮像された位置を示す位置情報データを含む入力データの入力を受け付ける機能である。ユーザは、情報処理装置1に対して、画像データと、画像を撮像した位置(場所)を示す位置情報データとを入力することで、該画像の意味情報の取得を試みる。位置情報データは、例えばGPS(Global Positioning System)等の一般的な位置情報取得技術により取得されるものであってもよい。また、位置情報データは、exif等の一般的な形式で画像データに直接添付して情報処理装置1に入力されるものであってもよいし、画像データとは独立して情報処理装置1に入力されるものであってもよい。
入力部101は、入力データの入力を受け付けると、該入力データを画像データと位置情報データとに分割する。入力部101は、分割により取得した画像データを画像特徴量算出部102に出力すると共に、位置情報データを施設情報出力部103に出力する。
画像特徴量算出部102は、入力部101から入力された画像データを、画像の抽象的な特徴を示す数値データである画像特徴量に変換する機能である。画像特徴量としては、色ヒストグラム、輝度ヒストグラム、Bag of VisualFeatures、Deep Learning等を用いて抽出される特徴量等の一般的な特徴量を用いることができる。画像特徴量算出部102は、算出した画像特徴量を特徴量結合部105に出力する。
施設情報出力部103は、位置情報データにより示された位置の周辺に存在する一又は複数の施設を特定(返却)し、特定した施設毎に、施設のカテゴリを示す情報を含む周辺施設情報を出力する機能である。施設情報出力部103は、例えば、位置と対応付けて施設を記憶する情報処理装置1内部のデータベース(図示せず)や、foursquare(登録商標)等のインターネットを含む外部ネットワーク2上で提供されている外部データベース(図示せず)等を検索することにより、周辺に存在する施設及び周辺施設情報の特定を行う。
より詳細には、施設情報出力部103は、周辺に存在する施設のカテゴリを示す情報と該施設の重要度を示す指標とを含む情報を、上記周辺施設情報として出力する。施設のカテゴリとは、施設の性質を区分する分類であり、例えば「ホテル」「公園」「レストラン」等である。施設の重要度を示す指標とは、該施設の、画像データの持つ意味情報への関連しやすさを表す指標である。施設情報出力部103は、例えば、位置情報により示された位置から施設までの距離、及び、施設の人気度を、重要度を示す指標とする。なお、施設情報出力部103は、重要度を示す指標として距離及び人気度のいずれか一方のみを用いてもよいし、更に別の指標を用いてもよい。
上述した人気度とは、当該施設がどの程度の人によって利用されているか、当該施設でどの程度の頻度で写真が撮像されているかを示す指標である。当該人気度に関する指標は、例えば外部データベースにおいて管理されている当該施設へのチェックイン数や、当該施設の観光案内webサイト、レストラン案内webサイト等の施設紹介サイトでのランキング、コメント数、評価値等から導出されるものであってもよい。
図3は、周辺施設検索結果の一例を示す表である。上述したように、施設情報出力部103は、情報処理装置1内部のデータベース(図示せず)や、外部ネットワーク2上で提供されている外部データベース(図示せず)等を検索することにより、当該周辺施設検索結果を得る。
図3に示すように、周辺施設検索結果では、ランクと、周辺施設名と、周辺施設カテゴリと、距離と、人気度とが関連付けられている。ランクとは、施設単位での重要度のランク(順位)であり、撮像位置からの距離が近く人気度が高いほど高くなる。施設情報出力部103は、周辺施設情報を含んだ当該周辺施設検索結果を、周辺施設特徴量算出部104に出力する。
周辺施設特徴量算出部104は、施設情報出力部103により出力された、周辺施設情報を含む周辺施設結果に基づき、カテゴリ毎に施設数を集計した周辺施設特徴量を算出する。より詳細には、周辺施設特徴量算出部104は、カテゴリ毎の施設数の集計結果に対して、各施設の重要度を示す指標に基づく重み付けを行う(重み付け加算を行う)ことにより、周辺施設特徴量を算出する。周辺施設特徴量算出部104は、算出した周辺施設特徴量を、特徴量結合部105に出力する。
周辺施設特徴量の具体的な算出例について説明する。例えば、カテゴリが「ホテル」である周辺施設として、施設1x及び施設2xが存在しているとする。この場合、周辺施設特徴量のうちカテゴリ「ホテル」の値は、単純に施設数(ここでは、2)が集計されるのではなく、各施設の重要度を示す指標に基づく重み付けが行われることにより算出される。例えば、施設1xの撮像位置からの距離が0.1km、人気度が20.1であり、施設2xの撮像位置からの距離が10.2km、人気度が10.1であったとする。この場合、例えば各施設の重み付け後の値(周辺施設特徴量算出に係る値)は、「人気度/距離」とされる。すなわち、施設1xの重み付け後の値は20.1/0.1、施設2xの重み付け後の値は10.1/10.2とされる。そして、当該施設1x及び施設2xの重み付け後の値が合算(重み付け加算)されることにより、周辺施設特徴量のうちカテゴリ「ホテル」の値が算出される。
このように、重み付けを行う際に人気度を分子にとることで、より人気がある施設の重みを上げ、重みが高い施設で写真が撮像された可能性が高いものとして周辺施設特徴量の算出を行うことができる。また、情報処理装置1に入力される位置情報データに多少の誤差があることを考慮したとしても、該位置情報データから距離が離れるほど該施設で撮像された写真である可能性は低くなる。そのため、距離を分母にとることで、撮像位置から遠い施設の重みを小さくして周辺施設特徴量の算出を行うことができる。
図4は、周辺施設特徴量の一例を示す表である。図4に示すように、周辺施設特徴量はカテゴリ毎に値を有している。図4に示す例では、画像IDと、各カテゴリ(公園、ホテル、レストラン、学校)に係る周辺施設特徴量とが関連付けられている。すなわち、周辺施設特徴量は、各カテゴリの値がベクトルの要素となったベクトル構造とされている。画像IDとは、当該周辺施設特徴量の算出に係る画像データを一意に特定する識別子である。
特徴量結合部105は、画像特徴量算出部102により入力された画像特徴量、及び、周辺施設特徴量算出部104により入力された周辺施設特徴量を結合することにより、入力データの特徴を示す数値データである入力データ特徴量を得る機能である。ここでの結合とは、結合対象(画像特徴量及び周辺施設特徴量)の両方を考慮してある値を導出するものであれば、具体的な処理内容(加算、乗算など)は限定されない。特徴量結合部105は、導出した入力データ特徴量を推定部106に出力する。
推定部106は、特徴量結合部105から入力された入力データ特徴量に基づき、画像データから人間が受け取ることのできる意味情報を推定する機能である。推定された意味情報とは、例えば「結婚式の様子」や「食事風景」等、画像から人間が受け取る意味・雰囲気に関する情報である。
画像データの意味情報の推定においては、予め与えられた推定規則を元に推定を行う。推定規則に関しては、予め人手でヒューリスティックに作成する他、support vector machine、Deep Learning等の機械学習技術を用いて、機械に予め推定規則を習得させてもよい。機械学習技術を用いた推定規則の習得においては、画像に写っている意味情報が予め分かっている画像と当該画像の撮影位置の位置情報とのペアを大量に準備し、当該画像群を入力データとして、入力部101、画像特徴量算出部102、施設情報出力部103、周辺施設特徴量算出部104、及び特徴量結合部105を用いて入力データ特徴量を導出し、導出した入力データ特徴量と与えられた意味情報との対応関係から、推定規則が機械学習技術により習得される。そして、機械学習技術により習得された推定規則が、予めRAM12やROM13に格納され、ユーザからの入力データに対して意味情報を推定する場合に参照される。
次に、図5を参照して、情報処理装置1の処理について説明する。図5は、本実施形態に係る情報処理装置1の処理を示すフローチャートである。
図5に示されるように、情報処理装置1では、まず入力部101により入力データが受け付けられ、該入力データが画像データと位置情報データとに分割される(ステップS1)。入力部101は、分割により取得した画像データを画像特徴量算出部102に出力すると共に、位置情報データを施設情報出力部103に出力する。
つづいて、画像特徴量算出部102により、入力部101から入力された画像データから画像特徴量が算出される(ステップS2)。画像特徴量算出部102は、算出した画像特徴量を特徴量結合部105に出力する。
また、施設情報出力部103により、入力部101から入力された位置情報データから周辺に存在する施設が特定され、特定した施設毎に、施設のカテゴリを示す情報を含む周辺施設情報が出力される(ステップS3)。施設情報出力部103は、周辺施設情報を含んだ周辺施設検索結果を、周辺施設特徴量算出部104に出力する。
そして、周辺施設特徴量算出部104により、施設情報出力部103から入力された周辺施設検索結果に基づき、カテゴリ毎に施設数を集計した周辺施設特徴量が算出される(ステップS4)。周辺施設特徴量算出部104は、算出した周辺施設特徴量を、特徴量結合部105に出力する。
つづいて、特徴量結合部105により、画像特徴量算出部102により入力された画像特徴量、及び、周辺施設特徴量算出部104により入力された周辺施設特徴量が結合されて、入力データ特徴量が導出される(ステップS5)。特徴量結合部105は、導出した入力データ特徴量を推定部106に出力する。
最後に、推定部106により、特徴量結合部105から入力された入力データ特徴量に基づき、画像データから人間が受け取ることのできる意味情報が推定される(ステップS6)。
次に、本実施形態に係る情報処理装置1の作用効果について説明する。
本実施形態の情報処理装置1は、画像データ、及び画像が撮像された位置を示す位置情報データを含む入力データの入力を受け付ける入力部101と、画像データを、画像の抽象的な特徴を示す数値データである画像特徴量に変換する画像特徴量算出部102と、位置情報データにより示された位置の周辺に存在する一又は複数の施設を特定し、特定した施設毎に、施設のカテゴリを示す情報を含む周辺施設情報を出力する施設情報出力部103と、施設情報出力部103により出力された各周辺施設情報に基づき、カテゴリ毎に施設数を集計した周辺施設特徴量を算出する周辺施設特徴量算出部104と、画像特徴量及び周辺施設特徴量を結合することにより、入力データの特徴を示す数値データである入力データ特徴量を得る特徴量結合部105と、入力データ特徴量に基づき、画像データから人間が受け取ることのできる意味情報を推定する推定部106と、を備える。
この情報処理装置1では、意味情報の推定において、画像特徴量と周辺施設特徴量とを結合することにより得られた入力データ特徴量が用いられている。周辺施設特徴量は、画像の撮像位置の周辺に存在する施設のカテゴリを示す情報である周辺施設情報に基づき、カテゴリ毎に施設数を集計することにより得られた値である。このような周辺施設特徴量が考慮されることにより、撮像位置周辺の施設の情報が考慮されて意味情報が推定されるので、例えばレストランの中で撮影した画像は料理画像の可能性が高い、というような推定が可能となり、画像単体で意味情報が推定される場合と比較して推定精度を向上させることができる。また、撮像位置から直接的に意味情報が推定されるのではなく、撮像位置の周辺の施設のカテゴリに応じて意味情報が推定されるので、位置情報に誤差が含まれている場合でも、高精度に意味情報を推定することができる。以上より、当該情報処理装置1によれば、画像の意味情報を高い精度で推定することができる。
なお、周辺施設情報に含まれる施設のカテゴリを示す情報は、例えばFoursquare(登録商標)やその他の地図情報データとして既に普及している情報から取得することが可能であるため、事前の登録作業(施設とカテゴリとの組み合わせの登録作業)等を軽減することができる。また、周辺施設のカテゴリを示す情報という、画像の位置情報とは独立に存在するデータを利用することにより、例えば位置情報付きの画像データが存在していない場所で撮像された画像に対しても、画像の意味情報を適切に推定することができる。
情報処理装置1では、施設情報出力部103が、施設のカテゴリを示す情報と該施設の重要度を示す指標とを含む情報を、周辺施設情報として出力する。これにより、周辺施設が一律に扱われず、予め定められた重要度に応じて周辺施設特徴量が決定されることとなる。このため、例えば、経験則等に基づき意味情報の推定において影響力が大きいと思われる周辺施設の重要度を高くする等が可能となるので、画像の意味情報をより高い精度で推定することが可能となる。
情報処理装置1では、施設情報出力部103が、位置情報により示された位置からの距離、及び、施設の人気度の少なくともいずれか一方を、重要度を示す指標とする。これにより、画像の意味情報の推定において影響力が大きいと思われる周辺施設の重要度を適切に高くすることができ、画像の意味情報をより高い精度で推定することが可能となる。
情報処理装置1では、周辺施設特徴量算出部104が、カテゴリ毎の施設数の集計結果に対して、各施設の重要度を示す指標に基づく重み付けを行うことにより、周辺施設特徴量を算出する。これにより、重要度が周辺施設特徴量に適切に反映されることとなり、画像の意味情報をより高い精度で推定することが可能となる。
情報処理装置1では、推定部106が、機械学習によって習得された規則に基づき、意味を推定する。これにより、正解データを用いて効率的に習得された情報に基づき、高い精度で画像の意味情報を推定することができる。
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されない。例えば、特徴量結合部105は、特徴量の結合の前後にPCA、LDA、Auto Encoder、Restricted Boltzmann Machine等の一般的な特徴量変換、次元圧縮技術を用いて、画像特徴量及び周辺施設特徴量を変換してもよい。これにより、推定部106における推定精度の向上及び推定速度の向上の効果が得られる。
また、上記実施形態では情報処理装置1を説明したが、本発明は、情報処理装置1が実施する処理を実現するための情報処理方法や、情報処理装置1のようなコンピュータを上述した各手段として機能させるためのプログラムを含むものである。このようなプログラムは、それを記憶させた光ディスク等の記録媒体の形態で提供されてもよいし、インターネット等のネットワークを介してコンピュータにダウンロード及びインストールされて利用される形態で提供されてもよい。
1…情報処理装置、2…外部ネットワーク、101…入力部(入力手段)、102…画像特徴量算出部(画像特徴量算出手段)、103…施設情報出力部(施設情報出力手段)、104…周辺施設特徴量算出部(周辺施設特徴量算出手段)、105…特徴量結合部(特徴量結合手段)、106…推定部(推定手段)。

Claims (5)

  1. 画像及び該画像が撮像された位置を示す位置情報を含む入力データの入力を受け付ける入力手段と、
    前記画像を、該画像の特徴を示す数値データである画像特徴量に変換する画像特徴量算出手段と、
    前記位置情報により示された位置の周辺に存在する一又は複数の施設を特定し、特定した施設毎に、施設のカテゴリを示す情報を含む周辺施設情報を出力する施設情報出力手段と、
    前記施設情報出力手段により出力された各周辺施設情報に基づき、前記カテゴリ毎に施設数を集計した周辺施設特徴量を算出する周辺施設特徴量算出手段と、
    前記画像特徴量及び前記周辺施設特徴量を結合することにより、前記入力データの特徴を示す数値データである入力データ特徴量を得る特徴量結合手段と、
    前記入力データ特徴量に基づき、前記画像から人間が受け取ることのできる意味情報を推定する推定手段と、
    を備える情報処理装置。
  2. 前記施設情報出力手段は、施設のカテゴリを示す情報と該施設の重要度を示す指標とを含む情報を、前記周辺施設情報として出力する、請求項1記載の情報処理装置。
  3. 前記施設情報出力手段は、前記位置情報により示された位置からの距離、及び、施設の人気度の少なくともいずれか一方を、前記重要度を示す指標とする、請求項2記載の情報処理装置。
  4. 前記周辺施設特徴量算出手段は、前記カテゴリ毎の施設数の集計結果に対して、各施設の前記重要度を示す指標に基づく重み付けを行うことにより、前記周辺施設特徴量を算出する、請求項2又は3記載の情報処理装置。
  5. 前記推定手段は、機械学習によって習得された規則に基づき、前記意味を推定する、請求項1〜4のいずれか一項記載の情報処理装置。
JP2016132527A 2016-07-04 2016-07-04 情報処理装置 Pending JP2018005611A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016132527A JP2018005611A (ja) 2016-07-04 2016-07-04 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016132527A JP2018005611A (ja) 2016-07-04 2016-07-04 情報処理装置

Publications (1)

Publication Number Publication Date
JP2018005611A true JP2018005611A (ja) 2018-01-11

Family

ID=60949342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016132527A Pending JP2018005611A (ja) 2016-07-04 2016-07-04 情報処理装置

Country Status (1)

Country Link
JP (1) JP2018005611A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020035092A (ja) * 2018-08-28 2020-03-05 株式会社豊田中央研究所 環境数値化装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020035092A (ja) * 2018-08-28 2020-03-05 株式会社豊田中央研究所 環境数値化装置
JP7052642B2 (ja) 2018-08-28 2022-04-12 株式会社豊田中央研究所 環境数値化装置

Similar Documents

Publication Publication Date Title
US9805065B2 (en) Computer-vision-assisted location accuracy augmentation
US9830337B2 (en) Computer-vision-assisted location check-in
JP5795687B2 (ja) 写真を自動的に共有するためのスマートカメラ
US8761523B2 (en) Group method for making event-related media collection
US20120321131A1 (en) Image-related handling support system, information processing apparatus, and image-related handling support method
US8725718B2 (en) Content management apparatus, content management method, content management program, and integrated circuit
JP5544250B2 (ja) 表示画像検索方法
KR101782590B1 (ko) 이미지 분석기반의 관계형 태그생성 및 추천 방법
JP5223034B2 (ja) 情報提供装置、情報提供方法、情報提供処理プログラム、及び情報提供処理プログラムを記録した記録媒体
KR101715708B1 (ko) 이미지 분석기반의 자동화된 관계형 태그 생성 시스템과 이를 이용한 서비스 제공방법
JP5739239B2 (ja) 撮影支援システム及び撮像装置
JP2015139001A (ja) 情報処理装置、情報処理方法及びプログラム
JP5262308B2 (ja) 評価装置、評価方法、評価プログラムおよび評価システム
JP2018005611A (ja) 情報処理装置
JP5708868B1 (ja) プログラム、情報処理装置及び方法
JP6302421B2 (ja) コンテンツ検索装置、コンテンツ検索方法、コンテンツ格納装置およびコンテンツ格納方法
US11651280B2 (en) Recording medium, information processing system, and information processing method
JP5932107B2 (ja) 画像処理サーバ及び撮像装置
CN107016351A (zh) 拍摄指导信息的获取方法以及装置
KR102012503B1 (ko) 이미지가 촬영된 위치 정보에 기반하여 여행 상품 정보를 자동으로 노출시키는 여행 상품 정보 노출 방법 및 장치
JP5440197B2 (ja) 撮影対象スポットデータベースの構築装置、構築システム、及び構築方法
JP2016072918A (ja) 情報処理装置、映像ファイルの共有方法、コンピュータプログラム
JP2016220153A (ja) 情報処理装置、情報処理方法、情報処理システムおよびプログラム
JP2016152593A (ja) サーバ装置、携帯装置、撮像支援方法、コンピュータプログラム
RU2015111646A (ru) Система и способ ранжирования точек интереса с использованием фоторейтинга