JP2018005611A

JP2018005611A - 情報処理装置

Info

Publication number: JP2018005611A
Application number: JP2016132527A
Authority: JP
Inventors: 俊樹酒井; Toshiki Sakai
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2018-01-11

Abstract

【課題】画像の意味情報を高い精度で推定すること。【解決手段】情報処理装置１は、画像データ、及び画像が撮像された位置を示す位置情報データを含む入力データの入力を受け付ける入力部１０１と、画像データを画像特徴量に変換する画像特徴量算出部１０２と、位置情報データにより示された位置の周辺に存在する一又は複数の施設を特定し、特定した施設毎に、施設のカテゴリを示す情報を含む周辺施設情報を出力する施設情報出力部１０３と、施設情報出力部１０３により出力された各周辺施設情報に基づき、カテゴリ毎に施設数を集計した周辺施設特徴量を算出する周辺施設特徴量算出部１０４と、画像特徴量及び周辺施設特徴量を結合することにより入力データ特徴量を得る特徴量結合部１０５と、入力データ特徴量に基づき、画像データから人間が受け取ることのできる意味情報を推定する推定部１０６と、を備える。【選択図】図２

Description

本発明は、画像認識技術に係る情報処理装置に関する。

画像を含む入力データから、画像中の被写体の名称及びカテゴリ、画像に写っている風景やイベントの名称及びカテゴリ、並びに、画像から人が感じる感情、等の画像から人間が受け取る意味・雰囲気（以下、「意味情報」と記載）を推定する技術が知られている。このような技術では、予め、大量の画像データと、各画像データの人間が判断した意味情報とから、各意味情報に特徴的な画像の傾向、規則が機械学習技術により学習され、ユーザから新しい画像が入力された際には、予め学習されている規則に基づき、新しい画像の意味情報が推定される。

以下では、上述した技術を画像認識技術と呼ぶ場合がある。画像認識技術は、例えば、スマートフォン及びデジタルカメラ等で撮影された画像に自動でタグ付けを行うことにより画像の検索・整理・管理を手助けする技術等に利用されている（例えばGoogle Photos等）。

機械学習を用いた画像認識技術としては、例えば非特許文献1に開示されているようなDeep Learningを用いた画像認識手法や、Support Vector Machineを用いた画像認識手法などが知られている。また、画像をそのまま用いるのではなく、画像特徴量とよばれる画像の抽象的な特徴を表す数値群に変換し、利用する手法が知られている。画像特徴量としては、画像内の色の分布を表す色ヒストグラムや、画像内の輝度の分布や画像内のエッジの分布を表す特徴量などが用いられる他、非特許文献２に開示されているようなBag of Visual Featuresや上述したDeep Learningを用いて画像特徴量に変換し、画像に写っている物体の認識を行う手法(非特許文献３)が知られている。

また、画像の撮影位置の位置情報も画像の撮影や管理の場で用いられている。上述したGoogle Photosでは画像の撮影位置のGPS情報に基づき、画像の撮影場所を推定し、画像にタグを付けるサービスが提供されている。

特許文献１、特許文献２、特許文献３には、デジタルカメラにおいて適切な撮影条件(撮影のためのデジタルカメラのパラメータ)を選択するための撮影シーン(人物を撮影するシーン、夜景を撮影するシーン等)の判定技術において、画像データもしくは画像の撮影位置情報のいずれか一つ以上を用いて撮影シーンを判定する方法が開示されている。

特許文献１には、画像及びGPS情報から別々に取得された画像中の被写体情報及び現在位置と、現在時刻とに基づいて、予め与えられた複数の撮影シーン候補の中から撮影地点の撮影シーンを選択する技術が開示されている。特許文献２には、GPSによって取得された撮影位置が予め定められた複数の撮影場所のカテゴリ（例えば、「山岳」、「平地」、「海辺」、「市街地」）の何れかに属するかを判定し、判定されたカテゴリに従って撮影シーンを判定する技術が開示されている。特許文献３には、GPSの位置情報もしくは地図上のあるメッシュに対応する撮影シーンとその信頼度とのデータベースを用いて、撮影位置のシーンを推定する技術が開示されている。

その他、画像認識技術において、画像特徴量を生成する際、ユーザが入力した画像だけでなく、ユーザが入力した画像に付与された位置情報周辺の航空写真も用いる事で、画像認識技術の推定精度を向上する技術が知られている（非特許文献４）。

また、画像認識技術の一つとして、大量の画像の画像特徴量と、各々の画像に写っている物体の名称及びカテゴリ、並びに、画像に写っている風景やイベントの名称及びカテゴリとをデータベースとして保持しておき、ユーザが入力した画像の画像特徴量に対して、画像特徴量が似たデータベース上の画像を複数検索し、当該似た画像に紐づけられている物体の名称や、カテゴリ、画像に写っている風景やイベントの名称やカテゴリを集計する事で、ユーザが入力した画像データから、画像に写っている物体の名称や、カテゴリ、画像に写っている風景やイベントの名称やカテゴリを推定する技術が知られている。当該技術において、データベースに画像の撮影位置の情報を予め登録しておき、検索の際にユーザが入力した画像の位置情報を用いて、入力画像の撮影位置の周辺のデータベース上の画像のみに検索対象を絞り込む事で、推定速度及び推定精度を向上する技術が知られている（非特許文献５）。

特開２００７−２２８１１８号公報特開２００７−３０６４６１号公報 WO２０１２／１６５０８８

Alex Krizhevsky、Ilya Sutskever、Geoffrey E. Hinton著、「ImageNet Classificationwith Deep Convolutional Neural Networks」、（米）、Advancesin Neural Information Processing Systems、 25、2012年、p. 1106-1114 G. Csurka、他４名、「Visual categorization withbags of keypoints」 ECCV In Workshop on StatisticalLearning in Computer Vision、[onlie]、 2004年、XEROX CORPORATION、［平成 28 年 5 月 16日検索］、インターネット〈URL：http://www.xrce.xerox.com/Research-Development/Publications/2004-010〉 J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, T.Darrell著、「DeCAF: A Deep Convolutional ActivationFeature for Generic Visual Recognition」 Proceedings ofthe International Conference on Machine Learning、（米）、2014年、pp. 647-655 Keita Yaegashi、他1名、「Can Geotags Help Image Recognition」、(ドイツ)、2009、p 361-373 T.Wu、他3名、「Geo-LocalizationBased Scene Recognition」、 Proc. IEEE InternationalConference on Multimedia Big Data、 (米)、2015年、 pp. 1-2

しかしながら、上述した各文献の技術を用いた場合であっても、画像の意味情報を高い精度で推定することはできていない。例えば、特許文献１及び２に記載された技術は、いずれも撮像位置が正確に測位されることが前提の技術であるが、実際にデジタルカメラやスマートフォン等で取得されるGPS情報による位置推定には誤差があるため、画像の意味情報を十分な精度で推定することは難しい。また、特許文献３に記載された技術は、位置情報ごとにデータベースに撮影シーンの設定値を登録する必要があるため汎用性が低く、現実的には、多種の画像の意味情報を適切に推定することは難しい。また、例えば非特許文献５に記載された技術は、撮影位置の周辺に位置情報付画像データが存在しなければ、意味情報を推定することはできない。

本発明は上記実情に鑑みてなされたものであり、画像の意味情報を高い精度で推定することを目的とする。

本発明の一態様に係る情報処理装置は、画像及び該画像が撮像された位置を示す位置情報を含む入力データの入力を受け付ける入力手段と、画像を、該画像の特徴を示す数値データである画像特徴量に変換する画像特徴量算出手段と、位置情報により示された位置の周辺に存在する一又は複数の施設を特定し、特定した施設毎に、施設のカテゴリを示す情報を含む周辺施設情報を出力する施設情報出力手段と、施設情報出力手段により出力された各周辺施設情報に基づき、カテゴリ毎に施設数を集計した周辺施設特徴量を算出する周辺施設特徴量算出手段と、画像特徴量及び周辺施設特徴量を結合することにより、入力データの特徴を示す数値データである入力データ特徴量を得る特徴量結合手段と、入力データ特徴量に基づき、画像から人間が受け取ることのできる意味情報を推定する推定手段と、を備える。

この情報処理装置では、意味情報の推定において、画像特徴量と周辺施設特徴量とを結合することにより得られた入力データ特徴量が用いられている。周辺施設特徴量は、画像の撮像位置の周辺に存在する施設のカテゴリを示す情報である周辺施設情報に基づき、カテゴリ毎に施設数を集計することにより得られた値である。このような周辺施設特徴量が考慮されることにより、撮像位置周辺の施設の情報が考慮されて意味情報が推定されるので、例えばレストランの中で撮影した画像は料理画像の可能性が高い、というような推定が可能となり、画像単体で意味情報が推定される場合と比較して推定精度を向上させることができる。また、撮像位置から直接的に意味情報が推定されるのではなく、撮像位置の周辺の施設のカテゴリに応じて意味情報が推定されるので、位置情報に誤差が含まれている場合でも、高精度に意味情報を推定することができる。以上より、当該情報処理装置によれば、画像の意味情報を高い精度で推定することができる。

上記情報処理装置では、施設情報出力手段が、施設のカテゴリを示す情報と該施設の重要度を示す指標とを含む情報を、周辺施設情報として出力してもよい。これにより、周辺施設が一律に扱われず、予め定められた重要度に応じて周辺施設特徴量が決定されることとなる。このため、例えば、経験則等に基づき意味情報の推定において影響力が大きいと思われる周辺施設の重要度を高くする等が可能となるので、画像の意味情報をより高い精度で推定することが可能となる。

上記情報処理装置では、施設情報出力手段が、位置情報により示された位置からの距離、及び、施設の人気度の少なくともいずれか一方を、重要度を示す指標としてもよい。これにより、画像の意味情報の推定において影響力が大きいと思われる周辺施設の重要度を適切に高くすることができ、画像の意味情報をより高い精度で推定することが可能となる。

上記情報処理装置では、周辺施設特徴量算出手段が、カテゴリ毎の施設数の集計結果に対して、各施設の重要度を示す指標に基づく重み付けを行うことにより、周辺施設特徴量を算出してもよい。これにより、重要度が周辺施設特徴量に適切に反映されることとなり、画像の意味情報をより高い精度で推定することが可能となる。

上記情報処理装置では、推定手段が、機械学習によって習得された規則に基づき、意味を推定してもよい。これにより、正解データを用いて効率的に習得された情報に基づき、高い精度で画像の意味情報を推定することができる。

本発明によれば、画像の意味情報を高い精度で推定することができる。

本発明の実施形態に係る情報処理装置の全体構成を示す図であり、特に、ハードウェア構成を詳細に示す図である。本発明の実施形態に係る情報処理装置の機能構成を示す図である。周辺施設検索結果の一例を示す表である。周辺施設特徴量の一例を示す表である。本発明の実施形態に係る情報処理装置の処理を示すフローチャートである。

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。

図１は、本実施形態に係る情報処理装置の全体構成を示す図であり、特に、ハードウェア構成を詳細に示す図である。図１に示される情報処理装置１は、ユーザから入力された画像、及び該画像の撮像位置を示す位置情報に基づき、画像から人間が受け取ることのできる意味情報を推定する装置である。意味情報とは、画像中の被写体の名称及びカテゴリ、画像に写っている風景やイベントの名称及びカテゴリ、並びに、画像から人が感じる感情、等の画像から人間が受け取る意味・雰囲気に関する情報である。

情報処理装置１は、例えばスマートフォン、タブレット端末、パーソナルコンピュータ、又はサーバなどである。情報処理装置１は、物理的には、図１に示すように、１又は複数のCPU１１、主記憶装置であるRAM１２及びROM１３、入力デバイスである入力装置１４、ディスプレイ等の出力装置１５、ネットワークカード等のデータ送受信デバイスである通信モジュール１６、及び半導体メモリ等の補助記憶装置１７等を含むコンピュータとして構成されている。

入力装置１４は、タッチセンサやマウス、キーボード等を有するGUI（Graphical User Interface）、又は、他のコンピュータ、プログラムからのデータ入力を受け付けるＡＰＩ（Application Program Interface）を有する。出力装置１５は、液晶ディスプレイ等を有し、CPU１１の制御に基づいて制御結果を表示する、又は、制御結果をテクストデータ等のコンピュータによって解釈可能な形式で出力する。

CPU１１は、RAM１２をワークエリアとして用いてROM１３や補助記憶装置１７に記憶されたプログラムを実行することによって各機能の動作を制御する。すなわち、情報処理装置１では、CPU１１がプログラムを実行することにより、後述する各機能が実現される。CPU１１は、日時を算出するリアルタイムクロック（不図示）から現在の日時に関する情報を取得する。

通信モジュール１６は、有線又は無線での通信を行うための通信回路を有し、インターネット等を含む外部ネットワーク２を介した通信を行う。なお、外部ネットワーク２とは、例えばTCP（Transmission Control Protocol）/IP（Internet Protocol）などのプロトコルに基づき装置間の通信を仲介するシステムである。

補助記憶装置１７は、フラッシュメモリ等を有し、CPU１１が制御に用いるデータやOS（Operating System:基本ソフトウェア）等のプログラムを記憶する。

次に、図２を参照して情報処理装置１の各機能について説明する。図２は、本実施形態に係る情報処理装置１の機能構成を示す図である。図２に示されるように、情報処理装置１は、入力部１０１（入力手段）と、画像特徴量算出部１０２（画像特徴量算出手段）と、施設情報出力部１０３（施設情報出力手段）と、周辺施設特徴量算出部１０４（周辺施設特徴量算出手段）と、特徴量結合部１０５（特徴量結合手段）と、推定部１０６（推定手段）と、を備えて構成されている。

入力部１０１は、画像データ、及び画像が撮像された位置を示す位置情報データを含む入力データの入力を受け付ける機能である。ユーザは、情報処理装置１に対して、画像データと、画像を撮像した位置（場所）を示す位置情報データとを入力することで、該画像の意味情報の取得を試みる。位置情報データは、例えばGPS（Global Positioning System）等の一般的な位置情報取得技術により取得されるものであってもよい。また、位置情報データは、exif等の一般的な形式で画像データに直接添付して情報処理装置１に入力されるものであってもよいし、画像データとは独立して情報処理装置１に入力されるものであってもよい。

入力部１０１は、入力データの入力を受け付けると、該入力データを画像データと位置情報データとに分割する。入力部１０１は、分割により取得した画像データを画像特徴量算出部１０２に出力すると共に、位置情報データを施設情報出力部１０３に出力する。

画像特徴量算出部１０２は、入力部１０１から入力された画像データを、画像の抽象的な特徴を示す数値データである画像特徴量に変換する機能である。画像特徴量としては、色ヒストグラム、輝度ヒストグラム、Bag of VisualFeatures、Deep Learning等を用いて抽出される特徴量等の一般的な特徴量を用いることができる。画像特徴量算出部１０２は、算出した画像特徴量を特徴量結合部１０５に出力する。

施設情報出力部１０３は、位置情報データにより示された位置の周辺に存在する一又は複数の施設を特定（返却）し、特定した施設毎に、施設のカテゴリを示す情報を含む周辺施設情報を出力する機能である。施設情報出力部１０３は、例えば、位置と対応付けて施設を記憶する情報処理装置１内部のデータベース（図示せず）や、foursquare(登録商標)等のインターネットを含む外部ネットワーク２上で提供されている外部データベース（図示せず）等を検索することにより、周辺に存在する施設及び周辺施設情報の特定を行う。

より詳細には、施設情報出力部１０３は、周辺に存在する施設のカテゴリを示す情報と該施設の重要度を示す指標とを含む情報を、上記周辺施設情報として出力する。施設のカテゴリとは、施設の性質を区分する分類であり、例えば「ホテル」「公園」「レストラン」等である。施設の重要度を示す指標とは、該施設の、画像データの持つ意味情報への関連しやすさを表す指標である。施設情報出力部１０３は、例えば、位置情報により示された位置から施設までの距離、及び、施設の人気度を、重要度を示す指標とする。なお、施設情報出力部１０３は、重要度を示す指標として距離及び人気度のいずれか一方のみを用いてもよいし、更に別の指標を用いてもよい。

上述した人気度とは、当該施設がどの程度の人によって利用されているか、当該施設でどの程度の頻度で写真が撮像されているかを示す指標である。当該人気度に関する指標は、例えば外部データベースにおいて管理されている当該施設へのチェックイン数や、当該施設の観光案内webサイト、レストラン案内webサイト等の施設紹介サイトでのランキング、コメント数、評価値等から導出されるものであってもよい。

図３は、周辺施設検索結果の一例を示す表である。上述したように、施設情報出力部１０３は、情報処理装置１内部のデータベース（図示せず）や、外部ネットワーク２上で提供されている外部データベース（図示せず）等を検索することにより、当該周辺施設検索結果を得る。

図３に示すように、周辺施設検索結果では、ランクと、周辺施設名と、周辺施設カテゴリと、距離と、人気度とが関連付けられている。ランクとは、施設単位での重要度のランク（順位）であり、撮像位置からの距離が近く人気度が高いほど高くなる。施設情報出力部１０３は、周辺施設情報を含んだ当該周辺施設検索結果を、周辺施設特徴量算出部１０４に出力する。

周辺施設特徴量算出部１０４は、施設情報出力部１０３により出力された、周辺施設情報を含む周辺施設結果に基づき、カテゴリ毎に施設数を集計した周辺施設特徴量を算出する。より詳細には、周辺施設特徴量算出部１０４は、カテゴリ毎の施設数の集計結果に対して、各施設の重要度を示す指標に基づく重み付けを行う（重み付け加算を行う）ことにより、周辺施設特徴量を算出する。周辺施設特徴量算出部１０４は、算出した周辺施設特徴量を、特徴量結合部１０５に出力する。

周辺施設特徴量の具体的な算出例について説明する。例えば、カテゴリが「ホテル」である周辺施設として、施設１ｘ及び施設２ｘが存在しているとする。この場合、周辺施設特徴量のうちカテゴリ「ホテル」の値は、単純に施設数（ここでは、２）が集計されるのではなく、各施設の重要度を示す指標に基づく重み付けが行われることにより算出される。例えば、施設１ｘの撮像位置からの距離が０．１ｋｍ、人気度が２０．１であり、施設２ｘの撮像位置からの距離が１０．２ｋｍ、人気度が１０．１であったとする。この場合、例えば各施設の重み付け後の値（周辺施設特徴量算出に係る値）は、「人気度／距離」とされる。すなわち、施設１ｘの重み付け後の値は２０．１／０．１、施設２ｘの重み付け後の値は１０．１／１０．２とされる。そして、当該施設１ｘ及び施設２ｘの重み付け後の値が合算（重み付け加算）されることにより、周辺施設特徴量のうちカテゴリ「ホテル」の値が算出される。

このように、重み付けを行う際に人気度を分子にとることで、より人気がある施設の重みを上げ、重みが高い施設で写真が撮像された可能性が高いものとして周辺施設特徴量の算出を行うことができる。また、情報処理装置１に入力される位置情報データに多少の誤差があることを考慮したとしても、該位置情報データから距離が離れるほど該施設で撮像された写真である可能性は低くなる。そのため、距離を分母にとることで、撮像位置から遠い施設の重みを小さくして周辺施設特徴量の算出を行うことができる。

図４は、周辺施設特徴量の一例を示す表である。図４に示すように、周辺施設特徴量はカテゴリ毎に値を有している。図４に示す例では、画像IDと、各カテゴリ（公園、ホテル、レストラン、学校）に係る周辺施設特徴量とが関連付けられている。すなわち、周辺施設特徴量は、各カテゴリの値がベクトルの要素となったベクトル構造とされている。画像IDとは、当該周辺施設特徴量の算出に係る画像データを一意に特定する識別子である。

特徴量結合部１０５は、画像特徴量算出部１０２により入力された画像特徴量、及び、周辺施設特徴量算出部１０４により入力された周辺施設特徴量を結合することにより、入力データの特徴を示す数値データである入力データ特徴量を得る機能である。ここでの結合とは、結合対象（画像特徴量及び周辺施設特徴量）の両方を考慮してある値を導出するものであれば、具体的な処理内容（加算、乗算など）は限定されない。特徴量結合部１０５は、導出した入力データ特徴量を推定部１０６に出力する。

推定部１０６は、特徴量結合部１０５から入力された入力データ特徴量に基づき、画像データから人間が受け取ることのできる意味情報を推定する機能である。推定された意味情報とは、例えば「結婚式の様子」や「食事風景」等、画像から人間が受け取る意味・雰囲気に関する情報である。

画像データの意味情報の推定においては、予め与えられた推定規則を元に推定を行う。推定規則に関しては、予め人手でヒューリスティックに作成する他、support vector machine、Deep Learning等の機械学習技術を用いて、機械に予め推定規則を習得させてもよい。機械学習技術を用いた推定規則の習得においては、画像に写っている意味情報が予め分かっている画像と当該画像の撮影位置の位置情報とのペアを大量に準備し、当該画像群を入力データとして、入力部１０１、画像特徴量算出部１０２、施設情報出力部１０３、周辺施設特徴量算出部１０４、及び特徴量結合部１０５を用いて入力データ特徴量を導出し、導出した入力データ特徴量と与えられた意味情報との対応関係から、推定規則が機械学習技術により習得される。そして、機械学習技術により習得された推定規則が、予めRAM１２やROM１３に格納され、ユーザからの入力データに対して意味情報を推定する場合に参照される。

次に、図５を参照して、情報処理装置１の処理について説明する。図５は、本実施形態に係る情報処理装置１の処理を示すフローチャートである。

図５に示されるように、情報処理装置１では、まず入力部１０１により入力データが受け付けられ、該入力データが画像データと位置情報データとに分割される（ステップＳ１）。入力部１０１は、分割により取得した画像データを画像特徴量算出部１０２に出力すると共に、位置情報データを施設情報出力部１０３に出力する。

つづいて、画像特徴量算出部１０２により、入力部１０１から入力された画像データから画像特徴量が算出される（ステップＳ２）。画像特徴量算出部１０２は、算出した画像特徴量を特徴量結合部１０５に出力する。

また、施設情報出力部１０３により、入力部１０１から入力された位置情報データから周辺に存在する施設が特定され、特定した施設毎に、施設のカテゴリを示す情報を含む周辺施設情報が出力される（ステップＳ３）。施設情報出力部１０３は、周辺施設情報を含んだ周辺施設検索結果を、周辺施設特徴量算出部１０４に出力する。

そして、周辺施設特徴量算出部１０４により、施設情報出力部１０３から入力された周辺施設検索結果に基づき、カテゴリ毎に施設数を集計した周辺施設特徴量が算出される（ステップＳ４）。周辺施設特徴量算出部１０４は、算出した周辺施設特徴量を、特徴量結合部１０５に出力する。

つづいて、特徴量結合部１０５により、画像特徴量算出部１０２により入力された画像特徴量、及び、周辺施設特徴量算出部１０４により入力された周辺施設特徴量が結合されて、入力データ特徴量が導出される（ステップＳ５）。特徴量結合部１０５は、導出した入力データ特徴量を推定部１０６に出力する。

最後に、推定部１０６により、特徴量結合部１０５から入力された入力データ特徴量に基づき、画像データから人間が受け取ることのできる意味情報が推定される（ステップＳ６）。

次に、本実施形態に係る情報処理装置１の作用効果について説明する。

本実施形態の情報処理装置１は、画像データ、及び画像が撮像された位置を示す位置情報データを含む入力データの入力を受け付ける入力部１０１と、画像データを、画像の抽象的な特徴を示す数値データである画像特徴量に変換する画像特徴量算出部１０２と、位置情報データにより示された位置の周辺に存在する一又は複数の施設を特定し、特定した施設毎に、施設のカテゴリを示す情報を含む周辺施設情報を出力する施設情報出力部１０３と、施設情報出力部１０３により出力された各周辺施設情報に基づき、カテゴリ毎に施設数を集計した周辺施設特徴量を算出する周辺施設特徴量算出部１０４と、画像特徴量及び周辺施設特徴量を結合することにより、入力データの特徴を示す数値データである入力データ特徴量を得る特徴量結合部１０５と、入力データ特徴量に基づき、画像データから人間が受け取ることのできる意味情報を推定する推定部１０６と、を備える。

この情報処理装置１では、意味情報の推定において、画像特徴量と周辺施設特徴量とを結合することにより得られた入力データ特徴量が用いられている。周辺施設特徴量は、画像の撮像位置の周辺に存在する施設のカテゴリを示す情報である周辺施設情報に基づき、カテゴリ毎に施設数を集計することにより得られた値である。このような周辺施設特徴量が考慮されることにより、撮像位置周辺の施設の情報が考慮されて意味情報が推定されるので、例えばレストランの中で撮影した画像は料理画像の可能性が高い、というような推定が可能となり、画像単体で意味情報が推定される場合と比較して推定精度を向上させることができる。また、撮像位置から直接的に意味情報が推定されるのではなく、撮像位置の周辺の施設のカテゴリに応じて意味情報が推定されるので、位置情報に誤差が含まれている場合でも、高精度に意味情報を推定することができる。以上より、当該情報処理装置１によれば、画像の意味情報を高い精度で推定することができる。

なお、周辺施設情報に含まれる施設のカテゴリを示す情報は、例えばFoursquare(登録商標)やその他の地図情報データとして既に普及している情報から取得することが可能であるため、事前の登録作業（施設とカテゴリとの組み合わせの登録作業）等を軽減することができる。また、周辺施設のカテゴリを示す情報という、画像の位置情報とは独立に存在するデータを利用することにより、例えば位置情報付きの画像データが存在していない場所で撮像された画像に対しても、画像の意味情報を適切に推定することができる。

情報処理装置１では、施設情報出力部１０３が、施設のカテゴリを示す情報と該施設の重要度を示す指標とを含む情報を、周辺施設情報として出力する。これにより、周辺施設が一律に扱われず、予め定められた重要度に応じて周辺施設特徴量が決定されることとなる。このため、例えば、経験則等に基づき意味情報の推定において影響力が大きいと思われる周辺施設の重要度を高くする等が可能となるので、画像の意味情報をより高い精度で推定することが可能となる。

情報処理装置１では、施設情報出力部１０３が、位置情報により示された位置からの距離、及び、施設の人気度の少なくともいずれか一方を、重要度を示す指標とする。これにより、画像の意味情報の推定において影響力が大きいと思われる周辺施設の重要度を適切に高くすることができ、画像の意味情報をより高い精度で推定することが可能となる。

情報処理装置１では、周辺施設特徴量算出部１０４が、カテゴリ毎の施設数の集計結果に対して、各施設の重要度を示す指標に基づく重み付けを行うことにより、周辺施設特徴量を算出する。これにより、重要度が周辺施設特徴量に適切に反映されることとなり、画像の意味情報をより高い精度で推定することが可能となる。

情報処理装置１では、推定部１０６が、機械学習によって習得された規則に基づき、意味を推定する。これにより、正解データを用いて効率的に習得された情報に基づき、高い精度で画像の意味情報を推定することができる。

以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されない。例えば、特徴量結合部１０５は、特徴量の結合の前後にPCA、LDA、Auto Encoder、Restricted Boltzmann Machine等の一般的な特徴量変換、次元圧縮技術を用いて、画像特徴量及び周辺施設特徴量を変換してもよい。これにより、推定部１０６における推定精度の向上及び推定速度の向上の効果が得られる。

また、上記実施形態では情報処理装置１を説明したが、本発明は、情報処理装置１が実施する処理を実現するための情報処理方法や、情報処理装置１のようなコンピュータを上述した各手段として機能させるためのプログラムを含むものである。このようなプログラムは、それを記憶させた光ディスク等の記録媒体の形態で提供されてもよいし、インターネット等のネットワークを介してコンピュータにダウンロード及びインストールされて利用される形態で提供されてもよい。

１…情報処理装置、２…外部ネットワーク、１０１…入力部（入力手段）、１０２…画像特徴量算出部（画像特徴量算出手段）、１０３…施設情報出力部（施設情報出力手段）、１０４…周辺施設特徴量算出部（周辺施設特徴量算出手段）、１０５…特徴量結合部（特徴量結合手段）、１０６…推定部（推定手段）。

Claims

画像及び該画像が撮像された位置を示す位置情報を含む入力データの入力を受け付ける入力手段と、
前記画像を、該画像の特徴を示す数値データである画像特徴量に変換する画像特徴量算出手段と、
前記位置情報により示された位置の周辺に存在する一又は複数の施設を特定し、特定した施設毎に、施設のカテゴリを示す情報を含む周辺施設情報を出力する施設情報出力手段と、
前記施設情報出力手段により出力された各周辺施設情報に基づき、前記カテゴリ毎に施設数を集計した周辺施設特徴量を算出する周辺施設特徴量算出手段と、
前記画像特徴量及び前記周辺施設特徴量を結合することにより、前記入力データの特徴を示す数値データである入力データ特徴量を得る特徴量結合手段と、
前記入力データ特徴量に基づき、前記画像から人間が受け取ることのできる意味情報を推定する推定手段と、
を備える情報処理装置。
前記施設情報出力手段は、施設のカテゴリを示す情報と該施設の重要度を示す指標とを含む情報を、前記周辺施設情報として出力する、請求項１記載の情報処理装置。
前記施設情報出力手段は、前記位置情報により示された位置からの距離、及び、施設の人気度の少なくともいずれか一方を、前記重要度を示す指標とする、請求項２記載の情報処理装置。
前記周辺施設特徴量算出手段は、前記カテゴリ毎の施設数の集計結果に対して、各施設の前記重要度を示す指標に基づく重み付けを行うことにより、前記周辺施設特徴量を算出する、請求項２又は３記載の情報処理装置。
前記推定手段は、機械学習によって習得された規則に基づき、前記意味を推定する、請求項１〜４のいずれか一項記載の情報処理装置。