JP2019056956A

JP2019056956A - 情報処理システム、情報処理プログラム、情報処理装置及び情報処理方法

Info

Publication number: JP2019056956A
Application number: JP2017179360A
Authority: JP
Inventors: 直哉佐々木; Naoya Sasaki; 辺晋一田; Shinichi Tanabe; 江弥生堀; Yayoi Horie; 谷道夫倉; Michio Kuratani
Original assignee: Navitime Japan Co Ltd
Current assignee: Navitime Japan Co Ltd
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2019-04-11

Abstract

【課題】画像を入力すると、その画像に関連する地理的情報を出力する情報処理システムを提供する。【解決手段】情報処理システム１は、画像に関する情報を対話形式でユーザから受け付ける、受付手段２１２と、受け付けられた前記画像に関連するＰＯＩの情報及び／又は前記画像に含まれる対象物の情報を取得する、情報取得手段３１３，３１４と、前記ＰＯＩ及び／又は前記対象物に関連する地理的情報を出力する、出力手段２５と、を備える。【選択図】図１

Description

本発明は、情報処理システム、情報処理プログラム、情報処理装置及び情報処理方法に関する。

今日、旅行等で出かける際に、インターネットを介して様々な情報を取得することが広く行われている。これらの情報は、多くの場合、文字情報に基づいてブラウザ等のアプリケーションを用いて取得される。

しかしながら、ユーザが、文字ではなく画像に基づいて情報を検索したい状況も多くある。例えば、日本語の読み書きが困難である外国人観光客が、観光地の画像や名産品等の画像からそれらの名称やそれらに関連する場所を知りたい場合もある。そのような状況において、従来の検索エンジンやアプリケーションでは対応できないことがある。例えば、出力される文字に対して音声を用いて入力を行う技術（特許文献１）や、現在地の地理的情報に基づいて観光地等の探索を行う技術（特許文献２）が考案されているが、これらはいずれも画像を入力として受け付けるものではない。

特開２０１６−９１９９号公報特開２００６−２９２５５０号公報

そこで、本発明は、画像を入力すると、その画像に関連する地理的情報を出力する情報処理システムを提供する。

一実施形態に係る情報処理システムは、画像に関する情報を対話形式でユーザから受け付ける、受付手段と、受け付けられた前記画像に関連するＰＯＩの情報及び／又は前記画像に含まれる対象物の情報を取得する、情報取得手段と、前記ＰＯＩ及び／又は前記対象物に関連する地理的情報を出力する、出力手段と、を備える。

本発明に係る情報処理システムによれば、画像を入力すると、その画像に関連する地理的情報を出力することが可能となる。

一実施形態に係る情報処理システムの機能を示すブロック図。一実施形態に係る情報処理システムによる対話の例を示す図。一実施形態に係るサーバの予測モデル生成処理を示すフローチャート。一実施形態に係る情報処理システムの処理の流れの例を示すフローチャート。画像に関連する情報を送信する例を示す図。画像とともに質問を送信する例を示す図。一実施形態に係る情報処理システムによる対話の例を示す図。一実施形態に係る情報処理システムによる対話の例を示す図。一実施形態に係る情報処理システムによる対話の例を示す図。一実施形態に係る情報処理システムによる対話の例を示す図。一実施形態に係る情報処理システムによる対話の例を示す図。一実施形態に係る情報処理システムの処理の流れの例を示すフローチャート。一実施形態に係る情報処理システムによる対話の例を示す図。一実施形態に係る情報処理システムによる対話の例を示す図。一実施形態に係る情報処理システムの処理の流れの例を示すフローチャート。一実施形態に係る情報処理システムによる対話の例を示す図。一実施形態に係る情報処理システムによる対話の例を示す図。一実施形態に係る情報処理システムによる対話の例を示す図。

以下、本発明の実施形態について、図面を参照しながら具体的に説明する。なお、各図において同等の機能を有する構成要素には同一の符号を付し、同一符号の構成要素の詳しい説明は繰り返さない。

（第１実施形態）
本実施形態に係る情報処理システム１は、例えば、ユーザが画像に関連する情報（以下、画像関連情報という）を入力した場合に当該画像に関連する地理的な情報を出力する。当該地理的情報には、他の情報が付加されていてもよい。

図１は、本実施形態に係る情報処理システム１の概略的な構成を示すブロック図である。この図１に示すように、情報処理システム１は、端末装置２と、サーバ３とを備えている。端末装置２とサーバ３とは、インターネット等のネットワーク４を介して互いに通信可能に接続されている。ネットワーク４は、有線回線及び無線回線のいずれでもよく、回線の種類や形態は問わない。

端末装置２は、ユーザが使用するものであり、例えば、携帯電話、スマートホン、パソコン、タブレット端末等の情報処理端末である。この端末装置２は、制御部２１と、通信部２２と、記憶部２３と、入力部２４と、出力部２５とを備えている。なお、端末装置２は、ＧＰＳ（Global Positioning System）やＷｉ−Ｆｉ（登録商標）測位などにより、端末装置２の現在位置を測位する測位手段（図示しない）を備えていてもよい。

ユーザの位置情報等に関する情報をサーバ３へと送信するか否かは、当該対話を開始する前に設定するようにしてもよいし、当該対話を行うアプリケーションのインストール時、又は、初期設定時にオプトイン又はオプトアウトにより設定するようにしてもよい。また、送信する画像関連情報ごとに現在位置の送信の可／付加をユーザに選択させるようにしてもよい。当該情報を送信する場合、サーバ３内に当該情報を記憶してもよいか否かについても同様に選択できるようにしてもよい。不可である場合、サーバ３には当該情報の送信又は記憶をしないようにする。このようにすることによりユーザの個人情報を保護することができる一方で、情報を望んでいるユーザにはより適した情報を提供することが可能となる。

制御部２１は、ユーザとの対話を行う対話部２１１と、対話中においてユーザが入力する画像関連情報を受け付ける画像関連情報受付部２１２と、出力部２５を介してユーザへと情報を出力する情報出力部２１３と、を備える。なお、制御部２１の各部は、端末装置２内のプロセッサが所定のプログラムを実行してソフトウェアにより実現されるものであってもよい。

対話部２１１は、端末装置２又はサーバ３に実装されているＢＯＴ（ロボット）とユーザとの対話を制御する。端末装置２にＢＯＴが実装されている場合には、対話部２１１がユーザとの対話処理を行い、記憶部２３に記憶されている対話のひな形に当てはめて対話を行う。この際、通信部２２を介して必要な情報をサーバ３から取得するようにしてもよい。サーバ３にＢＯＴが実装されている場合には、サーバ３の制御部３１から送信される情報を、対話部２１１が対話形式へと変換してユーザとの対話を行う。

画像情報受付部２１２は、ユーザとＢＯＴとの対話中において、ユーザが画像関連情報を入力した場合に、当該画像関連情報を受け付ける。画像情報受付部２１２は、受け付けた当該画像関連情報を、通信部２２を介してサーバ３へと送信する。

画像関連情報とは、端末装置２の記憶部２３に記憶されている画像情報そのものであってもよいし、ウェブ上に存在する画像を一意的に指定するＵＲＩ（Uniform Resource Identifier）等の情報であってもよい。さらには、端末装置２にインストールされているＳＮＳ（Social Networking Service）等からユーザが共有した情報であってもよい。

情報出力部２１３は、サーバ３から受信した地理的情報等を映像信号に変換して出力部２５を介してユーザへと出力する。また、サーバ３から受信したデータをユーザが見やすくなるように情報出力部２１３において変換してもよい。なお、情報出力部２１３は、情報を音声信号へと変換して出力部２５へと出力するようにしてもよい。

通信部２２は、ネットワーク４を介して制御部２１とサーバ３との間で情報を送受信するためのインターフェースである。記憶部２３は、制御部２１が動作するためのプログラムや制御部２１が取り扱うデータ（ユーザ情報や対話データ）を記憶する。入力部２４は、ユーザが端末装置２に情報を入出力するためのインターフェースであり、例えば、キーボード、マウス、タッチパネル、ボタン、マイク、ダイヤルボタン等である。

出力部２５は、端末装置２からユーザへ各種情報を出力するインターフェースであり、例えば、映像を表示する液晶ディスプレイ等の映像表示手段であり、端末装置２からユーザへ様々な情報を出力する。具体的には、出力部２５は、ユーザからの操作を受け付けるためのＧＵＩ（Graphical User Interface）や、画像に関連する地理的情報等を表示する。あるいは、出力部２５は、画像に関連する地理的情報等を音声で出力するスピーカであってもよいし、ユーザに情報を取得したことを振動により伝えるバイブレータであってもよい。また、入力部２４がタッチパネルである場合には、入力部２４が出力部２５を兼ねていてもよい。

なお、出力部２５は、ユーザに情報を直接提示するものでなくてもよい。例えば、出力部２５は、端末装置２の外部に接続される映像表示手段や音声出力手段に映像情報や音声情報を出力するものであってもよいし、外部に接続される印刷装置にデータを出力するものであってもよいし、端末装置２内若しくは外部の記憶装置にデータを出力して記憶させるものであってもよい。

次に、サーバ３について説明する。サーバ３は、制御部３１と、記憶部３２と、ネットワーク４を介して外部と情報を送受信するインターフェースである通信部３３とを備えている。

制御部３１は、対話応答部３１１と、画像取得部３１２と、ＰＯＩ（Point of Interest）情報取得部３１３と、対象物情報取得部３１４とを備えている。なお、これらの各部の機能は、サーバ３内のプロセッサが所定のプログラムを実行してソフトウェアにより実現されるものであってもよい。

記憶部３２は、画像情報データベース３２１と、ＰＯＩ情報データベース３２２と、対象物情報データベース３２３とを備えている。画像情報データベース３２１は、取得した画像に写っているものに対して、当該ものと、当該ものの名称等や当該ものに関連する情報等とを紐付けて記憶している。本実施形態において、「もの」とは、建物等を示すＰＯＩと、飲食物や土産物等を示す対象物とを包含した概念である。

この画像情報データベース３２１には、例えば、画像を入力すると画像に写っているものが何であるかを判断し、当該ものに関連する情報を出力する予測モデルが記憶されている。ＰＯＩ情報データベース３２２は、様々なＰＯＩ（Point Of Interest）に関連する情報が記憶されている。ＰＯＩに関連する情報は、例えば、ＰＯＩを識別する情報と、ＰＯＩの名称を示す情報と、ＰＯＩの位置を規定する情報と、その他営業時間を示す時間的情報や入場料金等を示す料金情報が含まれていてもよい。対象物情報データベース３２３は、飲食物や名産品等の対象物と、それに関連する情報とを紐付けて記憶している。

なお、これらのデータベースは、サーバ３内にあるものとは限られない。例えば、外部のファイルサーバ等にこれらのデータベースが存在し、ネットワーク４を介して当該ファイルサーバ等のデータベースを参照する形態であってもよい。

画像取得部３１２は、ネットワーク４を介して端末装置２から送信された画像関連情報に基づいて、ユーザが指定した画像を取得する。ユーザが端末装置２において記憶部２３に記憶されている画像、又は、端末装置２に備えられているカメラによりユーザが撮影した画像を指定した場合、画像関連情報受付部２１２は、画像関連情報として画像そのもののデータをサーバ３へと送信する。画像取得部３１２は、画像関連情報受付部２１２が送信した画像データを受信して、画像情報を取得する。

画像関連情報受付部２１２が受け付けた画像関連情報が画像のＵＲＩである場合、画像取得部３１２は、受信したＵＲＩに基づいてインターネットを介して画像を取得する。画像関連情報受付部２１２が受け付けた画像関連情報がＳＮＳで共有された情報であった場合、画像取得部３１２は、当該ＳＮＳからの情報に基づいて画像を取得する。当該画像情報へのアクセスが制限されており、クロールができない場合には、端末装置２においてユーザがアクセスした画像データ又は当該画像データのキャッシュ等の情報に基づいて画像を取得するようにしてもよい。また、ＡＰＩ（Application Programming Interface）が公開されている場合には、ＡＰＩを介してサーバ３が内部的に当該ユーザとしてアクセスして画像データを取得するようにしてもよい。

画像関連情報は、上述した例以外のものであってもよく、いずれの場合も、画像取得部３１２は、画像データを端末装置２から受信するか、又は、ネットワーク４を介して画像データの存在する場所を特定し、画像データを取得する。

ＰＯＩ情報取得部３１３は、画像情報データベース３２１及びＰＯＩ情報データベース３２２に記憶されているデータに基づいて、画像取得部３１２が取得した画像データに写っているＰＯＩの情報と、当該ＰＯＩに関連する地理的情報等を取得する。そして、取得した地理的情報等を対話応答部３１１に出力し、対話応答部３１１は、出力された情報を対話データへと加工して端末装置２に送信する。

対象物情報取得部３１４は、画像情報データベース３２１及び対象物情報データベース３２３に記憶されているデータに基づいて、画像取得部３１２が取得した画像データに写っている対象物の情報と、当該対象物に関連する地理的情報等を取得する。そして、取得した地理的情報等を対話応答部３１１へと出力し、対話応答部３１１は、出力された情報を対話データへと加工して端末装置２へと送信する。

画像取得部３１２が取得した画像に対して、ＰＯＩ情報を取得するか対象物情報を取得するかは、画像に写っているものに基づいて決定される。例えば、画像中に、塔、神社、仏閣、城郭、ビル、灯台、像、その他の人工物や、山、湖、木、その他の自然物のようなランドマークとなりうるものが特徴を有して写っている場合には、画像の特徴としてそれらの人工物又は自然物をＰＯＩとして抜き出し、ＰＯＩ情報の抽出を行う。

一方、画像中に、例えば、飲食物、土産物、名産品、動物等の物が特徴を有して写っている場合には、画像の特徴としてそれらの物を対象物として抜き出して、対象物情報の抽出を行う。このように、画像中で特徴的な部分を抜き出して、ＰＯＩであるか対象物であるかを判断する。この判断は、画像取得部３１２が画像を取得したタイミングで行ってもよい。

なお、ＰＯＩと対象物の区別をすること無く、当該ものの地理的情報等を取得するようにしてもよい。この場合、ＰＯＩ情報取得部３１３及び対象物情報取得部３１４は、同一の構成とすることもでき、併せて、ＰＯＩ情報データベース３２２及び対象物情報データベース３２３も同一の構成とすることもできる。このような構成の場合、ＰＯＩ情報と対象物情報とを区別するために、ものの情報にＰＯＩか対象物かを区別するデータを付与しておいてもよい。

次に、本実施形態に係る情報処理システム１の対話例について説明する。図２は、本実施形態に係る情報処理システム１を用いてユーザが対話中において画像関連情報を発言した場合における対話例である。本実施形態に係る情報処理システム１の画像情報受付部２１２は、図２の例のような対話型のユーザインターフェースを有する。このユーザインターフェースは、例えば、プログラムを用いてソフトウェアにより実装される。なお、図２は一例であり、他の対話型のユーザインターフェースを有していてもよい。

まず、ＢＯＴの発言２５００にあるように、調べたい物、場所等をユーザに入力するように促す。この発言２５００に対しては、通常の対話のように、文字で調べたいもの（例えば、○○タワー）等と入力してもよいし、図２にあるように、画像を入力してもよい。

この発言に対して、ユーザは、調べたい物や場所について対話を行う。対話は、対話型のユーザインターフェース下部にある、入力ウィンドウ２５１０を介して行われる。ユーザは、発言したい内容をメッセージ入力領域２５１１に入力して対話を行う。入力が終了した後、発言ボタン２５１２を選択することにより発言が実行される。

画像関連情報を入力する場合、ユーザは、画像関連情報入力ボタン２５１３を選択することにより、画像の選択画面へと移行する。移行した画面で必要な画像を選択した後、発言が実行される。例えば、画像２５０１のような画像をユーザ入力すると、図２に示すように、画像２５０１が対話型ユーザインターフェース内に表示される。

ＢＯＴは、この画像に対して、画像に写っている特徴的なものを予測モデルにより予測し、例えば、画像の中に写っている物が図２に示すようにランドマーク的な塔であった場合は、対話２５０２にあるように、写っている塔の名称「○○タワー」と、地理的情報（ここでは、住所）とを発言する。この場合、画像中の特徴的な物は建造物であるので、ＰＯＩ情報取得部３１３により地理的情報等の各種情報が取得される。

図３は、画像中の特徴的な「もの」を抜き出し、その「もの」が何であるかを予測する予測モデルを生成する処理の一例を示すフローチャートである。例えば、機械学習を行うことによりこの予測モデルは生成される。

まず、サーバ３は、学習に必要となる画像データを取得する（ステップＳ２００）。例えば、インターネット等のネットワークを介して取得可能なウェブ上にアップロードされている様々な画像をクロールすることにより取得する。画像を取得する際に、画像に付されているタグの情報も併せて取得する。

例えば、ＨＴＭＬ（Hyper Text Markup Language）等で記載されたウェブサイト上にアップロードされている場合、当該ＨＴＭＬファイル等に記載されているテキストから、名称等を含む情報を抽出するようにしてもよい。当該画像を表示するＩＭＧタグに付されているａｌｔ属性の内容を抽出してもよい。画像にＥｘｉｆ（Exchangeable image file format）が付加されている場合、当該Ｅｘｉｆ内のＧＰＳ情報に基づいて情報を探索してもよい。

例えば、ＳＮＳ等でアップロードされている場合、当該ＳＮＳにおける投稿内容のうち、当該画像と併せて投稿された文字情報に基づいて取得した画像に写っているものの名称等を取得してもよい。この際、投稿に地理的情報が付されている場合は、当該つぶやきの地理的情報を取得するようにしてもよい。投稿にタグ情報が付されている場合、当該タグ情報を名称等の情報として取得するようにしてもよい。

上記のものは、一例であり、ネットワーク上をクロールすることにより、学習に必要となる多数の画像と、各画像内における特徴的なものの名称等の情報とを併せて取得する。また、全体的又は部分的にネットワークを介さず、独自のデータベースを用いるようにしてもよい。

次に、サーバ３において、予測モデルの学習を行う（ステップＳ２０１）。学習は、一般的な機械学習アルゴリズムを用いて行われてもよい。予測モデルは、画像を入力すると、当該画像と類似している画像を検索し、当該画像内の特徴的なものを抽出し、当該ものの名称等の情報を出力するように学習される。

次に、サーバ３の画像情報データベース３２１に、当該予測モデルを格納する（ステップＳ２０２）。このような処理を経て、例えば、画像取得部３１２は、取得した画像を画像情報データベース３２１内に格納されている予測モデルを用いることにより、当該画像内における特徴的なものの名称等の情報を取得することが可能となる。

なお、上述したように、画像情報データベース３２１は、サーバ３内に保存されている必要は無く、外部にある別のサーバ等に保存されていてもよい。さらに、予測モデルを用いた処理も、サーバ３内で行う必要は無い。すなわち、別サーバ上の予測モデルを用いるモジュール等を用いて、この予測処理をサーバ３内ではなく、別サーバ上で行うようにしてもよい。具体的には、サーバ３から画像を当該別サーバに送信すると、当該別サーバにおいて名称等の情報を取得し、取得した名称等の情報をサーバ３へと出力するようにしてもよい。この処理には、一般的に公開されているＡＰＩを使用してもよい。この場合、多数の画像等の収集や学習もサーバ３で行う必要は無い。

次に、本実施形態に係る情報処理システムにおける処理の流れを、図面を用いて説明する。図４は、本実施形態に係る情報処理システムの処理の流れの一例を示すフローチャートである。

まず、この処理に入る前において、ユーザは、図２に示すような対話型のインターフェースを有するアプリケーション等によりＢＯＴと対話を行っていてもよいし、画像関連情報から地理的情報等を取得するために当該アプリケーション等を起動した状態であってもよい。

ユーザは、画像中に地理的情報等を知りたいものが存在する場合、入力部２４を介して当該画像の画像関連情報を端末装置２へと入力する。入力を受け付けた端末装置２の入力部２４は、画像関連情報受付部２１２へと当該画像関連情報を出力する。画像関連情報受付部２１２は、画像関連情報を受け付け、通信部２２を介してサーバ３へと送信する（ステップＳ１１０）。

画像関連情報の受け付けは、様々な態様で行われてもよい。図５は、画像関連情報の受け付けの一例を示す図である。ユーザが画像関連情報入力ボタン２５１３をタップ又はクリック等により選択した場合、例えば、画像関連情報入力選択肢２５０３が対話型のユーザインターフェース上に出力される。ユーザは、これらの選択肢の中から画像関連情報を入力する手段を選択することが可能となる。

カメラで情報を取得したいものの情報を撮影する場合、「カメラで撮影」ボタンを選択し、端末装置２内のカメラを起動するようにする。その後、カメラで撮影した画像を画像関連情報としてサーバ３へと送信する。

既に端末装置２の記憶部２３に知りたい情報に関する画像が存在する場合、「ライブラリから選択」ボタンを選択し、知りたい情報に関する画像が選択されることにより、画像関連情報を受け付ける。

ウェブサイトを閲覧中に情報を知りたい画像を見つけた場合、その画像のＵＲＩ又はその画像が掲載されているサイトのＵＲＩを取得して入力することも可能であり、この場合、ユーザには、「ＵＲＩを入力」ボタンを選択させるようにする。画像のＵＲＩではなく、サイトのＵＲＩを受け付けた場合には、端末装置２又はサーバ３は、当該ＵＲＩにアクセスし、そのサイトに存在する画像をユーザインターフェース上に出力し、ユーザに当該画像で間違いが無いかをチェックさせるようにしてもよい。また、当該サイトに複数の画像が存在する場合には、どの画像に関する情報を知りたいかをユーザに選択させるようにしてもよい。

ＵＲＩを入力する場合、画像関連情報入力ボタン２５１３を選択すること無く、メッセージ入力領域２５１１に直接ＵＲＩが入力され、その後に発言ボタン２５１２が選択されることによりＵＲＩの入力を受け付けてもよい。受け付けたＵＲＩが画像に関するＵＲＩである場合には、画像関連情報として画像に関連する情報を探索するようにし、受け付けたＵＲＩが直接画像にアクセスするためのＵＲＩではなくウェブサイトのＵＲＩであった場合には、画像関連情報としてではなく当該ウェブサイトに関連する情報を探索対象とするように自動判別してもよい。

ＳＮＳ等に共有されている画像から情報を探索したい場合には、「ＳＮＳの画像を選択」ボタンをユーザに選択させる。選択後、該当するＳＮＳから、端末装置２内において情報を共有することにより、画像を取得する、例えば、当該ＳＮＳのアプリケーション等から画像そのものを共有することにより端末処理装置２内で画像を取得する。別の例としては、アプリケーション間で画像が存在する場所に関する情報、例えば、画像が使用されているウェブサイトのＵＲＩ又は直接画像を参照するＵＲＩ等の情報を共有し、端末装置２ではなく、サーバ３において、当該画像を取得するようにしてもよい。また、この操作は、ＳＮＳ側から行うようにしてもよい。例えば、ＳＮＳアプリケーション側において、画像の共有先として、情報処理システム１が選択できるように設定してもよい。このようにすることにより、ユーザビリティをさらに向上することが可能となる。

なお、これらの選択肢は、このような選択肢ボタンではなく、プルダウンメニューやラジオボタンのような選択の仕方でもよいし、これらには限られない。

別の例として、他のアプリケーションやウェブサイト、又は、ライブラリ等から、情報処理システム１のユーザインターフェース上にドラッグによる画像関連情報の受け付けを行うようにしてもよい。

さらに別の例として、クリップボードに記憶されている情報を画像関連情報として受け付けるようにしてもよい。この場合、図５に示す画像関連情報入力選択肢２５０３内に、「クリップボードの情報」ボタン等を設置して、当該ボタンが選択されることにより、クリップボードに記憶されている情報を画像関連情報として受け付けるようにしてもよい。

画像関連情報を受信した画像取得部３１２は、当該画像関連情報に基づいて画像を取得する（ステップＳ２１０）。画像の取得は、上述したように、画像関連情報の態様に応じて、各画像関連情報に適した取得をする。このタイミングにおいて、画像取得部３１２が取得した画像を出力部２５に、図２の画像２５０１のように表示してもよい。端末装置２のカメラで撮影した画像や記憶部２３に記憶されている画像の場合は、ユーザが画像情報を入力したタイミングで図２のように表示してもよい。

次に、画像取得部３１２は、取得した画像を画像情報データベース３２１へと入力し、類似画像の検索を行う（ステップＳ２１１）。続いて、検索された類似画像に基づいて当該画像内の特徴的なものの名称を含む情報等を抽出する（ステップＳ２１２）。ものの名称を抽出した後に、画像取得部３１２は、当該ものがＰＯＩであるのか、対象物であるのかを判断するようにしてもよい。

次に、抽出した画像内の特徴的なもの（ＰＯＩ又は対象物）の情報を取得する（ステップＳ２１３）。ＰＯＩ情報取得部３１３又は対象物情報取得部３１４は、ステップＳ２１２において抽出されたＰＯＩ又は対象物の名称に基づき、ＰＯＩ情報データベース３２２又は対象物情報データベース３２３から当該ＰＯＩ又は当該対象物の情報を取得する。図２の例の場合、画像の特徴を示すものは、ＰＯＩであり、当該ＰＯＩの名称は、○○タワーであり、ＰＯＩ情報取得部３１３は、ＰＯＩ情報データベース３２２から○○タワーの情報を抽出する。抽出する情報は、例えば、住所、最寄り駅、最寄りバス停、営業時間、料金等の情報である。

なお、類似画像の検索を行わずにものの情報を特定するようにしてもよい。例えば、取得した画像の中から特徴的なものを抽出し、抽出したものについての情報を取得するようにしてもよい。特徴的なものの情報の抽出は、例えば、機械学習に基づいて生成されたニューラルネットワークを介して、画像内に現れる特徴的なものの情報を取得するようにしてもよい。

次に、ＰＯＩ情報取得部３１３又は対象物情報取得部３１４は、前ステップにおいて抽出された情報に基づいて、当該ＰＯＩ又は当該対象物の地理的情報を抽出する（ステップＳ２１４）。地理的情報とは、代表的には住所や最寄り駅の情報である。抽出された地理的情報は、対話応答部３１１へと出力され、対話応答部３１１において対話情報に変換されて端末装置２へと送信される。別の例として、抽出された地理的情報を端末装置２へと送信し、端末装置２の対話部２１１において対話形式へと変換されてもよい。変換された情報は、例えば、図２に示すように、「住所は東京都○○区・・・」という情報である。

次に、対話形式へと変換された地理的情報を受信した情報出力部２１３は、出力部２５へと対話形式の地理的情報を出力する（ステップＳ１１１）。このように、情報処理システム１は、対話形式のユーザインターフェースにおいて画像関連情報をユーザから受け付け、受け付けた画像関連情報に関する地理的情報をユーザへと出力する。

このように出力した結果、情報処理システム１は、図２に示すように、ユーザとＢＯＴとの対話中にユーザが画像を入力し、当該画像に関連する地理的情報を出力する。本実施形態においては、住所を地理的情報としたが、これには限られない。

以上のように、本実施形態によれば、対話形式のユーザインターフェースを有する情報処理システム１において、ユーザがＢＯＴとの対話中に画像関連情報を入力することにより、当該画像に関連する地理的情報を出力することが可能となる。ユーザの知りたい情報が視覚的に得られる画像情報の中にある場合でも、情報処理システム１が当該画像中の情報についての情報を出力することが可能となる。このように視覚的に得られる情報に対して地理的情報を出力することにより、ユーザビリティの向上を図ることができる。

なお、図２においては、「○○タワーです」と断言する形で回答しているが、これには限られず、「○○タワーではないでしょうか」と断言しない形で回答してもよい。さらに、画像取得部３１２における予測モデルの出力結果において、○○タワーである可能性を出力するようにしておき、この可能性に基づいて上記の回答を使い分けるようにしてもよい。例えば、画像に写っているＰＯＩが○○タワーである可能性が９５％以上であると予測された場合には、「○○タワーです」と回答し、７０％以上９５％未満であると予測された場合には、「○○タワーではないでしょうか」と回答し、５０％以上７０％未満であると予測された場合には、「○○タワーかもしれません」と回答をしてもよい。上記の数値は、一例であり、数値自体は上記の値に限定されるものではない。

また、全ての予測結果において、例えば、５０％未満の予測結果しか得られなかった場合には、得られた結果を可能性が高い順にリストアップして出力部２５に出力し、ユーザが選択するようにしてもよい。別の例としては、このような場合には、予測ができなかった旨を出力し、例えば、別の画像等の入力をユーザに促すようなメッセージを出力してもよい。

上記において、ＰＯＩ又は対象物の候補が複数予測された場合、予測された候補のＰＯＩ又は対象物の情報をリスト等による一覧表示にしてもよい。そして、表示されたリストからユーザがどのＰＯＩ又は対象物の情報を知りたいかを選択できるようにし、選択されたＰＯＩ又は対象物の情報の詳細を出力するようにしてもよい。リストには、地理的情報（例えば、都道府県レベルでの表示又はより詳細な表示等）及び時間的情報を出力して、ユーザが選択しやすいようにしてもよい。リストからユーザが選択したＰＯＩ又は対象物の情報が望んでいるものではなかった場合、再度リスト表示に戻るようにしてもよい。

（第２実施形態）
画像関連情報を受け付ける際に、質問事項を併せて受け付けるようにしてもよい。図６は、画像関連情報とともに、質問事項を受け付けるユーザインターフェースの一例を示す図である。図４におけるステップＳ２１０の後、情報出力部２１３は、画像を出力部２５内に表示させるとともに、図６に示すように、質問事項の入力をすることができるウィンドウを併せて出力する。

例えば、ユーザが画像に写っている物が何かを知りたい場合に、画像情報受付領域２５０４内の質問受付領域２５０５に「これなに？」というような質問を入力し、画像関連情報受付部２１２は、画像関連情報とともに、入力された質問を受け付け、対話応答部３１１へと質問内容を送信する。質問内容を受信した対話応答部３１１は、「これなに？」という質問を、例えば、何であるか（What?）、どこであるか（Where?）、どのくらいか（How?）、どう思うか（What do you think?）のいずれの質問に近いのかを判断し、これらの４つのうちどの質問に該当するのかを分類する。

なお、入力部２４がマイク等の音声を受信する機能を備えている場合、質問を音声で入力できるようにしてもよい。この場合、例えば、入力部２４にて音声情報を文字情報へと変換してサーバ３に質問を送信するようにしてもよいし、音声情報をそのデータの状態でサーバ３へと送信し、サーバ３にて当該音声データを処理するようにしてもよい。

これらの分類は、例えば、様々な質問事項を想定して各分類に対するユーザの質問の仕方をデータベース化しておいてもよいし、事前に教師付学習等により生成されたモデルに当てはめて予測して分類するようにしてもよい。例えば、「これなに？」「これは何ですか？」「何？」「これは？」等を「何であるか」の分類として判断するようにしてもよい。そして、「これなに？」と言う質問内容であれば、何であるか、という質問であると分類し、画像中に存在しているものが何かをユーザが知りたがっていると判断する。

この際、例えば、ユーザが誤入力をし、「これなぬ？」等という質問を受け付けた場合においても、補正を行い、何であるかをユーザが知りたがっていると判断するようにしてもよい。この補正は、上記の質問内容の分類と同様に、例えば、様々な場合を想定してデータベースにしておいてもよいし、又は、教師付学習により生成されたモデルに当てはめて予測して判断するようにしてもよい。

図７は、図６のような質問をした場合の情報処理システム１の回答例を示す図である。例えば、ユーザがした質問を、質問事項２５０６として記載し、その下に、回答としてＢＯＴの対話２５０２を表示する。対話２５０２に示されているように、一例として、「これなに？」と質問した場合には、画像中のＰＯＩの名称、地理的情報（住所）、時間的情報（営業時間）、料金的情報（入場料金）が出力される。これらの情報は、ＰＯＩ情報データベース３２２に記憶されていてもよいし、ＰＯＩ情報に基づいて、例えば、公式サイトを参照して当該公式サイトから抽出するようにしてもよい。

なお、時間的情報には、ＰＯＩである場合には、当該ＰＯＩに関する季節的な情報又は時期的な情報、例えば、観光するのに適した季節、イベントが開催される時期等の情報が備えられていてもよい。対象物である場合には、当該対象物の旬の時期、販売されている時期等の情報が備えられていてもよい。この他、ＰＯＩ又は対象物についての時間的情報で出力可能であるような情報であれば、それらの情報も備えられていてもよい。

このような処理を行う場合、情報処理システム１は、図４において、破線で表された処理を行う。すなわち、サーバ３は、地理的情報を抽出して送信した（ステップＳ２１４）後に、付加情報の抽出と送信を行う（ステップＳ２１５）。付加情報の抽出と送信は、ＰＯＩ情報取得部３１３又は対象物情報取得部３１４が行い、抽出された情報を対話応答部３１１が対話形式へと変換して端末装置２へと送信する。上述した説明と同様に、ＰＯＩ情報取得部３１３又は対象物情報取得部３１４が付加情報を送信し、端末装置２の対話部２１１において対話形式へと変換するようにしてもよい。

なお、これら時間的情報、料金的情報は、図２のように画像だけを入力した場合に合わせて出力されるようにしてもよい。このようにすることにより、ユーザの負荷を増やすことなく様々な情報を出力することが可能となる。また、時間的情報は、例えば、画像が夜景であった場合には、夜景が見られる時間を表示するようにしてもよい。このように、画像にあった時間的情報や料金的情報を出力するようにしてもよい。

出力する情報は、これらには限られず、地理的情報として住所の他に、例えば、現在地からＰＯＩまでの経路情報、現在地からＰＯＩまでに掛かる交通費又は時間を示す移動コスト情報のうちいずれか又は複数を表示するようにしてもよい。これら住所以外の地理的情報を出力する際には、ＰＯＩ情報に基づく経路探索を行うようにしてもよい。この経路探索は、時間を指定せずに平均的に掛かる時間等を出力するための平均探索を行ってもよいし、現在時刻を指定した探索を行ってもよい。

図８は、ユーザが別の質問をした場合の例を示す図である。図８において、ユーザは、「行きたい」という質問事項を画像関連情報とともに送信したとする。この場合、情報処理システム１は、○○タワーまでの経路情報を出力する。出力する地理的情報は、住所ではなく、このように経路情報を出力するようにしてもよい。「行きたい」という質問がされた場合には、対話応答部３１１は、どこであるか、という質問であると分類し、例えば、経路探索情報を出力する。

なお、どこであるかという同じ質問項目であると分類された場合においても、例えば、「ここはどこ？」と質問された場合には、住所を出力し、「行きたい」「どうやっていくの？」等と質問された場合には、探索された経路情報を出力するようにしてもよい。このように、同じ質問の分類においてもその質問の内容を別途判断し、おのおの別の回答を出力することもできる。

さらに、ＢＯＴの対話２５０２とともに、連携する別のアプリケーション等に誘導するようにしてもよい。例えば、図８に示すように、連携するアプリケーションを起動する連携アプリケーション起動ボタン２５０７を表示する。この連携アプリケーション起動ボタン２５０７がユーザにより選択されると、例えば、探索条件として、出発地が現在地であり、目的地が当該ＰＯＩであるように指定された連携アプリケーションが起動し、経路探索結果を出力する。情報処理システム１がウェブブラウザ上で動作している場合には、当該経路情報を探索するウェブサイトへのリンクを張るようにしてもよい。

起動するアプリケーションは、例えば、歩行者用のアプリケーションであってもよいし、自動車用のアプリケーションであってもよいし、バイク用、自転車用等のその他のアプリケーションであってもよい。さらに、連携アプリケーション起動ボタン２５０７が選択された後に、経路情報として地図を表示するとともに、目的地までの音声ガイダンスが利用可能となるようにしてもよい。

また、経路情報の示し方はこれらには限られず、地図を出力部２５内に表示するようにしてもよい。表示された地図は、ピンチアウトやピンチインにより拡大、縮小するようにしてもよい。また、表示された地図を選択することにより、詳細な経路情報が表示されるようにしてもよい。他の例としては、情報処理システム１が経路探索アプリケーションとして動作してもよく、現在地からＰＯＩまでの経路情報を情報処理システム１が探索し、出力部２５内に当該経路情報をリスト表示するようにしてもよい。ユーザがリスト内の情報を選択することにより、詳細な経路探索情報が表示されるようにしてもよい。

示された経路情報に関する移動手段が、予約可能な移動手段である場合、これらを予約するシステムと連携してもよい。例えば、経路情報中に指定席を予約可能な移動手段が備えられている場合、この指定席の予約ができるようにしてもよい。この場合、このような移動手段がある場合に、対話応答部３１１が、「予約しますか？」といった質問を端末装置２へと送信し、出力部２５から出力されるようにし、ユーザから「予約する」という応答があった場合には、指定席の予約システムに接続し、予約をできるようにする。

これは、移動手段に限られたものではなく、宿泊施設、飲食店、イベント、映画、テーマパーク等のその他の施設に関する予約を受け付けるようにしてもよい。例えば、ＰＯＩ等の画像検索が行われた後に、当該ＰＯＩ周辺の宿泊施設の予約をするか否かを質問するようにしてもよい。画像がテーマパークの中にあるものであった場合には、当該テーマパークの入場券等を予約できるようにしてもよい。移動手段の出発時刻若しくは到着時刻等、又は、イベントの開催時刻等の時刻が決まっているものに対しては、当該時刻も指定して予約できるようにしてもよい。なお、これらの予約手段は、情報処理システム１内で閉じているものには限られず、他のアプリケーション等を起動するようにしてもよい。

以下、質問例と回答例について記載する。なお、以下の記載は例として示すものであり、この他の質問及び回答を用意することも可能である。なお、いずれの場合においても、地理的情報とともに出力されるようにしてもよい。

＜分類：何であるか＞
「これは何？」「ここは何？」「何の写真？」に対しては、「これは○○タワーではないでしょうか」と回答する。「これは何をするところ？」「ここでは何ができるの？」に対しては、「ここでは○○タワーを見ることができます」「○○タワーの展望台から景色を眺めることができます」「○○タワーを歩いて上ることができます」と回答する。「ここは何が見所ですか？」に対しては、「○○タワーからは、○○地区を一望することができ、眺めが素晴らしいです」と回答する。「この塔はなに？」に対しては、「これは○○タワーです。観光地としてとても人気があります」と回答する。

＜分類：どこであるか＞
「ここはどこ？」に対しては、「これは○○タワーで、○○駅から徒歩５分です」と回答する。「これはどこにあるの？」に対しては、「東京都○○区にあります。最寄り駅は○○駅です」と回答する。「これに似た別のスポットはある？」に対しては、「○○ツリーが○○タワーから鉄道で約２０分の場所にあります」と回答する。

＜分類：どのくらいか＞
「どうやっていくの？」に対しては、連携するナビゲーションに関するアプリケーションを起動することを勧める回答をするか、「経路情報は、・・・」「○○タワーまでご案内をしますか？」等の回答をして経路探索結果を出力するようにする。「どのくらい人気があるの？」に対しては、「○○タワーには多くの観光客が訪れますよ」と回答する。「入場料は？」に対しては、「○○タワーは入場無料です。展望台に上がる料金は、８００円になります」と回答する。「どのくらい時間がかかる？」に対しては、「○○タワーへは、現在地から鉄道と徒歩で１５分程度かかります」と回答する。「高さはどのくらい？」に対しては、「○○タワーは、地上からｘｘｘメートルの高さがあります」と回答する。

＜分類：どう思う＞
「この写真についてどう思う？」に対しては、「これは○○タワーではないでしょうか」「○○タワーの写真は思い出にのこりますよね」「○○タワーの写真はＳＮＳで人気があります！」と回答する。

また、分類に関しても上述した４つに限られず、例えば、以下の３つの分類をさらに加えてもよい。

＜分類：Ｙｅｓ／Ｎｏ＞
「ここは人気があるの？」に対しては、「○○タワーは○○地区に訪れた観光客のほとんどの方が訪問します」と回答する。「ここはおすすめですか？」に対しては、「○○タワーは観光客の方にはオススメです」と回答する。

＜分類：どちら＞
複数枚の画像に対して質問を行ってもよい。例えば、２枚の写真を提示すると、このような質問も考えられる。この場合、「どちらがオススメですか？」に対しては、「○○タワーと○○ツリーですか？どちらもオススメです」「○○タワーは古くから根強い人気があるのでオススメです。○○ツリーは○○タワーより高いので展望台の眺めは○○ツリーの方がオススメです」と回答する。

＜分類：なぜ＞
「なぜここの人気が高いのですか？」に対しては、「○○タワーは古くからあるテレビ塔で○○地区の人の生活を支えてきたからです」「○○タワーは都心部にあり、気軽に展望台からの景色を眺めることができるからではないでしょうか」と回答する。

このように、様々な質問に対して、回答を用意しておいてもよい。回答は、学習されたモデルに基づいて生成されるものであってもよい。

質問の内容が読み取れなかった（ＢＯＴが質問内容を判断できなかった）ときは、ＢＯＴは、「もう一度、別の表現で質問をお願いします」等とユーザに促して、別の表現の質問を受け付けるようにしてもよい。別の表現の質問において回答が可能である場合、前の質問の内容が、別の表現の質問であるようにモデルに学習させるようにしてもよい。さらに、連続（例えば、５回連続）で質問の内容が判断できなかった場合には、出力部２５に質問項目をリストで表示し、ユーザに選択させるようにしてもよい。

上述では、これらの分類は対話応答部３１１が実行するものであるとしたが、これには限られず、端末装置２側で行ってもよい。例えば、画像関連情報受付部２１２が質問を併せて受け付けた場合に、画像関連情報受付部２１２において質問の分類をするようにしてもよい。この場合、質問の分類及び判断するためのモデルは、記憶部２３に記憶されていてもよい。分類及び判断された質問は、通信部２２を介してサーバ３へと送信される。

以上のように、本実施形態によれば、対話中において画像関連情報とともに、当該画像において特徴を有している情報のうち、どのような情報を望んでいるかをユーザ自らが明示的に示すことにより、望んでいる情報をユーザに提示することが可能となる。このようにすることにより、ユーザビリティをさらに向上することができる。

なお、画像中で特徴を表す部分がＰＯＩだけであるとは限られない。図９乃至図１１は、ＰＯＩではなく対象物についての画像関連情報を送信する場合における本実施形態の適用例を示すものである。

図９は、景色の画像ではなく、飲食物の画像を送付する一例である。ユーザが画像２５０１に関する画像関連情報と併せて「これなに？」という質問をした場合の対話が示されている。対象物が土地の名産品であったり、名物であったりする場合、ＢＯＴは、対話２５０２にあるように、地理的情報として、どこの名産品であるか、どこで購入することが可能か、その住所はどこであるか等の地理的情報を出力する。さらに、当該対象物を購入することが可能な店舗の時間的情報（営業時間）や、当該対象物の料金情報を併せて出力してもよい。

図１０は、画像中に存在する物が対象物である場合についての別の例を示す図である。この図１０に示すように、例えば、飲食物の画像に対して、ユーザは、「買いたい」という質問事項を付与して探索を行うこともできる。この場合、例えば、対話２５０２に示すように、当該飲食物の名称とともに、当該飲食物を販売している場所をリストにして表示する。このリストを選択することにより、さらに各販売場所の詳細情報、例えば、現在地からの経路情報その他の地理的情報、営業時間、料金等の情報を表示させてもよい。

図１１は、名産品等ではなく、一般的な対象物の画像を入力した場合のＢＯＴの回答例である。例えば、ユーザが「ざるそば」の画像を入力した場合、日本においてざるそばは一般的な飲食物であるので、これを食べる場所は、特定の地域や特定の店舗に限られるものではない。

一般的に流通しているものについての画像が入力された場合、例えば、現在地付近で当該ものが入手可能、飲食可能又は見ることが可能な場所を回答する。図１０の例であれば、現在地付近で当該飲食物を食べることができる店舗の情報を対話２５０２において出力する。一般的な対象物を受け付けた場合、ＢＯＴが回答する店舗等の地域を所定の地域内、例えば、現在地と同一都道府県内等に限定して回答を行ってもよい。または、ユーザが出力する地域について、どの程度の領域に限定するかを事前に指定しておくようにしてもよい。例えば、ユーザが関東圏の情報を望んでいる場合に、関東圏の情報を出力するようにすることもできる。

これは、対象物だけには限られず、アクティビティ、イベント等の情報が入力された場合には、その体験できる場所を回答するようにしてもよい。例えば、祭りであれば、その祭りが開催される場所（及び／又は時間的情報）を回答してもよい。アクティビティであれば、そのアクティビティを実際に体験できる場所（及び／又は時間的情報）を回答してもよい。入力されるアクティビティの情報とは、例えば、ラフティングをしている画像等のスポーツに関する画像であってもよいし、ガラス工芸の体験等の工芸に関する画像であってもよい。スポーツの画像の場合は、当該スポーツを観戦できる場所に関する情報を併せて回答してもよい。

このように、ＰＯＩでもなく、名産品でもないようなものの情報を受け付けて、それに対する回答を行うようにしてもよい。このようにすることにより、名物であるか否かをユーザが判断すること無く、ユーザの望んでいる情報を出力することが可能となり、ユーザビリティの向上を図ることが可能となる。

（第３実施形態）
上述した各実施形態においては、対話中において画像を受け付ける情報処理システム１について説明したが、ユーザが画像及び質問を入力した後のやりとりは、ＢＯＴからの一方的な出力であった。以下の実施形態においては、これには限られず、この後も対話ができるようにしようとするものである。

図１２は、本実施形態に係る情報処理システム１の処理の流れを示すフローチャートである。端末装置２のステップＳ１１１までの処理及びサーバ３のステップＳ２１４までの処理については、上述した各実施形態と同様である。本実施形態に係る情報処理システム１は、さらに、ユーザに回答をした後に、ユーザが選択肢を選択することにより質問を受け付ける。

対話部２１１は、サーバ３からの情報に基づいて画像に対する回答をした後、質問項目を選択肢として表示し、ユーザに選択をするように促す。図１３は、質問の選択肢を表示する例を示す図である。

この図１３に示すように、回答に対するユーザの質問を質問選択肢２５０８として表示する。画像に写っているものがＰＯＩである場合、「行き方を教えて」「時間を教えて」「料金を教えて」と言った選択肢が出力部２５に表示される。ユーザが選択肢を選択すると、対話部２１１は、当該選択肢の内容をサーバ３へと送信する。ＰＯＩ情報取得部３１３又は対象物情報取得部３１４は、各データベースから質問内容の回答を取得し、対話応答部３１１を介して端末装置２へと回答を送信し、対話部２１１及び情報出力部２１３は、出力部２５から回答を出力する。

例えば、「行き方を教えて」という選択肢が選択された場合の回答は、図８の対話２５０２のように出力される。また、図８のような対話を経由せずに、ナビゲーションのアプリケーションを起動するようにしてもよい。この場合も、図８の説明において記載したものと同様に、歩行者用等のアプリケーションを起動し、経路情報を出力する。経路情報と併せて、目的地までの音声ガイダンスを出力するようにしてもよい。他の選択肢を選択した際にも、その質問の回答として適切な情報が出力される。

なお、選択肢の情報をサーバ３へ送信すること無く処理してもよい。例えば、サーバ３は、選択肢にある質問の回答を最初の画像関連情報を受信したタイミングにおいて抽出し、選択肢に対する回答も名称等を回答するタイミングにおいて端末装置２へと送信する。そして、対話部２１１により、質問の選択肢に対する回答が準備され、情報出力部２１３が出力部２５へと表示する。このようにすることにより、一時的に端末装置２のネットワークが切断された場合等にも、ユーザへ回答を示すことが可能となる。

ＰＯＩではなく、対象物に関しても同様に処理を行うことができる。図１４は、ＰＯＩではない対象物に関する本実施形態に係る情報処理システム１の出力部２５の表示例を示す図である。

例えば、ざるそばの画像関連情報を受け付けた場合、対話２５０２のように、人気の高い店舗と住所等の地理的情報が出力される。それに対する質問選択肢２５０９として、「行き方を教えて」「他のお店を教えて」等の選択肢が表示される。このように、一般的に流通するものの場合には、出力した情報のみならず、他の店舗等の情報の出力を促すような選択肢を表示することもできる。このように、画像から抽出された特徴物の属性に対応して選択肢が表示されるようにしてもよい。上記のように、特徴物がＰＯＩである場合には、その行き方、時間等の情報を、特徴物が対象物である場合には、それを購入、飲食できる場所への行き方、店舗等の情報を出力するようにしてもよい。

具体的な選択肢の内容としては、上述したように、「行き方を教えて」「時間を教えて」等があるが、質問以外の要望を選択するようにしてもよく、例えば、「地図を表示する」「情報が間違っているよ」「関連記事を検索する」等の選択肢が表示されるようにしてもよい。

さらに、これらの選択肢を選択した後に、対話が継続され、当該継続された対話に対してさらに質問の選択肢を表示するようにしてもよい。

以上のように、本実施形態によれば、画像関連情報をユーザが入力した後に、選択肢により質問を行うことにより、ＢＯＴとの対話を継続することが可能である。このようにすることにより、ユーザは、入力した画像に対して、ユーザが望む情報を明示的にＢＯＴに回答させることが可能となる。

（第４実施形態）
上述した第３実施形態では、ユーザは、情報処理システム１が用意した選択肢により質問を行うこととしたが、これには限られず、ユーザが自由に質問を対話形式で行うようにしてもよい。本実施形態に係る情報処理システム１は、画像関連情報を受け付けた後に、ユーザからの自由な形式の質問を受け付けることを特徴とする。

図１５は、本実施形態に係る情報処理システム１の処理の流れを示すフローチャートである。端末装置２のステップＳ１１１までの処理及びサーバ３のステップＳ２１４までの処理については、上述した各実施形態と同様である。本実施形態に係る情報処理システム１は、さらに、ユーザに回答をした後に、ユーザの自由な入力により質問を受け付ける。

端末装置２において取得した情報の出力がされた（ステップＳ１１１）後、端末装置２の対話部２１１は、ユーザからの質問の受け付け待ち状態へと移行する。対話部２１１は、ユーザから質問事項が入力された場合、当該質問事項を受け付け、サーバ３へと送信する（ステップＳ１１４）。

質問を受信した対話応答部３１１は、質問内容の抽出を行う（ステップＳ２１６）。質問内容は、前述した第２実施形態において例示したものと同等のものである。これらの質問内容を第２実施形態と同様の方法により分類及び判断を行う。

質問内容が分類及び判断された後、ＰＯＩ情報取得部３１３又は対象物情報取得部３１４は、各データベースから回答の抽出を行い、通信部３３を介して端末装置２へと送信する（ステップＳ２１７）。なお、この際、対話応答部３１１において、抽出した回答を対話形式に変換してから端末装置２へと送信してもよい。

質問に対する回答を受信した対話部２１１は、情報出力部２１３を介して出力部２５へと質問の回答を出力する（ステップＳ１１５）。なお、回答の出力が終了した後に再度ユーザの質問の受け付け状態へと移行してもよい。このように、対話中に画像関連情報を受け付け、その回答に対してさらに質問を行うようにすることができる。

図１６は、本実施形態に係る情報処理システム１の出力例を示す図である。この図において、端末装置２は、まず、○○タワーの画像関連情報を受け付け、サーバ３を介して画像中のＰＯＩの名称である「○○タワー」と、地理的情報としてその住所を対話２５０２において出力する。

それに対して、ユーザが対話形式のユーザインターフェース中の入力ウィンドウ２５１０を介して「ここに行きたい」という質問を入力する。この質問は、対話部２１１により受け付けられ、サーバ３へと送信される。

サーバ３は、受信した質問に対する回答に関する情報を取得し、当該回答を端末装置２へと送信する。端末装置２は、出力部２５へと当該回答を出力する。例えば、図に示されるように、「○○タワーへの案内を開始します」等と回答がされ、経路案内が開始される。この際、図８に示すように、連携するアプリケーションへと誘導するボタン等を表示するようにしてもよい。

以上のように、本実施形態によれば、ユーザが入力した画像関連情報に関する情報に対して、さらにユーザが質問することが可能となり、対話形式でユーザへと案内情報等を出力することが可能となる。このように対話形式で質問を行うことにより、ユーザは、あたかも人間同士で話しているように、より違和感なく、情報を取得することが可能となる。なお、図１６においてはＰＯＩに関する説明をしたが、これはＰＯＩには限られず、飲食物や土産物等の対象物であっても同じように質問を受け付けることができる。

（変形例１）
図１７は、画像中に二つの特徴あるものが写っている場合を示す図である。この場合、情報処理システム１は、当該二つのものに関する情報を出力するようにしてもよい。すなわち、「ざるそば」に関連する情報と、「○×クッキー」に関連する情報とを併せて表示するようにしてもよい。このように複数のものが画像中に存在する場合に、特徴的な各ものに対して、各々情報を出力するようにしてもよい。

別の例としては、ユーザが複数のものの中から明示的にどのものについての情報を望んでいるのかを選択するようにしてもよい。すなわち、ユーザが、表示された画像中のどの部分が知りたい情報を含む部分であるかというＲＯＩ（Region of Interest）を設定できるようにする。

ＲＯＩは、例えば、図１７に示すように画像内をユーザがドラッグすることにより選択される。ユーザが画像内をドラッグすると、ドラッグした線分を対角線とした矩形状のＲＯＩが設定される。別の例としては、情報が欲しいものの領域をユーザがクリック又はタップすると、その「もの」について端末装置２が画像をスキャンすることにより、自動的にＲＯＩを設定するようにしてもよい。これは、一例として、スネーク処理やクラスタリング処理を用いて行われる。

ＲＯＩの選択には限られず、文字入力又は音声入力により指定できるようにしてもよい。例えば、「ざるそば」と「○×クッキー」の両方が特徴物の候補として抽出された場合、「右上にあるもの」と文字又は音声により入力すると「○×クッキー」についての情報を出力するようにしてもよい。別の例としては、「ざるそばのとなりにあるもの」等といった情報を入力として受け付けるようにしてもよい。

別の例として、「ざるそば」だけが特徴物の候補として抽出された場合には、「その右にあるもの」等と文字又は音声により入力された場合に、「○×クッキー」についての情報を出力するようにしてもよい。抽出物の表示部２５０における位置の設定は、これらには限られず、そのＲＯＩ又は抽出物のある位置を文字又は音声で一意的に指定できる情報が入力された場合に行えるようにしてもよい。

ＲＯＩが設定された場合、サーバ３は、当該ＲＯＩ内の画像について、ＰＯＩ又は対象物を抽出し、当該ＰＯＩ又は当該対象物の情報を抽出し、端末装置２へと出力する。端末装置２は、受信した情報をユーザへと出力することにより、望んでいる情報を閲覧することが可能となる。

以上のように、複数のものが写った画像である場合も、適切にユーザが望んでいる情報を出力することも可能である。

（変形例２）
図１８は、さらに別の例である。画像情報は、視覚に訴えるものであり、直感的に情報が知覚できるため、現地の言語が分からないユーザに使用されることが考えられる。そのため、情報処理システム１がローカライズされている場所と異なる言語で回答することをユーザが望んでいることがある。

このような場合、図１８に示すように、日本語でローカライズされている情報処理システム１であるが、英語で回答を出力するようにしてもよい。この出力言語の変更は、あらかじめユーザが指定してもよいし、又は、端末装置２において標準的に使用されている言語に基づいて設定されていてもよい。

別の例としては、図１８に示すように、画像関連情報とともに入力された質問文が「Ｗｈａｔ？」と英語でされている場合に、その質問に関する回答を英語でするようにしてもよい。このように自動判別されるように設定することにより、複数のユーザが使用する場合にも各ユーザに併せて自動的に理解できる言語へと変換することも可能となる。

さらには、言語指定メニュー２５３０のようにユーザが明示的にその場で指定できるようにしてもいてもよい。言語指定メニュー２５３０は、例えば、プルダウンメニューや、ラジオボタンにより実装される。

以上のように、情報処理システム１は、多言語で実装されていてもよい。この場合、対話中の言語を自動判別して、回答を当該自動判別した言語で出力するようにしてもよいし、ユーザが明示的に使用する言語を設定できるようにしてもよい。このような場合においても、画像に関する情報と地理的情報とを併せて出力することにより、様々な言語で画像中に写っているものの地理的情報を含む情報をユーザに対して出力することが可能となる。例えば、ウェブサイトを閲覧中に、言語が理解できずに名前の情報等が取得できない場合において、画像情報からその画像中に写っているものの検索を行うことを可能とする本変形例に係る情報処理システム１は有効である。

（変形例３）
前述した実施形態及び変形例においては、料金情報として、例えば、移動手段に関する料金又は入場料等の料金を別々に表示するものであったが、料金情報の例としては、この限りではない。例えば、移動に関する料金と、入場料等の料金とを合算し、総コスト情報として出力するようにしてもよい。

特徴物がＰＯＩである場合には、当該ＰＯＩまでの移動経路に沿った料金と入場料とを合算して出力する。候補が複数にわたる場合、例えば、移動経路が複数にわたる場合、それぞれの移動経路について料金を算出し、総コストを一覧表示するようにしてユーザが比較可能な態様で出力するようにしてもよい。

例えば、「総コスト：１２００円（移動４５０円、入場料７５０円）」等と表示する。複数の移動経路の候補がある場合には、複数の候補について、このように表示し、複数表示された候補をユーザが選択することにより移動経路を示すようにしてもよい。

また、クーポン等で入場料が安くなる場合には、上記の表示に加え、「クーポン利用で割引１０％」「事前予約で２００円引」等と表示し、当該表示を選択することにより、クーポンを表示したり、事前予約可能なサイトへと誘導するようにしたりしてもよい。これらクーポンや事前予約の料金も、上述のように総コストとして表示するようにしてもよい。

特徴物が対象物である場合には、当該対象物を買うことができる店舗、飲食できる店舗等に対して、総コストを表示するようにしてもよい。この場合、ＰＯＩと異なり、複数の場所が検索される可能性が高い。そのため、複数の地点を一覧表示として表示してもよい。さらに、総コストに加え、移動時間等の情報も併せて、「１２００円（移動４５０円、代金７５０円）、３０分」等とわかりやすく表示してもよい。

一覧表示をする際には、総コスト順にソートして表示するようにしてもよいし、移動時間順、到着時間順若しくは乗換回数順等にソートして表示するようにしてもよいし、又は、口コミ等による人気のある順番にソートして表示するようにしてもよい。

以上のように、総コストを表示することにより、ユーザが望んでいる情報についての詳細をわかりやすく出力することが可能となる。特に、複数の候補がある場合に、ユーザがどの経路又はどの店舗等の施設に行くかを選択することが可能となるため、ユーザの意思をより反映するような選択の幅を持った出力をすることが可能となる。

（変形例４）
前述した実施形態及び変形例においては、特徴物の判断は、検索された類似画像のタグ等の情報から抽出するものであったが、タグ等の情報から直接的に抽出するのではなく、タグ等の情報からキーフレーズとなる情報を取得して抽出するようにしてもよい。

例えば、ＰＯＩ情報データベース３２２及び対象物情報データベース３２３に、キーフレーズの情報をそれぞれのＰＯＩ及び対象物に対して設定しておき、画像のタグ等の情報から取得したキーフレーズに基づいて、ＰＯＩ又は対象物を検索するようにしてもよい。１つのキーフレーズからの抽出が困難である場合には、例えば、画像データの周辺にある文章等からキーフレーズを取得するようにしてもよい。

キーフレーズとしては、例えば、場所に関する情報、季節に関する情報、又は、特徴物に関する情報等の情報が含まれる。例えば、「東京にある日本で一番高い建造物」とタグ情報にあった場合、「東京にある」「日本で一番高い建造物」と言ったキーフレーズを取得し、これらのキーフレーズを検索キーとして各種データベースからＰＯＩ又は対象物の情報を抽出する。

別の例としては、「春は桜、秋は紅葉が素晴らしい舞台で有名な坂道の上にある京都の名所」等の情報であれば、地理的情報である「京都の名所」、時間的情報である「春は桜、秋は紅葉」、そして、特徴を示す情報である「舞台」「坂道の上にある」等をキーフレーズとして取得して、データベースから情報を抽出する。

これらのキーフレーズに基づく情報の抽出は、所謂シソーラス検索等に基づいて行ってもよい。例えば、教師付学習で学習を終えたニューラルネットワークモデル等に基づいて、データベースから情報を抽出できるようにしておいてもよい。その他のあいまい検索等の手法を用いて情報を抽出するようにしてもよい。

以上のように、全ての情報を画像のタグ等の情報に頼るのではなく、サーバ３内の各種データベースにキーフレーズを設定しておき、このキーフレーズをキーとして検索するようにしてもよい。

（変形例５）
前述した実施形態及び変形例においては、ユーザから取得した画像データに基づいてユーザへと情報を出力することについて説明した。これらのユーザから取得した画像データをサーバ３のデータベースへとログとして保持するようにしてもよい。

前述の実施形態又は変形例の手法を用いて出力した特徴物の情報について、ユーザから質問又は指摘（間違っているよ等の指摘）があった場合には、これらの情報もフィードバック情報としてユーザが入力した画像情報と紐付けて保持するようにしてもよい。

ユーザから質問があった場合は、当該画像情報に対して、このような質問がされた、という情報をログとして記録する。ログを記録することにより、入力された画像に写っている特徴物に対して、どのような質問が多くされているかを記録することができる。

ログを分析し、同一又は類似の特徴物に対して同じような質問が繰り返しされるような場合には、その質問に対する回答としてより詳しい情報をあらかじめ取得しておくことにより、同じ特徴物の画像が入力された場合に、ユーザの満足度を向上できる可能性がある。

また、ユーザから情報が間違っている等の指摘があった場合には、当該情報を見直して新たな情報を取得し、書き換えるようにしてもよい。このようにフィードバックを受け入れることにより、情報の正確性を向上することが可能となる。

また、このようなデータベースの充実には限られず、ユーザの動向を分析することも可能となる。この分析を行うことにより、多数のユーザが望んでいるような特徴物についてさらに詳細な情報をあらかじめ多く取得しておくことにより、ユーザの満足度を向上することが可能となる。この場合、情報処理システム１にライトモードとマニアックモード等を選択できるようにしてもよい。

すなわち、多くの情報が集まっているＰＯＩ又は対象物の場合、多くの人が訪れる或いは多くの人が興味を引くＰＯＩ又は対象物である可能性が高いので、そのようなＰＯＩ又は対象物は、ライトユーザ又は一般的なユーザに向けて出力するようにしてもよい。

一方で、あまりログが記録されておらず、情報が多く集まっていないＰＯＩ又は対象物の場合、マニアックなものである場合がある。例えば、有名な観光地等で複数回同じ土地を訪れるユーザ等、このような情報を欲しているユーザも一定数いると考えられる。ユーザが投稿した情報に関するログからデータベースに情報を読み込んでおくことにより、このようなユーザが欲している情報を出力できるようにあらかじめ情報を取得しておくようにしてもよい。

上記は、ユーザの入力等をサーバ３にログとして記録し、不特定多数のユーザの動向を記録したり分析したりする場合について説明したが、これには限られない。このログの情報を端末装置２の記録部２３に記録するようにしてもよい。端末装置２にユーザの入力画像等に関するログを記録しておくことにより、当該端末装置２を操作するユーザについて固有のログを取得することが可能となる。

このようなログを取得し、このログを分析することにより、当該ユーザの動向等を把握することが可能となり、当該ユーザに対して有用な情報を出力することが可能となる。例えば、当該ユーザが神社の画像をよく入力する場合には、特徴物として複数の候補がある場合に、神社の候補を一覧表示の上の方に表示するようにしてもよい。例えば、特徴物が飲食物であったり、伝統工芸品であったりする場合にも同様に対応することができる。なお、これらには限られず、同一又は類似のジャンルに関する情報を多く出力してもよいし、同じような検索をした別の人が他にどのような検索をしているかをサーバ３から読み取り、当該ユーザに出力するようにしてもよい。

以上のように、ユーザが入力した画像、或いは、当該画像に関する質問等のログを取得することにより、ユーザの動向を把握したり、分析したりすることが可能となる。このようなログに基づいて出力する情報を制御することにより、ユーザの満足度をさらに向上することが可能となる。

上述した実施形態で説明した情報処理システムの少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、情報処理システムの少なくとも一部の機能を実現するプログラムをフレキシブルディスクやＣＤ−ＲＯＭ等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等着脱可能なものに限定されず、ハードディスク装置やメモリなど固定型の記録媒体でもよい。

また、情報処理システムの少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線（無線通信も含む）を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調を掛けたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、或いは記録媒体に収納して頒布してもよい。

さらに、１つ又は複数の情報処理装置によって情報処理システムを機能させてもよい。複数の情報処理装置を用いる場合、情報処理装置のうち１つをコンピュータとし、当該コンピュータが所定のプログラムを実行することにより情報処理システムの少なくとも１つの手段として機能が実現されてもよい。

上記の記載に基づいて、当業者であれば、本発明の追加や効果や種々の変形を想到できるかもしれないが、本発明の態様は、上述した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更及び部分的削除が可能である。

１情報処理システム
２端末装置
２１制御部
２１１対話部
２１２画像関連情受付部
２１３情報出力部
３サーバ
３１制御部
３１１対話応答部
３１２画像取得部
３１３ＰＯＩ情報取得部
３１４対象物情報取得部
３２記憶部
３２１画像情報データベース
３２２ＰＯＩ情報データベース
３２３対象物情報データベース

Claims

画像に関する情報を対話形式でユーザから受け付ける、受付手段と、
受け付けられた前記画像に関連するＰＯＩの情報及び／又は前記画像に含まれる対象物の情報を取得する、情報取得手段と、
前記ＰＯＩ及び／又は前記対象物に関連する地理的情報を出力する、出力手段と、
を備える情報処理システム。
前記受付手段は、ユーザから前記画像に関する情報とともに、前記画像に関する質問を受け付け、
前記出力手段は、前記ＰＯＩ及び／又は前記対象物に関連する情報と併せて、前記質問の回答を出力する、
請求項１に記載の情報処理システム。
前記出力手段が前記地理的情報を出力した後に、前記受付手段は、前記ＰＯＩ及び／又は前記対象物に関連する質問を受け付ける、請求項１又は請求項２に記載の情報処理システム。
前記出力手段は、前記情報取得手段が前記ＰＯＩの情報を取得した場合に、前記地理的情報として、前記ＰＯＩの所在地情報、前記ＰＯＩまでの経路情報及び前記ＰＯＩまでの移動コスト情報のうち少なくとも１つを出力し、
前記情報取得手段が前記対象物の情報を取得した場合に、前記地理的情報として、前記対象物を入手可能である場所の情報を出力する、
請求項１乃至請求項３のいずれかに記載の情報処理システム。
前記出力手段は、前記ＰＯＩ及び／又は前記対象物に関連する時間的情報及び前記ＰＯＩ及び／又は前記対象物に関連する料金情報のうち少なくとも１つを前記地理的情報と併せて出力する、請求項４に記載の情報処理システム。
前記出力手段は、前記地理的情報とともに、ユーザへ提示する質問選択肢を出力し、
前記受付手段は、前記ユーザインターフェースを介して前記質問選択肢に対する選択を受け付ける、請求項１乃至請求項５のいずれかに記載の情報処理システム。
コンピュータを、
画像に関する情報を対話形式でユーザから受け付ける、受付手段、
受け付けられた前記画像に関連するＰＯＩの地理的情報及び／又は前記画像に含まれる対象物に関連する地理的情報を出力する、出力手段、
として機能させる情報処理プログラム。
コンピュータを、
対話形式でユーザから受け付けた画像に関連するＰＯＩの情報及び／又は前記画像に含まれる対象物の情報を取得する、情報取得手段、
前記ＰＯＩ及び／又は前記対象物に関連する地理的情報を出力する、出力手段、
として機能させる情報処理プログラム。
通信可能に接続された複数のコンピュータによって構成される情報処理システムであって、
画像に関する情報を対話形式でユーザから受け付ける、受付手段と、
受け付けられた前記画像に関連するＰＯＩの情報及び／又は前記画像に含まれる対象物の情報を取得する、情報取得手段と、
前記ＰＯＩ及び／又は前記対象物に関連する地理的情報を出力する、出力手段と、
を備えて情報処理システムを機能させるために、上記コンピュータの少なくとも１つを上位手段の少なくとも１つとして機能させる情報処理プログラム。
通信可能に接続された複数のコンピュータによって、請求項１乃至請求項６のいずれかに記載の情報処理システムを機能させるために、
上記コンピュータのうち１つを請求項１乃至請求項６のいずれかに記載の情報処理システムにおける各手段の少なくとも１つとして機能させる情報処理プログラム。
コンピュータを、請求項１乃至請求項６のいずれかに記載の情報処理システムにおける各手段の少なくとも１つとして機能させる情報処理プログラム。
通信可能に接続された複数の情報処理装置によって、
画像に関する情報を対話形式でユーザから受け付ける、受付手段と、
受け付けられた前記画像に関連するＰＯＩの情報及び／又は前記画像に含まれる対象物の情報を取得する、情報取得手段と、
前記ＰＯＩ及び／又は前記対象物に関連する地理的情報を出力する、出力手段と、
を備えた情報処理システムを構成するために、上記手段の少なくとも１つを備える情報処理装置。
コンピュータを、
画像に関する情報を対話形式でユーザから受け付ける、受付手段、
受け付けられた前記画像に関連するＰＯＩの情報及び／又は前記画像に含まれる対象物の情報を取得する、情報取得手段、及び、
前記ＰＯＩ及び／又は前記対象物に関連する地理的情報を出力する、出力手段、
として機能させるための情報処理プログラム。
受付手段が、画像に関する情報を対話形式でユーザから受け付けるステップ
画像取得手段が、受け付けられた前記画像に関連するＰＯＩの情報及び／又は前記画像に含まれる対象物の情報を取得するステップ、
出力手段が、前記ＰＯＩ及び／又は前記対象物に関連する地理的情報を出力するステップ、
を備える情報処理方法。