以下、本発明の実施形態について、図面を参照しながら具体的に説明する。なお、各図において同等の機能を有する構成要素には同一の符号を付し、同一符号の構成要素の詳しい説明は繰り返さない。
(第1実施形態)
本実施形態に係る情報処理システム1は、例えば、ユーザが画像に関連する情報(以下、画像関連情報という)を入力した場合に当該画像に関連する地理的な情報を出力する。当該地理的情報には、他の情報が付加されていてもよい。
図1は、本実施形態に係る情報処理システム1の概略的な構成を示すブロック図である。この図1に示すように、情報処理システム1は、端末装置2と、サーバ3とを備えている。端末装置2とサーバ3とは、インターネット等のネットワーク4を介して互いに通信可能に接続されている。ネットワーク4は、有線回線及び無線回線のいずれでもよく、回線の種類や形態は問わない。
端末装置2は、ユーザが使用するものであり、例えば、携帯電話、スマートホン、パソコン、タブレット端末等の情報処理端末である。この端末装置2は、制御部21と、通信部22と、記憶部23と、入力部24と、出力部25とを備えている。なお、端末装置2は、GPS(Global Positioning System)やWi−Fi(登録商標)測位などにより、端末装置2の現在位置を測位する測位手段(図示しない)を備えていてもよい。
ユーザの位置情報等に関する情報をサーバ3へと送信するか否かは、当該対話を開始する前に設定するようにしてもよいし、当該対話を行うアプリケーションのインストール時、又は、初期設定時にオプトイン又はオプトアウトにより設定するようにしてもよい。また、送信する画像関連情報ごとに現在位置の送信の可/付加をユーザに選択させるようにしてもよい。当該情報を送信する場合、サーバ3内に当該情報を記憶してもよいか否かについても同様に選択できるようにしてもよい。不可である場合、サーバ3には当該情報の送信又は記憶をしないようにする。このようにすることによりユーザの個人情報を保護することができる一方で、情報を望んでいるユーザにはより適した情報を提供することが可能となる。
制御部21は、ユーザとの対話を行う対話部211と、対話中においてユーザが入力する画像関連情報を受け付ける画像関連情報受付部212と、出力部25を介してユーザへと情報を出力する情報出力部213と、を備える。なお、制御部21の各部は、端末装置2内のプロセッサが所定のプログラムを実行してソフトウェアにより実現されるものであってもよい。
対話部211は、端末装置2又はサーバ3に実装されているBOT(ロボット)とユーザとの対話を制御する。端末装置2にBOTが実装されている場合には、対話部211がユーザとの対話処理を行い、記憶部23に記憶されている対話のひな形に当てはめて対話を行う。この際、通信部22を介して必要な情報をサーバ3から取得するようにしてもよい。サーバ3にBOTが実装されている場合には、サーバ3の制御部31から送信される情報を、対話部211が対話形式へと変換してユーザとの対話を行う。
画像情報受付部212は、ユーザとBOTとの対話中において、ユーザが画像関連情報を入力した場合に、当該画像関連情報を受け付ける。画像情報受付部212は、受け付けた当該画像関連情報を、通信部22を介してサーバ3へと送信する。
画像関連情報とは、端末装置2の記憶部23に記憶されている画像情報そのものであってもよいし、ウェブ上に存在する画像を一意的に指定するURI(Uniform Resource Identifier)等の情報であってもよい。さらには、端末装置2にインストールされているSNS(Social Networking Service)等からユーザが共有した情報であってもよい。
情報出力部213は、サーバ3から受信した地理的情報等を映像信号に変換して出力部25を介してユーザへと出力する。また、サーバ3から受信したデータをユーザが見やすくなるように情報出力部213において変換してもよい。なお、情報出力部213は、情報を音声信号へと変換して出力部25へと出力するようにしてもよい。
通信部22は、ネットワーク4を介して制御部21とサーバ3との間で情報を送受信するためのインターフェースである。記憶部23は、制御部21が動作するためのプログラムや制御部21が取り扱うデータ(ユーザ情報や対話データ)を記憶する。入力部24は、ユーザが端末装置2に情報を入出力するためのインターフェースであり、例えば、キーボード、マウス、タッチパネル、ボタン、マイク、ダイヤルボタン等である。
出力部25は、端末装置2からユーザへ各種情報を出力するインターフェースであり、例えば、映像を表示する液晶ディスプレイ等の映像表示手段であり、端末装置2からユーザへ様々な情報を出力する。具体的には、出力部25は、ユーザからの操作を受け付けるためのGUI(Graphical User Interface)や、画像に関連する地理的情報等を表示する。あるいは、出力部25は、画像に関連する地理的情報等を音声で出力するスピーカであってもよいし、ユーザに情報を取得したことを振動により伝えるバイブレータであってもよい。また、入力部24がタッチパネルである場合には、入力部24が出力部25を兼ねていてもよい。
なお、出力部25は、ユーザに情報を直接提示するものでなくてもよい。例えば、出力部25は、端末装置2の外部に接続される映像表示手段や音声出力手段に映像情報や音声情報を出力するものであってもよいし、外部に接続される印刷装置にデータを出力するものであってもよいし、端末装置2内若しくは外部の記憶装置にデータを出力して記憶させるものであってもよい。
次に、サーバ3について説明する。サーバ3は、制御部31と、記憶部32と、ネットワーク4を介して外部と情報を送受信するインターフェースである通信部33とを備えている。
制御部31は、対話応答部311と、画像取得部312と、POI(Point of Interest)情報取得部313と、対象物情報取得部314とを備えている。なお、これらの各部の機能は、サーバ3内のプロセッサが所定のプログラムを実行してソフトウェアにより実現されるものであってもよい。
記憶部32は、画像情報データベース321と、POI情報データベース322と、対象物情報データベース323とを備えている。画像情報データベース321は、取得した画像に写っているものに対して、当該ものと、当該ものの名称等や当該ものに関連する情報等とを紐付けて記憶している。本実施形態において、「もの」とは、建物等を示すPOIと、飲食物や土産物等を示す対象物とを包含した概念である。
この画像情報データベース321には、例えば、画像を入力すると画像に写っているものが何であるかを判断し、当該ものに関連する情報を出力する予測モデルが記憶されている。POI情報データベース322は、様々なPOI(Point Of Interest)に関連する情報が記憶されている。POIに関連する情報は、例えば、POIを識別する情報と、POIの名称を示す情報と、POIの位置を規定する情報と、その他営業時間を示す時間的情報や入場料金等を示す料金情報が含まれていてもよい。対象物情報データベース323は、飲食物や名産品等の対象物と、それに関連する情報とを紐付けて記憶している。
なお、これらのデータベースは、サーバ3内にあるものとは限られない。例えば、外部のファイルサーバ等にこれらのデータベースが存在し、ネットワーク4を介して当該ファイルサーバ等のデータベースを参照する形態であってもよい。
画像取得部312は、ネットワーク4を介して端末装置2から送信された画像関連情報に基づいて、ユーザが指定した画像を取得する。ユーザが端末装置2において記憶部23に記憶されている画像、又は、端末装置2に備えられているカメラによりユーザが撮影した画像を指定した場合、画像関連情報受付部212は、画像関連情報として画像そのもののデータをサーバ3へと送信する。画像取得部312は、画像関連情報受付部212が送信した画像データを受信して、画像情報を取得する。
画像関連情報受付部212が受け付けた画像関連情報が画像のURIである場合、画像取得部312は、受信したURIに基づいてインターネットを介して画像を取得する。画像関連情報受付部212が受け付けた画像関連情報がSNSで共有された情報であった場合、画像取得部312は、当該SNSからの情報に基づいて画像を取得する。当該画像情報へのアクセスが制限されており、クロールができない場合には、端末装置2においてユーザがアクセスした画像データ又は当該画像データのキャッシュ等の情報に基づいて画像を取得するようにしてもよい。また、API(Application Programming Interface)が公開されている場合には、APIを介してサーバ3が内部的に当該ユーザとしてアクセスして画像データを取得するようにしてもよい。
画像関連情報は、上述した例以外のものであってもよく、いずれの場合も、画像取得部312は、画像データを端末装置2から受信するか、又は、ネットワーク4を介して画像データの存在する場所を特定し、画像データを取得する。
POI情報取得部313は、画像情報データベース321及びPOI情報データベース322に記憶されているデータに基づいて、画像取得部312が取得した画像データに写っているPOIの情報と、当該POIに関連する地理的情報等を取得する。そして、取得した地理的情報等を対話応答部311に出力し、対話応答部311は、出力された情報を対話データへと加工して端末装置2に送信する。
対象物情報取得部314は、画像情報データベース321及び対象物情報データベース323に記憶されているデータに基づいて、画像取得部312が取得した画像データに写っている対象物の情報と、当該対象物に関連する地理的情報等を取得する。そして、取得した地理的情報等を対話応答部311へと出力し、対話応答部311は、出力された情報を対話データへと加工して端末装置2へと送信する。
画像取得部312が取得した画像に対して、POI情報を取得するか対象物情報を取得するかは、画像に写っているものに基づいて決定される。例えば、画像中に、塔、神社、仏閣、城郭、ビル、灯台、像、その他の人工物や、山、湖、木、その他の自然物のようなランドマークとなりうるものが特徴を有して写っている場合には、画像の特徴としてそれらの人工物又は自然物をPOIとして抜き出し、POI情報の抽出を行う。
一方、画像中に、例えば、飲食物、土産物、名産品、動物等の物が特徴を有して写っている場合には、画像の特徴としてそれらの物を対象物として抜き出して、対象物情報の抽出を行う。このように、画像中で特徴的な部分を抜き出して、POIであるか対象物であるかを判断する。この判断は、画像取得部312が画像を取得したタイミングで行ってもよい。
なお、POIと対象物の区別をすること無く、当該ものの地理的情報等を取得するようにしてもよい。この場合、POI情報取得部313及び対象物情報取得部314は、同一の構成とすることもでき、併せて、POI情報データベース322及び対象物情報データベース323も同一の構成とすることもできる。このような構成の場合、POI情報と対象物情報とを区別するために、ものの情報にPOIか対象物かを区別するデータを付与しておいてもよい。
次に、本実施形態に係る情報処理システム1の対話例について説明する。図2は、本実施形態に係る情報処理システム1を用いてユーザが対話中において画像関連情報を発言した場合における対話例である。本実施形態に係る情報処理システム1の画像情報受付部212は、図2の例のような対話型のユーザインターフェースを有する。このユーザインターフェースは、例えば、プログラムを用いてソフトウェアにより実装される。なお、図2は一例であり、他の対話型のユーザインターフェースを有していてもよい。
まず、BOTの発言2500にあるように、調べたい物、場所等をユーザに入力するように促す。この発言2500に対しては、通常の対話のように、文字で調べたいもの(例えば、○○タワー)等と入力してもよいし、図2にあるように、画像を入力してもよい。
この発言に対して、ユーザは、調べたい物や場所について対話を行う。対話は、対話型のユーザインターフェース下部にある、入力ウィンドウ2510を介して行われる。ユーザは、発言したい内容をメッセージ入力領域2511に入力して対話を行う。入力が終了した後、発言ボタン2512を選択することにより発言が実行される。
画像関連情報を入力する場合、ユーザは、画像関連情報入力ボタン2513を選択することにより、画像の選択画面へと移行する。移行した画面で必要な画像を選択した後、発言が実行される。例えば、画像2501のような画像をユーザ入力すると、図2に示すように、画像2501が対話型ユーザインターフェース内に表示される。
BOTは、この画像に対して、画像に写っている特徴的なものを予測モデルにより予測し、例えば、画像の中に写っている物が図2に示すようにランドマーク的な塔であった場合は、対話2502にあるように、写っている塔の名称「○○タワー」と、地理的情報(ここでは、住所)とを発言する。この場合、画像中の特徴的な物は建造物であるので、POI情報取得部313により地理的情報等の各種情報が取得される。
図3は、画像中の特徴的な「もの」を抜き出し、その「もの」が何であるかを予測する予測モデルを生成する処理の一例を示すフローチャートである。例えば、機械学習を行うことによりこの予測モデルは生成される。
まず、サーバ3は、学習に必要となる画像データを取得する(ステップS200)。例えば、インターネット等のネットワークを介して取得可能なウェブ上にアップロードされている様々な画像をクロールすることにより取得する。画像を取得する際に、画像に付されているタグの情報も併せて取得する。
例えば、HTML(Hyper Text Markup Language)等で記載されたウェブサイト上にアップロードされている場合、当該HTMLファイル等に記載されているテキストから、名称等を含む情報を抽出するようにしてもよい。当該画像を表示するIMGタグに付されているalt属性の内容を抽出してもよい。画像にExif(Exchangeable image file format)が付加されている場合、当該Exif内のGPS情報に基づいて情報を探索してもよい。
例えば、SNS等でアップロードされている場合、当該SNSにおける投稿内容のうち、当該画像と併せて投稿された文字情報に基づいて取得した画像に写っているものの名称等を取得してもよい。この際、投稿に地理的情報が付されている場合は、当該つぶやきの地理的情報を取得するようにしてもよい。投稿にタグ情報が付されている場合、当該タグ情報を名称等の情報として取得するようにしてもよい。
上記のものは、一例であり、ネットワーク上をクロールすることにより、学習に必要となる多数の画像と、各画像内における特徴的なものの名称等の情報とを併せて取得する。また、全体的又は部分的にネットワークを介さず、独自のデータベースを用いるようにしてもよい。
次に、サーバ3において、予測モデルの学習を行う(ステップS201)。学習は、一般的な機械学習アルゴリズムを用いて行われてもよい。予測モデルは、画像を入力すると、当該画像と類似している画像を検索し、当該画像内の特徴的なものを抽出し、当該ものの名称等の情報を出力するように学習される。
次に、サーバ3の画像情報データベース321に、当該予測モデルを格納する(ステップS202)。このような処理を経て、例えば、画像取得部312は、取得した画像を画像情報データベース321内に格納されている予測モデルを用いることにより、当該画像内における特徴的なものの名称等の情報を取得することが可能となる。
なお、上述したように、画像情報データベース321は、サーバ3内に保存されている必要は無く、外部にある別のサーバ等に保存されていてもよい。さらに、予測モデルを用いた処理も、サーバ3内で行う必要は無い。すなわち、別サーバ上の予測モデルを用いるモジュール等を用いて、この予測処理をサーバ3内ではなく、別サーバ上で行うようにしてもよい。具体的には、サーバ3から画像を当該別サーバに送信すると、当該別サーバにおいて名称等の情報を取得し、取得した名称等の情報をサーバ3へと出力するようにしてもよい。この処理には、一般的に公開されているAPIを使用してもよい。この場合、多数の画像等の収集や学習もサーバ3で行う必要は無い。
次に、本実施形態に係る情報処理システムにおける処理の流れを、図面を用いて説明する。図4は、本実施形態に係る情報処理システムの処理の流れの一例を示すフローチャートである。
まず、この処理に入る前において、ユーザは、図2に示すような対話型のインターフェースを有するアプリケーション等によりBOTと対話を行っていてもよいし、画像関連情報から地理的情報等を取得するために当該アプリケーション等を起動した状態であってもよい。
ユーザは、画像中に地理的情報等を知りたいものが存在する場合、入力部24を介して当該画像の画像関連情報を端末装置2へと入力する。入力を受け付けた端末装置2の入力部24は、画像関連情報受付部212へと当該画像関連情報を出力する。画像関連情報受付部212は、画像関連情報を受け付け、通信部22を介してサーバ3へと送信する(ステップS110)。
画像関連情報の受け付けは、様々な態様で行われてもよい。図5は、画像関連情報の受け付けの一例を示す図である。ユーザが画像関連情報入力ボタン2513をタップ又はクリック等により選択した場合、例えば、画像関連情報入力選択肢2503が対話型のユーザインターフェース上に出力される。ユーザは、これらの選択肢の中から画像関連情報を入力する手段を選択することが可能となる。
カメラで情報を取得したいものの情報を撮影する場合、「カメラで撮影」ボタンを選択し、端末装置2内のカメラを起動するようにする。その後、カメラで撮影した画像を画像関連情報としてサーバ3へと送信する。
既に端末装置2の記憶部23に知りたい情報に関する画像が存在する場合、「ライブラリから選択」ボタンを選択し、知りたい情報に関する画像が選択されることにより、画像関連情報を受け付ける。
ウェブサイトを閲覧中に情報を知りたい画像を見つけた場合、その画像のURI又はその画像が掲載されているサイトのURIを取得して入力することも可能であり、この場合、ユーザには、「URIを入力」ボタンを選択させるようにする。画像のURIではなく、サイトのURIを受け付けた場合には、端末装置2又はサーバ3は、当該URIにアクセスし、そのサイトに存在する画像をユーザインターフェース上に出力し、ユーザに当該画像で間違いが無いかをチェックさせるようにしてもよい。また、当該サイトに複数の画像が存在する場合には、どの画像に関する情報を知りたいかをユーザに選択させるようにしてもよい。
URIを入力する場合、画像関連情報入力ボタン2513を選択すること無く、メッセージ入力領域2511に直接URIが入力され、その後に発言ボタン2512が選択されることによりURIの入力を受け付けてもよい。受け付けたURIが画像に関するURIである場合には、画像関連情報として画像に関連する情報を探索するようにし、受け付けたURIが直接画像にアクセスするためのURIではなくウェブサイトのURIであった場合には、画像関連情報としてではなく当該ウェブサイトに関連する情報を探索対象とするように自動判別してもよい。
SNS等に共有されている画像から情報を探索したい場合には、「SNSの画像を選択」ボタンをユーザに選択させる。選択後、該当するSNSから、端末装置2内において情報を共有することにより、画像を取得する、例えば、当該SNSのアプリケーション等から画像そのものを共有することにより端末処理装置2内で画像を取得する。別の例としては、アプリケーション間で画像が存在する場所に関する情報、例えば、画像が使用されているウェブサイトのURI又は直接画像を参照するURI等の情報を共有し、端末装置2ではなく、サーバ3において、当該画像を取得するようにしてもよい。また、この操作は、SNS側から行うようにしてもよい。例えば、SNSアプリケーション側において、画像の共有先として、情報処理システム1が選択できるように設定してもよい。このようにすることにより、ユーザビリティをさらに向上することが可能となる。
なお、これらの選択肢は、このような選択肢ボタンではなく、プルダウンメニューやラジオボタンのような選択の仕方でもよいし、これらには限られない。
別の例として、他のアプリケーションやウェブサイト、又は、ライブラリ等から、情報処理システム1のユーザインターフェース上にドラッグによる画像関連情報の受け付けを行うようにしてもよい。
さらに別の例として、クリップボードに記憶されている情報を画像関連情報として受け付けるようにしてもよい。この場合、図5に示す画像関連情報入力選択肢2503内に、「クリップボードの情報」ボタン等を設置して、当該ボタンが選択されることにより、クリップボードに記憶されている情報を画像関連情報として受け付けるようにしてもよい。
画像関連情報を受信した画像取得部312は、当該画像関連情報に基づいて画像を取得する(ステップS210)。画像の取得は、上述したように、画像関連情報の態様に応じて、各画像関連情報に適した取得をする。このタイミングにおいて、画像取得部312が取得した画像を出力部25に、図2の画像2501のように表示してもよい。端末装置2のカメラで撮影した画像や記憶部23に記憶されている画像の場合は、ユーザが画像情報を入力したタイミングで図2のように表示してもよい。
次に、画像取得部312は、取得した画像を画像情報データベース321へと入力し、類似画像の検索を行う(ステップS211)。続いて、検索された類似画像に基づいて当該画像内の特徴的なものの名称を含む情報等を抽出する(ステップS212)。ものの名称を抽出した後に、画像取得部312は、当該ものがPOIであるのか、対象物であるのかを判断するようにしてもよい。
次に、抽出した画像内の特徴的なもの(POI又は対象物)の情報を取得する(ステップS213)。POI情報取得部313又は対象物情報取得部314は、ステップS212において抽出されたPOI又は対象物の名称に基づき、POI情報データベース322又は対象物情報データベース323から当該POI又は当該対象物の情報を取得する。図2の例の場合、画像の特徴を示すものは、POIであり、当該POIの名称は、○○タワーであり、POI情報取得部313は、POI情報データベース322から○○タワーの情報を抽出する。抽出する情報は、例えば、住所、最寄り駅、最寄りバス停、営業時間、料金等の情報である。
なお、類似画像の検索を行わずにものの情報を特定するようにしてもよい。例えば、取得した画像の中から特徴的なものを抽出し、抽出したものについての情報を取得するようにしてもよい。特徴的なものの情報の抽出は、例えば、機械学習に基づいて生成されたニューラルネットワークを介して、画像内に現れる特徴的なものの情報を取得するようにしてもよい。
次に、POI情報取得部313又は対象物情報取得部314は、前ステップにおいて抽出された情報に基づいて、当該POI又は当該対象物の地理的情報を抽出する(ステップS214)。地理的情報とは、代表的には住所や最寄り駅の情報である。抽出された地理的情報は、対話応答部311へと出力され、対話応答部311において対話情報に変換されて端末装置2へと送信される。別の例として、抽出された地理的情報を端末装置2へと送信し、端末装置2の対話部211において対話形式へと変換されてもよい。変換された情報は、例えば、図2に示すように、「住所は東京都○○区・・・」という情報である。
次に、対話形式へと変換された地理的情報を受信した情報出力部213は、出力部25へと対話形式の地理的情報を出力する(ステップS111)。このように、情報処理システム1は、対話形式のユーザインターフェースにおいて画像関連情報をユーザから受け付け、受け付けた画像関連情報に関する地理的情報をユーザへと出力する。
このように出力した結果、情報処理システム1は、図2に示すように、ユーザとBOTとの対話中にユーザが画像を入力し、当該画像に関連する地理的情報を出力する。本実施形態においては、住所を地理的情報としたが、これには限られない。
以上のように、本実施形態によれば、対話形式のユーザインターフェースを有する情報処理システム1において、ユーザがBOTとの対話中に画像関連情報を入力することにより、当該画像に関連する地理的情報を出力することが可能となる。ユーザの知りたい情報が視覚的に得られる画像情報の中にある場合でも、情報処理システム1が当該画像中の情報についての情報を出力することが可能となる。このように視覚的に得られる情報に対して地理的情報を出力することにより、ユーザビリティの向上を図ることができる。
なお、図2においては、「○○タワーです」と断言する形で回答しているが、これには限られず、「○○タワーではないでしょうか」と断言しない形で回答してもよい。さらに、画像取得部312における予測モデルの出力結果において、○○タワーである可能性を出力するようにしておき、この可能性に基づいて上記の回答を使い分けるようにしてもよい。例えば、画像に写っているPOIが○○タワーである可能性が95%以上であると予測された場合には、「○○タワーです」と回答し、70%以上95%未満であると予測された場合には、「○○タワーではないでしょうか」と回答し、50%以上70%未満であると予測された場合には、「○○タワーかもしれません」と回答をしてもよい。上記の数値は、一例であり、数値自体は上記の値に限定されるものではない。
また、全ての予測結果において、例えば、50%未満の予測結果しか得られなかった場合には、得られた結果を可能性が高い順にリストアップして出力部25に出力し、ユーザが選択するようにしてもよい。別の例としては、このような場合には、予測ができなかった旨を出力し、例えば、別の画像等の入力をユーザに促すようなメッセージを出力してもよい。
上記において、POI又は対象物の候補が複数予測された場合、予測された候補のPOI又は対象物の情報をリスト等による一覧表示にしてもよい。そして、表示されたリストからユーザがどのPOI又は対象物の情報を知りたいかを選択できるようにし、選択されたPOI又は対象物の情報の詳細を出力するようにしてもよい。リストには、地理的情報(例えば、都道府県レベルでの表示又はより詳細な表示等)及び時間的情報を出力して、ユーザが選択しやすいようにしてもよい。リストからユーザが選択したPOI又は対象物の情報が望んでいるものではなかった場合、再度リスト表示に戻るようにしてもよい。
(第2実施形態)
画像関連情報を受け付ける際に、質問事項を併せて受け付けるようにしてもよい。図6は、画像関連情報とともに、質問事項を受け付けるユーザインターフェースの一例を示す図である。図4におけるステップS210の後、情報出力部213は、画像を出力部25内に表示させるとともに、図6に示すように、質問事項の入力をすることができるウィンドウを併せて出力する。
例えば、ユーザが画像に写っている物が何かを知りたい場合に、画像情報受付領域2504内の質問受付領域2505に「これなに?」というような質問を入力し、画像関連情報受付部212は、画像関連情報とともに、入力された質問を受け付け、対話応答部311へと質問内容を送信する。質問内容を受信した対話応答部311は、「これなに?」という質問を、例えば、何であるか(What?)、どこであるか(Where?)、どのくらいか(How?)、どう思うか(What do you think?)のいずれの質問に近いのかを判断し、これらの4つのうちどの質問に該当するのかを分類する。
なお、入力部24がマイク等の音声を受信する機能を備えている場合、質問を音声で入力できるようにしてもよい。この場合、例えば、入力部24にて音声情報を文字情報へと変換してサーバ3に質問を送信するようにしてもよいし、音声情報をそのデータの状態でサーバ3へと送信し、サーバ3にて当該音声データを処理するようにしてもよい。
これらの分類は、例えば、様々な質問事項を想定して各分類に対するユーザの質問の仕方をデータベース化しておいてもよいし、事前に教師付学習等により生成されたモデルに当てはめて予測して分類するようにしてもよい。例えば、「これなに?」「これは何ですか?」「何?」「これは?」等を「何であるか」の分類として判断するようにしてもよい。そして、「これなに?」と言う質問内容であれば、何であるか、という質問であると分類し、画像中に存在しているものが何かをユーザが知りたがっていると判断する。
この際、例えば、ユーザが誤入力をし、「これなぬ?」等という質問を受け付けた場合においても、補正を行い、何であるかをユーザが知りたがっていると判断するようにしてもよい。この補正は、上記の質問内容の分類と同様に、例えば、様々な場合を想定してデータベースにしておいてもよいし、又は、教師付学習により生成されたモデルに当てはめて予測して判断するようにしてもよい。
図7は、図6のような質問をした場合の情報処理システム1の回答例を示す図である。例えば、ユーザがした質問を、質問事項2506として記載し、その下に、回答としてBOTの対話2502を表示する。対話2502に示されているように、一例として、「これなに?」と質問した場合には、画像中のPOIの名称、地理的情報(住所)、時間的情報(営業時間)、料金的情報(入場料金)が出力される。これらの情報は、POI情報データベース322に記憶されていてもよいし、POI情報に基づいて、例えば、公式サイトを参照して当該公式サイトから抽出するようにしてもよい。
なお、時間的情報には、POIである場合には、当該POIに関する季節的な情報又は時期的な情報、例えば、観光するのに適した季節、イベントが開催される時期等の情報が備えられていてもよい。対象物である場合には、当該対象物の旬の時期、販売されている時期等の情報が備えられていてもよい。この他、POI又は対象物についての時間的情報で出力可能であるような情報であれば、それらの情報も備えられていてもよい。
このような処理を行う場合、情報処理システム1は、図4において、破線で表された処理を行う。すなわち、サーバ3は、地理的情報を抽出して送信した(ステップS214)後に、付加情報の抽出と送信を行う(ステップS215)。付加情報の抽出と送信は、POI情報取得部313又は対象物情報取得部314が行い、抽出された情報を対話応答部311が対話形式へと変換して端末装置2へと送信する。上述した説明と同様に、POI情報取得部313又は対象物情報取得部314が付加情報を送信し、端末装置2の対話部211において対話形式へと変換するようにしてもよい。
なお、これら時間的情報、料金的情報は、図2のように画像だけを入力した場合に合わせて出力されるようにしてもよい。このようにすることにより、ユーザの負荷を増やすことなく様々な情報を出力することが可能となる。また、時間的情報は、例えば、画像が夜景であった場合には、夜景が見られる時間を表示するようにしてもよい。このように、画像にあった時間的情報や料金的情報を出力するようにしてもよい。
出力する情報は、これらには限られず、地理的情報として住所の他に、例えば、現在地からPOIまでの経路情報、現在地からPOIまでに掛かる交通費又は時間を示す移動コスト情報のうちいずれか又は複数を表示するようにしてもよい。これら住所以外の地理的情報を出力する際には、POI情報に基づく経路探索を行うようにしてもよい。この経路探索は、時間を指定せずに平均的に掛かる時間等を出力するための平均探索を行ってもよいし、現在時刻を指定した探索を行ってもよい。
図8は、ユーザが別の質問をした場合の例を示す図である。図8において、ユーザは、「行きたい」という質問事項を画像関連情報とともに送信したとする。この場合、情報処理システム1は、○○タワーまでの経路情報を出力する。出力する地理的情報は、住所ではなく、このように経路情報を出力するようにしてもよい。「行きたい」という質問がされた場合には、対話応答部311は、どこであるか、という質問であると分類し、例えば、経路探索情報を出力する。
なお、どこであるかという同じ質問項目であると分類された場合においても、例えば、「ここはどこ?」と質問された場合には、住所を出力し、「行きたい」「どうやっていくの?」等と質問された場合には、探索された経路情報を出力するようにしてもよい。このように、同じ質問の分類においてもその質問の内容を別途判断し、おのおの別の回答を出力することもできる。
さらに、BOTの対話2502とともに、連携する別のアプリケーション等に誘導するようにしてもよい。例えば、図8に示すように、連携するアプリケーションを起動する連携アプリケーション起動ボタン2507を表示する。この連携アプリケーション起動ボタン2507がユーザにより選択されると、例えば、探索条件として、出発地が現在地であり、目的地が当該POIであるように指定された連携アプリケーションが起動し、経路探索結果を出力する。情報処理システム1がウェブブラウザ上で動作している場合には、当該経路情報を探索するウェブサイトへのリンクを張るようにしてもよい。
起動するアプリケーションは、例えば、歩行者用のアプリケーションであってもよいし、自動車用のアプリケーションであってもよいし、バイク用、自転車用等のその他のアプリケーションであってもよい。さらに、連携アプリケーション起動ボタン2507が選択された後に、経路情報として地図を表示するとともに、目的地までの音声ガイダンスが利用可能となるようにしてもよい。
また、経路情報の示し方はこれらには限られず、地図を出力部25内に表示するようにしてもよい。表示された地図は、ピンチアウトやピンチインにより拡大、縮小するようにしてもよい。また、表示された地図を選択することにより、詳細な経路情報が表示されるようにしてもよい。他の例としては、情報処理システム1が経路探索アプリケーションとして動作してもよく、現在地からPOIまでの経路情報を情報処理システム1が探索し、出力部25内に当該経路情報をリスト表示するようにしてもよい。ユーザがリスト内の情報を選択することにより、詳細な経路探索情報が表示されるようにしてもよい。
示された経路情報に関する移動手段が、予約可能な移動手段である場合、これらを予約するシステムと連携してもよい。例えば、経路情報中に指定席を予約可能な移動手段が備えられている場合、この指定席の予約ができるようにしてもよい。この場合、このような移動手段がある場合に、対話応答部311が、「予約しますか?」といった質問を端末装置2へと送信し、出力部25から出力されるようにし、ユーザから「予約する」という応答があった場合には、指定席の予約システムに接続し、予約をできるようにする。
これは、移動手段に限られたものではなく、宿泊施設、飲食店、イベント、映画、テーマパーク等のその他の施設に関する予約を受け付けるようにしてもよい。例えば、POI等の画像検索が行われた後に、当該POI周辺の宿泊施設の予約をするか否かを質問するようにしてもよい。画像がテーマパークの中にあるものであった場合には、当該テーマパークの入場券等を予約できるようにしてもよい。移動手段の出発時刻若しくは到着時刻等、又は、イベントの開催時刻等の時刻が決まっているものに対しては、当該時刻も指定して予約できるようにしてもよい。なお、これらの予約手段は、情報処理システム1内で閉じているものには限られず、他のアプリケーション等を起動するようにしてもよい。
以下、質問例と回答例について記載する。なお、以下の記載は例として示すものであり、この他の質問及び回答を用意することも可能である。なお、いずれの場合においても、地理的情報とともに出力されるようにしてもよい。
<分類:何であるか>
「これは何?」「ここは何?」「何の写真?」に対しては、「これは○○タワーではないでしょうか」と回答する。「これは何をするところ?」「ここでは何ができるの?」に対しては、「ここでは○○タワーを見ることができます」「○○タワーの展望台から景色を眺めることができます」「○○タワーを歩いて上ることができます」と回答する。「ここは何が見所ですか?」に対しては、「○○タワーからは、○○地区を一望することができ、眺めが素晴らしいです」と回答する。「この塔はなに?」に対しては、「これは○○タワーです。観光地としてとても人気があります」と回答する。
<分類:どこであるか>
「ここはどこ?」に対しては、「これは○○タワーで、○○駅から徒歩5分です」と回答する。「これはどこにあるの?」に対しては、「東京都○○区にあります。最寄り駅は○○駅です」と回答する。「これに似た別のスポットはある?」に対しては、「○○ツリーが○○タワーから鉄道で約20分の場所にあります」と回答する。
<分類:どのくらいか>
「どうやっていくの?」に対しては、連携するナビゲーションに関するアプリケーションを起動することを勧める回答をするか、「経路情報は、・・・」「○○タワーまでご案内をしますか?」等の回答をして経路探索結果を出力するようにする。「どのくらい人気があるの?」に対しては、「○○タワーには多くの観光客が訪れますよ」と回答する。「入場料は?」に対しては、「○○タワーは入場無料です。展望台に上がる料金は、800円になります」と回答する。「どのくらい時間がかかる?」に対しては、「○○タワーへは、現在地から鉄道と徒歩で15分程度かかります」と回答する。「高さはどのくらい?」に対しては、「○○タワーは、地上からxxxメートルの高さがあります」と回答する。
<分類:どう思う>
「この写真についてどう思う?」に対しては、「これは○○タワーではないでしょうか」「○○タワーの写真は思い出にのこりますよね」「○○タワーの写真はSNSで人気があります!」と回答する。
また、分類に関しても上述した4つに限られず、例えば、以下の3つの分類をさらに加えてもよい。
<分類:Yes/No>
「ここは人気があるの?」に対しては、「○○タワーは○○地区に訪れた観光客のほとんどの方が訪問します」と回答する。「ここはおすすめですか?」に対しては、「○○タワーは観光客の方にはオススメです」と回答する。
<分類:どちら>
複数枚の画像に対して質問を行ってもよい。例えば、2枚の写真を提示すると、このような質問も考えられる。この場合、「どちらがオススメですか?」に対しては、「○○タワーと○○ツリーですか?どちらもオススメです」「○○タワーは古くから根強い人気があるのでオススメです。○○ツリーは○○タワーより高いので展望台の眺めは○○ツリーの方がオススメです」と回答する。
<分類:なぜ>
「なぜここの人気が高いのですか?」に対しては、「○○タワーは古くからあるテレビ塔で○○地区の人の生活を支えてきたからです」「○○タワーは都心部にあり、気軽に展望台からの景色を眺めることができるからではないでしょうか」と回答する。
このように、様々な質問に対して、回答を用意しておいてもよい。回答は、学習されたモデルに基づいて生成されるものであってもよい。
質問の内容が読み取れなかった(BOTが質問内容を判断できなかった)ときは、BOTは、「もう一度、別の表現で質問をお願いします」等とユーザに促して、別の表現の質問を受け付けるようにしてもよい。別の表現の質問において回答が可能である場合、前の質問の内容が、別の表現の質問であるようにモデルに学習させるようにしてもよい。さらに、連続(例えば、5回連続)で質問の内容が判断できなかった場合には、出力部25に質問項目をリストで表示し、ユーザに選択させるようにしてもよい。
上述では、これらの分類は対話応答部311が実行するものであるとしたが、これには限られず、端末装置2側で行ってもよい。例えば、画像関連情報受付部212が質問を併せて受け付けた場合に、画像関連情報受付部212において質問の分類をするようにしてもよい。この場合、質問の分類及び判断するためのモデルは、記憶部23に記憶されていてもよい。分類及び判断された質問は、通信部22を介してサーバ3へと送信される。
以上のように、本実施形態によれば、対話中において画像関連情報とともに、当該画像において特徴を有している情報のうち、どのような情報を望んでいるかをユーザ自らが明示的に示すことにより、望んでいる情報をユーザに提示することが可能となる。このようにすることにより、ユーザビリティをさらに向上することができる。
なお、画像中で特徴を表す部分がPOIだけであるとは限られない。図9乃至図11は、POIではなく対象物についての画像関連情報を送信する場合における本実施形態の適用例を示すものである。
図9は、景色の画像ではなく、飲食物の画像を送付する一例である。ユーザが画像2501に関する画像関連情報と併せて「これなに?」という質問をした場合の対話が示されている。対象物が土地の名産品であったり、名物であったりする場合、BOTは、対話2502にあるように、地理的情報として、どこの名産品であるか、どこで購入することが可能か、その住所はどこであるか等の地理的情報を出力する。さらに、当該対象物を購入することが可能な店舗の時間的情報(営業時間)や、当該対象物の料金情報を併せて出力してもよい。
図10は、画像中に存在する物が対象物である場合についての別の例を示す図である。この図10に示すように、例えば、飲食物の画像に対して、ユーザは、「買いたい」という質問事項を付与して探索を行うこともできる。この場合、例えば、対話2502に示すように、当該飲食物の名称とともに、当該飲食物を販売している場所をリストにして表示する。このリストを選択することにより、さらに各販売場所の詳細情報、例えば、現在地からの経路情報その他の地理的情報、営業時間、料金等の情報を表示させてもよい。
図11は、名産品等ではなく、一般的な対象物の画像を入力した場合のBOTの回答例である。例えば、ユーザが「ざるそば」の画像を入力した場合、日本においてざるそばは一般的な飲食物であるので、これを食べる場所は、特定の地域や特定の店舗に限られるものではない。
一般的に流通しているものについての画像が入力された場合、例えば、現在地付近で当該ものが入手可能、飲食可能又は見ることが可能な場所を回答する。図10の例であれば、現在地付近で当該飲食物を食べることができる店舗の情報を対話2502において出力する。一般的な対象物を受け付けた場合、BOTが回答する店舗等の地域を所定の地域内、例えば、現在地と同一都道府県内等に限定して回答を行ってもよい。または、ユーザが出力する地域について、どの程度の領域に限定するかを事前に指定しておくようにしてもよい。例えば、ユーザが関東圏の情報を望んでいる場合に、関東圏の情報を出力するようにすることもできる。
これは、対象物だけには限られず、アクティビティ、イベント等の情報が入力された場合には、その体験できる場所を回答するようにしてもよい。例えば、祭りであれば、その祭りが開催される場所(及び/又は時間的情報)を回答してもよい。アクティビティであれば、そのアクティビティを実際に体験できる場所(及び/又は時間的情報)を回答してもよい。入力されるアクティビティの情報とは、例えば、ラフティングをしている画像等のスポーツに関する画像であってもよいし、ガラス工芸の体験等の工芸に関する画像であってもよい。スポーツの画像の場合は、当該スポーツを観戦できる場所に関する情報を併せて回答してもよい。
このように、POIでもなく、名産品でもないようなものの情報を受け付けて、それに対する回答を行うようにしてもよい。このようにすることにより、名物であるか否かをユーザが判断すること無く、ユーザの望んでいる情報を出力することが可能となり、ユーザビリティの向上を図ることが可能となる。
(第3実施形態)
上述した各実施形態においては、対話中において画像を受け付ける情報処理システム1について説明したが、ユーザが画像及び質問を入力した後のやりとりは、BOTからの一方的な出力であった。以下の実施形態においては、これには限られず、この後も対話ができるようにしようとするものである。
図12は、本実施形態に係る情報処理システム1の処理の流れを示すフローチャートである。端末装置2のステップS111までの処理及びサーバ3のステップS214までの処理については、上述した各実施形態と同様である。本実施形態に係る情報処理システム1は、さらに、ユーザに回答をした後に、ユーザが選択肢を選択することにより質問を受け付ける。
対話部211は、サーバ3からの情報に基づいて画像に対する回答をした後、質問項目を選択肢として表示し、ユーザに選択をするように促す。図13は、質問の選択肢を表示する例を示す図である。
この図13に示すように、回答に対するユーザの質問を質問選択肢2508として表示する。画像に写っているものがPOIである場合、「行き方を教えて」「時間を教えて」「料金を教えて」と言った選択肢が出力部25に表示される。ユーザが選択肢を選択すると、対話部211は、当該選択肢の内容をサーバ3へと送信する。POI情報取得部313又は対象物情報取得部314は、各データベースから質問内容の回答を取得し、対話応答部311を介して端末装置2へと回答を送信し、対話部211及び情報出力部213は、出力部25から回答を出力する。
例えば、「行き方を教えて」という選択肢が選択された場合の回答は、図8の対話2502のように出力される。また、図8のような対話を経由せずに、ナビゲーションのアプリケーションを起動するようにしてもよい。この場合も、図8の説明において記載したものと同様に、歩行者用等のアプリケーションを起動し、経路情報を出力する。経路情報と併せて、目的地までの音声ガイダンスを出力するようにしてもよい。他の選択肢を選択した際にも、その質問の回答として適切な情報が出力される。
なお、選択肢の情報をサーバ3へ送信すること無く処理してもよい。例えば、サーバ3は、選択肢にある質問の回答を最初の画像関連情報を受信したタイミングにおいて抽出し、選択肢に対する回答も名称等を回答するタイミングにおいて端末装置2へと送信する。そして、対話部211により、質問の選択肢に対する回答が準備され、情報出力部213が出力部25へと表示する。このようにすることにより、一時的に端末装置2のネットワークが切断された場合等にも、ユーザへ回答を示すことが可能となる。
POIではなく、対象物に関しても同様に処理を行うことができる。図14は、POIではない対象物に関する本実施形態に係る情報処理システム1の出力部25の表示例を示す図である。
例えば、ざるそばの画像関連情報を受け付けた場合、対話2502のように、人気の高い店舗と住所等の地理的情報が出力される。それに対する質問選択肢2509として、「行き方を教えて」「他のお店を教えて」等の選択肢が表示される。このように、一般的に流通するものの場合には、出力した情報のみならず、他の店舗等の情報の出力を促すような選択肢を表示することもできる。このように、画像から抽出された特徴物の属性に対応して選択肢が表示されるようにしてもよい。上記のように、特徴物がPOIである場合には、その行き方、時間等の情報を、特徴物が対象物である場合には、それを購入、飲食できる場所への行き方、店舗等の情報を出力するようにしてもよい。
具体的な選択肢の内容としては、上述したように、「行き方を教えて」「時間を教えて」等があるが、質問以外の要望を選択するようにしてもよく、例えば、「地図を表示する」「情報が間違っているよ」「関連記事を検索する」等の選択肢が表示されるようにしてもよい。
さらに、これらの選択肢を選択した後に、対話が継続され、当該継続された対話に対してさらに質問の選択肢を表示するようにしてもよい。
以上のように、本実施形態によれば、画像関連情報をユーザが入力した後に、選択肢により質問を行うことにより、BOTとの対話を継続することが可能である。このようにすることにより、ユーザは、入力した画像に対して、ユーザが望む情報を明示的にBOTに回答させることが可能となる。
(第4実施形態)
上述した第3実施形態では、ユーザは、情報処理システム1が用意した選択肢により質問を行うこととしたが、これには限られず、ユーザが自由に質問を対話形式で行うようにしてもよい。本実施形態に係る情報処理システム1は、画像関連情報を受け付けた後に、ユーザからの自由な形式の質問を受け付けることを特徴とする。
図15は、本実施形態に係る情報処理システム1の処理の流れを示すフローチャートである。端末装置2のステップS111までの処理及びサーバ3のステップS214までの処理については、上述した各実施形態と同様である。本実施形態に係る情報処理システム1は、さらに、ユーザに回答をした後に、ユーザの自由な入力により質問を受け付ける。
端末装置2において取得した情報の出力がされた(ステップS111)後、端末装置2の対話部211は、ユーザからの質問の受け付け待ち状態へと移行する。対話部211は、ユーザから質問事項が入力された場合、当該質問事項を受け付け、サーバ3へと送信する(ステップS114)。
質問を受信した対話応答部311は、質問内容の抽出を行う(ステップS216)。質問内容は、前述した第2実施形態において例示したものと同等のものである。これらの質問内容を第2実施形態と同様の方法により分類及び判断を行う。
質問内容が分類及び判断された後、POI情報取得部313又は対象物情報取得部314は、各データベースから回答の抽出を行い、通信部33を介して端末装置2へと送信する(ステップS217)。なお、この際、対話応答部311において、抽出した回答を対話形式に変換してから端末装置2へと送信してもよい。
質問に対する回答を受信した対話部211は、情報出力部213を介して出力部25へと質問の回答を出力する(ステップS115)。なお、回答の出力が終了した後に再度ユーザの質問の受け付け状態へと移行してもよい。このように、対話中に画像関連情報を受け付け、その回答に対してさらに質問を行うようにすることができる。
図16は、本実施形態に係る情報処理システム1の出力例を示す図である。この図において、端末装置2は、まず、○○タワーの画像関連情報を受け付け、サーバ3を介して画像中のPOIの名称である「○○タワー」と、地理的情報としてその住所を対話2502において出力する。
それに対して、ユーザが対話形式のユーザインターフェース中の入力ウィンドウ2510を介して「ここに行きたい」という質問を入力する。この質問は、対話部211により受け付けられ、サーバ3へと送信される。
サーバ3は、受信した質問に対する回答に関する情報を取得し、当該回答を端末装置2へと送信する。端末装置2は、出力部25へと当該回答を出力する。例えば、図に示されるように、「○○タワーへの案内を開始します」等と回答がされ、経路案内が開始される。この際、図8に示すように、連携するアプリケーションへと誘導するボタン等を表示するようにしてもよい。
以上のように、本実施形態によれば、ユーザが入力した画像関連情報に関する情報に対して、さらにユーザが質問することが可能となり、対話形式でユーザへと案内情報等を出力することが可能となる。このように対話形式で質問を行うことにより、ユーザは、あたかも人間同士で話しているように、より違和感なく、情報を取得することが可能となる。なお、図16においてはPOIに関する説明をしたが、これはPOIには限られず、飲食物や土産物等の対象物であっても同じように質問を受け付けることができる。
(変形例1)
図17は、画像中に二つの特徴あるものが写っている場合を示す図である。この場合、情報処理システム1は、当該二つのものに関する情報を出力するようにしてもよい。すなわち、「ざるそば」に関連する情報と、「○×クッキー」に関連する情報とを併せて表示するようにしてもよい。このように複数のものが画像中に存在する場合に、特徴的な各ものに対して、各々情報を出力するようにしてもよい。
別の例としては、ユーザが複数のものの中から明示的にどのものについての情報を望んでいるのかを選択するようにしてもよい。すなわち、ユーザが、表示された画像中のどの部分が知りたい情報を含む部分であるかというROI(Region of Interest)を設定できるようにする。
ROIは、例えば、図17に示すように画像内をユーザがドラッグすることにより選択される。ユーザが画像内をドラッグすると、ドラッグした線分を対角線とした矩形状のROIが設定される。別の例としては、情報が欲しいものの領域をユーザがクリック又はタップすると、その「もの」について端末装置2が画像をスキャンすることにより、自動的にROIを設定するようにしてもよい。これは、一例として、スネーク処理やクラスタリング処理を用いて行われる。
ROIの選択には限られず、文字入力又は音声入力により指定できるようにしてもよい。例えば、「ざるそば」と「○×クッキー」の両方が特徴物の候補として抽出された場合、「右上にあるもの」と文字又は音声により入力すると「○×クッキー」についての情報を出力するようにしてもよい。別の例としては、「ざるそばのとなりにあるもの」等といった情報を入力として受け付けるようにしてもよい。
別の例として、「ざるそば」だけが特徴物の候補として抽出された場合には、「その右にあるもの」等と文字又は音声により入力された場合に、「○×クッキー」についての情報を出力するようにしてもよい。抽出物の表示部250における位置の設定は、これらには限られず、そのROI又は抽出物のある位置を文字又は音声で一意的に指定できる情報が入力された場合に行えるようにしてもよい。
ROIが設定された場合、サーバ3は、当該ROI内の画像について、POI又は対象物を抽出し、当該POI又は当該対象物の情報を抽出し、端末装置2へと出力する。端末装置2は、受信した情報をユーザへと出力することにより、望んでいる情報を閲覧することが可能となる。
以上のように、複数のものが写った画像である場合も、適切にユーザが望んでいる情報を出力することも可能である。
(変形例2)
図18は、さらに別の例である。画像情報は、視覚に訴えるものであり、直感的に情報が知覚できるため、現地の言語が分からないユーザに使用されることが考えられる。そのため、情報処理システム1がローカライズされている場所と異なる言語で回答することをユーザが望んでいることがある。
このような場合、図18に示すように、日本語でローカライズされている情報処理システム1であるが、英語で回答を出力するようにしてもよい。この出力言語の変更は、あらかじめユーザが指定してもよいし、又は、端末装置2において標準的に使用されている言語に基づいて設定されていてもよい。
別の例としては、図18に示すように、画像関連情報とともに入力された質問文が「What?」と英語でされている場合に、その質問に関する回答を英語でするようにしてもよい。このように自動判別されるように設定することにより、複数のユーザが使用する場合にも各ユーザに併せて自動的に理解できる言語へと変換することも可能となる。
さらには、言語指定メニュー2530のようにユーザが明示的にその場で指定できるようにしてもいてもよい。言語指定メニュー2530は、例えば、プルダウンメニューや、ラジオボタンにより実装される。
以上のように、情報処理システム1は、多言語で実装されていてもよい。この場合、対話中の言語を自動判別して、回答を当該自動判別した言語で出力するようにしてもよいし、ユーザが明示的に使用する言語を設定できるようにしてもよい。このような場合においても、画像に関する情報と地理的情報とを併せて出力することにより、様々な言語で画像中に写っているものの地理的情報を含む情報をユーザに対して出力することが可能となる。例えば、ウェブサイトを閲覧中に、言語が理解できずに名前の情報等が取得できない場合において、画像情報からその画像中に写っているものの検索を行うことを可能とする本変形例に係る情報処理システム1は有効である。
(変形例3)
前述した実施形態及び変形例においては、料金情報として、例えば、移動手段に関する料金又は入場料等の料金を別々に表示するものであったが、料金情報の例としては、この限りではない。例えば、移動に関する料金と、入場料等の料金とを合算し、総コスト情報として出力するようにしてもよい。
特徴物がPOIである場合には、当該POIまでの移動経路に沿った料金と入場料とを合算して出力する。候補が複数にわたる場合、例えば、移動経路が複数にわたる場合、それぞれの移動経路について料金を算出し、総コストを一覧表示するようにしてユーザが比較可能な態様で出力するようにしてもよい。
例えば、「総コスト:1200円(移動450円、入場料750円)」等と表示する。複数の移動経路の候補がある場合には、複数の候補について、このように表示し、複数表示された候補をユーザが選択することにより移動経路を示すようにしてもよい。
また、クーポン等で入場料が安くなる場合には、上記の表示に加え、「クーポン利用で割引10%」「事前予約で200円引」等と表示し、当該表示を選択することにより、クーポンを表示したり、事前予約可能なサイトへと誘導するようにしたりしてもよい。これらクーポンや事前予約の料金も、上述のように総コストとして表示するようにしてもよい。
特徴物が対象物である場合には、当該対象物を買うことができる店舗、飲食できる店舗等に対して、総コストを表示するようにしてもよい。この場合、POIと異なり、複数の場所が検索される可能性が高い。そのため、複数の地点を一覧表示として表示してもよい。さらに、総コストに加え、移動時間等の情報も併せて、「1200円(移動450円、代金750円)、30分」等とわかりやすく表示してもよい。
一覧表示をする際には、総コスト順にソートして表示するようにしてもよいし、移動時間順、到着時間順若しくは乗換回数順等にソートして表示するようにしてもよいし、又は、口コミ等による人気のある順番にソートして表示するようにしてもよい。
以上のように、総コストを表示することにより、ユーザが望んでいる情報についての詳細をわかりやすく出力することが可能となる。特に、複数の候補がある場合に、ユーザがどの経路又はどの店舗等の施設に行くかを選択することが可能となるため、ユーザの意思をより反映するような選択の幅を持った出力をすることが可能となる。
(変形例4)
前述した実施形態及び変形例においては、特徴物の判断は、検索された類似画像のタグ等の情報から抽出するものであったが、タグ等の情報から直接的に抽出するのではなく、タグ等の情報からキーフレーズとなる情報を取得して抽出するようにしてもよい。
例えば、POI情報データベース322及び対象物情報データベース323に、キーフレーズの情報をそれぞれのPOI及び対象物に対して設定しておき、画像のタグ等の情報から取得したキーフレーズに基づいて、POI又は対象物を検索するようにしてもよい。1つのキーフレーズからの抽出が困難である場合には、例えば、画像データの周辺にある文章等からキーフレーズを取得するようにしてもよい。
キーフレーズとしては、例えば、場所に関する情報、季節に関する情報、又は、特徴物に関する情報等の情報が含まれる。例えば、「東京にある日本で一番高い建造物」とタグ情報にあった場合、「東京にある」「日本で一番高い建造物」と言ったキーフレーズを取得し、これらのキーフレーズを検索キーとして各種データベースからPOI又は対象物の情報を抽出する。
別の例としては、「春は桜、秋は紅葉が素晴らしい舞台で有名な坂道の上にある京都の名所」等の情報であれば、地理的情報である「京都の名所」、時間的情報である「春は桜、秋は紅葉」、そして、特徴を示す情報である「舞台」「坂道の上にある」等をキーフレーズとして取得して、データベースから情報を抽出する。
これらのキーフレーズに基づく情報の抽出は、所謂シソーラス検索等に基づいて行ってもよい。例えば、教師付学習で学習を終えたニューラルネットワークモデル等に基づいて、データベースから情報を抽出できるようにしておいてもよい。その他のあいまい検索等の手法を用いて情報を抽出するようにしてもよい。
以上のように、全ての情報を画像のタグ等の情報に頼るのではなく、サーバ3内の各種データベースにキーフレーズを設定しておき、このキーフレーズをキーとして検索するようにしてもよい。
(変形例5)
前述した実施形態及び変形例においては、ユーザから取得した画像データに基づいてユーザへと情報を出力することについて説明した。これらのユーザから取得した画像データをサーバ3のデータベースへとログとして保持するようにしてもよい。
前述の実施形態又は変形例の手法を用いて出力した特徴物の情報について、ユーザから質問又は指摘(間違っているよ等の指摘)があった場合には、これらの情報もフィードバック情報としてユーザが入力した画像情報と紐付けて保持するようにしてもよい。
ユーザから質問があった場合は、当該画像情報に対して、このような質問がされた、という情報をログとして記録する。ログを記録することにより、入力された画像に写っている特徴物に対して、どのような質問が多くされているかを記録することができる。
ログを分析し、同一又は類似の特徴物に対して同じような質問が繰り返しされるような場合には、その質問に対する回答としてより詳しい情報をあらかじめ取得しておくことにより、同じ特徴物の画像が入力された場合に、ユーザの満足度を向上できる可能性がある。
また、ユーザから情報が間違っている等の指摘があった場合には、当該情報を見直して新たな情報を取得し、書き換えるようにしてもよい。このようにフィードバックを受け入れることにより、情報の正確性を向上することが可能となる。
また、このようなデータベースの充実には限られず、ユーザの動向を分析することも可能となる。この分析を行うことにより、多数のユーザが望んでいるような特徴物についてさらに詳細な情報をあらかじめ多く取得しておくことにより、ユーザの満足度を向上することが可能となる。この場合、情報処理システム1にライトモードとマニアックモード等を選択できるようにしてもよい。
すなわち、多くの情報が集まっているPOI又は対象物の場合、多くの人が訪れる或いは多くの人が興味を引くPOI又は対象物である可能性が高いので、そのようなPOI又は対象物は、ライトユーザ又は一般的なユーザに向けて出力するようにしてもよい。
一方で、あまりログが記録されておらず、情報が多く集まっていないPOI又は対象物の場合、マニアックなものである場合がある。例えば、有名な観光地等で複数回同じ土地を訪れるユーザ等、このような情報を欲しているユーザも一定数いると考えられる。ユーザが投稿した情報に関するログからデータベースに情報を読み込んでおくことにより、このようなユーザが欲している情報を出力できるようにあらかじめ情報を取得しておくようにしてもよい。
上記は、ユーザの入力等をサーバ3にログとして記録し、不特定多数のユーザの動向を記録したり分析したりする場合について説明したが、これには限られない。このログの情報を端末装置2の記録部23に記録するようにしてもよい。端末装置2にユーザの入力画像等に関するログを記録しておくことにより、当該端末装置2を操作するユーザについて固有のログを取得することが可能となる。
このようなログを取得し、このログを分析することにより、当該ユーザの動向等を把握することが可能となり、当該ユーザに対して有用な情報を出力することが可能となる。例えば、当該ユーザが神社の画像をよく入力する場合には、特徴物として複数の候補がある場合に、神社の候補を一覧表示の上の方に表示するようにしてもよい。例えば、特徴物が飲食物であったり、伝統工芸品であったりする場合にも同様に対応することができる。なお、これらには限られず、同一又は類似のジャンルに関する情報を多く出力してもよいし、同じような検索をした別の人が他にどのような検索をしているかをサーバ3から読み取り、当該ユーザに出力するようにしてもよい。
以上のように、ユーザが入力した画像、或いは、当該画像に関する質問等のログを取得することにより、ユーザの動向を把握したり、分析したりすることが可能となる。このようなログに基づいて出力する情報を制御することにより、ユーザの満足度をさらに向上することが可能となる。
上述した実施形態で説明した情報処理システムの少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、情報処理システムの少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD−ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等着脱可能なものに限定されず、ハードディスク装置やメモリなど固定型の記録媒体でもよい。
また、情報処理システムの少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調を掛けたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、或いは記録媒体に収納して頒布してもよい。
さらに、1つ又は複数の情報処理装置によって情報処理システムを機能させてもよい。複数の情報処理装置を用いる場合、情報処理装置のうち1つをコンピュータとし、当該コンピュータが所定のプログラムを実行することにより情報処理システムの少なくとも1つの手段として機能が実現されてもよい。
上記の記載に基づいて、当業者であれば、本発明の追加や効果や種々の変形を想到できるかもしれないが、本発明の態様は、上述した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更及び部分的削除が可能である。