JP5971387B2

JP5971387B2 - 端末装置、物体識別方法、及び情報処理装置

Info

Publication number: JP5971387B2
Application number: JP2015135961A
Authority: JP
Inventors: 隆之芦ヶ原; 福地　正樹; 正樹福地
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-07-07
Filing date: 2015-07-07
Publication date: 2016-08-17
Anticipated expiration: 2031-03-25
Also published as: JP2015212967A

Description

本発明は端末装置、物体識別方法、及び情報処理装置に関する。

近年、画像認識技術が高度化し、カメラからの入力画像に映る物体の位置や姿勢を画像特徴量のマッチングによって識別することが可能となっている。このような物体識別の応用例の１つは、拡張現実（ＡＲ：Augmented Reality）アプリケーションである。ＡＲアプリケーションでは、実世界に存在する建物、道路又はその他の物体を映した画像内で、様々な情報（例えば、広告情報、ナビゲーション情報又はゲームのための情報など）が物体と関連付けて付加的に表示され得る。

下記特許文献１は、視点の変化、明度変化及びノイズに対するロバスト性を高めた、物体識別のための特徴量抽出アルゴリズムを提案している。下記特許文献２は、より処理コストが少なく高速に動作し得る、Random Ferns法と呼ばれる特徴量抽出アルゴリズムを提案している。

特許第４４９２０３６号公報 Mustafa Oezuysal，"Fast Keypoint Recognition using Random Ferns"，IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.32, Nr.3, pp.448-461, March 2010

上述したように、画像に映る物体を識別するための特徴量抽出アルゴリズムには様々なものがある。しかし、一般的に、より高い識別性能を実現可能なアルゴリズムほど、より多くの処理コストを要する。そのため、例えば携帯端末などの処理リソースの少ない装置上で物体識別を行う際には、識別性能（識別の精度及び同時に識別可能な物体の数など）に制約が生じる。また、豊富な処理リソースを有するサーバに画像を毎フレーム転送して物体識別を実行させると、サーバからの応答を待つ間の遅延がアプリケーションの即応性を阻害し得る。

そこで、本発明は、処理リソースの少ない装置においてより高い物体識別の性能を発揮することのできる、端末装置、物体識別方法、及び情報処理装置を提供しようとするものである。

本発明のある実施形態によれば、撮像された入力画像を取得する画像取得部と、前記画像取得部により取得された前記入力画像を、サーバへ送信する送信部と、前記入力画像の特徴量と照合されて得られた第１の特徴量辞書に含まれる特徴量の抽出に用いられるアルゴリズムより、精度の低いアルゴリズムに従って画像から抽出される特徴量を含む第２の特徴量辞書を、前記サーバから受信する受信部と、前記入力画像の特徴量を前記受信部により受信される前記第２の特徴量辞書と照合することにより、前記入力画像における物体を識別する識別部と、を備える端末装置が提供される。

また、本発明の別の実施形態によれば、撮像された入力画像を取得することと、前記画像取得部により取得された前記入力画像を、サーバへ送信することと、前記入力画像の特徴量と照合されて得られた第１の特徴量辞書に含まれる特徴量の抽出に用いられるアルゴリズムより、精度の低いアルゴリズムに従って画像から抽出される特徴量を含む第２の特徴量辞書を、前記サーバから受信することと、前記入力画像の特徴量を前記受信部により受信される前記第２の特徴量辞書と照合することにより、前記入力画像における物体を識別することと、を含み、端末装置により実行される物体識別方法が提供される。

また、本発明の別の実施形態によれば、既知の物体画像の特徴量の集合である第１の特徴量辞書を記憶する記憶部と、端末装置により撮像される入力画像を受信する受信部と、前記入力画像の特徴量を前記第１の特徴量辞書と照合することにより、前記入力画像に映る物体を識別する識別部と、前記識別部による識別結果に応じて、前記第１の特徴量辞書に含まれる特徴量の抽出に用いられるアルゴリズムより、精度の低いアルゴリズムに従って画像から抽出される特徴量を含む第２の特徴量辞書を取得する辞書取得部と、前記辞書取得部により取得される前記第２の特徴量辞書を前記端末装置へ送信する送信部と、を備える情報処理装置が提供される。

以上説明したように、本発明に係る端末装置、物体識別方法、及び情報処理装置によれば、処理リソースの少ない装置においてより高い物体識別の性能を発揮することができる。

一実施形態に係るシステムの概要について説明するための説明図である。端末装置の画面上に表示され得る画像について説明するための説明図である。一実施形態に係る端末装置のハードウェア構成の一例を示すブロック図である。一実施形態に係る端末装置の論理的機能の構成の一例を示すブロック図である。一実施形態に係る辞書サーバのハードウェア構成の一例を示すブロック図である。一実施形態に係る辞書サーバの論理的機能の構成の一例を示すブロック図である。辞書サーバにより記憶される特徴量辞書の一例について説明するための説明図である。辞書サーバにより取得される辞書のサブセットの第１の例について説明するための説明図である。辞書サーバにより取得される辞書のサブセットの第２の例について説明するための説明図である。辞書サーバにより取得される辞書のサブセットの第３の例について説明するための説明図である。辞書サーバにより取得される辞書のサブセットの第４の例について説明するための説明図である。付加情報データベースにより記憶されるデータの一例について説明するための説明図である。第１の変形例に係る辞書サーバの論理的機能の構成の一例を示すブロック図である。第１の変形例における特徴量辞書の生成について説明するための第１の説明図である。第１の変形例における特徴量辞書の生成について説明するための第２の説明図である。第２の変形例に係る辞書サーバの論理的機能の構成の一例を示すブロック図である。第２の変形例において取得される辞書のサブセットの一例について説明するための説明図である。一実施形態に係る端末装置による処理の流れの一例を示すフローチャートである。一実施形態に係る辞書サーバによる処理の流れの一例を示すフローチャートである。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付すことにより重複説明を省略する。

また、以下の順序にしたがって当該「発明を実施するための形態」を説明する。
１．システムの概要
２．一実施形態に係る端末装置の構成例
２−１．ハードウェア構成
２−２．論理的な構成
３．一実施形態に係る辞書サーバの構成例
３−１．ハードウェア構成
３−２．論理的な構成
３−３．変形例
４．一実施形態に係る処理の流れ
４−１．端末側の処理
４−２．サーバ側の処理
５．まとめ

＜１．システムの概要＞
図１は、本明細書で開示する技術が適用され得る物体識別システムの概要を示す説明図である。図１を参照すると、一実施形態に係る物体識別システム１が示されている。物体識別システム１は、端末装置１００及び辞書サーバ２００を含む。

端末装置１００は、撮像装置により撮像される画像に映る物体を識別する装置である。端末装置１００は、スマートフォン又はＰＤＡ（Personal Digital Assistant）などの、ユーザにより携帯される携帯端末であってもよい。また、端末装置１００は、ＰＣ（Personal Computer）、デジタル家電機器、ゲーム機器又は作業用ロボットなどのその他の種類の装置であってもよい。撮像装置は、端末装置１００に内蔵されてもよい。その代わりに、撮像装置は、端末装置１００の外部に設けられ、端末装置１００と有線又は無線で接続されてもよい。

端末装置１００は、画像に映る物体を識別するにあたり、画像から抽出される特徴量を１つ以上の物体についての既知の特徴量の集合である特徴量辞書と照合する。そして、端末装置１００は、照合によって算出されるスコア（以下、照合スコアという）に基づき、いずれの物体が画像に映っているかを識別する。なお、本明細書において、既知のある物体の特徴量についての照合スコアが「高い」とは、当該物体が入力画像に映っている可能性が高いことを意味する。例えば、ある特定の位置及び姿勢において既知の特徴量と入力画像の特徴量との間の差異がゼロに近ければ、当該入力画像にはその特徴量に対応する物体がその位置及び姿勢で映っている可能性が高い。このような状況を、本明細書では、（差異の評価値自体は小さいものの）照合スコアが「高い」という。即ち、端末装置１００は、画像に映っている物体の当該画像内での位置及び姿勢をも識別し得る。このような物体識別の結果を利用する様々なアプリケーションが、端末装置１００には搭載され得る。本明細書では、物体識別の結果を利用するＡＲアプリケーションが端末装置１００に搭載される例を主に説明する。しかしながら、端末装置１００において、他の目的（例えば、監視、環境認識又は作業支援など）を有するアプリケーションが物体識別の結果を利用してもよい。

辞書サーバ２００は、物体識別のための特徴量辞書を端末装置１００に提供する情報処理装置である。辞書サーバ２００は、ネットワーク３を介して端末装置１００と通信する。ネットワーク３は、インターネット、プロバイダネットワーク又は企業ネットワークなどのいかなる種類のネットワークであってもよい。本実施形態において、辞書サーバ２００は、端末装置１００から画像を受信する。そして、辞書サーバ２００は、受信した画像に映る物体を識別し、その識別結果に応じた特徴量辞書を端末装置１００に提供する。

図２は、本実施形態において端末装置１００の画面上に表示され得る画像について説明するための説明図である。図２に例示された画像は、ＡＲアプリケーションの画像である。図２を参照すると、端末装置１００の画面上に、実空間に存在する建物１０を映した画像が表示されている。また、当該画像には、付加情報１２が重畳されている。付加情報１２は、建物１０において営業されているレストランの名称及びレーティングを示す情報である。このような付加情報は、端末装置１００における物体識別の結果に基づいて選択され、画像内の物体の位置に合わせて重畳される。本実施形態では、このように画像に重畳される付加情報のデータベースもまた、辞書サーバ２００から端末装置１００へ提供される。

＜２．一実施形態に係る端末装置の構成例＞
［２−１．ハードウェア構成］
図３は、本実施形態に係る端末装置１００のハードウェア構成の一例を示すブロック図である。図３を参照すると、端末装置１００は、撮像部１０２、センサ部１０４、入力部１０６、記憶部１０８、表示部１１２、通信部１１４、バス１１８及び制御部１２０を備える。

（撮像部）
撮像部１０２は、画像を撮像するカメラモジュールである。撮像部１０２は、ＣＣＤ（Charge Coupled Device）又はＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの撮像素子を用いて実空間を撮像することにより、物体識別のための入力画像を生成する。

（センサ部）
センサ部１０４は、端末装置１００の位置及び姿勢の認識を支援するセンサ群である。例えば、センサ部１０４は、ＧＰＳ（Global Positioning System）信号を受信して端末装置１００の緯度、経度及び高度を測定するＧＰＳセンサを含んでもよい。また、センサ部１０４は、無線アクセスポイントから受信される無線信号の強度に基づいて端末装置１００の位置を測定する測位センサを含んでもよい。また、センサ部１０４は、端末装置１００の傾き角を測定するジャイロセンサ、３軸加速度を測定する加速度センサ、又は方位を測定する地磁気センサを含んでもよい。なお、端末装置１００が画像認識に基づく位置推定機能及び姿勢推定機能を有する場合には、センサ部１０４は端末装置１００の構成から省略されてもよい。

（入力部）
入力部１０６は、ユーザが端末装置１００を操作し又は端末装置１００へ情報を入力するために使用される入力デバイスである。入力部１０６は、例えば、キーボード、キーパッド、マウス、ボタン、スイッチ又はタッチパネルなどを含み得る。入力部１０６は、入力画像に映るユーザのジェスチャを認識するジェスチャ認識モジュールを含んでもよい。また、入力部１０６は、ＨＭＤ（Head Mounted Display）を装着したユーザの視線方向をユーザ入力として検出する視線検出モジュールを含んでもよい。

（記憶部）
記憶部１０８は、半導体メモリ又はハードディスクなどの記憶媒体により構成され、端末装置１００による処理のためのプログラム及びデータを記憶する。例えば、記憶部１０８は、撮像部１０２により生成される入力画像及びセンサ部１０４により測定されるセンサデータを一時的に記憶する。また、記憶部１０８は、通信部１１４を介して辞書サーバ２００から受信されるデータを記憶する。辞書サーバ２００から受信されるデータの例について、後に詳細に説明する。

（表示部）
表示部１１２は、ＬＣＤ（Liquid Crystal Display）、ＯＬＥＤ（Organic light-Emitting Diode）又はＣＲＴ（Cathode Ray Tube）などにより構成される表示モジュールである。表示部１１２は、例えば、撮像部１０２により撮像される入力画像、又は物体識別の結果を利用するアプリケーションの画像（例えば、図２に例示したＡＲアプリケーションの画像）を画面上に表示する。表示部１１２は、端末装置１００の一部であってもよく、又は端末装置１００の外部に設けられてもよい。また、表示部１１２は、ユーザにより装着されるＨＭＤであってもよい。

（通信部）
通信部１１４は、端末装置１００による辞書サーバ２００との間の通信を仲介する通信インタフェースである。通信部１１４は、任意の無線通信プロトコル又は有線通信プロトコルをサポートし、辞書サーバ２００との間の通信接続を確立する。それにより、端末装置１００が辞書サーバ２００に画像を送信し及び辞書サーバ２００から特徴量辞書を受信することが可能となる。

（バス）
バス１１８は、撮像部１０２、センサ部１０４、入力部１０６、記憶部１０８、表示部１１２、通信部１１４及び制御部１２０を相互に接続する。

（制御部）
制御部１２０は、ＣＰＵ（Central Processing Unit）又はＤＳＰ（Digital Signal Processor）などのプロセッサに相当する。制御部１２０は、記憶部１０８又は他の記憶媒体に記憶されるプログラムを実行することにより、後に説明する端末装置１００の様々な機能を動作させる。

［２−２．論理的な構成］
図４は、図３に示した端末装置１００の記憶部１０８及び制御部１２０により実現される論理的機能の構成の一例を示すブロック図である。図４を参照すると、端末装置１００は、画像取得部１３０、送信部１４０、受信部１５０、辞書キャッシュ１６０、識別部１７０、付加情報キャッシュ１８０及び表示制御部１９０を含む。

（画像取得部）
画像取得部１３０は、撮像部１０２により生成される入力画像を取得する。そして、画像取得部１３０は、取得した入力画像を送信部１４０及び識別部１７０へ順次出力する。

（送信部）
送信部１４０は、所定のトリガイベントが検出されると、画像取得部１３０から入力される入力画像を通信部１１４を介して辞書サーバ２００へ送信する。辞書サーバ２００は、上述したように、既知の物体についての画像特徴量の集合である特徴量辞書を保持しているサーバである。

送信部１４０からの入力画像の送信の契機となるトリガイベントは、例えば、次のうち１つ以上のイベントであってよい。
ａ）周期的なタイミングの到来：ｎフレームごとに１度又はｔ秒ごとに１度などの周期で、入力画像が送信される。周期は、典型的には、入力画像の送信の頻度が識別部１７０による物体の識別の頻度よりも少なくなるように予め設定される。
ｂ）ユーザ指示：入力部１０６を介するユーザからの明示的な指示に応じて入力画像が送信される。
ｃ）追跡中の物体のフレームアウト：物体識別の結果として識別されていた物体が画像からフレームアウトすると、入力画像が送信される。
ｄ）新たな物体のフレームイン：物体識別の結果として新たな物体が画像内に存在することが検出されると、入力画像が送信される。新たな物体とは、画像内に存在していなかった既知の物体、及び未知の物体を含み得る。既知の物体は、例えば顔認識などの簡易な認識技術を用いて検出されてもよい。また、例えば、現在のフレームと前のフレームとの差分（動き補償が適用された上での差分であってもよい）から動物体が認識され、認識された動物体がどのような物体であるかを識別できない場合には、未知の新たな物体がフレームインしたと判定され得る。このような差分画像に基づく動物体の検出は、例えば、物体識別によって画像内で何らの物体も識別されない場合にのみ行われてもよい。
ｅ）端末装置の移動：端末装置１００の位置若しくは向きの変化又は速度の上昇などが検出されると、入力画像が送信される。
周期的な入力画像の送信は、画像の内容に依存することなく継続して物体識別を行うことが望ましい場合に採用され得る。ユーザ指示に応じた入力画像の送信は、例えば、画面に表示されている物体を識別し又は追跡することをユーザが望む場合などに採用され得る。他のトリガイベントは、新たな物体が画像に映る可能性が高いことを想定したイベントであり、これらトリガイベントに応じて入力画像が送信され、特徴量辞書が辞書サーバ２００から提供されることで、新たな物体を適切に識別することを可能とする。

送信部１４０は、入力画像と共に、辞書サーバ２００による特徴量辞書の取得を補助する補助情報を辞書サーバ２００へ送信してもよい。補助情報とは、例えば、入力画像が撮像された際の（端末装置１００又は撮像装置の）位置、日付及び時刻、並びに端末装置１００のケイパビリティ情報のうち少なくとも１つを含み得る。位置及び日時は、辞書サーバ２００において特徴量辞書をフィルタリングする際に使用され得る。端末装置１００のケイパビリティ情報は、辞書サーバ２００が端末装置１００に提供すべき特徴量辞書のデータ量を決定する際に使用され得る。これら補助情報の活用について、後にさらに説明する。

（受信部）
受信部１５０は、送信部１４０から辞書サーバ２００へ入力画像が送信された後、辞書サーバ２００において当該入力画像についての物体の識別結果に応じて取得される特徴量辞書を、辞書サーバ２００から受信する。受信部１５０により受信される特徴量辞書は、辞書サーバ２００が有している特徴量辞書よりもデータ量の少ない辞書である。端末装置１００に提供される特徴量辞書が辞書サーバ２００においてどのように取得されるかについて、後にさらに説明する。

受信部１５０は、特徴量辞書を受信すると、受信した特徴量辞書を辞書キャッシュ１６０に記憶させる。本実施形態において、特徴量辞書に含まれる各特徴量には、物体を一意に識別するための識別子（以下、物体ＩＤという）が関連付けられる。受信部１５０は、辞書キャッシュ１６０により記憶されている特徴量と同じ物体ＩＤを有する特徴量を新たに受信した場合には、辞書キャッシュ１６０の特徴量を新たに受信した特徴量で更新してもよい。また、受信部１５０は、受信した各特徴量に受信タイムスタンプを付し、受信タイムスタンプから所定の期間が経過した特徴量を、辞書キャッシュ１６０から自動的に削除してもよい。その代わりに、辞書キャッシュ１６０からの特徴量の削除は、端末装置１００の移動量又は関連付けられている物体の画像からのフレームアウトを契機として行われてもよい。

さらに、本実施形態では、受信部１５０は、辞書サーバ２００において物体の識別結果に応じて取得される付加情報データベースを、辞書サーバ２００から受信する。受信部１５０により受信される付加情報データベースは、辞書サーバ２００が予め有している付加情報データベースよりもデータ量の少ないデータベースである。受信部１５０は、受信した付加情報データベースを付加情報キャッシュ１８０に記憶させる。

（辞書キャッシュ）
辞書キャッシュ１６０は、図３に示した記憶部１０８を用いて、受信部１５０により受信される特徴量辞書を記憶する。辞書キャッシュ１６０により記憶される特徴量辞書は、識別部１７０による物体識別の際に参照される。

（識別部）
識別部１７０は、画像取得部１３０から入力される入力画像の特徴量を抽出し、抽出した特徴量を辞書キャッシュ１６０により記憶されている特徴量辞書と照合することにより、入力画像に映る物体を識別する。識別部１７０が用いる特徴量抽出アルゴリズムは、例えば、上記非特許文献２に記載されたRandom Ferns法、又は“SURF: Speeded Up Robust Features”（H.Bay, A.Ess, T.Tuytelaars and L.V.Gool, Computer Vision and Image Understanding(CVIU), Vol.110, No.3, pp.346--359, 2008）に記載されたＳＵＲＦ法などであってよい。これらアルゴリズムは、比較的処理コストが少なく高速に動作し得る、軽量なアルゴリズムである。識別部１７０による物体識別の結果として、典型的には、入力画像に映る物体の物体ＩＤ、並びに当該物体の入力画像内での位置及び姿勢が導かれる。そして、識別部１７０は、物体識別の結果を表示制御部１９０へ出力する。

（付加情報キャッシュ）
付加情報キャッシュ１８０は、図３に示した記憶部１０８を用いて、受信部１５０により受信される付加情報データベースを記憶する。次に説明する表示制御部１９０は、付加情報キャッシュ１８０により記憶される付加情報データベースから、入力画像に重畳すべき付加情報を選択する。

（表示制御部）
表示制御部１９０は、識別部１７０により識別される物体と関連する付加情報を付加情報キャッシュ１８０により記憶されている付加情報データベースから取得し、取得した付加情報を入力画像に重畳することにより、出力画像を生成する。そして、表示制御部１９０は、生成した出力画像を表示部１１２へ出力する。

入力画像に重畳される付加情報は、いかなる情報であってもよい。例えば、入力画像に重畳される付加情報は、図２に例示したような、入力画像に映る建物と関連付けられている広告情報及びレーティング情報などであってもよい。付加情報の他の例について、後にさらに説明する。

＜３．一実施形態に係る辞書サーバの構成例＞
［３−１．ハードウェア構成］
図５は、本実施形態に係る辞書サーバ２００のハードウェア構成の一例を示すブロック図である。図５を参照すると、辞書サーバ２００は、記憶部２０８、通信部２１４、バス２１８及び制御部２２０を備える。

（記憶部）
記憶部２０８は、半導体メモリ又はハードディスクなどの記憶媒体により構成され、辞書サーバ２００による処理のためのプログラム及びデータを記憶する。記憶部２０８は、端末装置１００の記憶部１０８と比較して、より豊富な記憶容量を有し得る。記憶部２０８は、後に説明する特徴量辞書及び付加情報データベースを予め記憶している。

（通信部）
通信部２１４は、辞書サーバ２００による端末装置１００との間の通信を仲介する通信インタフェースである。通信部２１４は、任意の無線通信プロトコル又は有線通信プロトコルをサポートし、端末装置１００との間の通信接続を確立する。それにより、辞書サーバ２００が端末装置１００から画像を受信し、並びに端末装置１００へ特徴量辞書及び付加情報データベースを送信することが可能となる。

（バス）
バス２１８は、記憶部２０８、通信部２１４及び制御部２２０を相互に接続する。

（制御部）
制御部２２０は、ＣＰＵ又はＤＳＰなどのプロセッサに相当する。制御部２２０は、端末装置１００の制御部１２０と比較して、より高い演算性能を有し得る。制御部２２０は、記憶部２０８又は他の記憶媒体に記憶されるプログラムを実行することにより、後に説明する辞書サーバ２００の様々な機能を動作させる。

［３−２．論理的な構成］
図６は、図５に示した辞書サーバ２００の記憶部２０８及び制御部２２０により実現される論理的機能の構成の一例を示すブロック図である。図６を参照すると、辞書サーバ２００は、受信部２３０、第１のアルゴリズム（Ａｒｇ１）についての特徴量辞書２４０、第２のアルゴリズム（Ａｒｇ２）についての特徴量辞書２４２、識別部２５０、辞書取得部２６０、付加情報データベース（ＤＢ）２７０、付加情報取得部２８０及び送信部２９０を含む。

（受信部）
受信部２３０は、端末装置１００から送信される入力画像を待ち受ける。そして、受信部２３０は、通信部２１４を介して入力画像を受信すると、受信した入力画像を識別部２５０へ出力する。また、受信部２３０は、上述した補助情報が入力画像と共に受信されると、当該補助情報を識別部２５０及び辞書取得部２６０へ出力する。

（特徴量辞書）
特徴量辞書（Ａｒｇ１）２４０及び特徴量辞書（Ａｒｇ２）２４２は、記憶部２０８により予め記憶されている特徴量の集合である。特徴量辞書（Ａｒｇ１）２４０の各特徴量は、既知の物体画像から第１のアルゴリズムに従って抽出される。特徴量辞書（Ａｒｇ２）２４２の各特徴量は、同様の既知の物体画像から第２のアルゴリズムに従って抽出される。典型的には、第１のアルゴリズムは、第２のアルゴリズムと比較してより精度の高い物体識別を可能とする特徴量抽出アルゴリズムである。一方、第２のアルゴリズムは、第１のアルゴリズムと比較してより高速に実行可能な特徴量抽出アルゴリズムである。第１のアルゴリズムは、例えば、上記特許文献１に記載された特徴量抽出アルゴリズムであってよい。その代わりに、第１のアルゴリズムは、“Shape Matching and Object Recognition Using Shape Contexts”（S.Belongie， J.Malik， and J.Puzicha， IEEE Trans. Pattern Analysis and Machine Intelligence， vol.2， no.4， pp.509--522， April 2002）に記載されたアルゴリズム、又は“Distinctive image features from scale-invariant keypoints”（D.G.Lowe， Internal Journal of Computer Vision， 60， 2， pp.91--110， January 2004）に記載されたアルゴリズムなどであってもよい。第２のアルゴリズムは、上述した端末装置１００の識別部１７０による物体の識別の際にも用いられる特徴量抽出アルゴリズム（例えば、Random Ferns法又はＳＵＲＦ法など）である。以下の説明では、第１のアルゴリズムを高精度アルゴリズム、第２のアルゴリズムを軽量アルゴリズムという。

特徴量辞書（Ａｒｇ１）２４０の特徴量と特徴量辞書（Ａｒｇ２）２４２の特徴量とは、共通する物体ＩＤを用いてリンク付けされる。即ち、同じ物体ＩＤについての特徴量が、特徴量辞書（Ａｒｇ１）２４０及び特徴量辞書（Ａｒｇ２）２４２の双方に含まれる。

図７は、辞書サーバ２００により記憶される特徴量辞書の一例について説明するための説明図である。図７を参照すると、特徴量辞書（Ａｒｇ１）２４０は、８個の物体Ｂ_１〜Ｂ_８を含む複数の物体の各々についての、既知の物体画像から高精度アルゴリズムに従って予め抽出された特徴量を含む。各物体には、それぞれ名称が付与されている。特徴量辞書（Ａｒｇ２）２４２は、同じく８個の物体Ｂ_１〜Ｂ_８を含む複数の物体の各々についての、軽量アルゴリズムに従って予め抽出された特徴量を含む。各物体の物体ＩＤは、これら２つの特徴量辞書の間で共通である。即ち、例えば特徴量辞書２４２の物体Ｂ_１についての特徴量は、特徴量辞書２４０の物体Ｂ_１についての特徴量と同じく、建物Ａの画像から抽出された特徴量である。

図７の例に限定されず、特徴量辞書２４０及び２４２は、追加的なデータを含んでもよい。後に説明するいくつかの例において、特徴量辞書２４０は、端末装置１００に提供すべき特徴量辞書の効率的な取得を支援するための追加的なデータを含む。但し、特徴量辞書２４０の代わりに（又は特徴量辞書２４０に加えて）特徴量辞書２４２が、そうした追加的なデータを含んでもよい。

（識別部）
識別部２５０は、受信部２３０により受信される入力画像の特徴量を高精度アルゴリズムに従って抽出し、抽出した特徴量を特徴量辞書（Ａｒｇ１）２４０と照合することにより、入力画像に映る１つ以上の物体を識別する。そして、識別部２５０は、識別した物体の物体ＩＤと照合スコアとを、辞書取得部２６０及び付加情報取得部２８０へ出力する。

（辞書取得部）
辞書取得部２６０は、識別部２５０による識別結果に応じて、端末装置１００へ提供すべき特徴量辞書を取得する。辞書取得部２６０により取得される特徴量辞書は、上述した特徴量辞書（Ａｒｇ１）２４０及び特徴量辞書（Ａｒｇ２）２４２よりもデータ量の少ない、特徴量辞書（Ａｒｇ２）２４２のサブセットである。以下、辞書取得部２６０による辞書のサブセットの取得の４つの例について、図８〜図１１を用いて説明する。

（１）第１の例
図８は、辞書取得部２６０により取得される辞書のサブセットの第１の例について説明するための説明図である。図８を参照すると、識別部２５０による識別結果として得られる照合スコアのランク（順位）が、特徴量辞書（Ａｒｇ１）２４０の物体ＩＤごとに示されている。図８の例では、物体Ｂ_１の照合スコアが最も高く、ランクは第１位である。物体Ｂ_２の照合スコアは次に高く、ランクは第２位である。物体Ｂ_６の照合スコアのランクは、第ｋ位である。辞書取得部２６０は、例えば、このような照合スコアの上位ｋ個の物体についての特徴量を特徴量辞書（Ａｒｇ２）２４２から取得する。そして、辞書取得部２６０は、取得した特徴量を含む特徴量辞書のサブセット２４２ａを、端末装置１００へ提供すべき特徴量辞書として送信部２９０へ出力する。

なお、特徴量辞書のサブセット２４２ａに含めるべきデータ量（例えば、特徴量の数ｋ）は、端末装置１００から補助情報として受信される端末装置１００のケイパビリティ情報に応じて、動的に決定されてもよい。端末装置１００のケイパビリティは、例えば、処理可能なデータ件数、プロセッサのコア数又はメモリ容量などにより表現され得る。

（２）第２の例
図９は、辞書取得部２６０により取得される辞書のサブセットの第２の例について説明するための説明図である。第２の例では、特徴量辞書（Ａｒｇ１）２４０は、各物体について、「物体ＩＤ」、「名称」及び「特徴量」に加えて、予め定義される「共起物体」というデータを有する。「共起物体」は、各物体と共起する可能性が高い物体のリストを表す。本明細書において、第１の物体の近傍に第２の物体が存在することを、第１の物体と第２の物体とが「共起する」という。図９の例では、物体Ｂ_４の共起物体は、物体Ｂ_５及び物体Ｂ_９である。これは、入力画像に物体Ｂ_４（信号機Ｄ）が映っていると識別された場合に、後に続く入力画像に物体Ｂ_５（自動車Ｅ）又は物体Ｂ_９（標識Ｉ）が映る可能性が高いことを意味する。辞書取得部２６０は、このようなデータを用いて、入力画像に既に映っている物体についての特徴量のみならず、後に続く入力画像に映ると予測される物体についての特徴量を取得し得る。図９の例では、辞書取得部２６０は、照合スコアが上位であった物体Ｂ_４についての特徴量に加えて、後に続く入力画像に映ると予測される物体Ｂ_５及び物体Ｂ_９についての特徴量を特徴量辞書（Ａｒｇ２）２４２から取得している。そして、辞書取得部２６０は、取得した特徴量を含む特徴量辞書のサブセット２４２ｂを送信部２９０へ出力する。

（３）第３の例
図１０は、辞書取得部２６０により取得される辞書のサブセットの第３の例について説明するための説明図である。第３の例においても、辞書取得部２６０は、入力画像に既に映っている物体についての特徴量のみならず、後に続く入力画像に映ると予測される物体についての特徴量を取得する。但し、第３の例では、後に続く入力画像に映ると予測される物体とは、入力画像に既に映っている物体の近傍に位置することが位置データから判定される物体である。図１０を参照すると、特徴量辞書（Ａｒｇ１）２４０は、各物体についての位置データ（緯度及び経度、又はその他の座標データ）を有する。例えば、物体Ｂ_１の位置はＸ_１、物体Ｂ_２の位置はＸ_２、物体Ｂ_３の位置はＸ_３である。このうち、位置Ｘ_１と位置Ｘ_２との間の距離は閾値Ｄよりも小さいものとする。辞書取得部２６０は、物体Ｂ_１の照合スコアが上位であった場合に、このような位置データに基づいて、物体Ｂ_１についての特徴量に加えて、物体Ｂ_１の近傍に位置する物体Ｂ_２についての特徴量を特徴量辞書（Ａｒｇ２）２４２から取得する。そして、辞書取得部２６０は、取得した特徴量を含む特徴量辞書のサブセット２４２ｃを送信部２９０へ出力する。

なお、図１０に例示した位置データは、特徴量辞書のフィルタリングのために使用されてもよい。例えば、辞書取得部２６０は、照合スコアの上位ｋ個の物体のうち端末装置１００の近傍に位置する物体についての特徴量のみを取得してもよい。また、識別部２５０は、端末装置１００の近傍に位置する物体についての特徴量のみを、入力画像から抽出される特徴量との照合の対象としてもよい。端末装置１００の位置は、端末装置１００から受信される補助情報から認識され得る。

（４）第４の例
図１１は、辞書取得部２６０により取得される辞書のサブセットの第４の例について説明するための説明図である。図１１を参照すると、特徴量辞書（Ａｒｇ１）２４０は、各物体について、「物体ＩＤ」、「名称」及び「特徴量」に加えて、「照明条件」というデータを有する。「照明条件」は、例えば、既知の物体画像が撮像された際の照明条件を表す区分であってよい。照明条件は、例えば、撮像された時間帯もしくは撮像された季節などのような時間に関する条件、又は天候に関する条件によって互いに区別される。特徴量辞書（Ａｒｇ１）２４０は、このような照明条件が互いに異なる状況において同じ物体をそれぞれ撮像した画像から抽出される、複数の種類の特徴量を含み得る。図１１の例では、物体Ｂ_２について、照明条件Ｌ１（例えば、“朝”又は“晴れ”）に対応する特徴量、照明条件Ｌ２（例えば、“昼”又は“曇り”）に対応する特徴量、及び照明条件Ｌ３（例えば、“夕方”又は“雨”）に対応する特徴量が特徴量辞書（Ａｒｇ１）２４０に含まれている。物体Ｂ_３についても同様に、照明条件Ｌ１、Ｌ２及びＬ３に対応する特徴量が特徴量辞書（Ａｒｇ１）２４０に含まれている。このように、撮像された際の照明条件が互いに異なる同じ物体についての複数の特徴量を特徴量辞書（Ａｒｇ１）２４０が含んでいることで、識別部２５０による物体の識別が、照明条件の違いに起因する物体の見え方の違いの影響を受けにくくなる。図１１の例では、例えば物体Ｂ_２が映っている入力画像が受信された場合に、入力画像の特徴量と照明条件Ｌ１及びＬ２に対応する特徴量との照合スコアは低いものの、照明条件Ｌ３に対応する特徴量との照合スコアが高いために、物体Ｂ_２についての特徴量が適切に特徴量辞書のサブセット２４２ｄに含まれている。

なお、図１１に例示した照明条件データもまた、特徴量辞書のフィルタリングのために使用されてよい。例えば、辞書取得部２６０は、照合スコアの上位ｋ個の物体の特徴量のうち、入力画像が撮像された際の日時の属する照明条件とは異なる照明条件に対応する特徴量を、特徴量のサブセット２４２ｄから除外してもよい。また、識別部２５０は、当該日時の属する照明条件に対応する特徴量のみを、入力画像から抽出される特徴量との照合の対象としてもよい。入力画像が撮像された際の日時は、端末装置１００から受信される補助情報から認識され得る。

（付加情報ＤＢ）
付加情報ＤＢ２７０は、実空間に存在する物体と関連付けられる付加情報の集合である。ＡＲの分野では、付加情報は、アノテーションとも呼ばれる。図１２は、付加情報ＤＢにより記憶されるデータの一例について説明するための説明図である。図１２を参照すると、付加情報ＤＢ２７０において、「種別」及び「内容」という２つのデータ項目を含む付加情報が、各物体の物体ＩＤと関連付けられている。「種別」は、個々の付加情報の種類を表す。「内容」は、個々の付加情報の実体としてのテキストデータ、図形データ又は画像データなどであってよい。図１２の例では、物体Ｂ_１に広告情報及びレーティング情報が関連付けられている。また、物体Ｂ_２、Ｂ_４及びＢ_５にそれぞれ広告情報、注意喚起情報及び車種情報が関連付けられている。

（付加情報取得部）
付加情報取得部２８０は、識別部２５０による識別結果に応じて端末装置１００へ提供すべき付加情報を付加情報ＤＢ２７０から取得し、データ量のより少ない付加情報データベースのサブセットを生成する。そして、付加情報取得部２８０は、生成した付加情報データベースのサブセットを送信部２９０へ出力する。付加情報取得部２８０は、典型的には、辞書取得部２６０により取得される特徴量辞書のサブセットと物体ＩＤが共通する付加情報の集合を、付加情報ＤＢ２７０から取得する。即ち、付加情報取得部２８０もまた、照合スコアの上位ｋ個の物体に対応する付加情報の集合を付加情報ＤＢ２７０から取得してもよい。また、付加情報取得部２８０は、後に続く入力画像に映ると予測される物体に対応する付加情報を、付加情報ＤＢ２７０からさらに取得してもよい。

（送信部）
送信部２９０は、通信部２１４を介して、辞書取得部２６０により取得される特徴量辞書のサブセットを端末装置１００へ送信する。その際、送信部２９０は、識別された物体が過去に識別された物体とは異なる新たな物体を含むか否かを判定し、新たな物体が識別された場合にのみ、当該新たな物体についての特徴量辞書のサブセットを端末装置１００へ送信してもよい。それにより、入力画像に同じ物体が継続して映っている場合に、冗長的な特徴量辞書の送信が省略され、トラフィックの負荷が軽減される。また、送信部２９０は、付加情報取得部２８０により生成される付加情報データベースのサブセットを端末装置１００へ送信する。付加情報データベースのサブセットもまた、新たな物体が識別された場合にのみ送信されてよい。

［３−３．変形例］
次に、辞書サーバ２００の２つの変形例を説明する。

（１）第１の変形例
図１３は、第１の変形例に係る辞書サーバ２００の論理的機能の構成の一例を示すブロック図である。図１３を参照すると、辞書サーバ２００は、受信部２３２、高精度アルゴリズム（Ａｒｇ１）についての特徴量辞書２４０、軽量アルゴリズム（Ａｒｇ２）についての特徴量辞書２４２、識別部２５２、辞書取得部２６２、付加情報ＤＢ２７０、付加情報取得部２８０及び送信部２９０を含む。

受信部２３２は、端末装置１００から送信される入力画像を待ち受ける。そして、受信部２３２は、通信部２１４を介して入力画像を受信すると、受信した入力画像を識別部２５２及び辞書取得部２６２へ出力する。

識別部２５２は、受信部２３２により受信される入力画像の特徴量を高精度アルゴリズムに従って抽出し、抽出した特徴量を特徴量辞書（Ａｒｇ１）２４０と照合することにより、入力画像に映る１つ以上の物体を識別する。また、識別部２５２は、入力画像に映る物体の位置及び姿勢を識別する。そして、識別部２５２は、識別した物体の物体ＩＤ、位置及び姿勢を辞書取得部２６２へ出力する。また、識別部２５２は、識別した物体の物体ＩＤを付加情報取得部２８０へ出力する。

辞書取得部２６２は、識別部２５２による識別結果に応じて、端末装置１００へ提供すべき特徴量辞書を生成する。より具体的には、辞書取得部２６２は、まず、識別部２５２により識別された物体の入力画像内での位置を認識し、各物体が映っている領域の部分画像を入力画像から切り出す。そして、辞書取得部２６２は、切り出した部分画像から軽量アルゴリズムに従って特徴量を抽出する。辞書取得部２６２は、このように抽出した各物体の特徴量に識別部２５２から入力された物体ＩＤを関連付けて、軽量アルゴリズムについての特徴量辞書を生成する。この場合、辞書サーバ２００の構成から、軽量アルゴリズム（Ａｒｇ２）についての特徴量辞書２４２は省略されてよい。その代わりに、辞書取得部２６２は、部分画像から抽出される特徴量（即ち、追加学習される特徴量）を、特徴量辞書２４２から取得される特徴量のサブセットに追加することにより、新たな特徴量辞書を生成してもよい。辞書取得部２６２は、このように生成される特徴量辞書を送信部２９０へ出力し、当該特徴量辞書を送信部２９０から端末装置１００へ送信させる。

また、辞書取得部２６２は、軽量アルゴリズムに従って抽出した特徴量から、色、明るさ又はボケの程度などのパラメータを変化させた特徴量のバリエーションをさらに生成してもよい。これら特徴量のバリエーションもまた、新たな特徴量辞書を構成し得る。

図１４及び図１５は、第１の変形例における辞書取得部２６２による特徴量辞書の生成について説明するための説明図である。図１４を参照すると、入力画像Ｉｍ１に映る物体Ｂ_１及びＢ_４が、特徴量辞書２４０及び高精度アルゴリズムを用いて識別されている。すると、辞書取得部２６２は、図１５に示したように、入力画像Ｉｍ１から物体Ｂ_１が映る部分画像Ａ１及び物体Ｂ_４が映る部分画像Ａ２を切り出す。そして、辞書取得部２６２は、軽量アルゴリズムに従って部分画像Ａ１及び部分画像Ａ２からそれぞれ特徴量を抽出する。また、辞書取得部２６２は、抽出した特徴量から、色又は明るさなどのパラメータの異なる特徴量のバリエーションを生成する。そして、辞書取得部２６２は、各特徴量に物体ＩＤを付すことにより、端末装置１００へ提供される新たな特徴量辞書２４２ｄを形成する。

第１の変形例によれば、辞書サーバ２００により入力画像から動的に生成される特徴量辞書が端末装置１００へ提供される。かかる特徴量辞書は、端末装置１００が存在する環境（撮像環境又は照明環境など）に特に適合した特徴量を含む、データ量の少ない特徴量辞書である。そのため、端末装置１００は、その後の入力画像から、高精度かつ少ない処理コストで、入力画像に映る物体並びに当該物体の位置及び姿勢を識別することができる。

（２）第２の変形例
ここまでに説明した例では、軽量アルゴリズムのための特徴量辞書のサブセットが辞書サーバ２００から端末装置１００へ提供される。しかしながら、本項で説明する第２の変形例のように、辞書サーバ２００は、高精度アルゴリズムのための特徴量辞書のサブセットを端末装置１００へ提供してもよい。

図１６は、第２の変形例に係る辞書サーバ２００の論理的機能の構成の一例を示すブロック図である。図１６を参照すると、辞書サーバ２００は、受信部２３０、高精度アルゴリズム（Ａｒｇ１）についての特徴量辞書２４０、識別部２５０、辞書取得部２６４、付加情報ＤＢ２７０、付加情報取得部２８０及び送信部２９０を含む。

辞書取得部２６４は、識別部２５０による識別結果に応じて、端末装置１００へ提供すべき特徴量辞書のサブセットを特徴量辞書（Ａｒｇ１）２４０から取得する。例えば、図１７には、識別部２５０による識別結果として得られる照合スコアのランクが再び示されている。図１７の例では、物体Ｂ_１の照合スコアのランクは第１位、物体Ｂ_２の照合スコアのランクは第２位、物体Ｂ_６の照合スコアのランクは第ｋ位である。辞書取得部２６４は、例えば、このような照合スコアの上位ｋ個の物体についての特徴量を特徴量辞書（Ａｒｇ１）２４０から取得し、取得した特徴量を含む特徴量辞書のサブセット２４０ａを形成する。そして、送信部２９０は、特徴量辞書のサブセット２４０ａを端末装置１００へ送信する。

第２の変形例が適用される場合、端末装置１００の識別部１７０は、高精度アルゴリズムに従って入力画像から特徴量を抽出し、抽出した特徴量を辞書サーバ２００から提供される特徴量辞書のサブセットと照合する。この場合、軽量アルゴリズムを使用する例と比較して、特徴量の抽出に要する端末装置１００の処理コストは多くなる。しかし、辞書キャッシュ１６０には、辞書サーバ２００の特徴量辞書の全体ではなく、そのサブセットのみが記憶される。そのため、端末装置１００が特徴量辞書の全体を有する場合と比較すれば、端末装置１００における特徴量の照合の処理コスト及び消費されるメモリリソースは、格段に少なくて済む。

なお、ここでは端末装置１００の送信部１４０が辞書サーバ２００へ入力画像を送信する例について主に説明した。しかしながら、端末装置１００の送信部１４０は、入力画像を送信する代わりに、識別部１７０により入力画像から抽出される特徴量を辞書サーバ２００へ送信してもよい。その場合、辞書サーバ２００の識別部２５０は、受信部２３０により受信される入力画像の特徴量を特徴量辞書（Ａｒｇ１）２４０と照合し得る

＜４．一実施形態に係る処理の流れ＞
［４−１．端末側の処理］
図１８は、本実施形態に係る端末装置１００による処理の流れの一例を示すフローチャートである。

図１８を参照すると、まず、端末装置１００の画像取得部１３０は、入力画像を取得する（ステップＳ１０２）。次に、送信部１４０は、上述した所定のトリガイベント（例えば、周期的なタイミングの到来又はユーザ指示など）が検出されたか否かを判定する（ステップＳ１０４）。ここで、トリガイベントが検出されていなければ、その後のステップＳ１０６〜Ｓ１１０の処理はスキップされる。一方、トリガイベントが検出されると、送信部１４０は、入力画像（及び必要に応じて補助情報）を辞書サーバ２００へ送信する（ステップＳ１０６）。そして、受信部１５０は、辞書サーバ２００から特徴量辞書を受信する（ステップＳ１０８）。ここで受信される特徴量辞書は、辞書キャッシュ１６０により記憶される。また、受信部１５０は、辞書サーバ２００から付加情報ＤＢを受信する（ステップＳ１１０）。ここで受信される付加情報ＤＢは、付加情報キャッシュ１８０により記憶される。次に、識別部１７０は、辞書キャッシュ１６０内の特徴量辞書を用いて、入力画像に映る物体を識別する（ステップＳ１１２）。次に、表示制御部１９０は、識別部１７０により識別された物体と関連する付加情報を付加情報キャッシュ１８０から取得し、取得した付加情報を入力画像に重畳することにより、出力画像を生成する（ステップＳ１１４）。付加情報の入力画像内での位置及び姿勢は、例えば、識別部１７０による識別される物体の位置及び姿勢に合わせて調整され得る。そして、表示制御部１９０は、生成した出力画像を表示部１１２により表示させる（ステップＳ１１６）。

このような処理が、画像取得部１３０により取得される一連の入力画像の各々について繰り返される。

［４−２．サーバ側の処理］
図１９は、本実施形態に係る辞書サーバ２００による処理の流れの一例を示すフローチャートである。

図１９を参照すると、まず、辞書サーバ２００の受信部２３０は、端末装置１００からの入力画像の受信を待ち受けている（ステップＳ２０２）。そして、受信部２３０により入力画像が受信されると、識別部２５０は、高精度アルゴリズムに従って入力画像から特徴量を抽出する（ステップＳ２０４）。次に、識別部２５０は、抽出した入力画像の特徴量を特徴量辞書（Ａｒｇ１）２４０内の各特徴量と照合し、入力画像に映る物体を識別する（ステップＳ２０６）。ここで、以前に受信された入力画像において識別された物体とは異なる新たな物体が識別された場合には、処理はステップＳ２１０へ進む（ステップＳ２０８）。一方、新たな物体が識別されなかった場合には、その後のステップＳ２１０〜Ｓ２１４の処理はスキップされてよい。識別部２５０により新たな物体が識別されると、その識別結果に応じて、特徴量辞書のサブセットが取得される（又はデータ量の少ない新たな特徴量辞書が生成される）（ステップＳ２１０）。次に、付加情報取得部２８０は、識別部２５０による物体の識別結果に応じて、付加情報ＤＢのサブセットを付加情報ＤＢ２７０から取得する（ステップＳ２１２）。次に、送信部２９０は、特徴量辞書のサブセット及び付加情報ＤＢのサブセットを、端末装置１００へ送信する（ステップＳ２１４）。

このような処理により辞書サーバ２００から端末装置１００へ提供される特徴量辞書及び付加情報ＤＢが、端末装置１００における物体識別のために利用される。

＜５．まとめ＞
ここまで、図１〜図１９を用いて、本明細書で開示する技術の一実施形態及び２つの変形例について詳細に説明した。上述した実施形態によれば、端末装置１００における入力画像からの物体の識別のために利用される特徴量辞書が、より豊富な特徴量を含む特徴量辞書を予め記憶している辞書サーバ２００から端末装置１００へ提供される。端末装置１００へ提供される特徴量辞書は、辞書サーバ２００において入力画像からの物体の識別結果に応じて取得される辞書である。従って、処理リソースの少ない端末装置１００が予め膨大な特徴量辞書を有していなくとも、端末装置１００は、自らが置かれている状況にふさわしい特徴量辞書を用いてより高い精度で物体を識別することができる。

また、本実施形態によれば、辞書サーバ２００においては高精度な特徴量抽出アルゴリズムを用いて物体が識別され、端末装置１００においては軽量な特徴量抽出アルゴリズムを用い物体が識別され得る。従って、処理リソースの少ない端末装置１００においても、ＡＲアプリケーションなどのリアルタイム性が求められる物体識別を伴うアプリケーションを、高い精度で高速に動作させることができる。

また、本実施形態によれば、ＡＲアプリケーションにおいて画像に重畳され得る付加情報のデータベースが辞書サーバ２００により予め記憶され、そのサブセットが端末装置１００へ提供される。辞書サーバ２００から端末装置１００へ提供される付加情報もまた、辞書サーバ２００における入力画像からの物体の識別結果に応じて取得される。従って、端末装置１００において付加情報を記憶し及び処理するためのリソースも節約される。

また、本実施形態によれば、辞書サーバ２００から端末装置１００へ提供される特徴量辞書は、最新の入力画像に映っている物体についての特徴量のみならず、後に続く入力画像に映ると予測される物体についての特徴量を含む。従って、端末装置１００では、辞書サーバ２００から一度提供された特徴量辞書をある程度の期間にわたって使用し続けることができる。それにより、特徴量辞書が一度提供されると、その後の端末装置１００での物体識別においてデータの受信待ちが生じないため、端末装置１００で動作するアプリケーションのリアルタイム性が向上する。また、端末装置１００は入力画像を毎フレーム辞書サーバ２００へ送信しなくてもよいため、トラフィックの負荷も軽減される。

また、第１の変形例によれば、入力画像の部分画像を用いて辞書サーバ２００において生成される新たな特徴量が、端末装置１００に提供される。この場合には、標準的な環境で予め用意される特徴量辞書のサブセットが提供される場合と比較して、端末装置１００が存在する環境（撮像環境又は照明環境など）に特に適合した特徴量辞書を端末装置１００が使用することが可能となる。また、第２の変形例においても、端末装置１００における特徴量の照合の処理コスト及び消費されるメモリリソースを低減することができる。

なお、上述した物体識別技術は、ＡＲ又は他の目的のアプリケーションのみならず、例えば、ＳＬＡＭ（Simultaneous Localization and Mapping）技術による端末装置１００の位置及び姿勢の推定の際の座標系の初期化又は校正のために使用されてもよい。ＳＬＡＭ技術については、“Real-Time Simultaneous Localization and Mapping with a Single Camera”（A.J.Davison，Proceedings of the 9th IEEE International Conference on Computer Vision Volume 2, 2003, pp.1403-1410）を参照されたい。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１物体識別システム
１００端末装置
１０８記憶部
１３０画像取得部
１４０送信部
１５０受信部
１７０識別部
１９０表示制御部
２００辞書サーバ（情報処理装置）
２３０受信部
２５０識別部
２６０，２６２，２６４辞書取得部
２８０付加情報取得部
２９０送信部

Claims

撮像された入力画像を取得する画像取得部と、
前記画像取得部により取得された前記入力画像を、サーバへ送信する送信部と、
前記入力画像の特徴量と照合されて得られた第１の特徴量辞書に含まれる特徴量の抽出に用いられるアルゴリズムより、精度の低いアルゴリズムに従って画像から抽出される特徴量を含む第２の特徴量辞書を、前記サーバから受信する受信部と、
前記入力画像の特徴量を前記受信部により受信される前記第２の特徴量辞書と照合することにより、前記入力画像における物体を識別する識別部と、
を備える端末装置。
前記識別部により識別される前記入力画像における物体に関連する付加情報を、前記入力画像における物体に関連付けて表示する表示部、をさらに備える、請求項１に記載の端末装置。
前記付加情報は、広告情報、ナビゲーション情報、またはゲームのための情報である、請求項２に記載の端末装置。
前記送信部は、前記端末装置のケイパビリティ情報を送信する、請求項１〜３のいずれか一項に記載の端末装置。
前記第２の特徴量辞書は、前記ケイパビリティ情報に基づいて得られる、請求項４に記載の端末装置。
前記第２の特徴量辞書は、後に続く入力画像に映ると予測される物体についての特徴量をさらに含む、請求項１〜５のいずれか一項に記載の端末装置。
後に続く入力画像に映ると予測される前記物体は、前記第１の特徴量辞書に基づいて識別された物体と共起する可能性の高い物体を含む、請求項６に記載の端末装置。
後に続く入力画像に映ると予測される前記物体は、前記第１の特徴量辞書に基づいて識別された物体の近傍の物体を含む、請求項６に記載の端末装置。
撮像された入力画像を取得することと、
前記入力画像を、サーバへ送信することと、
前記入力画像の特徴量と照合されて得られた第１の特徴量辞書に含まれる特徴量の抽出に用いられるアルゴリズムより、精度の低いアルゴリズムに従って画像から抽出される特徴量を含む第２の特徴量辞書を、前記サーバから受信することと、
前記入力画像の特徴量を前記第２の特徴量辞書と照合することにより、前記入力画像における物体を識別することと、
を含み、端末装置により実行される物体識別方法。
既知の物体画像の特徴量の集合である第１の特徴量辞書を記憶する記憶部と、
端末装置により撮像される入力画像を受信する受信部と、
前記入力画像の特徴量を前記第１の特徴量辞書と照合することにより、前記入力画像に映る物体を識別する識別部と、
前記識別部による識別結果に応じて、前記第１の特徴量辞書に含まれる特徴量の抽出に用いられるアルゴリズムより、精度の低いアルゴリズムに従って画像から抽出される特徴量を含む第２の特徴量辞書を取得する辞書取得部と、
前記辞書取得部により取得される前記第２の特徴量辞書を前記端末装置へ送信する送信部と、
を備える情報処理装置。