JP6541225B2

JP6541225B2 - 情報端末装置及びプログラム

Info

Publication number: JP6541225B2
Application number: JP2015176901A
Authority: JP
Inventors: 加藤　晴久; 晴久加藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2015-09-08
Filing date: 2015-09-08
Publication date: 2019-07-10
Anticipated expiration: 2035-09-08
Also published as: JP2017054259A

Description

本発明は、撮像部により撮像された対象を認識する情報端末装置、プログラム及びデータ構造に関し、特に、事前に用意した特徴情報を状況に応じて選別し、対象の特徴情報と照合することで、大量の対象を高速に認識する情報端末装置、プログラム及びデータ構造に関する。

画像から対象を認識する装置は、配布や提示が容易な媒体に記載されたアナログ情報からデジタル情報に変換させることが可能であり、利用者の利便性を向上させることができる。こうした装置を開示する非特許文献１では、画像から特徴点を検出し、特徴点周辺から局所画像特徴量を算出した上で、事前に蓄積しておいた局所画像特徴量と照合することによって、対象の種類を認識する。

また、認識処理等の高速化を可能とする装置としては、以下の特許文献１，２のようなものが公開されている。

特許文献１では、認識対象ごとに特徴量データベースとトラッキングデータベースとの両データベースを用意することで、端末で撮像している対象をサーバにおいて特徴量データベースを参照して認識したのち、認識結果に対応するトラッキングデータベースを端末に送信し、端末ではトラッキングデータベースを用いた認識処理（すなわち、サーバによって認識済みである対象の追跡処理）を継続する。ここで特に、サーバで認識する際は端末が取得した多数の特徴量を特徴量データベースと照らし合わせて利用し、認識後の端末での追跡は送信されたトラッキングデータベースに記載された一部分のみの少数の特徴量（あるいは、高速追跡可能なテンプレートマッチング）を利用するようにすることで、サーバ利用による認識精度の向上と端末における追跡処理の高速化との両立を図っている。

特許文献２では、カメラ１０の光軸回りの回転角を検出するためのセンサを利用することで、画像処理の負荷を低減させる。

特開2013-186478号公報特開2014-109841号公報

D. G. Lowe, "Object recognition from local scale-invariant features", Proc. of IEEE International Conference on Computer Vision (ICCV), pp.1150-1157, 1999.

しかしながら、以上のような従来技術においては、認識対象が多数存在する場合であっても認識処理の高速化・高精度化を達成することは困難であった。

すなわち、非特許文献１では、認識対象が増加した場合に、増加した分だけ認識処理も増えるために、処理時間が長くなり認識精度も下がるという問題がある。特に、計算リソースが限定的な端末では計算コストの影響が著しい。

一方、特許文献１では、サーバに認識処理を委ねるため、端末での処理時間は短縮される。しかし、サーバと端末との通信時間が発生するため、全体の処理時間が短縮されるとは限らない。また、通信ができない環境では利用できないという問題もある。

また、特許文献２は、サーバとの通信が無いため上記の特許文献１の問題は解消される。ただし、回転角を検出するセンサを利用するため、対応端末が限定されるという問題がある。また、加速度センサで代替する実施例では、外乱の影響が大きいため、精度も大きく低下する恐れがある。

さらに、一般に認識対象が増加するほど、認識処理には長時間を要し、特徴量の誤対応もより多数発生するため、特許文献１や２の技術による認識速度及び精度も低下する問題があり、結局のところ非特許文献１における問題と同じ問題がある。特に、特許文献１ではサーバに認識処理を委ねて端末側での計算負荷を低減したが、サーバにおいては認識対象の候補が増えるほど認識処理が増えてしまうことは、非特許文献１の場合と全く同じである。

本発明の目的は、上記のような従来技術の課題に鑑み、撮像した画像から撮像対象を高速かつ高精度に認識できる情報端末装置、プログラム及びデータ構造を提供することにある。

上記目的を達成するため、本発明は、以下（１）〜（１０）を特徴とする。

（１）情報端末装置であって、撮像対象を撮像して撮像画像を得る撮像部と、前記撮像画像より特徴点及び当該特徴点近傍の局所画像特徴量を算出して特徴情報として出力する算出部と、複数の認識対象につきそれぞれ、その画像より前記算出部が算出するのと同種の特徴情報と、当該認識対象に関する属性情報と、を紐付けて記憶しているデータベースにアクセスし、当該複数の認識対象のうち一部分の認識対象を選別してその特徴情報を取得する選別部と、前記選別された各認識対象の特徴情報と前記撮像画像より算出された特徴情報との類似性を評価することで、前記撮像画像における撮像対象が前記選別された各認識対象のいずれに該当するかを決定する照合部と、を備え、前記選別部は、現在の撮像画像の撮像対象に関して前記照合部が前記いずれに該当するかを決定するための候補として、前記一部分の認識対象を前記データベースから選別するに際して、過去の撮像画像の撮像対象に関して前記照合部がいずれに該当するかを決定した認識対象に対して紐付いている属性情報と類似していると判定される属性情報を有する認識対象を、前記データベースから選別することを特徴とする。

（２）前記属性情報が、認識対象の所在情報を含んで構成されており、前記選別部は、前記属性情報の類似を判定するに際して、前記所在情報が近いほど類似性が高いものとして評価することを特徴とする。

（３）前記認識対象が、カタログ又は書籍のページに掲載される対象または当該ページの一部分に掲載される対象であり、前記所在情報が、当該カタログ又は書籍を識別する情報を含んで構成されている、又は、当該カタログ又は書籍を識別する情報と当該掲載されるページを特定する情報とを含んで構成されている、ことを特徴とする。

（４）前記属性情報が、前記カタログ又は書籍の発行時期及び／または発行対象地域の情報を含んで構成されており、前記選別部は、前記属性情報の類似を判定するに際して、前記カタログ又は書籍の発行時期及び／または発行対象地域が近いほど類似性が高いものとして評価することを特徴とする。

（５）前記属性情報が、認識対象のカテゴリの情報を含んで構成されており、前記選別部は、前記属性情報の類似を判定するに際して、前記カテゴリが近いほど類似性が高いものとして評価することを特徴とする。

（６）前記属性情報が、認識対象と共起関係にある対象を列挙した情報を含んで構成されており、前記選別部は、前記属性情報の類似を判定するに際して、前記共起関係にある対象の共通性が高いほど類似性が高いものとして評価することを特徴とする。

（７）前記属性情報が、認識対象に関するユーザ立場での優先順位の情報を含んで構成されており、記選別部は、前記属性情報の類似を判定するに際して、前記優先順位が近いほど類似性が高いものとして評価することを特徴とする。

（８）前記照合部では、前記選別された各認識対象の特徴情報と前記撮像画像より算出された特徴情報との類似性を評価する際の順番又は優先順位として、前記選別部において、過去の撮像画像の撮像対象に関して前記照合部がいずれに該当するかを決定した認識対象に対して紐付いている属性情報と類似していると判定される属性情報を有する認識対象を、前記データベースから選別する際の、当該類似していると判定するための類似度に基づく順番又は優先順位、を採用することを特徴とする。

（９）プログラムであって、コンピュータを前記情報端末装置として機能させることを特徴とする。

（１０）複数の認識対象につきそれぞれ、その画像より算出した特徴情報と、当該認識対象に関する属性情報と、を紐付けたデータ構造であって、撮像対象を撮像して撮像画像を得る撮像部と、前記撮像画像より特徴点及び当該特徴点近傍の局所画像特徴量を算出して特徴情報として出力する算出部と、複数の認識対象につきそれぞれ、前記データ構造に従うデータを記憶しているデータベースにアクセスし、当該複数の認識対象のうち一部分の認識対象を選別してその特徴情報を取得する選別部と、前記選別された各認識対象の特徴情報と前記撮像画像より算出された特徴情報との類似性を評価することで、前記撮像画像における撮像対象が前記選別された各認識対象のいずれに該当するかを決定する照合部と、を備える情報端末装置において、前記選別部が、現在の撮像画像の撮像対象に関して前記照合部が前記いずれに該当するかを決定するための候補として、前記一部分の認識対象を前記データベースから選別するに際して、過去の撮像画像の撮像対象に関して前記照合部がいずれに該当するかを決定した認識対象に対して紐付いている属性情報と類似していると判定される属性情報を有する認識対象を、前記データベースから選別できるようにすることを特徴とする。

前記（１）、（９）又は（１０）の特徴によれば、過去の撮像画像の撮像対象として照合された認識結果に基づいて現在の撮像画像の撮像対象を照合するためのデータベース内の認識対象を絞り込むので、データベース内に認識対象が多数存在する場合であっても、高速且つ高精度な認識が可能となる。

前記（２）〜（７）の特徴によれば、ユーザが撮像を行って撮像画像を得る際の撮像対象の偏りが反映されるような内容としての、各特徴（２）〜（７）の内容の情報を含んで構成された属性情報を利用することによって、上記の絞り込みを適切に実施することが可能となる。

前記（８）の特徴によれば、照合部の照合する順番又は優先順位を、選別部において選別する際に用いた類似度に基づく順番又は優先順位とすることで、効率的に照合処理を行うことができる。

一実施形態に係る情報端末装置の機能ブロック図である。一実施形態に係る情報端末装置の動作のフローチャートである。属性情報を構成するデータ項目の例を示す図である。階層性を有したカテゴリの例を示す図である。

図１は、一実施形態に係る情報端末装置の機能ブロック図である。情報端末装置1は、撮像部2、算出部3、照合部4、記憶部5及び選別部6を備える。なお、図１において符号L1〜L4を付した線L1〜L4は、後述の説明の際の補助のためのものである。

当該各部2〜6を実現する情報端末装置1のハードウェア構成としては、スマートフォンやタブレット端末といったような携帯端末の他、デスクトップ型、ラップトップ型その他の一般的なコンピュータの構成を採用することができる。すなわち、CPU(中央演算装置)と、CPUにワークエリアを提供する一時記憶装置と、プログラム等のデータを格納する二次記憶装置と、各種の入出力装置と、これらの間でのデータ通信を担うバスと、を備える一般的なコンピュータのハードウェア構成を採用できる。CPUが二次記憶装置に格納されたプログラムを読み込んで実行することで、各部2〜6が実現される。なお、各種の入出力装置としては、画像取得するカメラ、表示を行うディスプレイ、ユーザ入力を受け取るタッチパネルやキーボード、音声を入出力するマイク・スピーカ、外部と有線・無線にて通信を行う通信インタフェース、といったものの中から必要機能に応じたものを利用することができる。

また、図１では情報端末装置1が各部2〜6の全てを備えるものとしたが、このうちの任意の一部分を情報端末装置1とは別途のサーバ等の外部装置（１台以上の外部装置）において実現してもよい。例えば、記憶部5は外部装置としてのサーバにおいて実現されるようにしてもよい。この場合、情報端末装置1と当該外部装置との間（外部装置が２台以上の場合、外部装置間も含む）において、ネットワーク等を経由して必要な情報の送受を行うようにすればよい。当該外部装置のハードウェア構成も、情報端末装置1と同様に一般的なコンピュータの構成を採用することができる。

図２は、一実施形態に係る情報端末装置1の動作のフローチャートである。以下、図２の各ステップを説明しながら、図１の各部2〜6の処理内容を説明する。なお、以下ではまず、各ステップ及び各部の処理内容を、主として形式的な観点に重点を置いて説明する。当該説明の後、「属性情報」等に関してさらに実質的な詳細説明を行うこととする。

ステップS1では、情報端末装置1における以下のステップS2〜S6（特にステップS5,S6）の動作を可能とするための事前準備処理として、図１中の線L4として示すように、記憶部5に対して管理者等が複数の認識対象につきそれぞれ、その特徴情報及び属性情報の登録を実施してから、ステップS2へ進む。

こうして、記憶部5では当該ステップS1にて登録された各認識対象の特徴情報及び属性情報を記憶することで、後述のステップS6における選別部6からの参照に供することとなる。特徴情報に関しては、後述のステップS4における算出部3で算出するのと同様の特徴情報を各認識対象の画像から算出したうえで、記憶部5に登録する。属性情報に関しては、認識対象の属性を表す情報として管理者等がマニュアル等で記憶部5に登録することができるが、その詳細は後述する。

ステップS2では、ユーザ操作等によって撮像部2を用いた撮像が行われたか否かが判断され、撮像が行われたのであればステップS3へ進み、行われていないのであれば継続してステップS2において撮像が行われるまで待機する。ステップS3では直近のステップS2で肯定判断を得た際の撮像部2の取得した撮像画像を算出部3へと出力してから、ステップS4へ進む。

当該ステップS2,S3を担う撮像部2は、ユーザ操作等に従い、撮像対象を撮像して、その撮像画像を算出部3へ出力する。ここで、撮像画像には予め既知の撮像対象（記憶部5に登録されている複数の認識対象のいずれかに合致するもの）が含まれるよう、ユーザが撮像を行うものとする。撮像対象は例えば、特徴等が既知の模様を持つマーカーや印刷物、立体物等であってよい。撮像部2を実現するためのハードウェアとしては、携帯端末に標準装備されるデジタルカメラを用いることができる。

ステップS4ではまず、直近のステップS3で撮像部2より出力された撮像画像から、算出部3が撮像対象の特徴点を検出する。当該検出する特徴点には、認識対象におけるコーナーなどの特徴的な点を利用できる。検出手法としては、SIFT (Scale-Invariant Feature Transform)やSURF (Speeded Up Robust Features)などの特徴的な点を検出する既存手法が利用できる。

ステップS4では次に、検出された特徴点座標を中心として、直近のステップS3で撮像部2より出力された撮像画像から、算出部3が局所画像特徴量を算出する。局所画像特徴量の算出手法としては、SIFT (Scale-Invariant Feature Transform)やSURF (Speeded Up Robust Features)などの特徴的な量を算出する既存手法が利用できる。

ステップS4では最後に、算出部3が以上のように算出した複数の特徴点および局所画像特徴量を撮像画像の特徴情報として照合部4へ出力したうえで、ステップS5へ進む。

ステップS5では、直近のステップS4で算出部3が出力した特徴情報（クエリとしての特徴情報）と、「直近のステップS6」（後述）で選別部6が選別した複数の特徴情報（検索対象としての特徴情報）のそれぞれと、の間の類似性を照合部4が評価し、予め設定された閾値よりも類似度が高い検索対象としての特徴情報があった場合、クエリとしての特徴情報との間で対応関係を設定し、照合情報として出力してからステップS6へと進む。

なお、特徴情報同士の類似性の評価には、特徴情報同士のハミング距離やユークリッド距離、マハラノビス距離など既存の手法を利用できる。また、対応関係を設定して照合情報を得ることに関しては、上記の閾値判定の他にも種々の実施形態が可能であるが、詳細は後述する。

ここで、照合情報の出力は図１に線L1,L2として示すように、ユーザに対して照合結果（撮像画像は記憶部5に記憶されたいずれの認識対象に該当するかの結果）を意味するものとして、ディスプレイ表示等の形式で出力されると共に、次のステップS6における処理で利用すべく選別部6へも出力される。

なお、ステップS5で照合部4が評価する上記の「直近のステップS6」での選別部6が選別した複数の特徴情報とは、直近の過去のステップS6におけるものである。すなわち、図２のフローチャートに示される通りステップS2〜S6はループ処理を形成しているが、ステップS2で肯定判断が得られるごとにループ処理の回数N(N=1,2,…)をカウントするものとし、現在のステップS5がループ処理N回目のものであるとすると、現在のステップS5で照合部4による類似性の評価対象となるのは、ループ処理N-1回目（すなわち、前回のループ処理）のステップS6で選別部6が選別した複数の特徴情報となる。

なお、図２の各ステップの説明においては上記以外にも「直近のステップ」として言及しているものがあるが、上記と同様にこれらも「直近の過去のステップ」を意味するものである。

ステップS6では、選別部6が属性情報の対応関係を定めることによって記憶部5から一つ以上の特徴情報を選別し、照合部4へ出力してから、ステップS2に戻る。当該戻った以降は、ステップS2で撮像があった旨の判断が得られる都度、以上説明したステップS2〜S6のループ処理が同様に継続されることとなる。なお、ステップS5の説明よりも明らかなように、今回（ループ処理N回目とする）のステップS6での選別部6の出力が、次回（ループ処理N+1回目）のステップS5での照合部4の処理に利用されることとなる。

ステップS6において選別部6では、上記の属性情報の対応関係を次のように定めることができる。すなわち、直近のステップS5で照合部4が出力した照合情報における属性情報（すなわち、照合結果の認識対象における属性情報）と、ステップS1の登録処理によって記憶部5が記憶している複数の認識対象における属性情報と、の類似性を評価することで、予め設定した閾値より類似度が高い属性情報があれば対応関係を定める。そして、当該対応関係が定められた属性情報に対応する認識対象における特徴情報を選別し、ステップS6における出力となす。

以上、図２の各ステップ及び図１の各部における処理内容を、主として形式的な観点から説明した。以下さらに、「属性情報」の詳細等に関して、（Ａ）その活用が効果を奏する場面の具体例、（Ｂ）記憶部5に登録しておく属性情報の詳細例、（Ｃ）当該詳細例の場合における選別部6における選別手法、についてそれぞれ説明する。

（Ａ）属性情報の活用が効果を奏する場面の具体例について
当該具体例の一つとして、次を挙げることができる。ここで、ステップS1で記憶部5にその特徴情報を登録しておく認識対象は、多種類存在するカタログ（紙媒体カタログでも電子カタログでもよい）における各ページに掲載された対象であるものとする。そして、ユーザが情報端末装置1の撮像部2によりいずれかのカタログのいずれかのページを撮像し、当該撮像画像が、記憶部5に登録されたいずれのカタログのいずれのページの掲載対象であるかを特定したいというニーズがあるものとする。例えば、カタログは通信販売等に関するものであり、当該特定されたカタログの特定されたページに掲載された商品に関連するeコマースサイトへユーザを誘導可能にしたい、というような場合にこのようなニーズがある。

このような場合に、本発明のような「属性情報」（及び選別部6）を利用しない従来技術で仮に対処したとすると、記憶部5に記憶された膨大な特徴情報から全数探索を実施せざるを得ず、計算リソースを多大に要してしまう。しかしながら本発明においては、「属性情報」（及び選別部6）の利用により、記憶部5に記憶された膨大な各認識対象の特徴情報の中から、当該ユーザが撮像する可能性が高いもののみを選別したうえで、照合部4での照合対象とすることで、計算リソースを節約したうえで高精度な照合を可能とする。

具体的には例えば、あるユーザXがある通信販売のカタログAの100ページ目を撮像して照合するという処理を、過去のある時点において情報端末装置1を用いて行ったとする。この場合、当該ユーザXが次の時点で照合を実施しようとするのは同カタログAのいずれかのページである、あるいは同カタログAと類似又は同一ジャンルの商品についてのカタログのいずれかのページである、といった可能性が高い。従って、照合対象をこうしたものに限定すればよい。ユーザが撮像する対象に偏りがある可能性が高いことに着目し、当該偏りが反映されるような内容として事前に定義を与えておくことで、このような限定を可能とするのが、「属性情報」（及び選別部6）である。

（Ｂ）属性情報の詳細例について
図３は、当該詳細例の一つとして、ステップS1で記憶部5に記憶しておく、認識対象ごとの属性情報を構成するデータ項目の例を示す図である。属性情報ATは、複数のデータ項目の内容を特定することによって定義することができ、データ項目として例えば図３に示すように、所在情報D1、カテゴリD2、共起関係D3、優先順位D4、位置情報D5及び登録時期D6等を有すことができる。当該項目D1〜D6は例であり、その任意の一部分のみを有するようにして属性情報を構成してもよいし、その他の項目を定義して属性情報を構成してもよい。

所在情報D1は、認識対象の所在を特定する項目である。例えば認識対象がカタログのページであれば、所在情報D1は図３に示すようにさらに下位構造のデータ項目として、カタログ識別情報D11及びページ情報D12を有することで、当該所在を特定可能となる。すなわち、カタログ識別情報D11は認識対象が掲載されたカタログの識別子を特定するための項目であり、ページ情報は認識対象が当該カタログ内において掲載されているページ番号を特定するための項目である。

カテゴリD2は、認識対象のカテゴリ（すなわち、種別）を特定する項目である。カテゴリD2の項目は、図４にその例を示すように、ツリー構造等で階層性を有するものとして定義しておくことができる。すなわち、大項目として例えば「衣食住」及び「旅行」を有することができる。「衣食住」には中項目として「衣類」、「食品」及び「住居」を有し、これらはそれぞれ小項目として「衣類」は「ビジネス関連」及び「ホーム関連」を、「食品」は「野菜」及び「魚」を、「住居」は「椅子」及び「机」を有することができる。また、大項目「旅行」は中項目として例えば「国内」及び「海外」を有することができる。認識対象のカテゴリはこれら大、中、小項目のいずれであってもよいように定義してもよいし、小項目のみで定義するようにしてもよい。

なお、図４のカテゴリ階層は例であり、各階層の深さや各階層の分け方は、管理者等による事前設定として任意のものを利用することができる。階層を有さず、並列にカテゴリその１、カテゴリその２、…と列挙してカテゴリD2の内容が決定されるようにしてもよい。また、図４の例のようにツリー構造としても表現可能であるが、グループ分けされたカテゴリを設定しておいてもよい。例えばグループ1に属するカテゴリ11,カテゴリ12,…と、グループ2に属するカテゴリ21,カテゴリ22,…と、いったようなグループ分けを行っておいてもよい。

なお、カテゴリD2は認識対象の種別を定める項目であるが、当該認識対象が掲載されているカタログに関しても同様の考え方でカテゴリを定めておくことで、属性情報を構成するようにしてもよい。この場合、図３の例に示しているように、カタログ識別情報D11に紐付ける形でさらに、カタログカテゴリD111を定めておいてもよい。（なお、認識対象のカテゴリD2と、カタログのカタログカテゴリD111とは、一般には別種の分類体系を利用するが、一致していてもよい。）

共起関係D3は、当該属性情報に対応する認識対象と共起関係にあるその他の認識対象を列挙することで特定される項目である。共起関係D3は、当該認識対象をユーザがある時点で撮像したのであれば、その以降の時点で撮像しうる可能性のある撮像対象を列挙したものとして、管理者等が定めておくことができる。当該属性情報に対応する認識対象が特定の商品Aであれば例えば、商品Aの購入者等が購入することが期待されるその他の、いわゆる「おすすめ」の商品B,C,D,…（すなわち認識対象B,C,D,…）を列挙したものとして、共起関係D3を定めることができる。

優先順位D4は、当該属性情報に対応する認識対象の当該ユーザにとっての優先順位である。ここで、情報端末装置1を利用するユーザの属性（性別、職業、年齢、嗜好など）を事前に、（すなわち、図２のステップS1等の時点で、）ユーザ入力により取得しておき、ユーザ属性に応じて認識対象ごとにルールベースで優先順位が自動算出されるようにしておけばよい。

例えば、優先順位D4は前述のカテゴリD2及びユーザ属性に基づいて自動算出されるようにしてもよい。図４のカテゴリの例であれば、ユーザ属性として「嗜好」が「旅行好き」に該当するユーザは「旅行」カテゴリに属する認識対象の優先度を、その他の認識対象の優先度よりも高くなるように設定してもよい。

なお、優先順位D4は、上記のようにユーザ属性に応じて定まる値とする他にも、ユーザ属性に依らない固定値として認識対象ごとに事前に設定しておくこともできる。

位置情報D5は、当該属性情報に対応する認識対象が商品等である場合における産地や生産地などの情報、及び／又は、当該属性情報に対応する認識対象が掲載されたカタログの発行対象地域（配布対象地域）の情報を特定するための項目である。

登録時期D6は、当該属性情報に対応する認識対象が商品等である場合における生産日時の情報、及び／又は、当該属性情報に対応する認識対象が掲載されたカタログの発行日の情報を特定するための項目である。

なお、以上のD1〜D6等を各項目の例として説明した属性情報に関して、その他の項目を設定する場合は、例えば次のような考え方に従って設定することができる。すなわち、属性情報の項目は、（１）認識対象そのものに直接的に紐付く情報として、（２）掲載されたカタログ等を介して認識対象に間接的に紐付く情報として、あるいは（３）ユーザ属性に応じて認識対象に間接的に紐付く情報として、設定することができ、複数の認識対象の間に当該設定された属性情報によって区別を設けることが可能となるものとして、設定することができる。

なお、所在情報D1は（２）の情報として、カテゴリD2及び共起関係D3は（１）の情報として、優先順位D4は（３）の情報として、位置情報D5及び登録時期D6は（１）〜（３）の情報として、属性情報の項目を設定したものとみることができる。

（Ｃ）以上のような属性情報を利用する場合の選別部6による選別について
当該選別については、図１及び図２を参照して説明したように、属性情報同士が類似していると判断されるものを選別するようにすればよい。すなわち、直近の過去に照合部4において対応関係が設定されて照合情報として出力された際の認識対象p（つまり、直近過去の撮像画像の認識結果p）における属性情報と類似していると判断されるものを、記憶部5に記憶されている各認識対象oにおける属性情報の中から探索した結果を、選別部6による選別結果とすればよい。

この際、直近過去の認識対象pと記憶部5の記憶する各認識対象oとの類似度sim(p,o)を次のように算出して、当該類似度sim(p,o)が閾値判定で高いと判断されるような認識対象oを選別すればよい。

すなわち、上記のようにデータ項目D1〜D6等で属性情報が定義されている場合には、まず、当該項目D1〜D6ごとにそれぞれ、直近過去の認識対象pの属性情報における値（例えば項目D1に関してp(D1)と書くこととする。）と、記憶部5の記憶する各認識対象oの属性情報における値（例えば項目D1に関してo(D1)と書くこととする。）と、の類似度（例えば項目D1に関して類似度sim1(p(D1),o(D1))と書くこととする。)を算出する。そして、各項目につき得られた類似度sim1(p(D1),o(D1)), sim2(p(D2),o(D2)), …, sim6(p(D6),o(D6))に所定関数を適用して算出される値として、類似度sim(p,o)を求めればよい。当該類似度sim(p,o)を算出するための所定関数（多変数関数）は、各項目の類似度sim1(p(D1),o(D1))〜sim6(p(D6),o(D6))に関してそれぞれ増加関数となるようにすればよい。項目ごとに場合分け処理を含んで算出されるような関数を用いてもよい。

（Ｃ−１）
ここで、各項目D1〜D6における類似度sim1(p(D1),o(D1))〜sim6(p(D6),o(D6))はそれぞれ例えば以下のように算出すればよい。

所在情報D1の類似度sim1(p(D1),o(D1))については、所在が近いほど類似度が高いものとして算出すればよい。図３のようにカタログ識別情報D11及びページ情報D12を有して所在情報が構成されている場合、次のように場合分けして算出してもよい。

（場合１）まず、認識対象p,oにおけるカタログ識別情報D11同士が一致しているか否かを調べ、一致していれば認識対象p,oにおけるページ情報D12同士を比較し、ページ数が近いほど類似度が高いものとして算出する。

当該算出はすなわち、次のような想定で類似度を求めるものである。すなわち、現在の認識対象oが過去の認識対象pと同じカタログに記載のものであったと仮定する場合には、過去の認識対象pの記載ページにより近いページのものが認識対象oとして撮像されている可能性がより高いという想定である。

（場合２）一方、認識対象p,oにおけるカタログ識別情報D11同士が一致しない場合には、ページ情報D12は類似度算出には利用せず、予め図３のようにカタログカテゴリD111が定められているものとし、図４に例示したようなツリー構造上での認識対象p,oにおけるカタログカテゴリD111同士の距離が近いほど類似しているものとして算出する。ここで、ツリー構造上での距離はノード間を移動する際の最短通過エッジ数等として周知技術で求めることができる。

当該算出はすなわち、次のような想定で類似度を求めるものである。すなわち、現在の認識対象oは過去の認識対象pと似たカテゴリのカタログに記載されているものである可能性がより高いという想定である。

なお、上記の（場合１）で算出される一連の類似度が（場合２）で算出される一連の類似度よりも高くなるように類似度sim1(p(D1),o(D1))の算出式を設定することで、同一カタログの場合が異なるカタログの場合よりも類似度が高く算出されるようにしておいてもよい。また、このような制約は設けないようにしてもよい。すなわち、（場合１）と（場合２）との間で、算出されうる類似度の範囲に特に制約を設けない形で類似度sim1(p(D1),o(D1))の算出式を設定しておいてもよい。

なお、ページ情報D12は利用せず、上記（場合１）（場合２）の場合分けも実施せず、カタログ識別情報D11におけるカタログカテゴリD111のみを用いて、上記（場合２）の算出手法と同様にツリー構造上の距離が近いほど類似度が高くなるように計算してもよい。

カテゴリD2の類似度sim2(p(D2),o(D2))は、上記の所在情報D1の（場合２）で説明したのと全く同様に、認識対象p,oにおけるカテゴリD2が図４のようなツリー構造上において与えられているものとし、当該ツリー構造上の距離が近いほど当該類似度の値が高くなるように計算することができる。当該計算における想定も同様に、過去の認識対象pに対して今回の認識対象oはそのカテゴリが似たものである可能性が高い、というものである。

共起関係D3の類似度sim3(p(D3),o(D3))は、積集合「p(D3)∩o(D3)」に属する元の数が多いほど当該類似度の値が高くなるように算出することができる。当該算出はすなわち、例えば前述のように共起関係D3が「おすすめ商品」を列挙したものである場合であれば、「おすすめ商品」に重複がある認識対象o,p同士ほど類似度が高いものとして算出することに相当する。

優先順位D4の類似度sim4(p(D4),o(D4))は、過去の認識対象pにおける優先順位（の値）p(D4)と、現在の認識対象oにおける優先順位（の値）o(D4)とが近いほど、当該類似度の値が高くなるように算出することができる。当該算出における想定はすなわち、過去の認識対象pにおける優先順位と今回の認識対象oにおける優先順位とは似通っている可能性が高い、というものである。

上記の優先順位D4における算出と同様に、位置情報D5の類似度sim5(p(D5),o(D5))は、過去の認識対象pの位置情報p(D5)と現在の認識対象oの位置情報o(D5)とが近いほど当該類似度の値が高くなるように算出することができる。また同様に、登録時期D6の類似度sim6(p(D6),o(D6))は、過去の認識対象pの登録時期p(D6)と現在の認識対象oの登録時期o(D6)とが近いほど当該類似度の値が高くなるように算出することができる。

なお、位置情報D5及び登録時期D6は前述のように、認識対象に関するものとカタログに関するものとを定義することができるが、当該両者を利用する場合は、認識対象で算出した類似度とカタログで算出した類似度との総合スコアとして上記の類似度sim5(p(D5),o(D5))及びsim6(p(D6),o(D6))を求めればよい。

（Ｃ−２）以上のように算出した類似度sim(p,o)を用いての選別部6の選別処理及び照合部4の照合処理の各実施形態について

第一実施形態では、選別部6では事前設定された属性情報の類似度に関する単一の閾値TH1を用いて、当該閾値を超えるような全ての認識対象o（すなわち、集合{o|sim(p,o)>TH1}）を記憶部5の記録の中から探索し、当該探索した全ての認識対象oについてその特徴情報f(o)を照合部4に出力する。照合部4では当該出力された各特徴情報f(o)と、現在の撮像画像nから算出された特徴情報f(n)と、の類似度（属性情報同士ではなく特徴情報同士の類似度であることを区別してsimF(f(o),f(n))と書く。）を求め、以下の式(1)のように最大類似度となるような認識対象o_maxを照合結果として得ることができる。

第二実施形態では、上記第一実施形態で求まった認識対象o_maxにおける類似度simF(f(o_max),f(n))が閾値判定（閾値TH_Fとする）で低い（simF(f(o_max),f(n)<TH_F）と判断される際に、照合部4では照合結果として「該当なし」と判断し、選別部6からさらに追加で照合すべき複数の認識対象o（及びその特徴情報f(o)）を読み込み、照合部4では照合結果（simF(f(o_max),f(n)≧TH_Fが成立することで、閾値条件TH_Fで低いとは判断されず、「該当なし」とはならない照合結果）が得られるまで処理を継続するようにしてもよい。なお、上記のように「該当なし」と判断されるのは、閾値TH1の利用により属性情報sim(p,o)の類似で選別した一連の認識対象{o|sim(p,o)>TH1}の中には、特徴情報の類似度simF(f(o),f(n))が閾値TH_Fにより充分であると判定可能であるものが存在しなかったこと（画像として類似しているものが存在しなかった）を意味する。そこで、第二実施形態では以下のように、閾値TH1では選別されなかったその他の一連の認識対象｛o|sim(p,o)≦TH1｝の中から、属性情報の観点から効率的と考えられる優先順位のもとで、特徴情報の類似度simF(f(o),f(n))が充分であり、画像として類似しているものを継続して探索するようにする。

このため、上記の属性情報の類似度に関しての閾値TH1を順に緩和していった一連の閾値TH2,TH3,TH4,…を用意しておく。つまり、TH1>TH2>TH3>TH4>…と順に減少していく一連の閾値を用意しておく。こうして、第二実施形態では、第一実施形態において集合{o|sim(p,o)>TH1}を照合部4が照合しても特徴情報の類似度simF(f(o),f(n))が閾値条件TH_Fを満たすものが見つからなかった場合に、2回目の継続処理として、集合{ o|TH1≧sim(p,o)>TH2}を選別部6が選別したうえで照合部4での照合対象とすればよい。

２回目の継続処理で特徴情報の類似度が閾値条件TH_Fを満たすものが見つからなかった場合は、同様に、3回目の継続処理として、集合{ o|TH2≧sim(p,o)>TH3}を照合部4での照合対象とすればよい。以降も全く同様に、特徴情報の類似度が閾値条件TH_Fを満たすものが見つかるまで継続することができる。なお、第二実施形態における当該継続は、1回目の集合{o|sim(p,o)>TH1}に第一優先順位（最高の優先順位）を、2回目の集合{ o|TH1≧sim(p,o)>TH2}にこれに次ぐ第二優先順位を、といったように、照合部4での照合処理に属性情報の類似に基づく優先順位を定めたうえで、当該優先順位に従って特徴情報の照合処理を行うことに相当する。

なお、第二実施形態の変形例（ただし、実質的には同様の例と考えてよい。）として次も可能である。すなわち、一連の閾値TH1,TH2,…等を数値として与えておく代わりに、照合対象の集合{o|sim(p,o)>TH1}, { o|TH1≧sim(p,o)>TH2}, …等に相当するものを、事前に記憶部5に構築されている全データベースをサブデータベースに区切ったものとして与えておき、当該サブデータベースを順番に照合部4で照合していくようにしてもよい。

具体的には例えば、類似度sim(p,o)の算出はカテゴリD2のみで行う場合（あるいはカタログカテゴリD111のみで行う場合でもよい）に、過去の認識対象pのカテゴリp(D2)と同一カテゴリであるような認識対象oの集合を、最初に照合すべきサブデータベースとする。２回目以降に照合するサブデータベースは、カテゴリp(D2)に近い側のカテゴリであるような認識対象oの集合を、順次選んでいくようにすればよい

すなわち、記憶部5に構築された全データベースを、認識対象のカテゴリD2及び／又はカタログカテゴリD111に応じてサブデータベースに区切っておき、過去の認識対象pのカテゴリに似ているものから順番に類似度simF(f(o),f(n))を評価していくようにしてもよい。このような評価も、サブデータベースごとに照合部4で評価する際の優先順位を定めていることに相当する。カテゴリがツリー構造で与えられている場合、前述と同様に当該ツリー構造上の距離で近さを算出すればよい。

なお、本発明における属性情報の利用は、上記のようにカテゴリ等の属性情報に応じて記憶部5が構築しているデータベースをサブデータベースに区切って保存しておき、選別部6からアクセスする際には、照合情報によって決定したカテゴリ等に対応するサブデータベースへアクセスするようにすることも含むものとする。すなわち、この場合、各サブデータベース内に保存されている認識対象ごとの特徴情報にはカテゴリ等の属性情報が必ずしも紐付いている必要はないが、保存されているサブデータベースがいずれであるかということによる区別が、属性情報を紐付けたのと全く同様の機能を果たしているからである。

第三実施形態では、第一実施形態の変形形態として次のようにしてもよい。すなわち、第一実施形態では選別部6が選別した全ての認識対象oに関して、照合部4において式(1)のように類似度simF(f(o),f(n))の算出を実施して、最大類似度の認識対象o_maxを決定していた。これに代えて、第三実施形態では選別部6が選別した全ての認識対象oに対して照合部4がランダムな順番で、あるいは所定の順番で、類似度simF(f(o),f(n))の算出を実施し、所定閾値を超える類似度となるような認識対象o_thが見つかった時点で、当該閾値を超えた認識対象o_thを照合結果として決定してもよい。

ここで、類似度simF(f(o),f(n))の算出を所定の順番で行う場合、当該順番としては例えば、選別部6が記憶部5からの選別を行った際の類似度sim(p,o)に応じた順番を用いるようにしてもよい。一例では、類似度sim(p,o)をソートしたうえで、当該ソートされた類似度sim(p,o)の高い順としてよい。また、一例では、類似度sim(p,o)の高さに応じて認識対象oのグループ分け（全体のソートは不要）を行い、類似度sim(p,o)の高いグループから順に類似度simF(f(o),f(n))の算出を行うようにしてもよい。当該グループ内での順番はランダムとしてもよい。

以上のような第三実施形態によれば、所定閾値を超えるものが見つかった時点で照合処理を完了することにより、第一実施形態の場合よりも類似度simF(f(o),f(n))を算出する認識対象oの個数が減ることが期待され、計算の高速化を図ることができる。また、第三実施形態と第二実施形態とを組み合わせて実施することもできる。

第四実施形態では、第一実施形態の変形形態として、式(1)を用いるのに代えて、照合部4の算出した類似度simF(f(o),f(n))が所定閾値を超えたような１つ以上の認識対象oを全て、照合結果として（選別部6に対してではなく、）ユーザに対して出力するようにしてもよい。この場合、ユーザは当該１つ以上の照合結果としての認識対象oの中から最適と判断するものを選び、図１の線L3として示すように当該選んだ結果をユーザ入力情報としての照合情報として、選別部6に与えることで、選別部6に図２のステップS6を実施させるようにすることができる。

上記の第四実施形態によれば、選別部6が得る照合情報が図１の線L2で示すものに代えて、図１の線L3で示すような、最適な認識対象oであるものとしてユーザの確認を経たものとなるので、以降の時点における照合処理を、より確実に高速化・高精度化させることができる。

以上、本発明によれば、撮像対象を撮像部2で撮像することで撮像対象が記憶部5に記憶された複数の認識対象のうちいずれに該当するかの照合結果を得ることができる。また、選別部6において照合情報に基づく選別を行うため、記憶部5に記録されている認識対象の数が膨大であっても、高速な認識が可能となる。さらに、探索空間が限定されているため、認識精度を高める効果が得られる。

以下、（１）〜（４）として補足事項を説明する。

（１）認識対象について
上記説明では、図３に示した、属性情報ATを構成する所在情報D1の例としてカタログ識別情報D11、カタログカテゴリD111及びページ情報D12といったものを用いて、一例として、カタログの各ページに記載されている対象を認識対象に設定することが可能であった。全く同様に、書籍の各ページに記載されている対象を認識対象に設定することもできる。当該書籍は紙媒体でも電子媒体でもよい。書籍が例えば教科書である場合、学習者（ユーザ）が本発明の情報端末装置1を用いていずれの教科書のいずれのページであるかを認識した結果に従い、当該ページの内容に対応する学習コンテンツサイトへの誘導を行うといった利用法も可能である。

同様に、カタログ又は書籍の各ページの領域全体に記載されている対象の他にも、カタログ又は書籍の各ページの一部分の領域に記載されている対象を認識対象として設定することで、ページごとに１つ以上の認識対象を設定することもできる。この場合例えば、属性情報におけるページ情報D12を拡張して、ページのどの部分であるかの情報（領域情報）も設定しておくようにすればよい。

同様に、紙媒体の場合におけるカタログ又は書籍のような製本状態にあるものに限らず、書類やポスター等といった印刷物一般に掲載されている対象を認識対象として設定することもできる。

（２）選別部6で選別を行う際に用いる過去の照合情報における認識対象pについて
以上の説明では、直近の過去の１時点での１つの認識対象pを用いるものとして説明したが、１時点以上の過去における１つ以上の認識対象pを用いるようにしてもよい。すなわち、現時点t0に対し、撮像画像の撮像対象が何であるか照合した過去時点が現時点に近い側から順にt1,t2, …, tmのm時点あるものとし、それぞれ照合された結果が認識対象p1,p2, …,pmであったとする。

この場合、以上の説明では選別部6で類似度sim(p,o)を評価するのは直近の１時点の過去時点p=p1のみであったが、これに加えて、上記のようにm時点の全てでそれぞれsim(p1,o), sim(p2,o), …, sim(pm,o)と類似度を評価し、最終的な評価結果として得る類似度をsim(p,o)に代えて以下の式(2)のような重みづけ和などとして求めるようにしてもよい。a_i（i=1,2,…,m）は所定の重み係数である。

また同様に、一連の過去時点の認識対象p1,p2, …,pmのそれぞれの属性情報を上記の重みづけ和と同様にして平均した属性情報を求め、選別部6で選別を行う場合には当該過去平均の属性情報を用いるようにしてもよい。過去平均の属性情報の算出に関しては、属性情報の各項目D1〜D6についてその類似度を求めた際の手法と同様に、数値項目であればそのまま数値平均として求め、カテゴリ等の項目であればツリー構造上での距離等を考慮したものとして平均を求めるようにすればよい。

なお、上記用いるm個の過去時点の決定については、定数としてmを決めておいてもよいし、例えば１か月以内の過去時点にあるものといったように、所定過去期間内のものとしてもよい。

（３）「初回」の照合処理であって「過去」の照合情報が存在せず、「過去」において照合された認識対象pの情報が存在しない場合について

この場合、一実施形態では、選別部6の選別処理が不可能であるので、選別処理は経ずに、照合部4が現在の撮像画像nから得た特徴情報f(n)をクエリとして、記憶部5に記憶された全ての認識対象oについての特徴情報f(o)の中から類似するものを見つけるようにすることができる。すなわち、従来技術と同様の全数探索を実施することができる。

また、別の一実施形態では、図１に線L3として示すようにユーザがマニュアル等で選別部6に対して、「過去」の認識対象pの情報と同等な情報を入力するようにしてもよい。例えば、当該ユーザにおいてはあるカタログが認識対象となることが想定されている場合であれば、当該カタログのいずれかのページの情報をユーザが明示的に選別部6に伝えるようにしてもよい。このような情報は、例えば、情報端末装置1を利用するユーザは最初にユーザ登録を行うものとし、当該ユーザ登録の際に自動で取得されるようにしておいてもよい。

（４）カテゴリ間の類似度算出の別実施形態について
図４に例示したツリー構造上での距離としてカテゴリD2間の距離を算出する他にも、カテゴリを表す単語同士の類似度をカテゴリ間の類似度として算出するようにしてもよい。なお、単語間類似度の算出については、自然言語処理の分野等における既存技術を用いることができる。また、管理者等があらかじめ、カテゴリ同士の類似度を定義しておいてもよい。

1…情報端末装置、2…撮像部、3…算出部、4…照合部、5…記憶部、6…選別部

Claims

撮像対象を撮像して撮像画像を得る撮像部と、
前記撮像画像より特徴点及び当該特徴点近傍の局所画像特徴量を算出して特徴情報として出力する算出部と、
複数の認識対象につきそれぞれ、その画像より前記算出部が算出するのと同種の特徴情報と、当該認識対象に関する属性情報と、を紐付けて記憶しているデータベースにアクセスし、当該複数の認識対象のうち一部分の認識対象を選別してその特徴情報を取得する選別部と、
前記選別された各認識対象の特徴情報と前記撮像画像より算出された特徴情報との類似性を評価することで、前記撮像画像における撮像対象が前記選別された各認識対象のいずれに該当するかを決定する照合部と、を備え、
前記選別部は、現在の撮像画像の撮像対象に関して前記照合部が前記いずれに該当するかを決定するための候補として、前記一部分の認識対象を前記データベースから選別するに際して、過去の撮像画像の撮像対象に関して前記照合部が前記いずれに該当するかを決定した認識対象に対して紐付いている属性情報と類似していると判定される属性情報を有する認識対象を、前記データベースから選別することを特徴とする情報端末装置。
前記属性情報が、認識対象の所在情報を含んで構成されており、
前記選別部は、前記属性情報の類似を判定するに際して、前記所在情報が近いほど類似性が高いものとして評価することを特徴とする請求項１に記載の情報端末装置。
前記認識対象が、カタログ又は書籍のページに掲載される対象または当該ページの一部分に掲載される対象であり、
前記所在情報が、当該カタログ又は書籍を識別する情報を含んで構成されている、又は、当該カタログ又は書籍を識別する情報と当該掲載されるページを特定する情報とを含んで構成されている、ことを特徴とする請求項２に記載の情報端末装置。
前記属性情報が、前記カタログ又は書籍の発行時期及び／または発行対象地域の情報を含んで構成されており、
前記選別部は、前記属性情報の類似を判定するに際して、前記カタログ又は書籍の発行時期及び／または発行対象地域が近いほど類似性が高いものとして評価することを特徴とする請求項３に記載の情報端末装置。
前記属性情報が、認識対象のカテゴリの情報を含んで構成されており、
前記選別部は、前記属性情報の類似を判定するに際して、前記カテゴリが近いほど類似性が高いものとして評価することを特徴とする請求項１ないし４のいずれかに記載の情報端末装置。
前記属性情報が、認識対象と共起関係にある対象を列挙した情報を含んで構成されており、
前記選別部は、前記属性情報の類似を判定するに際して、前記共起関係にある対象の共通性が高いほど類似性が高いものとして評価することを特徴とする請求項１ないし５のいずれかに記載の情報端末装置。
前記属性情報が、認識対象に関するユーザ立場での優先順位の情報を含んで構成されており、
前記選別部は、前記属性情報の類似を判定するに際して、前記優先順位が近いほど類似性が高いものとして評価することを特徴とする請求項１ないし６のいずれかに記載の情報端末装置。
前記照合部では、前記選別された各認識対象の特徴情報と前記撮像画像より算出された特徴情報との類似性を評価する際の順番又は優先順位として、
前記選別部において、過去の撮像画像の撮像対象に関して前記照合部がいずれに該当するかを決定した認識対象に対して紐付いている属性情報と類似していると判定される属性情報を有する認識対象を、前記データベースから選別する際の、当該類似していると判定するための類似度に基づく順番又は優先順位、
を採用することを特徴とする請求項１ないし７のいずれかに記載の情報端末装置。
コンピュータを請求項１ないし８のいずれかに記載の情報端末装置として機能させることを特徴とするプログラム。