JP2015092302A

JP2015092302A - 映像処理システム、映像処理方法、映像処理装置およびその制御方法と制御プログラム

Info

Publication number: JP2015092302A
Application number: JP2012017382A
Authority: JP
Inventors: 野村　俊之; Toshiyuki Nomura; 俊之野村; 山田　昭雄; Akio Yamada; 昭雄山田; 岩元　浩太; Kota Iwamoto; 浩太岩元; 亮太間瀬; Ryota Mase
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-01-30
Filing date: 2012-01-30
Publication date: 2015-05-14
Also published as: WO2013115092A1

Abstract

【課題】複数の映像から映像中に存在する物に関する情報をリアルタイムに生成すること。【解決手段】認識対象物から生成された第１局所特徴量のｉ次元と第１画像から生成された第２局所特徴量のｊ次元のより少ない次元数を選択して、選択次元数の第２局所特徴量に、選択次元数の第１局所特徴量の所定割合以上が対応すると判定した場合に、第１画像に認識対象物が存在すると認識し、第１局所特徴量のｉ次元と第２画像から生成された第３局所特徴量のｋ次元のより少ない次元数を選択して、選択次元数の第３局所特徴量に、選択次元数の第１局所特徴量の所定割合以上が対応すると判定した場合に、第２画像に認識対象物が存在すると認識し、第１画像に対する認識と第２画像に対する認識とに基づいて、認識対象物に関する情報を生成することを特徴とする。【選択図】図１

Description

本発明は、複数の映像から映像中に存在する物に関する情報をリアルタイムに生成するための技術に関する。

上記技術分野において、特許文献１には、あらかじめモデル画像から生成されたモデル辞書を使用して、クエリ画像を認識する場合に、特徴量をクラスタリングすることにより認識速度を向上した技術が記載されている。

特開２０１１−２２１６８８号公報

しかしながら、上記文献には、複数の映像から映像中に存在する物に関する情報をリアルタイムに生成することは記載されていない。

本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明に係る装置は、
認識対象物と、前記認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段と、
第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成手段と、
前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成手段と、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識手段と、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識手段と、
前記第１認識手段による認識と前記第２認識手段による認識とに基づいて、前記認識対象物に関する情報を生成する情報生成手段と、
を備えることを特徴とする。

上記目的を達成するため、本発明に係る方法は、
認識対象物と、前記認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段を有する映像処理装置の制御方法であって、
第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成ステップと、
前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成ステップと、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識ステップと、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識ステップと、
前記第１認識ステップにおける認識と前記第２認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
を含むことを特徴とする。

上記目的を達成するため、本発明に係るプログラムは、
認識対象物と、前記認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段を有する映像処理装置の制御プログラムであって、
第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成ステップと、
前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成ステップと、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識ステップと、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識ステップと、
前記第１認識ステップにおける認識と前記第２認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
をコンピュータに実行させることを特徴とする。

上記目的を達成するため、本発明に係るシステムは、
映像中を取得する第１映像処理装置と、該第１映像処理装置からの映像を受信して前記映像中から認識対象物を認識する第２映像処理装置とを備える映像処理システムであって、
前記第１映像処理装置は、
映像中の第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成手段と、
前記第２局所特徴量を前記第２映像処理装置に送信する第１送信手段と、
映像中の前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成手段と、
前記第３局所特徴量を前記第２映像処理装置に送信する第２送信手段と、
前記第２局所特徴量と前記第３局所特徴量とに基づいて前記第２映像処理装置において認識された、前記認識対象物に関する情報を前記第２映像処理装置から受信する第１受信手段と、
を備え、
前記第２映像処理装置は、
認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段と、
前記第２局所特徴量を前記第１映像処理装置から受信する第２受信手段と、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識手段と、
前記第３局所特徴量を前記第１映像処理装置から受信する第３受信手段と、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識手段と、
前記第１認識手段による認識と前記第２認識手段による認識とに基づいて、前記認識対象物に関する情報を生成する情報生成手段と、
前記認識対象物に関する情報を前記第１映像処理装置に送信する第３送信手段と、
を備えることを特徴とする。

上記目的を達成するため、本発明に係る装置は、
上記映像処理システムにおける、第１映像処理装置であって、
映像中の第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成手段と、
前記第２局所特徴量を前記第２映像処理装置に送信する第１送信手段と、
映像中の前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成手段と、
前記第３局所特徴量を前記第２映像処理装置に送信する第２送信手段と、
前記第２局所特徴量と前記第３局所特徴量とに基づいて前記第２映像処理装置において認識された、前記認識対象物に関する情報を前記第２映像処理装置から受信する第１受信手段と、
を備えることを特徴とする。

上記目的を達成するため、本発明に係る方法は、
上記映像処理システムにおける、第１映像処理装置の制御方法であって、
映像中の第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成ステップと、
前記第２局所特徴量を前記第２映像処理装置に送信する第１送信ステップと、
映像中の前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成ステップと、
前記第３局所特徴量を前記第２映像処理装置に送信する第２送信ステップと、
前記第２局所特徴量と前記第３局所特徴量とに基づいて前記第２映像処理装置において認識された、前記認識対象物に関する情報を前記第２映像処理装置から受信する第１受信ステップと、
を含むことを特徴とする。

上記目的を達成するため、本発明に係るプログラムは、
上記映像処理システムにおける、第１映像処理装置の制御プログラムであって、
映像中の第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成ステップと、
前記第２局所特徴量を前記第２映像処理装置に送信する第１送信ステップと、
映像中の前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成ステップと、
前記第３局所特徴量を前記第２映像処理装置に送信する第２送信ステップと、
前記第２局所特徴量と前記第３局所特徴量とに基づいて前記第２映像処理装置において認識された、前記認識対象物に関する情報を前記第２映像処理装置から受信する第１受信ステップと、
をコンピュータに実行させることを特徴とする。

上記目的を達成するため、本発明に係る装置は、
上記映像処理システムにおける、第２映像処理装置であって、
認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段と、
前記第２局所特徴量を前記第１映像処理装置から受信する第２受信手段と、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識手段と、
前記第３局所特徴量を前記第１映像処理装置から受信する第３受信手段と、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識手段と、
前記第１認識手段による認識と前記第２認識手段による認識とに基づいて、前記認識対象物に関する情報を生成する情報生成手段と、
前記認識対象物に関する情報を前記第１映像処理装置に送信する第３送信手段と、
を備えることを特徴とする。

上記目的を達成するため、本発明に係る方法は、
上記映像処理システムにおける、認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段を備える第２映像処理装置の制御方法であって、
前記第２局所特徴量を前記第１映像処理装置から受信する第２受信ステップと、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識ステップと、
前記第３局所特徴量を前記第１映像処理装置から受信する第３受信ステップと、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識ステップと、
前記第１認識ステップにおける認識と前記第２認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
前記認識対象物に関する情報を前記第１映像処理装置に送信する第３送信ステップと、
を含むことを特徴とする。

上記目的を達成するため、本発明に係るプログラムは、
上記映像処理システムにおける、認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段を備える第２映像処理装置の制御プログラムであって、
前記第２局所特徴量を前記第１映像処理装置から受信する第２受信ステップと、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識ステップと、
前記第３局所特徴量を前記第１映像処理装置から受信する第３受信ステップと、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識ステップと、
前記第１認識ステップにおける認識と前記第２認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
前記認識対象物に関する情報を前記第１映像処理装置に送信する第３送信ステップと、
をコンピュータに実行させることを特徴とする。

上記目的を達成するため、本発明に係る方法は、
映像中を取得する第１映像処理装置と、
認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段を有し、該第１映像処理装置からの映像を受信して前記映像中から認識対象物を認識する第２映像処理装置と、を備える映像処理システムにおける映像処理方法であって、
前記第１映像処理装置は、
映像中の第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成ステップと、
前記第２局所特徴量を前記第２映像処理装置に送信する第１送信ステップと、
映像中の前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成ステップと、
前記第３局所特徴量を前記第２映像処理装置に送信する第２送信ステップと、
前記第２局所特徴量と前記第３局所特徴量とに基づいて前記第２映像処理装置において認識された、前記認識対象物に関する情報を前記第２映像処理装置から受信する第１受信ステップと、
を含み、
前記第２映像処理装置は、
前記第２局所特徴量を前記第１映像処理装置から受信する第２受信ステップと、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識ステップと、
前記第３局所特徴量を前記第１映像処理装置から受信する第３受信ステップと、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識ステップと、
前記第１認識ステップにおける認識と前記第２認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
前記認識対象物に関する情報を前記第１映像処理装置に送信する第３送信ステップと、
を含むことを特徴とする。

本発明によれば、複数の映像から映像中に存在する物に関する情報をリアルタイムに生成することができる。

本発明の第１実施形態に係る映像処理装置の構成を示すブロック図である。本発明の第２実施形態に係る携帯端末による映像処理を説明する図である。本発明の第２実施形態に係る携帯端末の機能構成を示すブロック図である。本発明の第２実施形態に係る携帯端末の動作手順を示すシーケンス図である。本発明の第２実施形態に係る局所特徴量生成部の構成を示すブロック図である。本発明の第２実施形態に係る局所特徴量生成部の処理を示す図である。本発明の第２実施形態に係る局所特徴量生成部の処理を示す図である。本発明の第２実施形態に係る局所特徴量生成部の処理を示す図である。本発明の第２実施形態に係る局所特徴量生成部の処理を示す図である。本発明の第２実施形態に係る局所特徴量生成部の処理を示す図である。本発明の第２実施形態に係る照合部の処理を示す図である。本発明の第２実施形態に係る局所特徴量生成テーブルの構成を示す図である。本発明の第２実施形態に係る対象物認識テーブルの構成を示す図である。本発明の第２実施形態に係る局所特徴量ＤＢの構成を示す図である。本発明の第２実施形態に係る携帯端末のハードウェア構成を示すブロック図である。本発明の第２実施形態に係る携帯端末の処理手順を示すフローチャートである。本発明の第２実施形態に係る局所特徴量生成処理の処理手順を示すフローチャートである。本発明の第２実施形態に係る照合処理の処理手順を示すフローチャートである。本発明の第３実施形態に係る携帯端末による映像処理を説明する図である。本発明の第３実施形態に係る携帯端末の機能構成を示すブロック図である。本発明の第３実施形態に係る対象物出現情報ＤＢの構成を示す図である。本発明の第３実施形態に係る携帯端末の処理手順を示すフローチャートである。本発明の第４実施形態に係る携帯端末による映像処理を説明する図である。本発明の第４実施形態に係る携帯端末による映像処理を説明する図である。本発明の第４実施形態に係る携帯端末の機能構成を示すブロック図である。本発明の第４実施形態に係る移動検出テーブルの構成を示す図である。本発明の第４実施形態に係る速度算出テーブルの構成を示す図である。本発明の第４実施形態に係る携帯端末の処理手順を示すフローチャートである。本発明の第５実施形態に係る映像処理システムによる映像処理を説明する図である。本発明の第５実施形態に係る映像処理システムによる映像処理を説明する図である。本発明の第５実施形態に係る携帯端末の機能構成を示すブロック図である。本発明の第５実施形態に係る変化検出テーブルの構成を示す図である。本発明の第５実施形態に係る携帯端末の処理手順を示すフローチャートである。本発明の第６実施形態に係る映像処理システムの構成を示すブロック図である。本発明の第６実施形態に係る映像処理システムの処理手順を示すシーケンス図である。本発明の第７実施形態に係る映像処理システムの構成を示すブロック図である。本発明の第７実施形態に係る映像処理システムの処理手順を示すシーケンス図である。本発明の第７実施形態に係る通信端末の機能構成を示すブロック図である。本発明の第７実施形態に係る対象物認識サーバの機能構成を示すブロック図である。本発明の第７実施形態に係る符号化部の構成を示すブロック図である。本発明の第７実施形態に係る通信端末のハードウェア構成を示すブロック図である。本発明の第７実施形態に係る通信端末の処理手順を示すフローチャートである。本発明の第７実施形態に係る符号化処理の処理手順を示すフローチャートである。本発明の第７実施形態に係る差分値の符号化処理の処理手順を示すフローチャートである。本発明の第７実施形態に係る対象物認識サーバのハードウェア構成を示すブロック図である。本発明の第７実施形態に係る対象物認識サーバの処理手順を示すフローチャートである。本発明の第７実施形態に係る局所特徴量ＤＢ生成処理の処理手順を示すフローチャートである。本発明の第８実施形態に係る映像処理システムの構成を示すブロック図である。本発明の第８実施形態に係る対象物認識サーバの機能構成を示すブロック図である。本発明の第８実施形態に係る対象物出現カウントＤＢの構成を示す図である。本発明の第８実施形態に係る対象物認識サーバの処理手順を示すフローチャートである。本発明の第９実施形態に係る映像処理システムにおける映像処理を説明する図である。本発明の第９実施形態に係る対象物認識サーバの機能構成を示すブロック図である。本発明の第９実施形態に係る出現履歴ＤＢの構成を示す図である。本発明の第９実施形態に係る出現履歴抽出テーブルの構成を示す図である。本発明の第９実施形態に係る対象物認識サーバの処理手順を示すフローチャートである。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。

［第１実施形態］
本発明の第１実施形態としての映像処理装置１００について、図１を用いて説明する。映像処理装置１００は、複数画像の局所特徴量から映像中の認識対象物に関する情報を生成する装置である。

図１に示すように、映像処理装置１００は、第１局所特徴量記憶部１１０と、第２局所特徴量生成部１２０と、第３局所特徴量生成部１３０と、第１認識部１４０と、第２認識部１５０と、情報生成部１６０と、を含む。第１局所特徴量記憶部１１０は、認識対象物１１１と、認識対象物１１１の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量１１２とを、対応付けて記憶する。第２局所特徴量生成部１２０は、第１画像１０１内から特徴点１２１を抽出する。そして、第２局所特徴量生成部１２０は、特徴点１２１のそれぞれを含む局所領域１２２について、ｊ次元の特徴ベクトルからなる第２局所特徴量１２３を生成する。第３局所特徴量生成部１３０は、第１画像１０１と異なる第２画像１０２内から特徴点１３１を抽出する。そして、第３局所特徴量生成部１３０は、特徴点１３１のそれぞれを含む局所領域１３２について、ｋ次元の特徴ベクトルからなる第３局所特徴量１３３を生成する。第１認識部１４０は、ｉ次元とｊ次元のより少ない次元数を選択する。そして、第１認識部１４０は、選択した次元数の第２局所特徴量１２３に、選択した次元数の第１局所特徴量１１２の所定割合以上が対応すると判定した場合に、第１画像１０１に認識対象物１１１が存在すると認識する。第２認識部１５０は、ｉ次元とｋ次元のより少ない次元数を選択する。そして、第２認識部１５０は、選択した次元数の第３局所特徴量１３３に、選択した次元数の第１局所特徴量１１２の所定割合以上が対応すると判定した場合に、第２画像１０２に認識対象物１１１が存在すると認識する。情報生成部１６０は、第１認識部１４０による認識と第２認識部１５０による認識とに基づいて、認識対象物１１１に関する情報を生成する。

［第２実施形態］
次に、本発明に係る映像処理装置の第２実施形態としての携帯端末について説明する。本実施形態に係る携帯端末は、複数の異なる画像を撮像して、それぞれの画像から生成された局所特徴量と局所特徴量ＤＢの局所特徴量との照合に基づいて、画像内の対象物を認識する。そして、それぞれの認識対象物に基づいて、認識対象物に関する情報を生成する。本実施形態においては、それぞれに局所特徴量の照合で得られた認識対象物候補を組み合わせて、最終的な認識対象物を得る。

本実施形態によれば、１つの画像による対象物認識よりも確度の高い認識結果を得ることができる。

《映像処理の説明》
図２は、本実施形態に係る携帯端末２００による映像処理を説明する図である。

図２の上段は、認識対象物として建造物のビルを認識する一例の表示画面である。上段左図の映像の表示画面２１０はあるビルの高層階を携帯端末２００により撮像したものである。表示画面２１０の画像から生成した局所特徴量と、局所特徴量ＤＢ３３０に格納した局所特徴量との照合により、第１の認識対象物候補を認識する。また、上段中央図の映像の表示画面２２０は同じビルの低層階を携帯端末２００により撮像したものである。表示画面２２０の画像から生成した局所特徴量と、局所特徴量ＤＢ３３０に格納した局所特徴量との照合により、第２の認識対象物候補を認識する。そして、この２つの認識対象物候補が同じビルである場合は、上段右図の映像の表示画面２３０のように、認識対象物を確定して“○○ビルです”との認識対象物名などの情報２３１をビルの画像に重畳して表示する。また、“○○ビルです”とスピーカ２３２から音声出力する。なお、報知する情報は認識対象物名に限定されずに、住所や他の関連技術、あるいは関連情報にリンクするリンク情報（例えば、ＵＲＬ:Uniform Resource Locator）であってもよい。かかる関連情報は、認識対象物に対応して変化する。

図２の下段は、認識対象物として建造物のビルを認識する他例の表示画面である。下段左図の映像の表示画面２１０は、上段左図と同様に、あるビルの高層階を携帯端末２００により撮像したものである。表示画面２１０の画像から生成した局所特徴量と、局所特徴量ＤＢ３３０に格納した局所特徴量との照合により、第１の認識対象物候補を認識する。また、下段中央図の映像の表示画面２４０は、下段左図のビル上層階の一部にズームインして、携帯端末２００により撮像したものである。表示画面２４０の画像から生成した局所特徴量と、局所特徴量ＤＢ３３０に格納した局所特徴量との照合により、第３の認識対象物候補を認識する。そして、この２つの認識対象物候補が同じビルである場合は、下段右図の映像の表示画面２５０のように、認識対象物を確定して“○○ビルです”との認識対象物名などの情報２５１をビルの画像に重畳して表示する。また、“○○ビルです”とスピーカ２３２から音声出力する。

《携帯端末の機能構成》
図３Ａは、本実施形態に係る携帯端末２００の機能構成を示すブロック図である。

携帯端末２００は、映像を取得する撮像部３１０を有する。撮像された映像は、表示部３７０に表示されると共に、局所特徴量生成部３２０に入力される。局所特徴量生成部３２０は、撮像された映像から局所特徴量を生成する（詳細は図４Ａ参照）。局所特徴量ＤＢ３３０には、あらかじめ個々の認識対象物、図２のビルなど単体、から局所特徴量生成部３２０と同様のアルゴリズムで生成された局所特徴量が、認識対象物と対応付けられて格納されている。なお、かかる局所特徴量ＤＢ３３０の内容は、図示しない通信制御部を介して外部から受信してもよい。

局所特徴量記憶部３５０は、前に撮像した画像から局所特徴量生成部３２０が生成した局所特徴量を記憶する。なお、記憶する局所特徴量は１つに限定されず、複数の連続するあるいは間欠的な局所特徴量であってもよい。

認識部３４０が有する照合部３４０ａは、撮像された映像から局所特徴量生成部３２０で生成された少なくとも２つの局所特徴量中に、局所特徴量ＤＢ３３０に格納されている局所特徴量に対応するデータがあるか否かを照合する。照合部３４０ａは、対応するデータがあれば、撮影された映像中に認識対象物候補があると判定する。なお、局所特徴量が対応するというのは、同じ局所特徴量があるというだけでなく、その順序や配置が同じ対象物から取得し得るか否かを判断することを含んでもよい（図４Ｇおよび図４Ｈ参照）。そして、認識部３４０は、照合部３４０ａによる少なくとも２つの画像の局所特徴量と、局所特徴量ＤＢ３３０に格納されている局所特徴量との照合結果に基づいて、最終的な認識結果を決定する。最終的な認識は、例えば、１つの画像の局所特徴量と局所特徴量ＤＢ３３０に格納されている局所特徴量との合致率が第１閾値を超える場合とする。あるいは、複数の画像の局所特徴量と局所特徴量ＤＢ３３０に格納されている局所特徴量との合致率の合計が第２閾値を超える場合としてもよい。なお、本実施形態では、複数の画像の局所特徴量はそれぞれ別個に局所特徴量ＤＢ３３０に格納されている局所特徴量と照合されたが、複数の画像の局所特徴量を組み合わせて複数の画像を結合した画像の局所特徴量を生成してもよい。かかる処理は、例えば、複数の画像の一部が重なっている場合などには、より正確な対象物の認識ができる。

認識結果生成部３６０は、認識部３４０の認識結果から表示部３７０に表示するためのデータを生成する。かかるデータには、認識対象物の名称や認識エラーなどのデータも含まれる。また、前記のような、関連情報やリンク情報も含まれる。表示部３７０は、撮像部３１０で撮像された映像に認識結果を重畳して表示する（図２参照）。また、認識結果生成部３６０が生成したデータは、図示しない通信制御部を介して外部に送信されてもよい。操作部３８０は、携帯端末２００のキーやタッチパネルを含み、撮像部３１０などの携帯端末２００の動作を操作する。

なお、本実施形態の携帯端末２００は、撮像中の映像に限定されず、再生中の映像や放送中の映像においても適用可能である。その場合には、撮像部３１０を映像再生部や映像受信部に置き換えればよい。

《携帯端末の動作手順》
図３Ｂは、本実施形態に係る携帯端末２００の動作手順を示すシーケンス図である。図３Ｂの各機能構成部は、携帯端末２００の内部構成である。なお、本実施形態においては、特許請求の範囲の記載と対応を取るため、局所特徴量ＤＢ３３０に格納された認識対象物の局所特徴量を“第１局所特徴量”と称す。また、複数の画像から局所特徴量生成部３２０によって生成された複数の局所特徴量の２つを代表して、それぞれ“第２局所特徴量”、“第３局所特徴量”と称す。

まず、ステップＳ３０１において、撮像部３１０が第１画像を取得する。そして、ステップＳ３０３において、第１画像を局所特徴量生成部３２０に送信する。局所特徴量生成部３２０は、ステップＳ３０５において、受信した第１画像から第２局所特徴量を生成する。そして、ステップＳ３０７において、第２局所特徴量を特徴点座標と対応付けて認識部３４０に送信する。認識部３４０は、ステップＳ３０９において、照合部３４０ａによる第２局所特徴量と局所特徴量ＤＢ３３０の第１局所特徴量との照合により、第１画像中の対象物を認識する。ステップＳ３１１において、認識可能か否かを判定する。認識可能であればステップＳ３３１において、認識結果生成部３６０を介して認識結果を表示部３７０に送信する。表示部３７０（あるいはスピーカ）は、ステップＳ３１５において、認識不可を報知する。また、ステップＳ３１７において、第２局所特徴量とその対象物認識結果が記憶保持される。

一方、認識可能でなければ（認識の信頼性が低ければ）、ステップＳ３１３において、表示部３７０に認識不可情報を送信して、ステップＳ３１５において認識不可を報知する。認識不可を報知されたユーザの操作により、撮像部３１０は、ステップＳ３２１において、第１画像と異なる第２画像を取得する。そして、ステップＳ３２３において、第２画像を局所特徴量生成部３２０に送信する。局所特徴量生成部３２０は、ステップＳ３２５において、受信した第２画像から第３局所特徴量を生成する。そして、ステップＳ３２７において、第３局所特徴量を特徴点座標と対応付けて認識部３４０に送信する。認識部３４０は、ステップＳ３２９において、照合部３４０ａによる第３局所特徴量と局所特徴量ＤＢ３３０の第１局所特徴量との照合により、第２画像中の対象物を認識する。この場合に、ステップＳ３０９における第２局所特徴量に基づく対象物認識候補の認識結果と、第３局所特徴量に基づく対象物認識候補の認識結果とを使用した対象物認識を行なっても、第２および第３局所特徴量を両方使用した対象物認識を行なってもよい。そして、ステップＳ３３１において、認識結果生成部３６０を介して認識結果を表示部３７０に送信する。表示部３７０（あるいはスピーカ）は、ステップＳ３１５において、認識不可を報知する。

《局所特徴量生成部》
図４Ａは、本実施形態に係る局所特徴量生成部３２０の構成を示すブロック図である。

局所特徴量生成部３２０は、特徴点検出部４１１、局所領域取得部４１２、サブ領域分割部４１３、サブ領域特徴ベクトル生成部４１４、および次元選定部４１５を含んで構成される。

特徴点検出部４１１は、画像データから特徴的な点（特徴点）を多数検出し、各特徴点の座標位置、スケール（大きさ）、および角度を出力する。

局所領域取得部４１２は、検出された各特徴点の座標値、スケール、および角度から、特徴量抽出を行う局所領域を取得する。

サブ領域分割部４１３は、局所領域をサブ領域に分割する。例えば、サブ領域分割部４１３は、局所領域を１６ブロック（４×４ブロック）に分割することも、局所領域を２５ブロック（５×５ブロック）に分割することもできる。なお、分割数は限定されない。本実施形態においては、以下、局所領域を２５ブロック（５×５ブロック）に分割する場合を代表して説明する。

サブ領域特徴ベクトル生成部４１４は、局所領域のサブ領域ごとに複数次元の特徴ベクトルを生成する。サブ領域の特徴ベクトルとしては、例えば、勾配方向ヒストグラムを用いることができる。

次元選定部４１５は、サブ領域の位置関係に基づいて、近接するサブ領域の特徴ベクトル間の相関が低くなるように、局所特徴量として出力する次元を選定する（例えば、間引きする）。また、次元選定部４１５は、単に次元を選定するだけではなく、選定の優先順位を決定することができる。すなわち、次元選定部４１５は、例えば、隣接するサブ領域間では同一の勾配方向の次元が選定されないように、優先順位をつけて次元を選定することができる。そして、次元選定部４１５は、選定した次元から構成される特徴ベクトルを、局所特徴量として出力する。なお、次元選定部４１５は、優先順位に基づいて次元を並び替えた状態で、局所特徴量を出力することができる。

《局所特徴量生成部の処理》
図４Ｂ〜図４Ｆは、本実施形態に係る局所特徴量生成部３２０の処理を示す図である。

まず、図４Ｂは、局所特徴量生成部３２０における、特徴点検出／局所領域取得／サブ領域分割／特徴ベクトル生成の一連の処理を示す図である。かかる一連の処理については、米国特許第６７１１２９３号明細書や、David G. Lowe著、「Distinctive image features from scale-invariant key points」、（米国）、International Journal of Computer Vision、60(2)、2004年、p. 91-110を参照されたい。

（特徴点検出部）
図４Ｂの４２１は、図４Ａの特徴点検出部４１１において、映像中の画像から特徴点を検出した状態を示す図である。以下、１つの特徴点４２１ａを代表させて局所特徴量の生成を説明する。特徴点４２１ａの矢印の起点が特徴点の座標位置を示し、矢印の長さがスケール（大きさ）を示し、矢印の方向が角度を示す。ここで、スケール（大きさ）や方向は、対象映像に従って輝度や彩度、色相などを選択できる。また、図４Ｂの例では、６０度間隔で６方向の場合を説明するが、これに限定されない。

（局所領域取得部）
図４Ａの局所領域取得部４１２は、例えば、特徴点４２１ａの起点を中心にガウス窓４２２ａを生成し、このガウス窓４２２ａをほぼ含む局所領域４２２を生成する。図４Ｂの例では、局所領域取得部４１２は正方形の局所領域４２２を生成したが、局所領域は円形であっても他の形状であってもよい。この局所領域を各特徴点について取得する。局所領域が円形であれば、撮影方向に対してロバスト性が向上するという効果がある。

（サブ領域分割部）
次に、サブ領域分割部４１３において、上記特徴点４２１ａの局所領域４２２に含まれる各画素のスケールおよび角度をサブ領域４２３に分割した状態が示されている。なお、図４Ｂでは４×４＝１６画素をサブ領域とする５×５＝２５のサブ領域に分割した例を示す。しかし、サブ領域は、４×４＝１６や他の形状、分割数であってもよい。

（サブ領域特徴ベクトル生成部）
サブ領域特徴ベクトル生成部４１４は、サブ領域内の各画素のスケールを８方向の角度単位にヒストグラムを生成して量子化し、サブ領域の特徴ベクトル４２４とする。すなわち、特徴点検出部４１１が出力する角度に対して正規化された方向である。そして、サブ領域特徴ベクトル生成部４１４は、サブ領域ごとに量子化された８方向の頻度を集計し、ヒストグラムを生成する。この場合、サブ領域特徴ベクトル生成部４１４は、各特徴点に対して生成される２５サブ領域ブロック×６方向＝１５０次元のヒストグラムにより構成される特徴ベクトルを出力する。また、勾配方向を８方向に量子化するだけに限らず、４方向、８方向、１０方向など任意の量子化数に量子化してよい。勾配方向をＤ方向に量子化する場合、量子化前の勾配方向をＧ（０〜２πラジアン）とすると、勾配方向の量子化値Ｑq（q＝０，…，Ｄ−１）は、例えば式（１）や式（２）などで求めることができるが、これに限られない。

Ｑq＝floor(Ｇ×Ｄ／２π） …（１）
Ｑq＝round(Ｇ×Ｄ／２π）modＤ …（２）
ここで、floor()は小数点以下を切り捨てる関数、round()は四捨五入を行う関数、modは剰余を求める演算である。また、サブ領域特徴ベクトル生成部４１４は勾配ヒストグラムを生成するときに、単純な頻度を集計するのではなく、勾配の大きさを加算して集計してもよい。また、サブ領域特徴ベクトル生成部４１４は勾配ヒストグラムを集計するときに、画素が属するサブ領域だけではなく、サブ領域間の距離に応じて近接するサブ領域（隣接するブロックなど）にも重み値を加算するようにしてもよい。また、サブ領域特徴ベクトル生成部４１４は量子化された勾配方向の前後の勾配方向にも重み値を加算するようにしてもよい。なお、サブ領域の特徴ベクトルは勾配方向ヒストグラムに限られず、色情報など、複数の次元（要素）を有するものであればよい。本実施形態においては、サブ領域の特徴ベクトルとして、勾配方向ヒストグラムを用いることとして説明する。

（次元選定部）
次に、図４Ｃ〜図４Ｆに従って、局所特徴量生成部３２０における、次元選定部４１５に処理を説明する。

次元選定部４１５は、サブ領域の位置関係に基づいて、近接するサブ領域の特徴ベクトル間の相関が低くなるように、局所特徴量として出力する次元（要素）を選定する（間引きする）。より具体的には、次元選定部４１５は、例えば、隣接するサブ領域間では少なくとも１つの勾配方向が異なるように次元を選定する。なお、本実施形態では、次元選定部４１５は近接するサブ領域として主に隣接するサブ領域を用いることとするが、近接するサブ領域は隣接するサブ領域に限られず、例えば、対象のサブ領域から所定距離内にあるサブ領域を近接するサブ領域とすることもできる。

図４Ｃは、局所領域を５×５ブロックのサブ領域に分割し、勾配方向を６方向４３１ａに量子化して生成された１５０次元の勾配ヒストグラムの特徴ベクトル４３１から次元を選定する場合の一例を示す図である。図４Ｃの例では、１５０次元（５×５＝２５サブ領域ブロック×６方向）の特徴ベクトルから次元の選定が行われている。

（局所領域の次元選定）
図４Ｃは、局所特徴量生成部３２０における、特徴ベクトルの次元数の選定処理の様子を示す図である。

図４Ｃに示すように、次元選定部４１５は、１５０次元の勾配ヒストグラムの特徴ベクトル４３１から半分の７５次元の勾配ヒストグラムの特徴ベクトル４３２を選定する。この場合、隣接する左右、上下のサブ領域ブロックでは、同一の勾配方向の次元が選定されないように、次元を選定することができる。

この例では、勾配方向ヒストグラムにおける量子化された勾配方向をｑ（ｑ＝０，１，２，３，４，５）とした場合に、ｑ＝０，２，４の要素を選定するブロックと、ｑ＝１，３，５の要素を選定するサブ領域ブロックとが交互に並んでいる。そして、図４Ｃの例では、隣接するサブ領域ブロックで選定された勾配方向を合わせると、全６方向となっている。

また、次元選定部４１５は、７５次元の勾配ヒストグラムの特徴ベクトル４３２から５０次元の勾配ヒストグラムの特徴ベクトル４３３を選定する。この場合、斜め４５度に位置するサブ領域ブロック間で、１つの方向のみが同一になる（残り１つの方向は異なる）ように次元を選定することができる。

また、次元選定部４１５は、５０次元の勾配ヒストグラムの特徴ベクトル４３３から２５次元の勾配ヒストグラムの特徴ベクトル４３４を選定する場合は、斜め４５度に位置するサブ領域ブロック間で、選定される勾配方向が一致しないように次元を選定することができる。図４Ｃに示す例では、次元選定部４１５は、１次元から２５次元までは各サブ領域から１つの勾配方向を選定し、２６次元から５０次元までは２つの勾配方向を選定し、５１次元から７５次元までは３つの勾配方向を選定している。

このように、隣接するサブ領域ブロック間で勾配方向が重ならないように、また全勾配方向が均等に選定されることが望ましい。また同時に、図４Ｃに示す例のように、局所領域の全体から均等に次元が選定されることが望ましい。なお、図４Ｃに示した次元選定方法は一例であり、この選定方法に限らない。

（局所領域の優先順位）
図４Ｄは、局所特徴量生成部３２０における、サブ領域からの特徴ベクトルの選定順位の一例を示す図である。

次元選定部４１５は、単に次元を選定するだけではなく、特徴点の特徴に寄与する次元から順に選定するように、選定の優先順位を決定することができる。すなわち、次元選定部４１５は、例えば、隣接するサブ領域ブロック間では同一の勾配方向の次元が選定されないように、優先順位をつけて次元を選定することができる。そして、次元選定部４１５は、選定した次元から構成される特徴ベクトルを、局所特徴量として出力する。なお、次元選定部４１５は、優先順位に基づいて次元を並び替えた状態で、局所特徴量を出力することができる。

すなわち、次元選定部４１５は、１〜２５次元、２６次元〜５０次元、５１次元〜７５次元の間は、例えば図４Ｄのマトリクス４４１に示すようなサブ領域ブロックの順番で次元を追加するように選定していってもよい。図４Ｄのマトリクス４４１に示す優先順位を用いる場合、次元選定部４１５は、中心に近いサブ領域ブロックの優先順位を高くして、勾配方向を選定していくことができる。

図４Ｅのマトリクス４５１は、図４Ｄの選定順位に従って、１５０次元の特徴ベクトルの要素の番号の一例を示す図である。この例では、５×５＝２５ブロックをラスタスキャン順に番号ｐ（ｐ＝０，１，…，２５）で表し、量子化された勾配方向をｑ（ｑ＝０，１，２，３，４，５）とした場合に、特徴ベクトルの要素の番号を６×ｐ＋ｑとしている。

図４Ｆのマトリクス４６１は、図４Ｅの選定順位による１５０次元の順位が、２５次元単位に階層化されていることを示す図である。すなわち、図４Ｆのマトリクス４６１は、図４Ｄのマトリクス４４１に示した優先順位に従って図４Ｅに示した要素を選定していくことにより得られる局所特徴量の構成例を示す図である。次元選定部４１５は、図４Ｆに示す順序で次元要素を出力することができる。具体的には、次元選定部４１５は、例えば１５０次元の局所特徴量を出力する場合、図４Ｆに示す順序で全１５０次元の要素を出力することができる。また、次元選定部４１５は、例えば２５次元の局所特徴量を出力する場合、図４Ｆに示す１行目（７６番目、４５番目、８３番目、…、１２０番目）の要素４７１を図４Ｆに示す順（左から右）に出力することができる。また、次元選定部４１５は、例えば５０次元の局所特徴量を出力する場合、図４Ｆに示す１行目に加えて、図４Ｆに示す２行目の要素４７２を図４Ｆに示す順（左から右）に出力することができる。

ところで、図４Ｆに示す例では、局所特徴量は階層的な配列構造となっている。すなわち、例えば、２５次元の局所特徴量と１５０次元の局所特徴量とにおいて、先頭の２５次元分の局所特徴量における要素４７１〜４７６の並びは同一となっている。このように、次元選定部４１５は、階層的（プログレッシブ）に次元を選定することにより、アプリケーションや通信容量、端末スペックなどに応じて、任意の次元数の局所特徴量、すなわち任意のサイズの局所特徴量を抽出して出力することができる。また、次元選定部４１５が、階層的に次元を選定し、優先順位に基づいて次元を並び替えて出力することにより、異なる次元数の局所特徴量を用いて、画像の照合を行うことができる。例えば、７５次元の局所特徴量と５０次元の局所特徴量を用いて画像の照合が行われる場合、先頭の５０次元だけを用いることにより、局所特徴量間の距離計算を行うことができる。

なお、図４Ｄのマトリクス４４１から図４Ｆに示す優先順位は一例であり、次元を選定する際の順序はこれに限られない。例えば、ブロックの順番に関しては、図４Ｄのマトリクス４４１の例の他に、図４Ｄのマトリクス４４２や図４Ｄのマトリクス４４３に示すような順番でもよい。また、例えば、全てのサブ領域からまんべんなく次元が選定されるように優先順位が定められることとしてもよい。また、局所領域の中央付近が重要として、中央付近のサブ領域の選定頻度が高くなるように優先順位が定められることとしてもよい。また、次元の選定順序を示す情報は、例えば、プログラムにおいて規定されていてもよいし、プログラムの実行時に参照されるテーブル等（選定順序記憶部）に記憶されていてもよい。

また、次元選定部４１５は、サブ領域ブロックを１つ飛びに選択して、次元の選定を行ってもよい。すなわち、あるサブ領域では６次元が選定され、当該サブ領域に近接する他のサブ領域では０次元が選定される。このような場合においても、近接するサブ領域間の相関が低くなるようにサブ領域ごとに次元が選定されていると言うことができる。

また、局所領域やサブ領域の形状は、正方形に限られず、任意の形状とすることができる。例えば、局所領域取得部４１２が、円状の局所領域を取得することとしてもよい。この場合、サブ領域分割部４１３は、円状の局所領域を例えば複数の局所領域を有する同心円に９分割や１７分割のサブ領域に分割することができる。この場合においても、次元選定部４１５は、各サブ領域において、次元を選定することができる。

以上、図４Ｂ〜図４Ｆに示したように、本実施形態の局所特徴量生成部３２０によれば、局所特徴量の情報量を維持しながら生成された特徴ベクトルの次元が階層的に選定される。この処理により、認識精度を維持しながらリアルタイムでの対象物認識と認識結果の表示が可能となる。なお、局所特徴量生成部３２０の構成および処理は本例に限定されない。認識精度を維持しながらリアルタイムでの対象物認識と認識結果の表示が可能となる他の処理が当然に適用できる。

《照合部》
図４Ｇは、本実施形態に係る認識部３４０が有する照合部３４０ａの処理を示す図である。

図４Ｇは、図２の下段の２つの画像からビルを認識する照合例を示す図である。あらかじめ認識対象物（本例では、○○ビル）から本実施形態に従い生成された局所特徴量は、局所特徴量ＤＢ３３０に格納されている。一方、左上図の携帯端末２００の表示画面２１０からは、本実施形態に従い局所特徴量が生成される。そして、局所特徴量ＤＢ３３０に格納された局所特徴量４８１が、表示画面２１０から生成された局所特徴量中にあるか否かが照合される。

また、左下図の携帯端末２００のズームインした表示画面２４０からは、本実施形態に従い局所特徴量が生成される。そして、局所特徴量ＤＢ３３０に格納された局所特徴量４８１が、表示画面２４０から生成された局所特徴量中にあるか否かが照合される。

図４Ｇに示すように、照合部３４０ａは、局所特徴量ＤＢ３３０に格納されている局所特徴量４８１と局所特徴量が合致する各特徴点を細線のように関連付ける。なお、照合部３４０ａは、局所特徴量の所定割合以上が一致する場合を特徴点の合致とする。そして、照合部３４０ａは、関連付けられた特徴点の集合間の位置関係が線形関係であれば、認識対象物候補であると認識する。このような認識を行なえば、サイズの大小や向きの違い（視点の違い）、あるいは反転などによっても認識が可能である。また、所定数以上の関連付けられた特徴点があれば認識精度が得られるので、一部が視界から隠れていても認識対象物の認識が可能である。

図４Ｇに示すように、左上図の遠景画像においても左下図の拡大画像においても、局所特徴量ＤＢ３３０に格納された局所特徴量４８１と合致するならば、このビルは○○ビルであると認識する。

なお、図４Ｇにおいては、遠景画像と拡大画像との２つの画像の例を示したが、複数の画像これに限定されない。重なり部分の少ない異なる位置の複数の画像であったり、重なり部分の少ない異なる方角からの複数の画像であったりしてもよい。その場合には、局所特徴量ＤＢ３３０には、同じ対象物の画像から生成された複数の異なる局所特徴量が、認識対象物に対応付けて格納されることになる。

（局所特徴量生成テーブル）
図５Ａは、本実施形態に係る局所特徴量生成テーブル５１０の構成を示す図である。

局所特徴量生成テーブル５１０には、入力画像ＩＤ５１１に対応付けて、複数の検出された検出特徴点５１２，特徴点座標５１３および特徴点に対応する局所領域情報５１４が記憶される。そして、各検出特徴点５１２，特徴点座標５１３および局所領域情報５１４に対応付けて、複数のサブ領域ＩＤ５１５，サブ領域情報５１６，各サブ領域に対応する特徴ベクトル５１７および優先順位を含む選定次元５１８が記憶される。

以上のデータから各検出特徴点５１２に対して生成された局所特徴量５１９が記憶される。

（対象物認識テーブル）
図５Ｂは、本実施形態に係る対象物認識テーブル５２０の構成を示す図である。

対象物認識テーブル５２０には、局所特徴量生成部３２０が生成した局所特徴量５２１に対応付けて、認識対象物候補を示す認識対象物候補ＩＤ５２２、照合した局所特徴量ＤＢ３３０の第１局所特徴量５２３、合致度５２４が記憶される。

以上のデータから認識対象物候補の出現数や合致度を考慮に入れて、最終的な総合認識結果５２５が決定される。

（局所特徴量ＤＢ）
図６は、本実施形態に係る局所特徴量ＤＢ３３０の構成を示す図である。

局所特徴量ＤＢ３３０は、認識対象物ＩＤ６０１と認識対象物名６０２に対応付けて、認識対象物の部分や視点の方向６０３、第１番局所特徴量６０４、第２番局所特徴量６０５、…、第ｍ番局所特徴量６０６を記憶する。各局所特徴量は、図４Ｆにおける５×５のサブ領域に対応して、２５次元ずつに階層化された１次元から１５０次元の要素からなる特徴ベクトルを記憶する。なお、ｍは正の整数であり、認識対象物に対応して異なる数でよい。また、本実施形態においては、それぞれの局所特徴量と共に照合処理に使用される特徴点座標が記憶される。

ここで、認識対象物の部分や視点の方向６０３は、これに限定されない。同じ認識対象物から生成された相関の小さな複数の局所特徴量を格納しておくのが、認識率を高めるのに有効である。

《携帯端末のハードウェア構成》
図７は、本実施形態に係る携帯端末２００のハードウェア構成を示すブロック図である。

図７で、ＣＰＵ７１０は演算制御用のプロセッサであり、プログラムを実行することで携帯端末２００の各機能構成部を実現する。ＲＯＭ７２０は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部７３０は通信制御部であり、本実施形態においては、ネットワークを介して他の装置と通信する。なお、ＣＰＵ７１０は１つに限定されず、複数のＣＰＵであっても、あるいは画像処理用のＧＰＵ（Graphics Processing Unit）を含んでもよい。

ＲＡＭ７４０は、ＣＰＵ７１０が一時記憶のワークエリアとして使用するランダムアクセスメモリである。ＲＡＭ７４０には、本実施形態の実現に必要なデータを記憶する領域が確保されている。入力映像７４１は、撮像部３１０が撮像して入力された入力映像を示す。特徴点データ７４２は、入力映像７４１から検出した特徴点座標、スケール、角度を含む特徴点データを示す。局所特徴量生成テーブル５１０は、図５Ａで既に説明した局所特徴量生成テーブルを示す。対象物認識テーブル５２０は、図５Ｂで既に説明した対象物認識テーブルを示す。対象物認識結果７４３は、複数の入力映像から生成された複数の局所特徴量と局所特徴量ＤＢ３３０に格納された局所特徴量との照合から認識された、対象物認識結果を示す。認識結果表示データ７４４は、対象物認識結果７４３をユーザに報知するための認識結果表示データを示す。なお、音声出力をする場合には、認識結果音声データが含まれてもよい。入力映像／認識結果重畳データ７４５は、入力映像７４１に対象物認識結果７４３を重畳した表示部３７０に表示される入力映像／照合結果重畳データを示す。入出力データ７４６は、入出力インタフェース７６０を介して入出力される入出力データを示す。送受信データ７４７は、通信制御部３９０を介して送受信される送受信データを示す。なお、認識対象物の関連情報あるいはリンク情報を表示する場合には、その記憶領域を有する。

ストレージ７５０には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。局所特徴量ＤＢ３３０は、図６に示した局所特徴量ＤＢである。認識結果表示フォーマット７５１は、対象物認識結果を表示するフォーマットを生成するために使用される認識結果表示フォーマットを示す。なお、認識対象物の関連情報あるいはリンク情報を表示する場合には、そのＤＢの記憶領域を有する。

ストレージ７５０には、以下のプログラムが格納される。携帯端末制御プログラム７５２は、携帯端末２００の全体を制御する携帯端末制御プログラムを示す。局所特徴量生成モジュール７５３は、携帯端末制御プログラム７５２において、入力映像から図４Ｂ〜図４Ｆに従って局所特徴量を生成するモジュールである。なお、局所特徴量生成モジュール７５３は、図示のモジュール群から構成されるが、ここでは詳説は省略する。対象物認識モジュール７５４は、携帯端末制御プログラム７５２において、複数の入力映像から生成された複数の局所特徴量と局所特徴量ＤＢ３３０に格納された局所特徴量との照合に基づいて、対象物を認識するモジュールである。認識結果報知モジュール７５５は、対象物認識結果を表示または音声によりユーザに報知するためのモジュールである。なお、認識対象物の関連情報あるいはリンク情報を表示する場合には、そのプログラムモジュールの記憶領域を有する。

入出力インタフェース７６０は、入出力機器との入出力データをインタフェースする。入出力インタフェース７６０には、表示部３７０、操作部３８０であるタッチパネルやキーボード、スピーカ７６４、マイク７６５、撮像部３１０が接続される。入出力機器は上記例に限定されない。また、ＧＰＳ(Global Positioning System)位置生成部７６６は、ＧＰＳ衛星からの信号に基づいて現在位置を取得する。

なお、図７には、本実施形態に必須なデータやプログラムのみが示されており、本実施形態に関連しないデータやプログラムは図示されていない。

《携帯端末の処理手順》
図８は、本実施形態に係る携帯端末２００の処理手順を示すフローチャートである。このフローチャートは、図７のＣＰＵ７１０によってＲＡＭ７４０を用いて実行され、図３の各機能構成部を実現する。

まず、ステップＳ８１１において、対象物認識を行なうための映像入力があったか否かを判定する。また、携帯端末の機能として、ステップＳ８３１においては受信を判定し、ステップＳ８４１においては送信を判定する。いずれでもなければ、ステップＳ８５１において他の処理を行なう。

映像入力があればステップＳ８１３に進んで、入力映像から局所特徴量生成処理を実行する（図９Ａ参照）。次に、ステップＳ８１５において、照合処理を実行する（図９Ｂ参照）。ステップＳ８１７においては、ステップＳ８１５における照合によって対象物の認識が可能か否か判定される。認識可能と判定されればステップＳ８２７に進む。

認識可能でなければステップＳ８１９に進んで、認識不可を表示部３７０の表示、あるいはスピーカ７６４への音声出力により報知する。そして、ステップＳ８２１において、同じ対象物の異なる映像の入力を待つ。異なる映像入力があればステップＳ８２３に進んで、ステップＳ８１３と同様の局所特徴量生成処理を行なう。続いて、ステップＳ８２５において、ステップＳ８１５と同様の照合処理を行なう。

ステップＳ８２７においては、ステップＳ８１５および／またはステップＳ８２５における照合処理の結果を受けて、対象物認識結果を決定する。そして、入力映像認識結果を重畳した画面を表示部３７０に表示する。ステップＳ８２９においては、映像内の対象物認識を終了するかを判定する。対象物認識を継続する場合はステップＳ８１３に戻って、処理を継続する。

受信であり、局所特徴量ＤＢ用のデータをダウンロードする場合は、ステップＳ８３３において局所特徴量ＤＢ用データを受信して、ステップＳ８３５において局所特徴量ＤＢに記憶する。一方、その他の携帯端末としてのデータ受信であれば、ステップＳ８３７において受信処理を行なう。また、送信であり、局所特徴量ＤＢ用のデータをアップロードする場合は、ステップＳ８４３において入力映像から生成した局所特徴量を局所特徴量ＤＢ用データとして送信する。一方、その他の携帯端末としてのデータ送信であれば、ステップＳ８４５において送信処理を行なう。携帯端末としてのデータ送受信処理については、本実施形態の特徴ではないので詳細な説明は省略する。

（局所特徴量生成処理）
図９Ａは、本実施形態に係る局所特徴量生成処理Ｓ８１３の処理手順を示すフローチャートである。

まず、ステップＳ９１１において、入力映像から特徴点の位置座標、スケール、角度を検出する。ステップＳ９１３において、ステップＳ９１１で検出された特徴点の１つに対して局所領域を取得する。次に、ステップＳ９１５において、局所領域をサブ領域に分割する。ステップＳ９１７においては、各サブ領域の特徴ベクトルを生成して局所領域の特徴ベクトルを生成する。ステップＳ９１１からＳ９１７の処理は図４Ｂに図示されている。

次に、ステップＳ９１９において、ステップＳ９１７において生成された局所領域の特徴ベクトルに対して次元選定を実行する。次元選定については、図４Ｄ〜図４Ｆに図示されている。

ステップＳ９２１においては、ステップＳ９１１で検出した全特徴点について局所特徴量の生成と次元選定とが終了したかを判定する。終了していない場合はステップＳ９１３に戻って、次の１つの特徴点について処理を繰り返す。

（照合処理）
図９Ｂは、本実施形態に係る照合処理の処理手順Ｓ８１５を示すフローチャートである。

まず、ステップＳ９３１において、初期化として、パラメータｐ＝１，ｑ＝０を設定する。次に、ステップＳ９３３において、局所特徴量ＤＢ３３０の局所特徴量の次元数ｉと、受信した局所特徴量の次元数ｊとの、より少ない次元数を選択する。

ステップＳ９３５〜Ｓ９４５のループにおいて、ｐ＞ｍ（ｍ＝認識対象物の特徴点数）となるまで各局所特徴量の照合を繰り返す。まず、ステップＳ９３５において、局所特徴量ＤＢ３３０に格納された認識対象物の第ｐ番局所特徴量の選択された次元数のデータを取得する。すなわち、最初の１次元から選択された次元数を取得する。次に、ステップＳ９３７において、ステップＳ９３５において取得した第ｐ番局所特徴量と入力映像から生成した全特徴点の局所特徴量を順に照合して、類似か否かを判定する。ステップＳ９３９においては、局所特徴量間の照合の結果から類似度が閾値αを超えるか否かを判断し、超える場合はステップＳ９４１において、局所特徴量と、入力映像と認識対象物とにおける合致した特徴点の位置関係との組みを記憶する。そして、合致した特徴点数のパラメータであるｑを１つカウントアップする。ステップＳ９４３においては、認識対象物の特徴点を次の特徴点に進め（ｐ←ｐ＋１）、認識対象物の全特徴点の照合が終わってない場合には（ｐ≦ｍ）、ステップＳ９３５に戻って合致する局所特徴量の照合を繰り返す。なお、閾値αは、認識対象物によって求められる認識精度に対応して変更可能である。ここで、他の認識対象物との相関が低い認識対象物であれば認識精度を低くしても、正確な認識が可能である。

認識対象物の全特徴点との照合が終了すると、ステップＳ９４５からＳ９４７に進んで、ステップＳ９４７〜Ｓ９５３において、認識対象物が入力映像に存在するか否かが判定される。まず、ステップＳ９４７において、認識対象物の特徴点数ｐの内で入力映像の特徴点の局所特徴量と合致した特徴点数ｑの割合が、閾値βを超えたか否かを判定する。超えていればステップＳ９４９に進んで、認識対象物候補として、さらに、入力映像の特徴点と認識対象物の特徴点との位置関係が、線形変換が可能な関係を有しているかを判定する。すなわち、ステップＳ９４１において局所特徴量が合致したとして記憶した、入力映像の特徴点と認識対象物の特徴点との位置関係が、回転や反転、視点の位置変更などの変化によっても可能な位置関係なのか、不可能な位置関係なのかを判定する。かかる判定方法は幾何学的に既知であるので、詳細な説明は省略する。ステップＳ９５１において、整形変換可能か否かの判定結果により、線形変換可能であればステップＳ９５３に進んで、照合した認識対象物が入力映像に存在する可能性ありと判定する。なお、閾値βは、認識対象物によって求められる認識精度に対応して変更可能である。ここで、他の認識対象物との相関が低い、あるいは一部分からでも特徴が判断可能な認識対象物であれば合致した特徴点が少なくても、正確な認識が可能である。すなわち、一部分が隠れて見えなくても、あるいは特徴的な一部分が見えてさえいれば、対象物の認識が可能である。

ステップＳ９５５においては、局所特徴量ＤＢ３３０に未照合の認識対象物が残っているか否かを判定する。まだ認識対象物が残っていれば、ステップＳ９５７において次の認識対象物を設定して、パラメータｐ＝１，ｑ＝０に初期化し、ステップＳ９３５に戻って照合を繰り返す。

なお、かかる照合処理の説明からも明らかなように、あらゆる分野の認識対象物を局所特徴量ＤＢ３３０に記憶して、全認識対象物を携帯端末で照合する処理は、負荷が非常に大きくなる。したがって、例えば、入力映像からの対象物認識の前にユーザが対象物の分野をメニューから選択して、その分野を局所特徴量ＤＢ３３０から検索して照合することが考えられる。また、局所特徴量ＤＢ３３０にユーザが使用する分野（例えば、図２の例であれば、動植物あるいは虫花や、建築物など）の局所特徴量のみをダウンロードすることによっても、負荷を軽減できる。

［第３実施形態］
次に、本発明の第３実施形態に係る携帯端末について説明する。本実施形態に係る携帯端末は、上記第２実施形態と比べると、認識対象物に関する情報として、複数の画像からの対象物認識に基づいて対象物の出現回数を生成する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

本実施形態によれば、撮像対象物の出現回数からユーザの嗜好を判定できる。

《映像処理の説明》
図１０は、本実施形態に係る携帯端末１０００による映像処理を説明する図である。

図１０の上段は、人物を認識対象物として、携帯端末１０００の撮像した映像中の認識対象物の出現回数を積算して、その撮像カウントランキングを表示する例を示す。上段左図の映像の表示画面１０１０はある特定人物が登場するテレビ画面を撮像したものである。表示画面１０１０の画像から生成した局所特徴量と、局所特徴量ＤＢ３３０に格納した局所特徴量との照合により、対象物を認識する。そして、認識対象物が人物である場合に、対応する撮像カウントを増加する。上段右図の表示画面１０２０は、累積された各人物の撮像カウントを多い順にソートして、撮像カウントランキング１０２１として重畳表示する。

図１０の下段は、自動車を認識対象物として、携帯端末１０００の撮像した映像中の認識対象物の出現回数を積算して、その撮像カウントランキングを表示する例を示す。下段左図の映像の表示画面１０３０は道路を走行中のある自動車を撮像したものである。表示画面１０３０の画像から生成した局所特徴量と、局所特徴量ＤＢ３３０に格納した局所特徴量との照合により、対象物を認識する。そして、認識対象物が自動車である場合に、対応する撮像カウントを増加する。下段右図の表示画面１０４０は、累積された各自動車の撮像カウントを多い順にソートして、撮像カウントランキング１０４１として重畳表示する。

かかる撮像カウントランキングの表示により、自分の嗜好が認識できる。なお、出現回数のカウントは、連続する映像中の出現は１回としてカウントするのが好ましい。

《携帯端末の機能構成》
図１１Ａは、本実施形態に係る携帯端末の機能構成を示すブロック図である。なお、第２実施形態の図３と同様の機能構成部には同じ参照番号を付して、説明を省略する。

対象物出現情報ＤＢ１１５０は、認識部３４０からの対象物の認識結果から認識対象物に対応して出現回数（カウント）を累積記憶する。出現順位生成部１１６０は、対象物出現情報ＤＢ１１５０を参照して、出現回数順に認識対象物をソートして表示部３７０に表示する。

なお、対象物出現情報ＤＢ１１５０に格納する認識対象物は局所特徴量ＤＢ３３０に格納された対象物全体である必要はない。ユーザの操作により、図１０に示したように、出現回数をカウントする対象を選別できる。また、対象物出現情報ＤＢ１１５０は、局所特徴量ＤＢ３３０の一部に合体することもできる。

（対象物出現情報ＤＢ）
図１１Ｂは、本実施形態に係る対象物出現情報ＤＢ１１５０の構成を示す図である。

対象物出現情報ＤＢ１１５０は、認識対象物ＩＤ１１０１と認識対象物名１１０２とに対応付けて、トータル出現カウント１１０３と、月／日／時間ごとの出現率１１０４とを記憶する。

《携帯端末の処理手順》
図１２は、本実施形態に係る携帯端末１０００の処理手順を示すフローチャートである。このフローチャートは、図７のＣＰＵ７１０によりＲＡＭ７４０を使用して実行され、図１１Ａの機能構成部を実現する。なお、第２実施形態の図８と同様のステップ群については図示および説明を省略する。また、第２実施形態の図８と同様のステップには同じステップ番号を付して、説明を省略する。

映像入力において、局所特徴量生成処理と照合処理とが終了した後、ステップＳ１２１７において、対象物出現情報ＤＢ１１５０の認識対象物の出現カウントをカウントアップする。次に、ステップＳ１２１９において、対象物出現情報ＤＢ１１５０を参照して、出現回数を多い順にソートする出現順位生成処理を行なう。そして、ステップＳ１２２１において、出現順位を表示する（図１０参照）。

［第４実施形態］
次に、本発明の第４実施形態に係る携帯端末について説明する。本実施形態に係る携帯端末は、上記第２実施形態と比べると、複数の画像からの対象物認識に基づいて移動方向や移動速度を検出する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

本実施形態によれば、認識対処物の撮像角度に関係なくその移動方向および移動速度の算出ができる。本実施形態による移動方向および移動速度の算出は、車両の速度制限違反の検出に有用である。

《映像処理の説明》
図１３Ａおよび図１３Ｂは、本実施形態に係る携帯端末１３００による映像処理を説明する図である。なお、本実施形態においては、２つの画像の局所特徴量による照合処理における幾何学的な相違点から、認識対象物の移動方向の検出や移動速度の算出を行なう。

まず、図１３Ａにおいては、自動車を正面から撮像した場合の、２つの画像の局所特徴量による照合処理における幾何学的な相違点から、認識対象物である自動車の移動方向の検出や移動速度の算出を行なう。

図１３Ａの左図は、携帯端末１３００が撮像した映像である。また、右図は、局所特徴量ＤＢ３３０に格納された、自動車の正面映像から生成された局所特徴量１３９１を示す。

左図の上段は、道路の遠方から接近してくる自動車を撮像した表示画面１３１０である。表示画面１３１０の画像から生成した局所特徴量と、局所特徴量ＤＢ３３０に格納した局所特徴量１３９１とに基づいて、細線で示す特徴点の照合により、自動車を認識する。

次に、左図の中段は、間近に接近した自動車を撮像した表示画面１３２０である。表示画面１３２０の画像から生成した局所特徴量と、局所特徴量ＤＢ３３０に格納した局所特徴量１３９１とに基づいて、細線で示す特徴点の照合により、自動車を認識する。

そして、左図上段における特徴点の照合時の特徴点を結ぶ細線の幾何学的形状と、左図中段における特徴点の照合時の特徴点を結ぶ細線の幾何学的形状との変化を、その撮像時間間隔により除算すると、自動車の走行速度を算出できる。

左図の下段は、表示画面１３３０中の、自動車の製造会社や車種、そしてその走行速度の表示１３３１を示している。このように、本実施形態の局所特徴量による照合においては、認識対象物の寸法や向きに関係なく対象物の認識が可能である。したがって、所定時間間隔で撮像することによって、寸法や向きに関係なく移動速度を算出できる。

次に、図１３Ｂにおいては、タイヤを撮像した場合の、２つの画像の局所特徴量による照合処理における幾何学的な相違点から、認識対象物であるタイヤの回転速度を算出して、最終的に自動車の走行速度の算出を行なう。

図１３Ｂの左図は、携帯端末１３００が撮像した映像である。また、右図は、局所特徴量ＤＢ３３０に格納された、タイヤの映像から生成された局所特徴量１３９２を示す。

左図の上段は、タイヤを含む走行中の自動車を撮像した表示画面１３４０である。表示画面１３４０の画像から生成した局所特徴量と、局所特徴量ＤＢ３３０に格納した局所特徴量１３９２とに基づいて、細線で示す特徴点の照合により、タイヤを認識する。

次に、左図の中段は、タイヤを拡大して撮像した表示画面１３５０である。表示画面１５２０の画像から生成した局所特徴量と、局所特徴量ＤＢ３３０に格納した局所特徴量１３９２とに基づいて、細線で示す特徴点の照合により、タイヤを認識する。

そして、左図上段における特徴点の照合時の特徴点を結ぶ細線の幾何学的形状と、左図中段における特徴点の照合時の特徴点を結ぶ細線の幾何学的形状との変化を、その撮像時間間隔により除算すると、タイヤの回転速度を算出できる。タイヤが特定されるので、その寸法を考慮すると、自動車の走行速度を算出できる。

左図の下段は、表示画面１３６０中の、タイヤの製造会社や回転速度、そして自動車の走行速度の表示１３６１を示している。このように、本実施形態の局所特徴量による照合においては、認識対象物の寸法や向きに関係なく対象物の認識が可能である。したがって、所定時間間隔で撮像することによって、寸法や向きに関係なく回転速度に基づき移動速度を算出できる。

《携帯端末の機能構成》
図１４は、本実施形態に係る携帯端末１３００の機能構成を示すブロック図である。なお、第２実施形態の図３と同様の機能構成部には同じ参照番号を付して、説明を省略する。

対象物移動検出部１４６０は、移動検出テーブル１４６１（図１５Ａ参照）を有し、認識部３４０からの対象物の複数の認識結果から認識対象物の移動を検出する。また、速度算出部１４９０は、速度算出テーブル１４９１（図１５Ｂ参照）を有し、認識部３４０からの対象物の複数の認識結果から認識対象物の移動速度を検出する。

（移動検出テーブル）
図１５Ａは、本実施形態に係る移動検出テーブル１４６１の構成を示す図である。

移動検出テーブル１４６１は、対象物ＩＤ１５１１と対象物名１５１２とに対応付けて、複数の画像から生成された複数の局所特徴量であり、局所特徴量と特徴点座標とからなる第１生成局所特徴量１５１３、第２生成局所特徴量１５１４を記憶する。同じ対象物ＩＤ１５１１の第１生成局所特徴量１５１３、第２生成局所特徴量１５１４などから、その照合時の特徴点間の関係の幾何学関係を考慮して対象物の移動を検出し、移動検出結果１５１５を記憶する。

（速度算出テーブル）
図１５Ｂは、本実施形態に係る速度算出テーブル１４９１の構成を示す図である。

速度算出テーブル１４９１は、対象物ＩＤ１５２１と対象物名１５２２とに対応付けて、複数の画像から生成された複数の局所特徴量であり、局所特徴量と特徴点座標とからなる第１生成局所特徴量１５２３、第２生成局所特徴量１５２４を記憶する。同じ対象物ＩＤ１５２１の第１生成局所特徴量１５２３、第２生成局所特徴量１５２４などから、その照合時の特徴点間の関係の幾何学関係を考慮して対象物の移動方向１５２５を検出する。そして、第１生成局所特徴量の画像と第２生成局所特徴量の画像を取得した時間１５２６で除算することによって、移動速度１５２７を算出する。

なお、上記移動検出テーブル１４６１および速度算出テーブル１４９１の第１生成局所特徴量は、特許請求の範囲に記載した第２局所特徴量に相当し、第２生成局所特徴量は、特許請求の範囲に記載した第３局所特徴量に相当する。

《携帯端末の処理手順》
図１６は、本実施形態に係る携帯端末１３００の処理手順を示すフローチャートである。このフローチャートは、図７のＣＰＵ７１０によりＲＡＭ７４０を使用して実行され、図１４の機能構成部を実現する。なお、第２実施形態の図８と同様のステップ群については図示および説明を省略する。また、第２実施形態の図８と同様のステップには同じステップ番号を付して、説明を省略する。

映像入力において、局所特徴量生成処理と照合処理とが終了した後、ステップＳ１６１７において、所定時間が経過したかを判定する。所定時間が経過するとステップＳ１６１９に進んで、第２映像を取得する。そして、ステップＳ８２３およびＳ８２５において、局所特徴量生成処理と照合処理を実行する。

ステップＳ１６２７において、２つの映像の画像から生成された局所特徴量とその照合処理における特徴点の対応の幾何学的変化に基づいて、対象物について検出された移動や算出された速度を重畳表示する。

［第５実施形態］
次に本発明の第５実施形態に係る携帯端末について説明する。本実施形態に係る携帯端末は、上記第２実施形態と比べると、複数の画像からの対象物認識に基づいて対象物の変化を検出する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

本実施形態によれば、認識対処物の撮像角度に関係なくその変化を検出できる。

《映像処理の説明》
図１７Ａおよび図１７Ｂは、本実施形態に係る携帯端末１７００による映像処理を説明する図である。なお、本実施形態においては、観察対象物の画像を撮像し、局所特徴量を生成して局所特徴量ＤＢに登録する。次に、同じ観察対象物を時間経過後に撮像して局所特徴量を生成し、局所特徴量ＤＢに登録された捜索対象物の局所特徴量と照合することにより、観察対象物の変化からその成長や異変を検出してユーザに報知する。

まず、図１７Ａは、携帯端末１７００により赤ちゃんを撮像した場合に、異なる複数の映像の局所特徴量からその成長あるいは異変を検出して報知する例である。

図１７Ａの左図は、携帯端末１７００が撮像した赤ちゃん映像である。また、右図は、局所特徴量ＤＢ３３０に登録された、赤ちゃんの映像から生成された局所特徴量１７９１を示す。

左図の上段は、局所特徴量ＤＢ３３０に登録する赤ちゃんを撮像した表示画面１７１０である。表示画面１７１０の画像から生成した局所特徴量を、右図のように局所特徴量ＤＢ３３０に局所特徴量１７９１として登録する。

次に、左図の下段は、時間経過後の同じ赤ちゃんを撮像した表示画面１７２０である。表示画面１７２０の画像から生成した局所特徴量と、局所特徴量ＤＢ３３０に登録した局所特徴量１７９１とに基づいて、細線で示す特徴点の照合による幾何学的な関係から、赤ちゃんの成長や異変が検出されれば、その旨の表示１７２１によりユーザに報知する。

このように、本実施形態によれば、図１７Ａの左図上段と下段のように赤ちゃんの姿勢に関係なく、同じ赤ちゃんであることの認識と共に、その長さや大きさの変化や寸法の比の変化などから赤ちゃんの成長が検出可能である。また、特徴点の追加や減少、あるいは特徴点の局所特徴量の極端な変化などから赤ちゃんの異変も検出可能である。

次に、図１７Ｂは、携帯端末１７００により植物を撮像した場合に、異なる複数の映像の局所特徴量からその成長あるいは異変を検出して報知する例である。

図１７Ｂの左図は、携帯端末１７００が撮像した鉢植えの映像である。また、右図は、局所特徴量ＤＢ３３０に登録された、鉢植えの映像から生成された局所特徴量１７９２を示す。

左図の上段は、局所特徴量ＤＢ３３０に登録する鉢植えを撮像した表示画面１７３０である。表示画面１７３０の画像から生成した局所特徴量を、右図のように局所特徴量ＤＢ３３０に局所特徴量１７９２として登録する。

次に、左図の下段は、時間経過後の同じ鉢植えを撮像した表示画面１７４０である。表示画面１７４０の画像から生成した局所特徴量と、局所特徴量ＤＢ３３０に登録した局所特徴量１７９２とに基づいて、細線で示す特徴点の照合による幾何学的な関係から、鉢植えの植物の成長や異変が検出されれば、その旨の表示１７４１によりユーザに報知する。

このように、本実施形態によれば、図１７Ｂの左図上段と下段のように鉢植えや植物の姿勢に関係なく、同じ植物であることの認識と共に、その長さや大きさの変化や寸法の比の変化などから植物の成長が検出可能である。また、特徴点の追加や減少、あるいは特徴点の局所特徴量の極端な変化などから植物の異変も検出可能である。

《携帯端末の機能構成》
図１８は、本実施形態に係る携帯端末１７００の機能構成を示すブロック図である。なお、第２実施形態の図３と同様の機能構成部には同じ参照番号を付して、説明を省略する。

登録／変化判定部１８１０は、局所特徴量生成部３２０で生成した局所特徴量が、局所特徴量ＤＢ３３０に登録する照合の基準となる局所特徴量か、局所特徴量ＤＢ３３０に登録した局所特徴量と照合する局所特徴量か、を判定する。かかる判定は、操作部３８０からのユーザの操作により行ってもよいし、無条件に一方で登録をしつつ局所特徴量ＤＢ３３０に登録した局所特徴量と照合してもよい。局所特徴量登録部１８２０は、登録／変化判定部１８１０が登録処理と判定した場合に、局所特徴量を認識対象物と対応付けて局所特徴量ＤＢ３３０に登録する。

変化検出部１８６０は変化検出テーブル１８６１を有し、認識部３４０の照合部３４０ａにおける照合時の特徴点の幾何学的関係により対象物の変化を検出する。表示コメントＤＢ１８９０は、変化（図１７Ａおよび図１７Ｂの例では“成長”か“異変”かなど）に対応する表示コメントを格納し、表示部３７０に重畳表示する。

（変化検出テーブル）
図１９は、本実施形態に係る変化検出テーブル１８６１の構成を示す図である。

変化検出テーブル１８６１は、対象物ＩＤ１９０１と対象物名１９０２とに対応付けて、複数の画像から生成された複数の局所特徴量であり、局所特徴量と特徴点座標とからなる前回生成局所特徴量１９０３、今回生成局所特徴量１９０４、さらに以前の局所特徴量１９０５を記憶する。同じ対象物ＩＤ１９０１の前回生成局所特徴量１９０３と今回生成局所特徴量１９０４などから、その照合時の特徴点間の関係の幾何学関係を考慮して対象物の変化を検出して、検出変化１９０６に記憶する。そして、変化に対応して表示コメントＤＢ１８９０から読出されたコメントを表示部３７０に表示する。

なお、上記変化検出テーブル１８６１の前回生成局所特徴量は、特許請求の範囲に記載した第２局所特徴量に相当し、今回生成局所特徴量は、特許請求の範囲に記載した第３局所特徴量に相当する。

《携帯端末の処理手順》
図２０は、本実施形態に係る携帯端末１７００の処理手順を示すフローチャートである。このフローチャートは、図７のＣＰＵ７１０によってＲＡＭ７４０を用いて実行され、図１８の各機能構成部を実現する。なお、第２実施形態の図８と同様のステップ群については図示および説明を省略する。また、第２実施形態の図８と同様のステップには同じステップ番号を付して、説明を省略する。

まず、ステップＳ２０１１において、対象物の画像の初期登録であるか否かを判定する。また、ステップＳ８１１においては、対象物認識を行うための映像入力があったか否かを判定する。

初期登録であればステップＳ２０１３に進んで、登録する映像を取得する。ステップＳ２０１５において、図８のステップＳ８１３と同様の局所特徴量生成処理を行う。そして、ステップＳ２０１７において、局所特徴量を観察対象物と対応付けて局所特徴量ＤＢ３３０に登録する。

映像入力があればステップＳ８１３に進んで、図８と同様の局所特徴量生成処理と照合処理とを実行する。ステップＳ２０２７においては、照合処理における特徴点の幾何学的関係から観察対象物の変化があるか否かを判定する。変化が認識されればステップＳ２０２９に進んで、変化を報知する表示コメントを表示コメントＤＢ１８９０から取得して表示部３７０に表示する。そして、ステップＳ２０３１において、新たに入力した映像入力の局所特徴量を局所特徴量ＤＢ３３０に記録する。

［第６実施形態］
次に、本発明の第６実施形態に係る映像処理システムについて説明する。本実施形態に係る映像処理システムは、上記第２実施形態乃至第５実施形態と比べると、複数の第１映像処理装置としての通信端末がそれぞれ同じ認識対象物を含む画像から局所特徴量を作成して、複数の局所特徴量から対象物を認識する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

本実施形態によれば、複数の通信端末により同時に複数方向から対象物を撮像した画像の局所特徴量により対象物を認識するので、より正確で確実な対象物の認識ができる。

《映像処理システムの構成》
図２１Ａは、本実施形態に係る映像処理システム２１００の構成を示すブロック図である。なお、図２１Ａの映像処理システム２１００においては、複数の通信端末２１１１、２１１２と、対象物を認識する第２映像処理装置としての対象物認識サーバ２１２０との構成例を示すが、複数のカメラを有する１つの通信端末により複数の局所特徴量を生成することによっても実現可能である。本実施形態に係る映像処理システム２１００の通信端末２１１１、２１１２や対象物認識サーバ２１２０の詳細な構成や処理は、以下の第７実施形態の記載を参照されたい。

映像処理システム２１００は、それぞれ局所特徴量生成部２１１０ａを有する複数の通信端末２１１１、２１１２により、認識対象物である本例では○○チョコレートのパッケージ２１９０を両面から撮像する。その両面画像からそれぞれ局所特徴量を生成して、対象物認識サーバ２１２０に送信する。

対象物認識サーバ２１２０においては、両面の局所特徴量により片面では得られない、より精度の高い特徴量による対象物の認識が可能である。あるいは、一方の面からは極めて少ないあるいは他と相関の大きい特徴量しか得られない場合であっても、両面の局所特徴量を生成することでより確度に高い対象物認識ができる。例えば、商店のレジにおいて商品の片面にシールなどが貼られている場合の認識漏れをなくすことが可能になる。

《映像処理システムの処理手順》
図２１Ｂは、本実施形態に係る映像処理システム２１００の処理手順を示すシーケンス図である。

まず、ステップＳ２１００において、対象物認識サーバ２１２０から２つの通信端末２１１１、２１１２に本実施形態の処理を実現するアプリケーションおよびデータがダウンロードされる。そして、ステップＳ２１０１において、アプリケーションを起動し初期化する。

ステップＳ２１０３において、通信端末２１１１の撮像部が第１映像を取得する。例えば、認識対象物の一面からの映像とする。次に、ステップＳ２１０５において、取得した第１映像の画像から局所特徴量を生成する。そして、ステップＳ２１０７において、生成した局所特徴量を特徴点座標と対応して映像処理装置に送信する。なお、以降の実施形態では局所特徴量を符号化して送信するが、本実施形態においては、２つの通信端末２１１１、２１１２のローカルな接続が主なので符号化は行っていない。例えば、商店のレジでは、映像処理装置はＰＯＳ(Point of sail)であって撮像部と有線で接続する場合も考えられる。しかし、符号化を行ってもよい。

一方、ステップＳ２１１３において、第２通信端末２１１２の撮像部が第２映像を取得する。例えば、認識対象物の他面からの映像とする。次に、ステップＳ２１１５において、取得した第２映像の画像から局所特徴量を生成する。そして、ステップＳ２１１７において、生成した局所特徴量を特徴点座標と対応して映像処理装置に送信する。

映像処理装置は、ステップＳ２１１９において、局所特徴量ＤＢ２１２１の局所特徴量と、両面の局所特徴量とを照合する。そして、ステップＳ２１２１において、照合結果に基づいて対象物を認識する。認識結果は、ステップＳ２１２３において、映像処理装置から第１、第２通信端末２１１１、２１１２に送信される。そして、第１、第２通信端末２１１１、２１１２は、ステップＳ２１２５において、認識結果をユーザに報知する。

［第７実施形態］
次に、本発明の第７実施形態に係る映像処理システムについて説明する。本実施形態に係る映像処理システムは、上記第２実施形態と比べると、携帯端末から画像の局所特徴量を対象物認識サーバに送信して、対象物を認識する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

本実施形態によれば、対象物認識サーバにおける広い領域からの複数の画像により、認識対象物に関する情報を生成できる。

《映像処理システムの構成》
図２２は、本実施形態に係る映像処理システム２２００の構成を示すブロック図である。本実施形態においては、複数の通信端末が、撮像した複数の映像の画像からそれぞれ局所特徴量を生成して対象物認識サーバに送信する。対象物認識サーバは、局所特徴量対象物の認識およびその他の処理を行い、その結果を通信端末に報知する。

映像処理システム２２００は、ネットワーク２２３０を介して接続された携帯端末を含む複数の通信端末２２１１〜２２１５と、対象物認識サーバ２２２０とを有する。通信端末２２１１〜２２１５はそれぞれ局所特徴量生成部２２１１ａ〜２２１５ａを有し、取得した映像中の画像から局所特徴量を生成して、対象物認識サーバ２２２０に送信する。そして、対象物認識サーバ２２２０は、局所特徴量ＤＢ２２２１を有し、各通信端末２２１１〜２２１５からそれぞれ送信される局所特徴量と、局所特徴量ＤＢ２２２１に格納された局所特徴量とを照合して、対象物を認識する。

《映像処理システムの処理手順》
図２３は、本実施形態に係る映像処理システム２２００の処理手順を示すシーケンス図である。なお、図２３においては、複数の通信端末を代表して１つの通信端末２２１１による動作手順を示す。

まず、ステップＳ２３００において、対象物認識サーバ２２２０から通信端末２２１１に本実施形態の処理を実現するアプリケーションおよびデータがダウンロードされる。そして、ステップＳ２３０１において、アプリケーションを起動し初期化する。

ステップＳ２２１３において、通信端末２２１１の撮像部が映像を取得する。次に、ステップＳ２２１５において、取得した映像の画像から局所特徴量を生成する。続いて、ステップＳ２３１７において、局所特徴量と特徴点座標とを符号化する。そして、ステップＳ２１１９において、符号化した局所特徴量を対象物認識サーバ２２２０に送信する。

対象物認識サーバ２２２０は、ステップＳ２１２１において、局所特徴量ＤＢ２２２１の局所特徴量と、受信した局所特徴量とを照合して対象物を認識する。ステップＳ２３２３においては、対象物の認識が可能か否かを判定する。認識可能であればステップＳ２３４３に進んで、認識結果を通信端末２２１１に送信する。

認識可能と判定されなければ、ステップＳ２３２５において、認識不可情報を通信端末２２１１に送信する。そして、ステップＳ２３２７において、局所特徴量を記憶保持する。

認識不可情報を受信した通信端末２２１１は、ステップＳ２３２９において、認識不可を表示してユーザに報知する。そして、次の映像の取得を待ち、ステップＳ２３３１において、第２画像を取得する。ステップＳ２３３３において、第２画像の局所特徴量を生成する。続いて、ステップＳ２３３５において符号化して、ステップＳ２３３７において対象物認識サーバ２２２０に送信する。

対象物認識サーバ２２２０では、ステップＳ２３３９において、ステップＳ２３１９において送信された局所特徴量と、ステップＳ２３３７において送信された局所特徴量とを参照あるいは結合して、対象物認識を行う。そして、ステップＳ２３４３において、認識結果を通信端末２２１１に送信する。

通信端末２２１１は、ステップＳ２３４５において、認識結果を報知する。なお、上記実施形態で説明した速度算出などの処理を対象物認識サーバ２２２０が実行することができるが、煩雑さをなくすため省略している。

《通信端末の機能構成》
図２４は、本実施形態に係る通信端末２２１１の機能構成を示すブロック図である。なお、第２実施形態の図３あるいは図７と同様の機能構成部には同じ参照番号を付して、説明は省略する。

局所特徴量送信部２４１０は、符号化部２４１１を有し、局所特徴量生成部３２０が生成した局所特徴量を特徴点座標と共に符号化し、通信制御部７３０を介して対象物認識サーバ２２２０に送信する。

認識結果受信部２４３０は、通信制御部７３０を介して対象物認識サーバ２２２０から対象物の認識結果を受信する。認識結果報知部２４４０は、図３Ａの表示部３７０を含み認識結果を報知する。また、対象物認識サーバ２２２０が、対象物の移動の検出や速度の算出を行う場合は、移動／速度受信部２４５０が通信制御部７３０を介して移動情報や速度情報を受信する。そして、表示部３７０を含む位相／速度報知部２４６０により報知する。また、対象物認識サーバ２２２０が、対象物の変化の検出を行う場合は、変化受信部２４７０が通信制御部７３０を介して変化情報を受信する。そして、表示部３７０を含む変化報知部２４８０により報知する。

《サーバの機能構成》
図２５は、本実施形態に係る対象物認識サーバ２２２０の機能構成を示すブロック図である。

対象物認識サーバ２２２０は、通信制御部２５０１を有する。局所特徴量受信部２５０２は、通信制御部２５０１を介して局所特徴量を受信する。局所特徴量受信部２５０２は、復号部２５０２ａを有する。復号部２５０２ａは、通信制御部２５０１を介して通信端末２２１１から受信した、符号化された局所特徴量および特徴点座標を復号する。また、局所特徴量記憶部２５０５は、以前に受信した局所特徴量とその照合結果を記憶する。そして、認識部２５０４が有する照合部２５０４ａにおいて、局所特徴量ＤＢ２２２１の認識対象物の局所特徴量と複数画像からの複数の局所特徴量とを照合する。認識部２５０４は、複数の局所特徴量の照合結果に基づいて、対象物を認識する。認識結果生成部２５０６は、認識結果を報知するためのデータを生成する。認識結果送信部２５０７は、通信制御部２５０１を介して、認識結果生成部２５０６が生成したデータを通信端末２２１１に送信する。

他の破線による機能構成部はオプションである。登録／照合判定部２５０８は、対象物認識サーバ２２２０を対象物の捜索に使用する場合の、捜索対象物の登録と捜索のための照合とを切り替える。局所特徴量登録部２５０９は、捜索対象物の登録の場合に、捜索対象物に対応付けて捜索対象物の局所特徴量を局所特徴量ＤＢ２２２１に登録する。

また、対象物の移動の検出や速度の算出をする場合は、複数の画像の局所特徴量の照合過程の情報を受信して、移動／速度算出部２５１０において、移動を検出し速度を算出する。なお、移動の検出処理や速度の算出処理は、上記第４実施形態と同様であるので、詳細な説明は省略する。検出した移動情報や算出した速度情報は、移動／速度送信部２５１１により、通信制御部２５０１を介して携帯端末に送信される。

また、対象物の変化の検出をする場合は、複数の画像の局所特徴量の照合過程の情報を受信して、変化検出部２５１３において、変化を検出する。なお、変化の検出処理は、上記第５実施形態と同様であるので、詳細な説明は省略する。検出した変化情報は、変化コメントＤＢ２５１２を参照して、変化情報送信部２５１４により、通信制御部２５０１を介して携帯端末に送信される。

（符号化部）
図２６は、本実施形態に係る符号化部２４１１の構成を示すブロック図である。なお、符号化部２４１１は本例に限定されず、他の符号化処理も適用可能である。

符号化部１４１１は、局所特徴量生成部３２０の特徴点検出部４１１から特徴点の座標を入力して、座標値を走査する座標値走査部２６２１を有する。座標値走査部２６２１は、画像をある特定の走査方法に従って走査し、特徴点の２次元座標値（Ｘ座標値とＹ座標値）を１次元のインデックス値に変換する。このインデックス値は、走査に従った原点からの走査距離である。なお、走査方向については、制限はない。

また、特徴点のインデックス値をソートし、ソート後の順列の情報を出力するソート部２６２２を有する。ここでソート部２６２２は、例えば昇順にソートする。また降順にソートしてもよい。

また、ソートされたインデックス値における、隣接する２つのインデックス値の差分値を算出し、差分値の系列を出力する差分算出部２６２３を有する。

そして、差分値の系列を系列順に符号化する差分符号化部２６２４を有する。差分値の系列の符号化は、例えば固定ビット長の符号化でもよい。固定ビット長で符号化する場合、そのビット長はあらかじめ規定されていてもよいが、これでは考えられうる差分値の最大値を表現するのに必要なビット数を要するため、符号化サイズは小さくならない。そこで、差分符号化部２６２４は、固定ビット長で符号化する場合、入力された差分値の系列に基づいてビット長を決定することができる。具体的には、例えば、差分符号化部２６２４は、入力された差分値の系列から差分値の最大値を求め、その最大値を表現するのに必要なビット数（表現ビット数）を求め、求められた表現ビット数で差分値の系列を符号化することができる。

一方、ソートされた特徴点のインデックス値と同じ順列で、対応する特徴点の局所特徴量を符号化する局所特徴量符号化部２６２５を有する。ソートされたインデックス値と同じ順列で符号化することで、差分符号化部２６２４で符号化された座標値と、それに対応する局所特徴量とを１対１で対応付けることが可能となる。局所特徴量符号化部２６２５は、本実施形態においては、１つの特徴点に対する１５０次元の局所特徴量から次元選定された局所特徴量を、例えば１次元を１バイトで符号化し、次元数のバイトで符号化することができる。

《通信端末のハードウェア構成》
図２７Ａは、本実施形態に係る通信端末のハードウェア構成を示すブロック図である。なお、通信端末のハードウェア構成は、第２実施形態の映像処理装置２００から照合処理に関連する構成をなくし、代わりに、局所特徴量の送信構成と照合結果の受信構成を追加した構成であるので、図７と同じ構成要素には同じ参照番号を付し、説明は省略する。

ＲＡＭ２７４０は、ＣＰＵ７１０が一時記憶のワークエリアとして使用するランダムアクセスメモリである。ＲＡＭ２７４０には、本実施形態の実現に必要なデータを記憶する領域が確保されている。変化検出結果２７４４は、オプションで対象物認識サーバ２２２０が実行して送信した変化検出結果を示す。移動検出／速度算出結果２７４５は、オプションで対象物認識サーバ２２２０が実行して送信した移動検出結果や速度算出結果を示す。表示画面データ２７４６は、表示フォーマット２７５１に基づいて、対象物認識結果７４３、変化検出結果２７４４、移動検出／速度算出結果２７４５を表示する画面データを示す。

ストレージ２７５０には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。表示フォーマット２７５１は、対象物認識結果７４３、変化検出結果２７４４、移動検出／速度算出結果２７４５を表示するフォーマットを示す。

ストレージ２７５０には、以下のプログラムが格納される。通信端末制御プログラム２７５２は、本通信端末の全体を制御する通信端末制御プログラムを示す。符号化モジュール２７５４は、生成された局所特徴量を特徴点座標と共に符号化するモジュールである。情報受信報知モジュール２７５５は、対象物認識結果７４３、変化検出結果２７４４、移動検出／速度算出結果２７４５を受信して報知するモジュールである。

なお、図２７には、本実施形態に必須なデータやプログラムのみが示されており、本実施形態に関連しないデータやプログラムは図示されていない。

《通信端末の処理手順》
図２７Ｂは、本実施形態に係る通信端末の処理手順を示すフローチャートである。このフローチャートは、図２７ＡのＣＰＵ７１０によってＲＡＭ２７４０を用いて実行され、図２４の各機能構成部を実現する。なお、第２実施形態の図８と同様のステップには同じステップ番号を付して、説明を省略する。

映像入力があればステップＳ８１１からＳ８１３に進んで、入力映像から局所特徴量生成処理を実行する（図９Ａ参照）。次に、ステップＳ２７１５において、局所特徴量および特徴点座標を符号化する（図２８Ａおよび図２８Ｂ参照）。ステップＳ２７１７においては、符号化されたデータを対象物認識サーバ２２２０に送信する。

（符号化処理）
図２８Ａは、本実施形態に係る符号化処理Ｓ２７１５の処理手順を示すフローチャートである。

まず、ステップＳ２８１１において、特徴点の座標値を所望の順序で走査する。次に、ステップＳ２８１３において、走査した座標値をソートする。ステップＳ２８１５において、ソートした順に座標値の差分値を算出する。ステップＳ２８１７においては、差分値を符号化する（図２８Ｂ参照）。そして、ステップＳ２８１９において、座標値のソート順に局所特徴量を符号化する。なお、差分値の符号化と局所特徴量の符号化とは並列に行ってもよい。

（差分値の符号化処理）
図２８Ｂは、本実施形態に係る差分値の符号化処理Ｓ２８３７の処理手順を示すフローチャートである。

まず、ステップＳ２８２１において、差分値が符号化可能な値域内であるか否かを判定する。符号化可能な値域内であればステップＳ２８２７に進んで、差分値を符号化する。そして、ステップＳ２８２９へ移行する。符号化可能な値域内でない場合（値域外）はステップＳ２８２３に進んで、エスケープコードを符号化する。そしてステップＳ２８２５において、ステップＳ２８２７の符号化とは異なる符号化方法で差分値を符号化する。そして、ステップＳ２８２９へ移行する。ステップＳ２８２９では、処理された差分値が差分値の系列の最後の要素であるかを判定する。最後である場合は、処理が終了する。最後でない場合は、再度ステップＳ２８２１に戻って、差分値の系列の次の差分値に対する処理が実行される。

《対象物認識サーバのハードウェア構成》
図２９は、本実施形態に係る対象物認識サーバ２２２０のハードウェア構成を示すブロック図である。

図２９で、ＣＰＵ２９１０は演算制御用のプロセッサであり、プログラムを実行することで対象物認識サーバ２２２０の図２５に示した各機能構成部を実現する。ＲＯＭ２９２０は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部２５０１は通信制御部であり、本実施形態においては、ネットワークを介して通信端末と通信する。なお、ＣＰＵ２９１０は１つに限定されず、複数のＣＰＵであっても、あるいは画像処理用のＧＰＵを含んでもよい。

ＲＡＭ２９４０は、ＣＰＵ２９１０が一時記憶のワークエリアとして使用するランダムアクセスメモリである。ＲＡＭ２９４０には、本実施形態の実現に必要なデータを記憶する領域が確保されている。受信した第２局所特徴量２９４１は、携帯端末から受信した特徴点座標を含む第１画像の局所特徴量を示す。受信した第３局所特徴量２９４２は、携帯端末から受信した特徴点座標を含む第２画像の局所特徴量を示す。読出した第１局所特徴量２３４３は、局所特徴量ＤＢ２２２１から読み出した特徴点座標を含む局所特徴量を示す。対象物認識結果２９４４は、受信した２つの第２および第３局所特徴量と局所特徴量ＤＢ２２２１に格納された第１局所特徴量との照合から認識された、対象物認識結果を示す。移動／速度情報２９４５は、受信した２つの第２および第３局所特徴量と局所特徴量ＤＢ２２２１に格納された第１局所特徴量との照合から検出あるいは算出された対象物の移動や速度を示す。変化情報２９４６は、受信した２つの第２および第３局所特徴量と局所特徴量ＤＢ２２２１に格納された第１局所特徴量との照合から検出された対象物の変化を示す。送受信データ２９４７は、通信制御部２５０１を介して送受信される送受信データを示す。

ストレージ２９５０には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。局所特徴量ＤＢ２２２１は、図６に示したと同様の局所特徴量ＤＢを示す。なお、対象物認識サーバ２２２０においては処理能力や記憶容量は十分であるので、全分野の局所特徴量を格納してもよい。速度算出テーブル２９５１は、図１５Ａに示したと同様の速度算出テーブルを示す。また、変化検出テーブル２９５２は、図１５Ｂに示したと同様の変化検出テーブルを示す。

ストレージ２９５０には、以下のプログラムが格納される。対象物認識サーバ制御プログラム２９５３は、対象物認識サーバ２２２０の全体を制御する対象物認識サーバ制御プログラムを示す（図３０参照）。局所特徴量ＤＢ作成モジュール２９５４は、局所特徴量ＤＢ２２２１を作成するモジュールである。対象物認識モジュール２９５５は、受信した複数の局所特徴量と局所特徴量ＤＢ３３０に格納された局所特徴量とを照合して対象物を認識するモジュールである。移動検出／速度算出モジュール２９５６は、受信した複数の局所特徴量と局所特徴量ＤＢ２２２１に格納された局所特徴量との照合に基づいて、対象物の移動を検出し、移動速度を算出するモジュールである。変化検出モジュール２９５７は、受信した複数の局所特徴量と局所特徴量ＤＢ２２２１に格納された局所特徴量との照合に基づいて、対象物の変化を検出するモジュールである。

なお、図２９には、本実施形態に必須なデータやプログラムのみが示されており、本実施形態に関連しないデータやプログラムは図示されていない。

《対象物認識サーバの処理手順》
図３０は、本実施形態に係る対象物認識サーバ２２２０の処理手順を示すフローチャートである。このフローチャートは、図２９のＣＰＵ２９１０によりＲＡＭ２９４０を使用して実行され、図２５の各機能構成部を実現する。

まず、ステップＳ３０１１において、局所特徴量ＤＢの生成か否かを判定する。また、ステップＳ３０２１において、携帯端末からの第２局所特徴量の受信かを判定する。また、ステップＳ３０３１において、携帯端末からの第３局所特徴量の受信かを判定する。いずれでもなければ、ステップＳ３０６１において他の処理を行う。

局所特徴量ＤＢの生成であればステップＳ３０１３に進んで、局所特徴量ＤＢ生成処理を実行する（図３１参照）。

また、第２局所特徴量の受信であればステップＳ３０２３に進んで、対象物認識のため照合処理を実行する。そして、ステップＳ３０２５において、対象物の認識が可能か否かを判定する。対象物の認識が可能であればステップＳ３０２７に進んで、認識対象物を局所特徴量の送信元に送信する。対象物の認識が可能でないならばステップＳ３０２９に進んで、第２局所特徴量を記憶する。

また、第３局所特徴量の受信であればステップＳ３０３３に進んで、ステップＳ３０２９で記憶した第２局所特徴量を読み出す。ステップＳ３０３５において、対象物の認識処理であるかを判定する。認識処理であればステップＳ３０３７に進んで、第２局所特徴量と第３局所特徴量とを使用した照合処理により対象物を認識する。そして、ステップＳ３０３９において、認識対象物を携帯端末に送信する。

また、ステップＳ３０４１において、移動検出や速度算出かを判定する。移動検出や速度算出であればステップＳ３０４３に進んで、第２局所特徴量と第３局所特徴量とを使用した照合処理に基づき、移動の検出および速度の算出を行う。そして、ステップＳ３０４５において、検出した移動や算出した速度を携帯端末に送信する。

また、ステップＳ３０４７において、変化の検出かを判定する。変化の検出であればステップＳ３０４９に進んで、第２局所特徴量と第３局所特徴量とを使用した照合処理に基づき、変化の検出を行う。そして、ステップＳ３０５１において、検出した変化を携帯端末に送信する。

なお、ステップＳ３０２３およびＳ３０３７の照合処理は、図９Ｂと同様であるので、説明は省略する。

（局所特徴量ＤＢ生成処理）
図３１は、本実施形態に係る局所特徴量ＤＢ生成処理Ｓ３０１３の処理手順を示すフローチャートである。

まず、ステップＳ３１０１において、認識対象物の画像を取得する。ステップＳ３１０３においては、特徴点の位置座標、スケール、角度を検出する。ステップＳ３１０５において、ステップＳ３１０３で検出された特徴点の１つに対して局所領域を取得する。次に、ステップＳ３１０７において、局所領域をサブ領域に分割する。ステップＳ３１０９においては、各サブ領域の特徴ベクトルを生成して局所療育の特徴ベクトルを生成する。ステップＳ３１０３からＳ３１０９の処理は図４Ｂに図示されている。

次に、ステップＳ３１１１において、ステップＳ３１０９において生成された局所領域の特徴ベクトルに対して次元選定を実行する。次元選定については、図４Ｄ〜図４Ｆに図示されている。しかしながら、局所特徴量ＤＢ２２２１の生成においては、次元選定における階層化を実行するが、生成された全ての特徴ベクトルを格納するのが望ましい。

ステップＳ３１１３においては、ステップＳ３１０３で検出した全特徴点について局所特徴量の生成と次元選定とが終了したかを判定する。終了していない場合はステップＳ３１０３に戻って、次の１つの特徴点について処理を繰り返す。全特徴点について終了した場合はステップＳ３１１５に進んで、認識対象物に対応付けて局所特徴量と特徴点座標を局所特徴量ＤＢ２２２１に登録する。

ステップＳ３１１７においては、他の認識対象物があるか否かを判定する。他の認識対象物があればステップＳ３１０１に戻って、認識対象物の画像を取得して処理を繰り返す。

［第８実施形態］
次に、本発明の第８実施形態に係る映像処理イステムについて説明する。本実施形態に係る映像処理システムは、上記第７実施形態と比べると、認識対象物に関する情報として、複数の通信端末から収集された局所特徴量から対象物の出現回数を生成する点で異なる。その他の構成および動作は、第７実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

本実施形態によれば、依頼した宣伝がどの程度有効であったかを把握できる。

《映像処理システムの構成》
図３２は、本実施形態に係る映像処理システム３２００の構成を示すブロック図である。

映像処理システム３２００は、ネットワーク３２４０を介して接続された複数の通信端末３２１１〜３２１４と、対象物認識サーバである対象物認識サーバ３２２０と、出現回数をカウントする対象物の局所特徴量を登録するための通信端末３２３０とを有する。通信端末３２１１〜３２１４、および３２３０はそれぞれ局所特徴量生成部３２１１ａ〜３２１４ａ、３２３０ａを有し、取得した映像中の画像から局所特徴量を生成して、対象物認識サーバ３２２０に送信できる。対象物認識サーバ３２２０は、局所特徴量ＤＢ２２２１と対象物出現カウントＤＢ３２２２とを有する。

まず、通信端末３２３０は、出現回数をカウントしたい対象物の画像から局所特徴量生成部３２３０ａにおいて局所特徴量を生成して、対象物認識サーバ３２２０の局所特徴量ＤＢ２２２１および対象物出現カウントＤＢ３２２２に登録する。

そして、通信端末３２１１〜３２１４からは、撮像部で撮像した映像、あるいは放送の受信や映像再生に基づいて、局所特徴量生成部３２１１ａ〜３２１４ａによって生成された局所特徴量が、対象物認識サーバに送信される。

対象物認識サーバ３２２０では、各通信端末３２１１〜３２１４からそれぞれ送信される局所特徴量と、局所特徴量ＤＢ２２２１に格納された対象物の局所特徴量とを照合して、対象物を認識する。そして、出現回数をカウントする対象物が認識されれば、対象物出現カウントＤＢ３２２２の対象物のカウントを増加する。

通信端末３２３０からの報知の要求がある場合、あるいは所定期間経過した場合に、対象物認識サーバ３２２０は、通信端末３２３０から登録された対象物の出現回数に関する情報を通信端末３２３０に送信する。通信端末３２３０では、登録した対象物に重畳して、出現回数のカウント期間や、カウント数、出現頻度などを表示する。

なお、図３２では、通信端末３２３０を、出現回数をカウントする対象物の登録装置としたが、他の通信端末３２１１〜３２１４が出現回数をカウントする対象物を登録して、出現回数の報知を受信してもよい。

《対象物認識サーバの機能構成》
図３３は、本実施形態に係る対象物認識サーバの機能構成を示すブロック図である。なお、第７実施形態の図２５と同様の機能構成部には同じ参照番号を付して、説明は省略する。

カウント対象物登録部３３０１は、通信端末３２３０から登録された対象物をその画像の局所特徴量に対応付けて、局所特徴量ＤＢ２２２１および対象物出現カウントＤＢ３２２２に登録する。カウント対象物抽出部３３０２は、認識部２５０４が認識した対象物の中に、対象物出現カウントＤＢ３２２２に登録された対象物を抽出する。そして、カウント制御部３３０３は、対象物出現カウントＤＢ３２２２内の抽出された対象物の出現回数をカウントアップする。

出現回数報知情報生成部３３０４は、対象物出現カウントＤＢ３２２２から指定された対象物の出現回数を読出して、報知情報を生成する。出現回数報知情報送信部３３０５は、通信端末３２３０に対象物の出現回数を送信する。出現回数報知情報出力部３３０６は、対象物認識サーバにおいて、出現回数報知情報を出力する。

（対象物出現カウントＤＢ）
図３４は、本実施形態に係る対象物出現カウントＤＢ３２２２の構成を示す図である。

対象物出現カウントＤＢ３２２２は、出現回数をカウントする対象物ＩＤ３４０１、対象物名３４０２、登録した局所特徴量３４０３に対応付けて、トータルの出現回数３４０４、月毎や日毎や時間毎の出現率３４０５、どの地域の出現が多いかなどの出現分布３４０６を記憶する。

《対象物認識サーバ３２２０の処理手順》
図３５は、本実施形態に係る対象物認識サーバ３２２０の処理手順を示すフローチャートである。このフローチャートは、図２９のＣＰＵ２９１０によりＲＡＭ２９４０を使用して実行され、図３３の機能構成部を実現する。

まず、ステップＳ３５１１において、出現回数をカウントする対象物として登録する対象物の受信か否かを判定する。また、ステップＳ３５２１において、映像から生成された局所特徴量の受信か否かを判定する。また、ステップＳ３５３１において、登録した対象物のカウント報知の要求か否かを判定する。いずれでもない場合は、ステップＳ３５４１において他の処理を実行する。なお、図３５には、対象物認識サーバ３２２０が所定期間を判定してカウント報知する処理は省略するが、その処理を加えてもよい。

対象物の登録であればステップＳ３５１３に進んで、対象物と局所特徴量を対象物出現カウントＤＢ３２２２に登録する。映像の局所特徴量の受信であればステップＳ２６２３に進んで、対象物認識のため照合処理を実行する。なお、照合処理は図９Ｂと同様であるので、説明は省略する。ステップＳ３５２５においては、認識対象物中から登録した対象物を抽出する。そして、登録した対象物があれば、ステップＳ３５２７において、対象物の出現回数をカウントアップする。対象物のカウント要求であればステップＳ３５３３に進んで、対象物出現カウントＤＢ３２２２から対象物の出現回数に関する情報を読み出す。そして、ステップＳ３５３５において、対象物出現情報を生成して、ステップＳ３５３７において、対象物を登録あるいはカウント要求した通信端末に対象物出現情報を送信する。

［第９実施形態］
次に、本発明の第９実施形態に係る映像処理システムについて説明する。本実施形態に係る映像処理システムは、上記第７および第８実施形態と比べると、認識対象物に関する情報として、対象物の出現履歴を生成する点で異なる。その他の構成および動作は、第７および第８実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

本実施形態によれば、認識対象物として物や人がどのように移動したかの履歴を追跡することができる。

《映像処理システムの構成》
図３６は、本実施形態に係る映像処理システムにおける映像処理を説明する図である。

図３６の左図は、携帯端末３６００により履歴を追跡したい対象物を撮像した表示画面３６１０である。表示画面３６１０には、履歴を追跡する対象物として自転車が撮像されている。この表示画面３６１０から局所特徴量が生成されて、不図示の対象物認識サーバに送信される。

対象物認識サーバには、図３２のように、様々な場所に設置している通信端末、あるいは様々な場所に運ばれた携帯端末から撮像した映像画面の局所特徴量が送信されてくる。対象物認識サーバは、それら受信した局所特徴量と、局所特徴量ＤＢ２２２１に登録された局所特徴量とを照合して、対象物を認識する。そして、例えば、監視カメラや携帯電話による撮像や、その他、撮像機能と通信機能とを有する機器から送信された局所特徴量から認識された対象物の履歴が、その対象物領域の局所特徴量と共に蓄積される。

図３６の右図は、携帯端末３６００に登録された自転車の移動履歴を表示した例である。表示画面３６２０には、追跡対象の自転車の局所特徴量に合致する局所特徴量の過去の移動履歴（時間と場所）が、地図上に表示されている。

本実施形態の局所特徴量による照合によれば、自転車の向きや画面中の大きさ、あるいは一部が隠れている場合であっても、同じ自転車であることを確実に認識できる。したがって、撮像機能と通信機能とを有するあらゆる機器による追跡が可能となる。

《対象物認識サーバの機能構成》
図３７は、本実施形態に係る対象物認識サーバの機能構成を示すブロック図である。なお、第７実施形態の図２５と同様の機能構成部には同じ番号を付して、説明を省略する。

出現履歴ＤＢ３７０１は、認識部２５０４によって対象物が認識された場合に、対象物とその領域の局所特徴量に対応付けて履歴(時間と場所）を蓄積する。特定対象物追跡指示検出部３７０２は、行動履歴を追跡したい特定の対象物を検出する。そして、その検出結果と共に、局所特徴量受信部２５０２から局所特徴量を、出現履歴追跡部３７０３に設定する。出現履歴追跡部３７０３は、第１照合部２５０４ａと同様の第２照合部３７０３ａを有し、特定の対象物の局所特徴量と、出現履歴ＤＢ３７０１に蓄積された局所特徴量とを照合して、特定対象物の今までの出現履歴を追跡する。なお、第１照合部２５０４ａと第２照合部３７０３ａとは、照合に使用されるパラメータ（図９ａのαやβなど）を適切に設定可能である。

出現履歴情報生成部３７０５は、地図ＤＢ３７０４を参照して、地図上に特定対象物の出現位置と時間とを重畳したデータを生成する。出現履歴情報送信部３７０６は、通信制御部２５０１を介して、出現履歴情報を携帯端末や、特定用途の出現履歴監視端末に送信する。その表示画面の例が、図３６の右図である
（出現履歴ＤＢ）
図３８は、本実施形態に係る出現履歴ＤＢ３７０１の構成を示す図である。

出現履歴ＤＢ３７０１は、対象物ＩＤ３８０１と対象物名３８０２とに対応付けて、局所特徴量の照合によりその対象物と認識された対象物領域の局所特徴量３８０３、出現時間３８０４、出現場所３８０５を記憶する。

（出現履歴抽出テーブル）
図３９は、本実施形態に係る出現履歴抽出テーブル３９００の構成を示す図である。

出現履歴抽出テーブル３９００は、履歴追跡対象物ＩＤ３９０１とその局所特徴量３９０２に対応付けて、照合によりその対象物と認識された対象物領域の局所特徴量３９０３、出現時間３９０４、出現場所３９０５、局所特徴量３９０２と対象物領域の局所特徴量３９０３との合致度３９０６を記憶する。

例えば、出現履歴抽出テーブル３９００に記憶される対象物領域の局所特徴量３９０３は、図３８の対象物領域の局所特徴量３８０３の中で、局所特徴量３９０２との合致度が所定閾値より高いものが選別される。

《対象物認識サーバの処理手順》
図４０は、本実施形態に係る対象物認識サーバの処理手順を示すフローチャートである。このフローチャートは、図２９のＣＰＵ２９１０によりＲＡＭ２９４０を使用して実行され、図３７の機能構成部を実現する。なお、本実施形態の特徴部分のみを図示し、他の処理は省略する。

まず、ステップＳ４０１１において、追跡対象物の局所特徴量の受信か否かを判定する。また、ステップＳ４０２１において、映像から生成された局所特徴量の受信か否かを判定する。

追跡対象物の局所特徴量であればステップＳ４０１３に進んで、出現履歴ＤＢ３７０１から追跡対象物の局所特徴量の十分な精度で合致する対象物の履歴を抽出する。次に、ステップＳ４０１５において、抽出した履歴から対象物の位置と時間とを地図ＤＢ３７０４の地図上に重畳する。そして、ステップＳ４０１７において、追跡対象物履歴の表示を行う（図３６の右図参照）。

映像から生成された局所特徴量の受信であればステップＳ４０２３に進んで、図９Ａで説明した照合処理を実行する。そして、ステップＳ４０２５において、出現履歴ＤＢ３７０１に対象物履歴を対象物領域の局所特徴量と共に蓄積する。なお、出現履歴ＤＢ３７０１の蓄積容量の増大は、対象物の重要度や時間経過、あるいは履歴情報取得の時間間隔などを考慮して、削除することにより防ぐことができる。

［他の実施形態］
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。

Claims

認識対象物と、前記認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段と、
第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成手段と、
前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成手段と、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識手段と、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識手段と、
前記第１認識手段による認識と前記第２認識手段による認識とに基づいて、前記認識対象物に関する情報を生成する情報生成手段と、
を備えることを特徴とする映像処理装置。
前記情報生成手段は、前記第１認識手段が認識した認識対象物と前記第２認識手段が認識した認識対象物とが同一であると判定した場合に、前記認識対象物の出現回数を加算することにより、前記認識対象物に関する情報として前記認識対象物の出現回数を生成することを特徴とする請求項１に記載の映像処理装置。
前記情報生成手段は、前記第１認識手段が認識した認識対象物と前記第２認識手段が認識した同じ認識対象物との変化を検出し、前記認識対象物に関する情報として前記認識対象物の変化を示す情報を生成することを特徴とする請求項１または２に記載の映像処理装置。
前記情報生成手段は、前記第１認識手段が認識した認識対象物と前記第２認識手段が認識した同じ認識対象物との変化の速度を検出し、前記認識対象物に関する情報として前記認識対象物の移動速度を示す情報を生成することを特徴とする請求項１乃至３のいずれか１項に記載の映像処理装置。
前記第１局所特徴量記憶手段は、前記認識対象物の画像内におけるｍ個の特徴点の位置座標と、前記ｍ個の第１局所特徴量との組を記憶し、
前記第２局所特徴量生成手段は、前記画像内におけるｎ１個の特徴点の位置座標と、前記ｎ１個の第２局所特徴量との組みを保持し、
前記第３局所特徴量生成手段は、前記画像内におけるｎ２個の特徴点の位置座標と、前記ｎ２個の第３局所特徴量との組みを保持し、
前記第１認識手段は、前記ｎ１個の第２局所特徴量とその位置座標との組の集合と、前記ｍ個の第１局所特徴量とその位置座標との組の所定割合以上の集合とが線形変換の関係であると判定した場合に、前記画像内に前記認識対象物が存在すると認識し、
前記第２認識手段は、前記ｎ２個の第３局所特徴量とその位置座標との組の集合と、前記ｍ個の第１局所特徴量とその位置座標との組の所定割合以上の集合とが線形変換の関係であると判定した場合に、前記画像内に前記認識対象物が存在すると認識することを特徴とする請求項１乃至４のいずれか１項に記載の映像処理装置。
前記第１局所特徴量と前記第２局所特徴量と前記第３局所特徴量とは、画像から抽出した特徴点を含む局所領域を複数のサブ領域に分割し、前記複数のサブ領域内の勾配方向のヒストグラムからなる複数次元の特徴ベクトルを生成することにより生成されることを特徴とする請求項１乃至５のいずれか１項に記載の映像処理装置。
前記第１局所特徴量と前記第２局所特徴量と前記第３局所特徴量とは、前記生成した複数次元の特徴ベクトルから、隣接するサブ領域間の相関がより大きな次元を削除することにより生成されることを特徴とする請求項６に記載の映像処理装置。
前記第１局所特徴量と前記第２局所特徴量と前記第３局所特徴量とは、画像から抽出した前記複数の特徴点から、重要度のより小さいと判断された特徴点を削除することにより生成されることを特徴とする請求項６または７に記載の映像処理装置。
前記特徴ベクトルの複数次元は、前記特徴点の特徴に寄与する次元から順に、かつ、前記局所特徴量に対して求められる精度の向上に応じて第１次元から順に選択できるよう、所定の次元数ごとに前記局所領域をひと回りするよう選定することを特徴とする請求項６乃至８のいずれか１項に記載の映像処理装置。
認識対象物と、前記認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段を有する映像処理装置の制御方法であって、
第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成ステップと、
前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成ステップと、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識ステップと、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識ステップと、
前記第１認識ステップにおける認識と前記第２認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
を含むことを特徴とする映像処理装置の制御方法。
認識対象物と、前記認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段を有する映像処理装置の制御プログラムであって、
第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成ステップと、
前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成ステップと、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識ステップと、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識ステップと、
前記第１認識ステップにおける認識と前記第２認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
をコンピュータに実行させることを特徴とする制御プログラム。
映像中を取得する第１映像処理装置と、該第１映像処理装置からの映像を受信して前記映像中から認識対象物を認識する第２映像処理装置とを備える映像処理システムであって、
前記第１映像処理装置は、
映像中の第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成手段と、
前記第２局所特徴量を前記第２映像処理装置に送信する第１送信手段と、
映像中の前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成手段と、
前記第３局所特徴量を前記第２映像処理装置に送信する第２送信手段と、
前記第２局所特徴量と前記第３局所特徴量とに基づいて前記第２映像処理装置において認識された、前記認識対象物に関する情報を前記第２映像処理装置から受信する第１受信手段と、
を備え、
前記第２映像処理装置は、
認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段と、
前記第２局所特徴量を前記第１映像処理装置から受信する第２受信手段と、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識手段と、
前記第３局所特徴量を前記第１映像処理装置から受信する第３受信手段と、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識手段と、
前記第１認識手段による認識と前記第２認識手段による認識とに基づいて、前記認識対象物に関する情報を生成する情報生成手段と、
前記認識対象物に関する情報を前記第１映像処理装置に送信する第３送信手段と、
を備えることを特徴とする映像処理システム。
前記映像処理システムは、複数の前記第１映像処理装置を備えることを特徴とする請求項１２に記載の映像処理システム。
前記情報生成手段は、前記複数の第１映像処理装置により送信された局所特徴量による認識対象物候補に基づいて、前記認識対象物に関する情報として前記認識対象物の認識結果を生成することを特徴とする請求項１３に記載の映像処理システム。
前記情報生成手段は、前記複数の第１映像処理装置により送信された局所特徴量の示す画像に同じ認識対象物が存在すると認識された場合に、前記認識対象物の出現回数を増加し、前記認識対象物に関する情報として前記認識対象物の出現回数を生成することを特徴とする請求項１３または１４に記載の映像処理システム。
前記情報生成手段は、前記複数の第１映像処理装置により送信された局所特徴量の示す画像に同じ認識対象物が存在すると認識された場合に、前記認識対象物の出現履歴を蓄積し、前記認識対象物に関する情報として前記認識対象物の出現履歴を生成することを特徴とする請求項１３乃至１５のいずれか１項に記載の映像処理システム。
映像中を取得する第１映像処理装置と、
認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段を有し、該第１映像処理装置からの映像を受信して前記映像中から認識対象物を認識する第２映像処理装置と、を備える映像処理システムにおける映像処理方法であって、
前記第１映像処理装置は、
映像中の第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成ステップと、
前記第２局所特徴量を前記第２映像処理装置に送信する第１送信ステップと、
映像中の前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成ステップと、
前記第３局所特徴量を前記第２映像処理装置に送信する第２送信ステップと、
前記第２局所特徴量と前記第３局所特徴量とに基づいて前記第２映像処理装置において認識された、前記認識対象物に関する情報を前記第２映像処理装置から受信する第１受信ステップと、
を含み、
前記第２映像処理装置は、
前記第２局所特徴量を前記第１映像処理装置から受信する第２受信ステップと、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識ステップと、
前記第３局所特徴量を前記第１映像処理装置から受信する第３受信ステップと、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識ステップと、
前記第１認識ステップにおける認識と前記第２認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
前記認識対象物に関する情報を前記第１映像処理装置に送信する第３送信ステップと、
を含むことを特徴とする映像処理方法。
請求項１２乃至１６のいずれか１項に記載の映像処理システムにおける、第１映像処理装置であって、
映像中の第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成手段と、
前記第２局所特徴量を前記第２映像処理装置に送信する第１送信手段と、
映像中の前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成手段と、
前記第３局所特徴量を前記第２映像処理装置に送信する第２送信手段と、
前記第２局所特徴量と前記第３局所特徴量とに基づいて前記第２映像処理装置において認識された、前記認識対象物に関する情報を前記第２映像処理装置から受信する第１受信手段と、
を備えることを特徴とする第１映像処理装置。
請求項１２乃至１６のいずれか１項に記載の映像処理システムにおける、第１映像処理装置の制御方法であって、
映像中の第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成ステップと、
前記第２局所特徴量を前記第２映像処理装置に送信する第１送信ステップと、
映像中の前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成ステップと、
前記第３局所特徴量を前記第２映像処理装置に送信する第２送信ステップと、
前記第２局所特徴量と前記第３局所特徴量とに基づいて前記第２映像処理装置において認識された、前記認識対象物に関する情報を前記第２映像処理装置から受信する第１受信ステップと、
を含むことを特徴とする第１映像処理装置の制御方法。
請求項１２乃至１６のいずれか１項に記載の映像処理システムにおける、第１映像処理装置の制御プログラムであって、
映像中の第１画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｊ次元の特徴ベクトルからなる第２局所特徴量を生成する第２局所特徴量生成ステップと、
前記第２局所特徴量を前記第２映像処理装置に送信する第１送信ステップと、
映像中の前記第１画像と異なる第２画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、ｋ次元の特徴ベクトルからなる第３局所特徴量を生成する第３局所特徴量生成ステップと、
前記第３局所特徴量を前記第２映像処理装置に送信する第２送信ステップと、
前記第２局所特徴量と前記第３局所特徴量とに基づいて前記第２映像処理装置において認識された、前記認識対象物に関する情報を前記第２映像処理装置から受信する第１受信ステップと、
をコンピュータに実行させることを特徴とする制御プログラム。
請求項１２乃至１６のいずれか１項に記載の映像処理システムにおける、第２映像処理装置であって、
認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段と、
前記第２局所特徴量を前記第１映像処理装置から受信する第２受信手段と、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識手段と、
前記第３局所特徴量を前記第１映像処理装置から受信する第３受信手段と、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識手段と、
前記第１認識手段による認識と前記第２認識手段による認識とに基づいて、前記認識対象物に関する情報を生成する情報生成手段と、
前記認識対象物に関する情報を前記第１映像処理装置に送信する第３送信手段と、
を備えることを特徴とする第２映像処理装置。
請求項１２乃至１６のいずれか１項に記載の映像処理システムにおける、認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段を備える第２映像処理装置の制御方法であって、
前記第２局所特徴量を前記第１映像処理装置から受信する第２受信ステップと、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識ステップと、
前記第３局所特徴量を前記第１映像処理装置から受信する第３受信ステップと、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識ステップと、
前記第１認識ステップにおける認識と前記第２認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
前記認識対象物に関する情報を前記第１映像処理装置に送信する第３送信ステップと、
を含むことを特徴とする第２映像処理装置の制御方法。
請求項１２乃至１６のいずれか１項に記載の映像処理システムにおける、認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、ｉ次元の特徴ベクトルからなる第１局所特徴量とを、対応付けて記憶する第１局所特徴量記憶手段を備える第２映像処理装置の制御プログラムであって、
前記第２局所特徴量を前記第１映像処理装置から受信する第２受信ステップと、
前記ｉ次元と前記ｊ次元のより少ない次元数を選択し、前記選択した次元数の前記第２局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第１画像に前記認識対象物が存在すると認識する第１認識ステップと、
前記第３局所特徴量を前記第１映像処理装置から受信する第３受信ステップと、
前記ｉ次元と前記ｋ次元のより少ない次元数を選択し、前記選択した次元数の前記第３局所特徴量に、前記選択した次元数の前記第１局所特徴量の所定割合以上が対応すると判定した場合に、前記第２画像に前記認識対象物が存在すると認識する第２認識ステップと、
前記第１認識ステップにおける認識と前記第２認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
前記認識対象物に関する情報を前記第１映像処理装置に送信する第３送信ステップと、
をコンピュータに実行させることを特徴とする制御プログラム。