JP2015092302A - 映像処理システム、映像処理方法、映像処理装置およびその制御方法と制御プログラム - Google Patents

映像処理システム、映像処理方法、映像処理装置およびその制御方法と制御プログラム Download PDF

Info

Publication number
JP2015092302A
JP2015092302A JP2012017382A JP2012017382A JP2015092302A JP 2015092302 A JP2015092302 A JP 2015092302A JP 2012017382 A JP2012017382 A JP 2012017382A JP 2012017382 A JP2012017382 A JP 2012017382A JP 2015092302 A JP2015092302 A JP 2015092302A
Authority
JP
Japan
Prior art keywords
local feature
recognition
video processing
local
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012017382A
Other languages
English (en)
Inventor
野村 俊之
Toshiyuki Nomura
俊之 野村
山田 昭雄
Akio Yamada
昭雄 山田
岩元 浩太
Kota Iwamoto
浩太 岩元
亮太 間瀬
Ryota Mase
亮太 間瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012017382A priority Critical patent/JP2015092302A/ja
Priority to PCT/JP2013/051571 priority patent/WO2013115092A1/ja
Publication of JP2015092302A publication Critical patent/JP2015092302A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features

Abstract

【課題】複数の映像から映像中に存在する物に関する情報をリアルタイムに生成すること。【解決手段】認識対象物から生成された第1局所特徴量のi次元と第1画像から生成された第2局所特徴量のj次元のより少ない次元数を選択して、選択次元数の第2局所特徴量に、選択次元数の第1局所特徴量の所定割合以上が対応すると判定した場合に、第1画像に認識対象物が存在すると認識し、第1局所特徴量のi次元と第2画像から生成された第3局所特徴量のk次元のより少ない次元数を選択して、選択次元数の第3局所特徴量に、選択次元数の第1局所特徴量の所定割合以上が対応すると判定した場合に、第2画像に認識対象物が存在すると認識し、第1画像に対する認識と第2画像に対する認識とに基づいて、認識対象物に関する情報を生成することを特徴とする。【選択図】 図1

Description

本発明は、複数の映像から映像中に存在する物に関する情報をリアルタイムに生成するための技術に関する。
上記技術分野において、特許文献1には、あらかじめモデル画像から生成されたモデル辞書を使用して、クエリ画像を認識する場合に、特徴量をクラスタリングすることにより認識速度を向上した技術が記載されている。
特開2011−221688号公報
しかしながら、上記文献には、複数の映像から映像中に存在する物に関する情報をリアルタイムに生成することは記載されていない。
本発明の目的は、上述の課題を解決する技術を提供することにある。
上記目的を達成するため、本発明に係る装置は、
認識対象物と、前記認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段と、
第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成手段と、
前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成手段と、
前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識手段と、
前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識手段と、
前記第1認識手段による認識と前記第2認識手段による認識とに基づいて、前記認識対象物に関する情報を生成する情報生成手段と、
を備えることを特徴とする。
上記目的を達成するため、本発明に係る方法は、
認識対象物と、前記認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段を有する映像処理装置の制御方法であって、
第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成ステップと、
前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成ステップと、
前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識ステップと、
前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識ステップと、
前記第1認識ステップにおける認識と前記第2認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
を含むことを特徴とする。
上記目的を達成するため、本発明に係るプログラムは、
認識対象物と、前記認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段を有する映像処理装置の制御プログラムであって、
第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成ステップと、
前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成ステップと、
前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識ステップと、
前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識ステップと、
前記第1認識ステップにおける認識と前記第2認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
をコンピュータに実行させることを特徴とする。
上記目的を達成するため、本発明に係るシステムは、
映像中を取得する第1映像処理装置と、該第1映像処理装置からの映像を受信して前記映像中から認識対象物を認識する第2映像処理装置とを備える映像処理システムであって、
前記第1映像処理装置は、
映像中の第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成手段と、
前記第2局所特徴量を前記第2映像処理装置に送信する第1送信手段と、
映像中の前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成手段と、
前記第3局所特徴量を前記第2映像処理装置に送信する第2送信手段と、
前記第2局所特徴量と前記第3局所特徴量とに基づいて前記第2映像処理装置において認識された、前記認識対象物に関する情報を前記第2映像処理装置から受信する第1受信手段と、
を備え、
前記第2映像処理装置は、
認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段と、
前記第2局所特徴量を前記第1映像処理装置から受信する第2受信手段と、
前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識手段と、
前記第3局所特徴量を前記第1映像処理装置から受信する第3受信手段と、
前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識手段と、
前記第1認識手段による認識と前記第2認識手段による認識とに基づいて、前記認識対象物に関する情報を生成する情報生成手段と、
前記認識対象物に関する情報を前記第1映像処理装置に送信する第3送信手段と、
を備えることを特徴とする。
上記目的を達成するため、本発明に係る装置は、
上記映像処理システムにおける、第1映像処理装置であって、
映像中の第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成手段と、
前記第2局所特徴量を前記第2映像処理装置に送信する第1送信手段と、
映像中の前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成手段と、
前記第3局所特徴量を前記第2映像処理装置に送信する第2送信手段と、
前記第2局所特徴量と前記第3局所特徴量とに基づいて前記第2映像処理装置において認識された、前記認識対象物に関する情報を前記第2映像処理装置から受信する第1受信手段と、
を備えることを特徴とする。
上記目的を達成するため、本発明に係る方法は、
上記映像処理システムにおける、第1映像処理装置の制御方法であって、
映像中の第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成ステップと、
前記第2局所特徴量を前記第2映像処理装置に送信する第1送信ステップと、
映像中の前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成ステップと、
前記第3局所特徴量を前記第2映像処理装置に送信する第2送信ステップと、
前記第2局所特徴量と前記第3局所特徴量とに基づいて前記第2映像処理装置において認識された、前記認識対象物に関する情報を前記第2映像処理装置から受信する第1受信ステップと、
を含むことを特徴とする。
上記目的を達成するため、本発明に係るプログラムは、
上記映像処理システムにおける、第1映像処理装置の制御プログラムであって、
映像中の第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成ステップと、
前記第2局所特徴量を前記第2映像処理装置に送信する第1送信ステップと、
映像中の前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成ステップと、
前記第3局所特徴量を前記第2映像処理装置に送信する第2送信ステップと、
前記第2局所特徴量と前記第3局所特徴量とに基づいて前記第2映像処理装置において認識された、前記認識対象物に関する情報を前記第2映像処理装置から受信する第1受信ステップと、
をコンピュータに実行させることを特徴とする。
上記目的を達成するため、本発明に係る装置は、
上記映像処理システムにおける、第2映像処理装置であって、
認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段と、
前記第2局所特徴量を前記第1映像処理装置から受信する第2受信手段と、
前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識手段と、
前記第3局所特徴量を前記第1映像処理装置から受信する第3受信手段と、
前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識手段と、
前記第1認識手段による認識と前記第2認識手段による認識とに基づいて、前記認識対象物に関する情報を生成する情報生成手段と、
前記認識対象物に関する情報を前記第1映像処理装置に送信する第3送信手段と、
を備えることを特徴とする。
上記目的を達成するため、本発明に係る方法は、
上記映像処理システムにおける、認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段を備える第2映像処理装置の制御方法であって、
前記第2局所特徴量を前記第1映像処理装置から受信する第2受信ステップと、
前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識ステップと、
前記第3局所特徴量を前記第1映像処理装置から受信する第3受信ステップと、
前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識ステップと、
前記第1認識ステップにおける認識と前記第2認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
前記認識対象物に関する情報を前記第1映像処理装置に送信する第3送信ステップと、
を含むことを特徴とする。
上記目的を達成するため、本発明に係るプログラムは、
上記映像処理システムにおける、認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段を備える第2映像処理装置の制御プログラムであって、
前記第2局所特徴量を前記第1映像処理装置から受信する第2受信ステップと、
前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識ステップと、
前記第3局所特徴量を前記第1映像処理装置から受信する第3受信ステップと、
前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識ステップと、
前記第1認識ステップにおける認識と前記第2認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
前記認識対象物に関する情報を前記第1映像処理装置に送信する第3送信ステップと、
をコンピュータに実行させることを特徴とする。
上記目的を達成するため、本発明に係る方法は、
映像中を取得する第1映像処理装置と、
認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段を有し、該第1映像処理装置からの映像を受信して前記映像中から認識対象物を認識する第2映像処理装置と、を備える映像処理システムにおける映像処理方法であって、
前記第1映像処理装置は、
映像中の第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成ステップと、
前記第2局所特徴量を前記第2映像処理装置に送信する第1送信ステップと、
映像中の前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成ステップと、
前記第3局所特徴量を前記第2映像処理装置に送信する第2送信ステップと、
前記第2局所特徴量と前記第3局所特徴量とに基づいて前記第2映像処理装置において認識された、前記認識対象物に関する情報を前記第2映像処理装置から受信する第1受信ステップと、
を含み、
前記第2映像処理装置は、
前記第2局所特徴量を前記第1映像処理装置から受信する第2受信ステップと、
前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識ステップと、
前記第3局所特徴量を前記第1映像処理装置から受信する第3受信ステップと、
前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識ステップと、
前記第1認識ステップにおける認識と前記第2認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
前記認識対象物に関する情報を前記第1映像処理装置に送信する第3送信ステップと、
を含むことを特徴とする。
本発明によれば、複数の映像から映像中に存在する物に関する情報をリアルタイムに生成することができる。
本発明の第1実施形態に係る映像処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る携帯端末による映像処理を説明する図である。 本発明の第2実施形態に係る携帯端末の機能構成を示すブロック図である。 本発明の第2実施形態に係る携帯端末の動作手順を示すシーケンス図である。 本発明の第2実施形態に係る局所特徴量生成部の構成を示すブロック図である。 本発明の第2実施形態に係る局所特徴量生成部の処理を示す図である。 本発明の第2実施形態に係る局所特徴量生成部の処理を示す図である。 本発明の第2実施形態に係る局所特徴量生成部の処理を示す図である。 本発明の第2実施形態に係る局所特徴量生成部の処理を示す図である。 本発明の第2実施形態に係る局所特徴量生成部の処理を示す図である。 本発明の第2実施形態に係る照合部の処理を示す図である。 本発明の第2実施形態に係る局所特徴量生成テーブルの構成を示す図である。 本発明の第2実施形態に係る対象物認識テーブルの構成を示す図である。 本発明の第2実施形態に係る局所特徴量DBの構成を示す図である。 本発明の第2実施形態に係る携帯端末のハードウェア構成を示すブロック図である。 本発明の第2実施形態に係る携帯端末の処理手順を示すフローチャートである。 本発明の第2実施形態に係る局所特徴量生成処理の処理手順を示すフローチャートである。 本発明の第2実施形態に係る照合処理の処理手順を示すフローチャートである。 本発明の第3実施形態に係る携帯端末による映像処理を説明する図である。 本発明の第3実施形態に係る携帯端末の機能構成を示すブロック図である。 本発明の第3実施形態に係る対象物出現情報DBの構成を示す図である。 本発明の第3実施形態に係る携帯端末の処理手順を示すフローチャートである。 本発明の第4実施形態に係る携帯端末による映像処理を説明する図である。 本発明の第4実施形態に係る携帯端末による映像処理を説明する図である。 本発明の第4実施形態に係る携帯端末の機能構成を示すブロック図である。 本発明の第4実施形態に係る移動検出テーブルの構成を示す図である。 本発明の第4実施形態に係る速度算出テーブルの構成を示す図である。 本発明の第4実施形態に係る携帯端末の処理手順を示すフローチャートである。 本発明の第5実施形態に係る映像処理システムによる映像処理を説明する図である。 本発明の第5実施形態に係る映像処理システムによる映像処理を説明する図である。 本発明の第5実施形態に係る携帯端末の機能構成を示すブロック図である。 本発明の第5実施形態に係る変化検出テーブルの構成を示す図である。 本発明の第5実施形態に係る携帯端末の処理手順を示すフローチャートである。 本発明の第6実施形態に係る映像処理システムの構成を示すブロック図である。 本発明の第6実施形態に係る映像処理システムの処理手順を示すシーケンス図である。 本発明の第7実施形態に係る映像処理システムの構成を示すブロック図である。 本発明の第7実施形態に係る映像処理システムの処理手順を示すシーケンス図である。 本発明の第7実施形態に係る通信端末の機能構成を示すブロック図である。 本発明の第7実施形態に係る対象物認識サーバの機能構成を示すブロック図である。 本発明の第7実施形態に係る符号化部の構成を示すブロック図である。 本発明の第7実施形態に係る通信端末のハードウェア構成を示すブロック図である。 本発明の第7実施形態に係る通信端末の処理手順を示すフローチャートである。 本発明の第7実施形態に係る符号化処理の処理手順を示すフローチャートである。 本発明の第7実施形態に係る差分値の符号化処理の処理手順を示すフローチャートである。 本発明の第7実施形態に係る対象物認識サーバのハードウェア構成を示すブロック図である。 本発明の第7実施形態に係る対象物認識サーバの処理手順を示すフローチャートである。 本発明の第7実施形態に係る局所特徴量DB生成処理の処理手順を示すフローチャートである。 本発明の第8実施形態に係る映像処理システムの構成を示すブロック図である。 本発明の第8実施形態に係る対象物認識サーバの機能構成を示すブロック図である。 本発明の第8実施形態に係る対象物出現カウントDBの構成を示す図である。 本発明の第8実施形態に係る対象物認識サーバの処理手順を示すフローチャートである。 本発明の第9実施形態に係る映像処理システムにおける映像処理を説明する図である。 本発明の第9実施形態に係る対象物認識サーバの機能構成を示すブロック図である。 本発明の第9実施形態に係る出現履歴DBの構成を示す図である。 本発明の第9実施形態に係る出現履歴抽出テーブルの構成を示す図である。 本発明の第9実施形態に係る対象物認識サーバの処理手順を示すフローチャートである。
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
[第1実施形態]
本発明の第1実施形態としての映像処理装置100について、図1を用いて説明する。映像処理装置100は、複数画像の局所特徴量から映像中の認識対象物に関する情報を生成する装置である。
図1に示すように、映像処理装置100は、第1局所特徴量記憶部110と、第2局所特徴量生成部120と、第3局所特徴量生成部130と、第1認識部140と、第2認識部150と、情報生成部160と、を含む。第1局所特徴量記憶部110は、認識対象物111と、認識対象物111の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量112とを、対応付けて記憶する。第2局所特徴量生成部120は、第1画像101内から特徴点121を抽出する。そして、第2局所特徴量生成部120は、特徴点121のそれぞれを含む局所領域122について、j次元の特徴ベクトルからなる第2局所特徴量123を生成する。第3局所特徴量生成部130は、第1画像101と異なる第2画像102内から特徴点131を抽出する。そして、第3局所特徴量生成部130は、特徴点131のそれぞれを含む局所領域132について、k次元の特徴ベクトルからなる第3局所特徴量133を生成する。第1認識部140は、i次元とj次元のより少ない次元数を選択する。そして、第1認識部140は、選択した次元数の第2局所特徴量123に、選択した次元数の第1局所特徴量112の所定割合以上が対応すると判定した場合に、第1画像101に認識対象物111が存在すると認識する。第2認識部150は、i次元とk次元のより少ない次元数を選択する。そして、第2認識部150は、選択した次元数の第3局所特徴量133に、選択した次元数の第1局所特徴量112の所定割合以上が対応すると判定した場合に、第2画像102に認識対象物111が存在すると認識する。情報生成部160は、第1認識部140による認識と第2認識部150による認識とに基づいて、認識対象物111に関する情報を生成する。
[第2実施形態]
次に、本発明に係る映像処理装置の第2実施形態としての携帯端末について説明する。本実施形態に係る携帯端末は、複数の異なる画像を撮像して、それぞれの画像から生成された局所特徴量と局所特徴量DBの局所特徴量との照合に基づいて、画像内の対象物を認識する。そして、それぞれの認識対象物に基づいて、認識対象物に関する情報を生成する。本実施形態においては、それぞれに局所特徴量の照合で得られた認識対象物候補を組み合わせて、最終的な認識対象物を得る。
本実施形態によれば、1つの画像による対象物認識よりも確度の高い認識結果を得ることができる。
《映像処理の説明》
図2は、本実施形態に係る携帯端末200による映像処理を説明する図である。
図2の上段は、認識対象物として建造物のビルを認識する一例の表示画面である。上段左図の映像の表示画面210はあるビルの高層階を携帯端末200により撮像したものである。表示画面210の画像から生成した局所特徴量と、局所特徴量DB330に格納した局所特徴量との照合により、第1の認識対象物候補を認識する。また、上段中央図の映像の表示画面220は同じビルの低層階を携帯端末200により撮像したものである。表示画面220の画像から生成した局所特徴量と、局所特徴量DB330に格納した局所特徴量との照合により、第2の認識対象物候補を認識する。そして、この2つの認識対象物候補が同じビルである場合は、上段右図の映像の表示画面230のように、認識対象物を確定して“○○ビルです”との認識対象物名などの情報231をビルの画像に重畳して表示する。また、“○○ビルです”とスピーカ232から音声出力する。なお、報知する情報は認識対象物名に限定されずに、住所や他の関連技術、あるいは関連情報にリンクするリンク情報(例えば、URL:Uniform Resource Locator)であってもよい。かかる関連情報は、認識対象物に対応して変化する。
図2の下段は、認識対象物として建造物のビルを認識する他例の表示画面である。下段左図の映像の表示画面210は、上段左図と同様に、あるビルの高層階を携帯端末200により撮像したものである。表示画面210の画像から生成した局所特徴量と、局所特徴量DB330に格納した局所特徴量との照合により、第1の認識対象物候補を認識する。また、下段中央図の映像の表示画面240は、下段左図のビル上層階の一部にズームインして、携帯端末200により撮像したものである。表示画面240の画像から生成した局所特徴量と、局所特徴量DB330に格納した局所特徴量との照合により、第3の認識対象物候補を認識する。そして、この2つの認識対象物候補が同じビルである場合は、下段右図の映像の表示画面250のように、認識対象物を確定して“○○ビルです”との認識対象物名などの情報251をビルの画像に重畳して表示する。また、“○○ビルです”とスピーカ232から音声出力する。
《携帯端末の機能構成》
図3Aは、本実施形態に係る携帯端末200の機能構成を示すブロック図である。
携帯端末200は、映像を取得する撮像部310を有する。撮像された映像は、表示部370に表示されると共に、局所特徴量生成部320に入力される。局所特徴量生成部320は、撮像された映像から局所特徴量を生成する(詳細は図4A参照)。局所特徴量DB330には、あらかじめ個々の認識対象物、図2のビルなど単体、から局所特徴量生成部320と同様のアルゴリズムで生成された局所特徴量が、認識対象物と対応付けられて格納されている。なお、かかる局所特徴量DB330の内容は、図示しない通信制御部を介して外部から受信してもよい。
局所特徴量記憶部350は、前に撮像した画像から局所特徴量生成部320が生成した局所特徴量を記憶する。なお、記憶する局所特徴量は1つに限定されず、複数の連続するあるいは間欠的な局所特徴量であってもよい。
認識部340が有する照合部340aは、撮像された映像から局所特徴量生成部320で生成された少なくとも2つの局所特徴量中に、局所特徴量DB330に格納されている局所特徴量に対応するデータがあるか否かを照合する。照合部340aは、対応するデータがあれば、撮影された映像中に認識対象物候補があると判定する。なお、局所特徴量が対応するというのは、同じ局所特徴量があるというだけでなく、その順序や配置が同じ対象物から取得し得るか否かを判断することを含んでもよい(図4Gおよび図4H参照)。そして、認識部340は、照合部340aによる少なくとも2つの画像の局所特徴量と、局所特徴量DB330に格納されている局所特徴量との照合結果に基づいて、最終的な認識結果を決定する。最終的な認識は、例えば、1つの画像の局所特徴量と局所特徴量DB330に格納されている局所特徴量との合致率が第1閾値を超える場合とする。あるいは、複数の画像の局所特徴量と局所特徴量DB330に格納されている局所特徴量との合致率の合計が第2閾値を超える場合としてもよい。なお、本実施形態では、複数の画像の局所特徴量はそれぞれ別個に局所特徴量DB330に格納されている局所特徴量と照合されたが、複数の画像の局所特徴量を組み合わせて複数の画像を結合した画像の局所特徴量を生成してもよい。かかる処理は、例えば、複数の画像の一部が重なっている場合などには、より正確な対象物の認識ができる。
認識結果生成部360は、認識部340の認識結果から表示部370に表示するためのデータを生成する。かかるデータには、認識対象物の名称や認識エラーなどのデータも含まれる。また、前記のような、関連情報やリンク情報も含まれる。表示部370は、撮像部310で撮像された映像に認識結果を重畳して表示する(図2参照)。また、認識結果生成部360が生成したデータは、図示しない通信制御部を介して外部に送信されてもよい。操作部380は、携帯端末200のキーやタッチパネルを含み、撮像部310などの携帯端末200の動作を操作する。
なお、本実施形態の携帯端末200は、撮像中の映像に限定されず、再生中の映像や放送中の映像においても適用可能である。その場合には、撮像部310を映像再生部や映像受信部に置き換えればよい。
《携帯端末の動作手順》
図3Bは、本実施形態に係る携帯端末200の動作手順を示すシーケンス図である。図3Bの各機能構成部は、携帯端末200の内部構成である。なお、本実施形態においては、特許請求の範囲の記載と対応を取るため、局所特徴量DB330に格納された認識対象物の局所特徴量を“第1局所特徴量”と称す。また、複数の画像から局所特徴量生成部320によって生成された複数の局所特徴量の2つを代表して、それぞれ“第2局所特徴量”、“第3局所特徴量”と称す。
まず、ステップS301において、撮像部310が第1画像を取得する。そして、ステップS303において、第1画像を局所特徴量生成部320に送信する。局所特徴量生成部320は、ステップS305において、受信した第1画像から第2局所特徴量を生成する。そして、ステップS307において、第2局所特徴量を特徴点座標と対応付けて認識部340に送信する。認識部340は、ステップS309において、照合部340aによる第2局所特徴量と局所特徴量DB330の第1局所特徴量との照合により、第1画像中の対象物を認識する。ステップS311において、認識可能か否かを判定する。認識可能であればステップS331において、認識結果生成部360を介して認識結果を表示部370に送信する。表示部370(あるいはスピーカ)は、ステップS315において、認識不可を報知する。また、ステップS317において、第2局所特徴量とその対象物認識結果が記憶保持される。
一方、認識可能でなければ(認識の信頼性が低ければ)、ステップS313において、表示部370に認識不可情報を送信して、ステップS315において認識不可を報知する。認識不可を報知されたユーザの操作により、撮像部310は、ステップS321において、第1画像と異なる第2画像を取得する。そして、ステップS323において、第2画像を局所特徴量生成部320に送信する。局所特徴量生成部320は、ステップS325において、受信した第2画像から第3局所特徴量を生成する。そして、ステップS327において、第3局所特徴量を特徴点座標と対応付けて認識部340に送信する。認識部340は、ステップS329において、照合部340aによる第3局所特徴量と局所特徴量DB330の第1局所特徴量との照合により、第2画像中の対象物を認識する。この場合に、ステップS309における第2局所特徴量に基づく対象物認識候補の認識結果と、第3局所特徴量に基づく対象物認識候補の認識結果とを使用した対象物認識を行なっても、第2および第3局所特徴量を両方使用した対象物認識を行なってもよい。そして、ステップS331において、認識結果生成部360を介して認識結果を表示部370に送信する。表示部370(あるいはスピーカ)は、ステップS315において、認識不可を報知する。
《局所特徴量生成部》
図4Aは、本実施形態に係る局所特徴量生成部320の構成を示すブロック図である。
局所特徴量生成部320は、特徴点検出部411、局所領域取得部412、サブ領域分割部413、サブ領域特徴ベクトル生成部414、および次元選定部415を含んで構成される。
特徴点検出部411は、画像データから特徴的な点(特徴点)を多数検出し、各特徴点の座標位置、スケール(大きさ)、および角度を出力する。
局所領域取得部412は、検出された各特徴点の座標値、スケール、および角度から、特徴量抽出を行う局所領域を取得する。
サブ領域分割部413は、局所領域をサブ領域に分割する。例えば、サブ領域分割部413は、局所領域を16ブロック(4×4ブロック)に分割することも、局所領域を25ブロック(5×5ブロック)に分割することもできる。なお、分割数は限定されない。本実施形態においては、以下、局所領域を25ブロック(5×5ブロック)に分割する場合を代表して説明する。
サブ領域特徴ベクトル生成部414は、局所領域のサブ領域ごとに複数次元の特徴ベクトルを生成する。サブ領域の特徴ベクトルとしては、例えば、勾配方向ヒストグラムを用いることができる。
次元選定部415は、サブ領域の位置関係に基づいて、近接するサブ領域の特徴ベクトル間の相関が低くなるように、局所特徴量として出力する次元を選定する(例えば、間引きする)。また、次元選定部415は、単に次元を選定するだけではなく、選定の優先順位を決定することができる。すなわち、次元選定部415は、例えば、隣接するサブ領域間では同一の勾配方向の次元が選定されないように、優先順位をつけて次元を選定することができる。そして、次元選定部415は、選定した次元から構成される特徴ベクトルを、局所特徴量として出力する。なお、次元選定部415は、優先順位に基づいて次元を並び替えた状態で、局所特徴量を出力することができる。
《局所特徴量生成部の処理》
図4B〜図4Fは、本実施形態に係る局所特徴量生成部320の処理を示す図である。
まず、図4Bは、局所特徴量生成部320における、特徴点検出/局所領域取得/サブ領域分割/特徴ベクトル生成の一連の処理を示す図である。かかる一連の処理については、米国特許第6711293号明細書や、David G. Lowe著、「Distinctive image features from scale-invariant key points」、(米国)、International Journal of Computer Vision、60(2)、2004年、p. 91-110を参照されたい。
(特徴点検出部)
図4Bの421は、図4Aの特徴点検出部411において、映像中の画像から特徴点を検出した状態を示す図である。以下、1つの特徴点421aを代表させて局所特徴量の生成を説明する。特徴点421aの矢印の起点が特徴点の座標位置を示し、矢印の長さがスケール(大きさ)を示し、矢印の方向が角度を示す。ここで、スケール(大きさ)や方向は、対象映像に従って輝度や彩度、色相などを選択できる。また、図4Bの例では、60度間隔で6方向の場合を説明するが、これに限定されない。
(局所領域取得部)
図4Aの局所領域取得部412は、例えば、特徴点421aの起点を中心にガウス窓422aを生成し、このガウス窓422aをほぼ含む局所領域422を生成する。図4Bの例では、局所領域取得部412は正方形の局所領域422を生成したが、局所領域は円形であっても他の形状であってもよい。この局所領域を各特徴点について取得する。局所領域が円形であれば、撮影方向に対してロバスト性が向上するという効果がある。
(サブ領域分割部)
次に、サブ領域分割部413において、上記特徴点421aの局所領域422に含まれる各画素のスケールおよび角度をサブ領域423に分割した状態が示されている。なお、図4Bでは4×4=16画素をサブ領域とする5×5=25のサブ領域に分割した例を示す。しかし、サブ領域は、4×4=16や他の形状、分割数であってもよい。
(サブ領域特徴ベクトル生成部)
サブ領域特徴ベクトル生成部414は、サブ領域内の各画素のスケールを8方向の角度単位にヒストグラムを生成して量子化し、サブ領域の特徴ベクトル424とする。すなわち、特徴点検出部411が出力する角度に対して正規化された方向である。そして、サブ領域特徴ベクトル生成部414は、サブ領域ごとに量子化された8方向の頻度を集計し、ヒストグラムを生成する。この場合、サブ領域特徴ベクトル生成部414は、各特徴点に対して生成される25サブ領域ブロック×6方向=150次元のヒストグラムにより構成される特徴ベクトルを出力する。また、勾配方向を8方向に量子化するだけに限らず、4方向、8方向、10方向など任意の量子化数に量子化してよい。勾配方向をD方向に量子化する場合、量子化前の勾配方向をG(0〜2πラジアン)とすると、勾配方向の量子化値Qq(q=0,…,D−1)は、例えば式(1)や式(2)などで求めることができるが、これに限られない。
Qq=floor(G×D/2π) …(1)
Qq=round(G×D/2π)modD …(2)
ここで、floor()は小数点以下を切り捨てる関数、round()は四捨五入を行う関数、modは剰余を求める演算である。また、サブ領域特徴ベクトル生成部414は勾配ヒストグラムを生成するときに、単純な頻度を集計するのではなく、勾配の大きさを加算して集計してもよい。また、サブ領域特徴ベクトル生成部414は勾配ヒストグラムを集計するときに、画素が属するサブ領域だけではなく、サブ領域間の距離に応じて近接するサブ領域(隣接するブロックなど)にも重み値を加算するようにしてもよい。また、サブ領域特徴ベクトル生成部414は量子化された勾配方向の前後の勾配方向にも重み値を加算するようにしてもよい。なお、サブ領域の特徴ベクトルは勾配方向ヒストグラムに限られず、色情報など、複数の次元(要素)を有するものであればよい。本実施形態においては、サブ領域の特徴ベクトルとして、勾配方向ヒストグラムを用いることとして説明する。
(次元選定部)
次に、図4C〜図4Fに従って、局所特徴量生成部320における、次元選定部415に処理を説明する。
次元選定部415は、サブ領域の位置関係に基づいて、近接するサブ領域の特徴ベクトル間の相関が低くなるように、局所特徴量として出力する次元(要素)を選定する(間引きする)。より具体的には、次元選定部415は、例えば、隣接するサブ領域間では少なくとも1つの勾配方向が異なるように次元を選定する。なお、本実施形態では、次元選定部415は近接するサブ領域として主に隣接するサブ領域を用いることとするが、近接するサブ領域は隣接するサブ領域に限られず、例えば、対象のサブ領域から所定距離内にあるサブ領域を近接するサブ領域とすることもできる。
図4Cは、局所領域を5×5ブロックのサブ領域に分割し、勾配方向を6方向431aに量子化して生成された150次元の勾配ヒストグラムの特徴ベクトル431から次元を選定する場合の一例を示す図である。図4Cの例では、150次元(5×5=25サブ領域ブロック×6方向)の特徴ベクトルから次元の選定が行われている。
(局所領域の次元選定)
図4Cは、局所特徴量生成部320における、特徴ベクトルの次元数の選定処理の様子を示す図である。
図4Cに示すように、次元選定部415は、150次元の勾配ヒストグラムの特徴ベクトル431から半分の75次元の勾配ヒストグラムの特徴ベクトル432を選定する。この場合、隣接する左右、上下のサブ領域ブロックでは、同一の勾配方向の次元が選定されないように、次元を選定することができる。
この例では、勾配方向ヒストグラムにおける量子化された勾配方向をq(q=0,1,2,3,4,5)とした場合に、q=0,2,4の要素を選定するブロックと、q=1,3,5の要素を選定するサブ領域ブロックとが交互に並んでいる。そして、図4Cの例では、隣接するサブ領域ブロックで選定された勾配方向を合わせると、全6方向となっている。
また、次元選定部415は、75次元の勾配ヒストグラムの特徴ベクトル432から50次元の勾配ヒストグラムの特徴ベクトル433を選定する。この場合、斜め45度に位置するサブ領域ブロック間で、1つの方向のみが同一になる(残り1つの方向は異なる)ように次元を選定することができる。
また、次元選定部415は、50次元の勾配ヒストグラムの特徴ベクトル433から25次元の勾配ヒストグラムの特徴ベクトル434を選定する場合は、斜め45度に位置するサブ領域ブロック間で、選定される勾配方向が一致しないように次元を選定することができる。図4Cに示す例では、次元選定部415は、1次元から25次元までは各サブ領域から1つの勾配方向を選定し、26次元から50次元までは2つの勾配方向を選定し、51次元から75次元までは3つの勾配方向を選定している。
このように、隣接するサブ領域ブロック間で勾配方向が重ならないように、また全勾配方向が均等に選定されることが望ましい。また同時に、図4Cに示す例のように、局所領域の全体から均等に次元が選定されることが望ましい。なお、図4Cに示した次元選定方法は一例であり、この選定方法に限らない。
(局所領域の優先順位)
図4Dは、局所特徴量生成部320における、サブ領域からの特徴ベクトルの選定順位の一例を示す図である。
次元選定部415は、単に次元を選定するだけではなく、特徴点の特徴に寄与する次元から順に選定するように、選定の優先順位を決定することができる。すなわち、次元選定部415は、例えば、隣接するサブ領域ブロック間では同一の勾配方向の次元が選定されないように、優先順位をつけて次元を選定することができる。そして、次元選定部415は、選定した次元から構成される特徴ベクトルを、局所特徴量として出力する。なお、次元選定部415は、優先順位に基づいて次元を並び替えた状態で、局所特徴量を出力することができる。
すなわち、次元選定部415は、1〜25次元、26次元〜50次元、51次元〜75次元の間は、例えば図4Dのマトリクス441に示すようなサブ領域ブロックの順番で次元を追加するように選定していってもよい。図4Dのマトリクス441に示す優先順位を用いる場合、次元選定部415は、中心に近いサブ領域ブロックの優先順位を高くして、勾配方向を選定していくことができる。
図4Eのマトリクス451は、図4Dの選定順位に従って、150次元の特徴ベクトルの要素の番号の一例を示す図である。この例では、5×5=25ブロックをラスタスキャン順に番号p(p=0,1,…,25)で表し、量子化された勾配方向をq(q=0,1,2,3,4,5)とした場合に、特徴ベクトルの要素の番号を6×p+qとしている。
図4Fのマトリクス461は、図4Eの選定順位による150次元の順位が、25次元単位に階層化されていることを示す図である。すなわち、図4Fのマトリクス461は、図4Dのマトリクス441に示した優先順位に従って図4Eに示した要素を選定していくことにより得られる局所特徴量の構成例を示す図である。次元選定部415は、図4Fに示す順序で次元要素を出力することができる。具体的には、次元選定部415は、例えば150次元の局所特徴量を出力する場合、図4Fに示す順序で全150次元の要素を出力することができる。また、次元選定部415は、例えば25次元の局所特徴量を出力する場合、図4Fに示す1行目(76番目、45番目、83番目、…、120番目)の要素471を図4Fに示す順(左から右)に出力することができる。また、次元選定部415は、例えば50次元の局所特徴量を出力する場合、図4Fに示す1行目に加えて、図4Fに示す2行目の要素472を図4Fに示す順(左から右)に出力することができる。
ところで、図4Fに示す例では、局所特徴量は階層的な配列構造となっている。すなわち、例えば、25次元の局所特徴量と150次元の局所特徴量とにおいて、先頭の25次元分の局所特徴量における要素471〜476の並びは同一となっている。このように、次元選定部415は、階層的(プログレッシブ)に次元を選定することにより、アプリケーションや通信容量、端末スペックなどに応じて、任意の次元数の局所特徴量、すなわち任意のサイズの局所特徴量を抽出して出力することができる。また、次元選定部415が、階層的に次元を選定し、優先順位に基づいて次元を並び替えて出力することにより、異なる次元数の局所特徴量を用いて、画像の照合を行うことができる。例えば、75次元の局所特徴量と50次元の局所特徴量を用いて画像の照合が行われる場合、先頭の50次元だけを用いることにより、局所特徴量間の距離計算を行うことができる。
なお、図4Dのマトリクス441から図4Fに示す優先順位は一例であり、次元を選定する際の順序はこれに限られない。例えば、ブロックの順番に関しては、図4Dのマトリクス441の例の他に、図4Dのマトリクス442や図4Dのマトリクス443に示すような順番でもよい。また、例えば、全てのサブ領域からまんべんなく次元が選定されるように優先順位が定められることとしてもよい。また、局所領域の中央付近が重要として、中央付近のサブ領域の選定頻度が高くなるように優先順位が定められることとしてもよい。また、次元の選定順序を示す情報は、例えば、プログラムにおいて規定されていてもよいし、プログラムの実行時に参照されるテーブル等(選定順序記憶部)に記憶されていてもよい。
また、次元選定部415は、サブ領域ブロックを1つ飛びに選択して、次元の選定を行ってもよい。すなわち、あるサブ領域では6次元が選定され、当該サブ領域に近接する他のサブ領域では0次元が選定される。このような場合においても、近接するサブ領域間の相関が低くなるようにサブ領域ごとに次元が選定されていると言うことができる。
また、局所領域やサブ領域の形状は、正方形に限られず、任意の形状とすることができる。例えば、局所領域取得部412が、円状の局所領域を取得することとしてもよい。この場合、サブ領域分割部413は、円状の局所領域を例えば複数の局所領域を有する同心円に9分割や17分割のサブ領域に分割することができる。この場合においても、次元選定部415は、各サブ領域において、次元を選定することができる。
以上、図4B〜図4Fに示したように、本実施形態の局所特徴量生成部320によれば、局所特徴量の情報量を維持しながら生成された特徴ベクトルの次元が階層的に選定される。この処理により、認識精度を維持しながらリアルタイムでの対象物認識と認識結果の表示が可能となる。なお、局所特徴量生成部320の構成および処理は本例に限定されない。認識精度を維持しながらリアルタイムでの対象物認識と認識結果の表示が可能となる他の処理が当然に適用できる。
《照合部》
図4Gは、本実施形態に係る認識部340が有する照合部340aの処理を示す図である。
図4Gは、図2の下段の2つの画像からビルを認識する照合例を示す図である。あらかじめ認識対象物(本例では、○○ビル)から本実施形態に従い生成された局所特徴量は、局所特徴量DB330に格納されている。一方、左上図の携帯端末200の表示画面210からは、本実施形態に従い局所特徴量が生成される。そして、局所特徴量DB330に格納された局所特徴量481が、表示画面210から生成された局所特徴量中にあるか否かが照合される。
また、左下図の携帯端末200のズームインした表示画面240からは、本実施形態に従い局所特徴量が生成される。そして、局所特徴量DB330に格納された局所特徴量481が、表示画面240から生成された局所特徴量中にあるか否かが照合される。
図4Gに示すように、照合部340aは、局所特徴量DB330に格納されている局所特徴量481と局所特徴量が合致する各特徴点を細線のように関連付ける。なお、照合部340aは、局所特徴量の所定割合以上が一致する場合を特徴点の合致とする。そして、照合部340aは、関連付けられた特徴点の集合間の位置関係が線形関係であれば、認識対象物候補であると認識する。このような認識を行なえば、サイズの大小や向きの違い(視点の違い)、あるいは反転などによっても認識が可能である。また、所定数以上の関連付けられた特徴点があれば認識精度が得られるので、一部が視界から隠れていても認識対象物の認識が可能である。
図4Gに示すように、左上図の遠景画像においても左下図の拡大画像においても、局所特徴量DB330に格納された局所特徴量481と合致するならば、このビルは○○ビルであると認識する。
なお、図4Gにおいては、遠景画像と拡大画像との2つの画像の例を示したが、複数の画像これに限定されない。重なり部分の少ない異なる位置の複数の画像であったり、重なり部分の少ない異なる方角からの複数の画像であったりしてもよい。その場合には、局所特徴量DB330には、同じ対象物の画像から生成された複数の異なる局所特徴量が、認識対象物に対応付けて格納されることになる。
(局所特徴量生成テーブル)
図5Aは、本実施形態に係る局所特徴量生成テーブル510の構成を示す図である。
局所特徴量生成テーブル510には、入力画像ID511に対応付けて、複数の検出された検出特徴点512,特徴点座標513および特徴点に対応する局所領域情報514が記憶される。そして、各検出特徴点512,特徴点座標513および局所領域情報514に対応付けて、複数のサブ領域ID515,サブ領域情報516,各サブ領域に対応する特徴ベクトル517および優先順位を含む選定次元518が記憶される。
以上のデータから各検出特徴点512に対して生成された局所特徴量519が記憶される。
(対象物認識テーブル)
図5Bは、本実施形態に係る対象物認識テーブル520の構成を示す図である。
対象物認識テーブル520には、局所特徴量生成部320が生成した局所特徴量521に対応付けて、認識対象物候補を示す認識対象物候補ID522、照合した局所特徴量DB330の第1局所特徴量523、合致度524が記憶される。
以上のデータから認識対象物候補の出現数や合致度を考慮に入れて、最終的な総合認識結果525が決定される。
(局所特徴量DB)
図6は、本実施形態に係る局所特徴量DB330の構成を示す図である。
局所特徴量DB330は、認識対象物ID601と認識対象物名602に対応付けて、認識対象物の部分や視点の方向603、第1番局所特徴量604、第2番局所特徴量605、…、第m番局所特徴量606を記憶する。各局所特徴量は、図4Fにおける5×5のサブ領域に対応して、25次元ずつに階層化された1次元から150次元の要素からなる特徴ベクトルを記憶する。なお、mは正の整数であり、認識対象物に対応して異なる数でよい。また、本実施形態においては、それぞれの局所特徴量と共に照合処理に使用される特徴点座標が記憶される。
ここで、認識対象物の部分や視点の方向603は、これに限定されない。同じ認識対象物から生成された相関の小さな複数の局所特徴量を格納しておくのが、認識率を高めるのに有効である。
《携帯端末のハードウェア構成》
図7は、本実施形態に係る携帯端末200のハードウェア構成を示すブロック図である。
図7で、CPU710は演算制御用のプロセッサであり、プログラムを実行することで携帯端末200の各機能構成部を実現する。ROM720は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部730は通信制御部であり、本実施形態においては、ネットワークを介して他の装置と通信する。なお、CPU710は1つに限定されず、複数のCPUであっても、あるいは画像処理用のGPU(Graphics Processing Unit)を含んでもよい。
RAM740は、CPU710が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM740には、本実施形態の実現に必要なデータを記憶する領域が確保されている。入力映像741は、撮像部310が撮像して入力された入力映像を示す。特徴点データ742は、入力映像741から検出した特徴点座標、スケール、角度を含む特徴点データを示す。局所特徴量生成テーブル510は、図5Aで既に説明した局所特徴量生成テーブルを示す。対象物認識テーブル520は、図5Bで既に説明した対象物認識テーブルを示す。対象物認識結果743は、複数の入力映像から生成された複数の局所特徴量と局所特徴量DB330に格納された局所特徴量との照合から認識された、対象物認識結果を示す。認識結果表示データ744は、対象物認識結果743をユーザに報知するための認識結果表示データを示す。なお、音声出力をする場合には、認識結果音声データが含まれてもよい。入力映像/認識結果重畳データ745は、入力映像741に対象物認識結果743を重畳した表示部370に表示される入力映像/照合結果重畳データを示す。入出力データ746は、入出力インタフェース760を介して入出力される入出力データを示す。送受信データ747は、通信制御部390を介して送受信される送受信データを示す。なお、認識対象物の関連情報あるいはリンク情報を表示する場合には、その記憶領域を有する。
ストレージ750には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。局所特徴量DB330は、図6に示した局所特徴量DBである。認識結果表示フォーマット751は、対象物認識結果を表示するフォーマットを生成するために使用される認識結果表示フォーマットを示す。なお、認識対象物の関連情報あるいはリンク情報を表示する場合には、そのDBの記憶領域を有する。
ストレージ750には、以下のプログラムが格納される。携帯端末制御プログラム752は、携帯端末200の全体を制御する携帯端末制御プログラムを示す。局所特徴量生成モジュール753は、携帯端末制御プログラム752において、入力映像から図4B〜図4Fに従って局所特徴量を生成するモジュールである。なお、局所特徴量生成モジュール753は、図示のモジュール群から構成されるが、ここでは詳説は省略する。対象物認識モジュール754は、携帯端末制御プログラム752において、複数の入力映像から生成された複数の局所特徴量と局所特徴量DB330に格納された局所特徴量との照合に基づいて、対象物を認識するモジュールである。認識結果報知モジュール755は、対象物認識結果を表示または音声によりユーザに報知するためのモジュールである。なお、認識対象物の関連情報あるいはリンク情報を表示する場合には、そのプログラムモジュールの記憶領域を有する。
入出力インタフェース760は、入出力機器との入出力データをインタフェースする。入出力インタフェース760には、表示部370、操作部380であるタッチパネルやキーボード、スピーカ764、マイク765、撮像部310が接続される。入出力機器は上記例に限定されない。また、GPS(Global Positioning System)位置生成部766は、GPS衛星からの信号に基づいて現在位置を取得する。
なお、図7には、本実施形態に必須なデータやプログラムのみが示されており、本実施形態に関連しないデータやプログラムは図示されていない。
《携帯端末の処理手順》
図8は、本実施形態に係る携帯端末200の処理手順を示すフローチャートである。このフローチャートは、図7のCPU710によってRAM740を用いて実行され、図3の各機能構成部を実現する。
まず、ステップS811において、対象物認識を行なうための映像入力があったか否かを判定する。また、携帯端末の機能として、ステップS831においては受信を判定し、ステップS841においては送信を判定する。いずれでもなければ、ステップS851において他の処理を行なう。
映像入力があればステップS813に進んで、入力映像から局所特徴量生成処理を実行する(図9A参照)。次に、ステップS815において、照合処理を実行する(図9B参照)。ステップS817においては、ステップS815における照合によって対象物の認識が可能か否か判定される。認識可能と判定されればステップS827に進む。
認識可能でなければステップS819に進んで、認識不可を表示部370の表示、あるいはスピーカ764への音声出力により報知する。そして、ステップS821において、同じ対象物の異なる映像の入力を待つ。異なる映像入力があればステップS823に進んで、ステップS813と同様の局所特徴量生成処理を行なう。続いて、ステップS825において、ステップS815と同様の照合処理を行なう。
ステップS827においては、ステップS815および/またはステップS825における照合処理の結果を受けて、対象物認識結果を決定する。そして、入力映像認識結果を重畳した画面を表示部370に表示する。ステップS829においては、映像内の対象物認識を終了するかを判定する。対象物認識を継続する場合はステップS813に戻って、処理を継続する。
受信であり、局所特徴量DB用のデータをダウンロードする場合は、ステップS833において局所特徴量DB用データを受信して、ステップS835において局所特徴量DBに記憶する。一方、その他の携帯端末としてのデータ受信であれば、ステップS837において受信処理を行なう。また、送信であり、局所特徴量DB用のデータをアップロードする場合は、ステップS843において入力映像から生成した局所特徴量を局所特徴量DB用データとして送信する。一方、その他の携帯端末としてのデータ送信であれば、ステップS845において送信処理を行なう。携帯端末としてのデータ送受信処理については、本実施形態の特徴ではないので詳細な説明は省略する。
(局所特徴量生成処理)
図9Aは、本実施形態に係る局所特徴量生成処理S813の処理手順を示すフローチャートである。
まず、ステップS911において、入力映像から特徴点の位置座標、スケール、角度を検出する。ステップS913において、ステップS911で検出された特徴点の1つに対して局所領域を取得する。次に、ステップS915において、局所領域をサブ領域に分割する。ステップS917においては、各サブ領域の特徴ベクトルを生成して局所領域の特徴ベクトルを生成する。ステップS911からS917の処理は図4Bに図示されている。
次に、ステップS919において、ステップS917において生成された局所領域の特徴ベクトルに対して次元選定を実行する。次元選定については、図4D〜図4Fに図示されている。
ステップS921においては、ステップS911で検出した全特徴点について局所特徴量の生成と次元選定とが終了したかを判定する。終了していない場合はステップS913に戻って、次の1つの特徴点について処理を繰り返す。
(照合処理)
図9Bは、本実施形態に係る照合処理の処理手順S815を示すフローチャートである。
まず、ステップS931において、初期化として、パラメータp=1,q=0を設定する。次に、ステップS933において、局所特徴量DB330の局所特徴量の次元数iと、受信した局所特徴量の次元数jとの、より少ない次元数を選択する。
ステップS935〜S945のループにおいて、p>m(m=認識対象物の特徴点数)となるまで各局所特徴量の照合を繰り返す。まず、ステップS935において、局所特徴量DB330に格納された認識対象物の第p番局所特徴量の選択された次元数のデータを取得する。すなわち、最初の1次元から選択された次元数を取得する。次に、ステップS937において、ステップS935において取得した第p番局所特徴量と入力映像から生成した全特徴点の局所特徴量を順に照合して、類似か否かを判定する。ステップS939においては、局所特徴量間の照合の結果から類似度が閾値αを超えるか否かを判断し、超える場合はステップS941において、局所特徴量と、入力映像と認識対象物とにおける合致した特徴点の位置関係との組みを記憶する。そして、合致した特徴点数のパラメータであるqを1つカウントアップする。ステップS943においては、認識対象物の特徴点を次の特徴点に進め(p←p+1)、認識対象物の全特徴点の照合が終わってない場合には(p≦m)、ステップS935に戻って合致する局所特徴量の照合を繰り返す。なお、閾値αは、認識対象物によって求められる認識精度に対応して変更可能である。ここで、他の認識対象物との相関が低い認識対象物であれば認識精度を低くしても、正確な認識が可能である。
認識対象物の全特徴点との照合が終了すると、ステップS945からS947に進んで、ステップS947〜S953において、認識対象物が入力映像に存在するか否かが判定される。まず、ステップS947において、認識対象物の特徴点数pの内で入力映像の特徴点の局所特徴量と合致した特徴点数qの割合が、閾値βを超えたか否かを判定する。超えていればステップS949に進んで、認識対象物候補として、さらに、入力映像の特徴点と認識対象物の特徴点との位置関係が、線形変換が可能な関係を有しているかを判定する。すなわち、ステップS941において局所特徴量が合致したとして記憶した、入力映像の特徴点と認識対象物の特徴点との位置関係が、回転や反転、視点の位置変更などの変化によっても可能な位置関係なのか、不可能な位置関係なのかを判定する。かかる判定方法は幾何学的に既知であるので、詳細な説明は省略する。ステップS951において、整形変換可能か否かの判定結果により、線形変換可能であればステップS953に進んで、照合した認識対象物が入力映像に存在する可能性ありと判定する。なお、閾値βは、認識対象物によって求められる認識精度に対応して変更可能である。ここで、他の認識対象物との相関が低い、あるいは一部分からでも特徴が判断可能な認識対象物であれば合致した特徴点が少なくても、正確な認識が可能である。すなわち、一部分が隠れて見えなくても、あるいは特徴的な一部分が見えてさえいれば、対象物の認識が可能である。
ステップS955においては、局所特徴量DB330に未照合の認識対象物が残っているか否かを判定する。まだ認識対象物が残っていれば、ステップS957において次の認識対象物を設定して、パラメータp=1,q=0に初期化し、ステップS935に戻って照合を繰り返す。
なお、かかる照合処理の説明からも明らかなように、あらゆる分野の認識対象物を局所特徴量DB330に記憶して、全認識対象物を携帯端末で照合する処理は、負荷が非常に大きくなる。したがって、例えば、入力映像からの対象物認識の前にユーザが対象物の分野をメニューから選択して、その分野を局所特徴量DB330から検索して照合することが考えられる。また、局所特徴量DB330にユーザが使用する分野(例えば、図2の例であれば、動植物あるいは虫花や、建築物など)の局所特徴量のみをダウンロードすることによっても、負荷を軽減できる。
[第3実施形態]
次に、本発明の第3実施形態に係る携帯端末について説明する。本実施形態に係る携帯端末は、上記第2実施形態と比べると、認識対象物に関する情報として、複数の画像からの対象物認識に基づいて対象物の出現回数を生成する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、撮像対象物の出現回数からユーザの嗜好を判定できる。
《映像処理の説明》
図10は、本実施形態に係る携帯端末1000による映像処理を説明する図である。
図10の上段は、人物を認識対象物として、携帯端末1000の撮像した映像中の認識対象物の出現回数を積算して、その撮像カウントランキングを表示する例を示す。上段左図の映像の表示画面1010はある特定人物が登場するテレビ画面を撮像したものである。表示画面1010の画像から生成した局所特徴量と、局所特徴量DB330に格納した局所特徴量との照合により、対象物を認識する。そして、認識対象物が人物である場合に、対応する撮像カウントを増加する。上段右図の表示画面1020は、累積された各人物の撮像カウントを多い順にソートして、撮像カウントランキング1021として重畳表示する。
図10の下段は、自動車を認識対象物として、携帯端末1000の撮像した映像中の認識対象物の出現回数を積算して、その撮像カウントランキングを表示する例を示す。下段左図の映像の表示画面1030は道路を走行中のある自動車を撮像したものである。表示画面1030の画像から生成した局所特徴量と、局所特徴量DB330に格納した局所特徴量との照合により、対象物を認識する。そして、認識対象物が自動車である場合に、対応する撮像カウントを増加する。下段右図の表示画面1040は、累積された各自動車の撮像カウントを多い順にソートして、撮像カウントランキング1041として重畳表示する。
かかる撮像カウントランキングの表示により、自分の嗜好が認識できる。なお、出現回数のカウントは、連続する映像中の出現は1回としてカウントするのが好ましい。
《携帯端末の機能構成》
図11Aは、本実施形態に係る携帯端末の機能構成を示すブロック図である。なお、第2実施形態の図3と同様の機能構成部には同じ参照番号を付して、説明を省略する。
対象物出現情報DB1150は、認識部340からの対象物の認識結果から認識対象物に対応して出現回数(カウント)を累積記憶する。出現順位生成部1160は、対象物出現情報DB1150を参照して、出現回数順に認識対象物をソートして表示部370に表示する。
なお、対象物出現情報DB1150に格納する認識対象物は局所特徴量DB330に格納された対象物全体である必要はない。ユーザの操作により、図10に示したように、出現回数をカウントする対象を選別できる。また、対象物出現情報DB1150は、局所特徴量DB330の一部に合体することもできる。
(対象物出現情報DB)
図11Bは、本実施形態に係る対象物出現情報DB1150の構成を示す図である。
対象物出現情報DB1150は、認識対象物ID1101と認識対象物名1102とに対応付けて、トータル出現カウント1103と、月/日/時間ごとの出現率1104とを記憶する。
《携帯端末の処理手順》
図12は、本実施形態に係る携帯端末1000の処理手順を示すフローチャートである。このフローチャートは、図7のCPU710によりRAM740を使用して実行され、図11Aの機能構成部を実現する。なお、第2実施形態の図8と同様のステップ群については図示および説明を省略する。また、第2実施形態の図8と同様のステップには同じステップ番号を付して、説明を省略する。
映像入力において、局所特徴量生成処理と照合処理とが終了した後、ステップS1217において、対象物出現情報DB1150の認識対象物の出現カウントをカウントアップする。次に、ステップS1219において、対象物出現情報DB1150を参照して、出現回数を多い順にソートする出現順位生成処理を行なう。そして、ステップS1221において、出現順位を表示する(図10参照)。
[第4実施形態]
次に、本発明の第4実施形態に係る携帯端末について説明する。本実施形態に係る携帯端末は、上記第2実施形態と比べると、複数の画像からの対象物認識に基づいて移動方向や移動速度を検出する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、認識対処物の撮像角度に関係なくその移動方向および移動速度の算出ができる。本実施形態による移動方向および移動速度の算出は、車両の速度制限違反の検出に有用である。
《映像処理の説明》
図13Aおよび図13Bは、本実施形態に係る携帯端末1300による映像処理を説明する図である。なお、本実施形態においては、2つの画像の局所特徴量による照合処理における幾何学的な相違点から、認識対象物の移動方向の検出や移動速度の算出を行なう。
まず、図13Aにおいては、自動車を正面から撮像した場合の、2つの画像の局所特徴量による照合処理における幾何学的な相違点から、認識対象物である自動車の移動方向の検出や移動速度の算出を行なう。
図13Aの左図は、携帯端末1300が撮像した映像である。また、右図は、局所特徴量DB330に格納された、自動車の正面映像から生成された局所特徴量1391を示す。
左図の上段は、道路の遠方から接近してくる自動車を撮像した表示画面1310である。表示画面1310の画像から生成した局所特徴量と、局所特徴量DB330に格納した局所特徴量1391とに基づいて、細線で示す特徴点の照合により、自動車を認識する。
次に、左図の中段は、間近に接近した自動車を撮像した表示画面1320である。表示画面1320の画像から生成した局所特徴量と、局所特徴量DB330に格納した局所特徴量1391とに基づいて、細線で示す特徴点の照合により、自動車を認識する。
そして、左図上段における特徴点の照合時の特徴点を結ぶ細線の幾何学的形状と、左図中段における特徴点の照合時の特徴点を結ぶ細線の幾何学的形状との変化を、その撮像時間間隔により除算すると、自動車の走行速度を算出できる。
左図の下段は、表示画面1330中の、自動車の製造会社や車種、そしてその走行速度の表示1331を示している。このように、本実施形態の局所特徴量による照合においては、認識対象物の寸法や向きに関係なく対象物の認識が可能である。したがって、所定時間間隔で撮像することによって、寸法や向きに関係なく移動速度を算出できる。
次に、図13Bにおいては、タイヤを撮像した場合の、2つの画像の局所特徴量による照合処理における幾何学的な相違点から、認識対象物であるタイヤの回転速度を算出して、最終的に自動車の走行速度の算出を行なう。
図13Bの左図は、携帯端末1300が撮像した映像である。また、右図は、局所特徴量DB330に格納された、タイヤの映像から生成された局所特徴量1392を示す。
左図の上段は、タイヤを含む走行中の自動車を撮像した表示画面1340である。表示画面1340の画像から生成した局所特徴量と、局所特徴量DB330に格納した局所特徴量1392とに基づいて、細線で示す特徴点の照合により、タイヤを認識する。
次に、左図の中段は、タイヤを拡大して撮像した表示画面1350である。表示画面1520の画像から生成した局所特徴量と、局所特徴量DB330に格納した局所特徴量1392とに基づいて、細線で示す特徴点の照合により、タイヤを認識する。
そして、左図上段における特徴点の照合時の特徴点を結ぶ細線の幾何学的形状と、左図中段における特徴点の照合時の特徴点を結ぶ細線の幾何学的形状との変化を、その撮像時間間隔により除算すると、タイヤの回転速度を算出できる。タイヤが特定されるので、その寸法を考慮すると、自動車の走行速度を算出できる。
左図の下段は、表示画面1360中の、タイヤの製造会社や回転速度、そして自動車の走行速度の表示1361を示している。このように、本実施形態の局所特徴量による照合においては、認識対象物の寸法や向きに関係なく対象物の認識が可能である。したがって、所定時間間隔で撮像することによって、寸法や向きに関係なく回転速度に基づき移動速度を算出できる。
《携帯端末の機能構成》
図14は、本実施形態に係る携帯端末1300の機能構成を示すブロック図である。なお、第2実施形態の図3と同様の機能構成部には同じ参照番号を付して、説明を省略する。
対象物移動検出部1460は、移動検出テーブル1461(図15A参照)を有し、認識部340からの対象物の複数の認識結果から認識対象物の移動を検出する。また、速度算出部1490は、速度算出テーブル1491(図15B参照)を有し、認識部340からの対象物の複数の認識結果から認識対象物の移動速度を検出する。
(移動検出テーブル)
図15Aは、本実施形態に係る移動検出テーブル1461の構成を示す図である。
移動検出テーブル1461は、対象物ID1511と対象物名1512とに対応付けて、複数の画像から生成された複数の局所特徴量であり、局所特徴量と特徴点座標とからなる第1生成局所特徴量1513、第2生成局所特徴量1514を記憶する。同じ対象物ID1511の第1生成局所特徴量1513、第2生成局所特徴量1514などから、その照合時の特徴点間の関係の幾何学関係を考慮して対象物の移動を検出し、移動検出結果1515を記憶する。
(速度算出テーブル)
図15Bは、本実施形態に係る速度算出テーブル1491の構成を示す図である。
速度算出テーブル1491は、対象物ID1521と対象物名1522とに対応付けて、複数の画像から生成された複数の局所特徴量であり、局所特徴量と特徴点座標とからなる第1生成局所特徴量1523、第2生成局所特徴量1524を記憶する。同じ対象物ID1521の第1生成局所特徴量1523、第2生成局所特徴量1524などから、その照合時の特徴点間の関係の幾何学関係を考慮して対象物の移動方向1525を検出する。そして、第1生成局所特徴量の画像と第2生成局所特徴量の画像を取得した時間1526で除算することによって、移動速度1527を算出する。
なお、上記移動検出テーブル1461および速度算出テーブル1491の第1生成局所特徴量は、特許請求の範囲に記載した第2局所特徴量に相当し、第2生成局所特徴量は、特許請求の範囲に記載した第3局所特徴量に相当する。
《携帯端末の処理手順》
図16は、本実施形態に係る携帯端末1300の処理手順を示すフローチャートである。このフローチャートは、図7のCPU710によりRAM740を使用して実行され、図14の機能構成部を実現する。なお、第2実施形態の図8と同様のステップ群については図示および説明を省略する。また、第2実施形態の図8と同様のステップには同じステップ番号を付して、説明を省略する。
映像入力において、局所特徴量生成処理と照合処理とが終了した後、ステップS1617において、所定時間が経過したかを判定する。所定時間が経過するとステップS1619に進んで、第2映像を取得する。そして、ステップS823およびS825において、局所特徴量生成処理と照合処理を実行する。
ステップS1627において、2つの映像の画像から生成された局所特徴量とその照合処理における特徴点の対応の幾何学的変化に基づいて、対象物について検出された移動や算出された速度を重畳表示する。
[第5実施形態]
次に本発明の第5実施形態に係る携帯端末について説明する。本実施形態に係る携帯端末は、上記第2実施形態と比べると、複数の画像からの対象物認識に基づいて対象物の変化を検出する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、認識対処物の撮像角度に関係なくその変化を検出できる。
《映像処理の説明》
図17Aおよび図17Bは、本実施形態に係る携帯端末1700による映像処理を説明する図である。なお、本実施形態においては、観察対象物の画像を撮像し、局所特徴量を生成して局所特徴量DBに登録する。次に、同じ観察対象物を時間経過後に撮像して局所特徴量を生成し、局所特徴量DBに登録された捜索対象物の局所特徴量と照合することにより、観察対象物の変化からその成長や異変を検出してユーザに報知する。
まず、図17Aは、携帯端末1700により赤ちゃんを撮像した場合に、異なる複数の映像の局所特徴量からその成長あるいは異変を検出して報知する例である。
図17Aの左図は、携帯端末1700が撮像した赤ちゃん映像である。また、右図は、局所特徴量DB330に登録された、赤ちゃんの映像から生成された局所特徴量1791を示す。
左図の上段は、局所特徴量DB330に登録する赤ちゃんを撮像した表示画面1710である。表示画面1710の画像から生成した局所特徴量を、右図のように局所特徴量DB330に局所特徴量1791として登録する。
次に、左図の下段は、時間経過後の同じ赤ちゃんを撮像した表示画面1720である。表示画面1720の画像から生成した局所特徴量と、局所特徴量DB330に登録した局所特徴量1791とに基づいて、細線で示す特徴点の照合による幾何学的な関係から、赤ちゃんの成長や異変が検出されれば、その旨の表示1721によりユーザに報知する。
このように、本実施形態によれば、図17Aの左図上段と下段のように赤ちゃんの姿勢に関係なく、同じ赤ちゃんであることの認識と共に、その長さや大きさの変化や寸法の比の変化などから赤ちゃんの成長が検出可能である。また、特徴点の追加や減少、あるいは特徴点の局所特徴量の極端な変化などから赤ちゃんの異変も検出可能である。
次に、図17Bは、携帯端末1700により植物を撮像した場合に、異なる複数の映像の局所特徴量からその成長あるいは異変を検出して報知する例である。
図17Bの左図は、携帯端末1700が撮像した鉢植えの映像である。また、右図は、局所特徴量DB330に登録された、鉢植えの映像から生成された局所特徴量1792を示す。
左図の上段は、局所特徴量DB330に登録する鉢植えを撮像した表示画面1730である。表示画面1730の画像から生成した局所特徴量を、右図のように局所特徴量DB330に局所特徴量1792として登録する。
次に、左図の下段は、時間経過後の同じ鉢植えを撮像した表示画面1740である。表示画面1740の画像から生成した局所特徴量と、局所特徴量DB330に登録した局所特徴量1792とに基づいて、細線で示す特徴点の照合による幾何学的な関係から、鉢植えの植物の成長や異変が検出されれば、その旨の表示1741によりユーザに報知する。
このように、本実施形態によれば、図17Bの左図上段と下段のように鉢植えや植物の姿勢に関係なく、同じ植物であることの認識と共に、その長さや大きさの変化や寸法の比の変化などから植物の成長が検出可能である。また、特徴点の追加や減少、あるいは特徴点の局所特徴量の極端な変化などから植物の異変も検出可能である。
《携帯端末の機能構成》
図18は、本実施形態に係る携帯端末1700の機能構成を示すブロック図である。なお、第2実施形態の図3と同様の機能構成部には同じ参照番号を付して、説明を省略する。
登録/変化判定部1810は、局所特徴量生成部320で生成した局所特徴量が、局所特徴量DB330に登録する照合の基準となる局所特徴量か、局所特徴量DB330に登録した局所特徴量と照合する局所特徴量か、を判定する。かかる判定は、操作部380からのユーザの操作により行ってもよいし、無条件に一方で登録をしつつ局所特徴量DB330に登録した局所特徴量と照合してもよい。局所特徴量登録部1820は、登録/変化判定部1810が登録処理と判定した場合に、局所特徴量を認識対象物と対応付けて局所特徴量DB330に登録する。
変化検出部1860は変化検出テーブル1861を有し、認識部340の照合部340aにおける照合時の特徴点の幾何学的関係により対象物の変化を検出する。表示コメントDB1890は、変化(図17Aおよび図17Bの例では“成長”か“異変”かなど)に対応する表示コメントを格納し、表示部370に重畳表示する。
(変化検出テーブル)
図19は、本実施形態に係る変化検出テーブル1861の構成を示す図である。
変化検出テーブル1861は、対象物ID1901と対象物名1902とに対応付けて、複数の画像から生成された複数の局所特徴量であり、局所特徴量と特徴点座標とからなる前回生成局所特徴量1903、今回生成局所特徴量1904、さらに以前の局所特徴量1905を記憶する。同じ対象物ID1901の前回生成局所特徴量1903と今回生成局所特徴量1904などから、その照合時の特徴点間の関係の幾何学関係を考慮して対象物の変化を検出して、検出変化1906に記憶する。そして、変化に対応して表示コメントDB1890から読出されたコメントを表示部370に表示する。
なお、上記変化検出テーブル1861の前回生成局所特徴量は、特許請求の範囲に記載した第2局所特徴量に相当し、今回生成局所特徴量は、特許請求の範囲に記載した第3局所特徴量に相当する。
《携帯端末の処理手順》
図20は、本実施形態に係る携帯端末1700の処理手順を示すフローチャートである。このフローチャートは、図7のCPU710によってRAM740を用いて実行され、図18の各機能構成部を実現する。なお、第2実施形態の図8と同様のステップ群については図示および説明を省略する。また、第2実施形態の図8と同様のステップには同じステップ番号を付して、説明を省略する。
まず、ステップS2011において、対象物の画像の初期登録であるか否かを判定する。また、ステップS811においては、対象物認識を行うための映像入力があったか否かを判定する。
初期登録であればステップS2013に進んで、登録する映像を取得する。ステップS2015において、図8のステップS813と同様の局所特徴量生成処理を行う。そして、ステップS2017において、局所特徴量を観察対象物と対応付けて局所特徴量DB330に登録する。
映像入力があればステップS813に進んで、図8と同様の局所特徴量生成処理と照合処理とを実行する。ステップS2027においては、照合処理における特徴点の幾何学的関係から観察対象物の変化があるか否かを判定する。変化が認識されればステップS2029に進んで、変化を報知する表示コメントを表示コメントDB1890から取得して表示部370に表示する。そして、ステップS2031において、新たに入力した映像入力の局所特徴量を局所特徴量DB330に記録する。
[第6実施形態]
次に、本発明の第6実施形態に係る映像処理システムについて説明する。本実施形態に係る映像処理システムは、上記第2実施形態乃至第5実施形態と比べると、複数の第1映像処理装置としての通信端末がそれぞれ同じ認識対象物を含む画像から局所特徴量を作成して、複数の局所特徴量から対象物を認識する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、複数の通信端末により同時に複数方向から対象物を撮像した画像の局所特徴量により対象物を認識するので、より正確で確実な対象物の認識ができる。
《映像処理システムの構成》
図21Aは、本実施形態に係る映像処理システム2100の構成を示すブロック図である。なお、図21Aの映像処理システム2100においては、複数の通信端末2111、2112と、対象物を認識する第2映像処理装置としての対象物認識サーバ2120との構成例を示すが、複数のカメラを有する1つの通信端末により複数の局所特徴量を生成することによっても実現可能である。本実施形態に係る映像処理システム2100の通信端末2111、2112や対象物認識サーバ2120の詳細な構成や処理は、以下の第7実施形態の記載を参照されたい。
映像処理システム2100は、それぞれ局所特徴量生成部2110aを有する複数の通信端末2111、2112により、認識対象物である本例では○○チョコレートのパッケージ2190を両面から撮像する。その両面画像からそれぞれ局所特徴量を生成して、対象物認識サーバ2120に送信する。
対象物認識サーバ2120においては、両面の局所特徴量により片面では得られない、より精度の高い特徴量による対象物の認識が可能である。あるいは、一方の面からは極めて少ないあるいは他と相関の大きい特徴量しか得られない場合であっても、両面の局所特徴量を生成することでより確度に高い対象物認識ができる。例えば、商店のレジにおいて商品の片面にシールなどが貼られている場合の認識漏れをなくすことが可能になる。
《映像処理システムの処理手順》
図21Bは、本実施形態に係る映像処理システム2100の処理手順を示すシーケンス図である。
まず、ステップS2100において、対象物認識サーバ2120から2つの通信端末2111、2112に本実施形態の処理を実現するアプリケーションおよびデータがダウンロードされる。そして、ステップS2101において、アプリケーションを起動し初期化する。
ステップS2103において、通信端末2111の撮像部が第1映像を取得する。例えば、認識対象物の一面からの映像とする。次に、ステップS2105において、取得した第1映像の画像から局所特徴量を生成する。そして、ステップS2107において、生成した局所特徴量を特徴点座標と対応して映像処理装置に送信する。なお、以降の実施形態では局所特徴量を符号化して送信するが、本実施形態においては、2つの通信端末2111、2112のローカルな接続が主なので符号化は行っていない。例えば、商店のレジでは、映像処理装置はPOS(Point of sail)であって撮像部と有線で接続する場合も考えられる。しかし、符号化を行ってもよい。
一方、ステップS2113において、第2通信端末2112の撮像部が第2映像を取得する。例えば、認識対象物の他面からの映像とする。次に、ステップS2115において、取得した第2映像の画像から局所特徴量を生成する。そして、ステップS2117において、生成した局所特徴量を特徴点座標と対応して映像処理装置に送信する。
映像処理装置は、ステップS2119において、局所特徴量DB2121の局所特徴量と、両面の局所特徴量とを照合する。そして、ステップS2121において、照合結果に基づいて対象物を認識する。認識結果は、ステップS2123において、映像処理装置から第1、第2通信端末2111、2112に送信される。そして、第1、第2通信端末2111、2112は、ステップS2125において、認識結果をユーザに報知する。
[第7実施形態]
次に、本発明の第7実施形態に係る映像処理システムについて説明する。本実施形態に係る映像処理システムは、上記第2実施形態と比べると、携帯端末から画像の局所特徴量を対象物認識サーバに送信して、対象物を認識する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、対象物認識サーバにおける広い領域からの複数の画像により、認識対象物に関する情報を生成できる。
《映像処理システムの構成》
図22は、本実施形態に係る映像処理システム2200の構成を示すブロック図である。本実施形態においては、複数の通信端末が、撮像した複数の映像の画像からそれぞれ局所特徴量を生成して対象物認識サーバに送信する。対象物認識サーバは、局所特徴量対象物の認識およびその他の処理を行い、その結果を通信端末に報知する。
映像処理システム2200は、ネットワーク2230を介して接続された携帯端末を含む複数の通信端末2211〜2215と、対象物認識サーバ2220とを有する。通信端末2211〜2215はそれぞれ局所特徴量生成部2211a〜2215aを有し、取得した映像中の画像から局所特徴量を生成して、対象物認識サーバ2220に送信する。そして、対象物認識サーバ2220は、局所特徴量DB2221を有し、各通信端末2211〜2215からそれぞれ送信される局所特徴量と、局所特徴量DB2221に格納された局所特徴量とを照合して、対象物を認識する。
《映像処理システムの処理手順》
図23は、本実施形態に係る映像処理システム2200の処理手順を示すシーケンス図である。なお、図23においては、複数の通信端末を代表して1つの通信端末2211による動作手順を示す。
まず、ステップS2300において、対象物認識サーバ2220から通信端末2211に本実施形態の処理を実現するアプリケーションおよびデータがダウンロードされる。そして、ステップS2301において、アプリケーションを起動し初期化する。
ステップS2213において、通信端末2211の撮像部が映像を取得する。次に、ステップS2215において、取得した映像の画像から局所特徴量を生成する。続いて、ステップS2317において、局所特徴量と特徴点座標とを符号化する。そして、ステップS2119において、符号化した局所特徴量を対象物認識サーバ2220に送信する。
対象物認識サーバ2220は、ステップS2121において、局所特徴量DB2221の局所特徴量と、受信した局所特徴量とを照合して対象物を認識する。ステップS2323においては、対象物の認識が可能か否かを判定する。認識可能であればステップS2343に進んで、認識結果を通信端末2211に送信する。
認識可能と判定されなければ、ステップS2325において、認識不可情報を通信端末2211に送信する。そして、ステップS2327において、局所特徴量を記憶保持する。
認識不可情報を受信した通信端末2211は、ステップS2329において、認識不可を表示してユーザに報知する。そして、次の映像の取得を待ち、ステップS2331において、第2画像を取得する。ステップS2333において、第2画像の局所特徴量を生成する。続いて、ステップS2335において符号化して、ステップS2337において対象物認識サーバ2220に送信する。
対象物認識サーバ2220では、ステップS2339において、ステップS2319において送信された局所特徴量と、ステップS2337において送信された局所特徴量とを参照あるいは結合して、対象物認識を行う。そして、ステップS2343において、認識結果を通信端末2211に送信する。
通信端末2211は、ステップS2345において、認識結果を報知する。なお、上記実施形態で説明した速度算出などの処理を対象物認識サーバ2220が実行することができるが、煩雑さをなくすため省略している。
《通信端末の機能構成》
図24は、本実施形態に係る通信端末2211の機能構成を示すブロック図である。なお、第2実施形態の図3あるいは図7と同様の機能構成部には同じ参照番号を付して、説明は省略する。
局所特徴量送信部2410は、符号化部2411を有し、局所特徴量生成部320が生成した局所特徴量を特徴点座標と共に符号化し、通信制御部730を介して対象物認識サーバ2220に送信する。
認識結果受信部2430は、通信制御部730を介して対象物認識サーバ2220から対象物の認識結果を受信する。認識結果報知部2440は、図3Aの表示部370を含み認識結果を報知する。また、対象物認識サーバ2220が、対象物の移動の検出や速度の算出を行う場合は、移動/速度受信部2450が通信制御部730を介して移動情報や速度情報を受信する。そして、表示部370を含む位相/速度報知部2460により報知する。また、対象物認識サーバ2220が、対象物の変化の検出を行う場合は、変化受信部2470が通信制御部730を介して変化情報を受信する。そして、表示部370を含む変化報知部2480により報知する。
《サーバの機能構成》
図25は、本実施形態に係る対象物認識サーバ2220の機能構成を示すブロック図である。
対象物認識サーバ2220は、通信制御部2501を有する。局所特徴量受信部2502は、通信制御部2501を介して局所特徴量を受信する。局所特徴量受信部2502は、復号部2502aを有する。復号部2502aは、通信制御部2501を介して通信端末2211から受信した、符号化された局所特徴量および特徴点座標を復号する。また、局所特徴量記憶部2505は、以前に受信した局所特徴量とその照合結果を記憶する。そして、認識部2504が有する照合部2504aにおいて、局所特徴量DB2221の認識対象物の局所特徴量と複数画像からの複数の局所特徴量とを照合する。認識部2504は、複数の局所特徴量の照合結果に基づいて、対象物を認識する。認識結果生成部2506は、認識結果を報知するためのデータを生成する。認識結果送信部2507は、通信制御部2501を介して、認識結果生成部2506が生成したデータを通信端末2211に送信する。
他の破線による機能構成部はオプションである。登録/照合判定部2508は、対象物認識サーバ2220を対象物の捜索に使用する場合の、捜索対象物の登録と捜索のための照合とを切り替える。局所特徴量登録部2509は、捜索対象物の登録の場合に、捜索対象物に対応付けて捜索対象物の局所特徴量を局所特徴量DB2221に登録する。
また、対象物の移動の検出や速度の算出をする場合は、複数の画像の局所特徴量の照合過程の情報を受信して、移動/速度算出部2510において、移動を検出し速度を算出する。なお、移動の検出処理や速度の算出処理は、上記第4実施形態と同様であるので、詳細な説明は省略する。検出した移動情報や算出した速度情報は、移動/速度送信部2511により、通信制御部2501を介して携帯端末に送信される。
また、対象物の変化の検出をする場合は、複数の画像の局所特徴量の照合過程の情報を受信して、変化検出部2513において、変化を検出する。なお、変化の検出処理は、上記第5実施形態と同様であるので、詳細な説明は省略する。検出した変化情報は、変化コメントDB2512を参照して、変化情報送信部2514により、通信制御部2501を介して携帯端末に送信される。
(符号化部)
図26は、本実施形態に係る符号化部2411の構成を示すブロック図である。なお、符号化部2411は本例に限定されず、他の符号化処理も適用可能である。
符号化部1411は、局所特徴量生成部320の特徴点検出部411から特徴点の座標を入力して、座標値を走査する座標値走査部2621を有する。座標値走査部2621は、画像をある特定の走査方法に従って走査し、特徴点の2次元座標値(X座標値とY座標値)を1次元のインデックス値に変換する。このインデックス値は、走査に従った原点からの走査距離である。なお、走査方向については、制限はない。
また、特徴点のインデックス値をソートし、ソート後の順列の情報を出力するソート部2622を有する。ここでソート部2622は、例えば昇順にソートする。また降順にソートしてもよい。
また、ソートされたインデックス値における、隣接する2つのインデックス値の差分値を算出し、差分値の系列を出力する差分算出部2623を有する。
そして、差分値の系列を系列順に符号化する差分符号化部2624を有する。差分値の系列の符号化は、例えば固定ビット長の符号化でもよい。固定ビット長で符号化する場合、そのビット長はあらかじめ規定されていてもよいが、これでは考えられうる差分値の最大値を表現するのに必要なビット数を要するため、符号化サイズは小さくならない。そこで、差分符号化部2624は、固定ビット長で符号化する場合、入力された差分値の系列に基づいてビット長を決定することができる。具体的には、例えば、差分符号化部2624は、入力された差分値の系列から差分値の最大値を求め、その最大値を表現するのに必要なビット数(表現ビット数)を求め、求められた表現ビット数で差分値の系列を符号化することができる。
一方、ソートされた特徴点のインデックス値と同じ順列で、対応する特徴点の局所特徴量を符号化する局所特徴量符号化部2625を有する。ソートされたインデックス値と同じ順列で符号化することで、差分符号化部2624で符号化された座標値と、それに対応する局所特徴量とを1対1で対応付けることが可能となる。局所特徴量符号化部2625は、本実施形態においては、1つの特徴点に対する150次元の局所特徴量から次元選定された局所特徴量を、例えば1次元を1バイトで符号化し、次元数のバイトで符号化することができる。
《通信端末のハードウェア構成》
図27Aは、本実施形態に係る通信端末のハードウェア構成を示すブロック図である。なお、通信端末のハードウェア構成は、第2実施形態の映像処理装置200から照合処理に関連する構成をなくし、代わりに、局所特徴量の送信構成と照合結果の受信構成を追加した構成であるので、図7と同じ構成要素には同じ参照番号を付し、説明は省略する。
RAM2740は、CPU710が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM2740には、本実施形態の実現に必要なデータを記憶する領域が確保されている。変化検出結果2744は、オプションで対象物認識サーバ2220が実行して送信した変化検出結果を示す。移動検出/速度算出結果2745は、オプションで対象物認識サーバ2220が実行して送信した移動検出結果や速度算出結果を示す。表示画面データ2746は、表示フォーマット2751に基づいて、対象物認識結果743、変化検出結果2744、移動検出/速度算出結果2745を表示する画面データを示す。
ストレージ2750には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。表示フォーマット2751は、対象物認識結果743、変化検出結果2744、移動検出/速度算出結果2745を表示するフォーマットを示す。
ストレージ2750には、以下のプログラムが格納される。通信端末制御プログラム2752は、本通信端末の全体を制御する通信端末制御プログラムを示す。符号化モジュール2754は、生成された局所特徴量を特徴点座標と共に符号化するモジュールである。情報受信報知モジュール2755は、対象物認識結果743、変化検出結果2744、移動検出/速度算出結果2745を受信して報知するモジュールである。
なお、図27には、本実施形態に必須なデータやプログラムのみが示されており、本実施形態に関連しないデータやプログラムは図示されていない。
《通信端末の処理手順》
図27Bは、本実施形態に係る通信端末の処理手順を示すフローチャートである。このフローチャートは、図27AのCPU710によってRAM2740を用いて実行され、図24の各機能構成部を実現する。なお、第2実施形態の図8と同様のステップには同じステップ番号を付して、説明を省略する。
映像入力があればステップS811からS813に進んで、入力映像から局所特徴量生成処理を実行する(図9A参照)。次に、ステップS2715において、局所特徴量および特徴点座標を符号化する(図28Aおよび図28B参照)。ステップS2717においては、符号化されたデータを対象物認識サーバ2220に送信する。
(符号化処理)
図28Aは、本実施形態に係る符号化処理S2715の処理手順を示すフローチャートである。
まず、ステップS2811において、特徴点の座標値を所望の順序で走査する。次に、ステップS2813において、走査した座標値をソートする。ステップS2815において、ソートした順に座標値の差分値を算出する。ステップS2817においては、差分値を符号化する(図28B参照)。そして、ステップS2819において、座標値のソート順に局所特徴量を符号化する。なお、差分値の符号化と局所特徴量の符号化とは並列に行ってもよい。
(差分値の符号化処理)
図28Bは、本実施形態に係る差分値の符号化処理S2837の処理手順を示すフローチャートである。
まず、ステップS2821において、差分値が符号化可能な値域内であるか否かを判定する。符号化可能な値域内であればステップS2827に進んで、差分値を符号化する。そして、ステップS2829へ移行する。符号化可能な値域内でない場合(値域外)はステップS2823に進んで、エスケープコードを符号化する。そしてステップS2825において、ステップS2827の符号化とは異なる符号化方法で差分値を符号化する。そして、ステップS2829へ移行する。ステップS2829では、処理された差分値が差分値の系列の最後の要素であるかを判定する。最後である場合は、処理が終了する。最後でない場合は、再度ステップS2821に戻って、差分値の系列の次の差分値に対する処理が実行される。
《対象物認識サーバのハードウェア構成》
図29は、本実施形態に係る対象物認識サーバ2220のハードウェア構成を示すブロック図である。
図29で、CPU2910は演算制御用のプロセッサであり、プログラムを実行することで対象物認識サーバ2220の図25に示した各機能構成部を実現する。ROM2920は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部2501は通信制御部であり、本実施形態においては、ネットワークを介して通信端末と通信する。なお、CPU2910は1つに限定されず、複数のCPUであっても、あるいは画像処理用のGPUを含んでもよい。
RAM2940は、CPU2910が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM2940には、本実施形態の実現に必要なデータを記憶する領域が確保されている。受信した第2局所特徴量2941は、携帯端末から受信した特徴点座標を含む第1画像の局所特徴量を示す。受信した第3局所特徴量2942は、携帯端末から受信した特徴点座標を含む第2画像の局所特徴量を示す。読出した第1局所特徴量2343は、局所特徴量DB2221から読み出した特徴点座標を含む局所特徴量を示す。対象物認識結果2944は、受信した2つの第2および第3局所特徴量と局所特徴量DB2221に格納された第1局所特徴量との照合から認識された、対象物認識結果を示す。移動/速度情報2945は、受信した2つの第2および第3局所特徴量と局所特徴量DB2221に格納された第1局所特徴量との照合から検出あるいは算出された対象物の移動や速度を示す。変化情報2946は、受信した2つの第2および第3局所特徴量と局所特徴量DB2221に格納された第1局所特徴量との照合から検出された対象物の変化を示す。送受信データ2947は、通信制御部2501を介して送受信される送受信データを示す。
ストレージ2950には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。局所特徴量DB2221は、図6に示したと同様の局所特徴量DBを示す。なお、対象物認識サーバ2220においては処理能力や記憶容量は十分であるので、全分野の局所特徴量を格納してもよい。速度算出テーブル2951は、図15Aに示したと同様の速度算出テーブルを示す。また、変化検出テーブル2952は、図15Bに示したと同様の変化検出テーブルを示す。
ストレージ2950には、以下のプログラムが格納される。対象物認識サーバ制御プログラム2953は、対象物認識サーバ2220の全体を制御する対象物認識サーバ制御プログラムを示す(図30参照)。局所特徴量DB作成モジュール2954は、局所特徴量DB2221を作成するモジュールである。対象物認識モジュール2955は、受信した複数の局所特徴量と局所特徴量DB330に格納された局所特徴量とを照合して対象物を認識するモジュールである。移動検出/速度算出モジュール2956は、受信した複数の局所特徴量と局所特徴量DB2221に格納された局所特徴量との照合に基づいて、対象物の移動を検出し、移動速度を算出するモジュールである。変化検出モジュール2957は、受信した複数の局所特徴量と局所特徴量DB2221に格納された局所特徴量との照合に基づいて、対象物の変化を検出するモジュールである。
なお、図29には、本実施形態に必須なデータやプログラムのみが示されており、本実施形態に関連しないデータやプログラムは図示されていない。
《対象物認識サーバの処理手順》
図30は、本実施形態に係る対象物認識サーバ2220の処理手順を示すフローチャートである。このフローチャートは、図29のCPU2910によりRAM2940を使用して実行され、図25の各機能構成部を実現する。
まず、ステップS3011において、局所特徴量DBの生成か否かを判定する。また、ステップS3021において、携帯端末からの第2局所特徴量の受信かを判定する。また、ステップS3031において、携帯端末からの第3局所特徴量の受信かを判定する。いずれでもなければ、ステップS3061において他の処理を行う。
局所特徴量DBの生成であればステップS3013に進んで、局所特徴量DB生成処理を実行する(図31参照)。
また、第2局所特徴量の受信であればステップS3023に進んで、対象物認識のため照合処理を実行する。そして、ステップS3025において、対象物の認識が可能か否かを判定する。対象物の認識が可能であればステップS3027に進んで、認識対象物を局所特徴量の送信元に送信する。対象物の認識が可能でないならばステップS3029に進んで、第2局所特徴量を記憶する。
また、第3局所特徴量の受信であればステップS3033に進んで、ステップS3029で記憶した第2局所特徴量を読み出す。ステップS3035において、対象物の認識処理であるかを判定する。認識処理であればステップS3037に進んで、第2局所特徴量と第3局所特徴量とを使用した照合処理により対象物を認識する。そして、ステップS3039において、認識対象物を携帯端末に送信する。
また、ステップS3041において、移動検出や速度算出かを判定する。移動検出や速度算出であればステップS3043に進んで、第2局所特徴量と第3局所特徴量とを使用した照合処理に基づき、移動の検出および速度の算出を行う。そして、ステップS3045において、検出した移動や算出した速度を携帯端末に送信する。
また、ステップS3047において、変化の検出かを判定する。変化の検出であればステップS3049に進んで、第2局所特徴量と第3局所特徴量とを使用した照合処理に基づき、変化の検出を行う。そして、ステップS3051において、検出した変化を携帯端末に送信する。
なお、ステップS3023およびS3037の照合処理は、図9Bと同様であるので、説明は省略する。
(局所特徴量DB生成処理)
図31は、本実施形態に係る局所特徴量DB生成処理S3013の処理手順を示すフローチャートである。
まず、ステップS3101において、認識対象物の画像を取得する。ステップS3103においては、特徴点の位置座標、スケール、角度を検出する。ステップS3105において、ステップS3103で検出された特徴点の1つに対して局所領域を取得する。次に、ステップS3107において、局所領域をサブ領域に分割する。ステップS3109においては、各サブ領域の特徴ベクトルを生成して局所療育の特徴ベクトルを生成する。ステップS3103からS3109の処理は図4Bに図示されている。
次に、ステップS3111において、ステップS3109において生成された局所領域の特徴ベクトルに対して次元選定を実行する。次元選定については、図4D〜図4Fに図示されている。しかしながら、局所特徴量DB2221の生成においては、次元選定における階層化を実行するが、生成された全ての特徴ベクトルを格納するのが望ましい。
ステップS3113においては、ステップS3103で検出した全特徴点について局所特徴量の生成と次元選定とが終了したかを判定する。終了していない場合はステップS3103に戻って、次の1つの特徴点について処理を繰り返す。全特徴点について終了した場合はステップS3115に進んで、認識対象物に対応付けて局所特徴量と特徴点座標を局所特徴量DB2221に登録する。
ステップS3117においては、他の認識対象物があるか否かを判定する。他の認識対象物があればステップS3101に戻って、認識対象物の画像を取得して処理を繰り返す。
[第8実施形態]
次に、本発明の第8実施形態に係る映像処理イステムについて説明する。本実施形態に係る映像処理システムは、上記第7実施形態と比べると、認識対象物に関する情報として、複数の通信端末から収集された局所特徴量から対象物の出現回数を生成する点で異なる。その他の構成および動作は、第7実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、依頼した宣伝がどの程度有効であったかを把握できる。
《映像処理システムの構成》
図32は、本実施形態に係る映像処理システム3200の構成を示すブロック図である。
映像処理システム3200は、ネットワーク3240を介して接続された複数の通信端末3211〜3214と、対象物認識サーバである対象物認識サーバ3220と、出現回数をカウントする対象物の局所特徴量を登録するための通信端末3230とを有する。通信端末3211〜3214、および3230はそれぞれ局所特徴量生成部3211a〜3214a、3230aを有し、取得した映像中の画像から局所特徴量を生成して、対象物認識サーバ3220に送信できる。対象物認識サーバ3220は、局所特徴量DB2221と対象物出現カウントDB3222とを有する。
まず、通信端末3230は、出現回数をカウントしたい対象物の画像から局所特徴量生成部3230aにおいて局所特徴量を生成して、対象物認識サーバ3220の局所特徴量DB2221および対象物出現カウントDB3222に登録する。
そして、通信端末3211〜3214からは、撮像部で撮像した映像、あるいは放送の受信や映像再生に基づいて、局所特徴量生成部3211a〜3214aによって生成された局所特徴量が、対象物認識サーバに送信される。
対象物認識サーバ3220では、各通信端末3211〜3214からそれぞれ送信される局所特徴量と、局所特徴量DB2221に格納された対象物の局所特徴量とを照合して、対象物を認識する。そして、出現回数をカウントする対象物が認識されれば、対象物出現カウントDB3222の対象物のカウントを増加する。
通信端末3230からの報知の要求がある場合、あるいは所定期間経過した場合に、対象物認識サーバ3220は、通信端末3230から登録された対象物の出現回数に関する情報を通信端末3230に送信する。通信端末3230では、登録した対象物に重畳して、出現回数のカウント期間や、カウント数、出現頻度などを表示する。
なお、図32では、通信端末3230を、出現回数をカウントする対象物の登録装置としたが、他の通信端末3211〜3214が出現回数をカウントする対象物を登録して、出現回数の報知を受信してもよい。
《対象物認識サーバの機能構成》
図33は、本実施形態に係る対象物認識サーバの機能構成を示すブロック図である。なお、第7実施形態の図25と同様の機能構成部には同じ参照番号を付して、説明は省略する。
カウント対象物登録部3301は、通信端末3230から登録された対象物をその画像の局所特徴量に対応付けて、局所特徴量DB2221および対象物出現カウントDB3222に登録する。カウント対象物抽出部3302は、認識部2504が認識した対象物の中に、対象物出現カウントDB3222に登録された対象物を抽出する。そして、カウント制御部3303は、対象物出現カウントDB3222内の抽出された対象物の出現回数をカウントアップする。
出現回数報知情報生成部3304は、対象物出現カウントDB3222から指定された対象物の出現回数を読出して、報知情報を生成する。出現回数報知情報送信部3305は、通信端末3230に対象物の出現回数を送信する。出現回数報知情報出力部3306は、対象物認識サーバにおいて、出現回数報知情報を出力する。
(対象物出現カウントDB)
図34は、本実施形態に係る対象物出現カウントDB3222の構成を示す図である。
対象物出現カウントDB3222は、出現回数をカウントする対象物ID3401、対象物名3402、登録した局所特徴量3403に対応付けて、トータルの出現回数3404、月毎や日毎や時間毎の出現率3405、どの地域の出現が多いかなどの出現分布3406を記憶する。
《対象物認識サーバ3220の処理手順》
図35は、本実施形態に係る対象物認識サーバ3220の処理手順を示すフローチャートである。このフローチャートは、図29のCPU2910によりRAM2940を使用して実行され、図33の機能構成部を実現する。
まず、ステップS3511において、出現回数をカウントする対象物として登録する対象物の受信か否かを判定する。また、ステップS3521において、映像から生成された局所特徴量の受信か否かを判定する。また、ステップS3531において、登録した対象物のカウント報知の要求か否かを判定する。いずれでもない場合は、ステップS3541において他の処理を実行する。なお、図35には、対象物認識サーバ3220が所定期間を判定してカウント報知する処理は省略するが、その処理を加えてもよい。
対象物の登録であればステップS3513に進んで、対象物と局所特徴量を対象物出現カウントDB3222に登録する。映像の局所特徴量の受信であればステップS2623に進んで、対象物認識のため照合処理を実行する。なお、照合処理は図9Bと同様であるので、説明は省略する。ステップS3525においては、認識対象物中から登録した対象物を抽出する。そして、登録した対象物があれば、ステップS3527において、対象物の出現回数をカウントアップする。対象物のカウント要求であればステップS3533に進んで、対象物出現カウントDB3222から対象物の出現回数に関する情報を読み出す。そして、ステップS3535において、対象物出現情報を生成して、ステップS3537において、対象物を登録あるいはカウント要求した通信端末に対象物出現情報を送信する。
[第9実施形態]
次に、本発明の第9実施形態に係る映像処理システムについて説明する。本実施形態に係る映像処理システムは、上記第7および第8実施形態と比べると、認識対象物に関する情報として、対象物の出現履歴を生成する点で異なる。その他の構成および動作は、第7および第8実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、認識対象物として物や人がどのように移動したかの履歴を追跡することができる。
《映像処理システムの構成》
図36は、本実施形態に係る映像処理システムにおける映像処理を説明する図である。
図36の左図は、携帯端末3600により履歴を追跡したい対象物を撮像した表示画面3610である。表示画面3610には、履歴を追跡する対象物として自転車が撮像されている。この表示画面3610から局所特徴量が生成されて、不図示の対象物認識サーバに送信される。
対象物認識サーバには、図32のように、様々な場所に設置している通信端末、あるいは様々な場所に運ばれた携帯端末から撮像した映像画面の局所特徴量が送信されてくる。対象物認識サーバは、それら受信した局所特徴量と、局所特徴量DB2221に登録された局所特徴量とを照合して、対象物を認識する。そして、例えば、監視カメラや携帯電話による撮像や、その他、撮像機能と通信機能とを有する機器から送信された局所特徴量から認識された対象物の履歴が、その対象物領域の局所特徴量と共に蓄積される。
図36の右図は、携帯端末3600に登録された自転車の移動履歴を表示した例である。表示画面3620には、追跡対象の自転車の局所特徴量に合致する局所特徴量の過去の移動履歴(時間と場所)が、地図上に表示されている。
本実施形態の局所特徴量による照合によれば、自転車の向きや画面中の大きさ、あるいは一部が隠れている場合であっても、同じ自転車であることを確実に認識できる。したがって、撮像機能と通信機能とを有するあらゆる機器による追跡が可能となる。
《対象物認識サーバの機能構成》
図37は、本実施形態に係る対象物認識サーバの機能構成を示すブロック図である。なお、第7実施形態の図25と同様の機能構成部には同じ番号を付して、説明を省略する。
出現履歴DB3701は、認識部2504によって対象物が認識された場合に、対象物とその領域の局所特徴量に対応付けて履歴(時間と場所)を蓄積する。特定対象物追跡指示検出部3702は、行動履歴を追跡したい特定の対象物を検出する。そして、その検出結果と共に、局所特徴量受信部2502から局所特徴量を、出現履歴追跡部3703に設定する。出現履歴追跡部3703は、第1照合部2504aと同様の第2照合部3703aを有し、特定の対象物の局所特徴量と、出現履歴DB3701に蓄積された局所特徴量とを照合して、特定対象物の今までの出現履歴を追跡する。なお、第1照合部2504aと第2照合部3703aとは、照合に使用されるパラメータ(図9aのαやβなど)を適切に設定可能である。
出現履歴情報生成部3705は、地図DB3704を参照して、地図上に特定対象物の出現位置と時間とを重畳したデータを生成する。出現履歴情報送信部3706は、通信制御部2501を介して、出現履歴情報を携帯端末や、特定用途の出現履歴監視端末に送信する。その表示画面の例が、図36の右図である
(出現履歴DB)
図38は、本実施形態に係る出現履歴DB3701の構成を示す図である。
出現履歴DB3701は、対象物ID3801と対象物名3802とに対応付けて、局所特徴量の照合によりその対象物と認識された対象物領域の局所特徴量3803、出現時間3804、出現場所3805を記憶する。
(出現履歴抽出テーブル)
図39は、本実施形態に係る出現履歴抽出テーブル3900の構成を示す図である。
出現履歴抽出テーブル3900は、履歴追跡対象物ID3901とその局所特徴量3902に対応付けて、照合によりその対象物と認識された対象物領域の局所特徴量3903、出現時間3904、出現場所3905、局所特徴量3902と対象物領域の局所特徴量3903との合致度3906を記憶する。
例えば、出現履歴抽出テーブル3900に記憶される対象物領域の局所特徴量3903は、図38の対象物領域の局所特徴量3803の中で、局所特徴量3902との合致度が所定閾値より高いものが選別される。
《対象物認識サーバの処理手順》
図40は、本実施形態に係る対象物認識サーバの処理手順を示すフローチャートである。このフローチャートは、図29のCPU2910によりRAM2940を使用して実行され、図37の機能構成部を実現する。なお、本実施形態の特徴部分のみを図示し、他の処理は省略する。
まず、ステップS4011において、追跡対象物の局所特徴量の受信か否かを判定する。また、ステップS4021において、映像から生成された局所特徴量の受信か否かを判定する。
追跡対象物の局所特徴量であればステップS4013に進んで、出現履歴DB3701から追跡対象物の局所特徴量の十分な精度で合致する対象物の履歴を抽出する。次に、ステップS4015において、抽出した履歴から対象物の位置と時間とを地図DB3704の地図上に重畳する。そして、ステップS4017において、追跡対象物履歴の表示を行う(図36の右図参照)。
映像から生成された局所特徴量の受信であればステップS4023に進んで、図9Aで説明した照合処理を実行する。そして、ステップS4025において、出現履歴DB3701に対象物履歴を対象物領域の局所特徴量と共に蓄積する。なお、出現履歴DB3701の蓄積容量の増大は、対象物の重要度や時間経過、あるいは履歴情報取得の時間間隔などを考慮して、削除することにより防ぐことができる。
[他の実施形態]
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。

Claims (23)

  1. 認識対象物と、前記認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段と、
    第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成手段と、
    前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成手段と、
    前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識手段と、
    前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識手段と、
    前記第1認識手段による認識と前記第2認識手段による認識とに基づいて、前記認識対象物に関する情報を生成する情報生成手段と、
    を備えることを特徴とする映像処理装置。
  2. 前記情報生成手段は、前記第1認識手段が認識した認識対象物と前記第2認識手段が認識した認識対象物とが同一であると判定した場合に、前記認識対象物の出現回数を加算することにより、前記認識対象物に関する情報として前記認識対象物の出現回数を生成することを特徴とする請求項1に記載の映像処理装置。
  3. 前記情報生成手段は、前記第1認識手段が認識した認識対象物と前記第2認識手段が認識した同じ認識対象物との変化を検出し、前記認識対象物に関する情報として前記認識対象物の変化を示す情報を生成することを特徴とする請求項1または2に記載の映像処理装置。
  4. 前記情報生成手段は、前記第1認識手段が認識した認識対象物と前記第2認識手段が認識した同じ認識対象物との変化の速度を検出し、前記認識対象物に関する情報として前記認識対象物の移動速度を示す情報を生成することを特徴とする請求項1乃至3のいずれか1項に記載の映像処理装置。
  5. 前記第1局所特徴量記憶手段は、前記認識対象物の画像内におけるm個の特徴点の位置座標と、前記m個の第1局所特徴量との組を記憶し、
    前記第2局所特徴量生成手段は、前記画像内におけるn1個の特徴点の位置座標と、前記n1個の第2局所特徴量との組みを保持し、
    前記第3局所特徴量生成手段は、前記画像内におけるn2個の特徴点の位置座標と、前記n2個の第3局所特徴量との組みを保持し、
    前記第1認識手段は、前記n1個の第2局所特徴量とその位置座標との組の集合と、前記m個の第1局所特徴量とその位置座標との組の所定割合以上の集合とが線形変換の関係であると判定した場合に、前記画像内に前記認識対象物が存在すると認識し、
    前記第2認識手段は、前記n2個の第3局所特徴量とその位置座標との組の集合と、前記m個の第1局所特徴量とその位置座標との組の所定割合以上の集合とが線形変換の関係であると判定した場合に、前記画像内に前記認識対象物が存在すると認識することを特徴とする請求項1乃至4のいずれか1項に記載の映像処理装置。
  6. 前記第1局所特徴量と前記第2局所特徴量と前記第3局所特徴量とは、画像から抽出した特徴点を含む局所領域を複数のサブ領域に分割し、前記複数のサブ領域内の勾配方向のヒストグラムからなる複数次元の特徴ベクトルを生成することにより生成されることを特徴とする請求項1乃至5のいずれか1項に記載の映像処理装置。
  7. 前記第1局所特徴量と前記第2局所特徴量と前記第3局所特徴量とは、前記生成した複数次元の特徴ベクトルから、隣接するサブ領域間の相関がより大きな次元を削除することにより生成されることを特徴とする請求項6に記載の映像処理装置。
  8. 前記第1局所特徴量と前記第2局所特徴量と前記第3局所特徴量とは、画像から抽出した前記複数の特徴点から、重要度のより小さいと判断された特徴点を削除することにより生成されることを特徴とする請求項6または7に記載の映像処理装置。
  9. 前記特徴ベクトルの複数次元は、前記特徴点の特徴に寄与する次元から順に、かつ、前記局所特徴量に対して求められる精度の向上に応じて第1次元から順に選択できるよう、所定の次元数ごとに前記局所領域をひと回りするよう選定することを特徴とする請求項6乃至8のいずれか1項に記載の映像処理装置。
  10. 認識対象物と、前記認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段を有する映像処理装置の制御方法であって、
    第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成ステップと、
    前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成ステップと、
    前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識ステップと、
    前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識ステップと、
    前記第1認識ステップにおける認識と前記第2認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
    を含むことを特徴とする映像処理装置の制御方法。
  11. 認識対象物と、前記認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段を有する映像処理装置の制御プログラムであって、
    第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成ステップと、
    前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成ステップと、
    前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識ステップと、
    前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識ステップと、
    前記第1認識ステップにおける認識と前記第2認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
    をコンピュータに実行させることを特徴とする制御プログラム。
  12. 映像中を取得する第1映像処理装置と、該第1映像処理装置からの映像を受信して前記映像中から認識対象物を認識する第2映像処理装置とを備える映像処理システムであって、
    前記第1映像処理装置は、
    映像中の第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成手段と、
    前記第2局所特徴量を前記第2映像処理装置に送信する第1送信手段と、
    映像中の前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成手段と、
    前記第3局所特徴量を前記第2映像処理装置に送信する第2送信手段と、
    前記第2局所特徴量と前記第3局所特徴量とに基づいて前記第2映像処理装置において認識された、前記認識対象物に関する情報を前記第2映像処理装置から受信する第1受信手段と、
    を備え、
    前記第2映像処理装置は、
    認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段と、
    前記第2局所特徴量を前記第1映像処理装置から受信する第2受信手段と、
    前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識手段と、
    前記第3局所特徴量を前記第1映像処理装置から受信する第3受信手段と、
    前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識手段と、
    前記第1認識手段による認識と前記第2認識手段による認識とに基づいて、前記認識対象物に関する情報を生成する情報生成手段と、
    前記認識対象物に関する情報を前記第1映像処理装置に送信する第3送信手段と、
    を備えることを特徴とする映像処理システム。
  13. 前記映像処理システムは、複数の前記第1映像処理装置を備えることを特徴とする請求項12に記載の映像処理システム。
  14. 前記情報生成手段は、前記複数の第1映像処理装置により送信された局所特徴量による認識対象物候補に基づいて、前記認識対象物に関する情報として前記認識対象物の認識結果を生成することを特徴とする請求項13に記載の映像処理システム。
  15. 前記情報生成手段は、前記複数の第1映像処理装置により送信された局所特徴量の示す画像に同じ認識対象物が存在すると認識された場合に、前記認識対象物の出現回数を増加し、前記認識対象物に関する情報として前記認識対象物の出現回数を生成することを特徴とする請求項13または14に記載の映像処理システム。
  16. 前記情報生成手段は、前記複数の第1映像処理装置により送信された局所特徴量の示す画像に同じ認識対象物が存在すると認識された場合に、前記認識対象物の出現履歴を蓄積し、前記認識対象物に関する情報として前記認識対象物の出現履歴を生成することを特徴とする請求項13乃至15のいずれか1項に記載の映像処理システム。
  17. 映像中を取得する第1映像処理装置と、
    認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段を有し、該第1映像処理装置からの映像を受信して前記映像中から認識対象物を認識する第2映像処理装置と、を備える映像処理システムにおける映像処理方法であって、
    前記第1映像処理装置は、
    映像中の第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成ステップと、
    前記第2局所特徴量を前記第2映像処理装置に送信する第1送信ステップと、
    映像中の前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成ステップと、
    前記第3局所特徴量を前記第2映像処理装置に送信する第2送信ステップと、
    前記第2局所特徴量と前記第3局所特徴量とに基づいて前記第2映像処理装置において認識された、前記認識対象物に関する情報を前記第2映像処理装置から受信する第1受信ステップと、
    を含み、
    前記第2映像処理装置は、
    前記第2局所特徴量を前記第1映像処理装置から受信する第2受信ステップと、
    前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識ステップと、
    前記第3局所特徴量を前記第1映像処理装置から受信する第3受信ステップと、
    前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識ステップと、
    前記第1認識ステップにおける認識と前記第2認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
    前記認識対象物に関する情報を前記第1映像処理装置に送信する第3送信ステップと、
    を含むことを特徴とする映像処理方法。
  18. 請求項12乃至16のいずれか1項に記載の映像処理システムにおける、第1映像処理装置であって、
    映像中の第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成手段と、
    前記第2局所特徴量を前記第2映像処理装置に送信する第1送信手段と、
    映像中の前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成手段と、
    前記第3局所特徴量を前記第2映像処理装置に送信する第2送信手段と、
    前記第2局所特徴量と前記第3局所特徴量とに基づいて前記第2映像処理装置において認識された、前記認識対象物に関する情報を前記第2映像処理装置から受信する第1受信手段と、
    を備えることを特徴とする第1映像処理装置。
  19. 請求項12乃至16のいずれか1項に記載の映像処理システムにおける、第1映像処理装置の制御方法であって、
    映像中の第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成ステップと、
    前記第2局所特徴量を前記第2映像処理装置に送信する第1送信ステップと、
    映像中の前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成ステップと、
    前記第3局所特徴量を前記第2映像処理装置に送信する第2送信ステップと、
    前記第2局所特徴量と前記第3局所特徴量とに基づいて前記第2映像処理装置において認識された、前記認識対象物に関する情報を前記第2映像処理装置から受信する第1受信ステップと、
    を含むことを特徴とする第1映像処理装置の制御方法。
  20. 請求項12乃至16のいずれか1項に記載の映像処理システムにおける、第1映像処理装置の制御プログラムであって、
    映像中の第1画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、j次元の特徴ベクトルからなる第2局所特徴量を生成する第2局所特徴量生成ステップと、
    前記第2局所特徴量を前記第2映像処理装置に送信する第1送信ステップと、
    映像中の前記第1画像と異なる第2画像内から特徴点を抽出し、前記特徴点のそれぞれを含む局所領域について、k次元の特徴ベクトルからなる第3局所特徴量を生成する第3局所特徴量生成ステップと、
    前記第3局所特徴量を前記第2映像処理装置に送信する第2送信ステップと、
    前記第2局所特徴量と前記第3局所特徴量とに基づいて前記第2映像処理装置において認識された、前記認識対象物に関する情報を前記第2映像処理装置から受信する第1受信ステップと、
    をコンピュータに実行させることを特徴とする制御プログラム。
  21. 請求項12乃至16のいずれか1項に記載の映像処理システムにおける、第2映像処理装置であって、
    認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段と、
    前記第2局所特徴量を前記第1映像処理装置から受信する第2受信手段と、
    前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識手段と、
    前記第3局所特徴量を前記第1映像処理装置から受信する第3受信手段と、
    前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識手段と、
    前記第1認識手段による認識と前記第2認識手段による認識とに基づいて、前記認識対象物に関する情報を生成する情報生成手段と、
    前記認識対象物に関する情報を前記第1映像処理装置に送信する第3送信手段と、
    を備えることを特徴とする第2映像処理装置。
  22. 請求項12乃至16のいずれか1項に記載の映像処理システムにおける、認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段を備える第2映像処理装置の制御方法であって、
    前記第2局所特徴量を前記第1映像処理装置から受信する第2受信ステップと、
    前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識ステップと、
    前記第3局所特徴量を前記第1映像処理装置から受信する第3受信ステップと、
    前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識ステップと、
    前記第1認識ステップにおける認識と前記第2認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
    前記認識対象物に関する情報を前記第1映像処理装置に送信する第3送信ステップと、
    を含むことを特徴とする第2映像処理装置の制御方法。
  23. 請求項12乃至16のいずれか1項に記載の映像処理システムにおける、認識対象物と、該認識対象物の画像内の特徴点のそれぞれを含む局所領域のそれぞれについて生成された、i次元の特徴ベクトルからなる第1局所特徴量とを、対応付けて記憶する第1局所特徴量記憶手段を備える第2映像処理装置の制御プログラムであって、
    前記第2局所特徴量を前記第1映像処理装置から受信する第2受信ステップと、
    前記i次元と前記j次元のより少ない次元数を選択し、前記選択した次元数の前記第2局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第1画像に前記認識対象物が存在すると認識する第1認識ステップと、
    前記第3局所特徴量を前記第1映像処理装置から受信する第3受信ステップと、
    前記i次元と前記k次元のより少ない次元数を選択し、前記選択した次元数の前記第3局所特徴量に、前記選択した次元数の前記第1局所特徴量の所定割合以上が対応すると判定した場合に、前記第2画像に前記認識対象物が存在すると認識する第2認識ステップと、
    前記第1認識ステップにおける認識と前記第2認識ステップにおける認識とに基づいて、前記認識対象物に関する情報を生成する情報生成ステップと、
    前記認識対象物に関する情報を前記第1映像処理装置に送信する第3送信ステップと、
    をコンピュータに実行させることを特徴とする制御プログラム。
JP2012017382A 2012-01-30 2012-01-30 映像処理システム、映像処理方法、映像処理装置およびその制御方法と制御プログラム Pending JP2015092302A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012017382A JP2015092302A (ja) 2012-01-30 2012-01-30 映像処理システム、映像処理方法、映像処理装置およびその制御方法と制御プログラム
PCT/JP2013/051571 WO2013115092A1 (ja) 2012-01-30 2013-01-25 映像処理システム、映像処理方法、映像処理装置およびその制御方法と制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012017382A JP2015092302A (ja) 2012-01-30 2012-01-30 映像処理システム、映像処理方法、映像処理装置およびその制御方法と制御プログラム

Publications (1)

Publication Number Publication Date
JP2015092302A true JP2015092302A (ja) 2015-05-14

Family

ID=48905132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012017382A Pending JP2015092302A (ja) 2012-01-30 2012-01-30 映像処理システム、映像処理方法、映像処理装置およびその制御方法と制御プログラム

Country Status (2)

Country Link
JP (1) JP2015092302A (ja)
WO (1) WO2013115092A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101808937B1 (ko) * 2016-02-29 2017-12-13 국민대학교산학협력단 그래디언트 히스토그램을 이용한 오브젝트 주행 패턴 검출 방법 및 장치
JP2018078371A (ja) * 2016-11-07 2018-05-17 オリンパス株式会社 移動撮影装置、移動撮影指示装置、撮影機器及び移動撮影システム
JP2018093535A (ja) * 2018-03-02 2018-06-14 オリンパス株式会社 移動撮影装置、撮影機器、撮影方法及び撮影プログラム
JP2019154033A (ja) * 2019-03-06 2019-09-12 オリンパス株式会社 移動撮影装置、移動撮影制御装置、移動撮影システム、撮影方法及び撮影プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107074027B (zh) * 2014-11-12 2019-08-30 横滨橡胶株式会社 充气轮胎和车辆
WO2018179420A1 (ja) * 2017-03-31 2018-10-04 株式会社オプティム コンピュータシステム、植物診断方法及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2917661B2 (ja) * 1992-04-28 1999-07-12 住友電気工業株式会社 交通流計測処理方法及び装置
JP2003022442A (ja) * 2001-07-10 2003-01-24 Nippon Telegr & Teleph Corp <Ntt> 物体検出/位置測定方法およびその装置、ならびにこの方法の実行プログラムおよびその記録媒体
JP2006127541A (ja) * 2005-12-06 2006-05-18 Nec Corp ジェスチャー認識方法
JP4684966B2 (ja) * 2006-08-02 2011-05-18 三菱電機株式会社 画像表示装置
JP5164222B2 (ja) * 2009-06-25 2013-03-21 Kddi株式会社 画像検索方法およびシステム
JP5257274B2 (ja) * 2009-06-30 2013-08-07 住友電気工業株式会社 移動体検出装置、移動体検出方法及びコンピュータプログラム
JP5521676B2 (ja) * 2010-03-19 2014-06-18 富士通株式会社 画像処理装置及び画像処理プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101808937B1 (ko) * 2016-02-29 2017-12-13 국민대학교산학협력단 그래디언트 히스토그램을 이용한 오브젝트 주행 패턴 검출 방법 및 장치
JP2018078371A (ja) * 2016-11-07 2018-05-17 オリンパス株式会社 移動撮影装置、移動撮影指示装置、撮影機器及び移動撮影システム
US10638028B2 (en) 2016-11-07 2020-04-28 Olympus Corporation Apparatus, method, recording medium, and system for capturing coordinated images of a target
JP2018093535A (ja) * 2018-03-02 2018-06-14 オリンパス株式会社 移動撮影装置、撮影機器、撮影方法及び撮影プログラム
JP2019154033A (ja) * 2019-03-06 2019-09-12 オリンパス株式会社 移動撮影装置、移動撮影制御装置、移動撮影システム、撮影方法及び撮影プログラム

Also Published As

Publication number Publication date
WO2013115092A1 (ja) 2013-08-08

Similar Documents

Publication Publication Date Title
WO2013115092A1 (ja) 映像処理システム、映像処理方法、映像処理装置およびその制御方法と制御プログラム
Jia et al. Gabor cube selection based multitask joint sparse representation for hyperspectral image classification
JP6168355B2 (ja) 情報処理システム、情報処理方法、通信端末およびその制御方法と制御プログラム
KR101611778B1 (ko) 국소 특징 기술자 추출 장치, 국소 특징 기술자 추출 방법, 및 프로그램을 기록한 컴퓨터 판독가능 기록 매체
EP2765520B1 (en) Similarity detection device and directional nearest neighbor method
Li et al. Embracing crowdsensing: An enhanced mobile sensing solution for road anomaly detection
Lv et al. Multi-scale and multi-scope convolutional neural networks for destination prediction of trajectories
JP6429134B2 (ja) 勾配ヒストグラムに基づいて画像記述子を変換する方法および関連する画像処理装置
JP6153086B2 (ja) 映像処理システム、映像処理方法、携帯端末用またはサーバ用の映像処理装置およびその制御方法と制御プログラム
CN103218825A (zh) 一种尺度不变的时空兴趣点快速检测方法
Sridharan et al. Bag of lines (BoL) for improved aerial scene representation
CN115761398A (zh) 基于轻量化神经网络及维度拓展的轴承故障诊断方法
CN114491125A (zh) 一种基于多模态编码本的跨模态人物服装设计生成方法
WO2013115203A1 (ja) 情報処理システム、情報処理方法、情報処理装置およびその制御方法と制御プログラム、通信端末およびその制御方法と制御プログラム
Huang et al. A bridge neural network-based optical-SAR image joint intelligent interpretation framework
CN110826449A (zh) 基于轻量型卷积神经网络的非机动车再识别目标检索方法
Li Using complexity measures of movement for automatically detecting movement types of unknown GPS trajectories
Li et al. Urban infrastructure audit: an effective protocol to digitize signalized intersections by mining street view images
CN113743239A (zh) 行人重识别方法、装置及电子设备
CN111428612B (zh) 行人重识别方法、终端、装置及存储介质
CN101711394A (zh) 高性能图像识别
CN102609732B (zh) 基于泛化视觉词典图的物体识别方法
WO2013089004A1 (ja) 映像処理システム、映像処理方法、携帯端末用またはサーバ用の映像処理装置およびその制御方法と制御プログラム
CN116823884A (zh) 多目标跟踪方法、系统、计算机设备及存储介质
CN116704324A (zh) 基于水下图像的目标检测方法、系统、设备以及存储介质