JP6482195B2 - 画像認識装置、画像認識方法及びプログラム - Google Patents

画像認識装置、画像認識方法及びプログラム Download PDF

Info

Publication number
JP6482195B2
JP6482195B2 JP2014137149A JP2014137149A JP6482195B2 JP 6482195 B2 JP6482195 B2 JP 6482195B2 JP 2014137149 A JP2014137149 A JP 2014137149A JP 2014137149 A JP2014137149 A JP 2014137149A JP 6482195 B2 JP6482195 B2 JP 6482195B2
Authority
JP
Japan
Prior art keywords
camera
image
sample
dictionary
fitness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014137149A
Other languages
English (en)
Other versions
JP2016015045A (ja
Inventor
内山 寛之
寛之 内山
一郎 梅田
一郎 梅田
睦凌 郭
睦凌 郭
矢野 光太郎
光太郎 矢野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014137149A priority Critical patent/JP6482195B2/ja
Priority to US14/750,051 priority patent/US9773322B2/en
Publication of JP2016015045A publication Critical patent/JP2016015045A/ja
Application granted granted Critical
Publication of JP6482195B2 publication Critical patent/JP6482195B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、特に、人体等の検出器の辞書を学習するために用いて好適な画像認識装置、画像認識方法及びプログラムに関する。
従来、カメラで撮影した画像から人体を検出する方法が提案されている(例えば非特許文献1参照)。この非特許文献1に記載されている手法は、検出器の辞書を人体画像と背景画像との機械学習により事前学習する。その後、カメラから入力された画像の部分画像が人体か否かを識別し、検出を行うために辞書が使用される。しかしながら、事前学習時の容姿と検出時の撮影シーンや人体の容姿とが異なる場合、検出性能が低下することが知られている。撮影シーンの違いとは、具体的には照明条件の違いやカメラの設置位置や角度の違いによる撮影方向の違い、陰影の有無、背景の違い等が挙げられる。一方、容姿の違いは、人体の向きや服装の違い等が挙げられる。
検出性能が低下する要因として、事前学習時の学習サンプルが撮影シーンや検出対象物体の容姿の多様性を網羅できていないことが挙げられる。そこで、この問題を解決するために、検出時と同様の撮影シーンで収集した追加学習用の学習サンプルを用いて、事前学習した辞書に対して追加学習を行い、検出性能の向上を行う手法が提案されている。特許文献1には、まず、Real AdaBoost識別器の辞書を事前学習で作成し、その後、さらに追加学習によって、辞書を追加学習サンプルに適合させる方法が提案されている。
特表2010−529529号公報
Navneet Dalal and Bill Triggs Histograms of Oriented Gradients for Human Detection,CVPR2005 M.D.Breitenstein et al.,Robust tracking−by−detection using a detector confidence particle filter,ICCV2009
しかしながら、特許文献1に記載の方法では、事前学習時と追加学習時とでカメラの設置角度や出現する人体の色、性別、年齢等の属性、背景等が大きく異なる場合には、識別に必要な特徴量が大きく異なるため、識別精度の向上には限界がある。例えば、識別のための特徴量としてエッジの方向および強度を使用する場合を考える。事前学習時と追加学習時とで人体に対するカメラの設置角度が異なると、人体画像中に現れるエッジの出現位置や角度、強度が異なる。このような場合、事前学習時に学習した検出対象物体の特徴量を追加学習時に利用することが困難になるため、性能の向上に限界がある。また、事前学習時と追加学習時とで背景のテクスチャが大きく異なる場合においても、同様に識別に必要な特徴量が異なるため、性能の向上に限界がある。
本発明は前述の問題点に鑑み、物体検出用の検出器の辞書を精度よく追加学習できるようにすることを目的としている。
本発明に係る画像認識装置は、第一のカメラで撮影された画像から検出対象とする物体を検出する検出器を、前記第一のカメラとは異なる少なくとも1つの第二のカメラで撮影された画像から物体を検出する検出器の辞書を用いて学習する画像認識装置であって、前記第一のカメラで撮影された画像および前記第二のカメラで撮影された画像から前記物体のサンプルおよび前記物体以外のサンプルを抽出する抽出手段と、前記抽出手段によって抽出された前記物体のサンプルから前記物体の属性を推定し、前記推定した前記物体の属性に基づいて前記第二のカメラの検出器の辞書と前記第一のカメラで撮影された画像との適応度を推定する推定手段と、前記推定手段によって推定された適応度に基づいて、前記少なくとも1つの第二のカメラで撮影された画像から物体を検出する検出器の辞書の中から前記第一のカメラで撮影された画像から物体を検出する検出器の辞書として用いる辞書を選択する選択手段と、前記抽出手段によって前記第一のカメラで撮影された画像から抽出された前記物体のサンプルを用いて、前記選択手段によって選択された辞書を追加学習する学習手段と、を備えることを特徴とする。
本発明によれば、物体検出用の検出器の辞書を精度よく追加学習することができるため、識別性能を向上させることができる。
実施形態に係る画像認識装置の機能構成例を示すブロック図である。 実施形態に係る画像認識装置のハードウェア構成例を示すブロック図である。 実施形態に係る画像認識装置による学習処理手順の一例を示すフローチャートである。 新規導入シーン映像と既存シーン映像との辞書間の適応度を算出する詳細な処理手順の一例を示すフローチャートである。 検出対象物体のサンプルに対するカメラ方向を説明するための図である。 新規導入シーン映像または既存シーン映像のカメラ方向の方向分布の一例を示す図である。
以下、本発明の実施形態について、図面を参照しながら説明する。
図2は、本実施形態に係る画像認識装置100のハードウェア構成例を示すブロック図である。
図2において、撮像素子201は、CCD、CMOS等で構成され、被写体像を光から電気信号に変換するための撮像手段であり、複数個存在する。信号処理回路202は、撮像素子201から得られた被写体像に関する時系列信号を処理し、デジタル信号に変換する。
CPU203は、ROM204に格納されている制御プログラムを実行することにより、画像認識装置100全体の制御を行う。ROM204は、CPU203が実行する制御プログラムや各種パラメータデータを格納する。ここで、制御プログラムは、CPU203で実行されることにより、後述するフローチャートに示す各処理を実行するための各種手段として、当該装置を機能させる。RAM205は、画像や各種情報を記憶し、また、RAM205は、CPU203のワークエリアやデータの一時待避領域として機能する。ディスプレイ206は、画像などを表示するための表示装置である。
なお、本実施形態では、後述するフローチャートの各ステップに対応する処理を、CPU203を用いてソフトウェアで実現することとするが、その処理の一部または全部を電子回路などのハードウェアで実現するようにしても構わない。また、本実施形態の画像認識装置は、撮像素子201や信号処理回路202を省いて汎用PCを用いて実現してもよいし、専用装置として実現するようにしても構わない。また、ネットワークまたは各種記憶媒体を介して取得したソフトウェア(プログラム)をパーソナルコンピュータ等の処理装置(CPU,プロセッサ)にて実行してもよい。
図1は、本実施形態に係る画像認識装置100の機能構成例を示すブロック図である。
図1に示すように本実施形態の画像認識装置100は、第一の画像入力部101、第二の画像入力部102、サンプル抽出部103、ラベル取得部104、辞書記憶部105、辞書適応度推定部106、辞書選択部112、及び追加学習部113で構成される。
第一の画像入力部101は、あるカメラで撮影された映像を取得する。第二の画像入力部102は、第一の画像入力部101に入力される映像を撮影したカメラとは異なる複数のカメラ(以下、その他のカメラ群)で撮影された映像をそれぞれ取得する。本実施形態では、第二の画像入力部102で取得される複数の映像は、それぞれ異なるシーンで撮影されたものとするが、同じシーンが含まれていてもよい。また、シーンが異なるとは、本実施形態ではカメラの設置位置・角度が異なることであるものとするが、照明条件が異なる、被写体との距離が異なる等、その他の撮影条件が異なることであってもよい。以降、第一の画像入力部101に入力された映像を新規導入シーン映像と呼び、第二の画像入力部102に入力された映像を既存シーン映像と呼ぶ。
サンプル抽出部103は、第一の画像入力部101で取得した新規導入シーン映像と第二の画像入力部102で取得した既存シーン映像とから部分画像を切り出すことによって、サンプルを抽出する。ラベル取得部104は、サンプル抽出部103で抽出したサンプルに、検出対象物体または検出対象物体以外(本実施形態では背景)を示すラベルを付与する。ラベルの付与方法については後述する。
辞書記憶部105は、あらかじめ複数の既存シーンで学習した物体検出器の辞書を記憶している。言い換えると、その他のカメラ群で撮影されたシーンで学習した物体検出器の辞書を複数記憶している。本実施形態では、M個のシーンで学習されたM個の辞書を記憶しているものとする。また、本実施形態では、Real AdaBoostで学習された識別器の辞書とし、辞書は弱識別器を構成する複数のLook Up Tableで構成されているものとする。なお、辞書をReal AdaBoostで学習された識別器のものとしたが、他の学習方法や識別器の辞書でもよい。さらに、特許文献1に記載の追加学習によって、学習済みの辞書を更新することによって作成した辞書でもよい。
辞書適応度推定部106は、サンプル抽出部103で取得したサンプルと、ラベル取得部104で取得したラベルと、辞書記憶部105に記憶した複数の辞書とを用いて、辞書と新規導入シーンとの適応度を推定する。本実施形態では、適応度は新規導入シーンと既存シーンとの類似度を示す指標であるものとするが、他の指標でもよい。また、辞書適応度推定部106は、物体属性推定部107と、物体属性適応度推定部108と、物体サンプル適応度推定部109と、背景サンプル適応度推定部110と、適応度統合部111とで構成される。
物体属性推定部107は、検出対象物体のサンプルの属性を取得する。本実施形態では、属性とは検出対象物体に対するカメラ方向とするが、検出対象物体の色や年齢、性別、その他の属性でもよい。カメラ方向については後述する。物体属性適応度推定部108は、サンプルの属性を用いて、辞書と新規導入シーンとの適応度を算出する。物体サンプル適応度推定部109は、サンプルの属性と、新規導入シーンの検出対象物体に属するサンプルと、辞書記憶部105に記憶した辞書とを用いて、辞書と新規導入シーンとの適応度を計算する。
背景サンプル適応度推定部110は、新規導入シーンの背景に属するサンプルと辞書記憶部105に記憶した辞書とを用いて、辞書と新規導入シーンとの適応度を計算する。適応度統合部111は、物体属性適応度推定部108と物体サンプル適応度推定部109と背景サンプル適応度推定部110とで計算した各適応度を統合する。
辞書選択部112は、辞書適応度推定部106で算出された適応度を基に、辞書記憶部105に記憶された辞書の中から好適な辞書を選択する。追加学習部113は、新規導入シーンのサンプルを用いて、選択された辞書を更新する。
以下、図1に示す各構成の動作について、図3のフローチャートを用いて説明する。
図3は、本実施形態に係る画像認識装置100による学習処理手順の一例を示すフローチャートである。
まず、ステップS301において、第一の画像入力部101は、新規導入シーンの映像を取得する。
次に、ステップS302において、サンプル抽出部103は、新規導入シーンの映像から検出対象物体および物体以外である背景のサンプルを抽出し、ラベル取得部104は、抽出されたサンプルにラベルを付与する。これらのサンプルはそれぞれ事前に定められた数が抽出される。
ここで、サンプルの抽出は、映像から任意の位置、大きさの部分画像を切り出すことにより行う。そして、新規導入シーン映像から抽出されたサンプルに検出対象物体のラベルを付与する際には、非特許文献2に記載のTracking by Detectionを用いる。具体的にはまず、検出器により検出処理を行う。このとき、誤検出を削減して検出の信頼度を高めるために、検出器の出力する検出対象物体らしさを表わす尤度が予め定められた閾値より大きい検出結果のみ採用する。次に、尤度が閾値より大きい検出結果を初期検出結果とし、以降の映像フレームに対し物体追尾を行う。これにより、検出器のみでは検出困難な検出対象物体のサンプルにラベルを付与することができる。
以上のように本実施形態では、検出対象物体のラベルを付与するためにTracking by Detectionを用いるが、代わりに不図示の操作部からユーザーの操作により手動でラベルを付与してもよい。また、初期検出結果を不図示の操作部からユーザーの操作により手動で入力し、物体追尾によりラベルを付与してもよい。
次に、抽出されたサンプルに背景のラベルを付与する際に、映像中の検出対象物体が存在しないフレームから抽出したサンプルに背景のラベルを付与するようにする。本実施形態では、任意の位置座標、大きさで抽出したサンプルに対して背景ラベルを付与するが、代わりに、識別が難しい背景サンプルとしてHard Negativeサンプルだけに背景ラベルを付与してもよい。すなわち、検出対象物体であることを示す尤度が予め定められた値より高い部分画像だけに背景ラベルを付与してもよい。このようにHard Negativeサンプルだけを用いることにより、多くの背景サンプルの集合の中から誤識別の原因となるサンプルを効率よく選び出す効果が得られる。
以上のように、背景のラベルを付与するために、映像中の検出対象物体が存在しないフレームから切り出したサンプルに対し処理を行う。一方、代わりに背景差分法による動体検出や前記Tracking by Detection等を使用し、画像から検出対象物体領域を除いた領域から抽出されたサンプルに対し処理を行ってもよい。
ステップS303のループでは、M個の既存シーン映像のそれぞれについて、ステップS304からS306の処理を繰り返す。
まず、ステップS304において、第二の画像入力部102は、その他のカメラ群の中の1つのカメラから既存シーン映像を取得する。そして、ステップS305において、サンプル抽出部103は、その既存シーン映像から背景のサンプルを抽出し、ラベル取得部104は、抽出された背景のサンプルにラベルを付与する。この処理は、ステップS302と同様に行う。
次に、ステップS306において、辞書適応度推定部106は、新規導入シーン映像とその既存シーン映像との辞書間の適応度を算出する。なお、本ステップの詳しい処理は後述する。以上のように既存シーン映像ごとにステップS304〜S306の処理を繰り返す。
続いて、ステップS307において、辞書選択部112は、ステップS303のループ内で算出された各既存シーン映像の辞書の適応度を基に、辞書記憶部105に記憶された辞書の中から更新対象として好適なものを選択する。本実施形態では、適応度が最も高い辞書を選択するが、他の方法で選択してもよい。
そして、ステップS308において、追加学習部113は、ステップS302で抽出したサンプルを用い、ステップS307で選択された辞書に対して追加学習を行い、更新する。追加学習の方法として、本実施形態では、特許文献1に記載の手法を用いる。具体的には、ポジティブサンプル及びネガティブサンプルを用いてReal AdaBoostの弱識別器を構成するLook Up Tableの値を更新する。なお、追加学習はこの方法によらず、他の方法を用いてもよい。
次に、辞書適応度推定部106によるステップS306の処理の詳細について、図4を用いて説明する。
図4は、図3のステップS306の詳細な処理手順の一例を示すフローチャートである。
まず、ステップS401において、物体属性推定部107は、新規導入シーン映像および既存シーン映像における検出対象物体のサンプルの属性、すなわち検出対象物体のサンプルに対するカメラ方向を取得する。本実施形態では、図5(a)に示すように、カメラ方向として、仰角0度、30度、45度、60度の方向のいずれかに分類する。
サンプルのカメラ方向を取得するために、特定の方向の物体のみを検出対象とする検出器をあらかじめ用意する。例えば、図5(b)に示すように、検出対象物体に対して仰角0度、30度、45度、60度のカメラ方向で撮影した検出対象物体サンプル群でそれぞれ学習した検出器を用意する。そして、あるサンプルにそれぞれのカメラ方向の検出器を適用し、最も高い尤度を出力した検出器に対応する方向をそのサンプルの持つカメラ方向とする。
本実施形態では、特定のカメラ方向の物体のみを検出対象とする検出器をあらかじめ用意したが、これ以外の方法により検出対象物体の方向の識別器を用意してもよい。また、検出対象物体の方向を不図示の操作部からユーザーの操作により手動で入力してもよいし、検出対象物体の位置を取得する外部センサやカメラの設置位置、角度等の事前知識、その他を用いてもよい。また、既存シーン映像の検出器が検出対象物体の尤度のみならず、方向を出力可能な検出器ならば、これを代わりに用いてもよい。また、本実施形態では、カメラの仰角の角度方向を用いたが、検出対象物体のヨー角、ピッチ角、ロール角、その他を用いてもよく、これらの組み合わせでもよい。
次に、ステップS402において、物体属性適応度推定部108は、ステップS401で取得した新規導入シーン映像および既存シーン映像における検出対象物体サンプルのカメラ方向を基に、それぞれのシーンの方向分布を作成する。そして、これらの間の相違度を計算することにより、適応度を算出する。
本ステップでは、まず、図6に示すように、それぞれのシーンにおける検出対象物体のサンプルの方向分布を作成する。この処理は、ステップS401で取得したカメラ方向を基に、カメラ方向別にサンプルを計数することにより行う。次に、新規導入シーン映像と既存シーン映像との方向分布間の比較を行う。方向分布の比較は本実施形態ではKLダイバージェンスを用いるが、ヒストグラムインターセクションやEarth Movers Distance等の他の指標を用いてもよい。この分布間の比較値の符号を逆転したものをシーン間の方向分布間の適応度Sdistとする。このように、シーン間の適応度に方向分布間の相違度を考慮することにより、検出対象物体の方向の出現傾向が類似する既存シーン映像が選択されやすくなる。これによって、カメラの設置位置や角度が類似する既存シーン映像が選択されやすくなる。
本実施形態では、物体属性適応度推定部108は、ステップS402のように検出対象物体のカメラ方向の分布を基に適応度を推定した。しかしながら、分布を用いず、他の方法で検出対象物体のカメラ方向を基にした適応度を推定してもよい。例えば、方向角の平均値を新規導入シーン映像と既存シーン映像とでそれぞれ算出し、算出した値を比較することによって適応度を推定してもよい。
次に、ステップS403において、物体サンプル適応度推定部109は、検出対象物体サンプルの適応度を算出する。まず、既存シーン映像の検出器は検出対象物体のサンプルらしさを表わす尤度を出力する。ある検出対象物体サンプルに対する尤度が高いということは、この検出器は正しくサンプルに適合していることを示す。そこで、検出対象物体のサンプルの適応度を算出する際には、この尤度の平均値を用いる。ここで、Xposを既存シーン映像の検出対象物体サンプル群、|Xpos|をXposの個数、xをXpos中のサンプル、H(x)を検出器の出力する尤度とすると、検出対象物体サンプルの適応度Sposは、次の式(1)で表わされる。
Figure 0006482195
検出対象物体サンプルの適応度Sposを算出する際に、式(1)では検出対象物体サンプルのカメラ方向は考慮しなかったが、カメラ方向を考慮してもよい。例えば、式(1)の代わりに以下の式(2)及び式(3)のように、カメラ方向ごとに尤度の平均T(Xpos d)を求めた後、さらにこれらを平均化したものを検出対象物体のサンプルの適応度Sposとしてもよい。
Figure 0006482195
ここで、Dは方向の集合であり、|D|はその個数である。また、dは方向であり、Xpos dは方向dを持つ既存シーン映像の検出対象物体のサンプル群である。
次に、ステップS404において、背景サンプル適応度推定部110は、背景サンプルの適応度を算出する。今度は逆に、検出対象物体サンプルらしさを表わす尤度が低いほど、背景らしさを表わす。そのため、ある背景サンプルに対して尤度が低いということは、この検出器は正しくサンプルに適合していることを示す。そこで、背景サンプルの適応度を算出する際には、この尤度の平均値の符号を反転させたものを用いる。ここで、Xnegを既存シーンの背景サンプル群、|Xneg|をXnegの個数、xをXneg中のサンプル、H(x)を検出器の出力する尤度とすると、背景サンプルの適応度Snegは次の式(4)で表わされる。
Figure 0006482195
次に、ステップS405において、適応度統合部111は、ステップS402からS404で算出した3つの適応度を統合し、最終的な新規導入シーン映像と既存シーン映像との間の適応度を算出する。本実施形態では、これらの3つの適応度の線形和を最終的な適応度とする。Sdistをシーン間の方向分布間の適応度、Sposを検出対象物体サンプルの適応度、Snegを背景サンプルの適応度とすると、最終的な適応度は次の式(5)で表わされる。
Figure 0006482195
ここで、λdist、λpos、λnegはそれぞれ事前に定められた重み係数である。本実施形態では、シーン間の方向分布間の適応度Sdist、検出対象物体サンプルの適応度Spos、及び背景サンプルの適応度Snegを統合した適応度Sを用いたが、いずれかのうち少なくとも1つの適応度を統合したものを適応度Sとしてもよい。その場合、Sdist、Spos、Snegのうち、必要な適応度のみを計算すればよい。
以上説明したように本実施形態によれば、新規導入シーン映像との適合度の高い既存シーン映像の検出器を基に追加学習するようにした。そのため、追加学習時に適合度の高い事前学習時の特徴量を利用することができるため、識別精度を向上させることができる。また、追加学習の反復処理を好適な初期値から開始することができるため、反復処理の収束を速くすることができ、追加学習における計算コストを削減することができる。例えば、環境中に新規にカメラを設置する場合、類似する他の場所で学習した既存シーン映像の検出器を基に学習することにより、識別精度の向上と学習の迅速化とが見込める。
また、追加学習に用いる検出器の辞書を選択するために、検出対象物体の適応度と、背景物体の適応度と、検出対象物体の方向分布間の適応度とを用いるようにした。検出対象物体の適応度を用いることにより、事前学習で得た検出対象物体をよく識別できる特徴量を利用することができるため、識別精度を向上させることができる。また、背景物体の適応度を用いることにより、同様に、事前学習で得た背景をよく識別できる特徴量を利用することができるため、識別精度を向上させることができる。さらに、検出対象物体の方向分布間の適応度、すなわち検出対象物体の属性の適応度を用いることにより、新規導入シーン映像と検出対象物体の属性の出現傾向が類似する既存シーン映像を選択することができる。このため、選択の信頼性を向上と、それによる識別精度の向上とが見込まれる。
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
103 サンプル抽出部
106 辞書適応度推定部
112 辞書選択部
113 追加学習部

Claims (10)

  1. 第一のカメラで撮影された画像から検出対象とする物体を検出する検出器を、前記第一のカメラとは異なる少なくとも1つの第二のカメラで撮影された画像から物体を検出する検出器の辞書を用いて学習する画像認識装置であって、
    前記第一のカメラで撮影された画像および前記第二のカメラで撮影された画像から前記物体のサンプルおよび前記物体以外のサンプルを抽出する抽出手段と、
    前記抽出手段によって抽出された前記物体のサンプルから前記物体の属性を推定し、前記推定した前記物体の属性に基づいて前記第二のカメラの検出器の辞書と前記第一のカメラで撮影された画像との適応度を推定する推定手段と、
    前記推定手段によって推定された適応度に基づいて、前記少なくとも1つの第二のカメラで撮影された画像から物体を検出する検出器の辞書の中から前記第一のカメラで撮影された画像から物体を検出する検出器の辞書として用いる辞書を選択する選択手段と、
    前記抽出手段によって前記第一のカメラで撮影された画像から抽出された前記物体のサンプルを用いて、前記選択手段によって選択された辞書を追加学習する学習手段と、
    を備えることを特徴とする画像認識装置。
  2. 前記推定手段は、前記第一のカメラで撮影された画像のシーンと前記第二のカメラで撮影された画像のシーンとの類似度を適応度として推定することを特徴とする請求項1に記載の画像認識装置。
  3. 前記物体の属性は、当該物体を撮影したカメラ方向であることを特徴とする請求項1または2に記載の画像認識装置。
  4. 前記推定手段は、前記物体のサンプルに前記第二のカメラで撮影された画像から物体を検出する検出器を適用して前記物体のサンプルらしさを表す尤度を算出し、前記算出した尤度に基づいて前記適応度を推定することを特徴とする請求項1〜の何れか1項に記載の画像認識装置。
  5. 前記推定手段は、前記物体以外のサンプルに前記第二のカメラで撮影された画像から物体を検出する検出器を適用して前記物体以外のサンプルらしさを表す尤度を算出し、前記算出した尤度に基づいて前記適応度を推定することを特徴とする請求項1〜の何れか1項に記載の画像認識装置。
  6. 前記物体以外のサンプルは、背景のサンプルであることを特徴とする請求項に記載の画像認識装置。
  7. 前記推定手段は、複数の適応度を統合して1つの適応度を推定することを特徴とする請求項1〜の何れか1項に記載の画像認識装置。
  8. 前記推定手段は、前記複数の適応度にそれぞれ重みを付けて統合することを特徴とする請求項に記載の画像認識装置。
  9. 第一のカメラで撮影された画像から検出対象とする物体を検出する検出器を、前記第一のカメラとは異なる少なくとも1つの第二のカメラで撮影された画像から物体を検出する検出器の辞書を用いて学習する画像認識方法であって、
    前記第一のカメラで撮影された画像および前記第二のカメラで撮影された画像から前記物体のサンプルおよび前記物体以外のサンプルを抽出する抽出工程と、
    前記抽出工程において抽出された前記物体のサンプルから前記物体の属性を推定し、前記推定した前記物体の属性に基づいて前記第二のカメラの検出器の辞書と前記第一のカメラで撮影された画像との適応度を推定する推定工程と、
    前記推定工程において推定された適応度に基づいて、前記少なくとも1つの第二のカメラで撮影された画像から物体を検出する検出器の辞書の中から前記第一のカメラで撮影された画像から物体を検出する検出器の辞書として用いる辞書を選択する選択工程と、
    前記抽出工程において前記第一のカメラで撮影された画像から抽出された前記物体のサンプルを用いて、前記選択工程において選択された辞書を追加学習する学習工程と、
    を備えることを特徴とする画像認識方法。
  10. 第一のカメラで撮影された画像から検出対象とする物体を検出する検出器を、前記第一のカメラとは異なる少なくとも1つの第二のカメラで撮影された画像から物体を検出する検出器の辞書を用いて学習する画像認識装置を制御するためのプログラムであって、
    前記第一のカメラで撮影された画像および前記第二のカメラで撮影された画像から前記物体のサンプルおよび前記物体以外のサンプルを抽出する抽出工程と、
    前記抽出工程において抽出された前記物体のサンプルから前記物体の属性を推定し、前記推定した前記物体の属性に基づいて前記第二のカメラの検出器の辞書と前記第一のカメラで撮影された画像との適応度を推定する推定工程と、
    前記推定工程において推定された適応度に基づいて、前記少なくとも1つの第二のカメラで撮影された画像から物体を検出する検出器の辞書の中から前記第一のカメラで撮影された画像から物体を検出する検出器の辞書として用いる辞書を選択する選択工程と、
    前記抽出工程において前記第一のカメラで撮影された画像から抽出された前記物体のサンプルを用いて、前記選択工程において選択された辞書を追加学習する学習工程と、
    をコンピュータに実行させることを特徴とするプログラム。
JP2014137149A 2014-07-02 2014-07-02 画像認識装置、画像認識方法及びプログラム Active JP6482195B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014137149A JP6482195B2 (ja) 2014-07-02 2014-07-02 画像認識装置、画像認識方法及びプログラム
US14/750,051 US9773322B2 (en) 2014-07-02 2015-06-25 Image processing apparatus and image processing method which learn dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014137149A JP6482195B2 (ja) 2014-07-02 2014-07-02 画像認識装置、画像認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016015045A JP2016015045A (ja) 2016-01-28
JP6482195B2 true JP6482195B2 (ja) 2019-03-13

Family

ID=55017216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014137149A Active JP6482195B2 (ja) 2014-07-02 2014-07-02 画像認識装置、画像認識方法及びプログラム

Country Status (2)

Country Link
US (1) US9773322B2 (ja)
JP (1) JP6482195B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6320112B2 (ja) 2014-03-27 2018-05-09 キヤノン株式会社 情報処理装置、情報処理方法
JP6445775B2 (ja) 2014-04-01 2018-12-26 キヤノン株式会社 画像処理装置、画像処理方法
JP6942488B2 (ja) * 2017-03-03 2021-09-29 キヤノン株式会社 画像処理装置、画像処理システム、画像処理方法、及びプログラム
JP6941966B2 (ja) * 2017-04-19 2021-09-29 株式会社日立製作所 人物認証装置
WO2019003355A1 (ja) * 2017-06-28 2019-01-03 株式会社オプティム 画像解析結果提供システム、画像解析結果提供方法、およびプログラム
JP6539720B1 (ja) * 2017-12-28 2019-07-03 セコム株式会社 画像処理装置
US11095814B2 (en) 2018-05-25 2021-08-17 Canon Kabushiki Kaisha Image processing apparatus and image processing method
CN108875619B (zh) * 2018-06-08 2021-09-07 Oppo广东移动通信有限公司 视频处理方法和装置、电子设备、计算机可读存储介质
JP6812387B2 (ja) * 2018-07-02 2021-01-13 キヤノン株式会社 画像処理装置及び画像処理方法、プログラム、記憶媒体
JP2021018470A (ja) * 2019-07-17 2021-02-15 東芝テック株式会社 物品特定装置及びプログラム
US11636385B2 (en) * 2019-11-04 2023-04-25 International Business Machines Corporation Training an object detector using raw and unlabeled videos and extracted speech
JP7358269B2 (ja) * 2020-02-20 2023-10-10 株式会社日立製作所 物体検出装置、物体検出システム、および、物体検出方法
JP7273109B2 (ja) * 2021-07-02 2023-05-12 株式会社日立国際電気 セルフ給油監視システム及び学習装置
WO2023233998A1 (ja) * 2022-05-31 2023-12-07 ソニーグループ株式会社 情報処理装置、情報処理方法、及び、プログラム
WO2023233999A1 (ja) * 2022-05-31 2023-12-07 ソニーグループ株式会社 情報処理装置、情報処理方法、及び、プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262331A (ja) * 2007-04-11 2008-10-30 Toshiba Corp オブジェクト追跡装置およびオブジェクト追跡方法
CN101315670B (zh) 2007-06-01 2010-08-11 清华大学 特定被摄体检测装置及其学习装置和学习方法
JP4626692B2 (ja) * 2008-09-12 2011-02-09 ソニー株式会社 物体検出装置、撮像装置、物体検出方法およびプログラム
US8330819B2 (en) * 2009-04-13 2012-12-11 Sri International Method for pose invariant vessel fingerprinting
JP5241606B2 (ja) * 2009-05-20 2013-07-17 キヤノン株式会社 オブジェクト識別装置及びオブジェクト識別方法
JP5333080B2 (ja) * 2009-09-07 2013-11-06 株式会社日本自動車部品総合研究所 画像認識システム
JP5366756B2 (ja) * 2009-10-19 2013-12-11 キヤノン株式会社 情報処理装置及び情報処理方法
KR101282196B1 (ko) * 2009-12-11 2013-07-04 한국전자통신연구원 다시점 영상에서 코드북 기반의 전경 및 배경 분리 장치 및 방법
JP5822739B2 (ja) * 2012-01-26 2015-11-24 三菱電機株式会社 画像処理装置、方法、及びプログラム
JP2014071832A (ja) * 2012-10-01 2014-04-21 Toshiba Corp 物体検出装置及びその検出方法
US8989442B2 (en) * 2013-04-12 2015-03-24 Toyota Motor Engineering & Manufacturing North America, Inc. Robust feature fusion for multi-view object tracking

Also Published As

Publication number Publication date
US9773322B2 (en) 2017-09-26
US20160004935A1 (en) 2016-01-07
JP2016015045A (ja) 2016-01-28

Similar Documents

Publication Publication Date Title
JP6482195B2 (ja) 画像認識装置、画像認識方法及びプログラム
EP3092619B1 (en) Information processing apparatus and information processing method
US9462160B2 (en) Color correction device, method, and program
JP5675229B2 (ja) 画像処理装置及び画像処理方法
US8737740B2 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
US8395676B2 (en) Information processing device and method estimating a posture of a subject in an image
US8792722B2 (en) Hand gesture detection
JP5297530B2 (ja) 画像処理装置、及びインターフェース装置
CN105404884B (zh) 图像分析方法
JP2008192131A (ja) 特徴レベル・セグメンテーションを実行するシステムおよび方法
JP3970877B2 (ja) 追跡装置および追跡方法
US12094186B2 (en) Information processing device, information processing method, and program recording medium
US20220366570A1 (en) Object tracking device and object tracking method
WO2012046426A1 (ja) 物体検出装置、物体検出方法および物体検出プログラム
WO2015186347A1 (ja) 検出システム、検出方法及びプログラム記憶媒体
JP2007052609A (ja) 手領域検出装置及び手領域検出方法、並びにプログラム
WO2022049704A1 (ja) 情報処理システム、情報処理方法、及びコンピュータプログラム
CN106934339B (zh) 一种目标跟踪、跟踪目标识别特征的提取方法和装置
CN108985216A (zh) 一种基于多元logistic回归特征融合的行人头部检测方法
JP2014203133A (ja) 画像処理装置、画像処理方法
CN107545270A (zh) 一种目标检测方法及系统
JP6539720B1 (ja) 画像処理装置
JP4812743B2 (ja) 顔認識装置、顔認識方法、顔認識プログラムおよびそのプログラムを記録した記録媒体
CN114170536A (zh) 一种针对目标部分遮挡的识别检测方法、装置及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190212

R151 Written notification of patent or utility model registration

Ref document number: 6482195

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151