JP2015191334A

JP2015191334A - 情報処理装置、情報処理方法

Info

Publication number: JP2015191334A
Application number: JP2014066802A
Authority: JP
Inventors: 内山　寛之; Hiroyuki Uchiyama; 寛之内山
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-03-27
Filing date: 2014-03-27
Publication date: 2015-11-02
Anticipated expiration: 2034-03-27
Also published as: KR20160136391A; JP6320112B2; US10255517B2; WO2015147317A1; EP3092619A1; EP3092619A4; CN106164980B; KR101964397B1; EP3092619B1; CN106164980A; US20170017859A1

Abstract

【課題】画像に対する識別性能を向上させるための技術を提供すること。【解決手段】画像から特徴量と、該画像に関するコンテクストを示すコンテクスト情報を取得する。特徴量から、該画像が規定の物体の画像である確からしさを示す第一の尤度を求める。コンテクスト情報から、該画像が規定の物体の画像である確からしさを示す第二の尤度を求める。第一の尤度と第二の尤度とを用いて、該画像が規定の物体の画像であるか否かを識別する。【選択図】図１

Description

本発明は、画像から物体を検出するための技術に関するものである。

従来から、カメラで撮影した画像から人体を検出する方法が提案されている（非特許文献１）。この手法では、人体画像と背景画像とを機械学習により事前学習し、その後、カメラから入力された画像の部分画像が人体か否かを識別し、検出を行う。しかしながら、事前学習時と検出時とで撮影シーンや人体の容姿が異なる場合、検出性能が低下することが知られている。撮影シーンの違いとは、具体的には照明条件の違いやカメラの設置角度、陰影の有無、背景の違いが挙げられる。容姿の違いは、人体の向きや服装の違い等が挙げられる。

検出性能低下の要因として、事前学習時の学習サンプルが撮影シーンや検出対象物体の容姿の多様性を網羅できていないことが挙げられる。これを解決するために、検出時と同様の撮影シーンで収集した追加学習用の学習サンプルを用いて追加学習を行うことで、検出性能の向上を行う手法が提案されている。特許文献１では、まず、ＲｅａｌＡｄａＢｏｏｓｔ識別器の弱識別器を事前学習で作成し、その後、さらに追加学習によって、弱識別器を追加学習サンプルに適合させる方法を提案している。

一方、検出時のシーンで得られるそのシーン特有のコンテクストを識別に利用することで、検出性能が向上することが知られている。コンテクストとして、検出対象物体の画像上の出現位置座標が挙げられる。設置位置が固定の防犯カメラの場合、検出対象である人体の画像上の出現位置や大きさはその設置シーン特有の分布を持つ。そのため、特許文献２では、人体の出現位置座標の確率分布を作成し、識別器の前フィルタや結果修正に用いている。その他のコンテクストの例として、背景画像が挙げられる。カメラの設置場所によっては、検出対象が特定の背景テクスチャを持つ位置に出現する頻度が高くなる。そのため、特許文献３では、識別対象領域のみならず、識別対象領域周辺の部分画像も学習に利用している。

特表２０１０‐５２９５２９特許第５０９６２１１号ＵＳ２０１２０２１９２１１Ａ１

ＮａｖｎｅｅｔＤａｌａｌａｎｄＢｉｌｌＴｒｉｇｇｓＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓｆｏｒＨｕｍａｎＤｅｔｅｃｔｉｏｎ」ＣＶＰＲ２００５ＲｏｂｅｒｔＥ．ＳｃｈａｐｉｒｅａｎｄＹｏｒａｍＳｉｎｇｅｒ「ＩｍｐｒｏｖｅｄＢｏｏｓｔｉｎｇＡｌｇｏｒｉｔｈｍｓＵｓｉｎｇＣｏｎｆｉｄｅｎｃｅ‐ｒａｔｅｄＰｒｅｄｉｃｔｉｏｎｓ」ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，１９９９ＰａｕｌＶｉｏｌａａｎｄＭｉｃｈａｅｌＪｏｎｅｓ「ＲｏｂｕｓｔＲｅａｌ‐ｔｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ」ＩＪＣＶ２００１ＬｕｂｏｍｉｒＢｏｕｒｄｅｖａｎｄＪｏｎａｔｈａｎＢｒａｎｄｔ「ＲｏｂｕｓｔＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎＶｉａＳｏｆｔＣａｓｃａｄｅ」ＣＶＰＲ２００５

しかしながら、特許文献１では、ＲｅａｌＡｄａＢｏｏｓｔ識別器のパラメータを追加学習サンプルに適合させるだけである。したがって、追加学習及び追加学習後の検出に使用される特徴が事前学習時に生成されたものに限られるため、性能向上には限界がある。

一方、特許文献２では、固定的に設置されたカメラが前提であり、またコンテクストとして物体の出現位置座標の確率分布を用いるのみである。このため、カメラが固定的ではない状況や、物体の出現確率が位置座標に依存しない状況では、性能向上は望めない。

特許文献３では、コンテクストとして利用できるのは、識別対象領域周辺の部分画像のみであり、背景画像が時間とともに変化する状況や、物体の出現確率が背景に依存しない状況では、性能向上は望めない。

本発明はこのような問題に鑑みてなされたものであり、画像に対する識別性能を向上させるための技術を提供する。

本発明の一様態は、入力された画像から特徴量を取得する手段と、前記画像に関するコンテクストを示すコンテクスト情報を取得する手段と、前記特徴量から、前記画像が規定の物体の画像である確からしさを示す第一の尤度を求める第一の識別手段と、前記コンテクスト情報から、前記画像が規定の物体の画像である確からしさを示す第二の尤度を求める第二の識別手段と、前記第一の尤度と前記第二の尤度とを用いて、前記画像が規定の物体の画像であるか否かを識別する手段とを備え、前記第二の識別手段は、前記第一の尤度と前記コンテクスト情報とを用いて学習した識別器を有することを特徴とする。

本発明の構成によれば、画像に対する識別性能を向上させることができる。

情報処理装置の機能構成例を示すブロック図。撮像装置のハードウェア構成例を示すブロック図。学習部１１１が行う処理のフローチャート。ステップＳ３０６における処理の詳細を示すフローチャート。ステップＳ４０３における処理の詳細を示すフローチャート。識別部１０１が行う処理のフローチャート。コンテクスト特徴ベクトルを説明する図。（式１１）について説明する図。コンテクスト特徴ベクトルを説明する図。

以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の１つである。

［第１の実施形態］
先ず、本実施形態に係る情報処理装置の機能構成例について、図１のブロック図を用いて説明する。図１に示す如く、本実施形態に係る情報処理装置は、識別部１０１と、学習部１１１と、を有する。

学習部１１１は、識別対象画像群とそれに付随するコンテクストから識別部１０１が有する第二の識別部１０７を学習する。ここで、「識別対象画像」とは、検出対象物体の画像と背景画像とが混在した画像群である。

識別部１０１は、第一の識別部１０６ａおよび学習部１１１によって学習した第二の識別部１０７のそれぞれによる入力画像に対する識別処理の結果から、該入力画像が特定物体が写っている画像であるか否かを識別する。

なお、本実施形態では、学習部１１１と識別部１０１とは１つの装置（情報処理装置）内に備わっているものとして説明する。しかし、学習部１１１及び識別部１０１のそれぞれを別個の装置内に設け、装置間の通信により、学習部１１１と識別部１０１とが通信を行って下記の処理を達成するようにしても構わない。

先ず、学習部１１１について説明する。学習サンプル取得部１１２は、複数枚の識別対象画像を取得し、それぞれの識別対象画像から、該識別対象画像の画像特徴ベクトルと、該識別対象画像に添付されているコンテクスト特徴ベクトルと、を収集する。そして学習サンプル取得部１１２は識別対象画像ごとに、該識別対象画像から収集した画像特徴ベクトルとコンテクスト特徴ベクトルとを連結した学習サンプルを生成する。一方で、学習サンプル取得部１１２には、それぞれの識別対象画像に対する分類ラベルが入力される。分類ラベルとは、学習サンプル（識別対象画像）が検出対象物体であるか否かを示す数値であり、検出対象物体である場合は＋１、背景である場合は−１をとる。分類ラベルの取得方法については後述する。学習サンプル取得部１１２は、識別対象画像ごとに、該識別対象画像から生成した学習サンプルと、該識別対象画像に対する分類ラベルと、を第一の識別部１０６ｂ及び追加識別器学習部１１７に対して送出する。

画像取得部１０３ｂは、複数枚の識別対象画像と、該識別対象画像に対する分類ラベルを取得する。特徴抽出部１０４ｂは、画像取得部１０３ｂが取得した識別対象画像から画像特徴ベクトルを抽出する。コンテクスト取得部１０５ｂは、画像取得部１０３ｂが取得した識別対象画像に添付されているコンテクスト特徴ベクトルを取得する。そして、特徴抽出部１０４ｂが抽出した画像特徴ベクトルと、コンテクスト取得部１０５ｂが取得したコンテクスト特徴ベクトルと、は連結した状態で、学習サンプルとして上記分類ラベルと共に、第一の識別部１０６ｂと追加識別器学習部１１７とに送出される。

第一の識別部１０６ｂは、学習サンプル取得部１１２から入力された各学習サンプル内の画像特徴ベクトルに対して、検出対象物体らしさを示す尤度（第一の尤度）を算出する。本実施形態では、第一の識別部１０６ｂは、ＲｅａｌＡｄａＢｏｏｓｔ識別器で構成されるものとして説明する。しかし、第一の識別部１０６ｂは、尤度を取得できる識別器であれば、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅやニューラルネットワーク、Ｒｅｇｒｅｓｓｉｏｎ、その他の識別器で構成されていてもよい。ここで、第一の識別部１０６ｂにおいて算出する「検出対象物体らしさを示す尤度」とは、第一の識別部１０６ｂを構成する識別器に入力された画像特徴ベクトルの検出対象物体らしさを表し、値が大きいほど検出対象物体らしいことを示す。第一の尤度の算出方法については後述する。ここで、第一の識別部１０６ｂがＲｅａｌＡｄａＢｏｏｓｔ識別器により構成される場合、識別器は複数の弱識別器の集合として構成される。ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅやニューラルネットワーク、Ｒｅｇｒｅｓｓｉｏｎを用いた場合には、識別器は単一の識別器として構成される。なお、第一の識別部１０６ｂを構成する識別器は予め取得した識別対象画像群を用いて事前に学習済みであるとする。そして第一の識別部１０６ｂは、算出した第一の尤度を、後段の追加識別器学習部１１７に対して送出する。

追加識別器学習部１１７は、学習サンプル取得部１１２から入力された学習サンプル群及び分類ラベル群、第一の識別部１０６から入力された第一の尤度、を用いて、識別部１０１が有する第二の識別部１０７を構成する弱識別器の集合を作成する。

学習サンプル重み設定部１１８は、学習サンプルに対する重みの初期設定および更新を行う。識別器候補生成部１１９は、学習サンプルとその重みから弱識別器候補群とこれらの評価スコアを生成し、識別器選択部１２０に入力する。識別器選択部１２０は、この評価スコアを基に好適な弱識別器を選択して、第二の識別部１０７を更新する。

次に、識別器１０２について説明する。

識別サンプル取得部１０２は、識別対象画像を取得し、該識別対象画像から、該識別対象画像の画像特徴ベクトルと、該識別対象画像に添付されているコンテクスト特徴ベクトルと、を収集する。そして識別サンプル取得部１０２は、識別対象画像から収集した画像特徴ベクトルとコンテクスト特徴ベクトルとを連結した識別サンプルを生成し、該識別サンプルを、第一の識別部１０６ａ及び第二の識別部１０７に対して送出する。

画像取得部１０３ａは、識別対象画像を取得する。特徴抽出部１０４ａは、画像取得部１０３ａが取得した識別対象画像から、特徴抽出部１０４ｂと同様にして画像特徴ベクトルを抽出する。コンテクスト取得部１０５ａは、画像取得部１０３ａが取得した識別対象画像に添付されているコンテクスト特徴ベクトルを取得する。そして、特徴抽出部１０４ａが抽出した画像特徴ベクトルと、コンテクスト取得部１０５ａが取得したコンテクスト特徴ベクトルと、は連結した状態で、識別サンプルとして、第一の識別部１０６ａと第二の識別部１０７とに送出される。

第一の識別部１０６ａは、識別サンプル取得部１０２から入力された識別サンプル内の画像特徴ベクトルに対して、検出対象物体らしさを示す尤度（第一の尤度）を算出する。そして第一の識別部１０６ａは、算出した第一の尤度を、後段の統合識別部１０８に対して送出する。

なお、第一の識別部１０６ａと第一の識別部１０６ｂとは同様にして事前に学習され且つ同様の動作を行うものである。しかるに、同じ識別器を第一の識別部１０６ａと第一の識別部１０６ｂとして共有して使用しても構わないし、同じ学習を行って生成した２つの識別部をそれぞれ、第一の識別部１０６ａ、第一の識別部１０６ｂとして使用しても構わない。

第二の識別部１０７は、識別サンプル取得部１０２から入力された識別サンプルに対して、検出対象物体らしさを示す第二の尤度を算出する。そして第二の識別部１０７は、算出した第二の尤度を、後段の統合識別部１０８に対して送出する。

統合識別部１０８は、第一の識別部１０６ａから入力された第一の尤度と、第二の識別部１０７から入力された第二の尤度と、を用いて、識別サンプルが検出対象物体であるかどうかを判定する。

次に、図１の学習部１１１が行う処理について、同処理のフローチャートを示す図３を用いて説明する。ステップＳ３０１では、画像取得部１０３ｂは、複数枚の識別対象画像を取得し、ステップＳ３０２では、画像取得部１０３ｂは、それぞれの識別対象画像に対する分類ラベルを取得する。

上記の通り、識別対象画像とは、検出対象物体の画像、背景画像の何れかであり、ステップＳ３０１では、検出対象物体の画像と、背景画像とが混在した画像群を取得することになる。識別対象画像群および分類ラベル群は、例えば、予めユーザが指定しておいても良い。また、動画像から識別対象画像群を取得する場合には、検出対象物体に対して追尾処理等を適用することで、識別対象画像群およびそれぞれの分類ラベルを追尾結果から自動取得してもよい。

ステップＳ３０３では、特徴抽出部１０４ｂは、ステップＳ３０１で取得したそれぞれの識別対象画像から、画像特徴ベクトルを抽出する。本実施形態では、識別対象画像からＨＯＧ（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）を画像特徴ベクトルとして抽出する。ただし、画像特徴ベクトルはＨＯＧに限るものではなく、ＬＢＰ(ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ)や画像の輝度値、その他の任意の特徴量を画像特徴ベクトルとして抽出するようにしても構わない。

ステップＳ３０４では、コンテクスト取得部１０５ｂは、ステップＳ３０１で取得したそれぞれの識別対象画像から、該識別対象画像に添付されているコンテクスト特徴ベクトルを取得する。本実施形態では、検出対象物体の出現位置情報をコンテクスト特徴ベクトルとして抽出する。具体的には、図７に示すように、識別対象画像７０１が取得された入力画像７０２（識別対象画像７０１を切り出した元画像）における識別対象画像７０１の位置座標と大きさをコンテクストとする。すなわち、識別対象画像７０１の切り出し枠の高さｈおよび切り出し枠下部のｙ座標を取得し、コンテクスト特徴ベクトルとして、切り出し枠の高さｈと切り出し枠下部のｙ座標の比、および高さｈの逆数を設定する。このとき、コンテクスト特徴ベクトルｃはｃ＝（ｙ／ｈ，１／ｈ）となる。

そして学習サンプル取得部１１２は、上記の通り、識別対象画像ごとに、該識別対象画像から抽出した画像特徴ベクトルと、該識別対象画像から取得したコンテクスト特徴ベクトルと、を連結した学習サンプルを、第一の識別部１０６ｂに対して送出する。

ステップＳ３０５では、第一の識別部１０６ｂは、学習サンプル取得部１１２から入力された各学習サンプル内の画像特徴ベクトルｖに対して第一の尤度Ｈ_１（ｖ）を算出する。第一の尤度Ｈ_１（ｖ）は、以下の（式１）に従って算出する。

ここで、（式１）のｈ１（ｖ）は第一の識別部１０６ｂ中の弱識別器を表しており、以下の（式２）に従って算出される。

ここで、εは定数、Ｗ_＋ ^ｊおよびＷ₋ ^ｊはｊをビン番号とする１次元ヒストグラムである。ｕは画像特徴ベクトルｖ中の事前に定められた次元の要素値、Ｊ（ｕ）はｕを１次元ヒストグラムのビンの番号に変換するための変換テーブルである。

ステップＳ３０６では、追加識別器学習部１１７は、学習サンプル群、分類ラベル群、第一の尤度群、を用いて、第二の識別部１０７を更新する。ステップＳ３０６における処理の詳細について、図４のフローチャートを用いて説明する。ステップＳ３０６では、いわゆるＢｏｏｓｔｉｎｇの学習アルゴリズムを用いて学習サンプル群と分類ラベル群を学習し、第二の識別部１０７を更新する。Ｂｏｏｓｔｉｎｇは、多数の弱識別器を重ねて強い識別器を作る方法であって、本実施形態では、第二の識別部１０７を構成するそれぞれの弱識別器が少なくとも画像特徴ベクトルとコンテクスト特徴ベクトルのいずれかを学習する。本実施形態における学習アルゴリズムは、第一の識別部１０６ｂを構成する識別器をこのＢｏｏｓｔｉｎｇの学習済み弱識別器のひとつとして扱い、第二の識別部１０７に多数の弱識別器を追加することを特徴とする。

先ず、ステップＳ４０１では、追加識別器学習部１１７は、第二の識別部１０７を初期化する。この初期化では、第二の識別部１０７を構成する弱識別器の集合を空集合に設定する。

次に、ステップＳ４０２では、サンプル重み設定部１１８は、各学習サンプルに対する重みの初期化を行う。Ｂｏｏｓｔｉｎｇの学習アルゴリズムは、非特許文献２によれば、学習済みの識別器の識別結果で学習サンプルを重みづけし、逐次的に弱識別器を追加することによって、より識別性能の高い識別器を構築することができる。

本実施形態では、第一の識別部１０６ｂで識別が難しいサンプルほど大きな重み、識別が容易なサンプルほど小さな重みで学習を開始する。学習サンプルの重みは、第一の識別部１０６ｂを構成する識別器で学習サンプルを識別した場合に生じる損失（ｌｏｓｓ）を、全てのサンプル重みの和が１となるように正規化した値として求める。例えば、第一の識別部１０６ｂを構成する識別器がＲｅａｌＡｄａＢｏｏｓｔ識別器であれば、学習サンプルの重みｗ_ｉの初期値は、以下の（式３）に従って行われる。

ここで、ｉは学習サンプルの番号である。また、Ｈ_１（ｖ_ｉ）は、ステップＳ３０５で取得した「画像特徴ベクトルｖ_ｉに対する、第一の識別部１０６ｂを構成する識別器Ｈ_１の尤度」（第一の尤度）を示しており、ｙ_ｉはその分類ラベルを示している。この（式３）は、ＲｅａｌＡｄａＢｏｏｓｔの指数損失関数を基にしており、第一の識別部１０６ｂで用いる識別器に応じて、好適な損失関数を採用する。

このような学習サンプルの重みの設定により、第一の識別部１０６ｂを構成する識別器Ｈ_１が識別を不得意とするシーン特有の学習サンプルを、第二の識別部１０７において効率よく学習する効果が見込める。また、これによって第二の識別部１０７は、第一の識別部１０６ｂの特定シーンに対する識別性能を補完する効果が見込める。

次に、ステップＳ４０３では、識別器候補生成部１１９は、学習サンプル群、分類ラベル群、学習サンプルの重み群、を用いて、弱識別器候補群とこれらの評価スコアを生成する。弱識別器候補の評価スコアとは、弱識別器候補の識別性能を示す指標であり、値が小さいほど識別性能がよいことを示す。ステップＳ４０３における処理の詳細については、図５を用いて後述する。

ステップＳ４０４では、識別器選択部１２０は、ステップＳ４０３で生成された弱識別器候補群から、これらの評価スコアを基に好適な弱識別器を選択する。好適な弱識別器として、本実施形態では弱識別器候補中の最も評価スコアが小さいものを選択する。

ステップＳ４０５では、識別器選択部１２０は、ステップＳ４０４で選択した弱識別器を、第二の識別部１０７を構成する弱識別器の集合に追加する。

ステップＳ４０６では、学習サンプル重み設定部１１８は、ステップＳ４０４で選択した弱識別器ｈ、学習サンプルｘ_ｉ、分類ラベルｙ_ｉを用いて、以下の（式４）に従って、学習サンプルの重みｗ_ｉを更新する。

そしてこの（式４）に従って各重みを更新後、全ての重みの和が１となるように、それぞれの重みを正規化する。次に、ステップＳ４０７では、追加識別器学習部１１７は、学習の終了条件を満たす否かを判定する。本実施形態では、例えば、ＰｏｓｉｔｉｖｅＲｅｊｅｃｔｉｏｎＲａｔｉｏが事前に定められたしきい値より小さいかつＮｅｇａｔｉｖｅＲｅｊｅｃｔＲａｔｉｏが同じく事前に定められたしきい値より大きい場合、終了条件を満たすと判定する。それ以外の場合、満たさないと判定する。

ここで、ＰｏｓｉｔｉｖｅＲｅｊｅｃｔｉｏｎＲａｔｉｏとは、検出対象物体の学習サンプルが誤って背景に識別される割合であり、ＮｅｇａｔｉｖｅＲｅｊｅｃｔｉｏｎＲａｔｉｏは背景の学習サンプルが正しく識別される割合である。なお、学習の終了条件としては様々な条件を適用することができ、特定の条件に限るものではない。例えば、ステップＳ４０１〜Ｓ４０６の処理が既定回数以上実行された場合に終了条件を満たすと判定するようにしても構わない。

ステップＳ４０７において終了条件が満たされたと判定された場合には、学習処理は終了し、まだ終了条件は満たされていないと判定した場合には、処理はステップＳ４０３に戻り、以降の処理が繰り返される。

次に、上記のステップＳ４０３における処理の詳細について、図５のフローチャートを用いて説明する。図５の処理は、画像特徴ベクトルを識別する弱判別器の候補群、コンテクスト特徴ベクトルを識別する弱判別器の候補群、画像特徴ベクトルとコンテクスト特徴ベクトルとの組み合わせを識別する弱判別器の候補群、を生成するための処理である。具体的には、ステップＳ５０１のループ（ステップＳ５０２及びＳ５０３）では、画像特徴ベクトルを識別する弱判別器の候補群を生成すると共に、それぞれの候補の評価スコアを算出する。ステップＳ５０４のループ（ステップＳ５０５及びＳ５０６）では、コンテクスト特徴ベクトルを識別する弱判別器の候補群を生成すると共に、それぞれの候補の評価スコアを算出する。ステップＳ５０７のループ（ステップＳ５０８及びＳ５０９）では、画像特徴ベクトルとコンテクスト特徴ベクトルとの組み合わせを識別する弱判別器の候補群を生成すると共に、それぞれの候補の評価スコアを算出する。

先ず、画像特徴ベクトルを識別する弱識別器候補群の生成及びその評価スコアの算出を行うステップＳ５０１のループ（ステップＳ５０２及びＳ５０３）ついて説明する。ステップＳ５０１のループでは、画像特徴ベクトル中の各次元について、弱識別器候補とその評価スコアを生成する。すなわち、画像特徴ベクトルの次元数だけ弱識別器候補およびその評価スコアが生成される。

本実施形態では、弱識別器とその評価スコアは非特許文献２のＲｅａｌＡｄａＢｏｏｓｔに基づいて求めるとする。非特許文献２によれば、ＲｅａｌＡｄａＢｏｏｓｔの弱識別器は以下の（式５）に示したような形式をとる。

ここで、ｘは学習サンプル、ｙは学習サンプルの分類ラベルであり、Ｐ（ｙ＝＋１｜ｘ）、Ｐ（ｙ＝−１｜ｘ）は学習サンプルの重みで重みづけされた確率密度分布である。

ステップＳ５０２では、識別器候補生成部１１９は、画像特徴ベクトルを識別する弱判別器の候補群を生成する。ここで、画像特徴ベクトルの任意の次元の要素における弱識別器候補の生成方法について説明する。非特許文献２によれば、（式５）の弱識別器候補はさらに（式６）のように表わされる。

ここで、ｘは学習サンプル、εは定数、Ｗ_＋ ^ｊおよびＷ₋ ^ｊはｊをビン番号とする１次元ヒストグラムである。ｕは学習サンプルｘ中の画像特徴ベクトルの任意の次元の要素値、Ｊ（ｕ）はｕを１次元ヒストグラムのビンの番号に変換するための変換テーブルである。

１次元ヒストグラムＷ_＋ ^ｊおよびＷ₋ ^ｊはそれぞれ、以下の（式７−１）及び（式７−２）のように、変換テーブルＪで特徴量をビン番号に変換し、そのビンに対応する学習サンプル重みを積算することによって求める。

ここで、ｊは１次元ヒストグラムのビンの番号、ｉは学習サンプルの番号を表す。また、ｙｉおよびｕｉはそれぞれ、ｉ番目の学習サンプルの分類ラベルおよび学習サンプル中の画像特徴の任意の要素値を表す。

次に、ステップＳ５０３では、識別器候補生成部１１９は、ステップＳ５０２で生成された弱識別器候補h_imageの評価スコアｚを算出する。評価スコアＺは、例えば、以下の（式８）に従って算出する。

以上説明したステップＳ５０１のループ（ステップＳ５０２及びステップＳ５０３の処理）によって、画像特徴ベクトルを識別する弱識別器候補群が生成されると共に、その評価スコアが算出される。

次に、コンテクスト特徴ベクトルを識別する弱識別器候補群の生成及びその評価スコアの算出を行うステップＳ５０４のループ（ステップＳ５０５及びＳ５０６）ついて説明する。このループにおいて複数の弱識別器候補を生成してもよいが、本実施形態では、単一の弱識別器候補を生成するため、繰り返し回数は１回のみとする。

ステップＳ５０５では、識別器候補生成部１１９は、コンテクスト特徴ベクトルを識別する弱判別器の候補群を生成する。ここで、コンテクスト特徴ベクトルから弱識別器候補を生成する処理について、より詳細に説明する。コンテクスト特徴ベクトルを識別する弱識別器候補は、同じくＲｅａｌＡｄａＢｏｏｓｔに基づき、以下の（式９）のように表わされる。

ここで、ｘは学習サンプル、ｃは学習サンプル内のコンテクスト特徴ベクトル、ｙは分類ラベルを示している。また、Ｐ（ｃ｜ｙ＝＋１）、Ｐ（ｃ｜ｙ＝−１）はそれぞれ、学習サンプルの重みで重みづけされた検出対象物体、背景のコンテクスト特徴ベクトルの確率密度分布である。Ｐ（ｙ＝＋１）、Ｐ（ｙ＝−１）はそれぞれ検出物体、背景の分類ラベルの分布である。

次に、（式９）の確率密度分布Ｐ（ｃ｜ｙ＝＋１）の計算方法について説明する。ステップＳ３０４において取得したコンテクスト特徴ベクトルは、切り出し枠の高さｈと切り出し枠下部のｙ座標との比、および高さｈの逆数、から成るベクトルであり、コンテクスト特徴ベクトルはｃ＝（ｙ／ｈ，１／ｈ）である。ここでは、これをｃ＝（ｃ_１，ｃ_２）と表記する。検出対象物体の高さがほぼ一定であり、カメラの設置高さ、水平線の画像中のｙ座標が一定と仮定すると、以下の（式１０）に示すように、ｃ_１はｃ_２の一次関数ｆ（ｃ_２：ａ，ｂ）として表せる。

ここで、ａ，ｂは一次関数の係数である。ここで、コンテクスト特徴ベクトルの観測には誤差が生じると考えられる。また、検出対象物体の高さは実際には一定ではない場合も考えられる。そこで、コンテクスト特徴ベクトルには正規分布誤差が生じていると仮定すると、（式９）中の確率分布Ｐ（ｃ｜ｙ＝＋１）は以下の（式１１）で表わされる。

（式１１）中のＮ（ｃ_１｜ｆ（ｃ_２：ａ，ｂ），σ^２）は平均ｆ（ｃ_２：ａ，ｂ）、分散σ^２の正規分布を表す。（式１１）は、コンテクスト特徴ベクトルｃ＝（ｃ_１，ｃ_２）が図８に示す直線ｆ（ｃ_２：ａ，ｂ）に近いほど検出対象物体らしいことを意味する。

（式１１）のパラメータａ、ｂ、σ^２は学習サンプルの重みおよびコンテクスト特徴ベクトルから最尤推定により求める。また、Ｐ（ｃ_２｜ｙ＝＋１）は一様分布とする。

（式９）の確率密度分布Ｐ（ｃ｜ｙ＝−１）について、背景の学習サンプルはシーン中で一様に出現すると仮定する。そのため、Ｐ（ｃ｜ｙ＝−１）は一様分布とする。

本実施形態によれば、カメラと検出対象物体の位置関係の幾何的なモデルを想定することで、雑音に頑健となり、確率密度分布の推定の正確性を高める効果が期待できる。また、幾何的なモデルを考慮しない場合に比べ、より少ない学習サンプル数で正確な確率密度分布を推定する効果が期待できる。

本実施形態では、（式１１）のＰ（ｃ_２｜ｙ＝＋１）と（式９）のＰ（ｃ｜ｙ＝−１）は一様分布した。しかし、学習サンプルの重みおよびコンテクスト特徴ベクトルを用いて、（式９）のＰ（ｃ｜ｙ＝＋１）のように何らかのモデルに当てはめて最尤推定により求めてもよい。また、学習サンプルの重みおよびコンテクスト特徴ベクトルを用いて、カーネル密度推定（ＫｅｒｎｅｌＤｅｎｓｉｔｙＥｓｔｉｍａｔｉｏｎ）や投票で求めてもよい。

次に、ステップＳ５０６では、識別器候補生成部１１９は、弱識別器候補h_contextの評価スコアｚを生成する。評価スコアｚは、例えば、以下の（式１２）に従って算出する。

ここで、ｉは学習サンプルの番号、ｗ_ｉは学習サンプルの重み、ｘ_ｉは学習サンプル、ｙ_ｉは分類ラベルを示している。ｈは弱識別器候補であり、ここではh_contextである。

以上説明したステップＳ５０４のループ（ステップＳ５０５及びステップＳ５０６の処理）によって、コンテクスト特徴ベクトルを識別する弱識別器候補群が生成されると共に、その評価スコアが算出される。

次に、画像特徴ベクトルとコンテクスト特徴ベクトルの組み合わせを識別する弱識別器候補群の生成及びその評価スコアの算出を行うステップＳ５０７のループ（ステップＳ５０８及びＳ５０９）ついて説明する。ステップＳ５０７のループでは、ステップＳ５０１のループと同様に、画像特徴ベクトル中の各次元について弱識別器候補とその評価スコアを生成する。すなわち、画像特徴ベクトルの次元数だけ弱識別器候補およびその評価スコアが生成される。

ステップＳ５０８では、識別器候補生成部１１９は、画像特徴ベクトルとコンテクスト特徴ベクトルとの組み合わせを識別する弱判別器の候補群を生成する。画像特徴ベクトルとコンテクスト特徴ベクトルの組み合わせから弱識別器候補を生成する処理について、より詳細に説明する。画像特徴ベクトルとコンテクスト特徴ベクトルを識別する弱識別器候補は、同じくＲｅａｌＡｄａＢｏｏｓｔに基づき、以下の（式１３）のように表わされる。

ここで、ｘは学習サンプル、ｙは分類ラベルを示している。弱識別器候補として（式１３）を用いてもよいが、本実施形態ではナイーブ・ベイズ法を採用して、（式１３）を（式１４）のように近似する。

ここで、ｘは学習サンプル、ｖは学習サンプル中の画像特徴ベクトル、ｃは学習サンプル中のコンテクスト特徴ベクトルである。（式１４）中の１次元ヒストグラムＷ_＋ ^ｊおよびＷ₋ ^ｊはそれぞれ、上記の（式７−１）、（式７−２）に従って計算する。また、（式１４）中のＰ（ｃ｜ｙ＝＋１）およびＰ（ｃ｜ｙ＝−１）は、上記の（式９）と同様に計算する。

次に、ステップＳ５０９では、識別器候補生成部１１９は、弱識別器候補h_jointの評価スコアｚを算出する。評価スコアｚは、例えば、上記の（式１２）に従って求める。

以上説明したステップＳ５０７のループ（ステップＳ５０８及びステップＳ５０９の処理）によって、画像特徴ベクトル及びコンテクスト特徴ベクトルの組み合わせを識別する弱識別器候補群が生成されると共に、その評価スコアが算出される。

そして識別器候補生成部１１９は、図５のフローチャートに従って生成した弱識別器候補群と、それぞれの弱識別器候補の評価スコアと、を識別器選択部１２０に対して送出する。

次に、上記の学習部１１１により学習した第二の識別部１０７を有する識別部１０１が行う処理について、同処理のフローチャートを示す図６を用いて説明する。ステップＳ６０１のループ（ステップＳ６０２〜Ｓ６０７）は、識別サンプル取得部１０２に入力された識別対象画像（検出対象画像）中のそれぞれの部分画像（ユーザが指定しても良いし、識別部１０１が指定しても良い）に対して行われる。

ステップＳ６０２では、画像取得部１０３ａは、識別対象画像中の任意の部分画像を取得するので、特徴抽出部１０４ａは、この取得した部分画像から、上記のステップＳ３０３と同様にして画像特徴ベクトルｖを抽出する。

ステップＳ６０３では、コンテクスト取得部１０５ａは、識別対象画像に添付されているコンテクスト特徴ベクトルを、上記のステップＳ３０４と同様にして取得する。

ステップＳ６０４では、第一の識別部１０６ａは、ステップＳ６０２で抽出した画像特徴ベクトルｖに対して、第一の識別部１０６ａの第一の尤度Ｈ_１（ｖ）を、上記の（式１）に従って算出する。ここで、第一の尤度Ｈ_１（ｖ）は、ステップＳ６０２で取得した部分画像の識別対象物体らしさを表す数値である。

ステップＳ６０５では第二の識別部１０７は、ステップＳ６０２で抽出した画像特徴ベクトルｖと、ステップＳ６０３で取得したコンテクスト特徴ベクトルと、を連結したベクトルｘに対し、第二の識別部１０７の第二の尤度Ｈ_２（ｖ）を算出する。ここで、第二の尤度は、ステップＳ６０２で取得した部分画像の識別対象物体らしさを表す数値である。第二の尤度Ｈ_２（ｖ）は、以下の（式１５）に示すように、第二の識別部１０７であるＨ２を構成する弱識別器ｈによる尤度の和で計算される。

なお、（式１５）において、ステップＳ５０２で生成された第二の識別部１０７（Ｈ２）を構成する弱識別器ｈの評価には、識別サンプルｘ中の画像特徴ベクトルｖのみを使用する。また、ステップＳ５０５で生成された第二の識別部１０７（Ｈ２）を構成する弱識別器ｈの評価には、識別サンプルｘ中のコンテクスト特徴ベクトルｃのみを使用する。また、ステップＳ５０８で生成された第二の識別部１０７（Ｈ２）を構成する弱識別器ｈの評価には、識別サンプルｘ中の画像特徴ベクトルｖとコンテクスト特徴ベクトルｃの両方を使用する。

ステップＳ６０６では、統合識別部１０８は、ステップＳ６０４で算出された第一の尤度Ｈ_１（ｖ）と、ステップＳ６０５で算出された第二の尤度Ｈ_２（ｘ）と、の統合尤度Ｈ（ｘ）を算出する。統合尤度Ｈ（ｘ）は、以下の（式１６）に示すように、第二の尤度Ｈ_２（ｘ）を係数λで重みづけし、第一の尤度Ｈ_１（ｖ）に加算したものとして計算される。

ここで、ｘは識別サンプルであり、画像特徴ベクトルｖとコンテクスト特徴ベクトルｃを連結したものである。また、係数λは第一の識別部１０６ａと第二の識別部１０７との強さの比を示す値であり、０から１の値をとる。λが０のときは、第一の識別部１０６ａを構成する識別器Ｈ１のみでの識別結果と同等であり、λが大きいほどシーンへの適応度合いが大きいことを示す。このため、係数λを調整することによって、過学習による検出性能低下を抑制する効果が期待できる。

ステップＳ６０７では、統合識別部１０８は、ステップＳ６０８で算出した統合尤度Ｈ（ｘ）が事前に定められた一定値より大きかった場合には、ステップＳ６０２で取得した部分画像を検出対象物体に分類する。

ステップＳ６０１のループが、識別対象画像中のそれぞれの部分画像について行われると、統合識別部１０８は、ステップＳ６０７において検出対象物体に分類した部分画像の集合を出力する。出力先や出力形態については特定の形態に限るものではないし、出力するものも、部分画像そのものを出力しても良いし、部分画像に係る情報（識別対象画像中の位置やサイズ、部分画像中の認識結果など）を出力しても良い。

本実施形態において、ステップＳ４０２で識別対象画像群の夫々の画像から第一の識別部で取得した第一の尤度に基づいて学習サンプルの重みの初期値を設定するようにした。このとき、第二の識別部は第一の識別部で識別した第一の尤度に基づき学習するため、第二の識別部は第一の識別部が識別を不得意とする識別対象画像群を効率的かつ精度よく学習する効果が見込める。

さらに、第一の識別部の第一の尤度を介して、第一の識別部と第二の識別部を同一のＢｏｏｓｔｉｎｇのフレームワークによって学習したため、第一の識別部の第一の尤度と第二の識別部の第二の尤度は加減算で結合される。よって、異なる学習サンプル群で複数種類の第二の識別部を別途学習しておき、検出部ではこれらを更新・交換することができる。これにより、検出部は異なる学習サンプル群から学習した複数のコンテクストを選択的に切り替えることができる。例えば、具体的にはカメラが三脚に固定されている場合には座標をコンテクストとして学習した第二の識別部を用い、カメラが固定されていない場合にはそれ以外のコンテクストを学習した第二の識別部を用いることができる。

さらに、ある第二の識別部が学習したコンテクストと、別の第二の識別部が学習したコンテクストが互いに独立な事象、例えば画像上の座標と時刻である場合を考える。この場合、それら第二の識別部の第二の尤度には相関がないから、それら複数の第二の識別部を併用し、それらの全ての第二の尤度を積算することもできる。これにより、ある学習サンプルのあるコンテクストと、それと異なるコンテクストとに、同時に適応することができる。

また、本実施形態において、ステップＳ４０３で画像特徴ベクトルを識別する弱識別器、コンテクスト特徴ベクトルを識別する弱識別器、画像特徴ベクトルとコンテクスト特徴ベクトルを識別する弱識別器を生成した。これら３種類の弱識別器を生成することの効果について説明する。

まず、画像特徴ベクトルを識別する弱識別器の効果を説明する。従来の画像検出技術をあるシーンで適応したときに、従来の画像検出技術、すなわち第一の識別部の検出性能があるシーンでのみ低下するという現象が起こる。この理由として、シーン特有の画像特徴が存在することが挙げられる。例えば、検出対象物体の特定の部分に隠れが発生しやすいシーンでは、隠れ部分特有の画像特徴が存在する。また、検出対象物体の姿勢や画像取得環境の変化により、識別に必要とされる画像特徴が変化する。さらに、検出処理対象画像中の検出対象物体の背景部分に特徴的な物体が映りこむ傾向が見られるシーンでは、このような物体の周辺には物体特有の画像特徴が存在する。このため、第二の識別部に画像特徴ベクトルに基づく弱識別器を新たに生成することで、シーン特有の画像特徴の追加学習が可能となり、検出率の向上が期待できる。

コンテクスト特徴ベクトルを識別する弱識別器の効果を説明する。画像特徴で検出対象物体と背景の差異を表現しきれない場合等、画像特徴のみでは識別が難しい場合がある。例えば検出対象物体の隠れが大きい場合や、検出対象物体の形状の多様性が大きい場合が挙げられる。そのため画像特徴のみで識別が難しい場合、画像特徴以外の情報に基づく識別を行う必要がある。例えば、検出物体の出現位置情報を用いれば、隠れによる影響を軽減しつつ検出対象物体であるか否かを識別することが容易になることが見込まれる。そこで、第二の識別部にコンテクスト特徴ベクトルに基づく弱識別器を新たに生成する。それによって、コンテクストに基づく識別が可能となる。これにより、上記シーンにおいて、画像特徴に依らず識別が可能になり、検出率の向上が期待できる。

画像特徴ベクトルとコンテクスト特徴ベクトルを識別する弱識別器の効果を説明する。シーンによっては、画像特徴とコンテクスト特徴の間に何らかの関連性が見られることがある。例えば、コンテクストが検出対象物体の出現位置情報であれば、検出対象物体の出現位置によって識別に有用な画像特徴が異なる場合がある。具体的な例として、近くに存在する高解像度の物体と遠くに存在する低解像度の物体では、有用な画像特徴が異なることがある。その他の例として、出現位置によって隠れの有無が生じ、検出対象物体の見えに特定の変化が生じる場合や、出現位置によって照明条件が異なり、検出対象物体や背景の陰影が異なる場合がある。そこで本実施形態では、第二の識別部に画像特徴ベクトルとコンテクスト特徴ベクトルの両方に基づく弱識別器を新たに生成した。これにより、画像特徴とコンテクスト特徴の間の関連性に基づく識別が可能になり、検出率の向上が期待できる。

以上のように、本実施形態では、画像特徴のみならず、コンテクスト情報に基づいた弱識別器を生成した。すなわち、識別器候補生成部において第一の識別部で取得した第一の尤度とコンテクスト情報に基づいて弱識別器候補を生成し、識別器選択部で好適な識別器を選択して第二の識別部を構成するようにした。これにより、コンテクスト情報を追加することができた。

［第２の実施形態］
第１の実施形態では、コンテクスト特徴ベクトルをｃ＝（ｙ／ｈ，１／ｈ）としたが、ステップＳ３０４では、時刻、日付、曜日、月、季節、その他の時間を表す数値または属性ラベルを、コンテクスト特徴ベクトルとして取得してもよい。また、天候、気温、湿度、気圧、降水量、積雪量、風向、風速、太陽の方向、日射量、霧の濃度、視程、その他の気象条件を表す数値または属性ラベルをコンテクスト特徴ベクトルとして取得してもよい。例えば、時刻をｔとした場合、コンテクスト特徴ベクトルをｃ＝（ｔ）として取得してよい。

これらのコンテクストは時間を表わすものならば時計から取得してもよく、気象条件を表わすものならばセンサから取得してもよい。また、人間が手動で与えてもネットワークを介して外部から与えてもよく、太陽の方向等の視覚的変化を生じるコンテクストならばカメラ画像から推定してもよい。

例として、コンテクスト特徴ベクトルとして時刻を用いた場合の効果を説明する。時刻に応じて撮影環境や検出対象物体の容姿が変化する場合がある。例えば、検出対象物体が人物であれば、朝と夜で照明条件の変化により陰影に違いが生じたり、人物の服装や持ち物が変化したりする。このような場合、背景や検出対象物体の画像特徴に、時刻に応じた変化が生じると考えられる。そのため、時刻に応じて画像特徴の利用方法を変化させることで、識別性能の向上が見込まれる。

コンテクスト特徴ベクトルとしてその他の時間に関する特徴や気象条件を表す特徴を用いた場合も、同様の効果が見込まれる。すなわち、背景画像や検出対象物体の画像特徴に、コンテクストに応じた変化が生じるため、コンテクストに応じて画像特徴の利用方法を変化させることで識別性能の向上が見込まれる。

また、時間や気象条件のようなコンテクストは検出対象物体の位置に依存しないため、カメラが固定されていないシーンにおいてもコンテクストを学習可能である。

画像特徴とコンテクスト特徴の関連性を捉えるために、これらの同時確率密度分布を考慮してもよい。そのため、弱識別器候補として（式１３）を採用した場合、（式１３）のＰ（ｙ＝＋１｜ｘ）、Ｐ（ｙ＝−１｜ｘ）は、学習サンプルの重みで重みづけした画像特徴とコンテクスト特徴の同時確率密度分布としてもよい。具体的には、２次元ヒストグラムＷ_＋ ^ｊｋ、Ｗ₋ ^ｊｋとして表現する。２次元ヒストグラムＷ_＋ ^ｊｋ、Ｗ₋ ^ｊｋは、以下の（式１７）に示すように、変換テーブルＪ，Ｋで特徴量をビン番号に変換し、そのビンに対応する学習サンプル重みを積算することで計算する。

ここで、ｊ、ｋはそれぞれ２次元ヒストグラムのビンの行番号、列番号を示す。また、ｉはサンプルの番号、ｕ_ｉは画像特徴ベクトル要素値、Ｊは画像特徴の値を２次元ヒストグラムのビンの行番号に変換するための変換テーブルである。また、ｔ_ｉは時刻、Ｋは時刻を２次元ヒストグラムのビンの列番号に変換するための変換テーブルである。

弱識別器候補として（式１３）の代わりに（式１４）の近似式を採用してもよい。この場合には、画像特徴とコンテクスト特徴のそれぞれに対して、学習サンプルで重みづけされた確率密度分布Ｗ_＋ ^ｊ、Ｗ₋ ^ｊ、Ｐ（ｃ｜ｙ＝＋１）、Ｐ（ｃ｜ｙ＝−１）を表す１次元ヒストグラムを作成する。弱識別器の評価スコアとしては、（式１７）のｚを用いる。

［第３の実施形態］
第１の実施形態では、コンテクスト特徴ベクトルをｃ＝（ｙ／ｈ，１／ｈ）とした。しかし、ステップＳ３０４では、画像の切り出し枠の高さｈ、幅ｗ、検出枠の特定の場所のｘ、ｙ座標の好適ないずれか、またはこれらの好適な複数の組み合わせをコンテクスト特徴ベクトルとして取得してもよい。例えば、ｃ＝（ｘ，ｙ，ｙ／ｈ）としてもよい。これらによって、検出対象物体が出現しやすい領域とそうでない領域を区別する効果が見込まれる。例えば、検出対象物体が人体あり、シーン中に壁面が存在すれば、壁面内には人体は存在せず、ｘ、ｙ座標を利用することによって、人体が存在しうる領域とそうでない領域を区別することができる。

この場合、ステップＳ５０５でコンテクスト特徴ベクトルを識別する弱識別器候補を生成するために、（式９）のＰ（ｃ｜ｙ＝＋１）、Ｐ（ｃ｜ｙ＝−１）として、コンテクスト特徴ベクトルの１つあるいは複数の要素の組の同時確率密度分布を計算してもよい。またステップＳ５０８で画像特徴ベクトルとコンテクスト特徴ベクトルを識別する弱識別器候補を生成する為に、（式１３）のＰ（ｘ｜ｙ＝＋１）、Ｐ（ｘ｜ｙ＝−１）として、画像特徴ベクトルとコンテクスト特徴ベクトルの同時確率密度分布を計算してもよい。この同時確率密度分布を計算するときには、（式１１）のように好適なモデルに当てはめて最尤推定を行ってもよく、また投票やカーネル密度推定で求めてもよい。

［第４の実施形態］
第１の実施形態では、コンテクスト特徴ベクトルをｃ＝（ｙ／ｈ，１／ｈ）とした。しかし、ステップＳ３０４では、検出対象領域を含む検出対象領域周辺の部分画像の画像特徴ベクトルをコンテクスト特徴ベクトルｃとして取得してもよい。具体的には、図９の検出対象領域９０２周辺の斜線で示す領域９０１から画像特徴ベクトルｒを抽出し、これをコンテクスト特徴ベクトルｃとする。すなわちｃ＝ｒとする。コンテクスト特徴ベクトルを取得するための画像特徴として、ＨＯＧ、ＬＢＰや画像の輝度値、第一の識別部の出力値、その他の特徴量を利用してもよい。この場合、（式９）で表わされるコンテクスト特徴ベクトルを識別する弱識別器として、（式６）で表わされる画像特徴ベクトルを識別する弱識別器と同様の形式にしてもよい。

本実施形態の効果を説明する。検出対象物体の出現頻度と背景画像間に特定の関連が見られる場合がある。例えば、足元が道路らしいテクスチャや色を持つ位置に人体が出現しやすい等である。このような場合には、検出対象領域を含む検出対象領域周辺の部分画像を学習することで、背景画像を学習することができ、検出性能の向上が期待できる。

［第５の実施形態］
第１の実施形態では、コンテクスト特徴ベクトルをｃ＝（ｙ／ｈ，１／ｈ）とした。しかし、ステップＳ３０４では、動画像の動き情報をコンテクスト特徴ベクトルとして取得してもよい。すなわち、動き情報を表す特徴ベクトルをｍとすれば、コンテクスト特徴ベクトルはｃ＝ｍとなる。動き情報として、検出対象領域のオプティカルフローを用いてもよいし、フレーム間差分画像や背景差分画像を用いてもよい。また、物体の軌跡を表す座標値を動き情報としてもよい。

コンテクスト特徴ベクトルとして、動き情報を用いる効果を説明する。検出対象物体が移動物体の場合、検出対象物体と背景では動き情報が異なると考えられる。例えば、動き情報がオプティカルフローの場合、検出対象物体と背景ではオプティカルフローの向きや強度が異なることが見込まれる。このため、動き情報は検出対象物体と背景を分離するための有用な特徴となるため、動き情報を識別する弱識別器を生成することで、識別性能の向上が見込まれる。

また、カメラモーションに頑健な動き情報を用いれば、カメラが固定されていないシーンにおいてもコンテクストを学習可能である。カメラモーションに頑健な動き情報として、検出対象領域のオプティカルフローから画像全体のオプティカルフローの平均を減算したもの等が挙げられる。

（式９）の動き情報を識別する弱識別器として、（式６）の画像特徴を識別する弱識別器ように、特徴選択によって好適な動き特徴を利用する弱識別器を生成してもよい。また、（式１３）の画像特徴と動き情報を識別する弱識別器として、画像特徴と動き特徴の共起性を考慮した弱識別器を生成してもよい。

［第６の実施形態］
第１の実施形態では、コンテクスト特徴ベクトルをｃ＝（ｙ／ｈ，１／ｈ）とした。しかし、ステップＳ３０４では、環境に設置されたセンサによって得られた数値または属性ラベルをコンテクスト特徴ベクトルとして取得してもよい。具体的には、赤外線センサ、距離センサ、温度センサ、マイクロフォン、非可視光カメラ画像、床圧力センサ、その他のセンサを用いてもよい。さらに、測距センサ、露出計、その他のカメラに内蔵されたセンサを用いてもよい。

コンテクスト特徴ベクトルとして、環境に設置されたセンサによって得られた情報を用いた場合の効果を説明する。センサ情報の変化に応じて変動する検出対象物体の出現頻度を考慮することができることが見込まれ、識別性能の向上が期待できる。例えば、エリアセンサによる検出対象物体の検知の有無によって、シーン中に検出対象物体が存在する尤度が異なることを識別に利用することができる。また、画像特徴と組み合わせることで、センサ情報の変化に応じた撮影環境や検出対象物体の容姿の変化を考慮した識別が可能となり、識別性能の向上が期待できる。例えば、温度センサから得られる温度に応じて検出対象物体の服装などの容姿が異なる場合、温度に応じて画像特徴の利用方法を変化させることが可能となり、識別性能の向上が見込まれる。

［第７の実施形態］
ステップＳ３０４では、シーンの混雑度合いをコンテクスト特徴ベクトルとして取得してもよい。混雑度合いとして、検出対象物体が人物であれば、シーン中の人物の密度の他、人物間の距離の平均値でもよく、シーンから取得した画像の画素のうち、動体に属する画素の割合でもよい。

シーンの混雑度合いは、検出対象物体の検出結果から推定してもよいし、シーン中の動体検知結果から推定してもよく、人手で指定してもよい。さらに、シーン中に設置したセンサから取得してもよい。混雑度合いはシーンから取得した画像全体で一様なものとして取得してもよいし、位置ごとに異なるものとして取得してもよい。

コンテクスト特徴ベクトルとして、シーンの混雑度合いを用いた場合の効果を説明する。画像特徴と混雑度合いの間に関連性が見られる場合がある。例えば、検出対象物体が人物であれば、人物同士で重なりあう場合と重なりあわない場合では識別に有用な画像特徴が異なる場合がある。また、背景が遮蔽されるため、識別に有用な画像特徴が変化する場合がある。このため、混雑度合いを導入することで、混雑度合いに応じて画像特徴の利用方法を変化させることが可能となり、識別性能の向上が見込まれる。

［第８の実施形態］
ステップＳ３０４では、コンテクスト特徴ベクトルとして、複数種類のコンテクストの組み合わせを取得してもよい。例えば、検出対象物体の位置情報と時刻の組み合わせが挙げられる。

ステップＳ４０３で任意の組み合わせのコンテクスト間の共起性を利用した弱識別器候補を生成してもよいし、複数種類のコンテクストごとに弱識別器候補を生成してもよく、もしくは両方とも生成してもよい。共起性を利用した弱識別器の場合、第２の実施形態のように、同時確率密度分布を基にした弱識別器を生成する。複数の種類のコンテクストを利用することで、識別するための手法が増加する他、画像特徴や各コンテクスト間の関連性を識別に利用することができ、識別性能の向上が期待できる。

［第９の実施形態］
ステップＳ３０４では、環境に設置された装置の稼働状況あるいは操作状況を示す数値または属性ラベルをコンテクスト特徴ベクトルとして取得してもよい。具体的には、自動ドアまたは手動ドアの開閉の有無、開閉時間、開閉履歴がある。その他に、パーソナルコンピュータやコピー機等のオフィス機器、工作機器、その他の装置の操作の有無や操作時間、操作履歴がある。環境に設置された装置の稼働状況あるいは操作状況を示す数値または属性ラベルは装置に取り付けられたセンサから取得してもよいし、カメラ画像から推定してもよい。

環境に設置された装置の稼働状況あるいは操作状況を示す数値または属性ラベルをコンテクスト特徴ベクトルとして用いる効果を説明する。装置の稼働状況や操作状況と、検出対象物体の出現頻度や出現場所に関連性がある場合がある。検出対象が人物であった場合を例に挙げると、自動ドアまたは手動ドアが開閉された際には、一般的にドアを通過しようとする人物がその付近に存在していると考えられる。また装置が操作された場合には、これを操作した人物が付近に存在すると考えられる。このように、装置の稼働状況や操作状況と検出対象物体の存在の尤度には関連がある。そのため、これらの関連性を学習することにより識別性能が向上すると見込まれる。弱識別器として、例えば、装置の稼働状況を示す属性ラベルと検出対象物体の位置情報の同時確率密度分布を基にしたものを生成してもよい。

［第１０の実施形態］
第１の実施形態では、第一の識別部および第二の識別部は弱識別器の集合として識別器を構成した。非特許文献３のように、ステージと呼ばれる弱識別器の集合を複数個直列に並べたｃａｓｃａｄｅ型の構成をとることで、検出処理時に一連の弱識別器の評価を途中で終了させることができ、検出処理量の削減効果があることが知られている。

そこで、第一の識別部を１ステージ目、第二の識別部を２ステージ目とするｃａｓｃａｄｅ型の構成をとってもよい。また、第一の識別部と第二の識別部の弱識別器の集合を統合した上でステージに分割し、非特許文献４に示されるようなｃａｓｃａｄｅ型の一種であるＳｏｆｔｃａｓｃａｄｅ型やＭｕｌｔｉ−ｅｘｉｔｃａｓｃａｄｅ型の構成をとってもよい。各ステージ末端の弱識別器において、ｃａｓｃａｄｅ型の識別器の枠組みに従い、弱識別器の尤度の積算値に応じて途中で計算を終了し、検出処理対象画像の部分画像を強制的に背景画像として分類する機構を設けてもよい。

［第１１の実施形態］
第一の識別部は非特許文献３のようなｃａｓｃａｄｅ型の識別器で構成されていてもよい。この場合、非特許文献３に示されるように、ステージごとに学習を行えばよい。具体的には、各ステージに対応する第二の識別部を用意し、第一の識別部内のステージごとに図３のフローチャートに従った処理を行えばよい。このようにｃａｓｃａｄｅ型の識別器で構成することで、弱識別器の評価回数を減少させることができ、検出処理量の低減効果が見込まれる。

［第１２の実施形態］
図１に示した各部は何れも電子回路などのハードウェアで構成しても良いが、ソフトウェア（コンピュータプログラム）で構成しても良い。その場合、このソフトウェアを実行可能な装置は、図１に示した構成を有する情報処理装置に適用することができる。例えば、図２に示したような構成を有する撮像装置は、図１に示した構成の情報処理装置に適用することができる。

図２において撮像素子２０１は、ＣＣＤやＭＯＳ等により構成されており、外界の光をアナログ電気信号に変換して出力する。信号処理部２０２は、このアナログ電気信号をディジタル電気信号に変換し、これを入力画像としてＲＡＭ２０５に送出する。

ＲＯＭ２０４には、本装置の設定データや起動プログラム、図１に示した各部の機能をＣＰＵ２０３に実行させるための（上記のフローチャートに従った処理をＣＰＵ２０３に実行させるための）コンピュータプログラムやデータが格納されている。また、ＲＯＭ２０４には、既知の情報として上述した各種の情報も格納されている。

ＣＰＵ２０３はＲＯＭ２０４やＲＡＭ２０５に格納されているコンピュータプログラムやデータを用いて各種の処理を実行することで、本装置全体の動作制御を行うと共に、本装置を適用した情報処理装置が行うものとして上述した各処理を実行する。ＣＰＵ２０３は、信号処理部２０２によりＲＡＭ２０５に格納された入力画像から、規定の領域（画像から識別対象物体を認識してその領域を検出しても良いし、ユーザが不図示の操作部を操作して指定しても良い）内の画像を、識別対象画像として抽出する。

ＲＡＭ２０５は、信号処理部２０２から送出された入力画像などを一時的に記憶するためのエリアや、ＣＰＵ２０３が各種の処理を実行する際に用いるワークエリアなどを有する。すなわちＲＡＭ２０５は、各種のエリアを適宜提供することができる。

ディスプレイ２０６は、液晶画面などにより構成されており、ＣＰＵ２０３による処理結果を画像や文字などでもって表示することができる。例えば、ユーザによる領域指定等の様々な指示入力のための画面や、統合識別部１０８による処理結果は、このディスプレイ２０６に表示される。また、図１に示した各部のうち一部を電子回路などのハードウェアで実現するようにしても構わない。

また、識別部１０１と学習部１１１とを別個の装置として取り扱う場合、それぞれの装置に、図２に示したような撮像装置や、上記のように上記ソフトウェアを実行可能な装置を適用しても構わない。

また、図２の構成から撮像素子２０１や信号処理部２０２を省いた残りの構成を有する装置（例えば一般のパーソナルコンピュータ）を、図２の撮像装置の代わりに適用しても構わない。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

１０４ａ：特徴抽出部１０５ａ：コンテクスト取得部１０６ａ：第一の識別部１０７：第二の識別部１０８：統合識別部

Claims

入力された画像から特徴量を取得する手段と、
前記画像に関するコンテクストを示すコンテクスト情報を取得する手段と、
前記特徴量から、前記画像が規定の物体の画像である確からしさを示す第一の尤度を求める第一の識別手段と、
前記コンテクスト情報から、前記画像が規定の物体の画像である確からしさを示す第二の尤度を求める第二の識別手段と、
前記第一の尤度と前記第二の尤度とを用いて、前記画像が規定の物体の画像であるか否かを識別する手段と
を備え、
前記第二の識別手段は、前記第一の尤度と前記コンテクスト情報とを用いて学習した識別器を有することを特徴とする情報処理装置。
前記第二の識別手段が有する識別器は、前記第一の尤度と前記コンテクスト情報とを用いて生成した識別器の候補群から選択された識別器であることを特徴とする請求項１に記載の情報処理装置。
前記第二の識別手段が有する識別器は、前記特徴量と前記コンテクスト情報とを連結したサンプルに対して前記第一の尤度に基づいて設定した重み、を更に用いて生成した識別器の候補群から選択された識別器であることを特徴とする請求項２に記載の情報処理装置。
前記コンテクスト情報は、前記画像を切り出した元画像における該画像の位置座標と大きさであることを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
入力された画像から特徴量を取得する手段と、
前記画像に関するコンテクストを示すコンテクスト情報を取得する手段と、
前記特徴量から、前記画像が規定の物体の画像である確からしさを示す第一の尤度を求める第一の識別手段と、
前記第一の尤度と、前記コンテクスト情報と、を用いて、前記第一の識別手段とは別個の識別手段を学習する学習手段と
を備えることを特徴とする情報処理装置。
前記学習手段は、
前記第一の尤度と前記コンテクスト情報とを用いて、識別器の候補群を生成する手段と、
前記識別器の候補群から１つ以上の候補を、該識別器の候補群のそれぞれについて求めた評価スコアに基づいて選択し、該選択した候補によって前記別個の識別手段を構成する手段と
を備えることを特徴とする請求項５に記載の情報処理装置。
情報処理装置が行う情報処理方法であって、
前記情報処理装置の特徴量を取得する手段が、入力された画像から特徴量を取得する工程と、
前記情報処理装置のコンテクスト情報を取得する手段が、前記画像に関するコンテクストを示すコンテクスト情報を取得する工程と、
前記情報処理装置の第一の識別手段が、前記特徴量から、前記画像が規定の物体の画像である確からしさを示す第一の尤度を求める第一の識別工程と、
前記情報処理装置の第二の識別手段が、前記コンテクスト情報から、前記画像が規定の物体の画像である確からしさを示す第二の尤度を求める第二の識別工程と、
前記情報処理装置の識別手段が、前記第一の尤度と前記第二の尤度とを用いて、前記画像が規定の物体の画像であるか否かを識別する工程と
を備え、
前記第二の識別手段は、前記第一の尤度と前記コンテクスト情報とを用いて学習した識別器を有することを特徴とする情報処理方法。
情報処理装置が行う情報処理方法であって、
前記情報処理装置の特徴量を取得する手段が、入力された画像から特徴量を取得する工程と、
前記情報処理装置のコンテクスト情報を取得する手段が、前記画像に関するコンテクストを示すコンテクスト情報を取得する工程と、
前記情報処理装置の第一の識別手段が、前記特徴量から、前記画像が規定の物体の画像である確からしさを示す第一の尤度を求める第一の識別工程と、
前記情報処理装置の学習手段が、前記第一の尤度と、前記コンテクスト情報と、を用いて、前記第一の識別手段とは別個の識別手段を学習する学習工程と
を備えることを特徴とする情報処理方法。
コンピュータを、請求項１乃至６の何れか１項に記載の情報処理装置の各手段として機能させるためのコンピュータプログラム。