JP6203077B2

JP6203077B2 - 学習装置、密度計測装置、学習方法、学習プログラム、及び密度計測システム

Info

Publication number: JP6203077B2
Application number: JP2014031847A
Authority: JP
Inventors: ヴェトクォクファン
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-02-21
Filing date: 2014-02-21
Publication date: 2017-09-27
Anticipated expiration: 2034-02-21
Also published as: US9563822B2; JP2015158712A; US20150242709A1

Description

本発明は、学習装置、密度計測装置、学習方法、学習プログラム、及び密度計測システムに関する。

入力画像に含まれる物体の密度を算出する装置が提案されている。例えば、部分画像の特徴量と、部分画像の物体密度データと、の関連性を示すランダムフォレストを学習する技術が知られている。この技術では、このランダムフォレストを用いて、入力画像の物体密度が計測される。また、入力画像に含まれる人物の一部分を検出する技術が知られている。この技術では、検出結果から、入力画像内に含まれる人物の人数が算出される。

特開２０１２−１０８７８５号公報

Ｌ．Ｆｉａｓｃｈｉ，Ｒ．Ｎａｉｒ，Ｕ．ＫｏｅｔｈｅａｎＲＦ．Ａ．Ｈａｍｐｒｅｃｈｔ，"ＬｅａｒｎｉｎｇｔｏｃｏｕｎｔｗｉｔｈａＲｅｇｒｅｓｓｉｏｎＦｏｒｅｓｔａｎＲＳｔｒｕｃｔｕｒｅＲＬａｂｅｌｓ，"Ｉｎｔ．Ｃｏｎｆ．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｐｐ．２６８５−２６８８，２０１２

しかしながら、ランダムフォレストを学習する技術では、物体密度データのデータ量が大きいため、密度計算には膨大なメモリが必要であった。また、人物の一部分を検出する技術では、入力画像に含まれる人物等の物体が小さいほど、また、入力画像に含まれる物に重なりがあるほど、検出精度が低下していた。このため、従来では、密度計算を高精度且つ低メモリで行う事が出来なかった。

本発明が解決しようとする課題は、密度計算を高精度で且つ低メモリで行うためのデータを提供する学習装置、密度計測装置、学習方法、学習プログラム、及び密度計測システムを提供することである。

実施形態の学習装置は、第１抽出部と、第１計算部と、探索部と、投票部と、学習部と、第１予測部と、を備える。第１抽出部は、学習画像から複数の第１部分画像を抽出する。第１計算部は、第１部分画像の特徴量を計算する。探索部は、第１部分画像に含まれる物体を探索し、第１部分画像における第１位置と該第１部分画像に含まれる全ての物体の各々との相対位置を表すベクトルを、ラベルとして特徴量に付与する。投票部は、複数の第１部分画像の各々について、相対位置の分布を表すヒストグラムを算出し、パラメータ空間に投票した投票ヒストグラムを生成する。学習部は、複数の第１部分画像の各々に対応する特徴量を、対応する投票ヒストグラムのばらつきが小さくなるように複数のクラスタに分割することによって、第１部分画像の特徴量と第１部分画像に含まれる物体の相対位置との関係を示す回帰モデルを学習する。第１予測部は、複数のクラスタの各々について、クラスタに属する特徴量に付与されたラベルから、代表ラベルを予測する。

学習装置の機能的構成を示すブロック図。学習画像の一例を示す図。学習画像、第１部分画像、及びラベルの説明図。ラベル及びヒストグラムの説明図。投票ヒストグラムの説明図。ランダムツリーの説明図。ランダムフォレストの説明図。代表ラベルの予測の説明図。ランダムフォレストの説明図。学習処理の手順を示すフローチャート。密度計測装置の機能的構成を示すブロック図。代表ラベルの予測の説明図。密度計測処理の手順を示すフローチャート。最近傍識別器を用いた学習の説明図。密度計測システムの説明図。学習装置、密度計測装置、及び密度計測システムのハードウェア構成のブロック図。

以下に添付図面を参照して、学習装置、密度計測装置、学習方法、学習プログラム、及び密度計測システムの一の実施形態を詳細に説明する。

（実施の形態１）
図１は、本実施の形態の学習装置１の機能的構成を示すブロック図である。学習装置１は、記憶部１６及び制御部１７を備える。記憶部１６及び制御部１７は、電気的に接続されている。

記憶部１６は、学習画像を予め記憶する。記憶部１６は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、メモリカードなどの、磁気的、光学的、及び電気的に記憶可能な記憶装置の少なくともいずれかにより実現できる。

学習画像は、学習装置１において学習する対象の画像である。学習画像は、１または複数の物体を含む。本実施の形態では、一例として、物体が人物である場合を説明する。しかし、物体は、人物に限定されない。

図２は、学習画像３０の一例を示す図である。学習画像３０は、例えば、物体の各々の中心にマークを付与した画像である。制御部１７では、このマークの部分を物体として認識し、後述する処理を実行する。なお、制御部１７が、学習画像３０における物体を検索し、物体の中心にマークを付与してもよい。本実施の形態では、学習画像３０は、物体としての人物の頭部の中心にマークを付けた画像である場合を説明する。

図１に戻り、制御部１７は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含んで構成されるコンピュータである。なお、制御部１７は、ＣＰＵ以外の回路等であってもよい。

制御部１７は、学習装置１全体を制御する。学習装置１は、第１抽出部１０、第１計算部１１、探索部１２、投票部１３、学習部１４、及び第１予測部１５を備える。

第１抽出部１０、第１計算部１１、探索部１２、投票部１３、学習部１４、及び第１予測部１５の一部または全ては、例えば、ＣＰＵなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

第１抽出部１０は、学習画像３０から複数の第１部分画像を抽出する。第１抽出部１０は、記憶部１６から学習画像３０を読取ってもよいし、外部から取得してもよい。

第１部分画像は、学習画像３０の一部の画像であり、少なくとも１つの物体を含む画像である。本実施の形態では、第１部分画像は、学習画像３０の一部を矩形状に抽出した画像である場合を説明する。なお、第１部分画像の形状は、矩形に限られず、任意の形であってよい。

図３は、学習画像３０、第１部分画像３２、ラベル３４（詳細後述）の説明図である。図３（Ａ）は、学習画像３０の一例を示す図である。図３（Ｂ）は、第１部分画像３２の一例を示す図である。

第１抽出部１０は、学習画像３０上において、抽出する対象となる矩形状の領域を移動させて、複数の第１部分画像３２を抽出する（図３（Ａ）参照）。学習画像３０から抽出される複数の第１部分画像３２は、互いに同じ大きさで且つ同じ形状である。

学習画像３０から抽出される複数の第１部分画像３２は、少なくとも一部分が互いに重なっていてもよい。第１抽出部１０が学習画像３０から抽出する第１部分画像３２の数は、２以上であればよいが、抽出する第１部分画像３２の数は大きいほど好ましい。具体的には、第１抽出部１０は、１０００以上の第１部分画像３２を学習画像３０から抽出することが好ましい。

第１抽出部１０が学習画像３０から抽出する第１部分画像３２の数が多いほど、学習装置１は、後述する密度計測装置において高精度に密度を計算可能な、回帰モデルを学習することができる。

図１に戻り、第１計算部１１は、第１抽出部１０で抽出された複数の第１部分画像３２の各々の特徴量を計算する。特徴量は、第１部分画像３２の特徴を示す値である。特徴量には、例えば、部分画像を構成する画素の画素値を離散化して一次元に並べたものや、これを、この一次元に並べた画素値における隣接画素値の差（すなわち勾配）で正規化したもの、を用いる。また、特徴量には、ＳＩＦＴ特徴（Ｄ．Ｌｏｗｅ“，Ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍｌｏｃａｌｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｓ，”Ｉｎｔ．Ｃｏｎｆ．Ｃｏｍｐ．Ｖｉｓｉｏｎ，Ｖｏｌ．２，ｐｐ．１１５０−１１５７，１９９９参照）等を用いてもよい。ＳＩＦＴ特徴は、微小な変化に頑健なヒストグラム特徴である。

探索部１２は、複数の第１部分画像３２の各々の特徴量にラベルを付与する。ラベルは、各第１部分画像３２に含まれる物体と、各第１部分画像３２における第１位置と、の相対位置を表す。具体的には、探索部１２は、まず、第１抽出部１０によって抽出された複数の第１部分画像３２の各々に含まれる物体を探索する。そして、探索部１２は、第１部分画像３２の各々について、第１部分画像３２における第１位置と、該第１部分画像３２に含まれる全ての物体の各々と、の相対位置を表すベクトルを、ラベルとして生成する。そして、探索部１２は、生成したラベルを、対応する第１部分画像３２の特徴量に付与する。

第１位置は、部分画像内における予め定められた任意の位置であればよい。本実施の形態では、第１位置は、第１部分画像３２における中心位置（第１部分画像３２の中央）であるものとして説明する。

図３（Ｃ）及び図３（Ｄ）は、ラベル３４の説明図である。例えば、探索部１２が、図３（Ｂ）に示す第１部分画像３２の各々に含まれる物体を探索する。そして、探索部１２は、第１部分画像３２の中心位置Ｐと、該第１部分画像３２に含まれる全ての物体（図３（Ｂ）及び（Ｃ）に示す例では、３つの物体）の各々と、の相対位置を示すベクトルＬ１、Ｌ２、Ｌ３を生成する（図３（Ｃ）参照）。そして、探索部１２は、これらのベクトルＬ１、Ｌ２、Ｌ３を１組とするベクトルＬを、ラベル３４として（図３（Ｄ）参照）、該第１部分画像３２の特徴量に付与する。

図１に戻り、投票部１３は、複数の第１部分画像３２の各々について、各第１部分画像３２に含まれる物体の相対位置の分布を表すヒストグラムを算出する。

図４は、ラベル３４及びヒストグラム３６の説明図である。図４に示すように、投票部１３は、ラベル３４から、ヒストグラム３６を算出する。

ヒストグラム３６は、第１部分画像３２に一様に配置したビン（ｂｉｎ）の集合である。ヒストグラム３６におけるビンの大きさは、第１部分画像３２に含まれる物体の相対位置によって定まる。例えば、第１部分画像３２における位置ｂのビンの大きさは、以下の式（１）で表される。

Ｂ（ｂ）＝ΣＮ（ｂ；ｏｊ，σ）・・・式（１）

式（１）中、Ｂ（ｂ）は、第１部分画像３２における、位置ｂのビンの大きさを示す。ｏｊは、物体の位置を示す。式（１）中、Ｎ（ｂ；ｏｊ，σ）は、位置ｂにおける（中心ｏｊ、分散σ）の正規分布の確率密度関数の値である。

図１に戻り、次に、投票部１３は、複数の第１部分画像３２ごとに算出したヒストグラム３６の各々を、パラメータ空間に投票する。これにより、投票部１３は、複数の第１部分画像３２の各々について、各第１部分画像３２に対応する投票ヒストグラムを生成する。

図５は、投票ヒストグラム４０の説明図である。ヒストグラム３６は、パラメータ空間３８に投票されることで、投票ヒストグラム４０となる。図５では、パラメータ空間を、二次元に簡略して示している。

なお、本実施の形態では、パラメータ空間は、３次元のパラメータ空間（ｘ、ｙ、ｓ）であるものとして説明する。（ｘ，ｙ）は、部分画像内の二次元位置（ｘ，ｙ）を示す。（ｓ）は、物体の大きさ（ｓ）を示す。なお、パラメータ空間として、上記パラメータ以外に、物体の姿勢、物体の向き等を加えたより多次元のパラメータ空間であってもよい。

図１に戻り、学習部１４は、第１部分画像３２の特徴量と、第１部分画像３２に含まれる物体の相対位置と、の関係を示す回帰モデルを学習する。具体的には、学習部１４は、複数の第１部分画像３２の各々に対応する、ラベル３４の付与された特徴量を、対応する投票ヒストグラムのばらつきが小さくなるように複数のクラスタに分割することによって、回帰モデルを学習する。

本実施の形態では、回帰モデルが、１または複数のランダムツリーである場合を説明する。複数のランダムツリーは、すなわち、ランダムフォレストである。本実施の形態では、クラスタは、ランダムツリーの末端のノードである葉ノードを意味する。

本実施の形態において、学習部１４が回帰モデルを学習する、とは、ランダムツリーによって示されるルートノードから子ノードを介して葉ノードに至るまでの各々のノードの分割指標と、葉ノードに属する特徴量と、を決定することを意味する。なお、この特徴量は、上述したように、ラベル３４の付与された特徴量である。

本実施の形態では、学習部１４は、投票ヒストグラム４０のばらつきが小さくなるように、ルートノードから子ノードを介して複数の葉ノードに至るまでの各ノードの分割指標と、複数の葉ノードの各々に属する特徴量と、を決定することによって回帰モデルを学習する。

なお、学習部１４は、分割指標の組合せの異なる複数の回帰モデルを学習することが好ましい。本実施の形態では、学習部１４は、各ノードの分割指標の組合せを変えることによって、予め定められた数（以下、Ｔと称する）の回帰モデルを学習する。

図６は、ランダムツリー４２の説明図である。

図６には、各ノードの横に、二次元に簡略化したパラメータ空間３８の投票ヒストグラム４０を示した。図６に示す例では、複数の第１部分画像３２の特徴量の各々に対応する投票ヒストグラム４０として、投票ヒストグラム４０Ａ〜投票ヒストグラム４０Ｆを示した。以下では、第１部分画像３２の特徴量を、特徴量ｖと称して説明する場合がある。この特徴量ｖには、上述したように、ラベルが付与されている。

まず、学習部１４は、ルートノード４２Ａである「Ｓ」に、第１計算部１１及び探索部１２で算出した、ラベルの付与された全ての特徴量ｖを割当てる。

学習部１４は、このルートノード４２Ａである「Ｓ」を２つの子ノード４２Ｂである「Ｌ」、「Ｒ」の各々に分割するときの分割指標を定める。分割指標は、特徴量ｖの要素ｖｊと、その閾値ｔｊと、により定められる。

具体的には、学習部１４は、分割先のノード（子ノード４２Ｂまたは葉ノード４２Ｃ）における投票ヒストグラムのばらつきが小さくなるように、分割元のノードの分割指標を決定する。分割指標は、特徴量ｖの要素ｖｊと、その閾値ｔｊと、によって定められる。

詳細には、学習部１４は、要素ｖｊ＜閾値ｔｊの関係を満たすラベル付き特徴量ｖを、子ノード４２Ｂである「Ｌ」に（図６のｙｅｓの場合）、要素ｖｊ＜閾値ｔｊの関係を満たさない特徴量ｖを、子ノード４２Ｂである「Ｒ」に（図６のｎｏの場合）、仮に割当てた場合の分割指標を決定する（以下、仮割当操作と称する）。

このとき、学習部１４は、投票ヒストグラム４０のばらつきが小さくなるように、特徴量ｖの分割指標を決定する。学習部１４は、例えば、下記式（２）を用いて分割指標を決定する。

Ｇ＝Σ｛Ｈ（ｌ）−ＨＬ｝^２＋Σ｛Ｈ（ｒ）―ＨＲ｝^２・・・式（２）

式（２）中、Ｈ（ｌ）は、ルートノード４２Ａである「Ｓ」から子ノード４２Ｂである「Ｌ」に分割された投票ヒストグラム４０を示す。式（２）中、Ｈ（ｒ）は、ルートノード４２Ａである「Ｓ」から子ノード４２Ｂである「Ｒ」に分割された投票ヒストグラム４０を示す。式（２）中、ＨＬは、全てのＨ（ｌ）の平均値である。ＨＲは、全てのＨ（ｒ）の平均値である。

なお、学習部１４が分割指標の決定に用いる式は、式（２）に限定されない。

学習部１４は、各ノードについて、最も投票ヒストグラム４０のばらつきの小さくなるように分割指標を決定し、ルートノード４２Ａから子ノード４２Ｂを介して葉ノード４２Ｃに至るまで、この仮割当操作を繰り返す。すなわち、学習部１４は、各ノードについて、上記式（２）におけるＧの値が最も小さくなるように、要素ｖｊと閾値ｔｊとの組合せを分割指標として決定し、各ノードに属する特徴量ｖを分割することを繰り返す。

そして、学習部１４は、終了条件を満たした時のノードを、末端の葉ノード４２Ｃとして決定する。終了条件は、例えば、第１の条件、第２の条件、及び第３の条件の少なくとも１つである。第１の条件は、ノードに含まれる特徴量ｖの数が予め定めた数よりも小さいときである。第２の条件は、ランダムツリー４２の木構造の深さが予め定めた値よりも大きいときである。第３の条件は、分割指標の値が予め定めた値より小さいときである。

この葉ノード４２Ｃの決定により、学習部１４は、葉ノード４２Ｃに属する特徴量ｖを学習する。

上述のようにして、学習部１４は、ルートノード４２Ａから子ノード４２Ｂを介して葉ノード４２Ｃに至るまでの各ノードの分割指標と、葉ノード４２Ｃに属する特徴量ｖと、を決定し、ランダムツリー４２を学習する。また、学習部１４は、分割指標の組合せを変えて上記の仮割当操作を行うことによって、予め定めた数Ｔのランダムツリー４２、を学習する。

なお、学習部１４が学習するランダムツリー４２の数Ｔは、１つであってもよいし、２以上の任意の数であってもよい。学習部１４が学習画像３０からより多くの数のランダムツリー４２を学習するほど、学習装置１は、後述する密度計測装置において高精度に密度を計算可能な、ランダムツリー４２を学習することができる。すなわち、学習部１４は、複数のランダムツリー４２である、ランダムフォレストを学習することが好ましい。

図７は、学習した複数のランダムツリー４２（すなわち、ランダムフォレスト）の説明図である。ランダムツリー４２_１〜ランダムツリー４２_Ｔの各々、は、各ノードの分割指標が異なる。このため、例えば、ルートノード４２Ａに割当てた、ラベル３４の付与された全ての特徴量ｖが同じであっても、ランダムツリー４２_１と、ランダムツリー４２_Ｔと、では、葉ノード４２Ｃに属するラベル付きの特徴量ｖが異なるものとなる場合がある。なお、図７に示す例では、葉ノード４２Ｃには、ラベル３４のみを図示しているが、実際には、各葉ノード４２Ｃには、ラベル３４の付与された特徴量ｖが属している。

図１に戻り、第１予測部１５は、学習部１４が学習時に分割したクラスタの各々について、代表ラベルを予測する。第１予測部１５は、クラスタに属する１または複数の特徴量ｖに付与されたラベル３４から、代表ラベルを予測する。

上述したように、本実施の形態では、クラスタは、ランダムツリー４２の末端のノードである葉ノード４２Ｃを意味する。このため、第１予測部１５は、葉ノード４２Ｃに属する特徴量ｖの各々に付与されたラベル３４から、各葉ノード４２Ｃの代表ラベルを予測する。

図８は、代表ラベルの予測の説明図である。図８は、１つの葉ノード４２Ｃを例にして説明している。まず、第１予測部１５は、葉ノード４２Ｃに属する全ての特徴量ｖの各々に付与されたラベル３４を読取る。図８に示す例では、第１予測部１５は、ラベル３４Ｃ、３４Ｄ、３４Ｅ、３４Ｇ、３４Ｈを読取る。次に、第１予測部１５は、これらのラベル３４Ｃ、３４Ｄ、３４Ｅ、３４Ｇ、３４Ｈの各々に対応する投票ヒストグラム４０（４０Ｃ、４０Ｄ、４０Ｅ、４０Ｇ、４０Ｈ）の平均である、平均ヒストグラム４１を算出する。

次に、第１予測部１５は、この葉ノード４２Ｃに属する複数の投票ヒストグラム４０（４０Ｃ、４０Ｄ、４０Ｅ、４０Ｇ、４０Ｈ）の内、平均ヒストグラム４１に近い投票ヒストグラム４０を選択する。なお、第１予測部１５は、葉ノード４２Ｃに属する複数の投票ヒストグラム４０（４０Ｃ、４０Ｄ、４０Ｅ、４０Ｇ、４０Ｈ）の内、平均ヒストグラム４１に、最も近い投票ヒストグラム４０を選択することが好ましい。図８に示す例では、第１予測部１５は、平均ヒストグラム４１に最も近い投票ヒストグラム４０Ｅを選択する。そして、第１予測部１５は、この投票ヒストグラム４０Ｅに対応するラベル３４であるラベル３４Ｅを、該葉ノード４２Ｃの代表ラベルとして予測する。

第１予測部１５は、学習部１４が学習した全てのランダムツリー４２における、全ての葉ノード４２Ｃについて、同様な処理を行い、各葉ノード４２Ｃの代表ラベルを予測する。

図９は、代表ラベル予測後の、ランダムツリー４２の説明図である。

図９に示すように、第１予測部１５が各葉ノード４２Ｃについて代表ラベルを予測することによって、学習部１４が学習したランダムフォレストに含まれる全てのランダムツリー４２（ランダムツリー４２_１〜４２_Ｔ）の各々について、各ランダムツリー４２の全ての葉ノード４２Ｃについて、代表ラベルが予測される。

次に、学習装置１が実行する学習処理の手順を説明する。図１０は、学習装置１が実行する学習処理の手順を示すフローチャートである。

まず、第１抽出部１０が、学習画像３０から複数の部分画像を抽出する（ステップＳ１００）。次に、第１計算部１１が、第１抽出部１０で抽出された複数の第１部分画像３２の各々の特徴量を計算する（ステップＳ１０１）。

次に、探索部１２が、ステップＳ１０１で計算された複数の第１部分画像３２の各々の特徴量に、ラベルを付与する（ステップＳ１０２）。投票部１３は、ラベル３４からヒストグラム３６を算出し、パラメータ空間３８に投票することで、投票ヒストグラム４０を生成する（ステップＳ１０３）。

次に、学習部１４が、第１部分画像３２の特徴量と、第１部分画像３２に含まれる物体の相対位置と、の関係を示す回帰モデルを学習する（ステップＳ１０４）。本実施の形態では、上述したように、回帰モデルとしてランダムツリー４２を学習する。

次に、第１予測部１５が、学習部１４が学習時に分割したクラスタ（葉ノード４２Ｃ）の各々について、代表ラベルを予測する（ステップＳ１０５）。

そして、制御部１７では、上記学習した回帰モデルとしてのランダムツリー４２、及びクラスタ（葉ノード４２Ｃ）の代表ラベルを、密度計測用の辞書データとして図示を省略するメモリに記憶する。なお、制御部１７は、密度計測用の辞書データを、後述する密度計測装置に送信してもよい。そして、本ルーチンを終了する。

次に、密度計測装置２について説明する。

密度計測装置２は、学習装置１で学習した回帰モデル、及び学習装置１で予測した代表ラベルを用いて、入力画像に含まれる物体の密度を計測する装置である。

図１１は、本実施の形態の密度計測装置２の機能的構成を示すブロック図である。密度計測装置２は、制御部２８を備える。制御部２８は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどを含んで構成されるコンピュータである。なお、制御部２８は、ＣＰＵ以外の回路等であってもよい。

制御部２８は、密度計測装置２全体を制御する。密度計測装置２は、第２抽出部２０、第２計算部２１、取得部２２、第２予測部２３、及び密度計算部２４を備える。

第２抽出部２０、第２計算部２１、取得部２２、第２予測部２３、及び密度計算部２４の一部または全ては、例えば、ＣＰＵなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣなどのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

第２抽出部２０は、入力画像から、複数の第２部分画像を抽出する。入力画像は、密度計測装置２において物体の密度計測の対象として用いる画像であり、入力画像とは異なる画像である。第２抽出部２０は、図示を省略するメモリから入力画像を取得してもよいし、外部装置から入力画像を取得してもよい。

第２部分画像は、学習画像に代えて入力画像を抽出対象の画像として用いる以外は、第１部分画像と同様である。すなわち、第２抽出部２０は、第１抽出部１０と同様にして、入力画像から第２部分画像を抽出する。

第２計算部２１は、第２抽出部２０が抽出した複数の第２部分画像の各々の特徴量を計算する。第２計算部２１は、第１計算部１１と同様にして特徴量を計算する。

取得部２２は、密度計測用の辞書データを取得する。取得部２２は、学習装置１から密度計測用の辞書データを受信することで取得してもよい。また、取得部２２は、学習装置１に設けられた図示を省略するメモリから、密度計測用の辞書データを読取ることで取得してもよい。密度計測用の辞書データは、学習装置１で学習した回帰モデルとしてのランダムツリー４２と、葉ノード４２Ｃの各々の代表ラベルと、を含む。

第２予測部２３は、取得部２２で取得したランダムツリー４２の変数に、第２部分画像から計算された特徴量を代入する。これにより、第２予測部２３は、第２部分画像の各々に対応する代表ラベルを予測する。

ここで、取得部２２で取得したランダムツリー４２が１つである場合には、第２予測部２３は、１つのランダムツリー４２を用いて、第２部分画像毎に１つの代表ラベルを予測する。一方、取得部２２で取得したランダムツリー４２が複数である場合（すなわち、ランダムフォレストである場合）には、第２予測部２３は、第２部分画像毎に、これらの複数のランダムツリー４２の各々に対応する複数の代表ラベルを求め、これらの複数の代表ラベルの内の１つを、密度計測に用いる代表ラベルとして予測する。

図１２は、第２予測部２３が行う代表ラベルの予測の説明図である。取得部２２が取得したランダムツリー４２及び代表ラベルが、図１２に示すランダムツリー４２（ランダムツリー４２_１〜４２_Ｔ）及び代表ラベルであったとする。

この場合、第２予測部２３は、第２部分画像の特徴量を、ランダムフォレストに含まれる各ランダムツリー４２（ランダムツリー４２_１〜４２_Ｔ）の各々のルートノード４２Ａに代入する。そして、第２予測部２３は、各ランダムツリー４２（ランダムツリー４２_１〜４２_Ｔ）の各々のノードに決定された分割指標に沿って、ルートノード４２Ａから子ノード４２Ｂを介して葉ノード４２Ｃに到達するまで、木構造を下る。そして、到達した葉ノード４２Ｃに属する代表ラベルを読取る。

これにより、第２予測部２３は、１つの第２部分画像の特徴量に対応する代表ラベルとして、ランダムツリー４２（ランダムツリー４２_１〜４２_Ｔ）毎に求めた複数の代表ラベルを求める。

例えば、ある第２部分画像の特徴量ｖ１をランダムツリー４２_１の変数としてルートノード４２Ａに代入したとする。そして、子ノード４２Ｂ_１〜４２Ｂ_５の内の子ノード４２Ｂ_１、４２Ｂ_３をたどって、葉ノード４２Ｃ_１〜４２Ｃ_７の内の４２Ｃ_１に到達したとする。この場合、この特徴量ｖ１の、ランダムツリー４２_１によって決定される代表ラベルはラベル３４Ｃ_１となる。

また、この特徴量ｖ１をランダムツリー４２_Ｔの変数としてルートノード４２Ａに代入したとする。そして、子ノード４２Ｂ_１〜４２Ｂ_２の内の子ノード４２Ｂ_２をたどって、葉ノード４２Ｃ_１〜４２Ｃ_４の内の４２Ｃ_３に到達したとする。この場合、この特徴量ｖ１の、ランダムツリー４２_Ｔによって決定される代表ラベルはラベル３４Ｃ_１０となる。

次に、第２予測部２３は、全てのランダムツリー４２（ランダムツリー４２_１〜４２_Ｔ）毎に求めた代表ラベルの内の１つを、密度計測に用いる代表ラベルとして予測する。第２予測部２３は、第１予測部１５と同様にして、密度計測に用いる代表ラベルを予測する。

すなわち、第２予測部２３は、全てのランダムツリー４２（ランダムツリー４２_１〜４２_Ｔ）毎に求めた代表ラベルに対応する投票ヒストグラム４０の、平均ヒストグラムを算出する。そして、第２予測部２３は、全てのランダムツリー４２（ランダムツリー４２_１〜４２_Ｔ）毎に求めた複数の代表ラベルの内、この平均ヒストグラムに最も近い投票ヒストグラム４０に対応する代表ラベルを、密度計測に用いる代表ラベルとして予測する。

図１１に戻り、密度計算部２４は、入力画像に含まれる物体の平均密度を算出する。密度計算部２４は、第２予測部２３で予測された、第２部分画像の各々に対応する代表ラベルによって示される物体の相対位置に基づいて、第２予測部２３の予測を行う。

密度計算部２４は、第３計算部２５、第４計算部２６、及び第５計算部２７を備える。なお、密度計算部２４は、学習装置１で用いた第１位置を、密度計測用の辞書データから読取ってもよい。この場合、学習装置１は、第１位置を含むように、密度計測用の辞書データを作成すればよい。

第３計算部２５は、複数の第２部分画像の各々に対応する代表ラベルによって示される、物体の相対位置に基づいて、複数の第２部分画像の各々における物体の密度分布を計算する。第３計算部２５は、学習装置１で用いた第１位置を予め記憶している。なお、この代表ラベルは、上述した、密度計測に用いる代表ラベルである。

例えば、第３計算部２５は、正規分布の確率密度関数Ｎ（）を用いて、第２部分画像における物体の密度分布Ｄｉ（ｘ）を計算する。

Ｄｉ（ｘ）＝ΣＮ（ｘ；ｌｊ，σ）・・・式（３）

式（３）中、ｘは、第２部分画像中の任意の位置を示す。式（３）中、ｌｊは、予測された物体の相対位置を示す。式（３）中、σは、分散を示す。

第４計算部２６は、入力画像における複数の第２部分画像の各々に対応する位置に、第２部分画像の密度分布を配置する。密度分布を配置する、とは、入力画像における複数の第２部分画像の各々に対応する位置に、対応する第２部分画像の密度分布を貼り付けていくことを示す。

ここで、入力画像から抽出された複数の第２部分画像は、少なくとも一部分が互いに重なっている場合がある。このため、入力画像に、入力画像から抽出した第２部分画像の密度分布を配置すると、各第２部分画像に対応する密度分布の少なくとも一部が重なった状態となる場合がある。

そこで、第５計算部２７は、入力画像における密度分布の重なり頻度に応じて、入力画像を構成する画素毎に物体の密度の第１平均値を算出する。そして、第５計算部２７は、入力画像を構成する全ての画素の第１平均値を平均した値を、入力画像に含まれる物体の平均密度として計算する。

例えば、第５計算部２７は、下記式（４）を用いて、入力画像に含まれる物体の平均密度を計算する。

Ｄ（ｘ）＝（ΣＤｉ（ｘ））／Ｃ（ｘ）・・・式（４）

式（４）中、Ｄ（ｘ）は、平均密度を示す。式（４）中、ｘは、入力画像における任意の位置を示す。式（４）中、Ｃ（ｘ）は、第２抽出部２０が抽出した複数の第２部分画像の内、位置ｘを含む第２部分画像の数を示す。

次に、密度計測装置２が実行する密度計測処理を説明する。図１３は、密度計測処理の手順を示すフローチャートである。

まず、第２抽出部２０が、入力画像から、複数の第２部分画像を抽出する（ステップＳ２００）。次に、第２計算部２１が、複数の第２部分画像の各々の特徴量を計算する（ステップＳ２０１）。

次に、取得部２２が、密度計測用の辞書データ（ランダムツリー４２、代表ラベル）を取得する（ステップＳ２０２）。第２予測部２３は、取得部２２で取得したランダムツリー４２の変数に、第２部分画像から計算された特徴量を代入する。これにより、第２予測部２３は、第２部分画像の各々に対応する代表ラベルを予測する（ステップＳ２０３）。

次に、第３計算部２５が、代表ラベルによって示される、物体の相対位置に基づいて、複数の第２部分画像の各々における物体の密度分布を計算する（ステップＳ２０４）。

次に、第４計算部２６が、入力画像における複数の第２部分画像の各々に対応する位置に、対応する第２部分画像の密度分布を配置する（ステップＳ２０５）。次に、第５計算部２７は、入力画像における密度分布の重なり頻度に応じて、入力画像に含まれる物体の平均密度を計算する（ステップＳ２０６）。そして、本ルーチンを終了する。

以上説明したように、本実施の形態の学習装置１は、探索部１２が、学習画像３０から抽出した複数の第１部分画像３２の各々に含まれる物体を探索する。また、探索部１２は、第１部分画像３２における予め定められた第１位置と第１部分画像３２に含まれる全ての物体の各々との相対位置を表すベクトルをラベルとして、第１部分画像３２の特徴量に付与する。学習部１４は、このラベルの付与された特徴量を、各ノードに割当てて各ノードの分割指標を定めることで、回帰モデルを学習する。第１予測部１５は、回帰モデルの葉ノード４２Ｃの各々について、代表ラベルを予測する。

ラベルは、物体の相対位置を示すベクトルであり、データサイズが小さい。このため、回帰モデルの構成に必要なデータ量の削減を図ることができる。すなわち、本実施の形態の回帰モデルを用いて密度計算を行うことで、密度計測装置２では、低メモリで物体の密度計算を行うことができる。

また、学習装置１は、学習画像から物体を直接検出せずに、回帰モデルを学習する。このため、本実施の形態の学習装置１は、学習画像における物体が小さくて重なる場合であっても、計測精度を落とすことなく、高精度に密度計算を行うことの可能な回帰モデルを学習することができる。

従って、本実施の形態の学習装置１は、密度計測装置２で行う密度計算を、高精度で且つ低メモリで行うためのデータ（回帰モデル）を提供することができる。

また、密度計測装置２は、学習装置１が学習した回帰モデルを用いて、入力画像に含まれる物体の密度計算を行う。また、密度計測装置２は、学習装置１で学習した回帰モデルを用いて物体の密度計算を行う。また、密度計測装置２は、入力画像から物体を直接検出せずに密度計算を行う。このため、密度計測装置２についても同様に、入力画像に含まれる物体が小さくて重なる場合であっても、密度計算の精度を落とすことなく、高精度に密度計算を行うことができる。

＜変形例１＞
上記実施の形態１では、回帰モデルとして、ランダムフォレストを用いる場合を説明した。しかし、学習装置１が学習する回帰モデルは、ランダムフォレストに限定されない。例えば、学習装置１は、回帰モデルとして、最近傍識別器を用いてもよい。

図１４は、最近傍識別器を用いた学習の説明図である。学習部１４（図１参照）は、複数の第１部分画像３２の各々に対応する、ラベル３４の付与された特徴量ｖを、対応する投票ヒストグラムのばらつきが小さくなるように複数のクラスタに分割することによって、学習モデルを学習する。

具体的には、学習部１４は、複数の第１部分画像３２の各々に対応する、全ての、ラベル３４の付与された特徴量ｖを、ｋ平均法などのベクトル量子化方法によって、ｋ個のクラスタに分割する。

詳細には、学習部１４は、任意のラベル３４に対してランダムにクラスタを割りあて、クラスタ毎の平均値を計算する。次に、学習部１４は、各ラベル３４とクラスタ毎の平均値との距離を求め、各ラベル３４を、最も近い平均値をもつクラスタに割り当て直す。この一連の処理で、全てのラベル３４のクラスタへの割り当てが変化しなかった場合は、処理を終了する。それ以外の場合は処理を繰り返す。

これにより、ラベル３４の付与された特徴量ｖは、特徴量ｖの類似した群毎に、クラスタに分割される。

第１予測部１５は、クラスタに属する特徴量ｖに付与されたラベル３４の平均値を計算する。そして、第１予測部１５は、各クラスタに属する、特徴量ｖに付与されたラベル３４の内、計算した平均値に最も近いラベル３４を、代表ラベルとして予測する。

また、密度計測装置２では、学習装置１から、最近傍識別器を回帰モデルとして取得する。この場合、第２予測部２３は、第２部分画像から計算した特徴量と、学習装置１で予測された各クラスタの代表ベクトルと、の照合を最近傍識別器によって行い、第２部分画像から計算した特徴量に最も距離の近い代表ベクトルを選択する。そして、第２予測部２３は、選択した代表ベクトルの属するクラスタに属する特徴量に付与されたラベル３４の集合から、第１予測部１５と同様にして、第２部分画像の各々に対応する代表ラベルを予測すればよい。

（実施の形態２）
次に、密度計測システムについて説明する。図１５は、密度計測システム３の説明図である。本実施の形態の密度計測システム３は、学習装置１及び密度計測装置２を備える。学習装置１と密度計測装置２は、電気的に接続されている。学習装置１及び密度計測装置２は、実施の形態１と同様である。

このように、本実施の形態の密度計測システム３は、実施の形態１で説明した学習装置１及び密度計測装置２を備える。

従って、本実施の形態の密度計測システム３は、密度計算を高精度で且つ低メモリで行うことができる。

なお、上記実施の形態では、記憶部１６が、学習装置１に設けられている場合を説明した。しかし、記憶部１６は、学習装置１に通信回線を介して接続された記憶装置として構成してもよい。

図１６は、上記実施の形態及び変形例の学習装置１、密度計測装置２、及び密度計測システム３のハードウェア構成の一例を示すブロック図である。図１６に示すように、上記実施の形態及び各変形例の学習装置１、密度計測装置２、及び密度計測システム３は、ＣＰＵ９０２と、ＲＡＭ９０６と、プログラムなどを記憶するＲＯＭ９０４と、ＨＤＤ９０８と、ＨＤＤ９０８とのインタフェースであるＩ／Ｆ９１０と、画像入力用のインタフェースであるＩ／Ｆ９１２と、バス９２２とを、備えており、通常のコンピュータを利用したハードウェア構成となっている。なおＣＰＵ９０２、ＲＯＭ９０４、ＲＡＭ９０６、Ｉ／Ｆ９１０、及びＩ／Ｆ９１２は、バス９２２を介して互いに接続されている。

上記実施の形態及び変形例の学習装置１、密度計測装置２、及び密度計測システム３では、ＣＰＵ９０２が、ＲＯＭ９０４からプログラムをＲＡＭ９０６上に読み出して実行することにより、上記各部がコンピュータ上で実現される。

なお、上記実施の形態の学習装置１及び密度計測装置２の各々で実行される上記学習処理及び密度計測処理を実行するためのプログラムは、ＨＤＤ９０８に記憶されていてもよい。また、上記実施の形態の学習装置１及び密度計測装置２の各々で実行される上記学習処理及び密度計測処理を実行するためのプログラムは、ＲＯＭ９０４に予め組み込まれて提供されていてもよい。

また、上記実施の形態の学習装置１及び密度計測装置２の各々で実行される上記学習処理及び密度計測処理を実行するためのプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、ＣＤ−Ｒ、メモリカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されるようにしてもよい。また、上記実施の形態の学習装置１及び密度計測装置２の各々で実行される上記学習処理及び密度計測処理を実行するためのプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記実施の形態の学習装置１及び密度計測装置２の各々で実行される上記学習処理及び密度計測処理を実行するためのプログラムを、インターネット等のネットワーク経由で提供または配布するようにしてもよい。

なお、上記には、本発明の実施の形態及び変形例を説明したが、これらの実施の形態及び変形例は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

例えば、上記実施の形態のフローチャートにおける各ステップを、その性質に反しない限り、実行順序を変更し、複数同時に実施し、あるいは実施毎に異なった順序で実施してもよい。

１学習装置
２密度計測装置
３密度計測システム
１０第１抽出部
１１第１計算部
１２探索部
１３投票部
１４学習部
１５第１予測部
２０第２抽出部
２１第２計算部
２２取得部
２３第２予測部
２４密度計算部
２５第３計算部
２６第４計算部
２７第５計算部

Claims

学習画像から複数の第１部分画像を抽出する第１抽出部と、
前記第１部分画像の特徴量を計算する第１計算部と、
前記第１部分画像に含まれる物体を探索し、前記第１部分画像における第１位置と該第１部分画像に含まれる全ての物体の各々との相対位置を表すベクトルを、ラベルとして前記特徴量に付与する探索部と、
複数の前記第１部分画像の各々について、前記相対位置の分布を表すヒストグラムを算出し、パラメータ空間に投票した投票ヒストグラムを生成する投票部と、
複数の前記第１部分画像の各々に対応する前記特徴量を、対応する前記投票ヒストグラムのばらつきが小さくなるように複数のクラスタに分割することによって、前記第１部分画像の特徴量と前記第１部分画像に含まれる物体の相対位置との関係を示す回帰モデルを学習する学習部と、
複数の前記クラスタの各々について、前記クラスタに属する前記特徴量に付与された前記ラベルから、代表ラベルを予測する第１予測部と、
を備えた学習装置。
前記回帰モデルは、１または複数のランダムツリーであり、
前記学習部は、前記投票ヒストグラムのばらつきが小さくなるように、ルートノードから複数の葉ノードに至るまでの各ノードの分割指標と、複数の前記葉ノードの各々に属する前記特徴量と、を決定することによって前記回帰モデルを学習し、
前記第１予測部は、
複数の前記葉ノードとしての複数の前記クラスタの各々について、前記クラスタに属する前記特徴量に付与された前記ラベルから、前記代表ラベルを予測する、
請求項１に記載の学習装置。
前記第１予測部は、
複数の前記クラスタの各々について、前記クラスタに属する複数の前記特徴量の各々に付与された前記ラベルに対応する前記投票ヒストグラムの平均ヒストグラムを算出し、
複数の前記クラスタの各々について、前記クラスタに属する複数の前記特徴量の各々に付与された前記ラベルの内、前記平均ヒストグラムに近い投票ヒストグラムに対応するラベルを前記代表ラベルとして予測する、
請求項２に記載の学習装置。
前記回帰モデルは、最近傍識別器である、請求項１に記載の学習装置。
入力画像から複数の第２部分画像を抽出する第２抽出部と、
複数の前記第２部分画像の各々の特徴量を計算する第２計算部と、
請求項１に記載の学習装置から、前記回帰モデル及び前記代表ラベルを取得する取得部と、
前記回帰モデルの変数に前記第２部分画像の前記特徴量を代入することによって、複数の前記第２部分画像の各々に対応する前記代表ラベルを予測する第２予測部と、
複数の前記第２部分画像の各々に対応する前記代表ラベルによって示される前記相対位置に基づいて、前記入力画像に含まれる物体の平均密度を算出する密度計算部と、
を備えた密度計測装置。
前記密度計算部は、
複数の前記第２部分画像の各々に対応する前記代表ラベルによって示される前記相対位置に基づいて、複数の前記第２部分画像の各々における物体の密度分布を計算する第３計算部と、
前記入力画像における複数の前記第２部分画像の各々に対応する位置に、対応する前記第２部分画像の前記密度分布を配置する第４計算部と、
前記入力画像における前記密度分布の重なり頻度に応じて、前記入力画像を構成する画素毎に物体の密度の第１平均値を算出し、前記入力画像を構成する全ての画素の前記第１平均値の平均の値を、前記入力画像に含まれる物体の平均密度として計算する第５計算部と、
を有する、
請求項５に記載の密度計測装置。
学習画像から複数の第１部分画像を抽出するステップと、
前記第１部分画像の特徴量を計算するステップと、
前記第１部分画像に含まれる物体を探索し、前記第１部分画像における第１位置と該第１部分画像に含まれる全ての物体の各々との相対位置を表すベクトルを、ラベルとして前記特徴量に付与するステップと、
複数の前記第１部分画像の各々について、前記相対位置の分布を表すヒストグラムを算出し、パラメータ空間に投票した投票ヒストグラムを生成するステップと、
複数の前記第１部分画像の各々に対応する前記特徴量を、対応する前記投票ヒストグラムのばらつきが小さくなるように複数のクラスタに分割することによって、前記第１部分画像の特徴量と前記第１部分画像に含まれる物体の相対位置との関係を示す回帰モデルを学習するステップと、
複数の前記クラスタの各々について、前記クラスタに属する前記特徴量に付与された前記ラベルから、代表ラベルを予測するステップと、
を備えた学習方法。
コンピュータに、
学習画像から複数の第１部分画像を抽出するステップと、
前記第１部分画像の特徴量を計算するステップと、
前記第１部分画像に含まれる物体を探索し、前記第１部分画像における第１位置と該第１部分画像に含まれる全ての物体の各々との相対位置を表すベクトルを、ラベルとして前記特徴量に付与するステップと、
複数の前記第１部分画像の各々について、前記相対位置の分布を表すヒストグラムを算出し、パラメータ空間に投票した投票ヒストグラムを生成するステップと、
複数の前記第１部分画像の各々に対応する前記特徴量を、対応する前記投票ヒストグラムのばらつきが小さくなるように複数のクラスタに分割することによって、前記第１部分画像の特徴量と前記第１部分画像に含まれる物体の相対位置との関係を示す回帰モデルを学習するステップと、
複数の前記クラスタの各々について、前記クラスタに属する前記特徴量に付与された前記ラベルから、代表ラベルを予測するステップと、
を実行させるための学習プログラム。
学習装置と、前記学習装置に接続された密度計測装置と、を備えた密度計測システムであって、
前記学習装置は、
学習画像から複数の第１部分画像を抽出する第１抽出部と、
前記第１部分画像の特徴量を計算する第１計算部と、
前記第１部分画像に含まれる物体を探索し、前記第１部分画像における第１位置と該第１部分画像に含まれる全ての物体の各々との相対位置を表すベクトルを、ラベルとして前記特徴量に付与する探索部と、
複数の前記第１部分画像の各々について、前記相対位置の分布を表すヒストグラムを算出し、パラメータ空間に投票した投票ヒストグラムを生成する投票部と、
複数の前記第１部分画像の各々に対応する前記特徴量を、対応する前記投票ヒストグラムのばらつきが小さくなるように複数のクラスタに分割することによって、前記第１部分画像の特徴量と前記第１部分画像に含まれる物体の相対位置との関係を示す回帰モデルを学習する学習部と、
複数の前記クラスタの各々について、前記クラスタに属する前記特徴量に付与された前記ラベルから、代表ラベルを予測する第１予測部と、
を備え、
前記密度計測装置は、
入力画像から複数の第２部分画像を抽出する第２抽出部と、
複数の前記第２部分画像の各々の特徴量を計算する第２計算部と、
請求項１に記載の学習装置から、前記回帰モデル及び前記代表ラベルを取得する取得部と、
前記回帰モデルの変数に前記第２部分画像の前記特徴量を代入することによって、複数の前記第２部分画像の各々に対応する前記代表ラベルを予測する第２予測部と、
複数の前記第２部分画像の各々に対応する前記代表ラベルによって示される前記相対位置に基づいて、前記入力画像に含まれる物体の平均密度を算出する計算部と、
を備える、密度計測システム。