JP2021064120A

JP2021064120A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2021064120A
Application number: JP2019187913A
Authority: JP
Inventors: 睦凌郭; Muling Guo; 矢野　光太郎; Kotaro Yano; 光太郎矢野; 孝嗣牧田; Takatsugu Makita
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2021-04-22

Abstract

【課題】サイズの小さい検出対象をより精度よく検出可能とする。【解決手段】本発明に係る情報処理装置は、入力画像から特徴を抽出する特徴抽出手段と、前記特徴の抽出結果に基づき、前記入力画像から検出対象の候補領域を抽出する候補領域抽出手段と、抽出された前記候補領域が示す前記検出対象の種別を、前記特徴の抽出結果に基づき識別する識別手段と、前記候補領域のサイズに基づき変倍領域を設定する変倍パラメータ設定手段と、前記入力画像の少なくとも一部を変倍する変倍手段と、を備え、前記特徴抽出手段は、前記入力画像のうち前記変倍領域に対応する部分画像が変倍された変倍画像から特徴を抽出し、前記識別手段は、前記変倍画像からの前記特徴の抽出結果に基づき、当該変倍画像が示す前記検出対象の種別を識別する。【選択図】図１

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

近年では、映像機器のインテリジェント化が進みつつある。具体的な一例として、監視カメラによる撮像結果に応じた画像に対して人体検出技術を適用することで、当該撮像画像に基づき、人数カウント、お客様意図分析、異常動作検知、及び危険領域進入検知等を可能とする技術が提案されている。また、デジタルカメラ等の撮像装置による撮像結果に応じた画像中の人物の位置を追尾することで、当該追尾の結果をフォーカスや露出の制御に利用する技術が注目されている。また、人物のみに限らず、例えば、犬、猫、花等の人物以外の物体（被写体）に注目して、撮像装置による画像の撮像に係る動作を制御可能とする技術も提案されている。

映像機器のインテリジェント化の基盤として、機械学習による物体検出技術が挙げられる。機械学習では、大量の物体と非物体との学習サンプルから、物体と非物体とを区別する特徴量が抽出されることで、認識モデルが作成される。画像中から物体が検出される際には、例えば、原画像のサイズをスケーリングすることでピラミッド画像レイヤーが生成される場合がある。生成された各ピラミッド画像レイヤーに対してラスタースキャンを施すことで部分領域を抽出し、当該部分領域の抽出結果と、認識モデルに記述した各特徴量の判別機応答と、を組み合わせることで、異なるサイズの物体を検出することも可能となる。上記認識モデルの生成に係る技術としては、例えば、サポートベクトルマシンやアダブースト学習に基づきカスケード型の検出器を生成する手法が挙げられる。例えば、非特許文献１及び２には、サポートベクトルマシン及びアダブースト学習を認識処理に応用する技術の一例が開示されている。

また、近年では、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及びＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）の性能の飛躍的な向上に伴い、ディープラーニングに関する研究が盛んになってきている。物体検出技術の分野においては、ＦａｓｔｅｒＲ−ＣＮＮ（ＦａｓｔｅｒＲｅｇｉｏｎ−ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ)が、精度と速度が共に優れており注目されている。例えば、非特許文献３には、ＦａｓｔｅｒＲ−ＣＮＮについて開示されている。

Ｃ.Ｊ.Ｃ.Ｂｕｒｇｅｓ "ＡＴｕｔｏｒｉａｌｏｎＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓｆｏｒＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ" ＤａｔａＭｉｎｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ, ｖｏｌ.２, ｐｐ.１２１−１６８（１９９８）Ｃ.Ｊ.Ｃ.Ｂｕｒｇｅｓ "ＡＴｕｔｏｒｉａｌｏｎＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓｆｏｒＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ" ＤａｔａＭｉｎｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ, ｖｏｌ.２, ｐｐ.１２１−１６８（１９９８）ＳｈａｏｑｉｎｇＲｅｎ, ＫａｉｍｉｎｇＨｅ, ＲｏｓｓＧｉｒｓｈｉｃｋ, ＪｉａｎＳｕｎ. "ＦａｓｔｅｒＲ−ＣＮＮ：ＴｏｗａｒｄｓＲｅａｌ−ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓ". ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１５０６．０１４９７, ２０１５.

上述したＦａｓｔｅｒＲ−ＣＮＮにおいては、画像の特徴を抽出する際に、多段階の畳み込みとプーリングを行うことで、画像のサイズが２の指数倍数で減少していく。これにより、画像の特徴の抽出に係る処理負荷をより低減することが可能となる。一方で、物体等の検出対象のサイズが小さい場合には、画像のサイズがより小さくなることで当該検出対象もさらに小さくなるため、当該検出対象の種別（物体クラス）の識別に係るクラス識別器の判定にずれが生じる場合がある。すなわち、このような状況下では、画像中からの所望の検出対象の検出に係る精度が低下する場合がある。

本発明は上記の問題を鑑み、サイズの小さい検出対象をより精度よく検出可能とすることを目的とする。

本発明に係る情報処理装置は、入力画像から特徴を抽出する特徴抽出手段と、前記特徴の抽出結果に基づき、前記入力画像から検出対象の候補領域を抽出する候補領域抽出手段と、抽出された前記候補領域が示す前記検出対象の種別を、前記特徴の抽出結果に基づき識別する識別手段と、前記候補領域のサイズに基づき変倍領域を設定する変倍パラメータ設定手段と、前記入力画像の少なくとも一部を変倍する変倍手段と、を備え、前記特徴抽出手段は、前記入力画像のうち前記変倍領域に対応する部分画像が変倍された変倍画像から特徴を抽出し、前記識別手段は、前記変倍画像からの前記特徴の抽出結果に基づき、当該変倍画像が示す前記検出対象の種別を識別する。

本発明によれば、サイズの小さい検出対象をより精度よく検出可能となる。

情報処理装置の機能構成の一例を示したブロック図である。情報処理装置のハードウェア構成の一例を示した図である。情報処理装置の処理の一例を示したフローチャートである。入力画像からの特徴の抽出に係る処理について説明するための図である。ＲｕＬＵ関数の一例を示した図である。情報処理装置の機能構成の一例を示したブロック図である。情報処理装置の処理の一例を示したフローチャートである。情報処理装置の機能構成の一例を示したブロック図である。情報処理装置の機能構成の一例を示したブロック図である。情報処理装置の処理の一例を示したフローチャートである。対応領域について説明するための図である。情報処理装置の機能構成の一例を示したブロック図である。情報処理装置の機能構成の一例を示したブロック図である。物体の検出に係るアーキテクチャの一例を示した図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜技術的課題＞
本開示の一実施形態に係る情報処理システムは、ディープラーニングベースの検出技術を利用して画像中に撮像された所望の検出対象（例えば、人物等）を検出する。そこで、ディープラーニングベースの検出技術の一例として、ＦａｓｔｅｒＲ−ＣＮＮについて概要を説明したうえで、当該検出技術に基づく所望の検出対象の検出に係る技術的課題について説明する。

ＦａｓｔｅｒＲ−ＣＮＮは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）と、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）と、クラス識別器と、から構成される。ＣＮＮでは、畳み込み特徴抽出層での「特徴抽出」と、プーリング層での「その特徴をまとめ上げる処理」との繰り返しによって画像の特徴の抽出が行われる。抽出された特徴画像はＲＰＮとクラス識別器とで共有される。
ＲＰＮは、ＣＮＮにおいて抽出された特徴画像に基づいて、検出対象（物体）の候補領域を抽出する。そして、クラス識別器は、特徴画像に対して、ＲＰＮで抽出された一連の候補領域それぞれについて、ＲＯＩＰｏｏｌｉｎｇ層において領域サイズの正規化を行う。正規化された特徴画像について、全結合（ＦｕｌｌＣｏｎｎｅｃｔｉｏｎ）層で重みが付けられてニューロンが生成され、Ｓｏｆｔｍａｘ関数等を適応されることで判別モデルが生成される。そして、別の全結合層で回帰推定器が構成され、上記ＲＰＮで抽出された候補領域の位置とサイズが高精度化される。
ＦａｓｔｅｒＲ−ＣＮＮは、入力画像全体について特徴画像を作成し、ＲＰＮとクラス識別器とで特徴画像を共通化するため、演算量の多いＣＮＮの計算が入力画像に対して1回のみでよく、検出速度が速い。

ディープラーニングベースのＦａｓｔｅｒＲ−ＣＮＮ検出方法では、ＣＮＮで画像の特徴を抽出する際に、多段階の畳み込みとプーリングが行われることで、特徴画像のサイズが２の指数倍数で減少していく。通常、ＲＰＮまたはクラス識別器に利用される特徴画像は、原画像に対してサイズが１／１６以下となる。そのため、例えば、４８×４８画素程度の比較的小さい物体については、特徴画像中においては３×３画素の領域に対応することとなる。
この特徴画像の領域をクラス識別器に入力して物体クラスの識別を行う場合には、例えば、当該領域のサイズが所定サイズとなるように正規化が行われる場合がある。ＦａｓｔｅｒＲ−ＣＮＮにおいて、正規化された特徴画像領域のサイズは７×７画素であるため、特徴画像をアップサンプリングすることとなり、情報損失が発生する場合がある。
このような特性から、検出対象のサイズが比較的小さい場合には、クラス識別器の判定にずれが生じる場合がある。このような状況下では、画像中からの所望の検出対象の検出に係る精度が低下する場合がある。

このような状況を鑑み、本開示では、サイズの小さい検出対象をより精度よく検出可能とする、ディープラーニングベースの検出技術を提案する。

＜第１の実施形態＞
本発明の第１の実施形態について説明する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置１００」と称する場合がある。

（機能構成）
図１を参照して、本実施形態に係る情報処理装置１００の機能構成の一例について説明する。情報処理装置１００は、制御部１０１と、解析処理部１０２とを含む。解析処理部１０２は、入力画像を解析することで当該入力画像に撮像された所望の検出対象（例えば、人物等）を検出し、検出結果を出力する。制御部１０１は、解析処理部１０２の動作を制御する。

ここで、解析処理部１０２についてさらに詳しく説明する。解析処理部１０２は、特徴抽出部１０３と、識別部１０４と、候補領域抽出部１０５と、変倍パラメータ設定部１０６と、変倍部１０７と、統合部１０８とを含む。

特徴抽出部１０３は、入力画像（例えば、撮像画像）に対して畳み込み演算とプーリング等の処理を施すことで、当該入力画像から特徴を抽出する。画像からの特徴の抽出に係る技術としては、例えば、ＡｌｅｘＮｅｔ、ＶＧＧＮｅｔ、及びＲｅｓＮｅｔ等が挙げられる。なお、特徴抽出部１０３による入力画像からの特徴の抽出に係る処理については詳細を別途後述する。
以上のようにして、特徴抽出部１０３は、入力画像の各部から抽出した特徴を、入力画像中の抽出元となる位置に対応付けることで、抽出された特徴が２次元状に配列された特徴画像（ｆｅａｔｕｒｅｍａｐｓ）を生成する。そして、特徴抽出部１０３は、生成した特徴画像を識別部１０４及び候補領域抽出部１０５に出力する。

また、特徴抽出部１０３は、入力画像の一部が抽出された部分画像が変倍された変倍画像を後述する変倍部１０７から取得し、当該変倍画像から特徴を抽出してもよい。この場合には、特徴抽出部１０３は、入力画像からの特徴の抽出時とは異なる条件に基づき、変倍画像から特徴を抽出してもよい。そして、特徴抽出部１０３は、変倍画像からの特徴の抽出結果に基づく特徴画像を生成し、当該特徴画像を識別部１０４及び候補領域抽出部１０５に出力する。

候補領域抽出部１０５は、入力画像からの特徴の抽出結果に応じた特徴画像を特徴抽出部１０３から取得し、当該特徴画像に基づき、当該入力画像から候補領域を抽出する。候補領域とは、抽出元となる画像のうち、検出対象と推測される被写体が撮像された領域を示している。例えば、人体が検出対象の場合には、抽出元となる画像からの特徴の抽出結果に基づき、当該画像のうち、人体らしい被写体が撮像された領域を抽出することとなる。
そして、候補領域抽出部１０５は、入力画像からの候補領域の抽出結果に応じた情報（例えば、検出対象の候補の位置やサイズ等）を識別部１０４及び変倍パラメータ設定部１０６に出力する。

また、候補領域抽出部１０５は、変倍画像からの特徴の抽出結果に応じた特徴画像を特徴抽出部１０３から取得し、当該特徴画像に基づき、当該変倍画像から候補領域を抽出してもよい。この場合には、候補領域抽出部１０５は、入力画像の場合と同様に、変倍画像からの候補領域の抽出結果に応じた情報を識別部１０４及び変倍パラメータ設定部１０６に出力する。

変倍パラメータ設定部１０６は、候補領域抽出部１０５から候補領域の抽出結果に応じた情報を取得し、当該情報に基づき、当該候補領域の抽出元となる画像（例えば、入力画像や変倍画像）に対して変倍領域を設定する。また、変倍パラメータ設定部１０６は、候補領域の抽出結果に応じた情報に基づき、画像のサイズの変倍に係る変倍率を設定する。なお、変倍領域及び変倍率については設定方法とあわせて詳細を別途後述する。
そして、変倍パラメータ設定部１０６は、変倍領域に関する情報（例えば、変倍領域の位置やサイズ等）と、変倍率に関する情報と、を変倍部１０７に出力する。

変倍部１０７は、変倍領域に関する情報と、変倍率に関する情報と、を変倍パラメータ設定部１０６から取得する。変倍部１０７は、上記変倍率に基づき、変倍領域が設定された画像（例えば、入力画像）のうち当該変倍領域に対応する部分画像のサイズを変倍し、サイズが変倍された部分画像（すなわち、変倍画像）に関する情報を特徴抽出部１０３に出力する。この場合には、特徴抽出部１０３は、変倍領域から特徴を抽出し、当該特徴の抽出結果を識別部１０４及び候補領域抽出部１０５に出力することとなる。

識別部１０４は、例えば、ＦａｓｔｅｒＲ−ＣＮＮにおけるクラス識別器に相当する。識別部１０４は、特徴抽出部１０３から特徴画像を取得し、候補領域抽出部１０５から当該特徴画像の生成元となる画像（例えば、入力画像や変倍画像）からの候補領域の抽出結果に応じた情報を取得する。識別部１０４は、特徴画像中の候補領域に撮像されている被写体の物体クラス（換言すると被写体の種別）を識別する。例えば、識別部１０４は、全結合（ＦｕｌｌＣｏｎｎｅｃｔｉｏｎ）層において、特徴画像中の候補領域をＲＯＩＰｏｏｌｉｎｇでサイズを正規化した特徴画像領域の各画素に重みを掛けて、物体の尤度を算出し、当該物体の尤度に基づき物体クラスを識別する。そして、識別部１０４は、特徴画像から抽出された一連の候補領域それぞれに撮像された被写体の物体クラスの識別結果に応じた情報（例えば、物体の位置、サイズ、及び尤度等）を統合部１０８に出力する。

統合部１０８は、特徴画像から抽出された一連の候補領域それぞれに撮像された被写体（物体）の物体クラスの識別結果に応じた情報を、識別部１０４から取得する。統合部１０８は、一連の候補領域それぞれについての被写体の物体クラスの識別結果を統合する。例えば、統合部１０８は、重畳していない個々の候補領域については、個々の被写体（物体）が撮像された物体領域と認識する。一方で、統合部１０８は、互いに重畳する複数の候補領域については、同じ物体クラスとして識別された複数の候補領域を１つの候補領域として統合したうえで、当該物体クラスに対応する被写体が撮像された物体領域と認識する。
そして、統合部１０８は、上記統合結果に基づく一連の物体領域の認識結果に基づき、入力画像からの検出対象となる被写体の検出結果を所定の出力先に出力する。具体的な一例として、統合部１０８は、ディスプレイ等の出力装置に被写体の上記検出結果を出力させることで、当該検出結果をユーザに提示してもよい。また、他の一例として、統合部１０８は、人数カウント、お客様意図分析、異常動作検知、及び危険領域進入検知等の解析を行う解析装置に対して、上記検出結果を出力してもよい。これにより、当該解析装置は、上記検出結果を利用して各種解析を行うことが可能となる。

（ハードウェア構成）
図２を参照して、本実施形態に係る情報処理装置１００のハードウェア構成の一例について説明する。情報処理装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、外部記憶装置２０６とを含む。
ＣＰＵ２０１は、ＲＯＭ２０２やＲＡＭ２０３に格納されているコンピュータプログラムやデータを用いて情報処理装置１００の全体を制御する。これにより、ＣＰＵ２０１は、図１に示す情報処理装置１００の各機能を実現する。なお、情報処理装置１００がＣＰＵ２０１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ２０１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、及びＤＳＰ（デジタルシグナルプロセッサ）等が挙げられる。
ＲＯＭ２０２は、情報処理装置１００の起動時に実行されるブートプログラムや各種データを格納する。ＲＡＭ２０３は、ＣＰＵ２０１が各種処理を実行するための制御プログラムを格納するとともに、ＣＰＵ２０１が各種処理を実行する際の作業領域を提供する。外部記憶装置２０６は、例えば、ハードディスク、フロッピーディスク（登録商標）、光ディスク、磁気ディスク、光磁気ディスク、及び磁気テープ等により実現され、種々のデータを記憶する。

情報処理装置１００は、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）２０８と、ビデオＩ／Ｆ２０９と、のような他の装置との間で各種情報やデータを送受信するための各種インタフェースを含んでもよい。
ＮＩＣ２０８は、情報処理装置１００の外部の装置との通信に用いられる。例えば、情報処理装置１００が外部の装置と有線で接続される場合には、通信用のケーブルがＮＩＣ２０８に接続される。情報処理装置１００が外部の装置と無線通信する機能を有する場合には、ＮＩＣ２０８はアンテナを備える。
ビデオＩ／Ｆ２０９は、他の装置との間で画像データの送受信を行うためのインタフェースである。例えば、ビデオＩ／Ｆ２０９は、同軸ケーブル等の伝送路を介して撮像装置に接続されることで、当該撮像装置による撮像結果に応じた画像データを取り込むことが可能となる。

情報処理装置１００は、キーボード２０４やマウス２０５等のようなユーザからの指示を受け付ける入力デバイスや、ディスプレイ２０７等のようなユーザへの情報の提示を行うための出力デバイスを含んでもよい。

（処理）
図３を参照して、本実施形態に係る情報処理装置１００の処理の一例について説明する。
Ｓ３０１において、情報処理装置１００は、他の装置から入力画像を取得する。具体的な一例として、図１に不図示の画像入力部が、入力画像を外部デバイスからメモリに展開し、メモリに展開された当該入力画像を情報処理装置１００に入力してもよい。

Ｓ３０２において、特徴抽出部１０３は、情報処理装置１００に入力された入力画像に対して畳み込み演算及びプーリング等の処理を施すことで、当該入力画像から特徴を抽出する。

ここで、図４を参照して、特徴抽出部１０３による入力画像からの特徴の抽出に係る処理について、ＶＧＧＮｅｔ−１６を用いて特徴を抽出する場合の一例について詳細に説明する。なお、入力画像は、２２４×２２４×３のサイズのカラー画像であるものとする。

特徴抽出部１０３は、入力画像に対して少なくとも１回以上の畳み込み演算及びプーリングを施すことで特徴画像を得る。
具体的には、特徴抽出部１０３は、第１回目の畳み込み演算を６４種類（６４チャンネル）の３×３×３のカーネルで行うことで特徴画像を得る。特徴抽出部１０３は、畳み込み演算尾後に各特徴画像の各画素について、以下に（式１）として示すＲｅＬＵ関数に基づき画素値処理を実行し、学習の収束を加速する。結果として、第１層の特徴画像のサイズは、２２４×２２４×６４となる。また、図５は、ＲｕＬＵ関数の一例を示した図である。

特徴抽出部１０３は、第１回目の畳み込み演算の後に、マックスプーリング（ｍａｘｐｏｏｌｉｎｇ）処理を実行する。ＶＧＧＮｅｔ−１６におけるマックスプーリングでは、上記第１回目の畳み込み演算後の特徴画像について、２×２のブロックのそれぞれから最大値を抽出することで、ダウンサンプリングが行われる。

特徴抽出部１０３は、第２回目の畳み込み演算を１２８種類の３×３×６４のカーネルで行い、得られる特徴画像に対してＲｅＬＵ関数に基づく画素値処理を実行する。第２回目の畳み込み演算後の第２層の特徴画像のサイズは、１１２×１１２×１２８となる。また、特徴抽出部１０３は、畳み込み演算の後に、マックスプーリング処理を実行する。

特徴抽出部１０３は、第３回目の畳み込み演算を２５６種類の３×３×１２８のカーネルで行い、得られる特徴画像に対してＲｅＬＵ関数に基づく画素値処理を実行する。第３回目の畳み込み演算後の第３層の特徴画像のサイズは、５６×５６×２５６となる。また、特徴抽出部１０３は、畳み込み演算の後に、マックスプーリング処理を実行する。

特徴抽出部１０３は、第４回目の畳み込み演算を５１２種類の３×３×２５６のカーネルで行い、得られる特徴画像に対してＲｅＬＵ関数に基づく画素値処理を実行する。第４回目の畳み込み演算後の第４層の特徴画像のサイズは、５６×５６×２５６となる。また、特徴抽出部１０３は、畳み込み演算の後に、マックスプーリング処理を実行する。

特徴抽出部１０３は、第５回目の畳み込み演算を５１２種類の３×３×５１２のカーネルで行い、得られる特徴画像に対してＲｅＬＵ関数に基づく画素値処理を実行する。第５回目の畳み込み演算後の第５層の特徴画像のサイズは、１４×１４×５１２となる。これにより、ＣＮＮによる特徴抽出の結果である第５層の特徴画像は、入力画像のサイズより１６倍小さくなる。
ＦａｓｔｅｒＲ−ＣＮＮにおいて、上記第５層の特徴画像は、特徴抽出部１０３と、後段に位置する識別部１０４及び候補領域抽出部１０５と、の間で共有される。

ここで、改めて図３を参照する。Ｓ３０３において、候補領域抽出部１０５は、上記第５層の特徴画像に基づき候補領域を抽出する。
ＦａｓｔｅｒＲ−ＣＮＮにおいて、候補領域抽出部１０５はＲＰＮに相当する。ＲＰＮは、上記第５層の特徴画像について、３×３のスライディングウィンドウで走査を行う。各スライディングウィンドウについて、５１２次元の特徴ベクトルが作成され、３スケールと３アスペクト比との組み合わせに基づく９種類のアンカーが設定される。各アンカーについて、上記特徴ベクトルに基づき候補領域であるか否かの判別が行われ、候補領域のサイズの回帰推定が行われる。ＲＰＮにおいて、異なるサイズの物体（被写体）の候補領域の抽出を行うために、入力画像における１２８、２５６、及び５１２画素の３スケールのアンカーが用意される。また、バス、飛行機、人体、顔、犬、猫等の異なる種類の物体の候補領域を抽出するために、3アスペクト比のアンカーが設定されている。これにより、候補領域抽出部１０５は、サイズ及び種類の異なる物体の候補領域を抽出することが可能となる。

Ｓ３０４において、変倍パラメータ設定部１０６は、Ｓ３０３において抽出された物体の候補領域のサイズに基づきグルーピングを行う。変倍パラメータ設定部１０６は、類似するサイズの候補領域（換言すると、サイズの差が閾値以下の候補領域）を集めることで変倍領域を設定する。

本実施形態では、ミーンシフト法を上記グルーピングの方法として利用する。ミーンシフト法は、それぞれの物体の候補領域について、以下に（式２）として示すような他の物体の候補領域との距離を求める。

上記（式２）において、ｗ₀及びｈ₀は、注目している物体の候補領域の幅及び高さである。これに対して、ｗ_i及びｈ_iは、他の候補領域の幅及び高さである。変倍パラメータ設定部１０６は、距離の閾値Ｒに基づき、注目している物体の候補領域との距離ｄ_iが閾値Ｒより小さい一連の候補領域を集めて、平均幅ｗ₀ ^-と平均高さｈ₀ ^-とを求める。なお、「ｗ₀ ^-」は、ｗ₀に対してバーを付したものとする。同様に、「ｈ₀ ^-」は、ｈ₀に対してバーを付したものとする。
変倍パラメータ設定部１０６は、平均幅ｗ₀ ^-と平均高さｈ₀ ^-とに基づき仮の物体候補領域を規定したうえで、距離ｄ_iが閾値Ｒ以下の一連の候補領域を集めて、平均幅ｗ₀ ^-と平均高さｈ₀ ^-とを更新する。変倍パラメータ設定部１０６は、以上の処理を、平均幅ｗ₀ ^-と平均高さｈ₀ ^-との更新が困難となるまで繰り返し実行する。

このように、変倍パラメータ設定部１０６は、抽出された一連の物体の候補領域について、それぞれの平均幅ｗ₀ ^-と平均高さｈ₀ ^-とを繰り返し更新し、最終的に仮の物体領域との距離が閾値以下の候補領域を１つの纏まりとする。１つの纏まりに含まれる一連の物体の候補領域は類似した幅と高さとを有しており、変倍パラメータ設定部１０６は、これらの物体の候補領域を含む１つの変倍領域を設定する。

実際には、ＣＰＵやＧＰＵのメモリが有限でありことを鑑みると、上記変倍領域は当該メモリの容量に応じたサイズ以下となることが望ましいため、物体の候補領域間の距離は、サイズ要素に加えて位置要素を考慮した方が望ましい場合がある。このような状況を鑑み、物体の候補領域間の距離は、以下に（式３）として示す関係式により定義されてもよい。

上記（式３）において、ｘ₀及びｙ₀は、注目している物体の公報領域の中心座標である。これに対して、ｘ_i及びｙ_iは、他の候補領域の中心座標である。また、ａ及びｂは重みである。変倍パラメータ設定部１０６は、上記（式３）に基づき変倍領域を設定することで、変倍領域が所定サイズ以上となる場合に、当該変倍領域を所定サイズに分割する。

そして、変倍パラメータ設定部１０６は、注目している変倍領域に含まれる一連の物体の候補領域が所定のサイズ範囲に収まるように変倍率を決定する。例えば、変倍率ｓｃａｌｅは、以下に（式４）として示す関係式に基づき決定される。

上記（式４）において、ｗ₁及びｈ₁は、物体の候補領域の最小幅及び最小高さを示している。また、ｗ₂及びｈ₂は、物体の候補領域の最大幅及び最大高さを示している。これに対して、ｗ_min及びｈ_minは、変倍された領域の最小幅及び最小高さを示している。また、ｗ_max及びｈ_maxは、変倍された領域の最大幅及び最大高さを示している。

Ｓ３０５において、制御部１０１は、Ｓ３０６〜Ｓ３１２の一連の処理が、設定された一連の変倍領域それぞれについて繰り返し実行されるように制御する。

Ｓ３０７において、特徴抽出部１０３は、Ｓ３０２と同様に、Ｓ３０６で変倍された変倍領域について、畳み込み演算、ＲｅＬＵ演算、及びマックスプーリングを行い、特徴画像を求める。ただし、Ｓ３０７の処理は、物体の検出を目的とした特徴抽出となるため、特徴抽出に係る条件（パラメータ）として、Ｓ３０２の処理とは異なる条件（パラメータ）が適用されてもよい。

Ｓ３０８において、候補領域抽出部１０５は、Ｓ３０３と同様に、Ｓ３０６で変倍された変倍領域から物体の候補領域を抽出する。ただし、Ｓ３０８の処理は、物体の検出を目的とした候補領域の抽出となるため、物体の候補領域の抽出に係る条件（パラメータ）として、Ｓ３０３の処理とは異なる条件（パラメータ）が適用されてもよい。

Ｓ３０９において、制御部１０１は、Ｓ３１０及びＳ３１１の処理が、抽出された一連の候補領域それぞれについて繰り返し実行されるように制御する。

Ｓ３１０において、識別部１０４は、抽出された物体の候補領域に対応する特徴画像中の領域（特徴画像領域）を、特徴画像から抽出して所定サイズに正規化する。
例えば、入力画像にある４８×４８の顔領域が、候補領域抽出部１０５において３×３の候補領域として抽出された場合には、識別部１０４は、この候補領域に対応する３×３の特徴画像領域を７×７に正規化する。この処理は、ＦａｓｔｅｒＲ−ＣＮＮにおけるＲＯＩＰｏｏｌｉｎｇに相当する。
ＲＯＩＰｏｏｌｉｎｇが行われる際に、特殊なアップサンプリングが行われるため、情報損失が生じることで小さい物体の検出率が低下し、結果として誤検出が増加する場合がある。本発明では、上記した正規化処理時の情報損失を抑えるために、候補領域抽出部１０５により抽出された物体の候補領域を、所定サイズに変倍したうえで、正規化処理を行う際にダウンサンプリングを行う。

Ｓ３１１において、識別部１０４は、全結合層において、ＲＯＩＰｏｏｌｉｎｇでサイズを正規化した特徴画像領域の各画素に重みを掛けて、物体の尤度を算出し、当該物体の尤度に基づき物体クラス（換言すると、被写体の種別）を識別する。
例えば、識別部１０４は、正規化した特徴画像領域に対して物体クラスの識別を行う際に、特徴抽出部１０３や候補領域抽出部１０５が利用する学習結果とは異なる学習結果に基づく重みを適用してもよい。具体的な一例として、識別部１０４は、特徴抽出部１０３や候補領域抽出部１０５とは、別の学習画像、別のＡｕｇｍｅｎｔａｔｉｏｎ方法で水増しした学習画像、別のｌｏｓｓ関数、別のＨｙｐｅｒＰａｒａｍｅｔｅｒ等での学習に基づく重みを利用してもよい。

本発明は、物体の候補領域を所定のサイズ範囲に変倍するため、識別部１０４で識別される物体のサイズは所定の範囲に限定されており、識別部１０４による物体クラスの識別に係る精度を向上させることが可能となる。
また、別の全結合層において、ＲＯＩＰｏｏｌｉｎｇによりサイズが正規化された特徴画像領域の各画素に重みを掛けることで、物体の位置及びサイズを回帰推定して高精度化することも可能となる。

Ｓ３１２は、Ｓ３０９と対応したループ端である。また、Ｓ３１３は、Ｓ３０５と対応したループ端である。

Ｓ３１４において、統合部１０８は、一連の変倍領域について、物体と判定した候補領域の位置とサイズとを入力画像にマッピングする。統合部１０８は、重畳していない個々の候補領域については、個々の被写体（物体）が撮像された物体領域と認識する。一方で、統合部１０８は、互いに重畳する複数の候補領域については、同じ物体クラスとして識別された複数の候補領域を１つの候補領域として統合したうえで、当該物体クラスに対応する被写体が撮像された物体領域と認識する。そして、統合部１０８は、上記統合結果に基づく一連の物体領域の認識結果に基づき、入力画像からの検出対象となる被写体の検出結果を所定の出力先に出力する。

本実施形態では、Ｓ３０３において候補領域が抽出される際に、抽出された候補領域に関する情報が変倍パラメータ設定部１０６に直接入力され、変倍領域と変倍率とが設定される。Ｓ３０３において候補領域が抽出された後に、ＮＭＳ（ＮｏｎＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）手法を用いることで、候補領域の数を減らしてから、変倍領域と変倍率とが設定されてもよい。

本実施形態では、Ｓ３０４において変倍領域が設定される際に、ミーシフト法を利用しているが、ミーンシフト法の利用に替えて、Ｓ１０３で抽出された候補領域のそれぞれについて変倍領域が設定されたうえで当該変倍領域が変倍されてもよい。
また、Ｓ１０４において変倍領域が設定される際に、変倍された物体の候補領域の幅と高さとに基づいて、グルーピングのサイズ範囲が決定され、同じグルーピング範囲に属する物体の候補領域が集められることで変倍領域が設定されてもよい。

具体的な一例として、物体の候補領域について最小幅ｗ_min、最小高さｈ_min、最大幅ｗ_max、最大高さｈ_minとする。また、変倍された物体の候補領域について、最小幅Ｗ_min、最小高さＨ_min、最大幅Ｗ_max、最大高さＨ_minとする。そのうえで、パラメータＳ、ａ、及びｂを以下のように設定する。

この場合には、グルーピングのサイズの範囲ｗは、例えば以下のように設定される。

物体の候補領域の幅が同じグルーピングサイズの範囲に属する候補領域を集めて、変倍領域が設定されるとよい。これにより、各変倍領域内の一連の物体の候補領域を同じ倍率で所定の範囲に変倍することが可能となる。

まだ、Ｓ３０４において、変倍パラメータ設定部１０６は、変倍領域を設定する際に、位置またはサイズが類似した物体の候補領域を同じグループに集めているが、種類の異なる物体を異なるグループに集めてもよい。

また、Ｓ３０５からＳ３１３において、一連の変倍領域について、物体候補領域が所定サイズの範囲に変倍されてから判別が行われているが、処理速度の面を考慮する場合には、拡大を行う変倍領域のみについて変倍を行うように、制御部１０１に制御させてもよい。

また、Ｓ３０６において、変倍部１０７は、変倍領域を変倍する際に、従来の内挿補間方法を利用しているが、他の一例として、超解像手法、特にニューラルネットワークを利用した超解像手法により変倍を行ってもよい。

また、Ｓ３１１において、全結合層でクラス識別器を構成しているが、ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎＮｅｔｗｏｒｋでクラス識別器を構成することも可能である。

また、識別部１０４は、１つの種類の物体を識別するクラス識別器と、複数の種類の物体を識別するクラス識別器と、のいずれを利用してもよい。

また、上記では、本実施形態に係る情報処理装置１００の処理の本質をわかりやすいように説明を行っているが、実装上の観点や性能向上の観点から一部の処理手順等を適宜変更することで最適化が図られてもよい。

＜第２の実施形態＞
本発明の第２の実施形態について説明する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置６００」と称する場合がある。また、以降では、主に図１に示す情報処理装置１００と異なる部分に着目して説明し、情報処理装置１００と実質的に同様の部分については、詳細な説明は省略する。

（機能構成）
図６を参照して、本実施形態に係る情報処理装置６００の機能構成の一例について説明する。情報処理装置６００は、制御部６０１と、解析処理部６０２とを含む。制御部６０１は、図１に示す制御部１０１に相当する。解析処理部６０２は、第１特徴抽出部６０３と、第１候補領域抽出部６０４と、変倍パラメータ設定部６０５と、変倍部６０６と、第２特徴抽出部６０７と、第２候補領域抽出部６０８と、識別部６０９と、統合部６１０とを含む。変倍パラメータ設定部６０５、変倍部６０６、識別部６０９、及び統合部６１０は、図１に示す変倍パラメータ設定部１０６、変倍部１０７、識別部１０４、及び統合部１０８に相当する。

図６に示すように、本実施形態に係る情報処理装置６００は、変倍パラメータの設定と、物体の検出と、で特徴抽出部と候補領域抽出部とが異なる物体の種類に対応可能となるように分離されている。すなわち、情報処理装置６００は、変倍パラメータ設定用の第１特徴抽出部６０３及び第１候補領域抽出部６０４と、物体検出用の第２特徴抽出部６０７及び第２候補領域抽出部６０８と、が個別に設けられている点で、図１に示す情報処理装置１００と異なる。
具体的な一例として、変倍パラメータ設定用の第１特徴抽出部６０３及び第１候補領域抽出部６０４が人体の候補領域の抽出を行い、物体検出用の第２特徴抽出部６０７及び第２候補領域抽出部６０８が顔の候補領域の抽出を行ってもよい。これにより、例えば、第１特徴抽出部６０３及び第１候補領域抽出部６０４は、検出対象となる物体（被写体）とそのコンテキストを含む大きめの領域の特徴を学習することで、小さい物体をより容易に探索することが可能となる。これに対して、第２特徴抽出部６０７及び第２候補領域抽出部６０８は、サイズが所定の範囲にある物体を特定することで、検出対象となる物体（被写体）をより高精度に検出することが可能となる。

（処理）
図７を参照して、情報処理装置６００の処理の一例について説明する。
図７に示す処理は、第１候補領域抽出部６０４と第２候補領域抽出部６０８とが異なる種類の物体の候補領域を抽出対象とする場合に、Ｓ７０４において、変倍部６０６が２つの方法で変倍率を決定することが可能である点が、図３に示す処理と異なる。
１つ目の方法では、変倍部６０６は、第１候補領域抽出部６０４が抽出したコンテキストを含む物体の候補領域が所定のサイズ範囲に収まるように決定する。２つ目の方法では、変倍部６０６は、第１候補領域抽出部６０４が抽出したコンテキストを含む物体の候補領域から、第２候補領域抽出部６０８が抽出対象とする物体について候補領域を予測する。そのうえで、変倍部６０６は、予測した物体の候補領域が所定のサイズ範囲に収まるように変倍率を決定する。なお、変倍率の決定方法は第１の実施形態と同様である。

なお、上記の点を除けば、Ｓ７０２及びＳ７０３と、Ｓ７０７及びＳ７０８と、で処理の主体と、特徴の抽出や候補領域の抽出の対象とする物体と、が異なる点以外については、図３に示す処理と実質的に同様であり、詳細な説明については省略する。
具体的には、Ｓ７０１〜Ｓ７０４の処理は、図３に示すＳ３０１〜Ｓ３０４の処理に対応している。また、Ｓ７０５〜Ｓ７１４の処理は、図３に示すＳ３０５〜Ｓ３１４の処理に対応している。Ｓ７０１〜Ｓ７０４の処理は、変倍パラメータ設定用の第１特徴抽出部６０３及び第１候補領域抽出部６０４と、変倍部６０６と、により実行される。これに対して、Ｓ７０５〜Ｓ７１４の処理は、物体検出用の第２特徴抽出部６０７及び第２候補領域抽出部６０８と、識別部６０９と、統合部６１０と、により実行される。

（変形例）
以下に、本実施形態に係る情報処理装置の変形例について説明する。
本実施形態では、第１候補領域抽出部６０４は入力画像に対して畳み込み特徴抽出を施すため、当該畳み込み特徴抽出の演算量がより大きくなる場合がある。一方で、第１候補領域抽出部６０４は、検出対象となる物体（被写体）とそのコンテキストを含めた画像領域を候補領域として抽出する。そのため、第１候補領域抽出部６０４は、検出対象となる物体のサイズが比較的小さい場合においても、コンテキストに基づき当該物体の候補領域を容易に抽出できる。このような特性を利用することで、本実施形態に係る情報処理装置６００は、画像中からの物体の検出に係る処理をより高速化することも可能である。

例えば、図８は、本実施形態の変形例に係る情報処理装置の機能構成の一例を示しており、図６に示す機能構成をベースに、物体の検出に係る処理がより高速化されるように一部を変更した場合の一例について示している。なお、図８に示す情報処理装置を、図６に示す情報処理装置と区別するために、便宜上「情報処理装置８００」と称する場合がある。

情報処理装置８００は、制御部８０１と、解析処理部８０２とを含む。制御部８０１及び解析処理部８０２は、図６に示す制御部６０１及び解析処理部６０２に対応している。図８と図６とを比較するとわかるように、情報処理装置８００は、解析処理部８０２が画像縮小部８１１を含む点で、図６に示す情報処理装置６００と異なる。なお、解析処理部８０２における画像縮小部８１１以外の他の機能構成については、図６において同様の符号が付された機能構成と実質的に同様である。

すなわち、本変形例では、第１特徴抽出部６０３及び第１候補領域抽出部６０４は、入力画像が縮小された縮小画像に対して特徴の抽出と物体の候補領域の抽出とを行うこととなる。なお、第１候補領域抽出部６０４は、縮小画像から物体の候補領域を抽出する際には、当該抽出に係るアンカーのサイズについても、縮小画像のサイズ（換言すると、入力画像の縮小に係る縮小率）に応じて制御する。また、変倍パラメータ設定部６０５は、抽出された上記候補領域の入力画像における位置及びサイズに基づき、変倍領域及び変倍率を設定する。そして、変倍部６０６は、入力画像中の変倍領域に対応する部分画像を変倍率に基づき変倍し、変倍された部分画像（変倍画像）を第２特徴抽出部６０７に出力する。なお、以降の処理については、図６に示す例と同様である。

このように、図８に示す例では、第１特徴抽出部６０３及び第１候補領域抽出部６０４が、画像縮小部８１１により縮小された入力画像を処理の対象とすることとなる。そのため、第１特徴抽出部６０３及び第１候補領域抽出部６０４の処理の演算量を低減することが可能となるため、情報処理装置８００による画像中からの物体の検出に係る処理をより高速化することが可能となる。

＜第３の実施形態＞
本発明の第３の実施形態について説明する。前述した第２の実施形態では第１特徴抽出部６０３尾及び第１候補領域抽出部６０４は、検出対象となる物体（被写体）とそのコンテキストを含む候補領域を抽出することで、サイズの比較的小さい物体についても検出を可能としている。本実施形態では、この第２の実施形態の特性を利用することで、物体の検出に係る処理をより高速化する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置９００」と称する場合がある。また、以降では、主に図６に示す情報処理装置６００と異なる部分に着目して説明し、情報処理装置６００と実質的に同様の部分については、詳細な説明は省略する。

（機能構成）
図９を参照して、本実施形態に係る情報処理装置９００の機能構成の一例について説明する。情報処理装置９００は、制御部９０１と、解析処理部９０２とを含む。制御部９０１は、図６に示す制御部６０１に相当する。解析処理部９０２は、画像変倍部９１１と、第１特徴抽出部９０３と、第１候補領域抽出部９０４と、変倍パラメータ設定部９０５と、第２特徴抽出部９０７と、第２候補領域抽出部９０８と、識別部９０９と、統合部９１０とを含む。
第１特徴抽出部９０３、第１候補領域抽出部９０４、第２特徴抽出部９０７、及び第２候補領域抽出部９０８は、図６に示す第１特徴抽出部６０３、第１候補領域抽出部６０４、第２特徴抽出部６０７、及び第２候補領域抽出部６０８に対応している。また、変倍パラメータ設定部９０５、識別部９０９、及び統合部９１０は、図６に示す変倍パラメータ設定部６０５、識別部６０９、及び統合部６１０に対応している。
また、図９を図６と比較するとわかるように、情報処理装置９００は、図６に示す変倍部６０６に替えて画像変倍部９１１を備えている点で、情報処理装置６００と異なる。

画像変倍部９１１は、入力画像を所望の倍率で逐次縮小することで、入力画像と、当該入力画像が互いに異なる複数の縮小率それぞれで縮小された複数の縮小画像と、を含む画像ピラミッドを生成する。具体的な一例として、画像変倍部９１１は、入力画像が２の倍数で逐次縮小されるように複数の縮小画像を生成してもよい。

第１特徴抽出部９０３は、生成された画像ピラミッドに含まれる縮小画像のうち少なくとも一部の縮小画像から特徴を抽出する。具体的には、第１特徴抽出部９０３は、生成された画像ピラミッドに含まれる縮小画像それぞれに対して畳み込み演算と、ＲｅＬＵ関数に基づく画素値処理と、プーリングとを施すことで、特徴の抽出を行う。このように、縮小画像から特徴が行われることで、入力画像から特徴が抽出される場合に比べて、当該特徴の抽出に係る演算量を低減することが可能となる。特に、最もサイズの小さい縮小画像を対象として特徴が抽出される場合には、入力画像から特徴を抽出する場合に比べて、当該特徴の抽出に係る演算量を大幅に低減することが可能となる。

第１候補領域抽出部９０４は、画像ピラミッドに含まれる縮小画像に対して、第１の実施形態と同様にスライディングウィンドウの走査を行い、複数のアンカーから、物体とそのコンテキストを含む候補領域を抽出する。この際に、第１候補領域抽出部９０４は、スライディングウィンドウの走査に利用するアンカーのサイズを、縮小画像のサイズ（換言すると、入力画像の縮小に係る縮小率）に応じて制御する。なお、第２の実施形態の変形例と同様に、第１候補領域抽出部９０４は、検出対象となる物体（被写体）とそのコンテキストを含めた画像領域を候補領域として抽出する。そのため、第１候補領域抽出部９０４は、検出対象となる物体のサイズが比較的小さい場合においても、コンテキストに基づき当該物体の候補領域を容易に抽出できる。

変倍パラメータ設定部９０５は、画像ピラミッドの各階層（換言すると、画像ピラミッドに含まれる各画像）からの物体の候補領域の抽出結果に基づき、各候補領域の位置及びサイズを特定する。変倍パラメータ設定部９０５は、画像ピラミッドに対して入力画像を所定の拡大率で拡大した拡大画像を含め、当該画像ピラミッドに含まれる画像に対して変倍領域を設定する。これにより、検出対象として設定されている物体のサイズよりも大きいサイズの物体を検出することも可能となる。
具体的な一例として、２０×２０画素から５４０×５４０画素までの物体が検出対象として設定されている状況下で、ＦｕｌｌＨＤの入力画像に８００×８００画素の物体が撮像されている場合には、当該物体が検出対象から外れる場合がある。このような場合においても、ＦｕｌｌＨＤの入力画像の画像ピラミッドを生成し、画像ピラミッドに含まれる各画像に対して検出器を適用することで、より大きい物体を検出することが可能となる。
なお、上記変倍領域の設定に係る処理については、一連の処理の説明とあわさえて詳細を別途後述する。

第２候補領域抽出部９０８は、画像ピラミッドの各階層（換言すると、画像ピラミッドに含まれる各画像）のうち、変倍領域が設定された階層から、当該変倍領域を読み出す。第２候補領域抽出部９０８は、読み出した変倍領域を対象として特徴の抽出を行う。この際に、第２候補領域抽出部９０８は、第１候補領域抽出部９０４とは異なる条件に基づき、特徴の抽出を行ってもよい。具体的な一例として、第２候補領域抽出部９０８は、第１候補領域抽出部９０４とは異なる種類の物体（被写体）を対象として特徴の抽出を行ってもよい。

なお、その他の機能構成については、第２の実施形態に係る情報処理装置６００と実質的に同様のため詳細な説明は省略する。

（処理）
図１０を参照して、本実施形態に係る情報処理装置９００の処理の一例について説明する。
Ｓ１００１において、情報処理装置９００は、他の装置から入力画像を取得する。具体的な一例として、図１に不図示の画像入力部が、入力画像を外部デバイスからメモリに展開し、メモリに展開された当該入力画像を情報処理装置９００に入力してもよい。

Ｓ１００２において、画像変倍部９１１は、入力画像を所定の縮小率で逐次縮小することで縮小率の複数の縮小画像を生成する。なお、本実施形態では、画像変倍部９１１は、入力画像が２の倍数で逐次縮小されるように複数の縮小画像を生成するものとする。そして、画像変倍部９１１は、入力画像と、生成した複数の縮小画像と、を含む画像ピラミッドを生成する。上記のように、２の倍数で画像を縮小することで、演算量の思い内挿補間処理を回避し、２×２の画像ブロックを平均すれば、入力画像の画像ピラミッドを生成することが可能である。

Ｓ１００３において第１特徴抽出部９０３は、生成された画像ピラミッドに含まれる縮小画像のうち少なくとも一部の縮小画像から特徴を抽出する。

Ｓ１００４において、第１候補領域抽出部９０４は、画像ピラミッドに含まれる縮小画像に対して、第１の実施形態と同様にスライディングウィンドウの走査を行い、複数のアンカーから、物体とそのコンテキストを含む候補領域を抽出する。

Ｓ１００５において、変倍パラメータ設定部９０５は、画像ピラミッドの各階層からの物体の候補領域の抽出結果に基づき、各候補領域の位置及びサイズを特定する。変倍パラメータ設定部９０５は、画像ピラミッドに対して入力画像を所定の拡大率で拡大した拡大画像を含め、当該画像ピラミッドに含まれる画像に対して対応領域を設定する。
具体的には、変倍パラメータ設定部９０５は、拡大階層を含めた画像ピラミッドの各階層において、所定のサイズ範囲内に収まる物体の候補領域の対応領域を選出し、その位置及びサイズと画像ピラミッドの階層ＩＤとを記録する。また、変倍パラメータ設定部９０５は、画像ピラミッドのいずれの階層においても所定のサイズ範囲に収まらない物体の候補領域の対応領域については、対応領域のサイズが所定のサイズ範囲に最も近いサイズの階層を選択する。そして、変倍パラメータ設定部９０５は、選択した階層における対応領域の位置及びサイズと画像ピラミッドの階層ＩＤとを記録する。

ここで、図１１を参照して、対応領域についてより詳しく説明する。図１１に示す例では、入力画像Ｐ０に対して、入力画像Ｐ０が２の倍数で３回の縮小を行うことで縮小画像Ｐ１、Ｐ２、及びＰ３が生成され、当該縮小画像Ｐ１、Ｐ２、及びＰ３を含む画像ピラミッドが規定されている。また、入力画像Ｐ０には、８００×８００画素の物体Ａと、６０×６０画素の物体Ｂと、４５×４５画素の物体Ｃとが撮像されているものとする。また、変倍量領域の設定に利用される所定のサイズ範囲については、１００×１００画素から１６０×１６０画素に設定されているものとする。

例えば、物体Ａについては、入力画像Ｐ０では所定のサイズ範囲に含まれないため、入力画像Ｐ０からは検出されない。一方で、縮小画像Ｐ３における物体Ａを「物体Ａ’」とした場合に、物体Ａ’のサイズは、１００×１００画素となるため、所定のサイズ範囲に含まれる。この場合には、変倍パラメータ設定部９０５は、縮小画像Ｐ３における物体Ａ’の領域を、入力画像Ｐ０における物体Ａの候補領域の対応領域として記録する。

また、物体Ｂ及びＣについては、入力画像Ｐ０では所定のサイズ範囲の下限よりもさらにサイズが小さく、当該所定のサイズ範囲に含まれないため、入力画像Ｐ０からは検出されない。そこで、変倍パラメータ設定部９０５は、入力画像Ｐ０を２の倍数で逐次拡大することで拡大画像を生成する。例えば、拡大画像Ｐ−１は、入力画像Ｐ０を２の倍数で拡大した拡大画像である。また、図１１では図示を省略しているが、拡大画像Ｐ−１を２の倍数で拡大した拡大画像を、便宜上「拡大画像Ｐ−２」とする。

拡大画像Ｐ−１における物体Ｂを「物体Ｂ’」とした場合に、物体Ｂ’のサイズは１２０×１２０画素となるため、所定のサイズ範囲に含まれる。この場合には、変倍パラメータ設定部９０５は、拡大画像Ｐ−１における物体Ｂ’の領域を、入力画像Ｐ０における物体Ｂの候補領域の対応領域として記録する。

拡大画像Ｐ−１における物体Ｃを「物体Ｃ’」とした場合に、物体Ｃ’のサイズは９０×９０画素となる。また、拡大画像Ｐ−２における物体Ｃを「物体Ｃ’’」とした場合に、物体Ｃ’’のサイズは１８０×１８０画素となる。このように、物体Ｃについては、画像ピラミッドのどの階層においても、所定のサイズ範囲に収まらないこととなる。この場合には、変倍パラメータ設定部９０５は、画像ピラミッドの各階層における物体Ｃに対応する領域のうち、所定のサイズ範囲に最も近いサイズの領域を、入力画像Ｐ０における物体Ｃの候補領域の対応領域として記録する。すなわち、上述した例の場合には、変倍パラメータ設定部９０５は、拡大画像Ｐ−１における物体Ｃ’の領域を、入力画像Ｐ０における物体Ｃの候補領域の対応領域として記録することとなる。

ここで、改めて図１９を参照する。Ｓ３０６において、変倍パラメータ設定部９０５は、Ｓ３０５において対応領域を設定した画像ピラミッドの階層ごとに、当該階層に設定された対応領域を集めて変倍領域を設定する。なお、対応領域を集めて変倍領域を設定する方法については、第１の実施形態において、物体の候補領域を集めて変倍領域を設定する方法と実質的に同様である。

Ｓ１００７において、画像変倍部９１１は、Ｓ１００６において画像ピラミッドの拡大階層に変倍領域が設定されているか否かを判定する。
画像変倍部９１１は、Ｓ１００６において画像ピラミッドの拡大階層に変倍領域が設定されていると判定した場合には、処理をＳ１００８に進める。Ｓ１００８において、画像変倍部９１１は、変倍領域が設定された拡大階層に対応する拡大画像を生成し、当該拡大画像を画像ピラミッドに含める。そして、画像変倍部９１１は、処理をＳ１００９に進める。
一方で、画像変倍部９１１は、Ｓ１００６において画像ピラミッドの拡大階層に変倍領域が設定されていない判定した場合には、Ｓ１００８をスキップし、処理をＳ１００９に進める。

Ｓ１００９において、制御部９０１は、Ｓ３１０〜Ｓ３１６の処理が、設定された一連の変倍領域それぞれについて繰り返し実行されるように制御する。

Ｓ１０１０において、第２特徴抽出部９０７は、対象となる変倍領域が設定された画像ピラミッドの階層から当該変倍領域を読み出す。
Ｓ１０１１〜Ｓ１０１６の処理は、図３に示すＳ３０７〜Ｓ３１２の処理と実質的に同様であるが、第１候補領域抽出部９０４とは異なる物体（被写体）を対象として候補領域の抽出が行われてもよい。
具体的な一例として、第１候補領域抽出部９０４は、物体のコンテキストを利用して当該物体の位置及びサイズを縮小画像から検出する。これに対して、第２候補領域抽出部９０８は、所定のサイズ範囲に収まる物体を抽出する。また、識別部９０９は、第２候補領域抽出部９０８による候補領域の抽出結果に基づき、当該候補領域に対応する物体が検出対象の物体（被写体）であるか否かを判定する。このような処理が適用されることで、物体の位置及びサイズの特定に係る精度を向上させることが可能となる。すなわち、本実施形態に依れば、物体の検出に係る精度をより向上させることが可能となる。
また、第２候補領域抽出部９０８と第１候補領域抽出部９０４とのそれぞれが検出対象とする物体が同じ場合には、Ｓ１００３及びＳ１０１２それぞれにおける特徴の抽出に係る条件が異なっていてもよい。同様に、Ｓ１００４及びＳ１０１３それぞれにおける物体の候補領域の抽出に係る条件が異なっていてもよい。

（補足）
上述の通り、本実施形態に係る情報処理装置９００は、入力画像と、当該入力画像を変倍した変倍画像（例えば、縮小画像や拡大画像）と、を含む画像ピラミッドを生成し、当該画像ピラミッドの各階層のうち少なくとも一部の階層に変倍領域を設定する。このような構成の基で、情報処理装置９００は、検出可能な物体のサイズの範囲を広げながら、物体の検出に係る処理を高速化している。
具体的には、画像ピラミッドの各階層から読み出される対応領域は、例外を除けば、全てが所定のサイズ範囲に含まれる。そのため、第２特徴抽出部９０７、第２候補領域抽出部９０８、及び識別部９０９は、所定のサイズ範囲に収まる物体をターゲットとして物体検出を行うことが可能となる。

なお、前段に位置する第１候補領域抽出部９０４は、後段の第２候補領域抽出部９０８に比べて、より幅広い抽出条件に基づき候補領域を抽出することが望ましい。そのため、例えば、以下のようなチューニングが行われてもよい。
（１）物体とそのコンテキストを含む大きめの領域を検出対象としてもよい。例えば、顔を検出対象の物体とする場合には、第１候補領域抽出部９０４は、顔ではなく上半身を検出対象として候補領域を抽出してもよい。また、他の一例として、第１候補領域抽出部９０４は、顔、頭部、上半身を全部検出対象として候補領域を抽出してもよい。
（２）第１候補領域抽出部９０４の学習に際し、学習に利用する画像として、異なるサイズの物体の画像をより充実させるとよい。
（３）ｌｏｓｓ関数に対して、位置及びサイズの誤差の影響が考慮されるようにチューニングを施してもよい。
（４）物体のサイズ範囲にわたって、アンカーのスケールを十分に設定するとよい。例えば、物体のサイズ範囲が［１０，５４０］であって、アンカーのスケール数を１０とした場合には、例えば、アンカーのスケールを［２０，１２０，１７０，２２０，２７０，３２０，３７０，４２０，４７０］としてもよい。また、アンカーのアスペクト比との組み合わせに応じて、アンカーが設定されるとよい。また、物体のサイズの出現頻度に応じてアンカーのスケールが設定されてもよい。

また、後段に位置する第２候補領域抽出部９０８は、所定のサイズ範囲内に含まれる物体の抽出を目的としている。そのため、例えば、以下のようなチューニングが行われてもよい。
（１）検出対象をターゲットする物体（例えば、顔）のみとする。
（２）第２候補領域抽出部９０８の学習に際し、物体（例えば、顔）のサイズが限定されるため、当該物体のサイズのバリエーションよりも、当該物体の見え方のバリエーションの画像が充実されるとよい。具体的な一例として、動きやフォーカスボケ、逆光、照明、コントラスト、物体の向き、遮蔽物の有無、複数の物体間の相互遮蔽、サイズの微変化、アスペクト比等の条件のバリエーションがより充実されるとよい。また、人の顔を検出対象として想定している場合には、例えば、表情、髪型、性別、年齢、人種、マスクやサングラス等の遮蔽物の有無、自己遮蔽、複数の顔間の相互遮蔽、顔サイズの微変化等の条件のバリエーションがより充実されてもよい。
（３）ｌｏｓｓ関数に対して、位置及びサイズの誤差の影響が考慮されるようにチューニングを施してもよい。
（４）第２候補領域抽出部９０８の検出対象は所定のサイズ範囲に収まるため、アンカーのスケールが当該サイズ範囲について十分に設定されるとよい。
（５）ニューラルネットワークの構造のチューニングが行われてもよい。

＜第４の実施形態＞
本発明の第４の実施形態について説明する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置１２００」と称する場合がある。

図１２は、本実施形態に係る情報処理装置１２００の機能構成の一例を示している。情報処理装置１２００は、制御部１２０１と、解析処理部１２０２とを含む。解析処理部１２０２は、第１特徴抽出部１２０３と、第１候補領域抽出部１２０４と、第１識別部１２０５と、変倍パラメータ設定部１２０６と、変倍部１２０７とを含む。また、解析処理部１２０２は、第２特徴抽出部１２０８と、第２候補領域抽出部１２０９と、第２識別部１２１０と、統合部１２１２とを含む。
図１２と図６とを比較するとわかるように、情報処理装置１２００は、第１識別部１２０５を備える点で、図６に示す情報処理装置６００と異なる。具体的には、第１特徴抽出部１２０３、第１候補領域抽出部１２０４、変倍パラメータ設定部１２０６、及び変倍部１２０７が、図６に示す、第１特徴抽出部６０３、第１候補領域抽出部６０４、変倍パラメータ設定部６０５、及び変倍部６０６に相当する。また、第２特徴抽出部１２０８、第２候補領域抽出部１２０９、第２識別部１２１０、及び統合部１２１２が、図６に示す、第２特徴抽出部６０７、第２候補領域抽出部６０８、識別部６０９、及び統合部６１０に相当する。また、以降では、主に図６に示す情報処理装置６００と異なる部分に着目して説明し、情報処理装置６００と実質的に同様の部分については、詳細な説明は省略する。

第１候補領域抽出部１２０４による物体の候補領域の抽出結果には、実際には非物体に対応する候補領域が含まれる場合がある。そのため、情報処理装置１２００では、第１識別部１２０５において物体クラスの判定が行われ、ＮＭＳ（ｎｏｎｍａｘｉｍｕｍｓｕｐｐｒｅｓｓｉｏｎ）が行われることで、候補領域の数が減らされる。ただし、第１識別部１２０５は、特に小さい候補領域について誤検出が多くても物体領域が確保されるようにパラメータのチューニングが施されたうえで学習が行われるとよい。

また、本実施形態では、変倍パラメータ設定部１２０６は、同じ物体クラスの候補領域（換言すると、同じ種別の物体の候補領域）を集めて変倍領域を設定してもよい。この場合には、第２特徴抽出部１２０８と、第２候補領域抽出部１２０９と、第２識別部１２１０とは、１つの物体クラスについて所定のサイズ範囲内に収まる物体を特定することで物体検出を行うため、物体の検出に係る精度を向上させることが可能となる。

＜第５の実施形態＞
本発明の第５の実施形態について説明する。なお、以降の説明では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、「情報処理装置１３００」と称する場合がある。

図１３は、本実施形態に係る情報処理装置１３００の機能構成の一例を示している。情報処理装置１３００は、制御部１３０１と、解析処理部１３０２とを含む。解析処理部１３０２は、第１特徴抽出部１３０３と、第１候補領域抽出部１３０４と、変倍パラメータ設定部１３０５と、変倍部１３０６とを含む。また、解析処理部１２０２は、第２特徴抽出部１３０７と、ウィンドウ走査部１３０８と、識別部１３０９と、統合部１３１０とを含む。
図１３と図６とを比較するとわかるように、情報処理装置１３００は、第２候補領域抽出部６０８に替えてウィンドウ走査部１３０８を備える点で、図６に示す情報処理装置６００と異なる。具体的には、第１特徴抽出部１３０３、第１候補領域抽出部１３０４、変倍パラメータ設定部１３０５、及び変倍部１３０６が、図６に示す、第１特徴抽出部６０３、第１候補領域抽出部６０４、変倍パラメータ設定部６０５、及び変倍部６０６に相当する。また、第２特徴抽出部１３０７、識別部１３０９、及び統合部１３１０が、図６に示す、第２特徴抽出部６０７、識別部６０９、及び統合部６１０に相当する。また、以降では、主に図６に示す情報処理装置６００と異なる部分に着目して説明し、情報処理装置６００と実質的に同様の部分については、詳細な説明は省略する。

第１候補領域抽出部が物体の候補領域を抽出する際に、各候補領域の位置及びサイズを特定することが可能である。そのため、本実施形態では、識別部１３０９は、物体クラスの識別に、第１候補領域抽出部による物体の候補領域の抽出結果を利用するか、または、サイズと位置を変更したスライディング走査の結果を利用する。ウィンドウ走査部１３０８は、上記したサイズと位置を変更したスライディング走査の実行に係る役割を担う。

（実施例）
ここで、本実施形態に係る情報処理装置１３００の実施例として、ウィンドウ走査部１３０８の処理の一例について、具体的な例を挙げて以下に説明する。本実施形態では、第２候補領域抽出部１３０７以降の後段側での物体検出に係る精度をより向上させることを目的としており、特に、物体の位置及びサイズを高精度に検出することを目指している。物体の位置及びサイズの検出精度を向上することが可能となれば、この検出結果をＧＴ（ｇｒｏｕｎｄｔｒｕｅ）付与に利用することで、ＧＴ付与の効率を大幅に向上させることが可能となる。

このような状況を鑑み、後段側での物体検出に係る精度の向上させるために、以下に例示するようなニューラルネットワークの構造のチューニングが行われてもよい。

（１）ｔｗｏ−ｐａｓｓのｆａｓｔｅｒ−ｒｃｎｎの精度向上
Ｆａｓｔｅｒ−ｒｃｎｎでは、特徴抽出ＣＮＮから出力した特徴画像をＲｏｉＰｏｏｌｉｎｇして、物体の判定とＢｏｕｎｄｉｎｇＢｏｘＲｅｇｒｅｓｓｉｏｎが行われるが、ＲｏｉＰｏｏｌｉｎｇより高精度のＲｏｉＡｌｉｇｎｍｅｎｔが利用されてもよい。ＲｏｉＡｌｉｇｎｍｅｎｔは、ｍａｓｋ−ｒｃｎｎに採用されている。なお、ｍａｓｋ−ｒｃｎｎで採用されるＲｏｉＡｌｉｇｎｍｅｎｔについては既知の技術のため詳細な説明は省略する。

（２）ＢｏｕｎｄｉｎｇＢｏｘＲｅｇｒｅｓｓｉｏｎ以外の方法の採用
ＢｏｕｎｄｉｎｇＢｏｘのＲｅｇｒｅｓｓｉｏｎにより、ＭＴＣＮＮの画像ピラミッドとラスタースキャン法とを採用することで、ＢｏｕｎｄｉｎｇＢｏｘが決定されてもよい。
ＭＴＣＮＮでは、入力画像を所定の倍率で変倍することで画像ピラミッドが作成される。画像ピラミッドの各階層において、固定サイズ（例えば、４８ｘ４８画素）でラスタースキャンが行われる。各スキャンウィンドウについて、Ｏ−Ｎｅｔアーキテクチャにより特徴抽出を行い、識別器において、物体である尤度と物体でない尤度と、ＢｏｕｎｄｉｎｇＢｏｘのＲｅｇｒｅｓｓｉｏｎ結果と、顔５点のＬａｎｄｍａｒｋの（ｘ,ｙ）座標値と、が算出される。Ｏ−Ｎｅｔは、眼、鼻、及び口等の顔器官点の検出に係るアーキテクチャである。Ｏ−Ｎｅｔについては既知の技術のため詳細な説明は省略する。そして、物体である尤度と、物体でない尤度と、をｓｏｆｔｍａｘ関数に適用し、物体である確率が計算される。そのうえで、確率の最も高いウィンドウのＢｏｕｎｄｉｎｇＢｏｘのＲｅｇｒｅｓｓｉｏｎ結果を用いることで、物体の位置及びサイズを決定される。

本実施形態に係る情報処理装置１３００では、後段側の識別器（識別部１３０９）は、変倍後の変倍領域をＭＴＣＮＮの入力画像として、ＭＴＣＮＮのアーキテクチャを採用してもよい。一方で、情報処理装置１３００では、隠れた顔の位置及びサイズの推定に係る精度をより向上するために、以下に示すチューニングが行われてもよい。

Ｏ−Ｎｅｔアーキテクチャにより特徴抽出を行い、識別器において、物体である尤度と物体でない尤度とを算出したうえで、各スキャンウィンドウについて物体である確率をｓｏｆｔｍａｘ関数に用いて算出する。各スキャンウィンドゥについて物体である確率を原画像サイズで加算することで、Ｈｅａｔｍａｐを算出する。実装形態の具体的な一例としては、ウィンドウに渡って物体である確率を、本スキャンウィンドウにおける物体である確率とする方法が挙げられる。この場合には、例えば、ウィンドウの中心を基点として、当該基点との距離と、Ｇｕａｓｓｉａｎ関数と、に基づき、ウィンドウ内の各点の確率が算出されてもよい。そのうえで、Ｈｅａｔｍａｐ上において、確率の算出結果が閾値以上の領域が、物体の領域として検出されればよい。そのうえで、物体の領域内における確率の極大値の数を物体の数とし、当該極大値の位置を中心とする一連のスキャンウィンドウのうち、物体である確率が最も大きいウィンドウのサイズを物体のサイズとすればよい。

本実施形態では、Ｏ−Ｎｅｔの学習を行う際に、ｌｏｓｓ関数は、例えば、ｙｏｌｏのｌｏｓｓ関数における「矩形の信頼度項」と「矩形の不信頼度項」とから構成される。矩形の信頼度は、例えば、スキャンウィンドウと一連のＧＴとのＩＯＵが最も大きい値とするとよい。

（３）上記（２）では、画像ピラミッドとラスタースキャン法を採用しているが、これに対して、物体のＨｅａｔｍａｐと物体領域のマップとを直接出力するようにしてもよい。例えば、図１４は、本実施形態における物体の検出に係るアーキテクチャの一例を示した図である。

図１４に示す例では、変倍領域が１２８×１２８×３の画像に正規化されており、正規化された入力画像に対して、特徴抽出ＣＮＮにより特徴マップが抽出されている。ＦＰＮは、最後の特徴マップを２倍にアップサンプリングして、前段の特徴マップとＣｏｎｃａｔｉｎａｔｉｏｎを行うことで合成したうえで、8倍にアップサンプリングすることで、入力画像のサイズにリサイズしている。そのうえで、入力画像サイズの合成特徴マップが識別器に出力される。識別器は、ＲＰＮから出力される候補領域に基づいて、合成特徴マップについてＲｏｉＰｏｏｌｉｎｇを行い、入力画像サイズにおける候補領域を切り出す。その後、識別器は、切り出した候補領域に対応する合成特徴マップに対して、Ｃｏｎｖｏｌｕｔｉｏｎを行い、クラスごとのＨｅａｔｍａｐと領域マップとを出力する。
領域マップの学習方法は、ｍａｓｋ−ｒｃｎｎと同様であり、領域マップの出力は領域マップのＧＴ値との画素ごとのｂｉｎａｒｙ−ｃｒｏｓｓ−ｅｎｔｒｏｐｙをｌｏｓｓとして算出することで、学習が行われる。
一方で、Ｈｅａｔｍａｐを学習する際には、各ＢｏｕｎｄｉｎｇＢｏｘの中心から、サイズに基づいて、Ｇａｕｓｓｉｏｎ関数の分布が以下に（式５）として示す関係式に基づき算出される。そのうえで、ＨｅａｔｍａｐのＧＴ値は、各ＢｏｕｎｄｉｎｇＢｏｘのＧａｕｓｓｉｏｎ分布の最大値とされる。
なお、以下に示す（式５）において、ｘ₀及びｙ₀のそれぞれは、ＢｏｕｎｄｉｎｇＢｏｘの中心の位置を示している。また、ｗ及びｈのそれぞれは、ＢｏｕｎｄｉｎｇＢｏｘの幅及び高さを示している。また、ａ及びｂは、ＨｙｐｅｒＰａｒａｍｅｔｅｒであり、正数である。

また、各ＢｏｕｎｄｉｎｇＢｏｘ内のＧａｕｓｓｉｏｎ関数の分布値が、上記（式５）に基づき算出され、ＢｏｕｎｄｉｎｇＢｏｘ外の分布値については０としてｃｕｔ−ｏｆｆされてもよい。そのうえで、ＨｅａｔｍａｐのＧＴ値が、このｃｕｔ−ｏｆｆのＧａｕｓｓｉｏｎ関数の分布値の最大値とされてもよい。
Ｈｅａｔｍａｐのｌｏｓｓ関数は、識別器から出力されたＨｅａｔｍａｐを、上記で算出されたＨｅａｔｍａｐのＧＴ値とのＬ２距離またはｂｉｎａｒｙ−ｃｒｏｓｓ−ｅｎｔｒｏｐｙであり、上述した矩形の信頼度項に相当する。

各候補領域のＨｅａｔｍａｐと領域マップが得られた後に、各クラスのＨｅａｔｍａｐの極大値がＢｏｕｎｄｉｎｇＢｏｘの中心とされる。一方で、各クラスの領域マップの各前景画素は、ＢｏｕｎｄｉｎｇＢｏｘの中心との距離により分類される。各ＢｏｕｎｄｉｎｇＢｏｘの中心から、該ＢｏｕｎｄｉｎｇＢｏｘに分類された最上及び最下の前景画素との距離が算出され、大きい方の値が２倍されることでＢｏｕｎｄｉｎｇＢｏｘの高さとされてもよい。同様に、各ＢｏｕｎｄｉｎｇＢｏｘの中心から、該ＢｏｕｎｄｉｎｇＢｏｘに分類された最左及び最右の前景画素との距離が算出され、大きい方の値が２倍されることでＢｏｕｎｄｉｎｇＢｏｘの幅とされてもよい。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

また、前述した各実施形態の機能を実現するソフトウエアのプログラムコードを記録媒体に記録することが可能である。本発明の目的は、上記記録媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（または、ＣＰＵやＭＰＵ等）が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合には、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することとなり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ等を用いることができる。

また、本発明の目的は、コンピュータが読み出したプログラムコードを実行することにより、前述した各実施形態の機能が実現されるのみには限定されない。例えば、読み出したプログラムコードの指示に基づき、コンピュータ上で稼動しているＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ（ＯＳ）等が実際の処理の一部または全部を行い、その処理によって前述した各実施形態の機能が実現される場合も含まれる。

また、上述した第１〜第５の実施形態それぞれの技術思想を逸脱しない範囲で、当該第１〜第５の実施形態のうち２以上の実施形態が組み合わされてもよい。具体的な一例として、第４の実施形態と第５の実施形態とを組み合わせることが可能である。
第１の実施形態または第３の実施形態に対して、第４の実施形態及び第５の実施形態のうち少なくともいずれかの技術思想を適用することも可能である。

また、図１、図６、図８、図９、図１２、及び図１３に示した各実施形態に係る情報処理装置の機能構成はあくまで一例であり、各実施形態の技術思想を逸脱しない範囲で一部が適宜変更されてもよい。
例えば、図１に示す機能構成に着目した場合に、情報処理装置１００の各機能構成が、複数の装置が協働することで実現されてもよい。より具体的な一例として、情報処理装置１００の各機能構成のうち、一部の機能構成が情報処理装置１００とは異なる装置により実現されてもよい。また、他の一例として、情報処理装置１００の各機能構成のうち、少なくとも一部の機能構成の処理に係る負荷が複数の装置に分散されてもよい。これは、図６、図８、図９、図１２、及び図１３に示す情報処理装置についても同様である。

１００情報処理装置
１０３特徴抽出部
１０４識別部
１０５候補領域抽出部
１０６変倍パラメータ設定部
１０７変倍部

Claims

入力画像から特徴を抽出する特徴抽出手段と、
前記特徴の抽出結果に基づき、前記入力画像から検出対象の候補領域を抽出する候補領域抽出手段と、
抽出された前記候補領域が示す前記検出対象の種別を、前記特徴の抽出結果に基づき識別する識別手段と、
前記候補領域のサイズに基づき変倍領域を設定する変倍パラメータ設定手段と、
前記入力画像の少なくとも一部を変倍する変倍手段と、
を備え、
前記特徴抽出手段は、前記入力画像のうち前記変倍領域に対応する部分画像が変倍された変倍画像から特徴を抽出し、
前記識別手段は、前記変倍画像からの前記特徴の抽出結果に基づき、当該変倍画像が示す前記検出対象の種別を識別する、
情報処理装置。
前記変倍パラメータ設定手段は、前記候補領域のサイズに基づき変倍率を設定し、
前記変倍手段は、前記変倍率に基づき前記変倍領域に対応する部分画像を変倍することで前記変倍画像を生成する、
請求項１に記載の情報処理装置。
前記候補領域抽出手段は、前記変倍画像からの前記特徴の抽出結果に基づき、当該変倍画像から前記候補領域を抽出し、
前記識別手段は、前記変倍画像から抽出された前記候補領域が示す前記検出対象の種別を、当該変倍画像からの前記特徴の抽出結果に基づき識別する、
請求項１たまは２に記載の情報処理装置。
前記候補領域抽出手段は、前記入力画像からの第１の特徴の抽出結果に基づき、当該入力画像から前記候補領域を抽出し、
前記特徴抽出手段は、前記入力画像のうち前記変倍領域に対応する前記変倍画像から第２の特徴を抽出し、
前記識別手段は、前記第２の特徴の抽出結果に基づき、前記変倍画像が示す前記検出対象の種別を識別する、
請求項３に記載の情報処理装置。
前記特徴抽出手段として、
前記入力画像から前記第１の特徴を抽出する第１の特徴抽出手段と、
前記変倍画像から前記第２の特徴を抽出する第２の特徴抽出手段と、
を備える、請求項４に記載の情報処理装置。
前記候補領域抽出手段として、
前記第１の特徴の抽出結果に基づき、前記入力画像から前記候補領域を抽出する第１の候補領域抽出手段と、
前記第２の特徴の抽出結果に基づき、前記変倍画像から前記候補領域を抽出する第２の候補領域抽出手段と、
を備える、請求項５に記載の情報処理装置。
前記変倍手段は、前記入力画像のサイズを縮小し、
前記特徴抽出手段は、サイズが縮小された前記入力画像から前記特徴を抽出する、
請求項１に記載の情報処理装置。
前記変倍手段は、前記入力画像を互いに異なる複数の縮小率それぞれに基づき縮小することで複数の縮小画像を生成し、
前記特徴抽出手段は、前記複数の縮小画像のうち少なくともいずれかの縮小画像から前記特徴を抽出し、
前記変倍パラメータ設定手段は、前記特徴の抽出結果に基づき、前記入力画像と前記複数の縮小画像のそれぞれとを含む一連の画像のうち少なくともいずれかの画像に対して前記変倍領域を設定し、
前記特徴抽出手段は、前記変倍領域が設定された画像のうち当該変倍領域に対応する前記変倍画像から特徴を抽出し、
前記識別手段は、前記変倍画像からの前記特徴の抽出結果に応じて、当該変倍画像が示す前記検出対象の種別を識別する、
請求項７に記載の情報処理装置。
前記変倍手段は、前記入力画像を１以上の拡大率それぞれに基づき拡大することで１以上の拡大画像を生成し、
前記一連の画像は、前記１以上の拡大画像を含み、
前記変倍パラメータ設定手段は、前記１以上の拡大画像を含む前記一連の画像のうち少なくともいずれかの画像に対して前記変倍領域を設定し、
前記候補領域抽出手段は、前記一連の画像のうち、第１の画像から抽出された前記候補領域のサイズが、あらかじめ決められたサイズの範囲に収まらない場合に、前記第１の画像よりもサイズの大きい前記入力画像の変倍画像である第２の画像に対応付けて、当該候補領域に対応する対応領域を設定し、
前記変倍パラメータ設定手段は、設定された前記対応領域に応じて前記第２の画像に対応付けて前記変倍領域を設定する、
請求項８に記載の情報処理装置。
前記変倍手段は、前記変倍領域が設定された前記第２の画像が前記一連の画像に含まれない場合に、前記入力画像を変倍することで当該第２の画像を生成する、請求項９に記載の情報処理装置。
前記変倍パラメータ設定手段は、抽出された前記候補領域のうち、互いのサイズの差が閾値以下となる１以上の候補領域を含むように、１以上の前記変倍領域を設定する、請求項１〜１０のいずれか１項に記載の情報処理装置。
前記変倍パラメータ設定手段は、前記変倍領域に含まれる１以上の前記候補領域それぞれのサイズが、あらかじめ決められたサイズの範囲に収まるように、前記部分画像の変倍に係る変倍率を決定する、請求項１１に記載の情報処理装置。
前記特徴抽出手段は、前記入力画像に対して、少なくとも１回以上の畳み込み演算及びプーリングを施し、当該畳み込み演算及び当該プーリングの結果に基づき前記特徴を抽出する、請求項１〜１２のいずれか１項に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
入力画像から特徴を抽出する特徴抽出ステップと、
前記特徴の抽出結果に基づき、前記入力画像から検出対象の候補領域を抽出する候補領域抽出ステップと、
抽出された前記候補領域が示す前記検出対象の種別を、前記特徴の抽出結果に基づき識別する識別ステップと、
前記候補領域のサイズに基づき変倍領域を設定する変倍パラメータ設定ステップと、
前記入力画像の少なくとも一部を変倍する変倍ステップと、
を含み、
前記特徴抽出ステップは、前記入力画像のうち前記変倍領域に対応する部分画像が変倍された変倍画像から特徴を抽出し、
前記識別ステップは、前記変倍画像からの前記特徴の抽出結果に基づき、当該部分画像が示す前記検出対象の種別を識別する、
情報処理方法。
コンピュータを、請求項１〜１３のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。