JP2024001618A

JP2024001618A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2024001618A
Application number: JP2022100387A
Authority: JP
Inventors: 和道杉山; Kazumichi Sugiyama
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2024-01-10
Also published as: EP4296976A2; US20230419633A1; EP4296976A3; CN117274354A

Abstract

【課題】画像から検出対象を検出する際の処理負荷の増大を抑えつつ、誤検出や未検出等の発生を低減可能にする。【解決手段】情報処理装置は、画像の各位置に対応した検出対象サイズを取得し、また画像に対して複数の検出領域を設定し、取得した画像から検出領域ごとに検出対象を検出する。ここで、検出領域を設定する際には、各位置に対応した検出対象サイズを基に、画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定する。【選択図】図２

Description

本発明は、画像から検出対象の物体等を検出する情報処理技術に関する。

近年、画像から検出対象の物体等を検出する情報処理として、機械学習による学習モデルが用いられることが多くなっている。画像から検出対象の物体等を検出するのに用いられる学習モデルでは、当該学習モデルに入力するデータのサイズは予め決められているため、その入力サイズに合うように画像を縮小や分割等する前処理が行われる。また学習モデルでは、入力された画像のサイズに対する検出対象の物体サイズの割合に対し、検出の精度が高くなる範囲が存在する場合がある。

入力画像のサイズに対する検出対象のサイズの割合を考慮した技術として、特許文献１と特許文献２に記載の技術がある。特許文献１には、分割領域のサイズと検出対象のサイズとの比率がほぼ一定となるように、撮像画像を異なるサイズの小領域に分割し、さらにそれら各分割領域の画像を学習モデルの入力サイズに合うように縮小する技術が開示されている。特許文献２には、各分割領域のサイズに対する検出対象のサイズの割合が、正解率の高くなる範囲になるように、分割領域の重複を許して撮像画像を分割する技術が開示されている。

特開２０１８－２２３４０号公報特開２０２０－１４９５６５号公報

しかしながら、例えば、分割領域の境界線上に検出対象の物体が存在するような場合、検出結果の信頼性が低くなり、また例えば一つの物体を二つの物体として誤検出してしまったり、さらには物体そのものを検出できなかったりすることがある。このため、各分割領域について検出処理を再度実行することも考えられるが、この場合、処理負荷（処理コスト）が増大してしまう。また例えば、物体を検出できなかった場合には、再検出処理も行われないことになるため、検出結果は未検出のままになってしまう。これらの課題は、特許文献１と特許文献２のいずれの技術においても生じ得る。

そこで本発明は、画像から検出対象を検出する際の処理負荷の増大を抑えつつ、誤検出や未検出等の発生を低減可能にすることを目的とする。

本発明の情報処理装置は、画像を取得する画像取得手段と、画像の各位置に対応した検出対象サイズを取得するサイズ取得手段と、画像に対して複数の検出領域を設定する領域設定手段と、前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、前記領域設定手段は、前記サイズ取得手段により取得された前記各位置に対応した前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする。

本発明によれば、画像から検出対象を検出する際の処理負荷の増大を抑えつつ、誤検出や未検出等の発生を低減可能となる。

情報処理装置の構成例を示す図である。情報処理装置の機能構成の一例を示す図である。物体の検出結果および統合処理と誤検出例の説明図である。物体検出を行う情報処理全体のフローチャートである。検出領域設定処理のフローチャートである。第１の実施形態の顔サイズと分布例を示す図である。第１の実施形態の１段目の検出領域設定例の説明図である。第１の実施形態の２段目の検出領域と重複範囲の説明図である。第１の実施形態の３段目の検出領域と重複範囲の説明図である。第１の実施形態の各段の領域数と重複範囲の説明図である。第１の実施形態の全検出領域配置例を示す図である。第１の実施形態における検出領域調整の説明図である。第２の実施形態の一つ目の検出領域設定の説明図である。図１３の例の次の検出領域設定の説明図である。第２の実施形態の検出対象範囲下辺部の検出領域設定の説明図である。第２の実施形態の検出対象範囲上辺部の次検出領域設定の説明図である。図１６の例の次の検出領域設定の説明図である。第２の実施形態の検出対象範囲内の全検出領域の説明図である。第３の実施形態の顔サイズと分布例を示す図である。第３の実施形態の１段目の検出領域設定例の説明図である。第３の実施形態の２段目の検出領域と重複範囲の説明図である。第３の実施形態の３段目の検出領域と重複範囲の説明図である。第３の実施形態の各段の検出領域数と重複範囲の説明図である。第３の実施形態の全検出領域配置例の説明図である。第３の実施形態における検出領域調整の説明図である。第４の実施形態における検出結果の統合処理の説明図である。

以下、本発明に係る実施形態を、図面を参照しながら説明する。以降に挙げる各実施形態は本発明を限定するものではなく、また、各実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。各実施形態の構成は、本発明が適用される装置の仕様や各種条件（使用条件、使用環境等）によって適宜修正又は変更され得る。また、後述する各実施形態の一部を適宜組み合わせて構成してもよい。以下の各実施形態において、同一の構成には同じ参照符号を付して説明する。

［第１の実施形態］
図１は、本実施形態に係る情報処理装置１００のハードウェア構成の一例を示す図である。
本実施形態の情報処理装置１００は、ＣＰＵ１０１、メモリ１０２、通信インターフェース（Ｉ／Ｆ）部１０３、表示部１０４、入力部１０５、及び記憶部１０６を有する。ＣＰＵ１０１、メモリ１０２、通信Ｉ／Ｆ部１０３、表示部１０４、入力部１０５、及び記憶部１０６は、システムバスを介して通信可能に接続されている。なお、本実施形態による情報処理装置１００は、これ以外の構成をさらに有していてもよい。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１は、情報処理装置１００の全体の制御を司る。ＣＰＵ１０１は、例えばシステムバスを介して接続される各機能部の動作を制御する。メモリ１０２は、ＣＰＵ１０１が処理に利用するデータ、プログラム等を記憶する。また、メモリ１０２は、ＣＰＵ１０１の主メモリ、ワークエリア等としての機能をも有する。ＣＰＵ１０１は、メモリ１０２に記憶された本実施形態に係る情報処理プログラムに基づき処理を実行することにより、後述する図２に示す情報処理装置１００の機能構成及び後述する図４および図５に示すフローチャートの処理を実現する。なお、ＣＰＵに替えてＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が用いられてもよいし、ＣＰＵとＧＰＵが適宜役割を分担して協調動作してもよい。

通信Ｉ／Ｆ部１０３は、情報処理装置１００をネットワークに接続するインターフェースである。ネットワークとの接続は有線だけでなく無線により行われてもよい。表示部１０４は、液晶ディスプレイ等の表示装置を有し、画像やＣＰＵ１０１による処理の結果、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を表示する。入力部１０５は、マウス又はボタン等の操作装置を有し、ユーザの操作を情報処理装置１００に入力する。記憶部１０６は、例えば、ＣＰＵ１０１がプログラムに係る処理を行う際に必要な各種データ等を記憶する。また、記憶部１０６は、例えば、ＣＰＵ１０１がプログラムに係る処理を行うことにより得られた各種データ等を記憶する。なお、ＣＰＵ１０１が処理に利用するデータ、プログラム等は、メモリ１０２に代えて記憶部１０６に記憶されていてもよい。

ここで、本実施形態の情報処理装置１００は、監視カメラ等の撮像装置による撮像画像から、検出対象となる物体等の検出や追尾、その物体の属性の推定等を行う画像解析、その画像解析結果を基に物体数を推定する等の情報処理を実行可能な装置である。本実施形態では、検出対象となる物体の一例として人物の顔を例に挙げるが、この例に限定されるものではなく、車両や動物など様々な検出対象物体を検出等する任意のシステムに適用することができる。

また本実施形態では、画像から検出対象の物体（人物の顔）を検出する際に、機械学習による学習モデルを用いる例を挙げる。なお、物体等の検出に学習モデルを用いる場合には、前述したように、学習モデルについて予め決められた入力サイズに合うように画像を縮小や分割等するような処理が行われる。また前述したように、学習モデルでは、入力された画像のサイズに対する検出対象物体のサイズの割合として、物体検出の精度が高くなる範囲が存在する。このため、本実施形態では、学習モデルの入力サイズに合うようにしつつ、物体検出の精度が高くなる範囲を考慮して、画像を分割・縮小等して、検出対象物体を検出する際の検出領域を設定するものとする。

図２は、本実施形態の情報処理装置１００における機能構成例を示した機能ブロック図である。本実施形態の情報処理装置１００は、画像取得部２０１、検出部２０２、サイズ取得部２０３、領域設定部２０４、統合部２０５、出力部２０６、範囲設定部２０７、上限設定部２０８、及び記憶部２０９を有して構成されている。

画像取得部２０１は、物体検出を行う対象となる画像を取得する。本実施形態の場合、物体検出を行う対象となる画像は監視カメラ等の撮像装置にて撮像された画像であり、通信Ｉ／Ｆ部１０３を通じて外部から取得されるとする。以下、監視カメラ等の撮像装置にて撮像されて、画像取得部２０１が取得する画像データを適宜、「撮像画像」と呼ぶことにする。また、撮像画像は、一例として水平方向（横方向）の幅が１０８０ピクセルで、垂直方向（縦方向）の高さが７２０ピクセルである、１０８０×７２０ピクセルのＲＧＢ画像とする。なお、画像取得部２０１が取得する画像は、１０８０×７２０ピクセルのＲＧＢ画像に限定されるものではなく、任意の画像を入力画像とすることができ、例えば水平方向の幅や垂直方向の高さが異なっていてもよい。その他にも、撮像画像は、撮像装置から直接取得される画像だけでなく、一旦、記録媒体等に記録された後に読み出された画像や、ネットワーク上に存在する画像であってもよい。

サイズ取得部２０３は、画像取得部２０１にて取得された撮像画像上の各画素の位置において想定される検出対象サイズの分布、つまり画像上の各位置に対応した検出対象の物体サイズの分布を取得する。サイズ取得部２０３は、ユーザが図１の入力部１０５を介して画像上のいくつかの位置における顔サイズを指定することで、画像上の任意の位置における顔の平均的な顔サイズを補間により推定して、顔サイズの分布を取得してもよい。また、サイズ取得部２０３は、撮像画像から顔を検出し、その検出結果から画像上の任意の位置における平均的な顔サイズを補間により推定して、顔サイズの分布を取得してもよい。また、サイズ取得部２０３は、その他の方法で顔サイズと分布を取得してもよい。顔サイズの補間による推定方法では、例えば、画像上の座標（ｘ，ｙ）における顔サイズをｓとしたとき、その顔サイズｓは、座標のｘ，ｙおよび未知の１個以上のパラメータによって表せると仮定する。例えば、ｓ＝ａｘ＋ｂｙ＋ｃと仮定する。この例では、未知のパラメータは、ａ、ｂおよびｃである。サイズ取得部２０３は、ユーザが指定した顔の位置およびサイズの集合、または、顔検出により検出された顔の位置およびサイズの集合を用いて、未知のパラメータを例えば最小二乗法等の統計処理により求める。

領域設定部２０４は、撮像画像上に複数の検出領域を設定する。このとき領域設定部２０４は、隣接する検出領域同士が漏れなく重複するように検出領域を設定する。詳細は後述するが、本実施形態の領域設定部２０４は、サイズ取得部２０３により取得した各位置で想定される検出対象サイズ（顔サイズ）の分布に基づいて、検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定する。以下、本実施形態では、領域設定部２０４にて設定した検出領域を基に撮像画像から切り出される画像、つまり後段の検出部２０２で物体検出が行われる各検出領域の画像を「検出領域画像」と呼ぶことにする。領域設定部２０４は、撮像画像から検出領域ごとに切り出した検出領域画像を、検出部２０２に入力する。

検出部２０２は、領域設定部２０４にて設定された検出領域ごとの検出領域画像から検出対象としての物体（本実施形態では人物の顔）を検出する。本実施形態の場合、検出部２０２は、機械学習による学習モデルを用いて、各検出領域画像から人物の顔の領域を検出し、検出領域ごとの顔検出結果を出力する。なお本実施形態の場合、検出部２０２は、入力された検出領域画像から複数の属性（クラス）に係る物体検出を行うとする。本実施形態では、検出部２０２は、検出領域画像に含まれる「メガネ着用の顔」と「メガネ非着用の顔」とを検出できるように機械学習がなされた学習モデルを用いて、顔の検出結果を出力する例を挙げる。「メガネ着用の顔」と「メガネ非着用の顔」の検出は、例えば下記の参考文献１に記載の技術を適用することで実現できる。

参考文献１：Ｊ．Ｒｅｄｍｏｎ，Ａ．Ｆａｒｈａｄｉ，“ＹＯＬＯ９０００：Ｂｅｔｔ
ｅｒＦａｓｔｅｒＳｔｒｏｎｇｅｒ”，ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄ
ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）２０１６．

本実施形態において、検出部２０２が出力する検出結果は、検出した顔の位置と大きさ、顔の属性（クラス）、および検出結果の信頼度を示す情報であるとする。顔の位置と大きさを示す情報は、例えば顔を囲む矩形枠を規定する座標（例えば矩形の左上座標（ｘ１，ｙ１）および右下座標（ｘ２，ｙ２））とする。顔の属性を示す情報は、「メガネ着用の顔」であるか又は「メガネ非着用の顔」であるかの情報であるとする。検出結果の信頼度を示す情報は、例えば信頼度が最も低い場合を０とし、信頼度が最も高い場合を１として、０～１の実数の値として出力される。これ以降の説明では、顔を囲む矩形枠を「検出枠」、顔の属性を「属性」、および検出の信頼度を「信頼度」のように、それぞれ略して呼ぶことにする。なお、検出結果は、これらの例に限定されるものではなく、検出した顔の位置および大きさ、顔の属性、及び検出の信頼度をそれぞれ認識可能になるのであれば、どのような情報の形態であってもよい。

ここで、検出部２０２における検出の精度は、検出領域画像内の顔サイズに相関がある。すなわち例えば、顔サイズが検出領域画像のサイズと比較して小さすぎると、検出領域画像を検出部２０２へ入力する画像サイズに縮小等する際に画素が潰れてしまい、検出精度が低下する。一方、顔サイズが検出領域画像より大きいと、目鼻などの顔の特徴を示す部位が検出領域画像内に収まらなくなる場合があり、検出精度が低下する。

また機械学習では、学習画像を用いて検出精度を向上させるように学習が行われているため、検出領域画像に対する顔サイズが、学習画像の画像サイズに対する顔サイズに近ければ検出精度は高くなる。言い換えると、学習モデルにおいて、検出領域画像のサイズに対する検出対象の顔のサイズの割合には、検出精度が高くなる範囲が存在している。したがって領域設定部２０４は、検出領域内の顔サイズが当該検出領域のサイズ（検出領域画像のサイズ）に対して精度の高い検出結果が得られるサイズになるように、撮像画像上の各位置に配置する検出領域のサイズを決定する。

また例えば、検出領域の境界部分に顔が存在するような場合、つまり検出領域の境界部分で顔が分断等されているような場合には、検出精度の低下が生じ得る。検出領域の境界部分に顔が存在する場合には、例えば、顔の一部が検出領域の外になったり、メガネが検出領域外になったり、顔が複数の検出領域にまたがる位置に存在したしりすることがある。例えば顔の一部が検出領域の外になっている場合には、目鼻などの顔の特徴を示す部位が検出領域内にないことや、顔の輪郭が検出できないことなどが原因で、検出精度が低下することがある。また例えば、「メガネ着用の顔」と「メガネ非着用の顔」の判断基準であるメガネが検出領域外にあると、その属性が判断できないことになる。さらに例えば、顔が複数の検出領域にまたがる位置に存在すると、一つの顔に対してそれぞれの検出領域ごとに検出結果が出力される場合もある。

このように、検出領域の境界部分に顔が存在する場合（境界部分で顔が分断等されている場合）には、検出精度の低下が生じ得る。この場合、検出領域境界における属性、検出枠の精度向上や一つの顔に対する複数の検出結果を後に統合するためには、再度物体検出を行うことが有効になるが、検出対象が多い場合には再検出処理を行う箇所が多くなり、検出処理回数が不定とる。また、再検出処理を行うと、処理負荷（処理コスト）が増大してしまう。さらに例えば、顔そのものが検出されなかった場合には、再検出処理も行われないことになるため、検出結果は未検出となってしまうことになる。

このため、本実施形態の情報処理装置１００は、撮像画像を分割等して複数の検出領域を設定する際には、画像の各位置において想定される検出対象サイズを基に、各検出領域のサイズを設定すると共に、隣接する検出領域同士に重複範囲を設定する。本実施形態の場合、領域設定部２０４は、各位置における検出対象サイズに対して所定の割合となる幅で重複するように、隣接する検出領域同士に重複範囲を設定する。なお、本実施形態では所定の割合として十割を想定している。すなわち領域設定部２０４は、隣接する検出領域同士を重複させる重複範囲の幅を、各位置に応じたサイズの検出対象を内包可能な幅に設定する。本実施形態では検出対象として顔を挙げているため、領域設定部２０４は、隣接する検出領域同士の境界部分に位置する顔サイズ分を内包できるだけの重複範囲を、それら隣接する検出領域同士で設定する。これにより、隣接する検出領域の境界部分に位置している顔は、それら隣接する検出領域の少なくともいずれか一方に包含されるようになる。したがって例えば目鼻などの顔の特徴を示す部位が検出領域内にないことや、顔の輪郭が検出できないことなどが無くなり、検出精度が向上することになる。検出領域および重複範囲の詳細は後述する。

また領域設定部２０４は、撮像画像上の検出対象範囲の全域を覆うように、それら複数の検出領域を設定する。なお本実施形態において、検出対象範囲とは、撮像画像のうち領域設定部２０４による複数の全ての検出領域が配置される範囲であり、この検出対象範囲内において顔検出の処理が行われる範囲である。検出対象範囲は、例えばユーザからの指定を基に、範囲設定部２０７により設定される。検出対象範囲の詳細は後述する。

上限設定部２０８は、検出領域数の上限を設定する。検出領域数の上限は、ユーザが設定してもよいし、検出領域当たりにかかる検出処理の時間が既知であれば、検出処理全体に許容される処理時間から算出してもよい。検出領域数の上限の詳細は後述する。

統合部２０５は、検出部２０２によって検出領域ごとに得られた検出結果を統合する。すなわち統合部２０５は、検出部２０２による検出対象の検出結果を、領域設定部２０４にて設定された検出領域の配置を基に統合する。本実施形態において、検出領域ごとの検出結果の統合は、同一位置の検出領域内での統合と、隣接検出領域間での統合との２段階で構成されている。統合処理の詳細は後述する。

図３は、統合部２０５における検出結果の統合処理の説明に用いる図である。
まず図３（ａ）を用いて、画像の各位置のうち、同位置の検出領域に対応した検出結果の統合処理について説明する。
学習モデルを用いた検出処理では、検出領域３０１内の一つの検出対象の物体３０２に対して複数の検出枠３０３、３０４が出力される場合がある。このような場合、統合部２０５は、それら複数の検出結果の重なり率を計算し、当該重なり率が予め決めた閾値以上の場合には同一の顔と判断して検出枠を統合する処理を行う。本実施形態の場合、重なり率は、ＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）で計算するものとし、閾値は一例として０．５とする。つまり、二つの検出枠３０３、３０４の共通部分を、それら検出枠３０３、３０４の和集合で割ったときの商が０．５以上であれば、統合部２０５は、同一の顔に対する検出結果である判定して、それら二つの検出結果を統合する。統合の方法としては、例えば検出結果の信頼度が最も高いもの以外を除外するＮＭＳ（Ｎｏｎ－ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）を用いる。

次に図３（ｂ）を用いて、隣接した検出領域間での統合処理について説明する。
本実施形態の場合、前述したように、隣接する検出領域同士で重複範囲が存在するため、その重複範囲に一部でも含まれる顔がある場合、検出部２０２は、それぞれの検出領域で検出結果を出力することになる。ここで、これらを統合するためには、ＩｏＵでは不適切な場合がある。また本実施形態の場合、隣接する検出領域同士はその位置で想定される顔サイズ分だけ重複するように設定されるため、図３（ｂ）に例示した検出領域３０５と検出領域３０６との間には重複範囲が存在している。そして図３（ｂ）の例のように、検出領域３０５と３０６との重複範囲に顔３０７の一部がかかっているような場合、検出領域３０５では検出枠３０８が得られ、検出領域３０６では検出枠３０９が得られることになる。このような場合、検出枠３０８と検出枠３０９のＩｏＵは低い値となり、同一の顔に対する検出結果であるにもかかわらず検出枠を統合する閾値に満たないため、統合処理は行われないことになる。したがって、統合部２０５では、隣接する検出領域の重複範囲における検出結果の統合ではＩｏＵを用いず、例えば二つの検出枠の包含関係を基に、一方の検出枠に包含されている他方の検出枠については除外するような処理を行う。つまり図３（ｂ）の例の場合、検出枠３０９に内包されている検出枠３０８が除外される。さらに、統合部２０５は、二つの検出枠の包含関係に加えて信頼度を用いてもよい。例えば検出枠３０９に内包されている検出枠３０８の信頼度が、当該検出枠３０９の信頼度よりに低いような場合には、その内包されている方の検出枠３０８を除外してもよい。なおこの例の場合、内包している方の検出枠３０９の信頼度から、内包されている方の検出枠３０８の信頼度を差し引いた差分値が、所定の閾値より大きいような場合に包含関係による統合処理を行うと判断してもよい。

また、誤検出の判断に関しても、隣接する検出領域の結果をその判断基準に含めてもよい。図３（ｃ）は検出対象である人物の顔ではない他の物体が、検出部２０２によって誤って検出された場合の例を示している。図３（ｃ）に示すように、例えば検出領域３１０の端にかかる位置において、その位置で想定される顔サイズと比較して小さい検出枠３１１が検出されたとする。このように、顔であるとして検出された検出枠のサイズが、その位置において想定される顔サイズと比べて明らかに小さい場合、当該検出領域３１０には顔の一部のみが含まれる可能性が高い。そしてこの場合、検出領域３１０と隣接している検出領域３１２においても、検出枠３１１で検出された顔を包含する検出枠が検出されるはずである。しかしながら、隣接する検出領域３１２において顔が検出されていない場合、検出領域３１０で検出された検出枠３１１は、別の物体の一部を検出した誤検出結果であると判断できる。すなわち、統合部２０５は、検出領域３１０において検出枠３１１が検出された重複範囲を共有している隣接の検出領域３１２において、顔が検出されていない場合、その検出枠３１１は誤検出された枠であると判断する。またこのような場合、検出領域３１０での検出結果は信頼度が低い、もしくは検出枠３１１のアスペクト比は正規の顔の検出結果のアスペクト比と異なると考えられるため、それらをも判断基準に用いるようにしてもよい。
統合部２０５は、以上のようにして、検出部２０２にて得られた検出結果を統合する処理を行う。

出力部２０６は、検出部２０２で検出されて統合部２０５で統合処理がなされた後の検出結果を、画像取得部２０１が取得した撮像画像に重畳して出力する。本実施形態の場合、出力部２０６は、例えば、検出結果に基づいて属性に応じた検出枠を撮像画像に重畳した画像を出力する。
記憶部２０９は、図２に示した情報処理装置１００の各機能部（２０１～２０８）において処理に用いるデータや処理結果として得られるデータ等を記憶する。

次に図４のフローチャートを参照して、情報処理装置１００にて行われる情報処理全体の流れを説明する。なお、これ以降の各フローチャートにおいて用いる符号のＳは、それぞれ処理ステップ（処理工程）を表しているとする。
まずＳ４０１において、画像取得部２０１は、前述したように物体検出を行う対象となる撮像画像を取得する。
次にＳ４０２において、サイズ取得部２０３は、前述したように画像取得部２０１にて取得された撮像画像の各位置で想定される顔サイズの分布を取得する。
さらにＳ４０３において、領域設定部２０４は、サイズ取得部２０３から得た顔サイズの分布と、範囲設定部２０７で設定された検出対象範囲と、上限設定部２０８で設定された領域数の上限とを基に、前述した重複範囲を含む複数の検出領域を設定する。

次にＳ４０４において、検出部２０２は、領域設定部２０４で設定された検出領域によって切り出された検出領域画像から、検出対象の物体である顔を検出する。
さらにＳ４０５において、検出部２０２は、領域設定部２０４にて設定された全ての検出領域について物体検出処理を行ったか否か判定し、未処理の検出領域がある場合にはＳ４０４に処理を戻す。一方、全ての検出領域での処理が行われた場合、情報処理装置１００の処理はＳ４０６に遷移する。

Ｓ４０６に進むと、統合部２０５は、検出部２０２にて検出領域ごとに得られた検出結果を前述したようにして統合する。
その後、Ｓ４０７において、出力部２０６は、統合部２０５による統合処理後の検出結果を、画像取得部２０１からの撮像画像に重畳した画像を出力する。

次に図５のフローチャートを参照して、領域設定部２０４における検出領域設定処理の詳細な流れを説明する。なお以下の説明において、範囲設定部２０７により設定される検出対象範囲は撮像画像全体とする。したがって領域設定部２０４は、撮像画像全体に対して漏れなく検出領域を設定する。また本実施形態では、機械学習による学習モデルに入力する画像は正方形であり、検出領域も正方形の領域として設定されるとする。このため、以降の説明において、検出領域のサイズとは、正方形の検出領域の一辺の画素数により表されるとする。

まずＳ４３１において、領域設定部２０４は、サイズ取得部２０３から各位置に対応した顔サイズの分布を取得する。ここでサイズ取得部２０３では、前述したようにユーザが各位置に設定した数点の顔サイズもしくは画像上の各位置から検出された顔を基に、画像上の任意の位置における平均的な顔サイズを補間により推定して顔サイズの分布を取得しているとする。本実施形態では説明を簡単にするために、顔サイズは画像上でｙ軸方向（縦方向）のｙ座標系にのみ依存し、ｘ軸方向（横方向）のｘ座標系での顔サイズの変化は無いものとする。すなわち補間による推定処理において、画像上のｙ軸方向における顔サイズをｓとしたとき、顔サイズｓはｓ＝ｂｙ＋ｃと仮定する。この場合、未知のパラメータはｂおよびｃである。そしてサイズ取得部２０３は、ユーザが指定した顔の位置およびサイズの集合、もしくは画像から検出された顔の位置およびサイズの集合を用い、最小二乗法等の統計処理によって未知のパラメータを求めるとする。

図６は、撮像画像５０１において、ｙ座標に依存する顔サイズｓの分布の一例を示した図である。
本実施形態において、画像取得部２０１が取得する撮像画像は、地面や床面より高い位置に設置された監視カメラ等の撮像装置により検出対象の物体（人物）等を見下ろすような位置から撮像した画像であるとする。このため撮像画像５０１において、上辺近傍に写っている人物は撮像装置から遠い位置の人物であり、一方、下辺近傍に写っている人物は撮像装置から近い位置の人物となる。すなわち撮像画像５０１において、上辺近傍に写る人物の顔５０２のサイズは、下辺近傍に写る人物の顔５０３のサイズより小さいサイズになる。なお、顔サイズにおけるアスペクト比は、撮像画像のいずれの位置においても一定であり、その値（アスペクト比）は１であるとする。つまり各位置での顔サイズの縦幅は顔の横幅である顔サイズｓに等しいとする。このため撮像画像について、各位置における顔サイズの横幅の分布を取得しておけば、事前に定めた顔サイズのアスペクト比から、各位置での顔サイズの縦幅が算出可能となる。なお本実施形態において、ユーザが任意の位置の顔サイズを設定する場合、ユーザは、入力部１０５を介して顔５０２や５０３等の顔型を任意の位置にドラッグして顔の位置と顔サイズを変更してもよいし、位置・サイズを示す数値を入力してもよい。

次にＳ４３２において、領域設定部２０４は、画像の上辺での顔サイズとして想定される最小の顔サイズを基に、当該上辺側における検出領域のサイズを決定する。本実施形態では画像の上辺側を最上段とし、領域設定部２０４は、当該最上段で想定される最小の顔サイズを基に当該最上段に設定する検出領域のサイズを決定する。

前述したように、検出部２０２における顔の検出精度は、検出領域画像内の顔サイズと相関があり、顔サイズが検出領域画像のサイズと比較して小さすぎると、検出精度が低下する。また、検出精度の低下が略々無い最小の顔サイズは、検出処理の際に使用する学習モデルによる。本実施形態では、顔サイズの横幅が検出領域のサイズの１／４以上であれば検出精度の低下が略々無いものとする。なお本実施形態では、図示の都合上、顔サイズの横幅を検出領域サイズの１／４としたが、実際には学習モデルの入力を数百ピクセルとすると、顔サイズは１／１０程度の数十ピクセルが適当である場合が多い。このため、検出精度の低下が略々無い最小の顔サイズは、検出領域サイズの１／１０程度の数十ピクセルとしてもよい。

図７は、画像の上辺近傍の位置で想定される顔サイズの４倍のサイズの領域を、当該上辺側に対応した最上段の検出領域として設定した様子を示した図である。すなわち領域設定部２０４は、撮像画像の上辺における顔５０２のサイズを基に、その４倍のサイズの領域を最上段における検出領域６０１として設定する。Ｓ４３２の処理によって最上段の検出領域のサイズを決定した後、領域設定部２０４は、次のＳ４３３に処理を進める。

Ｓ４３３の処理に進むと、領域設定部２０４は、前述のようにして設定した検出領域が、検出対象範囲の下端、つまり撮像画像の下端まで達したか否かを判定する。ここまでの説明では、最上段の検出領域のみしか設定されていないため、Ｓ４３３において、領域設定部２０４は、検出領域が検出対象範囲の下端まで到達していないと判定し、次のＳ４３４に処理を進める。

Ｓ４３４の処理に進むと、領域設定部２０４は、最上段の次の段（最上段が１段目であるため２段目となる）の検出領域を設定する。本実施形態の場合、領域設定部２０４は、１段目（最上段）で設定した検出領域に内包される顔のうち、最も大きい顔サイズ（最大顔サイズ）を基に、２段目の検出領域を設定する。具体的には領域設定部２０４は、１段目（最上段）において設定した検出領域に内包される顔のうち、当該１段目の検出領域の最下端の位置で想定される顔の最上部を上端とし、さらに当該顔を最小の顔サイズとする検出領域を、２段目の検出領域として設定する。

図８は、２段目の検出領域を設定した様子を示した図である。すなわち領域設定部２０４は、１段目の検出領域６０１に内包される顔であって、当該検出領域６０１の最下端の位置で想定される顔７０１のサイズに対して４倍サイズで且つ、当該顔７０１の最上部が上端となる検出領域７０２を２段目の検出領域に設定する。この図８の例からわかるように、１段目で設定された検出領域６１０と、２段目で設定された検出領域７０２との間には、ｙ軸方向において顔７０１のサイズ分だけの重複範囲が存在することになる。領域設定部２０４は、Ｓ４３４の処理によって２段目の検出領域７０２のサイズを決定した後、次のＳ４３３に処理を戻す。

したがって２段目の検出領域を設定した後にＳ４３３に進んだ場合、領域設定部２０４は、前述同様に、設定した検出領域が検出対象範囲の下端、つまり撮像画像の下端まで達したか否かを判定する。ここまでの説明では、２段目の検出領域まで設定されているが、検出領域は未だ検出対象範囲の下端まで到達していないとする。このため、領域設定部２０４は、Ｓ４３４に処理を進める。

そしてＳ４３４の処理に進むと、領域設定部２０４は、２段目の次の段（３段目とする）における検出領域を設定する。このときの領域設定部２０４は、２段目において設定した検出領域に内包される顔のうち、当該２段目の検出領域の最下端の位置で想定される顔の最上部を上端とし、さらに当該顔を検出最小サイズとする検出領域を、３段目の検出領域として設定する。

図９は、３段目の検出領域を設定した様子を示した図である。すなわち領域設定部２０４は、２段目の検出領域７０２に内包される顔であって、当該検出領域７０２の最下端に位置する顔８０１のサイズに対して４倍のサイズで且つ、当該顔８０１の最上部が上端となる検出領域８０２を３段目の検出領域として設定する。

図９の例に示すように、３段目の検出領域は検出対象範囲の下端、つまり撮像画像の下端に到達しているので、領域設定部２０４は、Ｓ４３３において検出領域は検出対象範囲の下端まで到達したと判定して、Ｓ４３５に処理を進める。

Ｓ４３５の処理に進むと、領域設定部２０４は、前述のようにして最上段（１段目）から３段目までの段ごとに設定した検出領域に含まれる顔サイズの最大値を基に、それら段ごとに、ｘ軸方向（横方向）に隣接する検出領域間の重複範囲を設定する。さらに領域設定部２０４は、段ごとに設定したｘ軸方向の隣接検出領域間の重複範囲を基に、それら段ごとに、ｘ軸方向に設定する検出領域の数を算出する。本実施形態の場合、領域設定部２０４は、検出対象（顔）のサイズに応じて重複範囲を設定する際の所定の条件、および検出領域のサイズを設定する際の所定の条件を満たす、最少の数を検出領域数として設定する。本実施形態において、重複範囲を設定する際の所定の条件とは、重複範囲の幅を決める条件であり、画像の各位置における検出対象サイズ（顔サイズ）に対して所定の割合となる幅である。本実施形態の場合、各位置における検出対象サイズに対する所定の割合は前述したように十割となされている。また本実施形態において、検出領域のサイズを設定する際の所定の条件とは、検出対象サイズと検出領域のサイズとの関係から検出精度を確保可能となるサイズに関する条件である。本実施形態では、検出対象サイズと検出領域のサイズとの関係から検出精度を確保可能となるサイズとは、前述したように学習モデルを用いた検出において精度を維持可能なサイズである。

図１０（ａ）は、最上段（１段目）においてｘ軸方向（横方向）の検出領域数を算出し、その検出領域数の検出領域をｘ軸方向に配置した例を示した図である。ここで、図１０（ａ）に示すように、最上段（１段目）の検出領域６０１に内包される顔のうち、そのサイズが最大となる顔は、検出領域６０１の最下端の位置で想定される顔７０１となる。このため領域設定部２０４は、その検出領域６０１の最下端の位置で想定される顔７０１のサイズを基に、ｘ軸方向に隣接する各検出領域間の重複範囲の幅を決定する。すなわち領域設定部２０４は、最上段においてｘ軸方向に隣接する検出領域間の重複範囲の幅を、検出領域６０１に内包される可能性がある最大顔サイズの顔７０１の横幅分を内包可能な幅とする。重複範囲の幅をこのように設定することにより、最上段（１段目）には、顔７０１より上側の位置で想定される顔を内包する検出領域が少なくとも一つは存在することになる。なお、図１０（ａ）では、ｘ軸方向に重複範囲を持つ６個の検出領域が設定された例が示されている。

また領域設定部２０４は、最上段（１段目）の検出領域数ｎを下記の式（１）により算出する。式（１）において、ｓは顔７０１の横幅、ｗは撮像画像の横幅（検出対象範囲の横幅）、ｄは検出領域６０１のサイズである。またｃｅｉｌ（）は、天井関数である。

ｎ＝ｃｅｉｌ（（ｗ－ｓ）／（ｄ－ｓ））式（１）

２段目についても１段目（最上段）と同様にしてｘ軸方向に隣接する検出領域間の重複範囲および検出領域数が設定される。
図１０（ｂ）は、２段目においてｘ軸方向に隣接する検出領域７０２間で重複範囲を設定し、さらに検出領域数を算出して、それらの検出領域をｘ軸方向に配置した例を示した図である。すなわち２段目の場合、検出領域７０２に内包される最大顔サイズの顔は、当該検出領域７０２の最下端の位置における顔８０１であるため、領域設定部２０４は、その顔８０１のサイズを基にｘ軸方向に隣接する各検出領域間の重複範囲の幅を決定する。また領域設定部２０４は、式（１）において、ｓを顔８０１の横幅、ｄを検出領域７０２のサイズとして、２段目の検出領域数ｎを算出する。これにより、２段目には、顔８０１より上側の位置で想定される顔を内包する検出領域が少なくとも一つは存在することになる。なお、図１０（ｂ）では、ｘ軸方向に重複範囲を持つ５個の検出領域が設定された例が示されている。

３段目についても前述同様にしてｘ軸方向に隣接する検出領域間の重複範囲および検出領域数が設定される。図１０（ｃ）は、３段目においてｘ軸方向に隣接する検出領域８０２間で重複範囲を設定し、さらに検出領域数を算出して、それらの検出領域をｘ軸方向に配置した例を示した図である。なお、図１０（ｃ）に示した３段目の検出領域数を算出する際に使用する顔の横幅は、当該３段目の検出領域の下端の位置で想定される顔サイズではなく、検出対象範囲の最下端で想定される最大の顔５０３のサイズが用いられる。図１０（ｃ）では、ｘ軸方向に重複範囲を持つ４個の検出領域が設定された例が示されている。

図１１は、前述のように１段目から３段目までの段ごとに顔サイズに応じた重複範囲幅および検出領域サイズの条件を満たす最少検出領域数の全ての検出領域６０１，７０２，８０２を、検出対象範囲を覆うように配置した状態を示した図である。

前述のようにして検出対象範囲に対する全ての検出領域を設定すると、領域設定部２０４は、次のＳ４３６において、全ての検出領域６０１，７０２，８０２が検出対象範囲（撮像画像５０１の範囲）内に収まるように、各検出領域を調整する。具体的には、領域設定部２０４は、まず各段において、両端の検出領域が検出対象範囲（撮像画像）の両端の位置と合うように配置した後、他の残りの検出領域を等間隔に並べるように調整する。

図１２（ａ）は、各段についてＳ４３６の調整処理が行われた後の検出領域１０６１，１０７２，１０８２の配置状態を示した図である。なお図１２（ａ）には、参考のために、各段において隣接する検出領域間の重複範囲を設定したときに用いられた顔７０１，８０１，５０３も図示している。

ここで、３段目である最下段の検出領域１０８２は、図１２（ａ）に示すように、検出対象範囲の下辺からはみ出す可能性がある。また、最下段の検出領域１０８２において精度よく検出できる最小顔サイズは、検出領域１０８２の上端側の位置で想定される顔８０１のサイズである。このため、検出対象範囲の下辺に合わせようとして最下段の検出領域１０８２をそのまま上側に移動させると、検出領域１０８２のサイズを設定した際の最小顔サイズの顔８０１よりも小さいサイズの顔が、当該検出領域１０８２内に含まれる可能性がある。この場合、その顔８０１よりも小さいサイズの顔を、検出領域１０８２内で検出したときの精度は落ちる可能性がある。

一方、検出対象範囲内でｘ軸方向に検出領域を配置する際には、前述した式（１）のように検出対象範囲の横幅（ｗ）を基に検出領域数が算出され、最下段でも両端の検出領域を検出対象範囲両端に位置させ、残りの検出領域を等間隔に並べる位置調整が行われる。したがって、図１２（ａ）に示すように、最下段の検出領域１０８２に含まれる可能性がある最大顔サイズの顔５０３の横幅に対し、ｘ軸方向の重複範囲幅１００３にはある程度の余裕が生じる場合がある。言い換えると、当該最下段の各検出領域１０８２には、縮小可能な余裕が生じると考えられる。

このため、領域設定部２０４は、前述した検出対象サイズ（顔サイズ）に応じた重複範囲の幅および検出領域サイズの条件を満たす範囲内で、検出領域（顔）のサイズを縮小する。この場合、領域設定部２０４は、最下段の各検出領域の重複範囲の幅を当該最下段の位置における最大顔サイズの顔５０３の横幅未満にしないという条件を維持しつつ各検出領域を縮小して、検出対象範囲の下辺からはみ出した分を収めるようにする。

図１２（ｂ）は、最下段である３段目の検出領域１０８２を、検出対象範囲の最下端の位置の顔サイズ分の重複範囲幅を維持しつつ、各検出領域を縮小した後の様子を示した図である。ここで、図１２（ｂ）の最下段の検出領域１０８２は、図１２（ａ）で示された最下段の検出領域１０８２より小さくなっているため、このときの検出領域において精度良く検出可能な顔のサイズも小さくなる。したがって顔８０１のサイズより小さい顔も精度良く検出することが可能になり、各検出領域１０８２を上側に移動させて、それら検出領域１０８２の下辺と検出対象範囲の下辺とを合わせるようにしても、検出精度の低下は生じなくなる。ただしこの場合、最下段の検出領域を上側に移動させる際には、検出対象範囲の最下段が検出領域に含まれる位置で且つ、検出領域に含まれる顔のサイズが、検出領域のサイズの１／４以上になる位置までしか移動させないという条件を満たす必要がある。またこの条件があるため、最下段の検出領域の全てを、検出対象範囲の下辺に合わせられる位置まで上側に移動させることができない場合も生じ得る。この場合、後述する変形例で説明するように、検出領域数を増やしたり、内包される顔サイズが検出領域サイズの１／４以下になることを許容して、上側に移動したりすることで、検出領域の全域を検出対象範囲内に収めてもよい。

図１２（ｃ）は、検出対象範囲の下辺に合わせるように最下段（３段目）の検出領域を上側に移動させた後の状態を示した図である。
領域設定部２０４は、以上説明したような検出領域の調整処理を行うことにより、全ての検出領域が検出対象範囲内に収まるようにする。その後、領域設定部２０４は、図５のフローチャートの処理を終了する。

なお前述したように、検出対象範囲の下辺に合わせるように最下段の検出領域を上側に移動させる調整を行った後、領域設定部２０４は、２段目と１段目の検出領域に対しても３段目で行ったのと同様の縮小や上側へ移動させる調整処理を行ってもよい。すなわち２段目や１段目の検出領域に３段目と同様の縮小処理を行った場合、当該縮小処理後の検出領域のサイズは、Ｓ４３２で検出領域を設定した際に想定した最小顔サイズに対して相対的に小さくなる。このため、Ｓ４３２で想定した最小顔サイズに対する検出精度は上がることになる。また本実施形態では、検出領域の縮小や上側への移動を行う場合、以降に下段が無く重複範囲を考慮する必要のない最下段の検領域から縮小と上側への移動を行ったが、任意の段から縮小、上側へ移動させる調整処理を行ってもよい。ただしその場合、下段の検出領域との重複範囲幅が当該位置で想定される顔サイズ分をカバーできる必要があり、その重複範囲幅の条件を満たすためには、当該下段側を縮小して上側へ移動させるような調整を行うことが望ましい。

以上説明したように、第１の実施形態の情報処理装置１００は、撮像画像（検出対象範囲）の各位置において想定される検出対象サイズ（顔サイズ）を基に、検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定する。これにより誤検出や未検出等の発生が低減され、その結果、複数の検出領域における物体検出および検出結果の統合処理において最終的に適切な検出結果を出力することが可能となる。すなわち本実施形態によれば、撮像画像から検出対象の物体を検出する場合において、画像から検出対象を検出する際の処理負荷の増大を抑えつつ、誤検出や未検出等を低減可能となる。

＜変形例１＞
前述した図５のフローチャートのＳ４３６の検出領域調整処理では、Ｓ４３５で算出された検出領域数を維持しつつ検出領域を調整したが、例えば検出領域数を増やせば検出領域のサイズを縮小できるため、検出領域数を増やすようにしてもよい。すなわち領域設定部２０４は、検出対象（顔）のサイズに応じた重複範囲の幅の条件、検出領域のサイズの条件、および検出領域数の上限の条件を満たす範囲で、検出領域数を増やして検出領域のサイズを縮小してもよい。ただし、検出領域数を増やし過ぎると処理時間が長くなるため、処理時間として許容可能な範囲内で検出領域数を増やすようにする。なお、この例の場合も、検出領域数の上限は、上限設定部２０８により設定される上限数とする。

また第１の実施形態では、顔サイズがｙ座標のみに依存する例を挙げた。このため、例えば検出領域数を増やす場合には、検出領域のサイズと、当該検出領域内で想定される最小の顔サイズとの比率が最も小さくなる段について、検出領域数を増やすようにすることが、検出精度の観点から効率的である。ただし、検出領域数を増やした段の検出領域は縮小されることになり、検出領域の上辺側と下辺側に設定される重複範囲幅を維持するためには、その段より下側の検出領域を上側に移動させる必要がある。このため、全ての検出領域が検出対象範囲内に収まるという条件を満たしているかに注意が必要となる。すなわち全ての検出領域が検出対象範囲内に収まるという条件が満たされない場合、処理時間の増加が許容されるのであれば、さらに元の最下段のさらに下の段に検出領域を追加してもよい。なお、このときさらに下の段に追加する検出領域のサイズは、元の最下段の検出領域のサイズより大きくなるので、追加される検出領域の数は、元の最下段の検出領域の数以下となる。

＜変形例２＞
前述した実施形態において、検出領域の設定処理では、撮像画像内の顔サイズが小さい場合や、ｙ軸方向に対する顔サイズの大きさの変化が大きい場合には、さらに多くの検出領域が必要になる。ただし、検出領域が増えるほど、処理時間は長くなるため、図５のフローチャートの検出領域設定処理において求められる検出領域の数が、許容される処理時間から算出される検出領域数の上限を超える場合には、所定の警告を発するようにしてもよい。すなわちこの場合、領域設定部２０４は、検出対象（顔）のサイズに応じた重複範囲の幅の条件、検出領域のサイズの条件を満たすようにして検出対象範囲に収める検出領域を設定する際に、検出領域数が上限を超過する場合には所定の警告情報を出力する。なお、警告情報は、表示部１０４へ警告表示を行うための情報であってもよいし、不図示のスピーカ等から警告音声を出力するための情報であってもよい。

また許容される処理時間から算出される検出領域数が上限を超える場合、例えば、重複範囲の幅を顔サイズの等倍より狭くすること、あるいは最小の顔サイズに対する検出領域のサイズを大きくすることで、必要な検出領域数を減らすようにしてもよい。ただし、検出精度と検出領域数とはトレードオフの関係にある。このため、検出領域のサイズと検出精度との関係、重複範囲の幅と検出精度との関係が既知であるならば、検出領域数の上限を超過する場合に、重複範囲の条件もしくは検出領域サイズの条件を緩和してもよい。つまり領域設定部２０４は、検出対象サイズに応じて重複範囲の幅と検出領域のサイズの条件を満たしつつ検出対象範囲に収めるように検出領域を設定する時、検出領域数が上限を超過する場合には、重複範囲の幅や検出領域のサイズの条件を緩和する。またこの場合、検出領域数が上限に収まる範囲で最も精度が良い検出領域の配置を自動的に再設定してもよい。また前述のように警告を発する時に、このような検出領域の配置の再設定を行うか否かを、ユーザが選択可能にするＧＵＩを表示等してもよい。さらに、重複範囲の幅と顔サイズとの比率、および、最小の顔サイズと検出領域のサイズとの比率を、ユーザが指定可能とし、ユーザにて指定された比率を用いて検出領域の再設定を行ってもよい。

＜変形例３＞
前述した実施形態の場合、検出領域のサイズは、当該検出領域を設定する位置で想定される顔サイズによって決まるため、当該設定する位置で想定される顔サイズが小さい場合には、検出領域が小さくなる。一方で、検出部２０２へ入力する画像のサイズは、学習モデルによって決まっているため、検出部２０２へ入力する画像サイズよりも検出領域のサイズが小さい場合には、検出領域を拡大して入力する必要がある。この場合、拡大率が大き過ぎると、つまり検出領域を拡大し過ぎると、検出領域画像内の顔が不鮮明になるため検出精度が低下する可能性がある。そこで、範囲設定部２０７は、各位置において想定される検出対象サイズに基づいて検出対象範囲を設定するようにしてもよい。すなわち範囲設定部２０７は、サイズ取得部２０３にて取得された顔サイズの分布を基に、当該顔サイズが予め定められた最小値以上となる範囲を検出対象範囲に設定する。このように検出対象範囲を設定することにより、当該検出対象範囲内において領域設定部２０４により設定される検出領域は、顔サイズが予め定められた最小値以上の検出領域となり、その結果、検出部２０２の検出精度が維持されることになる。なお、顔サイズについて予め定められる最小値は、ユーザが設定してもよいし、検出部２０２で用いる学習モデルに応じた拡大率と検出精度との関係、および学習モデルにおいて精度良く検出可能な最小の顔サイズから算出される値を用いてもよい。

［第２の実施形態］
第１の実施形態では、顔サイズがｙ座標にのみ依存する例を挙げたため、各段の検出領域サイズおよびｙ軸方向の重複範囲が決定された後に、ｘ軸方向の重複範囲幅と検出領域数が決定される。ただしこれには限定されず、例えば撮像画像の顔サイズがｘ座標に依存する場合であっても、検出領域を設定することができる。すなわち撮像画像の顔サイズがｘ座標に依存する場合も、最終的に検出対象範囲内の各位置で想定される顔を内包する検出領域で且つ、検出対象範囲の全域を覆うように検出領域を設定すればよい。撮像画像の顔サイズがｘ座標に依存する場合には、例えば、検出領域が未設定の領域において顔サイズが最も小さい位置から順に検出領域を割り当てるなどすればよい。さらに、顔サイズがｙ座標とｘ座標のいずれか一方にのみ依存する場合だけでなく、ｙ座標とｘ座標の両方に依存する場合にも、検出領域を設定することができる。

第２の本実施形態では、顔サイズがｙ座標だけでなくｘ座標にも依存する場合において、検出領域を設定する例について説明する。第２の実施形態の情報処理装置１００の構成は、前述した図１、図２と同様であるため、それらの図示および説明は省略する。第２の実施形態の場合、サイズ取得部２０３は、画像のｘ軸方向とｙ軸方向の両方向における各位置に対応した検出対象サイズ（顔サイズ）の分布を取得する。そして第２の実施形態の領域設定部２０４は、ｘ軸方向とｙ軸方向の両方向における各位置に対応した検出対象サイズの分布を基に、各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定する。

図１３～図１８は、顔サイズがｙ座標だけでなくｘ座標にも依存する場合の検出領域の設定例の説明に用いる図である。なお第２の実施形態の説明でも、検出対象範囲は前述同様に例えば撮像画像５０１の全域とする。またここでは説明をわかり易くするために、顔サイズはｙ軸方向およびｘ軸方向において正方向になるほど大きくなり、顔サイズが最も小さい位置は撮像画像５０１の左端上端の座標（ｘ，ｙ）＝（０，０）の位置であるとする。

まず、領域設定部２０４は、検出対象範囲全体を、検出領域が設定されていない未設定領域とする。本実施形態の場合、領域設定部２０４は、未設定領域の左端上端部に検出領域を設定し、後述するような設定完了領域を更新する処理を繰り返すことで、検出対象範囲全域に検出領域を設定する。

図１３は、未設定領域の左端上端部に一つ目の検出領域を設定し、その検出領域から設定完了領域を設定する例の説明図である。この時点では、撮像画像５０１全体（検出対象範囲全体）が未設定領域であるので、領域設定部２０４は、未設定領域の左端上端部である撮像画像５０１の左端上端に、検出領域１８０２を設定する。検出領域のサイズは、未設定領域の左端上端部の位置で想定される顔サイズ１８０１が検出精度の低下の無い最小の顔サイズとなるような大きさとする。なお第１の実施形態では、検出領域のサイズの１／４サイズを検出精度の低下が無い最小の顔サイズとしたが、第２の実施形態では、検出領域のサイズの１／８以上の顔サイズであれば、検出精度の低下が無いものとして説明する。すなわちこの例の場合、領域設定部２０４は、検出精度の低下が無い最小の顔サイズの８倍サイズの検出領域１８０２を設定する。

さらに領域設定部２０４は、一つ目の検出領域１８０２の右辺側および下辺側に、後に設定される隣接する検出領域との間の重複範囲をそれぞれ設定する。重複範囲の幅は、検出領域１８０２の右下端の位置で想定される顔サイズ１８０３分とする。本実施形態の場合、顔サイズはｙ軸およびｘ軸の正方向になるほど大きくなる例を想定しているため、検出領域１８０２の右下端の顔サイズ１８０３が、当該検出領域１８０２内で想定される最大の顔サイズとなる。このため、領域設定部２０４は、検出領域１８０２の右辺側および下辺側にそれぞれ設定する重複範囲の幅を、その顔サイズ１８０３に応じた幅に設定する。また、領域設定部２０４は、検出領域１８０２のうち重複範囲除いた領域を、設定完了領域１８０４とする。なお、検出領域１８０２のうち設定完了領域１８０４を除いた領域は、この時点では未設定領域となる。

次に、領域設定部２０４は、一つ目の検出領域１８０２の下辺側に、二つ目の検出領域を設定する。領域設定部２０４は、設定済みの一つ目の検出領域１８０２の設定完了領域１８０４を除いた未設定領域に、二つ目の検出領域を設定する。

図１４は、一つ目の検出領域１８０２の下辺側の未設定領域に二つ目の検出領域を設定する様子の説明に用いる図である。領域設定部２０４は、一つ目の検出領域１８０２の下辺側における未設定領域、つまり設定完了領域１８０４の下辺側における未設定領域の左端上端部に、二つ目の検出領域１８０６を設定する。二つ目の検出領域１８０６を設定する場合も前述した一つ目の検出領域の設定時と同様に、当該検出領域１８０６のサイズは、未設定領域の左端上端の位置で想定される顔サイズ１８０５の８倍に設定される。また、検出領域１８０６の重複範囲についても一つ目の検出領域の場合と同様に、当該検出領域１８０６の右辺側および下辺側に設定され、当該重複範囲の幅は検出領域１８０６の右下端の位置で想定される顔サイズ１８０７分の幅となされる。そして、領域設定部２０４は、検出領域１８０６のうち重複範囲を除いた領域を、設定完了領域１８０８とする。なお、検出領域１８０６のうち設定完了領域１８０８を除いた領域は、この時点では未設定領域となる。

図１５は、前述のようにして設定済みの検出領域の下辺側に隣接する検出領域を順に設定し、それら各検出領域についてそれぞれ設定完了領域を決めていった様子を示した図である。前述のように検出領域を順次設定していったことで、検出対象範囲の下辺外に検出領域が出てしまうことになる場合、領域設定部２０４は、検出対象範囲の下辺外に出るようになった検出領域を、当該検出対象範囲内に収まるように配置する。図１５の検出領域１８０９は、当該検出対象範囲内に収まるように配置された検出領域を示している。またこの時の領域設定部２０４は、検出対象範囲内に収めた検出領域１８０９については下辺側の重複範囲は設けず、右辺側にのみ重複範囲を設定する。当該検出領域１８０９の右辺側に設けられる重複範囲の幅は、当該検出領域１８０９の右下端の位置で想定される顔サイズ１８０７分の幅となされる。そして、領域設定部２０４は、検出領域１８０９のうち重複範囲除いた領域を、設定完了領域１８１１とする。なお、検出領域１８０９のうち設定完了領域１８１１を除いた領域は、この時点では未設定領域となる。

前述したようにして、検出対象範囲の下辺部の設定完了領域１８１１を設定した後、領域設定部２０４は、次の検出領域を設定する位置を、前述した一つ目の検出領域１８０２の右辺側にする。
図１６は、一つ目の検出領域１８０２の右辺側に次の検出領域を設定する際の説明に用いる図である。領域設定部２０４は、図１６に示すように、一つ目の検出領域１８０２の右辺側に、次の検出領域１８１２を設定する。このときの領域設定部２０４は、一つ目の検出領域１８０２の右辺側に設定した重複範囲分だけ重複するようにして検出領域１８１２を設定する。また領域設定部２０４は、この検出領域１８１２の右辺側と下辺側に、後に設定される隣接する検出領域との間の重複範囲を設定する。重複範囲の幅は、検出領域１８１２の右下端の位置で想定される顔サイズ分とする。そして、領域設定部２０４は、検出領域１８１２のうち重複範囲を除いた領域を、設定完了領域１８１３とする。なお、検出領域１８１２のうち、設定完了領域１８１３と既に設定済みとなっている設定完了領域を除いた領域は、この時点では未設定領域となる。

次に、領域設定部２０４は、検出領域１８１２の設定後、当該検出領域１８１２における設定完了領域１８１３の下辺側に、次の検出領域を設定する。
図１７は、設定完了領域１８１３の下辺側に検出領域１８１５を設定する際の説明に用いる図である。このときの領域設定部２０４は、図１６に示した設定完了領域１８１３の下辺側における未設定領域の左端上端部の位置と、その位置における顔サイズ１８１４とに基づいて、検出領域１８１５を設定する。すなわち領域設定部２０４は、検出領域１８１５のサイズを顔サイズ１８１４の８倍に設定する。また領域設定部２０４は、検出領域１８１５の右辺側と下辺側に、後に設定される隣接する検出領域との間の重複範囲を設定する。重複範囲の幅は、検出領域１８１５の右下端の位置で想定される顔サイズ１８１６分とする。そして、領域設定部２０４は、検出領域１８１５のうち重複範囲を除いた領域を、設定完了領域１８１７とする。なお、検出領域１８１５のうち、設定完了領域１８１７と既に設定済みとなっている設定完了領域を除いた領域は、この時点では未設定領域となる。

領域設定部２０４は、前述したような処理を繰り返すことで、検出対象範囲内を覆うように全検出領域を配置する。
図１８は、検出対象範囲全体を覆うように検出領域が配され、検出対象範囲内の全てが設定完了領域となされた後の配置例を示した図である。そして、領域設定部２０４は、検出対象範囲全体を覆うように検出領域が配置されると、全検出領域の設定が完了したと判断する。
本実施形態の情報処理装置は、前述のような処理により、顔サイズがｙ座標だけでなくｘ座標にも依存する場合であっても、検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定でき、検出対象範囲全体を覆うような検出領域を設定することができる。

［第３の実施形態］
次に、第３の実施形態に係る情報処理装置１００について説明する。第３の実施形態の情報処理装置１００の構成は、前述した図１、図２と同様であるため、それらの図示および説明は省略する。第３の実施形態では、前述した第１の実施形態のように、顔サイズがｙ座標にのみ依存する場合を例に挙げ、また顔サイズの横幅が検出領域のサイズの１／４以上であれば検出精度の低下が略々無いとする例を挙げて説明する。

前述した第１の実施形態では、顔サイズｓはｓ＝ｂｙ＋ｃで表され、ｙ座標に対して一意的に定まる値になる例を挙げて説明した。ここで例えば、撮像装置の俯角が浅い場合、顔サイズは、図１９に示すように、同じｙ座標に対してサイズが大きく異なるような分布になる場合がある。図１９において、顔１１０１はｙ＝ｙ０の位置で想定される最小の顔サイズ、顔１１０２はｙ＝ｙ１の位置で想定される最小の顔サイズ、顔１１０３はｙ＝ｙ０の位置で想定される最大の顔サイズ、顔１１０４はｙ＝ｙ１の位置で想定される最大の顔サイズの例とする。

第３の実施形態の場合、サイズ取得部２０３は、ｙ座標が同じである同位置において想定される検出対象（顔）の最大サイズ（最大顔サイズ）および最小サイズ（最小顔サイズ）を取得する。第３の実施形態では、顔サイズがｙ座標にのみ依存する場合を例に挙げているため、同じｙ座標の位置において想定される、顔サイズの最小値である最小サイズｓｓはｓｓ＝ｄｙ＋ｅ、顔サイズの最大値である最大サイズｓｌはｓｌ＝ｆｙ＋ｇで表すことができる。

このため、第３の実施形態の領域設定部２０４は、サイズ取得部２０３で取得された各位置に対応した検出対象（顔）の最小サイズおよび最大サイズに基づいて、検出領域のサイズおよび隣接する検出領域間の重複範囲を設定する。

第３の実施形態においても、第１の実施形態で用いた図５のフローチャートを参照しながら検出領域の設定方法を説明する。なお、撮像装置の俯角が浅い場合、撮像画像５０１の上辺近傍には顔が写らないことも多いため、第３の実施形態では、図１９に示すように、ｙ座標がｙ０以上（ｙ≧ｙ０）の領域を検出対象範囲１１０５とする。

第３の実施形態の場合、図５のフローチャートのＳ４３１において、領域設定部２０４がサイズ取得部２０３から取得する顔サイズの分布は、図１９に示したようなｙ≧ｙ０（ｙ座標がｙ０以上）の検出対象範囲１１０５における顔サイズの分布になる。第３の実施形態では、前述したように、撮像画像５０１の各位置において想定される顔の最小サイズはｓｓ＝ｄｙ＋ｅ、顔の最大サイズはｓｌ＝ｆｙ＋ｇのように、ｙ座標にのみ依存する。以下、最小サイズｓｓとして求められる各位置での最小の顔を「最小顔」と呼び、最大サイズｓｌとして求められる各位置での最大の顔を「最大顔」と呼ぶことにする。また、第３の実施形態において、顔サイズのアスペクト比は１とする。すなわち各位置での顔の縦幅は顔の横幅である顔サイズに等しいとする。

なお第３の実施形態の例でも、ユーザが任意の位置の顔サイズを設定する場合、ユーザは、入力部１０５を介して顔５０２や５０３の顔型を任意の位置にドラッグしてそれら位置やサイズを変更してもよいし、位置やサイズを示す数値を入力してもよい。第３の実施形態の場合は、このような設定入力が、最大顔と最小顔について行われる。

次にＳ４３２において、領域設定部２０４は、検出対象範囲１１０５内の最小顔、つまりｙ＝０の位置の最小顔１１０１を基に、最上段（１段目）の検出領域のサイズを決定する。前述したように、検出部２０２の検出精度は検出領域画像内の顔サイズと相関があり、顔サイズの横幅が検出領域サイズの１／４以上ならば検出精度低下が略々無いとすると、領域設定部２０４は、検出領域サイズを最小顔のサイズの４倍とする。

図２０は、検出対象範囲１１０５の最上段の最小顔の４倍サイズの検出領域を、当該最上段に設定した様子を示した図である。すなわち領域設定部２０４は、ｙ＝ｙ０の最小顔１１０１の幅１２０１を基に、その４倍のサイズの領域を当該最上段の検出領域１２０２として設定する。

次にＳ４３３において、領域設定部２０４は、前述のようにして設定した検出領域が、検出対象範囲１１０５の下端まで達したか否かを判定する。図２０に例示した時点では、１段目の検出領域のみしか設定されていないため、領域設定部２０４は、検出領域が検出対象範囲の下端まで到達していないと判定し、次のＳ４３４に処理を進める。

Ｓ４３４の処理に進むと、領域設定部２０４は、２段目の検出領域を設定する。このときの領域設定部２０４は、１段目の検出領域内で最下端に位置する最大顔の最上部を上端とし、当該最大顔とｙ座標が同じ位置にある最小顔が、精度良く検出できる最小の顔サイズとなるサイズの領域を、２段目の検出領域に設定する。

図２１は、２段目の検出領域を設定した様子を示した図である。領域設定部２０４は、Ｓ４３２で設定した１段目の検出領域１２０２の最下端に位置する最大顔１３０１の最上部とｙ座標が同じ位置を上端とする最小顔１３０２の、４倍サイズで且つ、最小顔１３０２の最上部を上端とする検出領域１３０３を設定する。その後、領域設定部２０４は、Ｓ４３３へ処理を戻す。なお、図２１に例示した時点でも前述同様に、２段目では検出領域が検出対象範囲１１０５の下端まで到達していないので、領域設定部２０４は、Ｓ４３３から再度Ｓ４３４の処理に進む。

図２２は、３段目の検出領域が設定される場合の様子を示した図である。３段目の検出領域を設定する場合、領域設定部２０４は、２段目の検出領域１３０３の最下端に位置する最大顔１４０１の最上部を上端とする最小顔１４０２の４倍サイズの検出領域１４０３を、その最小顔１４０２の最上部を上端とするように設定する。このようにして検出領域を設定した後、領域設定部２０４は、再度Ｓ４３３へ処理を進める。そしてこの場合、３段目の検出領域は検出対象範囲１１０５の下端に到達したので、領域設定部２０４は、Ｓ４３３からＳ４３５へ処理を進める。
Ｓ４３５に進むと、領域設定部２０４は、各段の検出領域に含まれる最大顔のサイズを基にｘ軸方向の重複範囲の幅を計算し、さらに各段のｘ軸方向の検出領域数を算出する。

以下、図２３を用いて各段のｘ軸方向（横方向）の検出領域数を算出し、その検出領域数の検出領域をｘ軸方向に配置する様子を説明する。
図２３（ａ）は１段目の検出領域数の算出および各検出領域の配置例を示した図である。
ここで１段目の検出領域１２０２に内包されると想定される顔のうち、最大顔は、当該検出領域１２０２の最下端の最大顔１３０１であるため、ｘ軸方向の重複範囲の幅は最大顔１３０１の横幅となる。重複範囲の幅をこのように設定することにより、検出対象範囲１１０５内で、且つｙ≦ｙ２の範囲に内包される顔を内包する検出領域は少なくとも一つ存在することになる。

このとき、１段目の検出領域数ｎは、最大顔１３０１の横幅（最大サイズ）をｓｌ、撮像画像の横幅をｗ、検出領域のサイズをｄとすると、下記の式（２）で表される。なお、式中のｃｅｉｌ（）は天井関数である。

ｎ＝ｃｅｉｌ（（ｗ－ｓｌ）／（ｄ－ｓｌ））式（２）

２段目、３段目についても１段目と同様にして重複範囲と検出領域数が決定される。
図２３（ｂ）は、２段目においてｘ軸方向の重複範囲と検出領域数を決め、その検出領域数の各検出領域１３０３を配置した例を示した図である。また、図２３（ｃ）は、３段目においてｘ軸方向の重複範囲と検出領域数を決め、その検出領域数の各検出領域１４０３を配置した例を示した図である。なお、図２３（ｃ）に示した３段目の検出領域数を算出するために使用する最大顔の横幅は、当該３段目の検出領域の最大顔のサイズではなく、検出対象範囲１１０５の下辺における最大顔のサイズを用いる。

図２４は、前述のようにして１段目から３段目までの段ごとに決定した検出領域数の全ての検出領域１２０２，１３０３，１４０３を、検出対象範囲１１０５に配置した状態を示した図である。このようにして検出対象範囲の全域を覆うように検出領域を設定した後、領域設定部２０４は、Ｓ４３６において、それら全ての検出領域１２０２，１３０３，１４０３が検出対象範囲１１０５に収まるように検出領域の調整を行う。検出領域の調整処理は前述した第１の実施形態で説明した処理と同様である。すなわち領域設定部２０４は、検出領域の各段において、両端の検出領域が検出対象範囲の両端に位置するように配置し、残りの検出領域を等間隔に並べる。

図２５は、各段の検出領域に対してＳ４３６の処理を行った結果を示した図である。なお、図２５には、参考のために、各段においてｘ軸方向の重複範囲を決定したときに用いた顔１３０１，１４０１，１１０４も図示している。これ以降の処理は第１の実施形態の場合と同様であるため説明は省略する。

前述したように、第３の実施形態の場合、検出領域のサイズは最小顔のサイズにより制限され、検出領域の重複範囲は最大顔のサイズにより制限される。これにより、第３の実施形態の情報処理装置１００では、各位置において顔サイズが異なる分布を持つ場合であっても、それらの顔サイズの分布を基に検出領域のサイズおよび隣接する検出領域同士の重複範囲を決定することができる。その結果、第３の実施形態の情報処理装置１００によれば、複数の検出領域における物体検出および検出結果統合処理において、最終的により適切な検出結果を出力することが可能となる。

なお第３の実施形態では、顔サイズがｙ座標にのみ依存する例を挙げたため、各段の画像サイズおよびｙ座標を決定した後に、ｘ座標方向の重複範囲幅及び検出領域数を決定した。また第３の実施形態の場合も、前述同様に、顔サイズがｘ座標にのみ依存する場合も検出領域を設定可能である。すなわち検出対象範囲１１０５の顔サイズがｘ座標に依存する場合、例えば未検出領域のうち最小顔のサイズが最も小さい位置から検出領域を割り当てていくなどすればよい。

また第３の実施形態でも、第１の実施形態の変形例１で説明した検出領域を縮小する処理や、変形例２で説明した検出領域を追加する処理も同様に適用可能である。ただし第１の実施形態の変形例２では、重複範囲の幅を顔サイズの等倍より狭くしたり、顔の最小サイズに対する検出領域のサイズを大きくしたりする例を挙げた。これに対し第３の実施形態の場合は、検出対象の最大サイズと最小サイズとの差に応じて、検出領域間の重複範囲の幅および検出領域のサイズを変更してもよい。すなわち最大顔のサイズと最小顔のサイズの差が大きい場合には重複範囲の条件もしくは検出領域サイズの条件を緩和することが効果的である。このため、最大顔のサイズと最小顔のサイズの差を、これらを緩和する条件としてもよい。特に、大きいサイズの顔は検出領域に収まっていなくても精度よく検出できるため、最大顔のサイズと最小顔のサイズとの差が一定以上の場合には重複範囲の幅を最大顔のサイズの等倍より狭くする、という処理も有効である。

さらに第３の実施形態でも前述した第２の実施形態の例と同様に、顔サイズがｙ座標だけでなくｘ座標にも依存する場合に検出領域を設定することが可能である。つまり第３の実施形態も前述同様に、最終的に、検出対象範囲内のいずれの位置の顔に対してもそれを内包する検出領域が存在し、且つ検出対象範囲の全域を覆うように検出領域を設定することができる。

［第４の実施形態］
次に、第４の実施形態に係る情報処理装置１００について説明する。第４の実施形態の情報処理装置１００の構成は、前述した図１、図２と同様であるため、それらの説明は省略する。第４の実施形態でも、前述した第１の実施形態のように、顔サイズがｙ座標にのみ依存する場合を例に挙げ、また顔サイズの横幅が検出領域のサイズの１／４以上であれば検出精度の低下が略々無いとする例を挙げて説明する。

前述した第３の実施形態では、撮像装置の俯角が浅い場合、図１９に示したように、同じｙ座標に対して顔サイズが大きく異なる分布になることがあるため、分布の最小顔と最大顔を用いて検出対象範囲を覆う検出領域を設定する例を説明した。また検出領域のサイズをｄ、最大顔の横幅（最大サイズ）をｓｌ、撮像画像の横幅をｗとすると、１段目の検出領域数ｎは、前述したように式（２）で表すことができる。また検出領域のサイズｄは最小顔のサイズの４倍となされているので、最小顔の横幅（最小サイズｓｓ）を用いるとｄ＝４×ｓｓになり、このことから検出領域数ｎは下記の式（３）で表すことができる。

ｎ＝ｃｅｉｌ（（ｗ／ｓｌ－１）／（４×ｓｓ／ｓｌ－１））式（３）

ここで、例えば顔サイズの分布が大きく、最小顔のサイズに対して最大顔のサイズが大きくなると、式（３）のｓｓ／ｓｌの値は小さくなるため、分母が小さくなり、その結果、１段目の検出領域数ｎの値は大きくなる。さらに例えば、ｓｌ≧４×ｓｓとなると、重複範囲の幅は、検出領域のサイズ以上となり、第３の実施形態で説明した領域設定処理では検出領域を設定することができなくなる。

そこで、第４の実施形態の領域設定部２０４は、各位置で想定される検出対象（顔）のサイズの最大サイズと最小サイズとの差が所定の値以上である場合、顔サイズの分布を分割する。さらに領域設定部２０４は、その分割した複数の分布における各位置で想定される最小サイズおよび最大サイズを基に、検出領域のサイズおよび隣接する検出領域間の重複範囲を決定する。そして、領域設定部２０４は、その分割した複数の分布ごとに設定した検出領域を合わせたものを検出領域に設定する。

第４の実施形態の場合、領域設定部２０４は、サイズ取得部２０３にて取得された顔サイズの分布を基に、ｙ座標に依存したいずれの位置でも、ｓｓ＜ｓｍ＜ｓｌ、ｓｍ＜４×ｓｓ、且つｓｌ＜４×ｓｍとなる中間サイズｓｍの分布を設定する。さらに、領域設定部２０４は、第３の実施形態で述べた顔の最小サイズと最大サイズに代えて、最小サイズｓｓから中間サイズｓｍの分布と、中間サイズｓｍから最大サイズｓｌの分布の、二つの分布を設定（つまり分布を分割）する。そして領域設定部２０４は、それら最小サイズｓｓから中間サイズｓｍの分布と、中間サイズｓｍから最大サイズｓｌの分布の、二つの分布のそれぞれに対し、第３の実施形態で述べた領域設定処理によって検出対象範囲を覆う検出領域群を求める。その後、領域設定部２０４は、それら二つの分布に対応して取得した二つの検出領域群を合わせて検出領域を設定する。

これにより、第４の実施形態によれば、顔サイズが最小顔のサイズに対して最大顔のサイズが大きい分布になる場合でも、検出領域数及び検出領域サイズを適切に設定することができる。
なお前述の例では、顔の最小サイズから中間サイズまでと、中間サイズから最大サイズまでのように、顔サイズの分布を二つに分割する例を挙げた。これに対し、例えば、ｓｍ＜４×ｓｓで且つｓｌ＜４×ｓｍの条件を満たさない場合などでは、分布を三つ以上に分割してもよい。また、分布を分ける際の分割数および分割割合は、予め決めておいてもよいし、取得した分布に応じた最適な分割数や分割割合にしてもよい。また、複数に分けた分布に対して検出対象範囲を設定してもよい。例えば、ｙ座標が小さい範囲では最大顔と最小顔の差が小さいので、一つの検出領域群でのみ検出領域を設定した方が、検出領域の総数を少なくできる場合がある。

第４の実施形態において、顔サイズの分布を複数に分割した後は、第３の実施形態で説明したのと同様の領域設定処理が行われるため、第４の実施形態においても第１の実施形態の各変形例を適用することも可能である。また第４の実施形態は、第２の実施形態同様に顔サイズがｙ座標だけでなくｘ座標に依存する場合にも適用可能である。

ここで、第４の実施形態では、前述したように、顔サイズの分布を例えば二つに分割し、それら分割した分布のそれぞれに対応した検出領域群を設定するため、検出部２０２では、それら検出領域群ごとの検出結果が得られることになる。したがって第４の実施形態の統合部２０５は、第１の実施形態で説明した統合処理だけでなく、それら検出領域群間の検出結果を統合する処理をも行う。なお、第１の実施形態で説明した同位置の検出領域内の統合処理および同位置の検出領域群内の隣接検出領域間での統合処理は、前述同様であるためその説明は省略する。

以下、第４の実施形態における二つの検出領域群間での検出結果の統合処理について説明する。ここで、二つの検出領域群間の検出結果を統合する処理としては、第１の実施形態と同様の統合処理を用いてもよいが、第４の実施形態では、二つの検出領域群間の検出結果のサイズと検出領域のサイズとの比率に基づく統合処理を行うとする。
図２６は、二つの検出領域群間の検出結果のサイズと検出領域のサイズとの比率に基づく統合処理の説明に用いる図である。

第４の実施形態の場合、前述したように、顔サイズの分布を二分割してそれら分割した分布に対応した二つの検出領域群が設定される。すなわち一方の検出領域群は最小サイズから中間サイズの分布に対応し、もう一方の検出領域群は中間サイズから最大サイズの分布に対応している。したがって、検出対象範囲内には、一方の検出領域群に属する小さい検出領域１７０１と、もう一方の検出領域群に属する大きい検出領域１７０２とが重なって配置される。

このため、例えば小さい顔１７０３の場合、検出部２０２によって検出される検出枠は、検出領域１７０１による検出枠１７０４と、検出領域１７０２よる検出枠１７０５とになり、それらが統合部２０５に出力される。ここで、検出枠１７０５のサイズは、検出領域１７０２のサイズに対して精度よく検出可能な顔の最小サイズ未満（検出領域１７０２のサイズの１／４未満）になっているとする。一方、検出枠１７０４のサイズは、検出領域１７０１のサイズに対して精度よく検出可能な顔の最小サイズ以上（検出領域１７０１のサイズの１／４以上）であるとする。この場合、統合部２０５は、検出枠１７０５については検出領域１７０２のサイズに対して精度よく検出可能な顔の最小サイズ未満であるため、当該検出枠１７０５を統合から除外する。一方、検出枠１７０４は検出領域１７０１のサイズに対して精度よく検出可能な顔の最小サイズ以上であるため、統合部２０５は、当該検出枠１７０４を採用する。

また例えば、大きい顔１７０６の場合、検出部２０２にて検出される検出枠は、検出領域１７０１による検出枠１７０７と、検出領域１７０２による検出枠１７０８とになり、それらが統合部２０５に出力されることになる。また、検出枠１７０８のサイズは、検出領域１７０２のサイズに対して精度よく検出可能な顔の最小サイズ以上であり、且つ、その検出枠１７０８の位置は検出領域１７０２の中央付近であるとする。一方、検出枠１７０７のサイズは、検出領域１７０１のサイズに対して精度よく検出可能な顔の最小サイズ以上であるが、検出枠１７０８と検出領域１７０１との間に斜線部で示した共通部分１７０９においてＩｏＵが大きい値になっているとする。この場合、統合部２０５は、検出枠１７０８と検出領域１７０１との間の共通部分１７０９のＩｏＵが大きい値であるため、検出枠１７０７が検出枠１７０８で検出した顔の一部であると判断し、当該検出枠１７０７は除外する。なおこの際、統合部２０５は、検出枠１７０７の信頼度が検出枠１７０８より小さい場合にのみ検出枠１７０７を除外すると判断する、といったように、信頼度を除外の判断基準に用いてもよい。この例の場合、統合部２０５は、検出枠１７０８を採用する。

なお、第４の実施形態における統合処理の順序は、同位置の検出領域内の統合処理、同位置の検出領域群内の隣接検出領域間での統合処理の後、検出領域群間での統合処理を行うような順であるのが好ましいが、この順に限定されるものではない。

第４の実施形態に係る情報処理装置１００は、各位置における検出対象の最大サイズと最小サイズとの差が大きい分布を持つ場合、その分布を分割した複数の分布を基に検出領域のサイズおよび隣接する検出領域同士の重複範囲を決定する。これにより、第４の実施形態の情報処理装置１００によれば、より少ない数の検出領域で検出対象範囲の全域を覆うことができる。さらに第４の実施形態では、検出領域群間の検出結果の検出枠が、その検出領域群間の検出領域サイズに対し、精度よく検出可能な最小サイズの比率未満か或いは比率以上かに応じて、その検出枠を採用または除外するような統合処理を行う。また第４の実施形態では、検出領域群間の検出結果の検出枠の共通部分のＩｏＵの値、もしくは信頼度を基に、検出枠を採用または除外するような統合処理を行う。これにより、第４の実施形態によれば、複数の検出領域における物体検出および検出結果統合処理において、最終的により適切な検出結果を出力することが可能となる。

本発明は、上述の各実施形態の一以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける一つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、一以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
上述の各実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

前述した実施形態の開示は、以下の構成、方法、およびプログラムを含む。
（構成１）
画像を取得する画像取得手段と、
画像の各位置に対応した検出対象サイズを取得するサイズ取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、前記サイズ取得手段により取得された前記各位置における前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする情報処理装置。
（構成２）
前記画像取得手段により取得された画像に対し、前記領域設定手段により設定される前記複数の全ての検出領域が配置される対象範囲を設定する範囲設定手段を有することを特徴とする構成１に記載の情報処理装置。
（構成３）
前記範囲設定手段は、前記サイズ取得手段により取得された前記各位置における前記検出対象サイズに基づいて、前記対象範囲を設定することを特徴とする構成２に記載の情報処理装置。
（構成４）
前記領域設定手段は、前記各位置における前記検出対象サイズに対して所定の割合となる幅の前記重複範囲を、前記隣接する検出領域同士に設定することを特徴とする構成１乃至３のいずれか１構成に記載の情報処理装置。
（構成５）
前記領域設定手段は、前記各位置における前記検出対象サイズの前記検出対象を内包可能な幅の前記重複範囲を設定することを特徴とする構成４に記載の情報処理装置。
（構成６）
前記サイズ取得手段は、前記各位置の位置ごとに前記検出対象サイズとして生じ得る最小サイズおよび最大サイズを取得し、
前記領域設定手段は、前記各位置における前記検出対象サイズの前記最小サイズおよび最大サイズに基づいて、前記検出領域のサイズおよび隣接する検出領域同士の前記重複範囲を設定することを特徴とする構成１乃至５のいずれか１構成に記載の情報処理装置。
（構成７）
前記領域設定手段は、前記検出対象サイズの前記最小サイズと最大サイズとの差が所定の値以上である場合、前記各位置に対応した前記複数の検出対象サイズの分布を分割し、前記分割した分布における各位置に対応した検出対象サイズの最小サイズおよび最大サイズに基づいて、前記検出領域のサイズおよび隣接する検出領域同士の重複範囲を決めたのち、前記分割した分布ごとに決めた検出領域を合わせたものを前記複数の検出領域として設定することを特徴とする構成６に記載の情報処理装置。
（構成８)
前記領域設定手段は、前記最小サイズと最大サイズとの差を基に、前記検出領域のサイズおよび隣接する検出領域同士の重複範囲を変更することを特徴とする構成６または７に記載の情報処理装置。
（構成９）
前記領域設定手段により設定される前記複数の検出領域の総数は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たす、最少の数であることを特徴とする構成１乃至８のいずれか１構成に記載の情報処理装置。
（構成１０）
前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たす範囲で、前記検出領域のサイズを縮小することを特徴とする構成１乃至９のいずれか１構成に記載の情報処理装置。
（構成１１）
前記領域設定手段にて設定される前記検出領域の数の上限を設定する上限設定手段を有することを特徴とする構成１乃至１０のいずれか１構成に記載の情報処理装置。
（構成１２）
前記領域設定手段は、前記重複範囲を設定する際の所定の条件、前記検出領域のサイズを設定する際の所定の条件、および前記上限設定手段による前記検出領域の数の上限を満たす範囲で、前記検出領域の数を調整することを特徴とする構成１１に記載の情報処理装置。
（構成１３）
前記領域設定手段は、前記検出領域の数を増やして前記検出領域のサイズを縮小することを特徴とする構成１２に記載の情報処理装置。
（構成１４）
前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たすときの前記検出領域の数が前記上限を超える場合には、所定の警告を出力することを特徴とする構成１２に記載の情報処理装置。
（構成１５）
前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たして前記検出領域の数が前記上限を超える場合、前記重複範囲を設定する際の所定の条件もしくは検出領域のサイズを設定する際の所定の条件を緩和することを特徴とする構成１２または１３に記載の情報処理装置。
（構成１６）
前記検出手段による前記検出対象ごとの検出結果を、前記領域設定手段により設定された検出領域の配置に応じて統合する統合手段を有することを特徴とする構成１乃至１５のいずれか１構成に記載の情報処理装置。
（構成１７）
前記サイズ取得手段は、画像のｘ軸とｙ軸のいずれか一方の軸方向における各位置に対応した検出対象サイズを取得し、
前記領域設定手段は、前記サイズ取得手段により取得された前記軸方向の各位置に対応した前記検出対象サイズを基に、前記各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする構成１乃至１６のいずれか１構成に記載の情報処理装置。
（構成１８）
前記サイズ取得手段は、画像のｘ軸とｙ軸の両方の軸方向における各位置に対応した検出対象サイズを取得し、
前記領域設定手段は、前記サイズ取得手段により取得された前記軸方向の各位置に対応した前記検出対象サイズを基に、前記各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする構成１乃至１６のいずれか１構成に記載の情報処理装置。
（構成１９）
前記領域設定手段は、設定済みの検出領域に対して前記軸方向の次の位置の検出領域を設定する際には、前記設定済みの検出領域から重複範囲を除いた領域を設定完了領域とし、前記軸方向の前記次の位置に対応した検出対象サイズを基に、前記設定完了領域を除いた未設定領域について前記次の位置の検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする構成１８に記載の情報処理装置。
（構成２０）
前記検出手段は機械学習により得られた学習モデルを用いて前記検出領域ごとに前記検出対象を検出し、
前記領域設定手段は、前記学習モデルに対する入力サイズと前記各位置に対応した前記検出対象サイズとを基に、前記各位置における前記検出領域のサイズおよび前記隣接する検出領域同士の重複範囲を設定することを特徴とする構成１乃至１９のいずれか１構成に記載の情報処理装置。
（構成２１）
画像を取得する画像取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、隣接する検出領域同士が漏れなく重複するように前記検出領域を設定することを特徴とする情報処理装置。
（方法１）
画像を取得する画像取得工程と、
画像の各位置に対応した検出対象サイズを取得するサイズ取得工程と、
画像に対して複数の検出領域を設定する領域設定工程と、
前記画像取得工程で取得した画像から、前記検出領域ごとに検出対象を検出する検出工程と、を有し、
前記領域設定工程では、前記サイズ取得工程により取得された前記各位置に対応した前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする情報処理方法。
（方法２）
画像を取得する画像取得工程と、
画像に対して複数の検出領域を設定する領域設定工程と、
前記画像取得工程で取得した画像から、前記検出領域ごとに検出対象を検出する検出工程と、を有し、
前記領域設定工程では、隣接する検出領域同士が漏れなく重複するように前記検出領域を設定することを特徴とする情報処理方法。
（プログラム１）
コンピュータを、構成１乃至２１のいずれか１構成に記載の情報処理装置として機能させるためのプログラム。

１００：情報処理装置、２０１：画像取得部、２０２：検出部、２０３：サイズ取得部、２０４：領域設定部、２０５：統合部、２０６：出力部、２０７：範囲設定部、２０８：上限設定部、２０９：記憶部

Claims

画像を取得する画像取得手段と、
画像の各位置に対応した検出対象サイズを取得するサイズ取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、前記サイズ取得手段により取得された前記各位置における前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする情報処理装置。
前記画像取得手段により取得された画像に対し、前記領域設定手段により設定される前記複数の全ての検出領域が配置される対象範囲を設定する範囲設定手段を有することを特徴とする請求項１に記載の情報処理装置。
前記範囲設定手段は、前記サイズ取得手段により取得された前記各位置における前記検出対象サイズに基づいて、前記対象範囲を設定することを特徴とする請求項２に記載の情報処理装置。
前記領域設定手段は、前記各位置における前記検出対象サイズに対して所定の割合となる幅の前記重複範囲を、前記隣接する検出領域同士に設定することを特徴とする請求項１に記載の情報処理装置。
前記領域設定手段は、前記各位置における前記検出対象サイズの前記検出対象を内包可能な幅の前記重複範囲を設定することを特徴とする請求項４に記載の情報処理装置。
前記サイズ取得手段は、前記各位置の位置ごとに前記検出対象サイズとして生じ得る最小サイズおよび最大サイズを取得し、
前記領域設定手段は、前記各位置における前記検出対象サイズの前記最小サイズおよび最大サイズに基づいて、前記検出領域のサイズおよび隣接する検出領域同士の前記重複範囲を設定することを特徴とする請求項１に記載の情報処理装置。
前記領域設定手段は、前記検出対象サイズの前記最小サイズと最大サイズとの差が所定の値以上である場合、前記各位置に対応した前記複数の検出対象サイズの分布を分割し、前記分割した分布における各位置に対応した検出対象サイズの最小サイズおよび最大サイズに基づいて、前記検出領域のサイズおよび隣接する検出領域同士の重複範囲を決めたのち、前記分割した分布ごとに決めた検出領域を合わせたものを前記複数の検出領域として設定することを特徴とする請求項６に記載の情報処理装置。
前記領域設定手段は、前記最小サイズと最大サイズとの差を基に、前記検出領域のサイズおよび隣接する検出領域同士の重複範囲を変更することを特徴とする請求項６に記載の情報処理装置。
前記領域設定手段により設定される前記複数の検出領域の総数は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たす、最少の数であることを特徴とする請求項１に記載の情報処理装置。
前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たす範囲で、前記検出領域のサイズを縮小することを特徴とする請求項１に記載の情報処理装置。
前記領域設定手段にて設定される前記検出領域の数の上限を設定する上限設定手段を有することを特徴とする請求項１に記載の情報処理装置。
前記領域設定手段は、前記重複範囲を設定する際の所定の条件、前記検出領域のサイズを設定する際の所定の条件、および前記上限設定手段による前記検出領域の数の上限を満たす範囲で、前記検出領域の数を調整することを特徴とする請求項１１に記載の情報処理装置。
前記領域設定手段は、前記検出領域の数を増やして前記検出領域のサイズを縮小することを特徴とする請求項１２に記載の情報処理装置。
前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たすときの前記検出領域の数が前記上限を超える場合には、所定の警告を出力することを特徴とする請求項１２に記載の情報処理装置。
前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たして前記検出領域の数が前記上限を超える場合、前記重複範囲を設定する際の所定の条件もしくは検出領域のサイズを設定する際の所定の条件を緩和することを特徴とする請求項１２に記載の情報処理装置。
前記検出手段による前記検出対象ごとの検出結果を、前記領域設定手段により設定された検出領域の配置に応じて統合する統合手段を有することを特徴とする請求項１に記載の情報処理装置。
前記サイズ取得手段は、画像のｘ軸とｙ軸のいずれか一方の軸方向における各位置に対応した検出対象サイズを取得し、
前記領域設定手段は、前記サイズ取得手段により取得された前記軸方向の各位置に対応した前記検出対象サイズを基に、前記各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする請求項１乃至１６のいずれか１項に記載の情報処理装置。
前記サイズ取得手段は、画像のｘ軸とｙ軸の両方の軸方向における各位置に対応した検出対象サイズを取得し、
前記領域設定手段は、前記サイズ取得手段により取得された前記軸方向の各位置に対応した前記検出対象サイズを基に、前記各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする請求項１乃至１６のいずれか１項に記載の情報処理装置。
前記領域設定手段は、設定済みの検出領域に対して前記軸方向の次の位置の検出領域を設定する際には、前記設定済みの検出領域から重複範囲を除いた領域を設定完了領域とし、前記軸方向の前記次の位置に対応した検出対象サイズを基に、前記設定完了領域を除いた未設定領域について前記次の位置の検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする請求項１８に記載の情報処理装置。
前記検出手段は機械学習により得られた学習モデルを用いて前記検出領域ごとに前記検出対象を検出し、
前記領域設定手段は、前記学習モデルに対する入力サイズと前記各位置に対応した前記検出対象サイズとを基に、前記各位置における前記検出領域のサイズおよび前記隣接する検出領域同士の重複範囲を設定することを特徴とする請求項１に記載の情報処理装置。
画像を取得する画像取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、隣接する検出領域同士が漏れなく重複するように前記検出領域を設定することを特徴とする情報処理装置。
画像を取得する画像取得工程と、
画像の各位置に対応した検出対象サイズを取得するサイズ取得工程と、
画像に対して複数の検出領域を設定する領域設定工程と、
前記画像取得工程で取得した画像から、前記検出領域ごとに検出対象を検出する検出工程と、を有し、
前記領域設定工程では、前記サイズ取得工程により取得された前記各位置に対応した前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする情報処理方法。
画像を取得する画像取得工程と、
画像に対して複数の検出領域を設定する領域設定工程と、
前記画像取得工程で取得した画像から、前記検出領域ごとに検出対象を検出する検出工程と、を有し、
前記領域設定工程では、隣接する検出領域同士が漏れなく重複するように前記検出領域を設定することを特徴とする情報処理方法。
コンピュータを、
画像を取得する画像取得手段と、
画像の各位置に対応した検出対象サイズを取得するサイズ取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、前記サイズ取得手段により取得された前記各位置に対応した前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定する情報処理装置として機能させるためのプログラム。
コンピュータを、
画像を取得する画像取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、隣接する検出領域同士が漏れなく重複するように前記検出領域を設定する情報処理装置として機能させるためのプログラム。