JP2024001618A - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2024001618A JP2024001618A JP2022100387A JP2022100387A JP2024001618A JP 2024001618 A JP2024001618 A JP 2024001618A JP 2022100387 A JP2022100387 A JP 2022100387A JP 2022100387 A JP2022100387 A JP 2022100387A JP 2024001618 A JP2024001618 A JP 2024001618A
- Authority
- JP
- Japan
- Prior art keywords
- detection
- size
- area
- image
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 90
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000001514 detection method Methods 0.000 claims abstract description 1078
- 238000009826 distribution Methods 0.000 claims description 60
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 description 76
- 230000008569 process Effects 0.000 description 61
- 238000010586 diagram Methods 0.000 description 50
- 230000010354 integration Effects 0.000 description 37
- 230000000875 corresponding effect Effects 0.000 description 27
- 210000000887 face Anatomy 0.000 description 13
- 230000007423 decrease Effects 0.000 description 11
- 239000011521 glass Substances 0.000 description 10
- 238000003384 imaging method Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 230000002542 deteriorative effect Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 208000029152 Small face Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】画像から検出対象を検出する際の処理負荷の増大を抑えつつ、誤検出や未検出等の発生を低減可能にする。【解決手段】情報処理装置は、画像の各位置に対応した検出対象サイズを取得し、また画像に対して複数の検出領域を設定し、取得した画像から検出領域ごとに検出対象を検出する。ここで、検出領域を設定する際には、各位置に対応した検出対象サイズを基に、画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定する。【選択図】図2
Description
本発明は、画像から検出対象の物体等を検出する情報処理技術に関する。
近年、画像から検出対象の物体等を検出する情報処理として、機械学習による学習モデルが用いられることが多くなっている。画像から検出対象の物体等を検出するのに用いられる学習モデルでは、当該学習モデルに入力するデータのサイズは予め決められているため、その入力サイズに合うように画像を縮小や分割等する前処理が行われる。また学習モデルでは、入力された画像のサイズに対する検出対象の物体サイズの割合に対し、検出の精度が高くなる範囲が存在する場合がある。
入力画像のサイズに対する検出対象のサイズの割合を考慮した技術として、特許文献1と特許文献2に記載の技術がある。特許文献1には、分割領域のサイズと検出対象のサイズとの比率がほぼ一定となるように、撮像画像を異なるサイズの小領域に分割し、さらにそれら各分割領域の画像を学習モデルの入力サイズに合うように縮小する技術が開示されている。特許文献2には、各分割領域のサイズに対する検出対象のサイズの割合が、正解率の高くなる範囲になるように、分割領域の重複を許して撮像画像を分割する技術が開示されている。
しかしながら、例えば、分割領域の境界線上に検出対象の物体が存在するような場合、検出結果の信頼性が低くなり、また例えば一つの物体を二つの物体として誤検出してしまったり、さらには物体そのものを検出できなかったりすることがある。このため、各分割領域について検出処理を再度実行することも考えられるが、この場合、処理負荷(処理コスト)が増大してしまう。また例えば、物体を検出できなかった場合には、再検出処理も行われないことになるため、検出結果は未検出のままになってしまう。これらの課題は、特許文献1と特許文献2のいずれの技術においても生じ得る。
そこで本発明は、画像から検出対象を検出する際の処理負荷の増大を抑えつつ、誤検出や未検出等の発生を低減可能にすることを目的とする。
本発明の情報処理装置は、画像を取得する画像取得手段と、画像の各位置に対応した検出対象サイズを取得するサイズ取得手段と、画像に対して複数の検出領域を設定する領域設定手段と、前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、前記領域設定手段は、前記サイズ取得手段により取得された前記各位置に対応した前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする。
本発明によれば、画像から検出対象を検出する際の処理負荷の増大を抑えつつ、誤検出や未検出等の発生を低減可能となる。
以下、本発明に係る実施形態を、図面を参照しながら説明する。以降に挙げる各実施形態は本発明を限定するものではなく、また、各実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。各実施形態の構成は、本発明が適用される装置の仕様や各種条件(使用条件、使用環境等)によって適宜修正又は変更され得る。また、後述する各実施形態の一部を適宜組み合わせて構成してもよい。以下の各実施形態において、同一の構成には同じ参照符号を付して説明する。
[第1の実施形態]
図1は、本実施形態に係る情報処理装置100のハードウェア構成の一例を示す図である。
本実施形態の情報処理装置100は、CPU101、メモリ102、通信インターフェース(I/F)部103、表示部104、入力部105、及び記憶部106を有する。CPU101、メモリ102、通信I/F部103、表示部104、入力部105、及び記憶部106は、システムバスを介して通信可能に接続されている。なお、本実施形態による情報処理装置100は、これ以外の構成をさらに有していてもよい。
図1は、本実施形態に係る情報処理装置100のハードウェア構成の一例を示す図である。
本実施形態の情報処理装置100は、CPU101、メモリ102、通信インターフェース(I/F)部103、表示部104、入力部105、及び記憶部106を有する。CPU101、メモリ102、通信I/F部103、表示部104、入力部105、及び記憶部106は、システムバスを介して通信可能に接続されている。なお、本実施形態による情報処理装置100は、これ以外の構成をさらに有していてもよい。
CPU(Central Processing Unit)101は、情報処理装置100の全体の制御を司る。CPU101は、例えばシステムバスを介して接続される各機能部の動作を制御する。メモリ102は、CPU101が処理に利用するデータ、プログラム等を記憶する。また、メモリ102は、CPU101の主メモリ、ワークエリア等としての機能をも有する。CPU101は、メモリ102に記憶された本実施形態に係る情報処理プログラムに基づき処理を実行することにより、後述する図2に示す情報処理装置100の機能構成及び後述する図4および図5に示すフローチャートの処理を実現する。なお、CPUに替えてGPU(Graphics Processing Unit)が用いられてもよいし、CPUとGPUが適宜役割を分担して協調動作してもよい。
通信I/F部103は、情報処理装置100をネットワークに接続するインターフェースである。ネットワークとの接続は有線だけでなく無線により行われてもよい。表示部104は、液晶ディスプレイ等の表示装置を有し、画像やCPU101による処理の結果、GUI(Graphical User Interface)等を表示する。入力部105は、マウス又はボタン等の操作装置を有し、ユーザの操作を情報処理装置100に入力する。記憶部106は、例えば、CPU101がプログラムに係る処理を行う際に必要な各種データ等を記憶する。また、記憶部106は、例えば、CPU101がプログラムに係る処理を行うことにより得られた各種データ等を記憶する。なお、CPU101が処理に利用するデータ、プログラム等は、メモリ102に代えて記憶部106に記憶されていてもよい。
ここで、本実施形態の情報処理装置100は、監視カメラ等の撮像装置による撮像画像から、検出対象となる物体等の検出や追尾、その物体の属性の推定等を行う画像解析、その画像解析結果を基に物体数を推定する等の情報処理を実行可能な装置である。本実施形態では、検出対象となる物体の一例として人物の顔を例に挙げるが、この例に限定されるものではなく、車両や動物など様々な検出対象物体を検出等する任意のシステムに適用することができる。
また本実施形態では、画像から検出対象の物体(人物の顔)を検出する際に、機械学習による学習モデルを用いる例を挙げる。なお、物体等の検出に学習モデルを用いる場合には、前述したように、学習モデルについて予め決められた入力サイズに合うように画像を縮小や分割等するような処理が行われる。また前述したように、学習モデルでは、入力された画像のサイズに対する検出対象物体のサイズの割合として、物体検出の精度が高くなる範囲が存在する。このため、本実施形態では、学習モデルの入力サイズに合うようにしつつ、物体検出の精度が高くなる範囲を考慮して、画像を分割・縮小等して、検出対象物体を検出する際の検出領域を設定するものとする。
図2は、本実施形態の情報処理装置100における機能構成例を示した機能ブロック図である。本実施形態の情報処理装置100は、画像取得部201、検出部202、サイズ取得部203、領域設定部204、統合部205、出力部206、範囲設定部207、上限設定部208、及び記憶部209を有して構成されている。
画像取得部201は、物体検出を行う対象となる画像を取得する。本実施形態の場合、物体検出を行う対象となる画像は監視カメラ等の撮像装置にて撮像された画像であり、通信I/F部103を通じて外部から取得されるとする。以下、監視カメラ等の撮像装置にて撮像されて、画像取得部201が取得する画像データを適宜、「撮像画像」と呼ぶことにする。また、撮像画像は、一例として水平方向(横方向)の幅が1080ピクセルで、垂直方向(縦方向)の高さが720ピクセルである、1080×720ピクセルのRGB画像とする。なお、画像取得部201が取得する画像は、1080×720ピクセルのRGB画像に限定されるものではなく、任意の画像を入力画像とすることができ、例えば水平方向の幅や垂直方向の高さが異なっていてもよい。その他にも、撮像画像は、撮像装置から直接取得される画像だけでなく、一旦、記録媒体等に記録された後に読み出された画像や、ネットワーク上に存在する画像であってもよい。
サイズ取得部203は、画像取得部201にて取得された撮像画像上の各画素の位置において想定される検出対象サイズの分布、つまり画像上の各位置に対応した検出対象の物体サイズの分布を取得する。サイズ取得部203は、ユーザが図1の入力部105を介して画像上のいくつかの位置における顔サイズを指定することで、画像上の任意の位置における顔の平均的な顔サイズを補間により推定して、顔サイズの分布を取得してもよい。また、サイズ取得部203は、撮像画像から顔を検出し、その検出結果から画像上の任意の位置における平均的な顔サイズを補間により推定して、顔サイズの分布を取得してもよい。また、サイズ取得部203は、その他の方法で顔サイズと分布を取得してもよい。顔サイズの補間による推定方法では、例えば、画像上の座標(x,y)における顔サイズをsとしたとき、その顔サイズsは、座標のx,yおよび未知の1個以上のパラメータによって表せると仮定する。例えば、s=ax+by+cと仮定する。この例では、未知のパラメータは、a、bおよびcである。サイズ取得部203は、ユーザが指定した顔の位置およびサイズの集合、または、顔検出により検出された顔の位置およびサイズの集合を用いて、未知のパラメータを例えば最小二乗法等の統計処理により求める。
領域設定部204は、撮像画像上に複数の検出領域を設定する。このとき領域設定部204は、隣接する検出領域同士が漏れなく重複するように検出領域を設定する。詳細は後述するが、本実施形態の領域設定部204は、サイズ取得部203により取得した各位置で想定される検出対象サイズ(顔サイズ)の分布に基づいて、検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定する。以下、本実施形態では、領域設定部204にて設定した検出領域を基に撮像画像から切り出される画像、つまり後段の検出部202で物体検出が行われる各検出領域の画像を「検出領域画像」と呼ぶことにする。領域設定部204は、撮像画像から検出領域ごとに切り出した検出領域画像を、検出部202に入力する。
検出部202は、領域設定部204にて設定された検出領域ごとの検出領域画像から検出対象としての物体(本実施形態では人物の顔)を検出する。本実施形態の場合、検出部202は、機械学習による学習モデルを用いて、各検出領域画像から人物の顔の領域を検出し、検出領域ごとの顔検出結果を出力する。なお本実施形態の場合、検出部202は、入力された検出領域画像から複数の属性(クラス)に係る物体検出を行うとする。本実施形態では、検出部202は、検出領域画像に含まれる「メガネ着用の顔」と「メガネ非着用の顔」とを検出できるように機械学習がなされた学習モデルを用いて、顔の検出結果を出力する例を挙げる。「メガネ着用の顔」と「メガネ非着用の顔」の検出は、例えば下記の参考文献1に記載の技術を適用することで実現できる。
参考文献1:J.Redmon,A.Farhadi,“YOLO9000:Bett
er Faster Stronger”,Computer Vision and
Pattern Recognition (CVPR) 2016.
er Faster Stronger”,Computer Vision and
Pattern Recognition (CVPR) 2016.
本実施形態において、検出部202が出力する検出結果は、検出した顔の位置と大きさ、顔の属性(クラス)、および検出結果の信頼度を示す情報であるとする。顔の位置と大きさを示す情報は、例えば顔を囲む矩形枠を規定する座標(例えば矩形の左上座標(x1,y1)および右下座標(x2,y2))とする。顔の属性を示す情報は、「メガネ着用の顔」であるか又は「メガネ非着用の顔」であるかの情報であるとする。検出結果の信頼度を示す情報は、例えば信頼度が最も低い場合を0とし、信頼度が最も高い場合を1として、0~1の実数の値として出力される。これ以降の説明では、顔を囲む矩形枠を「検出枠」、顔の属性を「属性」、および検出の信頼度を「信頼度」のように、それぞれ略して呼ぶことにする。なお、検出結果は、これらの例に限定されるものではなく、検出した顔の位置および大きさ、顔の属性、及び検出の信頼度をそれぞれ認識可能になるのであれば、どのような情報の形態であってもよい。
ここで、検出部202における検出の精度は、検出領域画像内の顔サイズに相関がある。すなわち例えば、顔サイズが検出領域画像のサイズと比較して小さすぎると、検出領域画像を検出部202へ入力する画像サイズに縮小等する際に画素が潰れてしまい、検出精度が低下する。一方、顔サイズが検出領域画像より大きいと、目鼻などの顔の特徴を示す部位が検出領域画像内に収まらなくなる場合があり、検出精度が低下する。
また機械学習では、学習画像を用いて検出精度を向上させるように学習が行われているため、検出領域画像に対する顔サイズが、学習画像の画像サイズに対する顔サイズに近ければ検出精度は高くなる。言い換えると、学習モデルにおいて、検出領域画像のサイズに対する検出対象の顔のサイズの割合には、検出精度が高くなる範囲が存在している。したがって領域設定部204は、検出領域内の顔サイズが当該検出領域のサイズ(検出領域画像のサイズ)に対して精度の高い検出結果が得られるサイズになるように、撮像画像上の各位置に配置する検出領域のサイズを決定する。
また例えば、検出領域の境界部分に顔が存在するような場合、つまり検出領域の境界部分で顔が分断等されているような場合には、検出精度の低下が生じ得る。検出領域の境界部分に顔が存在する場合には、例えば、顔の一部が検出領域の外になったり、メガネが検出領域外になったり、顔が複数の検出領域にまたがる位置に存在したしりすることがある。例えば顔の一部が検出領域の外になっている場合には、目鼻などの顔の特徴を示す部位が検出領域内にないことや、顔の輪郭が検出できないことなどが原因で、検出精度が低下することがある。また例えば、「メガネ着用の顔」と「メガネ非着用の顔」の判断基準であるメガネが検出領域外にあると、その属性が判断できないことになる。さらに例えば、顔が複数の検出領域にまたがる位置に存在すると、一つの顔に対してそれぞれの検出領域ごとに検出結果が出力される場合もある。
このように、検出領域の境界部分に顔が存在する場合(境界部分で顔が分断等されている場合)には、検出精度の低下が生じ得る。この場合、検出領域境界における属性、検出枠の精度向上や一つの顔に対する複数の検出結果を後に統合するためには、再度物体検出を行うことが有効になるが、検出対象が多い場合には再検出処理を行う箇所が多くなり、検出処理回数が不定とる。また、再検出処理を行うと、処理負荷(処理コスト)が増大してしまう。さらに例えば、顔そのものが検出されなかった場合には、再検出処理も行われないことになるため、検出結果は未検出となってしまうことになる。
このため、本実施形態の情報処理装置100は、撮像画像を分割等して複数の検出領域を設定する際には、画像の各位置において想定される検出対象サイズを基に、各検出領域のサイズを設定すると共に、隣接する検出領域同士に重複範囲を設定する。本実施形態の場合、領域設定部204は、各位置における検出対象サイズに対して所定の割合となる幅で重複するように、隣接する検出領域同士に重複範囲を設定する。なお、本実施形態では所定の割合として十割を想定している。すなわち領域設定部204は、隣接する検出領域同士を重複させる重複範囲の幅を、各位置に応じたサイズの検出対象を内包可能な幅に設定する。本実施形態では検出対象として顔を挙げているため、領域設定部204は、隣接する検出領域同士の境界部分に位置する顔サイズ分を内包できるだけの重複範囲を、それら隣接する検出領域同士で設定する。これにより、隣接する検出領域の境界部分に位置している顔は、それら隣接する検出領域の少なくともいずれか一方に包含されるようになる。したがって例えば目鼻などの顔の特徴を示す部位が検出領域内にないことや、顔の輪郭が検出できないことなどが無くなり、検出精度が向上することになる。検出領域および重複範囲の詳細は後述する。
また領域設定部204は、撮像画像上の検出対象範囲の全域を覆うように、それら複数の検出領域を設定する。なお本実施形態において、検出対象範囲とは、撮像画像のうち領域設定部204による複数の全ての検出領域が配置される範囲であり、この検出対象範囲内において顔検出の処理が行われる範囲である。検出対象範囲は、例えばユーザからの指定を基に、範囲設定部207により設定される。検出対象範囲の詳細は後述する。
上限設定部208は、検出領域数の上限を設定する。検出領域数の上限は、ユーザが設定してもよいし、検出領域当たりにかかる検出処理の時間が既知であれば、検出処理全体に許容される処理時間から算出してもよい。検出領域数の上限の詳細は後述する。
統合部205は、検出部202によって検出領域ごとに得られた検出結果を統合する。すなわち統合部205は、検出部202による検出対象の検出結果を、領域設定部204にて設定された検出領域の配置を基に統合する。本実施形態において、検出領域ごとの検出結果の統合は、同一位置の検出領域内での統合と、隣接検出領域間での統合との2段階で構成されている。統合処理の詳細は後述する。
図3は、統合部205における検出結果の統合処理の説明に用いる図である。
まず図3(a)を用いて、画像の各位置のうち、同位置の検出領域に対応した検出結果の統合処理について説明する。
学習モデルを用いた検出処理では、検出領域301内の一つの検出対象の物体302に対して複数の検出枠303、304が出力される場合がある。このような場合、統合部205は、それら複数の検出結果の重なり率を計算し、当該重なり率が予め決めた閾値以上の場合には同一の顔と判断して検出枠を統合する処理を行う。本実施形態の場合、重なり率は、IoU(Intersection over Union)で計算するものとし、閾値は一例として0.5とする。つまり、二つの検出枠303、304の共通部分を、それら検出枠303、304の和集合で割ったときの商が0.5以上であれば、統合部205は、同一の顔に対する検出結果である判定して、それら二つの検出結果を統合する。統合の方法としては、例えば検出結果の信頼度が最も高いもの以外を除外するNMS(Non-Maximum Suppression)を用いる。
まず図3(a)を用いて、画像の各位置のうち、同位置の検出領域に対応した検出結果の統合処理について説明する。
学習モデルを用いた検出処理では、検出領域301内の一つの検出対象の物体302に対して複数の検出枠303、304が出力される場合がある。このような場合、統合部205は、それら複数の検出結果の重なり率を計算し、当該重なり率が予め決めた閾値以上の場合には同一の顔と判断して検出枠を統合する処理を行う。本実施形態の場合、重なり率は、IoU(Intersection over Union)で計算するものとし、閾値は一例として0.5とする。つまり、二つの検出枠303、304の共通部分を、それら検出枠303、304の和集合で割ったときの商が0.5以上であれば、統合部205は、同一の顔に対する検出結果である判定して、それら二つの検出結果を統合する。統合の方法としては、例えば検出結果の信頼度が最も高いもの以外を除外するNMS(Non-Maximum Suppression)を用いる。
次に図3(b)を用いて、隣接した検出領域間での統合処理について説明する。
本実施形態の場合、前述したように、隣接する検出領域同士で重複範囲が存在するため、その重複範囲に一部でも含まれる顔がある場合、検出部202は、それぞれの検出領域で検出結果を出力することになる。ここで、これらを統合するためには、IoUでは不適切な場合がある。また本実施形態の場合、隣接する検出領域同士はその位置で想定される顔サイズ分だけ重複するように設定されるため、図3(b)に例示した検出領域305と検出領域306との間には重複範囲が存在している。そして図3(b)の例のように、検出領域305と306との重複範囲に顔307の一部がかかっているような場合、検出領域305では検出枠308が得られ、検出領域306では検出枠309が得られることになる。このような場合、検出枠308と検出枠309のIoUは低い値となり、同一の顔に対する検出結果であるにもかかわらず検出枠を統合する閾値に満たないため、統合処理は行われないことになる。したがって、統合部205では、隣接する検出領域の重複範囲における検出結果の統合ではIoUを用いず、例えば二つの検出枠の包含関係を基に、一方の検出枠に包含されている他方の検出枠については除外するような処理を行う。つまり図3(b)の例の場合、検出枠309に内包されている検出枠308が除外される。さらに、統合部205は、二つの検出枠の包含関係に加えて信頼度を用いてもよい。例えば検出枠309に内包されている検出枠308の信頼度が、当該検出枠309の信頼度よりに低いような場合には、その内包されている方の検出枠308を除外してもよい。なおこの例の場合、内包している方の検出枠309の信頼度から、内包されている方の検出枠308の信頼度を差し引いた差分値が、所定の閾値より大きいような場合に包含関係による統合処理を行うと判断してもよい。
本実施形態の場合、前述したように、隣接する検出領域同士で重複範囲が存在するため、その重複範囲に一部でも含まれる顔がある場合、検出部202は、それぞれの検出領域で検出結果を出力することになる。ここで、これらを統合するためには、IoUでは不適切な場合がある。また本実施形態の場合、隣接する検出領域同士はその位置で想定される顔サイズ分だけ重複するように設定されるため、図3(b)に例示した検出領域305と検出領域306との間には重複範囲が存在している。そして図3(b)の例のように、検出領域305と306との重複範囲に顔307の一部がかかっているような場合、検出領域305では検出枠308が得られ、検出領域306では検出枠309が得られることになる。このような場合、検出枠308と検出枠309のIoUは低い値となり、同一の顔に対する検出結果であるにもかかわらず検出枠を統合する閾値に満たないため、統合処理は行われないことになる。したがって、統合部205では、隣接する検出領域の重複範囲における検出結果の統合ではIoUを用いず、例えば二つの検出枠の包含関係を基に、一方の検出枠に包含されている他方の検出枠については除外するような処理を行う。つまり図3(b)の例の場合、検出枠309に内包されている検出枠308が除外される。さらに、統合部205は、二つの検出枠の包含関係に加えて信頼度を用いてもよい。例えば検出枠309に内包されている検出枠308の信頼度が、当該検出枠309の信頼度よりに低いような場合には、その内包されている方の検出枠308を除外してもよい。なおこの例の場合、内包している方の検出枠309の信頼度から、内包されている方の検出枠308の信頼度を差し引いた差分値が、所定の閾値より大きいような場合に包含関係による統合処理を行うと判断してもよい。
また、誤検出の判断に関しても、隣接する検出領域の結果をその判断基準に含めてもよい。図3(c)は検出対象である人物の顔ではない他の物体が、検出部202によって誤って検出された場合の例を示している。図3(c)に示すように、例えば検出領域310の端にかかる位置において、その位置で想定される顔サイズと比較して小さい検出枠311が検出されたとする。このように、顔であるとして検出された検出枠のサイズが、その位置において想定される顔サイズと比べて明らかに小さい場合、当該検出領域310には顔の一部のみが含まれる可能性が高い。そしてこの場合、検出領域310と隣接している検出領域312においても、検出枠311で検出された顔を包含する検出枠が検出されるはずである。しかしながら、隣接する検出領域312において顔が検出されていない場合、検出領域310で検出された検出枠311は、別の物体の一部を検出した誤検出結果であると判断できる。すなわち、統合部205は、検出領域310において検出枠311が検出された重複範囲を共有している隣接の検出領域312において、顔が検出されていない場合、その検出枠311は誤検出された枠であると判断する。またこのような場合、検出領域310での検出結果は信頼度が低い、もしくは検出枠311のアスペクト比は正規の顔の検出結果のアスペクト比と異なると考えられるため、それらをも判断基準に用いるようにしてもよい。
統合部205は、以上のようにして、検出部202にて得られた検出結果を統合する処理を行う。
統合部205は、以上のようにして、検出部202にて得られた検出結果を統合する処理を行う。
出力部206は、検出部202で検出されて統合部205で統合処理がなされた後の検出結果を、画像取得部201が取得した撮像画像に重畳して出力する。本実施形態の場合、出力部206は、例えば、検出結果に基づいて属性に応じた検出枠を撮像画像に重畳した画像を出力する。
記憶部209は、図2に示した情報処理装置100の各機能部(201~208)において処理に用いるデータや処理結果として得られるデータ等を記憶する。
記憶部209は、図2に示した情報処理装置100の各機能部(201~208)において処理に用いるデータや処理結果として得られるデータ等を記憶する。
次に図4のフローチャートを参照して、情報処理装置100にて行われる情報処理全体の流れを説明する。なお、これ以降の各フローチャートにおいて用いる符号のSは、それぞれ処理ステップ(処理工程)を表しているとする。
まずS401において、画像取得部201は、前述したように物体検出を行う対象となる撮像画像を取得する。
次にS402において、サイズ取得部203は、前述したように画像取得部201にて取得された撮像画像の各位置で想定される顔サイズの分布を取得する。
さらにS403において、領域設定部204は、サイズ取得部203から得た顔サイズの分布と、範囲設定部207で設定された検出対象範囲と、上限設定部208で設定された領域数の上限とを基に、前述した重複範囲を含む複数の検出領域を設定する。
まずS401において、画像取得部201は、前述したように物体検出を行う対象となる撮像画像を取得する。
次にS402において、サイズ取得部203は、前述したように画像取得部201にて取得された撮像画像の各位置で想定される顔サイズの分布を取得する。
さらにS403において、領域設定部204は、サイズ取得部203から得た顔サイズの分布と、範囲設定部207で設定された検出対象範囲と、上限設定部208で設定された領域数の上限とを基に、前述した重複範囲を含む複数の検出領域を設定する。
次にS404において、検出部202は、領域設定部204で設定された検出領域によって切り出された検出領域画像から、検出対象の物体である顔を検出する。
さらにS405において、検出部202は、領域設定部204にて設定された全ての検出領域について物体検出処理を行ったか否か判定し、未処理の検出領域がある場合にはS404に処理を戻す。一方、全ての検出領域での処理が行われた場合、情報処理装置100の処理はS406に遷移する。
さらにS405において、検出部202は、領域設定部204にて設定された全ての検出領域について物体検出処理を行ったか否か判定し、未処理の検出領域がある場合にはS404に処理を戻す。一方、全ての検出領域での処理が行われた場合、情報処理装置100の処理はS406に遷移する。
S406に進むと、統合部205は、検出部202にて検出領域ごとに得られた検出結果を前述したようにして統合する。
その後、S407において、出力部206は、統合部205による統合処理後の検出結果を、画像取得部201からの撮像画像に重畳した画像を出力する。
その後、S407において、出力部206は、統合部205による統合処理後の検出結果を、画像取得部201からの撮像画像に重畳した画像を出力する。
次に図5のフローチャートを参照して、領域設定部204における検出領域設定処理の詳細な流れを説明する。なお以下の説明において、範囲設定部207により設定される検出対象範囲は撮像画像全体とする。したがって領域設定部204は、撮像画像全体に対して漏れなく検出領域を設定する。また本実施形態では、機械学習による学習モデルに入力する画像は正方形であり、検出領域も正方形の領域として設定されるとする。このため、以降の説明において、検出領域のサイズとは、正方形の検出領域の一辺の画素数により表されるとする。
まずS431において、領域設定部204は、サイズ取得部203から各位置に対応した顔サイズの分布を取得する。ここでサイズ取得部203では、前述したようにユーザが各位置に設定した数点の顔サイズもしくは画像上の各位置から検出された顔を基に、画像上の任意の位置における平均的な顔サイズを補間により推定して顔サイズの分布を取得しているとする。本実施形態では説明を簡単にするために、顔サイズは画像上でy軸方向(縦方向)のy座標系にのみ依存し、x軸方向(横方向)のx座標系での顔サイズの変化は無いものとする。すなわち補間による推定処理において、画像上のy軸方向における顔サイズをsとしたとき、顔サイズsはs=by+cと仮定する。この場合、未知のパラメータはbおよびcである。そしてサイズ取得部203は、ユーザが指定した顔の位置およびサイズの集合、もしくは画像から検出された顔の位置およびサイズの集合を用い、最小二乗法等の統計処理によって未知のパラメータを求めるとする。
図6は、撮像画像501において、y座標に依存する顔サイズsの分布の一例を示した図である。
本実施形態において、画像取得部201が取得する撮像画像は、地面や床面より高い位置に設置された監視カメラ等の撮像装置により検出対象の物体(人物)等を見下ろすような位置から撮像した画像であるとする。このため撮像画像501において、上辺近傍に写っている人物は撮像装置から遠い位置の人物であり、一方、下辺近傍に写っている人物は撮像装置から近い位置の人物となる。すなわち撮像画像501において、上辺近傍に写る人物の顔502のサイズは、下辺近傍に写る人物の顔503のサイズより小さいサイズになる。なお、顔サイズにおけるアスペクト比は、撮像画像のいずれの位置においても一定であり、その値(アスペクト比)は1であるとする。つまり各位置での顔サイズの縦幅は顔の横幅である顔サイズsに等しいとする。このため撮像画像について、各位置における顔サイズの横幅の分布を取得しておけば、事前に定めた顔サイズのアスペクト比から、各位置での顔サイズの縦幅が算出可能となる。なお本実施形態において、ユーザが任意の位置の顔サイズを設定する場合、ユーザは、入力部105を介して顔502や503等の顔型を任意の位置にドラッグして顔の位置と顔サイズを変更してもよいし、位置・サイズを示す数値を入力してもよい。
本実施形態において、画像取得部201が取得する撮像画像は、地面や床面より高い位置に設置された監視カメラ等の撮像装置により検出対象の物体(人物)等を見下ろすような位置から撮像した画像であるとする。このため撮像画像501において、上辺近傍に写っている人物は撮像装置から遠い位置の人物であり、一方、下辺近傍に写っている人物は撮像装置から近い位置の人物となる。すなわち撮像画像501において、上辺近傍に写る人物の顔502のサイズは、下辺近傍に写る人物の顔503のサイズより小さいサイズになる。なお、顔サイズにおけるアスペクト比は、撮像画像のいずれの位置においても一定であり、その値(アスペクト比)は1であるとする。つまり各位置での顔サイズの縦幅は顔の横幅である顔サイズsに等しいとする。このため撮像画像について、各位置における顔サイズの横幅の分布を取得しておけば、事前に定めた顔サイズのアスペクト比から、各位置での顔サイズの縦幅が算出可能となる。なお本実施形態において、ユーザが任意の位置の顔サイズを設定する場合、ユーザは、入力部105を介して顔502や503等の顔型を任意の位置にドラッグして顔の位置と顔サイズを変更してもよいし、位置・サイズを示す数値を入力してもよい。
次にS432において、領域設定部204は、画像の上辺での顔サイズとして想定される最小の顔サイズを基に、当該上辺側における検出領域のサイズを決定する。本実施形態では画像の上辺側を最上段とし、領域設定部204は、当該最上段で想定される最小の顔サイズを基に当該最上段に設定する検出領域のサイズを決定する。
前述したように、検出部202における顔の検出精度は、検出領域画像内の顔サイズと相関があり、顔サイズが検出領域画像のサイズと比較して小さすぎると、検出精度が低下する。また、検出精度の低下が略々無い最小の顔サイズは、検出処理の際に使用する学習モデルによる。本実施形態では、顔サイズの横幅が検出領域のサイズの1/4以上であれば検出精度の低下が略々無いものとする。なお本実施形態では、図示の都合上、顔サイズの横幅を検出領域サイズの1/4としたが、実際には学習モデルの入力を数百ピクセルとすると、顔サイズは1/10程度の数十ピクセルが適当である場合が多い。このため、検出精度の低下が略々無い最小の顔サイズは、検出領域サイズの1/10程度の数十ピクセルとしてもよい。
図7は、画像の上辺近傍の位置で想定される顔サイズの4倍のサイズの領域を、当該上辺側に対応した最上段の検出領域として設定した様子を示した図である。すなわち領域設定部204は、撮像画像の上辺における顔502のサイズを基に、その4倍のサイズの領域を最上段における検出領域601として設定する。S432の処理によって最上段の検出領域のサイズを決定した後、領域設定部204は、次のS433に処理を進める。
S433の処理に進むと、領域設定部204は、前述のようにして設定した検出領域が、検出対象範囲の下端、つまり撮像画像の下端まで達したか否かを判定する。ここまでの説明では、最上段の検出領域のみしか設定されていないため、S433において、領域設定部204は、検出領域が検出対象範囲の下端まで到達していないと判定し、次のS434に処理を進める。
S434の処理に進むと、領域設定部204は、最上段の次の段(最上段が1段目であるため2段目となる)の検出領域を設定する。本実施形態の場合、領域設定部204は、1段目(最上段)で設定した検出領域に内包される顔のうち、最も大きい顔サイズ(最大顔サイズ)を基に、2段目の検出領域を設定する。具体的には領域設定部204は、1段目(最上段)において設定した検出領域に内包される顔のうち、当該1段目の検出領域の最下端の位置で想定される顔の最上部を上端とし、さらに当該顔を最小の顔サイズとする検出領域を、2段目の検出領域として設定する。
図8は、2段目の検出領域を設定した様子を示した図である。すなわち領域設定部204は、1段目の検出領域601に内包される顔であって、当該検出領域601の最下端の位置で想定される顔701のサイズに対して4倍サイズで且つ、当該顔701の最上部が上端となる検出領域702を2段目の検出領域に設定する。この図8の例からわかるように、1段目で設定された検出領域610と、2段目で設定された検出領域702との間には、y軸方向において顔701のサイズ分だけの重複範囲が存在することになる。領域設定部204は、S434の処理によって2段目の検出領域702のサイズを決定した後、次のS433に処理を戻す。
したがって2段目の検出領域を設定した後にS433に進んだ場合、領域設定部204は、前述同様に、設定した検出領域が検出対象範囲の下端、つまり撮像画像の下端まで達したか否かを判定する。ここまでの説明では、2段目の検出領域まで設定されているが、検出領域は未だ検出対象範囲の下端まで到達していないとする。このため、領域設定部204は、S434に処理を進める。
そしてS434の処理に進むと、領域設定部204は、2段目の次の段(3段目とする)における検出領域を設定する。このときの領域設定部204は、2段目において設定した検出領域に内包される顔のうち、当該2段目の検出領域の最下端の位置で想定される顔の最上部を上端とし、さらに当該顔を検出最小サイズとする検出領域を、3段目の検出領域として設定する。
図9は、3段目の検出領域を設定した様子を示した図である。すなわち領域設定部204は、2段目の検出領域702に内包される顔であって、当該検出領域702の最下端に位置する顔801のサイズに対して4倍のサイズで且つ、当該顔801の最上部が上端となる検出領域802を3段目の検出領域として設定する。
図9の例に示すように、3段目の検出領域は検出対象範囲の下端、つまり撮像画像の下端に到達しているので、領域設定部204は、S433において検出領域は検出対象範囲の下端まで到達したと判定して、S435に処理を進める。
S435の処理に進むと、領域設定部204は、前述のようにして最上段(1段目)から3段目までの段ごとに設定した検出領域に含まれる顔サイズの最大値を基に、それら段ごとに、x軸方向(横方向)に隣接する検出領域間の重複範囲を設定する。さらに領域設定部204は、段ごとに設定したx軸方向の隣接検出領域間の重複範囲を基に、それら段ごとに、x軸方向に設定する検出領域の数を算出する。本実施形態の場合、領域設定部204は、検出対象(顔)のサイズに応じて重複範囲を設定する際の所定の条件、および検出領域のサイズを設定する際の所定の条件を満たす、最少の数を検出領域数として設定する。本実施形態において、重複範囲を設定する際の所定の条件とは、重複範囲の幅を決める条件であり、画像の各位置における検出対象サイズ(顔サイズ)に対して所定の割合となる幅である。本実施形態の場合、各位置における検出対象サイズに対する所定の割合は前述したように十割となされている。また本実施形態において、検出領域のサイズを設定する際の所定の条件とは、検出対象サイズと検出領域のサイズとの関係から検出精度を確保可能となるサイズに関する条件である。本実施形態では、検出対象サイズと検出領域のサイズとの関係から検出精度を確保可能となるサイズとは、前述したように学習モデルを用いた検出において精度を維持可能なサイズである。
図10(a)は、最上段(1段目)においてx軸方向(横方向)の検出領域数を算出し、その検出領域数の検出領域をx軸方向に配置した例を示した図である。ここで、図10(a)に示すように、最上段(1段目)の検出領域601に内包される顔のうち、そのサイズが最大となる顔は、検出領域601の最下端の位置で想定される顔701となる。このため領域設定部204は、その検出領域601の最下端の位置で想定される顔701のサイズを基に、x軸方向に隣接する各検出領域間の重複範囲の幅を決定する。すなわち領域設定部204は、最上段においてx軸方向に隣接する検出領域間の重複範囲の幅を、検出領域601に内包される可能性がある最大顔サイズの顔701の横幅分を内包可能な幅とする。重複範囲の幅をこのように設定することにより、最上段(1段目)には、顔701より上側の位置で想定される顔を内包する検出領域が少なくとも一つは存在することになる。なお、図10(a)では、x軸方向に重複範囲を持つ6個の検出領域が設定された例が示されている。
また領域設定部204は、最上段(1段目)の検出領域数nを下記の式(1)により算出する。式(1)において、sは顔701の横幅、wは撮像画像の横幅(検出対象範囲の横幅)、dは検出領域601のサイズである。またceil()は、天井関数である。
n=ceil((w-s)/(d-s)) 式(1)
2段目についても1段目(最上段)と同様にしてx軸方向に隣接する検出領域間の重複範囲および検出領域数が設定される。
図10(b)は、2段目においてx軸方向に隣接する検出領域702間で重複範囲を設定し、さらに検出領域数を算出して、それらの検出領域をx軸方向に配置した例を示した図である。すなわち2段目の場合、検出領域702に内包される最大顔サイズの顔は、当該検出領域702の最下端の位置における顔801であるため、領域設定部204は、その顔801のサイズを基にx軸方向に隣接する各検出領域間の重複範囲の幅を決定する。また領域設定部204は、式(1)において、sを顔801の横幅、dを検出領域702のサイズとして、2段目の検出領域数nを算出する。これにより、2段目には、顔801より上側の位置で想定される顔を内包する検出領域が少なくとも一つは存在することになる。なお、図10(b)では、x軸方向に重複範囲を持つ5個の検出領域が設定された例が示されている。
図10(b)は、2段目においてx軸方向に隣接する検出領域702間で重複範囲を設定し、さらに検出領域数を算出して、それらの検出領域をx軸方向に配置した例を示した図である。すなわち2段目の場合、検出領域702に内包される最大顔サイズの顔は、当該検出領域702の最下端の位置における顔801であるため、領域設定部204は、その顔801のサイズを基にx軸方向に隣接する各検出領域間の重複範囲の幅を決定する。また領域設定部204は、式(1)において、sを顔801の横幅、dを検出領域702のサイズとして、2段目の検出領域数nを算出する。これにより、2段目には、顔801より上側の位置で想定される顔を内包する検出領域が少なくとも一つは存在することになる。なお、図10(b)では、x軸方向に重複範囲を持つ5個の検出領域が設定された例が示されている。
3段目についても前述同様にしてx軸方向に隣接する検出領域間の重複範囲および検出領域数が設定される。図10(c)は、3段目においてx軸方向に隣接する検出領域802間で重複範囲を設定し、さらに検出領域数を算出して、それらの検出領域をx軸方向に配置した例を示した図である。なお、図10(c)に示した3段目の検出領域数を算出する際に使用する顔の横幅は、当該3段目の検出領域の下端の位置で想定される顔サイズではなく、検出対象範囲の最下端で想定される最大の顔503のサイズが用いられる。図10(c)では、x軸方向に重複範囲を持つ4個の検出領域が設定された例が示されている。
図11は、前述のように1段目から3段目までの段ごとに顔サイズに応じた重複範囲幅および検出領域サイズの条件を満たす最少検出領域数の全ての検出領域601,702,802を、検出対象範囲を覆うように配置した状態を示した図である。
前述のようにして検出対象範囲に対する全ての検出領域を設定すると、領域設定部204は、次のS436において、全ての検出領域601,702,802が検出対象範囲(撮像画像501の範囲)内に収まるように、各検出領域を調整する。具体的には、領域設定部204は、まず各段において、両端の検出領域が検出対象範囲(撮像画像)の両端の位置と合うように配置した後、他の残りの検出領域を等間隔に並べるように調整する。
図12(a)は、各段についてS436の調整処理が行われた後の検出領域1061,1072,1082の配置状態を示した図である。なお図12(a)には、参考のために、各段において隣接する検出領域間の重複範囲を設定したときに用いられた顔701,801,503も図示している。
ここで、3段目である最下段の検出領域1082は、図12(a)に示すように、検出対象範囲の下辺からはみ出す可能性がある。また、最下段の検出領域1082において精度よく検出できる最小顔サイズは、検出領域1082の上端側の位置で想定される顔801のサイズである。このため、検出対象範囲の下辺に合わせようとして最下段の検出領域1082をそのまま上側に移動させると、検出領域1082のサイズを設定した際の最小顔サイズの顔801よりも小さいサイズの顔が、当該検出領域1082内に含まれる可能性がある。この場合、その顔801よりも小さいサイズの顔を、検出領域1082内で検出したときの精度は落ちる可能性がある。
一方、検出対象範囲内でx軸方向に検出領域を配置する際には、前述した式(1)のように検出対象範囲の横幅(w)を基に検出領域数が算出され、最下段でも両端の検出領域を検出対象範囲両端に位置させ、残りの検出領域を等間隔に並べる位置調整が行われる。したがって、図12(a)に示すように、最下段の検出領域1082に含まれる可能性がある最大顔サイズの顔503の横幅に対し、x軸方向の重複範囲幅1003にはある程度の余裕が生じる場合がある。言い換えると、当該最下段の各検出領域1082には、縮小可能な余裕が生じると考えられる。
このため、領域設定部204は、前述した検出対象サイズ(顔サイズ)に応じた重複範囲の幅および検出領域サイズの条件を満たす範囲内で、検出領域(顔)のサイズを縮小する。この場合、領域設定部204は、最下段の各検出領域の重複範囲の幅を当該最下段の位置における最大顔サイズの顔503の横幅未満にしないという条件を維持しつつ各検出領域を縮小して、検出対象範囲の下辺からはみ出した分を収めるようにする。
図12(b)は、最下段である3段目の検出領域1082を、検出対象範囲の最下端の位置の顔サイズ分の重複範囲幅を維持しつつ、各検出領域を縮小した後の様子を示した図である。ここで、図12(b)の最下段の検出領域1082は、図12(a)で示された最下段の検出領域1082より小さくなっているため、このときの検出領域において精度良く検出可能な顔のサイズも小さくなる。したがって顔801のサイズより小さい顔も精度良く検出することが可能になり、各検出領域1082を上側に移動させて、それら検出領域1082の下辺と検出対象範囲の下辺とを合わせるようにしても、検出精度の低下は生じなくなる。ただしこの場合、最下段の検出領域を上側に移動させる際には、検出対象範囲の最下段が検出領域に含まれる位置で且つ、検出領域に含まれる顔のサイズが、検出領域のサイズの1/4以上になる位置までしか移動させないという条件を満たす必要がある。またこの条件があるため、最下段の検出領域の全てを、検出対象範囲の下辺に合わせられる位置まで上側に移動させることができない場合も生じ得る。この場合、後述する変形例で説明するように、検出領域数を増やしたり、内包される顔サイズが検出領域サイズの1/4以下になることを許容して、上側に移動したりすることで、検出領域の全域を検出対象範囲内に収めてもよい。
図12(c)は、検出対象範囲の下辺に合わせるように最下段(3段目)の検出領域を上側に移動させた後の状態を示した図である。
領域設定部204は、以上説明したような検出領域の調整処理を行うことにより、全ての検出領域が検出対象範囲内に収まるようにする。その後、領域設定部204は、図5のフローチャートの処理を終了する。
領域設定部204は、以上説明したような検出領域の調整処理を行うことにより、全ての検出領域が検出対象範囲内に収まるようにする。その後、領域設定部204は、図5のフローチャートの処理を終了する。
なお前述したように、検出対象範囲の下辺に合わせるように最下段の検出領域を上側に移動させる調整を行った後、領域設定部204は、2段目と1段目の検出領域に対しても3段目で行ったのと同様の縮小や上側へ移動させる調整処理を行ってもよい。すなわち2段目や1段目の検出領域に3段目と同様の縮小処理を行った場合、当該縮小処理後の検出領域のサイズは、S432で検出領域を設定した際に想定した最小顔サイズに対して相対的に小さくなる。このため、S432で想定した最小顔サイズに対する検出精度は上がることになる。また本実施形態では、検出領域の縮小や上側への移動を行う場合、以降に下段が無く重複範囲を考慮する必要のない最下段の検領域から縮小と上側への移動を行ったが、任意の段から縮小、上側へ移動させる調整処理を行ってもよい。ただしその場合、下段の検出領域との重複範囲幅が当該位置で想定される顔サイズ分をカバーできる必要があり、その重複範囲幅の条件を満たすためには、当該下段側を縮小して上側へ移動させるような調整を行うことが望ましい。
以上説明したように、第1の実施形態の情報処理装置100は、撮像画像(検出対象範囲)の各位置において想定される検出対象サイズ(顔サイズ)を基に、検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定する。これにより誤検出や未検出等の発生が低減され、その結果、複数の検出領域における物体検出および検出結果の統合処理において最終的に適切な検出結果を出力することが可能となる。すなわち本実施形態によれば、撮像画像から検出対象の物体を検出する場合において、画像から検出対象を検出する際の処理負荷の増大を抑えつつ、誤検出や未検出等を低減可能となる。
<変形例1>
前述した図5のフローチャートのS436の検出領域調整処理では、S435で算出された検出領域数を維持しつつ検出領域を調整したが、例えば検出領域数を増やせば検出領域のサイズを縮小できるため、検出領域数を増やすようにしてもよい。すなわち領域設定部204は、検出対象(顔)のサイズに応じた重複範囲の幅の条件、検出領域のサイズの条件、および検出領域数の上限の条件を満たす範囲で、検出領域数を増やして検出領域のサイズを縮小してもよい。ただし、検出領域数を増やし過ぎると処理時間が長くなるため、処理時間として許容可能な範囲内で検出領域数を増やすようにする。なお、この例の場合も、検出領域数の上限は、上限設定部208により設定される上限数とする。
前述した図5のフローチャートのS436の検出領域調整処理では、S435で算出された検出領域数を維持しつつ検出領域を調整したが、例えば検出領域数を増やせば検出領域のサイズを縮小できるため、検出領域数を増やすようにしてもよい。すなわち領域設定部204は、検出対象(顔)のサイズに応じた重複範囲の幅の条件、検出領域のサイズの条件、および検出領域数の上限の条件を満たす範囲で、検出領域数を増やして検出領域のサイズを縮小してもよい。ただし、検出領域数を増やし過ぎると処理時間が長くなるため、処理時間として許容可能な範囲内で検出領域数を増やすようにする。なお、この例の場合も、検出領域数の上限は、上限設定部208により設定される上限数とする。
また第1の実施形態では、顔サイズがy座標のみに依存する例を挙げた。このため、例えば検出領域数を増やす場合には、検出領域のサイズと、当該検出領域内で想定される最小の顔サイズとの比率が最も小さくなる段について、検出領域数を増やすようにすることが、検出精度の観点から効率的である。ただし、検出領域数を増やした段の検出領域は縮小されることになり、検出領域の上辺側と下辺側に設定される重複範囲幅を維持するためには、その段より下側の検出領域を上側に移動させる必要がある。このため、全ての検出領域が検出対象範囲内に収まるという条件を満たしているかに注意が必要となる。すなわち全ての検出領域が検出対象範囲内に収まるという条件が満たされない場合、処理時間の増加が許容されるのであれば、さらに元の最下段のさらに下の段に検出領域を追加してもよい。なお、このときさらに下の段に追加する検出領域のサイズは、元の最下段の検出領域のサイズより大きくなるので、追加される検出領域の数は、元の最下段の検出領域の数以下となる。
<変形例2>
前述した実施形態において、検出領域の設定処理では、撮像画像内の顔サイズが小さい場合や、y軸方向に対する顔サイズの大きさの変化が大きい場合には、さらに多くの検出領域が必要になる。ただし、検出領域が増えるほど、処理時間は長くなるため、図5のフローチャートの検出領域設定処理において求められる検出領域の数が、許容される処理時間から算出される検出領域数の上限を超える場合には、所定の警告を発するようにしてもよい。すなわちこの場合、領域設定部204は、検出対象(顔)のサイズに応じた重複範囲の幅の条件、検出領域のサイズの条件を満たすようにして検出対象範囲に収める検出領域を設定する際に、検出領域数が上限を超過する場合には所定の警告情報を出力する。なお、警告情報は、表示部104へ警告表示を行うための情報であってもよいし、不図示のスピーカ等から警告音声を出力するための情報であってもよい。
前述した実施形態において、検出領域の設定処理では、撮像画像内の顔サイズが小さい場合や、y軸方向に対する顔サイズの大きさの変化が大きい場合には、さらに多くの検出領域が必要になる。ただし、検出領域が増えるほど、処理時間は長くなるため、図5のフローチャートの検出領域設定処理において求められる検出領域の数が、許容される処理時間から算出される検出領域数の上限を超える場合には、所定の警告を発するようにしてもよい。すなわちこの場合、領域設定部204は、検出対象(顔)のサイズに応じた重複範囲の幅の条件、検出領域のサイズの条件を満たすようにして検出対象範囲に収める検出領域を設定する際に、検出領域数が上限を超過する場合には所定の警告情報を出力する。なお、警告情報は、表示部104へ警告表示を行うための情報であってもよいし、不図示のスピーカ等から警告音声を出力するための情報であってもよい。
また許容される処理時間から算出される検出領域数が上限を超える場合、例えば、重複範囲の幅を顔サイズの等倍より狭くすること、あるいは最小の顔サイズに対する検出領域のサイズを大きくすることで、必要な検出領域数を減らすようにしてもよい。ただし、検出精度と検出領域数とはトレードオフの関係にある。このため、検出領域のサイズと検出精度との関係、重複範囲の幅と検出精度との関係が既知であるならば、検出領域数の上限を超過する場合に、重複範囲の条件もしくは検出領域サイズの条件を緩和してもよい。つまり領域設定部204は、検出対象サイズに応じて重複範囲の幅と検出領域のサイズの条件を満たしつつ検出対象範囲に収めるように検出領域を設定する時、検出領域数が上限を超過する場合には、重複範囲の幅や検出領域のサイズの条件を緩和する。またこの場合、検出領域数が上限に収まる範囲で最も精度が良い検出領域の配置を自動的に再設定してもよい。また前述のように警告を発する時に、このような検出領域の配置の再設定を行うか否かを、ユーザが選択可能にするGUIを表示等してもよい。さらに、重複範囲の幅と顔サイズとの比率、および、最小の顔サイズと検出領域のサイズとの比率を、ユーザが指定可能とし、ユーザにて指定された比率を用いて検出領域の再設定を行ってもよい。
<変形例3>
前述した実施形態の場合、検出領域のサイズは、当該検出領域を設定する位置で想定される顔サイズによって決まるため、当該設定する位置で想定される顔サイズが小さい場合には、検出領域が小さくなる。一方で、検出部202へ入力する画像のサイズは、学習モデルによって決まっているため、検出部202へ入力する画像サイズよりも検出領域のサイズが小さい場合には、検出領域を拡大して入力する必要がある。この場合、拡大率が大き過ぎると、つまり検出領域を拡大し過ぎると、検出領域画像内の顔が不鮮明になるため検出精度が低下する可能性がある。そこで、範囲設定部207は、各位置において想定される検出対象サイズに基づいて検出対象範囲を設定するようにしてもよい。すなわち範囲設定部207は、サイズ取得部203にて取得された顔サイズの分布を基に、当該顔サイズが予め定められた最小値以上となる範囲を検出対象範囲に設定する。このように検出対象範囲を設定することにより、当該検出対象範囲内において領域設定部204により設定される検出領域は、顔サイズが予め定められた最小値以上の検出領域となり、その結果、検出部202の検出精度が維持されることになる。なお、顔サイズについて予め定められる最小値は、ユーザが設定してもよいし、検出部202で用いる学習モデルに応じた拡大率と検出精度との関係、および学習モデルにおいて精度良く検出可能な最小の顔サイズから算出される値を用いてもよい。
前述した実施形態の場合、検出領域のサイズは、当該検出領域を設定する位置で想定される顔サイズによって決まるため、当該設定する位置で想定される顔サイズが小さい場合には、検出領域が小さくなる。一方で、検出部202へ入力する画像のサイズは、学習モデルによって決まっているため、検出部202へ入力する画像サイズよりも検出領域のサイズが小さい場合には、検出領域を拡大して入力する必要がある。この場合、拡大率が大き過ぎると、つまり検出領域を拡大し過ぎると、検出領域画像内の顔が不鮮明になるため検出精度が低下する可能性がある。そこで、範囲設定部207は、各位置において想定される検出対象サイズに基づいて検出対象範囲を設定するようにしてもよい。すなわち範囲設定部207は、サイズ取得部203にて取得された顔サイズの分布を基に、当該顔サイズが予め定められた最小値以上となる範囲を検出対象範囲に設定する。このように検出対象範囲を設定することにより、当該検出対象範囲内において領域設定部204により設定される検出領域は、顔サイズが予め定められた最小値以上の検出領域となり、その結果、検出部202の検出精度が維持されることになる。なお、顔サイズについて予め定められる最小値は、ユーザが設定してもよいし、検出部202で用いる学習モデルに応じた拡大率と検出精度との関係、および学習モデルにおいて精度良く検出可能な最小の顔サイズから算出される値を用いてもよい。
[第2の実施形態]
第1の実施形態では、顔サイズがy座標にのみ依存する例を挙げたため、各段の検出領域サイズおよびy軸方向の重複範囲が決定された後に、x軸方向の重複範囲幅と検出領域数が決定される。ただしこれには限定されず、例えば撮像画像の顔サイズがx座標に依存する場合であっても、検出領域を設定することができる。すなわち撮像画像の顔サイズがx座標に依存する場合も、最終的に検出対象範囲内の各位置で想定される顔を内包する検出領域で且つ、検出対象範囲の全域を覆うように検出領域を設定すればよい。撮像画像の顔サイズがx座標に依存する場合には、例えば、検出領域が未設定の領域において顔サイズが最も小さい位置から順に検出領域を割り当てるなどすればよい。さらに、顔サイズがy座標とx座標のいずれか一方にのみ依存する場合だけでなく、y座標とx座標の両方に依存する場合にも、検出領域を設定することができる。
第1の実施形態では、顔サイズがy座標にのみ依存する例を挙げたため、各段の検出領域サイズおよびy軸方向の重複範囲が決定された後に、x軸方向の重複範囲幅と検出領域数が決定される。ただしこれには限定されず、例えば撮像画像の顔サイズがx座標に依存する場合であっても、検出領域を設定することができる。すなわち撮像画像の顔サイズがx座標に依存する場合も、最終的に検出対象範囲内の各位置で想定される顔を内包する検出領域で且つ、検出対象範囲の全域を覆うように検出領域を設定すればよい。撮像画像の顔サイズがx座標に依存する場合には、例えば、検出領域が未設定の領域において顔サイズが最も小さい位置から順に検出領域を割り当てるなどすればよい。さらに、顔サイズがy座標とx座標のいずれか一方にのみ依存する場合だけでなく、y座標とx座標の両方に依存する場合にも、検出領域を設定することができる。
第2の本実施形態では、顔サイズがy座標だけでなくx座標にも依存する場合において、検出領域を設定する例について説明する。第2の実施形態の情報処理装置100の構成は、前述した図1、図2と同様であるため、それらの図示および説明は省略する。第2の実施形態の場合、サイズ取得部203は、画像のx軸方向とy軸方向の両方向における各位置に対応した検出対象サイズ(顔サイズ)の分布を取得する。そして第2の実施形態の領域設定部204は、x軸方向とy軸方向の両方向における各位置に対応した検出対象サイズの分布を基に、各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定する。
図13~図18は、顔サイズがy座標だけでなくx座標にも依存する場合の検出領域の設定例の説明に用いる図である。なお第2の実施形態の説明でも、検出対象範囲は前述同様に例えば撮像画像501の全域とする。またここでは説明をわかり易くするために、顔サイズはy軸方向およびx軸方向において正方向になるほど大きくなり、顔サイズが最も小さい位置は撮像画像501の左端上端の座標(x,y)=(0,0)の位置であるとする。
まず、領域設定部204は、検出対象範囲全体を、検出領域が設定されていない未設定領域とする。本実施形態の場合、領域設定部204は、未設定領域の左端上端部に検出領域を設定し、後述するような設定完了領域を更新する処理を繰り返すことで、検出対象範囲全域に検出領域を設定する。
図13は、未設定領域の左端上端部に一つ目の検出領域を設定し、その検出領域から設定完了領域を設定する例の説明図である。この時点では、撮像画像501全体(検出対象範囲全体)が未設定領域であるので、領域設定部204は、未設定領域の左端上端部である撮像画像501の左端上端に、検出領域1802を設定する。検出領域のサイズは、未設定領域の左端上端部の位置で想定される顔サイズ1801が検出精度の低下の無い最小の顔サイズとなるような大きさとする。なお第1の実施形態では、検出領域のサイズの1/4サイズを検出精度の低下が無い最小の顔サイズとしたが、第2の実施形態では、検出領域のサイズの1/8以上の顔サイズであれば、検出精度の低下が無いものとして説明する。すなわちこの例の場合、領域設定部204は、検出精度の低下が無い最小の顔サイズの8倍サイズの検出領域1802を設定する。
さらに領域設定部204は、一つ目の検出領域1802の右辺側および下辺側に、後に設定される隣接する検出領域との間の重複範囲をそれぞれ設定する。重複範囲の幅は、検出領域1802の右下端の位置で想定される顔サイズ1803分とする。本実施形態の場合、顔サイズはy軸およびx軸の正方向になるほど大きくなる例を想定しているため、検出領域1802の右下端の顔サイズ1803が、当該検出領域1802内で想定される最大の顔サイズとなる。このため、領域設定部204は、検出領域1802の右辺側および下辺側にそれぞれ設定する重複範囲の幅を、その顔サイズ1803に応じた幅に設定する。また、領域設定部204は、検出領域1802のうち重複範囲除いた領域を、設定完了領域1804とする。なお、検出領域1802のうち設定完了領域1804を除いた領域は、この時点では未設定領域となる。
次に、領域設定部204は、一つ目の検出領域1802の下辺側に、二つ目の検出領域を設定する。領域設定部204は、設定済みの一つ目の検出領域1802の設定完了領域1804を除いた未設定領域に、二つ目の検出領域を設定する。
図14は、一つ目の検出領域1802の下辺側の未設定領域に二つ目の検出領域を設定する様子の説明に用いる図である。領域設定部204は、一つ目の検出領域1802の下辺側における未設定領域、つまり設定完了領域1804の下辺側における未設定領域の左端上端部に、二つ目の検出領域1806を設定する。二つ目の検出領域1806を設定する場合も前述した一つ目の検出領域の設定時と同様に、当該検出領域1806のサイズは、未設定領域の左端上端の位置で想定される顔サイズ1805の8倍に設定される。また、検出領域1806の重複範囲についても一つ目の検出領域の場合と同様に、当該検出領域1806の右辺側および下辺側に設定され、当該重複範囲の幅は検出領域1806の右下端の位置で想定される顔サイズ1807分の幅となされる。そして、領域設定部204は、検出領域1806のうち重複範囲を除いた領域を、設定完了領域1808とする。なお、検出領域1806のうち設定完了領域1808を除いた領域は、この時点では未設定領域となる。
図15は、前述のようにして設定済みの検出領域の下辺側に隣接する検出領域を順に設定し、それら各検出領域についてそれぞれ設定完了領域を決めていった様子を示した図である。前述のように検出領域を順次設定していったことで、検出対象範囲の下辺外に検出領域が出てしまうことになる場合、領域設定部204は、検出対象範囲の下辺外に出るようになった検出領域を、当該検出対象範囲内に収まるように配置する。図15の検出領域1809は、当該検出対象範囲内に収まるように配置された検出領域を示している。またこの時の領域設定部204は、検出対象範囲内に収めた検出領域1809については下辺側の重複範囲は設けず、右辺側にのみ重複範囲を設定する。当該検出領域1809の右辺側に設けられる重複範囲の幅は、当該検出領域1809の右下端の位置で想定される顔サイズ1807分の幅となされる。そして、領域設定部204は、検出領域1809のうち重複範囲除いた領域を、設定完了領域1811とする。なお、検出領域1809のうち設定完了領域1811を除いた領域は、この時点では未設定領域となる。
前述したようにして、検出対象範囲の下辺部の設定完了領域1811を設定した後、領域設定部204は、次の検出領域を設定する位置を、前述した一つ目の検出領域1802の右辺側にする。
図16は、一つ目の検出領域1802の右辺側に次の検出領域を設定する際の説明に用いる図である。領域設定部204は、図16に示すように、一つ目の検出領域1802の右辺側に、次の検出領域1812を設定する。このときの領域設定部204は、一つ目の検出領域1802の右辺側に設定した重複範囲分だけ重複するようにして検出領域1812を設定する。また領域設定部204は、この検出領域1812の右辺側と下辺側に、後に設定される隣接する検出領域との間の重複範囲を設定する。重複範囲の幅は、検出領域1812の右下端の位置で想定される顔サイズ分とする。そして、領域設定部204は、検出領域1812のうち重複範囲を除いた領域を、設定完了領域1813とする。なお、検出領域1812のうち、設定完了領域1813と既に設定済みとなっている設定完了領域を除いた領域は、この時点では未設定領域となる。
図16は、一つ目の検出領域1802の右辺側に次の検出領域を設定する際の説明に用いる図である。領域設定部204は、図16に示すように、一つ目の検出領域1802の右辺側に、次の検出領域1812を設定する。このときの領域設定部204は、一つ目の検出領域1802の右辺側に設定した重複範囲分だけ重複するようにして検出領域1812を設定する。また領域設定部204は、この検出領域1812の右辺側と下辺側に、後に設定される隣接する検出領域との間の重複範囲を設定する。重複範囲の幅は、検出領域1812の右下端の位置で想定される顔サイズ分とする。そして、領域設定部204は、検出領域1812のうち重複範囲を除いた領域を、設定完了領域1813とする。なお、検出領域1812のうち、設定完了領域1813と既に設定済みとなっている設定完了領域を除いた領域は、この時点では未設定領域となる。
次に、領域設定部204は、検出領域1812の設定後、当該検出領域1812における設定完了領域1813の下辺側に、次の検出領域を設定する。
図17は、設定完了領域1813の下辺側に検出領域1815を設定する際の説明に用いる図である。このときの領域設定部204は、図16に示した設定完了領域1813の下辺側における未設定領域の左端上端部の位置と、その位置における顔サイズ1814とに基づいて、検出領域1815を設定する。すなわち領域設定部204は、検出領域1815のサイズを顔サイズ1814の8倍に設定する。また領域設定部204は、検出領域1815の右辺側と下辺側に、後に設定される隣接する検出領域との間の重複範囲を設定する。重複範囲の幅は、検出領域1815の右下端の位置で想定される顔サイズ1816分とする。そして、領域設定部204は、検出領域1815のうち重複範囲を除いた領域を、設定完了領域1817とする。なお、検出領域1815のうち、設定完了領域1817と既に設定済みとなっている設定完了領域を除いた領域は、この時点では未設定領域となる。
図17は、設定完了領域1813の下辺側に検出領域1815を設定する際の説明に用いる図である。このときの領域設定部204は、図16に示した設定完了領域1813の下辺側における未設定領域の左端上端部の位置と、その位置における顔サイズ1814とに基づいて、検出領域1815を設定する。すなわち領域設定部204は、検出領域1815のサイズを顔サイズ1814の8倍に設定する。また領域設定部204は、検出領域1815の右辺側と下辺側に、後に設定される隣接する検出領域との間の重複範囲を設定する。重複範囲の幅は、検出領域1815の右下端の位置で想定される顔サイズ1816分とする。そして、領域設定部204は、検出領域1815のうち重複範囲を除いた領域を、設定完了領域1817とする。なお、検出領域1815のうち、設定完了領域1817と既に設定済みとなっている設定完了領域を除いた領域は、この時点では未設定領域となる。
領域設定部204は、前述したような処理を繰り返すことで、検出対象範囲内を覆うように全検出領域を配置する。
図18は、検出対象範囲全体を覆うように検出領域が配され、検出対象範囲内の全てが設定完了領域となされた後の配置例を示した図である。そして、領域設定部204は、検出対象範囲全体を覆うように検出領域が配置されると、全検出領域の設定が完了したと判断する。
本実施形態の情報処理装置は、前述のような処理により、顔サイズがy座標だけでなくx座標にも依存する場合であっても、検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定でき、検出対象範囲全体を覆うような検出領域を設定することができる。
図18は、検出対象範囲全体を覆うように検出領域が配され、検出対象範囲内の全てが設定完了領域となされた後の配置例を示した図である。そして、領域設定部204は、検出対象範囲全体を覆うように検出領域が配置されると、全検出領域の設定が完了したと判断する。
本実施形態の情報処理装置は、前述のような処理により、顔サイズがy座標だけでなくx座標にも依存する場合であっても、検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定でき、検出対象範囲全体を覆うような検出領域を設定することができる。
[第3の実施形態]
次に、第3の実施形態に係る情報処理装置100について説明する。第3の実施形態の情報処理装置100の構成は、前述した図1、図2と同様であるため、それらの図示および説明は省略する。第3の実施形態では、前述した第1の実施形態のように、顔サイズがy座標にのみ依存する場合を例に挙げ、また顔サイズの横幅が検出領域のサイズの1/4以上であれば検出精度の低下が略々無いとする例を挙げて説明する。
次に、第3の実施形態に係る情報処理装置100について説明する。第3の実施形態の情報処理装置100の構成は、前述した図1、図2と同様であるため、それらの図示および説明は省略する。第3の実施形態では、前述した第1の実施形態のように、顔サイズがy座標にのみ依存する場合を例に挙げ、また顔サイズの横幅が検出領域のサイズの1/4以上であれば検出精度の低下が略々無いとする例を挙げて説明する。
前述した第1の実施形態では、顔サイズsはs=by+cで表され、y座標に対して一意的に定まる値になる例を挙げて説明した。ここで例えば、撮像装置の俯角が浅い場合、顔サイズは、図19に示すように、同じy座標に対してサイズが大きく異なるような分布になる場合がある。図19において、顔1101はy=y0の位置で想定される最小の顔サイズ、顔1102はy=y1の位置で想定される最小の顔サイズ、顔1103はy=y0の位置で想定される最大の顔サイズ、顔1104はy=y1の位置で想定される最大の顔サイズの例とする。
第3の実施形態の場合、サイズ取得部203は、y座標が同じである同位置において想定される検出対象(顔)の最大サイズ(最大顔サイズ)および最小サイズ(最小顔サイズ)を取得する。第3の実施形態では、顔サイズがy座標にのみ依存する場合を例に挙げているため、同じy座標の位置において想定される、顔サイズの最小値である最小サイズssはss=dy+e、顔サイズの最大値である最大サイズslはsl=fy+gで表すことができる。
このため、第3の実施形態の領域設定部204は、サイズ取得部203で取得された各位置に対応した検出対象(顔)の最小サイズおよび最大サイズに基づいて、検出領域のサイズおよび隣接する検出領域間の重複範囲を設定する。
第3の実施形態においても、第1の実施形態で用いた図5のフローチャートを参照しながら検出領域の設定方法を説明する。なお、撮像装置の俯角が浅い場合、撮像画像501の上辺近傍には顔が写らないことも多いため、第3の実施形態では、図19に示すように、y座標がy0以上(y≧y0)の領域を検出対象範囲1105とする。
第3の実施形態の場合、図5のフローチャートのS431において、領域設定部204がサイズ取得部203から取得する顔サイズの分布は、図19に示したようなy≧y0(y座標がy0以上)の検出対象範囲1105における顔サイズの分布になる。第3の実施形態では、前述したように、撮像画像501の各位置において想定される顔の最小サイズはss=dy+e、顔の最大サイズはsl=fy+gのように、y座標にのみ依存する。以下、最小サイズssとして求められる各位置での最小の顔を「最小顔」と呼び、最大サイズslとして求められる各位置での最大の顔を「最大顔」と呼ぶことにする。また、第3の実施形態において、顔サイズのアスペクト比は1とする。すなわち各位置での顔の縦幅は顔の横幅である顔サイズに等しいとする。
なお第3の実施形態の例でも、ユーザが任意の位置の顔サイズを設定する場合、ユーザは、入力部105を介して顔502や503の顔型を任意の位置にドラッグしてそれら位置やサイズを変更してもよいし、位置やサイズを示す数値を入力してもよい。第3の実施形態の場合は、このような設定入力が、最大顔と最小顔について行われる。
次にS432において、領域設定部204は、検出対象範囲1105内の最小顔、つまりy=0の位置の最小顔1101を基に、最上段(1段目)の検出領域のサイズを決定する。前述したように、検出部202の検出精度は検出領域画像内の顔サイズと相関があり、顔サイズの横幅が検出領域サイズの1/4以上ならば検出精度低下が略々無いとすると、領域設定部204は、検出領域サイズを最小顔のサイズの4倍とする。
図20は、検出対象範囲1105の最上段の最小顔の4倍サイズの検出領域を、当該最上段に設定した様子を示した図である。すなわち領域設定部204は、y=y0の最小顔1101の幅1201を基に、その4倍のサイズの領域を当該最上段の検出領域1202として設定する。
次にS433において、領域設定部204は、前述のようにして設定した検出領域が、検出対象範囲1105の下端まで達したか否かを判定する。図20に例示した時点では、1段目の検出領域のみしか設定されていないため、領域設定部204は、検出領域が検出対象範囲の下端まで到達していないと判定し、次のS434に処理を進める。
S434の処理に進むと、領域設定部204は、2段目の検出領域を設定する。このときの領域設定部204は、1段目の検出領域内で最下端に位置する最大顔の最上部を上端とし、当該最大顔とy座標が同じ位置にある最小顔が、精度良く検出できる最小の顔サイズとなるサイズの領域を、2段目の検出領域に設定する。
図21は、2段目の検出領域を設定した様子を示した図である。領域設定部204は、S432で設定した1段目の検出領域1202の最下端に位置する最大顔1301の最上部とy座標が同じ位置を上端とする最小顔1302の、4倍サイズで且つ、最小顔1302の最上部を上端とする検出領域1303を設定する。その後、領域設定部204は、S433へ処理を戻す。なお、図21に例示した時点でも前述同様に、2段目では検出領域が検出対象範囲1105の下端まで到達していないので、領域設定部204は、S433から再度S434の処理に進む。
図22は、3段目の検出領域が設定される場合の様子を示した図である。3段目の検出領域を設定する場合、領域設定部204は、2段目の検出領域1303の最下端に位置する最大顔1401の最上部を上端とする最小顔1402の4倍サイズの検出領域1403を、その最小顔1402の最上部を上端とするように設定する。このようにして検出領域を設定した後、領域設定部204は、再度S433へ処理を進める。そしてこの場合、3段目の検出領域は検出対象範囲1105の下端に到達したので、領域設定部204は、S433からS435へ処理を進める。
S435に進むと、領域設定部204は、各段の検出領域に含まれる最大顔のサイズを基にx軸方向の重複範囲の幅を計算し、さらに各段のx軸方向の検出領域数を算出する。
S435に進むと、領域設定部204は、各段の検出領域に含まれる最大顔のサイズを基にx軸方向の重複範囲の幅を計算し、さらに各段のx軸方向の検出領域数を算出する。
以下、図23を用いて各段のx軸方向(横方向)の検出領域数を算出し、その検出領域数の検出領域をx軸方向に配置する様子を説明する。
図23(a)は1段目の検出領域数の算出および各検出領域の配置例を示した図である。
ここで1段目の検出領域1202に内包されると想定される顔のうち、最大顔は、当該検出領域1202の最下端の最大顔1301であるため、x軸方向の重複範囲の幅は最大顔1301の横幅となる。重複範囲の幅をこのように設定することにより、検出対象範囲1105内で、且つy≦y2の範囲に内包される顔を内包する検出領域は少なくとも一つ存在することになる。
図23(a)は1段目の検出領域数の算出および各検出領域の配置例を示した図である。
ここで1段目の検出領域1202に内包されると想定される顔のうち、最大顔は、当該検出領域1202の最下端の最大顔1301であるため、x軸方向の重複範囲の幅は最大顔1301の横幅となる。重複範囲の幅をこのように設定することにより、検出対象範囲1105内で、且つy≦y2の範囲に内包される顔を内包する検出領域は少なくとも一つ存在することになる。
このとき、1段目の検出領域数nは、最大顔1301の横幅(最大サイズ)をsl、撮像画像の横幅をw、検出領域のサイズをdとすると、下記の式(2)で表される。なお、式中のceil()は天井関数である。
n=ceil((w-sl)/(d-sl)) 式(2)
2段目、3段目についても1段目と同様にして重複範囲と検出領域数が決定される。
図23(b)は、2段目においてx軸方向の重複範囲と検出領域数を決め、その検出領域数の各検出領域1303を配置した例を示した図である。また、図23(c)は、3段目においてx軸方向の重複範囲と検出領域数を決め、その検出領域数の各検出領域1403を配置した例を示した図である。なお、図23(c)に示した3段目の検出領域数を算出するために使用する最大顔の横幅は、当該3段目の検出領域の最大顔のサイズではなく、検出対象範囲1105の下辺における最大顔のサイズを用いる。
図23(b)は、2段目においてx軸方向の重複範囲と検出領域数を決め、その検出領域数の各検出領域1303を配置した例を示した図である。また、図23(c)は、3段目においてx軸方向の重複範囲と検出領域数を決め、その検出領域数の各検出領域1403を配置した例を示した図である。なお、図23(c)に示した3段目の検出領域数を算出するために使用する最大顔の横幅は、当該3段目の検出領域の最大顔のサイズではなく、検出対象範囲1105の下辺における最大顔のサイズを用いる。
図24は、前述のようにして1段目から3段目までの段ごとに決定した検出領域数の全ての検出領域1202,1303,1403を、検出対象範囲1105に配置した状態を示した図である。このようにして検出対象範囲の全域を覆うように検出領域を設定した後、領域設定部204は、S436において、それら全ての検出領域1202,1303,1403が検出対象範囲1105に収まるように検出領域の調整を行う。検出領域の調整処理は前述した第1の実施形態で説明した処理と同様である。すなわち領域設定部204は、検出領域の各段において、両端の検出領域が検出対象範囲の両端に位置するように配置し、残りの検出領域を等間隔に並べる。
図25は、各段の検出領域に対してS436の処理を行った結果を示した図である。なお、図25には、参考のために、各段においてx軸方向の重複範囲を決定したときに用いた顔1301,1401,1104も図示している。これ以降の処理は第1の実施形態の場合と同様であるため説明は省略する。
前述したように、第3の実施形態の場合、検出領域のサイズは最小顔のサイズにより制限され、検出領域の重複範囲は最大顔のサイズにより制限される。これにより、第3の実施形態の情報処理装置100では、各位置において顔サイズが異なる分布を持つ場合であっても、それらの顔サイズの分布を基に検出領域のサイズおよび隣接する検出領域同士の重複範囲を決定することができる。その結果、第3の実施形態の情報処理装置100によれば、複数の検出領域における物体検出および検出結果統合処理において、最終的により適切な検出結果を出力することが可能となる。
なお第3の実施形態では、顔サイズがy座標にのみ依存する例を挙げたため、各段の画像サイズおよびy座標を決定した後に、x座標方向の重複範囲幅及び検出領域数を決定した。また第3の実施形態の場合も、前述同様に、顔サイズがx座標にのみ依存する場合も検出領域を設定可能である。すなわち検出対象範囲1105の顔サイズがx座標に依存する場合、例えば未検出領域のうち最小顔のサイズが最も小さい位置から検出領域を割り当てていくなどすればよい。
また第3の実施形態でも、第1の実施形態の変形例1で説明した検出領域を縮小する処理や、変形例2で説明した検出領域を追加する処理も同様に適用可能である。ただし第1の実施形態の変形例2では、重複範囲の幅を顔サイズの等倍より狭くしたり、顔の最小サイズに対する検出領域のサイズを大きくしたりする例を挙げた。これに対し第3の実施形態の場合は、検出対象の最大サイズと最小サイズとの差に応じて、検出領域間の重複範囲の幅および検出領域のサイズを変更してもよい。すなわち最大顔のサイズと最小顔のサイズの差が大きい場合には重複範囲の条件もしくは検出領域サイズの条件を緩和することが効果的である。このため、最大顔のサイズと最小顔のサイズの差を、これらを緩和する条件としてもよい。特に、大きいサイズの顔は検出領域に収まっていなくても精度よく検出できるため、最大顔のサイズと最小顔のサイズとの差が一定以上の場合には重複範囲の幅を最大顔のサイズの等倍より狭くする、という処理も有効である。
さらに第3の実施形態でも前述した第2の実施形態の例と同様に、顔サイズがy座標だけでなくx座標にも依存する場合に検出領域を設定することが可能である。つまり第3の実施形態も前述同様に、最終的に、検出対象範囲内のいずれの位置の顔に対してもそれを内包する検出領域が存在し、且つ検出対象範囲の全域を覆うように検出領域を設定することができる。
[第4の実施形態]
次に、第4の実施形態に係る情報処理装置100について説明する。第4の実施形態の情報処理装置100の構成は、前述した図1、図2と同様であるため、それらの説明は省略する。第4の実施形態でも、前述した第1の実施形態のように、顔サイズがy座標にのみ依存する場合を例に挙げ、また顔サイズの横幅が検出領域のサイズの1/4以上であれば検出精度の低下が略々無いとする例を挙げて説明する。
次に、第4の実施形態に係る情報処理装置100について説明する。第4の実施形態の情報処理装置100の構成は、前述した図1、図2と同様であるため、それらの説明は省略する。第4の実施形態でも、前述した第1の実施形態のように、顔サイズがy座標にのみ依存する場合を例に挙げ、また顔サイズの横幅が検出領域のサイズの1/4以上であれば検出精度の低下が略々無いとする例を挙げて説明する。
前述した第3の実施形態では、撮像装置の俯角が浅い場合、図19に示したように、同じy座標に対して顔サイズが大きく異なる分布になることがあるため、分布の最小顔と最大顔を用いて検出対象範囲を覆う検出領域を設定する例を説明した。また検出領域のサイズをd、最大顔の横幅(最大サイズ)をsl、撮像画像の横幅をwとすると、1段目の検出領域数nは、前述したように式(2)で表すことができる。また検出領域のサイズdは最小顔のサイズの4倍となされているので、最小顔の横幅(最小サイズss)を用いるとd=4×ssになり、このことから検出領域数nは下記の式(3)で表すことができる。
n=ceil((w/sl-1)/(4×ss/sl-1)) 式(3)
ここで、例えば顔サイズの分布が大きく、最小顔のサイズに対して最大顔のサイズが大きくなると、式(3)のss/slの値は小さくなるため、分母が小さくなり、その結果、1段目の検出領域数nの値は大きくなる。さらに例えば、sl≧4×ssとなると、重複範囲の幅は、検出領域のサイズ以上となり、第3の実施形態で説明した領域設定処理では検出領域を設定することができなくなる。
そこで、第4の実施形態の領域設定部204は、各位置で想定される検出対象(顔)のサイズの最大サイズと最小サイズとの差が所定の値以上である場合、顔サイズの分布を分割する。さらに領域設定部204は、その分割した複数の分布における各位置で想定される最小サイズおよび最大サイズを基に、検出領域のサイズおよび隣接する検出領域間の重複範囲を決定する。そして、領域設定部204は、その分割した複数の分布ごとに設定した検出領域を合わせたものを検出領域に設定する。
第4の実施形態の場合、領域設定部204は、サイズ取得部203にて取得された顔サイズの分布を基に、y座標に依存したいずれの位置でも、ss<sm<sl、sm<4×ss、且つsl<4×smとなる中間サイズsmの分布を設定する。さらに、領域設定部204は、第3の実施形態で述べた顔の最小サイズと最大サイズに代えて、最小サイズssから中間サイズsmの分布と、中間サイズsmから最大サイズslの分布の、二つの分布を設定(つまり分布を分割)する。そして領域設定部204は、それら最小サイズssから中間サイズsmの分布と、中間サイズsmから最大サイズslの分布の、二つの分布のそれぞれに対し、第3の実施形態で述べた領域設定処理によって検出対象範囲を覆う検出領域群を求める。その後、領域設定部204は、それら二つの分布に対応して取得した二つの検出領域群を合わせて検出領域を設定する。
これにより、第4の実施形態によれば、顔サイズが最小顔のサイズに対して最大顔のサイズが大きい分布になる場合でも、検出領域数及び検出領域サイズを適切に設定することができる。
なお前述の例では、顔の最小サイズから中間サイズまでと、中間サイズから最大サイズまでのように、顔サイズの分布を二つに分割する例を挙げた。これに対し、例えば、sm<4×ssで且つsl<4×smの条件を満たさない場合などでは、分布を三つ以上に分割してもよい。また、分布を分ける際の分割数および分割割合は、予め決めておいてもよいし、取得した分布に応じた最適な分割数や分割割合にしてもよい。また、複数に分けた分布に対して検出対象範囲を設定してもよい。例えば、y座標が小さい範囲では最大顔と最小顔の差が小さいので、一つの検出領域群でのみ検出領域を設定した方が、検出領域の総数を少なくできる場合がある。
なお前述の例では、顔の最小サイズから中間サイズまでと、中間サイズから最大サイズまでのように、顔サイズの分布を二つに分割する例を挙げた。これに対し、例えば、sm<4×ssで且つsl<4×smの条件を満たさない場合などでは、分布を三つ以上に分割してもよい。また、分布を分ける際の分割数および分割割合は、予め決めておいてもよいし、取得した分布に応じた最適な分割数や分割割合にしてもよい。また、複数に分けた分布に対して検出対象範囲を設定してもよい。例えば、y座標が小さい範囲では最大顔と最小顔の差が小さいので、一つの検出領域群でのみ検出領域を設定した方が、検出領域の総数を少なくできる場合がある。
第4の実施形態において、顔サイズの分布を複数に分割した後は、第3の実施形態で説明したのと同様の領域設定処理が行われるため、第4の実施形態においても第1の実施形態の各変形例を適用することも可能である。また第4の実施形態は、第2の実施形態同様に顔サイズがy座標だけでなくx座標に依存する場合にも適用可能である。
ここで、第4の実施形態では、前述したように、顔サイズの分布を例えば二つに分割し、それら分割した分布のそれぞれに対応した検出領域群を設定するため、検出部202では、それら検出領域群ごとの検出結果が得られることになる。したがって第4の実施形態の統合部205は、第1の実施形態で説明した統合処理だけでなく、それら検出領域群間の検出結果を統合する処理をも行う。なお、第1の実施形態で説明した同位置の検出領域内の統合処理および同位置の検出領域群内の隣接検出領域間での統合処理は、前述同様であるためその説明は省略する。
以下、第4の実施形態における二つの検出領域群間での検出結果の統合処理について説明する。ここで、二つの検出領域群間の検出結果を統合する処理としては、第1の実施形態と同様の統合処理を用いてもよいが、第4の実施形態では、二つの検出領域群間の検出結果のサイズと検出領域のサイズとの比率に基づく統合処理を行うとする。
図26は、二つの検出領域群間の検出結果のサイズと検出領域のサイズとの比率に基づく統合処理の説明に用いる図である。
図26は、二つの検出領域群間の検出結果のサイズと検出領域のサイズとの比率に基づく統合処理の説明に用いる図である。
第4の実施形態の場合、前述したように、顔サイズの分布を二分割してそれら分割した分布に対応した二つの検出領域群が設定される。すなわち一方の検出領域群は最小サイズから中間サイズの分布に対応し、もう一方の検出領域群は中間サイズから最大サイズの分布に対応している。したがって、検出対象範囲内には、一方の検出領域群に属する小さい検出領域1701と、もう一方の検出領域群に属する大きい検出領域1702とが重なって配置される。
このため、例えば小さい顔1703の場合、検出部202によって検出される検出枠は、検出領域1701による検出枠1704と、検出領域1702よる検出枠1705とになり、それらが統合部205に出力される。ここで、検出枠1705のサイズは、検出領域1702のサイズに対して精度よく検出可能な顔の最小サイズ未満(検出領域1702のサイズの1/4未満)になっているとする。一方、検出枠1704のサイズは、検出領域1701のサイズに対して精度よく検出可能な顔の最小サイズ以上(検出領域1701のサイズの1/4以上)であるとする。この場合、統合部205は、検出枠1705については検出領域1702のサイズに対して精度よく検出可能な顔の最小サイズ未満であるため、当該検出枠1705を統合から除外する。一方、検出枠1704は検出領域1701のサイズに対して精度よく検出可能な顔の最小サイズ以上であるため、統合部205は、当該検出枠1704を採用する。
また例えば、大きい顔1706の場合、検出部202にて検出される検出枠は、検出領域1701による検出枠1707と、検出領域1702による検出枠1708とになり、それらが統合部205に出力されることになる。また、検出枠1708のサイズは、検出領域1702のサイズに対して精度よく検出可能な顔の最小サイズ以上であり、且つ、その検出枠1708の位置は検出領域1702の中央付近であるとする。一方、検出枠1707のサイズは、検出領域1701のサイズに対して精度よく検出可能な顔の最小サイズ以上であるが、検出枠1708と検出領域1701との間に斜線部で示した共通部分1709においてIoUが大きい値になっているとする。この場合、統合部205は、検出枠1708と検出領域1701との間の共通部分1709のIoUが大きい値であるため、検出枠1707が検出枠1708で検出した顔の一部であると判断し、当該検出枠1707は除外する。なおこの際、統合部205は、検出枠1707の信頼度が検出枠1708より小さい場合にのみ検出枠1707を除外すると判断する、といったように、信頼度を除外の判断基準に用いてもよい。この例の場合、統合部205は、検出枠1708を採用する。
なお、第4の実施形態における統合処理の順序は、同位置の検出領域内の統合処理、同位置の検出領域群内の隣接検出領域間での統合処理の後、検出領域群間での統合処理を行うような順であるのが好ましいが、この順に限定されるものではない。
第4の実施形態に係る情報処理装置100は、各位置における検出対象の最大サイズと最小サイズとの差が大きい分布を持つ場合、その分布を分割した複数の分布を基に検出領域のサイズおよび隣接する検出領域同士の重複範囲を決定する。これにより、第4の実施形態の情報処理装置100によれば、より少ない数の検出領域で検出対象範囲の全域を覆うことができる。さらに第4の実施形態では、検出領域群間の検出結果の検出枠が、その検出領域群間の検出領域サイズに対し、精度よく検出可能な最小サイズの比率未満か或いは比率以上かに応じて、その検出枠を採用または除外するような統合処理を行う。また第4の実施形態では、検出領域群間の検出結果の検出枠の共通部分のIoUの値、もしくは信頼度を基に、検出枠を採用または除外するような統合処理を行う。これにより、第4の実施形態によれば、複数の検出領域における物体検出および検出結果統合処理において、最終的により適切な検出結果を出力することが可能となる。
本発明は、上述の各実施形態の一以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける一つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、一以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
上述の各実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
上述の各実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
前述した実施形態の開示は、以下の構成、方法、およびプログラムを含む。
(構成1)
画像を取得する画像取得手段と、
画像の各位置に対応した検出対象サイズを取得するサイズ取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、前記サイズ取得手段により取得された前記各位置における前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする情報処理装置。
(構成2)
前記画像取得手段により取得された画像に対し、前記領域設定手段により設定される前記複数の全ての検出領域が配置される対象範囲を設定する範囲設定手段を有することを特徴とする構成1に記載の情報処理装置。
(構成3)
前記範囲設定手段は、前記サイズ取得手段により取得された前記各位置における前記検出対象サイズに基づいて、前記対象範囲を設定することを特徴とする構成2に記載の情報処理装置。
(構成4)
前記領域設定手段は、前記各位置における前記検出対象サイズに対して所定の割合となる幅の前記重複範囲を、前記隣接する検出領域同士に設定することを特徴とする構成1乃至3のいずれか1構成に記載の情報処理装置。
(構成5)
前記領域設定手段は、前記各位置における前記検出対象サイズの前記検出対象を内包可能な幅の前記重複範囲を設定することを特徴とする構成4に記載の情報処理装置。
(構成6)
前記サイズ取得手段は、前記各位置の位置ごとに前記検出対象サイズとして生じ得る最小サイズおよび最大サイズを取得し、
前記領域設定手段は、前記各位置における前記検出対象サイズの前記最小サイズおよび最大サイズに基づいて、前記検出領域のサイズおよび隣接する検出領域同士の前記重複範囲を設定することを特徴とする構成1乃至5のいずれか1構成に記載の情報処理装置。
(構成7)
前記領域設定手段は、前記検出対象サイズの前記最小サイズと最大サイズとの差が所定の値以上である場合、前記各位置に対応した前記複数の検出対象サイズの分布を分割し、前記分割した分布における各位置に対応した検出対象サイズの最小サイズおよび最大サイズに基づいて、前記検出領域のサイズおよび隣接する検出領域同士の重複範囲を決めたのち、前記分割した分布ごとに決めた検出領域を合わせたものを前記複数の検出領域として設定することを特徴とする構成6に記載の情報処理装置。
(構成8)
前記領域設定手段は、前記最小サイズと最大サイズとの差を基に、前記検出領域のサイズおよび隣接する検出領域同士の重複範囲を変更することを特徴とする構成6または7に記載の情報処理装置。
(構成9)
前記領域設定手段により設定される前記複数の検出領域の総数は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たす、最少の数であることを特徴とする構成1乃至8のいずれか1構成に記載の情報処理装置。
(構成10)
前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たす範囲で、前記検出領域のサイズを縮小することを特徴とする構成1乃至9のいずれか1構成に記載の情報処理装置。
(構成11)
前記領域設定手段にて設定される前記検出領域の数の上限を設定する上限設定手段を有することを特徴とする構成1乃至10のいずれか1構成に記載の情報処理装置。
(構成12)
前記領域設定手段は、前記重複範囲を設定する際の所定の条件、前記検出領域のサイズを設定する際の所定の条件、および前記上限設定手段による前記検出領域の数の上限を満たす範囲で、前記検出領域の数を調整することを特徴とする構成11に記載の情報処理装置。
(構成13)
前記領域設定手段は、前記検出領域の数を増やして前記検出領域のサイズを縮小することを特徴とする構成12に記載の情報処理装置。
(構成14)
前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たすときの前記検出領域の数が前記上限を超える場合には、所定の警告を出力することを特徴とする構成12に記載の情報処理装置。
(構成15)
前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たして前記検出領域の数が前記上限を超える場合、前記重複範囲を設定する際の所定の条件もしくは検出領域のサイズを設定する際の所定の条件を緩和することを特徴とする構成12または13に記載の情報処理装置。
(構成16)
前記検出手段による前記検出対象ごとの検出結果を、前記領域設定手段により設定された検出領域の配置に応じて統合する統合手段を有することを特徴とする構成1乃至15のいずれか1構成に記載の情報処理装置。
(構成17)
前記サイズ取得手段は、画像のx軸とy軸のいずれか一方の軸方向における各位置に対応した検出対象サイズを取得し、
前記領域設定手段は、前記サイズ取得手段により取得された前記軸方向の各位置に対応した前記検出対象サイズを基に、前記各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする構成1乃至16のいずれか1構成に記載の情報処理装置。
(構成18)
前記サイズ取得手段は、画像のx軸とy軸の両方の軸方向における各位置に対応した検出対象サイズを取得し、
前記領域設定手段は、前記サイズ取得手段により取得された前記軸方向の各位置に対応した前記検出対象サイズを基に、前記各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする構成1乃至16のいずれか1構成に記載の情報処理装置。
(構成19)
前記領域設定手段は、設定済みの検出領域に対して前記軸方向の次の位置の検出領域を設定する際には、前記設定済みの検出領域から重複範囲を除いた領域を設定完了領域とし、前記軸方向の前記次の位置に対応した検出対象サイズを基に、前記設定完了領域を除いた未設定領域について前記次の位置の検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする構成18に記載の情報処理装置。
(構成20)
前記検出手段は機械学習により得られた学習モデルを用いて前記検出領域ごとに前記検出対象を検出し、
前記領域設定手段は、前記学習モデルに対する入力サイズと前記各位置に対応した前記検出対象サイズとを基に、前記各位置における前記検出領域のサイズおよび前記隣接する検出領域同士の重複範囲を設定することを特徴とする構成1乃至19のいずれか1構成に記載の情報処理装置。
(構成21)
画像を取得する画像取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、隣接する検出領域同士が漏れなく重複するように前記検出領域を設定することを特徴とする情報処理装置。
(方法1)
画像を取得する画像取得工程と、
画像の各位置に対応した検出対象サイズを取得するサイズ取得工程と、
画像に対して複数の検出領域を設定する領域設定工程と、
前記画像取得工程で取得した画像から、前記検出領域ごとに検出対象を検出する検出工程と、を有し、
前記領域設定工程では、前記サイズ取得工程により取得された前記各位置に対応した前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする情報処理方法。
(方法2)
画像を取得する画像取得工程と、
画像に対して複数の検出領域を設定する領域設定工程と、
前記画像取得工程で取得した画像から、前記検出領域ごとに検出対象を検出する検出工程と、を有し、
前記領域設定工程では、隣接する検出領域同士が漏れなく重複するように前記検出領域を設定することを特徴とする情報処理方法。
(プログラム1)
コンピュータを、構成1乃至21のいずれか1構成に記載の情報処理装置として機能させるためのプログラム。
(構成1)
画像を取得する画像取得手段と、
画像の各位置に対応した検出対象サイズを取得するサイズ取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、前記サイズ取得手段により取得された前記各位置における前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする情報処理装置。
(構成2)
前記画像取得手段により取得された画像に対し、前記領域設定手段により設定される前記複数の全ての検出領域が配置される対象範囲を設定する範囲設定手段を有することを特徴とする構成1に記載の情報処理装置。
(構成3)
前記範囲設定手段は、前記サイズ取得手段により取得された前記各位置における前記検出対象サイズに基づいて、前記対象範囲を設定することを特徴とする構成2に記載の情報処理装置。
(構成4)
前記領域設定手段は、前記各位置における前記検出対象サイズに対して所定の割合となる幅の前記重複範囲を、前記隣接する検出領域同士に設定することを特徴とする構成1乃至3のいずれか1構成に記載の情報処理装置。
(構成5)
前記領域設定手段は、前記各位置における前記検出対象サイズの前記検出対象を内包可能な幅の前記重複範囲を設定することを特徴とする構成4に記載の情報処理装置。
(構成6)
前記サイズ取得手段は、前記各位置の位置ごとに前記検出対象サイズとして生じ得る最小サイズおよび最大サイズを取得し、
前記領域設定手段は、前記各位置における前記検出対象サイズの前記最小サイズおよび最大サイズに基づいて、前記検出領域のサイズおよび隣接する検出領域同士の前記重複範囲を設定することを特徴とする構成1乃至5のいずれか1構成に記載の情報処理装置。
(構成7)
前記領域設定手段は、前記検出対象サイズの前記最小サイズと最大サイズとの差が所定の値以上である場合、前記各位置に対応した前記複数の検出対象サイズの分布を分割し、前記分割した分布における各位置に対応した検出対象サイズの最小サイズおよび最大サイズに基づいて、前記検出領域のサイズおよび隣接する検出領域同士の重複範囲を決めたのち、前記分割した分布ごとに決めた検出領域を合わせたものを前記複数の検出領域として設定することを特徴とする構成6に記載の情報処理装置。
(構成8)
前記領域設定手段は、前記最小サイズと最大サイズとの差を基に、前記検出領域のサイズおよび隣接する検出領域同士の重複範囲を変更することを特徴とする構成6または7に記載の情報処理装置。
(構成9)
前記領域設定手段により設定される前記複数の検出領域の総数は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たす、最少の数であることを特徴とする構成1乃至8のいずれか1構成に記載の情報処理装置。
(構成10)
前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たす範囲で、前記検出領域のサイズを縮小することを特徴とする構成1乃至9のいずれか1構成に記載の情報処理装置。
(構成11)
前記領域設定手段にて設定される前記検出領域の数の上限を設定する上限設定手段を有することを特徴とする構成1乃至10のいずれか1構成に記載の情報処理装置。
(構成12)
前記領域設定手段は、前記重複範囲を設定する際の所定の条件、前記検出領域のサイズを設定する際の所定の条件、および前記上限設定手段による前記検出領域の数の上限を満たす範囲で、前記検出領域の数を調整することを特徴とする構成11に記載の情報処理装置。
(構成13)
前記領域設定手段は、前記検出領域の数を増やして前記検出領域のサイズを縮小することを特徴とする構成12に記載の情報処理装置。
(構成14)
前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たすときの前記検出領域の数が前記上限を超える場合には、所定の警告を出力することを特徴とする構成12に記載の情報処理装置。
(構成15)
前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たして前記検出領域の数が前記上限を超える場合、前記重複範囲を設定する際の所定の条件もしくは検出領域のサイズを設定する際の所定の条件を緩和することを特徴とする構成12または13に記載の情報処理装置。
(構成16)
前記検出手段による前記検出対象ごとの検出結果を、前記領域設定手段により設定された検出領域の配置に応じて統合する統合手段を有することを特徴とする構成1乃至15のいずれか1構成に記載の情報処理装置。
(構成17)
前記サイズ取得手段は、画像のx軸とy軸のいずれか一方の軸方向における各位置に対応した検出対象サイズを取得し、
前記領域設定手段は、前記サイズ取得手段により取得された前記軸方向の各位置に対応した前記検出対象サイズを基に、前記各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする構成1乃至16のいずれか1構成に記載の情報処理装置。
(構成18)
前記サイズ取得手段は、画像のx軸とy軸の両方の軸方向における各位置に対応した検出対象サイズを取得し、
前記領域設定手段は、前記サイズ取得手段により取得された前記軸方向の各位置に対応した前記検出対象サイズを基に、前記各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする構成1乃至16のいずれか1構成に記載の情報処理装置。
(構成19)
前記領域設定手段は、設定済みの検出領域に対して前記軸方向の次の位置の検出領域を設定する際には、前記設定済みの検出領域から重複範囲を除いた領域を設定完了領域とし、前記軸方向の前記次の位置に対応した検出対象サイズを基に、前記設定完了領域を除いた未設定領域について前記次の位置の検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする構成18に記載の情報処理装置。
(構成20)
前記検出手段は機械学習により得られた学習モデルを用いて前記検出領域ごとに前記検出対象を検出し、
前記領域設定手段は、前記学習モデルに対する入力サイズと前記各位置に対応した前記検出対象サイズとを基に、前記各位置における前記検出領域のサイズおよび前記隣接する検出領域同士の重複範囲を設定することを特徴とする構成1乃至19のいずれか1構成に記載の情報処理装置。
(構成21)
画像を取得する画像取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、隣接する検出領域同士が漏れなく重複するように前記検出領域を設定することを特徴とする情報処理装置。
(方法1)
画像を取得する画像取得工程と、
画像の各位置に対応した検出対象サイズを取得するサイズ取得工程と、
画像に対して複数の検出領域を設定する領域設定工程と、
前記画像取得工程で取得した画像から、前記検出領域ごとに検出対象を検出する検出工程と、を有し、
前記領域設定工程では、前記サイズ取得工程により取得された前記各位置に対応した前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする情報処理方法。
(方法2)
画像を取得する画像取得工程と、
画像に対して複数の検出領域を設定する領域設定工程と、
前記画像取得工程で取得した画像から、前記検出領域ごとに検出対象を検出する検出工程と、を有し、
前記領域設定工程では、隣接する検出領域同士が漏れなく重複するように前記検出領域を設定することを特徴とする情報処理方法。
(プログラム1)
コンピュータを、構成1乃至21のいずれか1構成に記載の情報処理装置として機能させるためのプログラム。
100:情報処理装置、201:画像取得部、202:検出部、203:サイズ取得部、204:領域設定部、205:統合部、206:出力部、207:範囲設定部、208:上限設定部、209:記憶部
Claims (25)
- 画像を取得する画像取得手段と、
画像の各位置に対応した検出対象サイズを取得するサイズ取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、前記サイズ取得手段により取得された前記各位置における前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする情報処理装置。 - 前記画像取得手段により取得された画像に対し、前記領域設定手段により設定される前記複数の全ての検出領域が配置される対象範囲を設定する範囲設定手段を有することを特徴とする請求項1に記載の情報処理装置。
- 前記範囲設定手段は、前記サイズ取得手段により取得された前記各位置における前記検出対象サイズに基づいて、前記対象範囲を設定することを特徴とする請求項2に記載の情報処理装置。
- 前記領域設定手段は、前記各位置における前記検出対象サイズに対して所定の割合となる幅の前記重複範囲を、前記隣接する検出領域同士に設定することを特徴とする請求項1に記載の情報処理装置。
- 前記領域設定手段は、前記各位置における前記検出対象サイズの前記検出対象を内包可能な幅の前記重複範囲を設定することを特徴とする請求項4に記載の情報処理装置。
- 前記サイズ取得手段は、前記各位置の位置ごとに前記検出対象サイズとして生じ得る最小サイズおよび最大サイズを取得し、
前記領域設定手段は、前記各位置における前記検出対象サイズの前記最小サイズおよび最大サイズに基づいて、前記検出領域のサイズおよび隣接する検出領域同士の前記重複範囲を設定することを特徴とする請求項1に記載の情報処理装置。 - 前記領域設定手段は、前記検出対象サイズの前記最小サイズと最大サイズとの差が所定の値以上である場合、前記各位置に対応した前記複数の検出対象サイズの分布を分割し、前記分割した分布における各位置に対応した検出対象サイズの最小サイズおよび最大サイズに基づいて、前記検出領域のサイズおよび隣接する検出領域同士の重複範囲を決めたのち、前記分割した分布ごとに決めた検出領域を合わせたものを前記複数の検出領域として設定することを特徴とする請求項6に記載の情報処理装置。
- 前記領域設定手段は、前記最小サイズと最大サイズとの差を基に、前記検出領域のサイズおよび隣接する検出領域同士の重複範囲を変更することを特徴とする請求項6に記載の情報処理装置。
- 前記領域設定手段により設定される前記複数の検出領域の総数は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たす、最少の数であることを特徴とする請求項1に記載の情報処理装置。
- 前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たす範囲で、前記検出領域のサイズを縮小することを特徴とする請求項1に記載の情報処理装置。
- 前記領域設定手段にて設定される前記検出領域の数の上限を設定する上限設定手段を有することを特徴とする請求項1に記載の情報処理装置。
- 前記領域設定手段は、前記重複範囲を設定する際の所定の条件、前記検出領域のサイズを設定する際の所定の条件、および前記上限設定手段による前記検出領域の数の上限を満たす範囲で、前記検出領域の数を調整することを特徴とする請求項11に記載の情報処理装置。
- 前記領域設定手段は、前記検出領域の数を増やして前記検出領域のサイズを縮小することを特徴とする請求項12に記載の情報処理装置。
- 前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たすときの前記検出領域の数が前記上限を超える場合には、所定の警告を出力することを特徴とする請求項12に記載の情報処理装置。
- 前記領域設定手段は、前記重複範囲を設定する際の所定の条件および前記検出領域のサイズを設定する際の所定の条件を満たして前記検出領域の数が前記上限を超える場合、前記重複範囲を設定する際の所定の条件もしくは検出領域のサイズを設定する際の所定の条件を緩和することを特徴とする請求項12に記載の情報処理装置。
- 前記検出手段による前記検出対象ごとの検出結果を、前記領域設定手段により設定された検出領域の配置に応じて統合する統合手段を有することを特徴とする請求項1に記載の情報処理装置。
- 前記サイズ取得手段は、画像のx軸とy軸のいずれか一方の軸方向における各位置に対応した検出対象サイズを取得し、
前記領域設定手段は、前記サイズ取得手段により取得された前記軸方向の各位置に対応した前記検出対象サイズを基に、前記各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする請求項1乃至16のいずれか1項に記載の情報処理装置。 - 前記サイズ取得手段は、画像のx軸とy軸の両方の軸方向における各位置に対応した検出対象サイズを取得し、
前記領域設定手段は、前記サイズ取得手段により取得された前記軸方向の各位置に対応した前記検出対象サイズを基に、前記各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする請求項1乃至16のいずれか1項に記載の情報処理装置。 - 前記領域設定手段は、設定済みの検出領域に対して前記軸方向の次の位置の検出領域を設定する際には、前記設定済みの検出領域から重複範囲を除いた領域を設定完了領域とし、前記軸方向の前記次の位置に対応した検出対象サイズを基に、前記設定完了領域を除いた未設定領域について前記次の位置の検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする請求項18に記載の情報処理装置。
- 前記検出手段は機械学習により得られた学習モデルを用いて前記検出領域ごとに前記検出対象を検出し、
前記領域設定手段は、前記学習モデルに対する入力サイズと前記各位置に対応した前記検出対象サイズとを基に、前記各位置における前記検出領域のサイズおよび前記隣接する検出領域同士の重複範囲を設定することを特徴とする請求項1に記載の情報処理装置。 - 画像を取得する画像取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、隣接する検出領域同士が漏れなく重複するように前記検出領域を設定することを特徴とする情報処理装置。 - 画像を取得する画像取得工程と、
画像の各位置に対応した検出対象サイズを取得するサイズ取得工程と、
画像に対して複数の検出領域を設定する領域設定工程と、
前記画像取得工程で取得した画像から、前記検出領域ごとに検出対象を検出する検出工程と、を有し、
前記領域設定工程では、前記サイズ取得工程により取得された前記各位置に対応した前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定することを特徴とする情報処理方法。 - 画像を取得する画像取得工程と、
画像に対して複数の検出領域を設定する領域設定工程と、
前記画像取得工程で取得した画像から、前記検出領域ごとに検出対象を検出する検出工程と、を有し、
前記領域設定工程では、隣接する検出領域同士が漏れなく重複するように前記検出領域を設定することを特徴とする情報処理方法。 - コンピュータを、
画像を取得する画像取得手段と、
画像の各位置に対応した検出対象サイズを取得するサイズ取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、前記サイズ取得手段により取得された前記各位置に対応した前記検出対象サイズを基に、前記画像の各位置における検出領域のサイズおよび隣接する検出領域同士の重複範囲を設定する情報処理装置として機能させるためのプログラム。 - コンピュータを、
画像を取得する画像取得手段と、
画像に対して複数の検出領域を設定する領域設定手段と、
前記画像取得手段が取得した画像から、前記検出領域ごとに検出対象を検出する検出手段と、を有し、
前記領域設定手段は、隣接する検出領域同士が漏れなく重複するように前記検出領域を設定する情報処理装置として機能させるためのプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022100387A JP2024001618A (ja) | 2022-06-22 | 2022-06-22 | 情報処理装置、情報処理方法及びプログラム |
US18/336,871 US20230419633A1 (en) | 2022-06-22 | 2023-06-16 | Information processing apparatus, information processing method, and storage medium |
EP23180045.9A EP4296976A3 (en) | 2022-06-22 | 2023-06-19 | Information processing apparatus, information processing method, and program |
CN202310739872.9A CN117274354A (zh) | 2022-06-22 | 2023-06-20 | 信息处理设备、信息处理方法和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022100387A JP2024001618A (ja) | 2022-06-22 | 2022-06-22 | 情報処理装置、情報処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024001618A true JP2024001618A (ja) | 2024-01-10 |
Family
ID=86899390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022100387A Pending JP2024001618A (ja) | 2022-06-22 | 2022-06-22 | 情報処理装置、情報処理方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230419633A1 (ja) |
EP (1) | EP4296976A3 (ja) |
JP (1) | JP2024001618A (ja) |
CN (1) | CN117274354A (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015142181A (ja) * | 2014-01-27 | 2015-08-03 | キヤノン株式会社 | 制御装置、制御方法 |
JP6779699B2 (ja) | 2016-08-03 | 2020-11-04 | キヤノン株式会社 | 画像処理装置、情報処理方法及びプログラム |
JP7309392B2 (ja) | 2019-03-15 | 2023-07-18 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
JP2022091547A (ja) * | 2020-12-09 | 2022-06-21 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
-
2022
- 2022-06-22 JP JP2022100387A patent/JP2024001618A/ja active Pending
-
2023
- 2023-06-16 US US18/336,871 patent/US20230419633A1/en active Pending
- 2023-06-19 EP EP23180045.9A patent/EP4296976A3/en active Pending
- 2023-06-20 CN CN202310739872.9A patent/CN117274354A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4296976A2 (en) | 2023-12-27 |
US20230419633A1 (en) | 2023-12-28 |
EP4296976A3 (en) | 2024-03-13 |
CN117274354A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11087169B2 (en) | Image processing apparatus that identifies object and method therefor | |
WO2017163955A1 (ja) | 監視システム、画像処理装置、画像処理方法およびプログラム記録媒体 | |
CN108074237B (zh) | 图像清晰度检测方法、装置、存储介质及电子设备 | |
JP2011008704A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JPWO2013038833A1 (ja) | 画像処理システム、画像処理方法および画像処理プログラム | |
JP2018195084A (ja) | 画像処理装置及び画像処理方法、プログラム、記憶媒体 | |
JP2016505185A (ja) | エッジ選択機能を有するイメージプロセッサ | |
JP6110174B2 (ja) | 画像検出装置及び制御プログラム並びに画像検出方法 | |
CN115439615A (zh) | 一种基于三维bim的分布式综合管理系统 | |
CN114674826A (zh) | 基于布匹的视觉检测方法及检测系统 | |
JP7106296B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP7312026B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP6731753B2 (ja) | 画像処理装置、画像処理方法、画像処理システムおよびプログラム | |
JP2024001618A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN116342519A (zh) | 一种基于机器学习的图像处理方法 | |
WO2021157213A1 (ja) | 画像処理装置および画像処理方法 | |
JP2019219804A (ja) | 物体検出装置及び物体検出方法 | |
JP6351364B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US9159118B2 (en) | Image processing apparatus, image processing system, and non-transitory computer-readable medium | |
JP2022064506A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP5891751B2 (ja) | 画像間差分装置および画像間差分方法 | |
CN114973344A (zh) | 人脸检测方法、装置、终端设备和计算机可读存储介质 | |
JP6121768B2 (ja) | 画像検出装置及び制御プログラム並びに画像検出方法 | |
US20230126046A1 (en) | Information processing apparatus, method of controlling information processing apparatus, and storage medium | |
US10861131B2 (en) | Image magnifying apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240423 |