JP5570895B2 - 検出器構成装置、方法、及びプログラム - Google Patents

検出器構成装置、方法、及びプログラム Download PDF

Info

Publication number
JP5570895B2
JP5570895B2 JP2010160186A JP2010160186A JP5570895B2 JP 5570895 B2 JP5570895 B2 JP 5570895B2 JP 2010160186 A JP2010160186 A JP 2010160186A JP 2010160186 A JP2010160186 A JP 2010160186A JP 5570895 B2 JP5570895 B2 JP 5570895B2
Authority
JP
Japan
Prior art keywords
detection
variation
teacher data
stage
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010160186A
Other languages
English (en)
Other versions
JP2012022535A (ja
Inventor
祐和 亀山
幸二 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2010160186A priority Critical patent/JP5570895B2/ja
Priority to US13/184,261 priority patent/US20120016825A1/en
Publication of JP2012022535A publication Critical patent/JP2012022535A/ja
Application granted granted Critical
Publication of JP5570895B2 publication Critical patent/JP5570895B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、検出器構成装置、方法、及びプログラムに関し、更に詳しくは、学習用の教師データに基づいて、オブジェクトの状態や属性などを検出する検出器を構成する検出器構成装置、方法、及びプログラムに関する。
入力画像から、人物の顔などのオブジェクトを検出するオブジェクト検出技術が知られている。また、オブジェクト検出において、解像度(画像サイズ)が異なる複数の画像を用いてオブジェクト検出を行う技術も知られている。特許文献1は、複数階層の画像を用いてオブジェクト検出を行うことが記載された文献である。特許文献1では、入力画像に対して、その入力画像を所定の縮小率で縮小した1又は複数の縮小画像を生成する。生成された1以上の縮小画像と入力画像とは階層画像を構成する。特許文献1では、階層画像を構成する画像のそれぞれに対して、4方向別のエッジ特徴画像を生成し、各エッジ特徴画像と顔検出用の重みテーブルとを用いて顔検出処理を行う。重みテーブルは、学習に用いる教師サンプル(顔及び非顔のサンプル画像)から求められ、事前にメモリに格納されている。
また、特許文献1には、サイズが大きい上位の階層画像に対する顔検出を行う際に、前処理として、それより全体の画素数が少ない下位の階層画像を用いて粗検出を行うことが記載されている。例えば上位の階層画像として入力画像を考え、下位の階層画像として入力画像を半分のサイズに縮小した縮小画像を考える。入力画像における顔検出の前処理として、サイズが小さい縮小画像を用いて顔の粗検出を行い、この粗検出処理で顔が検出された場合のみ、入力画像に対して顔検出の処理を行う。特許文献1では、このようにすることで、粗検出において顔が検出されないときに、サイズが大きい上位の階層画像に対する検出処理を省略でき、処理の高速化を図ることができるとしている。
特開2007−265390号公報(段落0022、0023、0119〜0135)
例えば、オブジェクトについて複数の種別の状態や属性を検出する場合に、それら複数の種別の状態や属性を全て粗密2段階で検出することも考えられる。しかし、粗検出において、検出対象の状態や属性が全て有意に検出できるとは限らない。検出器における検出の設計において、どの種別の状態や属性を粗検出で検出するかは、設計者が経験や勘を頼りに主観で判断している。このため、設計者に応じて設計された検出器の構成が異なる事態が生じ、必ずしも効率的に検出を行うことができなかった。これまでに、複数の種別の状態や属性を粗検出から高密な検出までの複数段階のどの段階で検出するかを客観的に決める方法は知られていなかった。
本発明は、上記に鑑み、解像度が異なる複数の段階で検出を行う検出器を構成する際に、各段階において検出すべき状態や属性の種別を客観的に決定できる検出器構成装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明は、複数のモダリティ種別のそれぞれに対して、入力データに含まれるオブジェクトの属性が複数の属性値の何れであるかを、解像度が相互に異なる複数段階の検出処理で検出する検出器の学習に用いられる、各モダリティ種別に対応した複数の教師データに基づいて、モダリティ種別ごとに複数の教師データ間の変動の代表値を求める変動量算出部と、前記変動量算出部が求めた前記教師データ間の変動の代表値に基づいて、前記複数段階の検出処理のうち、各モダリティ種別をどの段階の検出処理で検出するかを決定する検出段決定部とを備えることを特徴とする検出器構成装置を提供する。
ここで、モダリティ種別とは、検出対象のオブジェクトの状態や属性などの種別を意味するものとする。また、教師データ間の変動とは、教師データ間のばらつきの度合いを表す値とする。変動の代表値とは、ばらつきの度合いを代表する値であるとする。変動の代表値は、ばらつきの度合いが大きいほど値が大きくなってもよく、逆にばらつきの度合いが大きいほど値が小さくなってもよい。
前記変動量算出部は、各モダリティ種別で検出すべき属性値のそれぞれに対し、各属性値に対応する複数の教師データ間の変動を求め、該求めた各属性値に対応する教師データ間の変動に基づいて各モダリティ種別に対する前記変動の代表値を求めることとすることができる。
前記変動量算出部が、各属性値に対応する複数の教師データ間の変動を求めるデータ間変動計算部と、前記データ間変動計算部が求めた各属性値に対応する教師データ間の変動に基づいて前記変動の代表値を決定する代表値決定部とを有する構成を採用することができる。
上記の場合、前記代表値決定部は、前記各属性値に対応する教師データ間の変動の平均値を求め、該求めた平均値を前記代表値として決定する構成とすることができる。
また、前記データ間変動計算部は、前記教師データをベクトルデータと見たとき、前記複数の教師データにおける同じ次元位置の要素のデータの分布を複数の次元位置に対して求め、該求めたデータの分布に基づいて前記次元位置ごとにデータの変動を求め、該次元位置ごとに求めたデータの変動に基づいて前記教師データ間の変動を求める構成とすることができる。
前記データ間変動計算部は、次元位置ごとに求めたデータの変動の変動を、前記属性値に対応する前記教師データ間の変動とするこができる。
前記データ間変動計算部は、前記複数の教師データを前記複数段階の検出処理のそれぞれに対応した解像度に変換し、前記検出処理の各段に対して、各段に対応する解像度に変換された教師データを表すベクトルデータの同じ次元位置のデータ分布を求めることとすることができる。
前記データ間変動計算部は、前記検出処理の各段に対して前記各属性値に対応する教師データ間の変動を求め、前記代表値決定部が、前記データ間変動計算部が求めた前記検出処理の各段に対する前記各属性値に対応する教師データ間の変動に基づいて、前記検出処理の各段に対して前記変動の代表値を決定する構成とすることができる。
上記の場合、前記検出段決定部は、前記検出処理の各段に対して設定されたしきい値と、前記代表値決定部が各モダリティ種別について前記検出処理の各段に対して決定した変動の代表値とを比較し、前記変動の代表値が前記しきい値以上となるモダリティ種別を当該段の検出処理で検出すると決定してもよい。なお、変動の代表値が、ばらつきの度合いが大きいほど値が小さくなるものである場合においては、変動量の代表値がしきい値以下のモダリティ種別を当該段の検出処理で検出すると決定すればよい。
前記データ間変動計算部は、前記複数の教師データを表すベクトルデータの次元数を所定の次元数にそろえた上で、前記同じ次元位置のデータ分布を求める構成としてもよい。
前記検出段決定部は、前記複数のモダリティ種別のうち、前記代表値決定部が決定した変動の代表値が、前記複数段の検出処理を解像度が低い順に並べたときの1段目に対して設定されたしきい値Th(1)以上となるモダリティ種別を1段目以降の検出処理で検出すると決定し、複数のモダリティ種別のうち、前記求められた変動の代表値が、i+1段目(iは1から検出処理の段数−1までの間の整数)に対して設定されたしきい値Th(i+1)以上で、かつi段目に対して設定されたしきい値よりも小さいモダリティ種別をi+1段目以降の検出処理で検出すると決定してもよい。
前記検出段決定部は、ある段の検出処理で検出を行うと決定したモダリティ種別に対し、当該モダリティ種別に対応する教師データの変動の代表値と所定のしきい値とを比較し、前記教師データの変動の代表値が前記所定のしきい値以上のときは、当該モダリティ種別を、前記検出を行うと決定した段よりも解像度が高い段での検出対象から除外してもよい。
前記検出段決定部が、1つの検出段で複数のモダリティ種別の検出を行うと決定すると、前記1つの検出段で検出される複数のモダリティ種別に対応する教師データ間の相関を求め、該求めた相関がしきい値以上のとき前記1つの検出段で検出される複数のモダリティ種別を直列に検出すると決定する構成を採用することができる。
ここで、相関とはデータがどれだけ似通っているかを表す値とする。相関には、例えば相関係数や相互相関関数などを用いることができる。
上記の構成を採用する場合、前記検出段決定部は、前記1つの検出段で検出される複数のモダリティ種別のそれぞれについて、モダリティ種別ごとに、各属性値に対応した複数の教師データから教師データの代表値を求め、複数のモダリティ種別間で属性値を組み合わせ、該組み合わせた属性値に対応する教師データの代表値の間の相関を求め、該属性値の組み合わせごとに求めた相関の代表値を求め、該求めた相関の代表値を前記複数のモダリティ種別に対応する教師データ間の相関としてもよい。
本発明の検出器構成装置は、各モダリティ種別について、教師データに基づいて検出行列を生成する検出行列生成部を更に備える構成を採用できる。
本発明は、また、複数のモダリティ種別のそれぞれに対して、入力データに含まれるオブジェクトの属性が複数の属性値の何れであるかを、解像度が相互に異なる複数段階の検出処理で検出する検出器を構成する方法であって、前記検出器の学習に用いられる、各モダリティ種別に対応した複数の教師データに基づいて、モダリティ種別ごとに複数の教師データ間の変動の代表値を求めるステップと、前記求められた前記教師データ間の変動の代表値に基づいて、前記複数段階の検出処理のうち、各モダリティ種別をどの段階の検出処理で検出するかを決定するステップとを有することを特徴とする検出器構成方法を提供する。
さらに本発明は、複数のモダリティ種別のそれぞれに対して、入力データに含まれるオブジェクトの属性が複数の属性値の何れであるかを、解像度が相互に異なる複数段階の検出処理で検出する検出器を構成する処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記検出器の学習に用いられる、各モダリティ種別に対応した複数の教師データに基づいて、モダリティ種別ごとに複数の教師データ間の変動の代表値を求めるステップと、前記求められた前記教師データ間の変動の代表値に基づいて、前記複数段階の検出処理のうち、各モダリティ種別をどの段階の検出処理で検出するかを決定するステップとを実行させることを特徴とするプログラムを提供する。
本発明の検出器構成装置、方法、及びプログラムは、モダリティ種別ごとに複数の教師データ間の変動の代表値を求め、求めた教師データ間の変動の代表値に基づいて、構成すべき検出器の複数段の検出処理のうち、各モダリティ種別をどの段の検出処理で検出するかを決定する。本発明では、教師データ間の変動に基づいて、どのモダリティ種別をどの段(どの解像度)の検出処理で検出するかを適切に決定できる。また、各段において検出すべきモダリティ種別を教師データ間の変動に基づいて客観的に決定することができる。
本発明の第1実施形態の検出器構成装置を示すブロック図。 検出器構成装置が構成する検出器を示す図。 教師データの基準サイズへの変換を示す図。 画素値の分布を示すグラフ。 動作手順を示すフローチャート。 教師データ間の相関の計算を示す図。 検出器の構成例を示すブロック図。
以下、図面を参照し、本発明の実施の形態を詳細に説明する。図1は、本発明の第1実施形態の検出器構成装置を示す。検出器構成装置10は、教師データ入力部11、パラメータ設定部12、変動量算出部13、検出段決定部14、及び検出行列生成部15を備える。検出器構成装置10は、入力データに含まれるオブジェクトについて、オブジェクトにおける検出対象の状態や属性(以下、検出対象のモダリティとも呼ぶ)を検出する検出器の構成を決定する。検出器構成装置10内の各部の機能は、コンピュータが所定のプログラムに従って処理を実行することで実現できる。あるいは検出器構成装置10内の各部の機能を、IC(Integrated Circuit)で実現してもよい。
図2は、検出器構成装置10が構成する検出器を示す。検出器100には、オブジェクトが含まれるオブジェクトデータ101が入力される。検出器100には、オブジェクトデータ101として、例えば画像データから検出されたオブジェクトを表す画像データが入力される。検出器100は、オブジェクトデータ101を入力データとし、複数のモダリティ種別のそれぞれに対して、オブジェクトデータ101に含まれるオブジェクトの属性が複数の属性値の何れであるかを検出する。
検出器100は、第1段から第N段までのN段(Nは2以上の整数)の検出処理部103−1〜103−Nを有し、複数のモダリティ種別のそれぞれに対する属性値を、解像度が相互に異なる複数段階の検出処理で検出する。各段の検出処理部103には、解像度変換部102を介してオブジェクトデータ101が入力される。第1の検出処理部103−1が入力するオブジェクトデータ101の解像度が最も低く、次いで第2段、第3段の順に、第N段の検出処理部103−Nにおける解像度が最も高いものとする。解像度変換部102は、各段の検出処理部103における解像度に合わせて、例えばオブジェクトデータ101である画像のサイズを縮小又は拡大する。
図1に示す検出器構成装置10は、検出器100の各段の検出処理部103において、どのモダリティ種別を検出するかを決定する。また、各段において検出対象のモダリティ種別の属性検出に使用する検出用行列を生成する。
教師データ入力部11は、検出器の学習に用いられる、検出対象のモダリティ種別に対応した複数の学習データ(教師データ)を入力する。変動量算出部13は、教師データ入力部11が入力した複数の教師データ間の変動(ばらつき)を求める。検出器100において検出すべきモダリティの種別はM種類(Mは2以上の整数)であるとすると、検出器構成装置10は、検出対象のモダリティ種別に対応したM個の教師データ入力部11−1〜11−Mを有する。また、検出器構成装置10は、検出対象のモダリティの種類に対応したM個の変動量算出部13−1〜13−Mを有する。
各教師データ入力部11は、対応するモダリティ種別で検出すべき属性値ごとに、複数の教師データを入力する。例えばオブジェクトが画像から検出された顔であり、モダリティ種別が顔の大きさである場合において、検出器100にて、オブジェクトデータ101から大きさ1〜17までの17種の顔の大きさの何れであるかを検出したい場合を考える。その場合、モダリティ種別「顔の大きさ」に対応した教師データ入力部11には、17種の大きさのそれぞれに対して、例えば大きさ1種あたり100個の教師データが入力される。
パラメータ設定部12は、構成すべき検出器100における検出の段数や、各段の検出処理におけるデータの解像度などを設定する。変動量算出部13は、教師データに基づいて、モダリティ種別ごとに複数の教師データ間の変動の代表値を求める。例えばモダリティ種別「顔の大きさ」に対応した変動量算出部13は、「顔の大きさ」に対応した教師データ入力部11が入力する教師データに基づいて、「顔の大きさ」を学習するための複数の教師データ間のデータのばらつきを計算し、計算したばらつきに基づいて変動の代表値を求める。
変動量算出部13は、まず、対応するモダリティ種別で検出すべき属性値のそれぞれに対し、各属性値に対応する複数の教師データ間の変動を求める。次いで変動量算出部13は、求めた各属性値に対応する教師データ間の変動に基づいて変動の代表値を求める。例えば変動量算出部13は、モダリティ種別「顔の大きさ」について、17種類の顔の大きさのそれぞれに対して各顔の大きさに対応する複数の教師データ間の変動を求め、求めた17個の教師データ間の変動の平均値を、モダリティ種別「顔の大きさ」に対応する変動の代表値とする。
検出段決定部14は、変動量算出部13−1〜13−Mで求められた各モダリティ種別の教師データの変動の代表値に基づいて、検出器における複数段の検出処理のうち、各モダリティ種別をどの段階の検出処理で検出するかを決定する。すなわち、検出段決定部14は、M種類のモダリティ種別のうち、どのモダリティ種別を第1段から第N段までの検出処理部103(図2)で検出するかを決定する。検出段決定部14は、パラメータ設定部12から検出段ごとのしきい値を受け取り、各モダリティ種別の変動の代表値としきい値とを比較し、どのモダリティ種別をどの段で検出すべきかを決定する。
検出行列生成部15は、検出段決定部14から、どのモダリティ種別をどの段で検出するかを示す情報を入力する。検出行列生成部15は、各モダリティ種別について、対応する教師データに基づいて検出行列を生成する。この検出行列の生成が、教師データを用いた検出器の学習に相当する。一般に、検出行列生成部15が行う処理は、画素実→特徴空間変換行列Uの生成、個人実→特徴空間変換行列Uの生成、及び画素→個人差特徴空間変換行列Σ12の算出を含む。検出行列生成部15は、教師データを検出の際の解像度に合わせた上で、行列の生成を行う。
変動量算出部13は、データ間変動計算部31及び代表値決定部32を有する。図1では、変動量算出部13−1にのみデータ間変動計算部31及び代表値決定部32を図示しているが、他の変動量算出部13−2〜13−Mも、変動量算出部13−1と同様にデータ間変動計算部31及び代表値決定部32を有する。
データ間変動計算部31は、複数の教師データ間のデータの変動を計算する。データ間変動計算部31は、検出対象のモダリティ種別の属性値ごとに複数の教師データ間の変動を計算する。データ間の変動は、例えば分散や標準偏差でよい。例えばデータ間変動計算部31は、モダリティ種別「顔の大きさ」に関し、「大きさ1」に対応して入力された100個の教師データの間の変動を「大きさ1」に対応する教師データ間の変動として求める。データ間変動計算部31は、残り16種の大きさについても同様に教師データ間の変動を求める。
データ間変動計算部31は、教師データをベクトルデータと見たとき、複数の教師データにおける同じ次元位置の要素のデータ分布を求める。例えば教師データが画素値が二次元に配列された画像データであるとき、データ間変動計算部31は、複数の教師データの同じ座標の画素値の分布を求める。データ間変動計算部31は、教師データを表すベクトルデータの複数の次元位置で要素値のデータ分布を求める。データ間変動計算部31は、例えば教師データが16×16のサイズの画像データのとき、256の座標位置のそれぞれに対して、画素値のデータ分布を求める。
データ間変動計算部31は、求めたデータの分布に基づいて、次元位置ごとにデータの変動を求める。データ間変動計算部31は、例えば座標位置(0,0)に対して、複数の教師データにおけるその座標位置の画素値の分散を計算する。データ間変動計算部31は、データ分布を求めた座標位置のそれぞれに対して、求めたデータ分布からデータの変動を求める。データ間変動計算部31は、例えば256の座標位置のそれぞれに対して画素値のデータ分布を求めたときは、その256の座標位置のそれぞれに対して画素値の分散を計算する。
データ間変動計算部31は、ある属性値に対応する教師データに対し、次元位置ごとに求めたデータの変動に基づいて、その属性値に対応する教師データ間の変動を求める。データ間変動計算部31は、例えば複数の次元位置に対して求めたデータの変動の変動を教師データ間の変動として求める。例えばデータ間変動計算部31は、モダリティ種別「顔の大きさ」の属性値「大きさ1」に対して教師データの256の座標位置で画素値の分散を計算した場合、その256の座標位置に対して計算した分散値の分散を、「大きさ1」に対応する教師データ間の変動として求める。これに代えて、座標位置に対して計算した分散値の平均や最頻値、中央値などを、「大きさ1」に対応する教師データ間の変動としてもよい。
代表値決定部32は、データ間変動計算部31で求められた属性値ごとのデータ間の変動に基づいて、教師データ間の変動の代表値を決定する。例えば代表値決定部32は、データ間変動計算部31で17種の顔の大きさのそれぞれに対して求められた変動から、モダリティ種別「顔の大きさ」の変動の代表値を決定する。変動の代表値は、データ間変動計算部31で属性値ごとに求められたデータ間の変動の平均値でよい。つまり代表値決定部32で、各属性値に対応する教師データ間の変動の平均値を求め、求めた平均値を変動の代表値として決定してよい。これに代えて、何らかの統計的手法で求められた値を代表値としてもよい。
データ間変動計算部31は、複数の教師データにおける同じ次元位置の要素のデータ分布を求める際に、教師データを検出器100(図2)における複数段階の検出処理のそれぞれに対応した解像度に変換する。データ間変動計算部31は、検出処理の各段に対して、各段に対応する解像度に変換された教師データを表すベクトルデータの同じ次元位置のデータ分布を求める。例えば検出器100における検出段数が3段で、1段目が8×8のサイズ、2段目が16×16、3段目が32×32のサイズで検出を行う場合、データ間変動計算部31は、教師データを8×8、16×16、32×32の3つのサイズに変換する。データ間変動計算部31は、第1段から第3段までのそれぞれに対して、各段に対応するサイズ(解像度)に変換された教師データの同じ座標位置のデータ分布を求める。
データ間変動計算部31は、検出処理の各段に対して、各段に対応する解像度に変換された教師データから求められた各座標位置のデータ分布に基づいて、各属性値に対応する教師データ間の変動を求める。データ間変動計算部31は、例えば属性値「大きさ1」について、8×8のサイズに変換された教師データにおける各座標位置でのデータ分布から第1段に対する教師データ間の変動を求める。同様に、属性値「大きさ1」について、第2段に対する教師データ間の変動、及び第3段に対する教師データ間の変動を求める。データ間変動計算部31は、モダリティ種別「顔の大きさ」の他の属性値についても、同様に第1段、第2段、及び第3段のそれぞれに対し、教師データ間の変動を求める。
代表値決定部32は、データ間変動計算部31が求めた検出処理の各段に対する属性値ごとの教師データの変動に基づいて、検出処理の各段に対して教師データの変動の代表値を決定する。例えば代表値決定部32は、データ間変動計算部31が、モダリティ種別「顔の大きさ」に対して属性値ごとに検出処理の第1段について求めた教師データ間の変動の平均値を求め、その平均値を「顔の大きさ」の第1段に対する教師データの変動の代表値として決定する。代表値決定部32は、他の段についても同様に、各段について属性値ごとに求められた教師データ間の変動の平均値を求め、求めた平均値を「顔の大きさ」の各段に対する教師データの変動の代表値として決定する。
検出段決定部14は、検出処理の各段に対して設定されたしきい値と、代表値決定部32が各モダリティ種別について検出処理の各段に対して決定した変動の代表値とを比較する。検出段決定部14は、例えばモダリティ種別「顔の大きさ」について、第1段に対して設定されたしきい値と、代表値決定部32が第1段に対して決定した教師データ間の変動の代表値とを比較する。また、検出段決定部14は、第2段に対して設定されたしきい値と第2段に対して決定された教師データ間の変動の代表値とを比較する。以降、検出段決定部14は、順次段数を増加させつつ、しきい値と変動の代表値とを比較する。検出段決定部14は、検出対象のモダリティ種別のうちで、各段に対して求められた変動の代表値が、各段に対して設定されたしきい値以上となるモダリティ種別を、少なくとも当該段の検出処理で検出すると決定する。
ここで、検出処理の各段に対して設定されるしきい値は、検出処理における解像度が高くなるほど値が大きい。つまり第1段に対して設定するしきい値を第2段に対して設定するしきい値よりも大きくし、第2に対して設定するしきい値を第3段に対して設定するしきい値よりも大きい。このようにしきい値を設定する場合、教師データ間の変動が大きいモダリティ種別ほど、低い解像度の検出処理で検出されることになる。なお、各段に対して設定されたしきい値は、必ずしも全てのモダリティ種別に対して同一でなくてもよい。例えばあるモダリティ種別に対するしきい値と、別のモダリティ種別に対するしきい値とは異なっていてもよい。
図3は、教師データの基準サイズへの変換を示す。ここでは、モダリティ種別として人物の顔の大きさを考える。顔の大きさの属性値は、大きさ1から大きさ17までの17種類あるとする。教師データ入力部11には、各顔の大きさに対応して、大きさ1種あたり100枚の教師データが入力されるものとする。データ間変動計算部31は、各大きさ100枚の教師データを、基準となるサイズに拡大又は縮小する。基準となるサイズは、検出器100における検出処理の各段に対応したサイズである。例えば基準となるサイズは、第1段は8×8、第2段は16×16、第3段は32×32のように設定される。
教師データの基準サイズへの変換に際して、複数の教師データ間で基準位置となる位置を決めておき、その位置から所定の範囲をトリミングしてもよい。例えばデータ間変動計算部31が、「大きさ1」の100枚の教師データのそれぞれについて、各教師データの含まれる目の位置を特定し、目の位置から所定の範囲をトリミングしてもよい。「大きさ1」」以外の大きさについても、同様に目の位置から所定範囲をトリミングする。データ間変動計算部31は、トリミングされた教師データを基準サイズに変換する。このようにトリミングすることで、変動を求める前に、複数の教師データ間で顔の位置を揃えることができる。
データ間変動計算部31は、各教師データを基準サイズに拡大又は縮小した上で、大きさ1から大きさ17までの各大きさに対して、教師データ間の変動を計算する。ここでは、基準となるサイズをp×qとする。データ間変動計算部31は、大きさ1種類あたり、p×q個の座標位置で、100枚の教師データの画素値の分散を求める。図4は、画素値の分布を示す。同図において、グラフの横軸は画素値を表し、縦軸は出現度数を表している。各画素値は0から255の何れかを取るものとする。100枚の教師データにおいて、各座標位置での画素値の分布を求めると、図4に示すグラフが得られる。各座標位置での画素値の分布から、p×q個の分散値が求まる。
データ間変動計算部31は、例えば「大きさ1」について、各座標位置に対して求められたp×q個の分散値の分散を求め、求めた分散値を「大きさ1」に対する教師データ間の変動とする。データ間変動計算部31は、残りの16種の大きさについても、同様にp×q個の分散値の分散を求め、各大きさに対する教師データ間の変動とする。代表値決定部32は、データ間変動計算部31で17種の大きさのそれぞれに対して求められた分散値を平均し、その平均値をモダリティ種別「顔の大きさ」に対する変動の代表値とする。
データ間変動計算部31は、基準サイズを変更しながら各属性値に対する教師データの変動を求め、代表値決定部32は、検出器100(図2)における検出処理の各段に対応して、「顔の大きさ」に対する教師データ間の変動の代表値を決定する。例えば検出器100における検出の段数が3(N=3)であるとき、代表値決定部32は、第1段に対する「顔の大きさ」の教師データ間の変動の代表値と、第2段に対する「顔の大きさ」の教師データ間の変動の代表値と、第3段に対する「顔の大きさ」の教師データ間の変動の代表値とを決定する。
検出段決定部14は、第1段に対する「顔の大きさ」の教師データ間の変動の代表値と、第1段に対して設定されたしきい値Th(1)とを比較する。検出段決定部14は、第1段に対する「顔の大きさ」の教師データ間の変動の代表値がしきい値Th(1)以上のとき、モダリティ種別「顔の大きさ」を第1段の検出処理部103−1(図2)で検出すると決定する。また検出段決定部14は、第2段に対する「顔の大きさ」の教師データ間の変動の代表値が、第2段に対して設定されたしきい値Th(2)以上のとき、モダリティ種別「顔の大きさ」を第2段の検出処理部103−2で検出すると決定する。
検出段決定部14は、段数が検出処理部103の最終段に到達するまで、しきい値と変動の代表値との比較を行い、「顔の大きさ」を検出器100のどの検出処理部103で検出するかを決定する。なお、検出段決定部14は、あるモダリティ種別について、ある段の検出処理部103で検出すると決定したときは、しきい値と変動の代表値を比較することなく、そのモダリティ種別を、その段よりも解像度が高い段で検出すると決定してもよい。例えば、検出段決定部14は、「顔の大きさ」について、第2段の検出処理部103−2で検出すると決定したとき、「顔の大きさ」についてしきい値と変動の代表値との比較を行わずに、第3段以降の検出処理部103において「顔の大きさ」の検出を行うと決定してもよい。
図5は、動作手順を示す。パラメータ設定部12は、構成すべき検出器における検出処理部の段数や、各段の検出処理における解像度などの情報を変動量算出部13や検出段決定部14に設定している。また、パラメータ設定部12は、各段に対応したしきい値などの情報を検出段決定部14に対して設定している。教師データ入力部11は、教師データを入力する(ステップS1)。ステップS1では、複数のモダリティ種別に対応した教師データを並列に入力してもよいし、各モダリティ種別に対応した教師データを順次に入力してもよい。
変動量算出部13は、段数を表す変数iをi=1に初期化する(ステップS2)。変動量算出部13は、検出対象のモダリティ種別のうちの1つを選択する(ステップS3)。次いで変動量算出部13は、選択したモダリティ種別で検出すべき属性値のうちの1つを選択する(ステップS4)。選択されたモダリティ種別に対応する変動量算出部13は、選択された属性値に対応する複数の教師データのそれぞれを、第i段の検出処理部103−i(図2)で検出処理を行う際の解像度に変換する(ステップS5)。このとき変動量算出部13は、解像度の変換前に、複数の教師データを基準位置から所定範囲にトリミングしてもよい。
変動量算出部13は、ステップS5で解像度が変換された教師データに基づいて、教師データ間の変動を求める(ステップS6)。ステップS6では、データ間変動計算部31は、教師データをベクトルデータと見たとき、複数の教師データにおける同じ次元位置の要素のデータ分布を求め、求めたデータの分布に基づいて、次元位置ごとにデータの変動を求める。データ間変動計算部31は、次元位置ごとに求めたデータの変動に基づいて、ステップS4で選択された属性値に対応する教師データ間の変動を求める。
変動量算出部13は、ステップS3で選択されたモダリティ種別に未処理の属性値が存在するか否かを判断する(ステップS7)。変動量算出部13は、未処理の属性値が存在するときはステップS4に戻り、未処理の属性値の中から1つを選択する。変動量算出部13は、未処理の属性値がなくなるまで、ステップS4からステップS7までを繰り返し実行し、ステップS3で選択されたモダリティ種別の全ての属性値に対応する教師データ間の変動を求める。
変動量算出部13は、ステップS7で未処理の属性値が存在しないと判断すると、ステップS3で選択されたモダリティ種別に対する教師データ間の変動の代表値を求める(ステップS8)。ステップS8では、代表値決定部32は、ステップS4からステップS7までを繰り返し実行することで求められた、各属性値に対応する教師データ間の変動の分散を求める。代表値決定部32は、求めた分散値を、ステップS3で選択されたモダリティ種別に対する教師データ間の変動の代表値として決定する。
変動量算出部13は、未処理のモダリティ種別が存在するか否かを判断する(ステップS9)。変動量算出部13は、未処理のモダリティ種別が存在するときはステップS3に戻り、未処理のモダリティ種別の中から1つを選択する。変動量算出部13は、未処理のモダリティ種別がなくなるまでステップS3からステップS9までを繰り返し実行する。ここまでのステップで、検出対象のモダリティ種別の全てに対し、各モダリティ種別に対応する教師データ間の変動の代表値が得られる。
検出段決定部14は、各モダリティ種別に対応する教師データ間の変動の代表値と、第i段目に対して設定されたしきい値Th(i)とを比較する(ステップS10)。検出段決定部14は、教師データ間の変動の代表値がしきい値Th(i)以上であるか否かを判断し(ステップS11)、検出対象のモダリティ種別のうち、教師データ間の変動の代表値がしきい値Th(i)以上のモダリティ種別を、第i段目の検出処理部103−iで検出するモダリティ種別と決定する(ステップS12)。検出段決定部14は、第i段の検出処理部103−iで検出するモダリティ種別が複数あるときは、それらモダリティ種別を並列に検出するように第i段の検出処理部103−iを構成することができる。あるいは検出段決定部14は、複数のモダリティ種別を直列に(カスケードに)検出するように第i段の検出処理部103−iを構成してもよい。
検出行列生成部15は、検出段決定部14が第i段目の検出処理部103−iで検出すると決定したモダリティ種別に対し、そのモダリティ種別に対応する教師データに基づいて検出行列を生成する(ステップS13)。検出行列生成部15は、第i段目の検出処理部103−iでの各モダリティ種別の属性値の検出の仕方に合わせて検出用行列を生成する。検出行列生成部15は、生成した検出用行列が検出器100において利用可能となるように、検出用行列を出力する。あるいは検出用行列の生成・出力に代えて、又はこれに加えて、第i段目の検出処理部103−iにて検出すべきモダリティ種別を特定する情報をディスプレイなどの出力装置に出力してもよい。
変動量算出部13は、検出処理部103の最終段まで処理を終えたか否かを判断する(ステップS14)。すなわち、変動量算出部13は、変数iがNまで到達したか否かを判断する。変動量算出部13は、最終段まで処理を終えていないと判断すると、変数iの値を1つ増加させ(ステップS15)、ステップS3に戻る。検出処理部103の最終段に到達するまでステップS3からステップS15を繰り返し実行することで、検出処理部103の各段で、どのモダリティ種別を検出対象とするかを決定する。なお、検出対象のモダリティ種別は少なくとも1つの段の検出処理部103で検出される必要があるため、最終段の検出処理部103−Nまでの何れでも検出対象として選ばれなかったモダリティ種別があるとき、そのモダリティ種別は最終段の検出処理部103−Nで検出されることとすればよい。
ここで、教師データ間の変動が大きいとき、その教師データを学習することで得られる検出器は、ばらつきが大きい複数の入力データのそれぞれに対して属性値を正しく判別できると考えられる。その場合には、入力データの解像度がある程度低くても、検出器において属性値をある程度の分解能で検出可能であると考えられる。つまり、教師データ間の変動が大きいほど、その教師データを用いて学習される検出器は粗い検出(低い解像度での検出)でもある程度正しく属性値を検出可能であると考えられる。このように、教師データ間の変動と、検出において有意な検出が可能な解像度との間には、ある程度の相関関係があると考えられる。
本実施形態では、モダリティ種別ごとに複数の教師データ間の変動の代表値を求め、求めた教師データ間の変動の代表値に基づいて、構成すべき検出器の複数段の検出処理のうち、各モダリティ種別をどの段の検出処理で検出するかを決定する。上記のように、教師データ間の変動と、検出において有意な検出が可能な解像度との間には、ある程度の相関関係があるため、教師データ間の変動に基づいて、どのモダリティ種別をどの段(どの解像度)の検出処理で検出するかを適切に決定することができる。本実施形態では、構成される検出器において、複数段階の検出を組み合わせた効率的な検出が可能である。また、本実施形態では、各段において検出すべきモダリティ種別を教師データ間の変動に基づいて客観的に決定することができる。
本実施形態では、教師データの解像度を各段の検出処理における解像度に変換した上で変動の代表値を求めている。このようにすることで、検出器において入力データが変換される解像度の教師データ間の変動に基づいて検出段を決定することができ、より正確に各段の検出において各モダリティ種別が検出可能か否かを判断できる。また、本実施形態では、検出処理の各段に対して設定されるしきい値を、検出処理における解像度が高くなるほど値が大きくなるように設定する。このように設定する場合、教師データ間の変動が大きいモダリティ種別は粗い検出を許容するため、粗い検出を許容するモダリティ種別を解像度が低い検出で検出する検出器を構成することができる。
検出器構成装置10は、超解像の分野における検出器を構成する用途に用いることができる。超解像の分野における検出器には、複数のモダリティ種別のそれぞれについて、入力データの属性が多数の属性値のうちのいずれであるかを正しく検出する能力が要求される。また、処理速度にも高速性が要求される。本実施形態では、従来設計者が経験的に手作業で行っていた各モダリティ種別をどの検出段で検出するかを教師データ間の変動に基づいて自動的に決定でき、効率的な検出を行う検出器を自動的に構成することができる。
なお、実際の検出器を構成する際には、いくつかのモダリティ種別について、要求される検出精度などに応じて、解像度が高い側の検出処理部103(図2)における検出を省略してもよい。例えば検出段数を3段とするとき、あるモダリティ種別について2段目までの検出処理で要求される分解能で属性値が検出可能であるときは、3段目の検出処理における検出は省略してもよい。また、ある段の検出処理部103は、その前段に位置する検出処理部103から検出結果を受け取り、検出範囲を狭めて検出を行ってもよい。前段に位置する検出処理部103における検出結果を利用して位置補正など補正処理を行い、補正後のデータを後段の検出処理部103に入力してもよい。さらに例えば顔検出を行ってから顔の複数のモダリティ種別の属性値を検出するような場合において、顔検出で得られた情報をモダリティ種別の属性値の検出に用いることも可能である。
ある段の検出処理において検出されるモダリティ種別が、その段の検出処理で検出精度を満足する場合は、そのモダリティ種別を、その段よりも解像度が高い段における検出対象から除外してもよい。例えば検出段決定部14は、図5のステップS12で第i段目の検出処理で検出すると決定したモダリティ種別に対して、そのモダリティ種別に対応する教師データの変動の代表値と所定のしきい値とを比較する。検出段決定部14は、教師データの変動の代表値が所定のしきい値以上のときは、そのモダリティ種別をステップS3でモダリティ種別を選択する際の選択対象から除外する。このようにすることで、ある段の検出処理で検出を行うと決定したモダリティ種別のうち、教師データの変動の代表値が所定のしきい値以上のモダリティ種別を、検出を行うと決定した段よりも解像度が高い段での検出対象から除外することができる。
続いて、本発明の第2実施形態を説明する。本実施形態の検出器構成装置の構成は、図1に示す第1実施形態の検出器構成装置10に構成と同様である。本実施形態では、検出段決定部14が、第i段目の検出処理部103−i(図2)において複数のモダリティ種別を検出対象とする旨を決定したとき、その複数のモダリティ種別を並列に検出するか、直列に検出するか、或いは並列と直列とを組み合わせて検出するかを決定する点が、第1実施形態と相違する。その他の点は第1実施形態と同様である。
検出段決定部14は、図5のステップS12で第i段目の検出処理部103−iで検出するモダリティ種別と決定してモダリティ種別が複数あるときは、それらモダリティ種別に対応する教師データ間の相関(類似性)を求める。検出段決定部14は、例えばモダリティ種別「顔の大きさ」と「顔の向き」とを同じ段で検出すると決定したときは、「顔の大きさ」に対応する教師データと、「顔の向き」に対応する教師データとの間で相関を求める。検出段決定部14は、相関の値を所定のしきい値でしきい値処理し、複数のモダリティ種別に対応する教師データ間の類似度が高いときは複数のモダリティ種別を直列に検出すると決定する。検出段決定部14は、教師データ間の類似度が低いときは、複数のモダリティ種別を並列に検出すると決定する。
検出段決定部14は、同じ検出段で検出される複数のモダリティ種別のそれぞれについて、モダリティ種別ごとに、各属性値に対応した複数の教師データの代表値を求める。検出段決定部14は、例えばモダリティ種別「顔の大きさ」について、17種の顔の大きさのそれぞれに対応する複数の教師データの代表値を求める。検出段決定部14は、例えば教師データの画素ごとの画素値の平均値や最頻値、中央値などを代表値として求める。また、検出段決定部14は、モダリティ種別「顔の向き」について、4×9種の顔の向きのそれぞれに対応する複数の教師データの代表値を求める。
検出段決定部14は、複数のモダリティ種別間で属性値を組み合わせ、組み合わせた属性値に対応する教師データの代表値間の相関を求める。検出段決定部14は、例えば「顔の大きさ」の17種の大きさと、「顔の向き」の4×9種の向きとを組み合わせ、それそれぞれに対応する教師データの代表値の間の相関を求める。検出段決定部14は、属性値の組み合わせごとに求めた相関の代表値を求める。検出段決定部14は、例えば属性値の組み合わせごとに求めた相関の平均値、最頻値、中央値、最小値、最大値、絶対値の最小値、又は絶対値の最大値を、代表値として求める。求められた代表値が、複数のモダリティ種別に対応する教師データ間の相関となる。
図6は、教師データ間の相関の計算を示す。ここでは、モダリティ種別として「顔の大きさ」と「顔の向き」とを考える。各教師データは、基準となるサイズに拡大又は縮小されているものとする。検出段決定部14は、「顔の大きさ」に対して、大きさ1種あたり100枚の教師データから代表値(代表画像)を求める。検出段決定部14は、17種の回の大きさの全てについて、代表画像を求める。検出段決定部14は、「顔の向き」についても同様に、4×9種の顔の向きに対してそれぞれ代表画像を求める。
検出段決定部14は、大きさ1の代表画像と、4×9種の顔の向きの代表画像との組み合わせを生成し、そのそれぞれの間で相関を求める。検出段決定部14は、例えば大きさ1の代表画像と、4×9種の顔の向きの代表画像とのそれぞれの間で相関係数又は相互相関を計算する。検出段決定部14は、残り16種の大きさについても同様に、各大きさの代表画像と、4×9種の顔の向きの代表画像とのそれぞれの間で相関係数又は相互相関を計算する。検出段決定部14は、例えば求めた17×(4×9)の相関係数又は相互相加の平均値を代表値として求める。
検出段決定部14は、求めた相関の代表値をしきい値判断する。検出段決定部14は、相関の代表値がしきい値以上のとき、つまり、相関の代表値が1に近く2つのモダリティ種別に対応する教師データ間の類似度が高いとき、2つのモダリティ種別を直列に検出すると決定する。この場合、第i段目の検出処理部103−iにおいて、例えば「顔の向き」が4×9種の顔の向きの何れであるかが検出された後に「顔の大きさ」が17種の顔の大きさの何れであるかが検出されることになる。検出段決定部14は、相関の代表値がしきい値よりも小さいとき、つまり、相関の代表値が1に遠く2つのモダリティ種別に対応する教師データ間の類似度が低いとき、2つのモダリティ種別を並列に検出すると決定する。この場合、第i段目の検出処理部103−iにおいて、例えば「顔の大きさ」の17種と「顔の向き」の4×9種との総当たりで17×(4×9)通りの顔の大きさと顔の向きとの組み合わせが検出されることになる。
本実施形態では、同じ検出段で検出される複数のモダリティ種別に対応する教師データ間の相関を求め、求めた相関がしきい値以上のとき、その段で検出される複数のモダリティ種別を直列に検出すると決定する。モダリティ種別間で相関が高いということは、互いの教師データが似通っており、例えば顔の大きさと顔の向きとを同じ段で検出するとき、顔の大きさが特定できていなくても、顔の向きを検出可能である。本実施形態では、直列での検出が可能であるか否かをモダリティ種別間の教師データの相関に基づいて判断している。例えば顔の大きさと顔の向きとを並列で検出しようとすると、17×(4×9)通りの検出が必要である。直列での検出が可能なモダリティ種別を直列で検出することで、検出する必要がある組み合わせを例えば17+(4×9)通りに減らすことができ、構成する検出器100において、より効率的な検出が可能となる。
図7は、検出器の構成例を示す。例えばモダリティ種別として「顔の大きさ」、「顔の向き」、及び「顔の位置」の3つを考える。また、検出段数は、粗検出(第1段)、中密検出(第2段)、及び高密検出(第3段)の3段を考える。検出器構成装置10は、粗検出において「顔の向き」と「顔の位置」とを検出し、中密検出において「顔の大きさ」と「顔の位置」とを検出し、高密検出において「顔の位置」を検出すると決定したとする。「顔の向き」は、粗検出で所期の検出精度が得られるとして中密検出以降の検出において検出対象から除外されているとする。「顔の大きさ」は、中密検出で所期の検出精度が得られるとして高密検出において検出対象から除外されているとする。
粗検出で検出する「顔の向き」と「顔の位置」とは教師データ間の相関が低く、それらは粗検出において並列に検出される。一方、中密検出で検出する「顔の大きさ」と「顔の位置」とは教師データの相関が高く、それらは中密検出において直列に検出される。ある段で複数のモダリティ種別を直列に検出する場合において、何れを先に検出するかは、モダリティ種別に対応した教師データの変動の代表値に基づいて決定することができる。例えば検出段決定部14は、「顔の位置」に対応する教師データの変動の代表値が、「顔の大きさ」に対応する教師データの変動の代表値よりも大きとき、中密検出において先に「顔の位置」を検出し、その次に「顔の大きさ」を検出すると決定する。
検出器を図7に示すように構成する場合、中密検出において「顔の位置」と「顔の大きさ」とを直列に検出することで、それらを並列に検出する場合に比して、検出処理の処理負担を軽減できる。また、中密検出における「顔の位置」の検出に際しては、粗検出における「顔の位置」で検出された位置の検出結果を用いて検出の範囲を絞り込むことができる。高密検出おける「顔の位置」の検出についても、中密検出における「顔の位置」で検出された位置の検出結果を用いて検出の範囲を絞り込むことができる。複数の解像度の検出を組み合わせ、位置を検索する範囲を絞り込むことで、効率的な検出が可能である。
なお、上記各実施形態では、主にオブジェクトデータ101(図2)や教師データが画像データであるとして説明したが、これには限定されない。オブジェクトデータ101や教師データは、ベクトルデータとして表すことができる多次元のデータであればよい。また、オブジェクトは人物の顔には限定されない。
上記各実施形態では、教師データを各検出段における解像度に変換した上で教師データ間の変動を求めたが、これには限定されない。例えば教師データを表すベクトルデータの次元数を変換せずに教師データ間の変動を求めてもよく、また教師データを表すベクトルデータの次元数を所定の次元数にそろえた上で教師データ間の変動を求めてもよい。これらの場合、変動量算出部13は、検出処理の各段に対して教師データの変動を求めるのに代えて、すなわち検出処理の段数分の教師データの変動を求めるのに代えて、教師データの変動を1つ求めればよい。
上記の場合、検出段決定部14は、複数のモダリティ種別のうち、代表値決定部32が決定した変動の代表値が、複数段の検出処理を解像度が低い順に並べたときの1段目に対して設定されたしきい値Th(1)以上となるモダリティ種別を1段目以降の検出処理で検出すると決定すればよい。また、検出段決定部14は、複数のモダリティ種別のうち、変動の代表値が、i+1段目(iは1から検出処理の段数−1までの間の整数)に対して設定されたしきい値Th(i+1)以上で、かつi段目に対して設定されたしきい値Th(i)よりも小さいモダリティ種別をi+1段目以降の検出処理で検出すると決定すればよい。ここで各段に対応したしきい値は、任意の段数iについてしきい値Th(i)>Th(i+1)が満たされるように設定されているとする。
第2実施形態においては、検出段は1段でもよい。その場合、検出器構成装置10は、検出対象の複数もモダリティ種別のうち、教師データ間の相関が高いモダリティ種別は並列に検出し、相関が低いモダリティ種別は直列に検出するように検出器を構成する。直列に検出できるモダリティ種別を直列で検出することで、そのモダリティ種別を並列に検出する場合に比して処理時間を短縮できる。また、直列に検出できないモダリティ種別は並列に検出することで、誤検出の発生を抑制できる。すなわち、直列検出と並列検出とを適宜組み合わせることで、検出精度を落とさずに処理時間を短縮できる。第2実施形態において検出段数を1段とする場合、どのモダリティ種別の検出を並列で行い、どのモダリティ種別の検出を直列で行うかを、教師データに基づいて客観的な判断基準で決定できるという効果が得られる。
以上、本発明をその好適な実施形態に基づいて説明したが、本発明の検出器構成装置、方法、及びプログラムは、上記実施形態にのみ限定されるものではなく、上記実施形態の構成から種々の修正及び変更を施したものも、本発明の範囲に含まれる。
10:検出器構成装置
11:教師データ入力部
12:パラメータ設定部
13:変動量算出部
14:検出段決定部
15:検出行列生成部
31:データ間変動計算部
32:代表値決定部
100:検出器
101:オブジェクトデータ
102:解像度変換部
103:検出処理部

Claims (17)

  1. 複数のモダリティ種別のそれぞれに対して、入力データに含まれるオブジェクトの属性が複数の属性値の何れであるかを、解像度が相互に異なり、かつ解像度が低い側から実施される複数段階の検出処理で検出する検出器の学習に用いられる、各モダリティ種別に対応した複数の教師データに基づいて、モダリティ種別ごとに複数の教師データ間の変動の代表値を求める変動量算出部と、
    前記変動量算出部が求めた前記教師データ間の変動の代表値に基づいて、前記複数段階の検出処理のうち、各モダリティ種別をどの段階の検出処理で検出するかを決定する検出段決定部とを備えることを特徴とする検出器構成装置。
  2. 前記変動量算出部が、各モダリティ種別で検出すべき属性値のそれぞれに対し、各属性値に対応する複数の教師データ間の変動を求め、該求めた各属性値に対応する教師データ間の変動に基づいて各モダリティ種別に対する前記変動の代表値を求めるものであることを特徴とする請求項1に記載の検出器構成装置。
  3. 前記変動量算出部が、
    各属性値に対応する複数の教師データ間の変動を求めるデータ間変動計算部と、
    前記データ間変動計算部が求めた各属性値に対応する教師データ間の変動に基づいて前記変動の代表値を決定する代表値決定部とを有することを特徴とする請求項1又は2に記載の検出器構成装置。
  4. 前記代表値決定部が、前記各属性値に対応する教師データ間の変動の平均値を求め、該求めた平均値を前記代表値として決定するものであることを特徴とする請求項3に記載の検出器構成装置。
  5. 前記データ間変動計算部が、前記教師データをベクトルデータと見たとき、前記複数の教師データにおける同じ次元位置の要素のデータの分布を複数の次元位置に対して求め、該求めたデータの分布に基づいて前記次元位置ごとにデータの変動を求め、該次元位置ごとに求めたデータの変動に基づいて前記教師データ間の変動を求めるものであることを特徴とする請求項3又は4に記載の検出器構成装置。
  6. 前記データ間変動計算部が、次元位置ごとに求めたデータの変動の変動を、前記属性値に対応する前記教師データ間の変動とするものであることを特徴とする請求項5に記載の検出器構成装置。
  7. 前記データ間変動計算部が、前記複数の教師データを前記複数段階の検出処理のそれぞれに対応した解像度に変換し、前記検出処理の各段に対して、各段に対応する解像度に変換された教師データを表すベクトルデータの同じ次元位置のデータ分布を求めるものであることを特徴とする請求項5又は6に記載の検出器構成装置。
  8. 前記データ間変動計算部が、前記検出処理の各段に対して前記各属性値に対応する教師データ間の変動を求め、前記代表値決定部が、前記データ間変動計算部が求めた前記検出処理の各段に対する前記各属性値に対応する教師データ間の変動に基づいて、前記検出処理の各段に対して前記変動の代表値を決定するものであることを特徴とする請求項7に記載の検出器構成装置。
  9. 前記検出段決定部が、前記検出処理の各段に対して設定されたしきい値と、前記代表値決定部が各モダリティ種別について前記検出処理の各段に対して決定した変動の代表値とを比較し、前記変動の代表値が前記しきい値以上となるモダリティ種別を当該段の検出処理で検出すると決定するものであることを特徴とする請求項8に記載の検出器構成装置。
  10. 前記データ間変動計算部が、前記複数の教師データを表すベクトルデータの次元数を所定の次元数にそろえた上で、前記同じ次元位置のデータ分布を求めるものであることを特徴とする請求項5又6に記載の検出器構成装置。
  11. 前記検出段決定部が、前記複数のモダリティ種別のうち、前記代表値決定部が決定した変動の代表値が、前記複数段の検出処理を解像度が低い順に並べたときの1段目に対して設定されたしきい値Th(1)以上となるモダリティ種別を1段目以降の検出処理で検出すると決定し、複数のモダリティ種別のうち、前記求められた変動の代表値が、i+1段目(iは1から検出処理の段数−1までの間の整数)に対して設定されたしきい値Th(i+1)以上で、かつi段目に対して設定されたしきい値よりも小さいモダリティ種別をi+1段目以降の検出処理で検出すると決定するものであることを特徴とする請求項10に記載の検出器構成装置。
  12. 前記検出段決定部が、ある段の検出処理で検出を行うと決定したモダリティ種別に対し、当該モダリティ種別に対応する教師データの変動の代表値と所定のしきい値とを比較し、前記教師データの変動の代表値が前記所定のしきい値以上のときは、当該モダリティ種別を、前記検出を行うと決定した段よりも解像度が高い段での検出対象から除外するものであることを特徴とする請求項1から11何れかに記載の検出器構成装置。
  13. 前記検出段決定部が、1つの検出段で複数のモダリティ種別の検出を行うと決定すると、前記1つの検出段で検出される複数のモダリティ種別に対応する教師データ間の相関を求め、該求めた相関がしきい値以上のとき前記1つの検出段で検出される複数のモダリティ種別を直列に検出すると決定するものであることを特徴とする請求項1から12何れかに記載の検出器構成装置。
  14. 前記検出段決定部が、前記1つの検出段で検出される複数のモダリティ種別のそれぞれについて、モダリティ種別ごとに、各属性値に対応した複数の教師データから教師データの代表値を求め、複数のモダリティ種別間で属性値を組み合わせ、該組み合わせた属性値に対応する教師データの代表値の間の相関を求め、該属性値の組み合わせごとに求めた相関の代表値を求め、該求めた相関の代表値を前記複数のモダリティ種別に対応する教師データ間の相関とするものであることを特徴とする請求項13に記載の検出器構成装置。
  15. 各モダリティ種別について、教師データに基づいて検出行列を生成する検出行列生成部を更に備える請求項1から14何れかに記載の検出器構成装置。
  16. 複数のモダリティ種別のそれぞれに対して、入力データに含まれるオブジェクトの属性が複数の属性値の何れであるかを、解像度が相互に異なり、かつ解像度が低い側から実施される複数段階の検出処理で検出する検出器を構成する方法であって、
    前記検出器の学習に用いられる、各モダリティ種別に対応した複数の教師データに基づいて、モダリティ種別ごとに複数の教師データ間の変動の代表値を求めるステップと、
    前記求められた前記教師データ間の変動の代表値に基づいて、前記複数段階の検出処理のうち、各モダリティ種別をどの段階の検出処理で検出するかを決定するステップとを有することを特徴とする検出器構成方法。
  17. 複数のモダリティ種別のそれぞれに対して、入力データに含まれるオブジェクトの属性が複数の属性値の何れであるかを、解像度が相互に異なり、かつ解像度が低い側から実施される複数段階の検出処理で検出する検出器を構成する処理をコンピュータに実行させるプログラムであって、前記コンピュータに、
    前記検出器の学習に用いられる、各モダリティ種別に対応した複数の教師データに基づいて、モダリティ種別ごとに複数の教師データ間の変動の代表値を求めるステップと、
    前記求められた前記教師データ間の変動の代表値に基づいて、前記複数段階の検出処理のうち、各モダリティ種別をどの段階の検出処理で検出するかを決定するステップとを実行させることを特徴とするプログラム。
JP2010160186A 2010-07-15 2010-07-15 検出器構成装置、方法、及びプログラム Expired - Fee Related JP5570895B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010160186A JP5570895B2 (ja) 2010-07-15 2010-07-15 検出器構成装置、方法、及びプログラム
US13/184,261 US20120016825A1 (en) 2010-07-15 2011-07-15 Detector configuration apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010160186A JP5570895B2 (ja) 2010-07-15 2010-07-15 検出器構成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012022535A JP2012022535A (ja) 2012-02-02
JP5570895B2 true JP5570895B2 (ja) 2014-08-13

Family

ID=45467715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010160186A Expired - Fee Related JP5570895B2 (ja) 2010-07-15 2010-07-15 検出器構成装置、方法、及びプログラム

Country Status (2)

Country Link
US (1) US20120016825A1 (ja)
JP (1) JP5570895B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2662827B1 (en) * 2012-05-08 2016-01-13 Axis AB Video analysis
JP7316771B2 (ja) * 2018-09-12 2023-07-28 キヤノン株式会社 学習装置、パラメータの作成方法、ニューラルネットワーク及びこれを用いた情報処理装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2663178B1 (fr) * 1990-06-06 1995-07-21 Thomson Csf Procede d'estimation hierarchique du mouvement dans une sequence d'images.
US6324532B1 (en) * 1997-02-07 2001-11-27 Sarnoff Corporation Method and apparatus for training a neural network to detect objects in an image
JP2004240622A (ja) * 2003-02-05 2004-08-26 Konica Minolta Holdings Inc 画像処理方法、画像処理装置及び画像処理プログラム
US20060256864A1 (en) * 2005-05-13 2006-11-16 Mediatek Incorporation Motion estimation methods and systems in video encoding for battery-powered appliances
JP4429241B2 (ja) * 2005-09-05 2010-03-10 キヤノン株式会社 画像処理装置及び方法
US8160975B2 (en) * 2008-01-25 2012-04-17 Mcafee, Inc. Granular support vector machine with random granularity

Also Published As

Publication number Publication date
JP2012022535A (ja) 2012-02-02
US20120016825A1 (en) 2012-01-19

Similar Documents

Publication Publication Date Title
EP3483767B1 (en) Device for detecting variant malicious code on basis of neural network learning, method therefor, and computer-readable recording medium in which program for executing same method is recorded
JP6088792B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
JP6798619B2 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
US9495758B2 (en) Device and method for recognizing gesture based on direction of gesture
US9443287B2 (en) Image processing method and apparatus using trained dictionary
US20140294293A1 (en) Image processing circuit and image detection device
CN111652054B (zh) 关节点检测方法、姿态识别方法及装置
US8571315B2 (en) Information processing apparatus, information processing method, and program
JP2017010475A (ja) プログラム生成装置、プログラム生成方法および生成プログラム
WO2015012896A1 (en) Gesture recognition method and apparatus based on analysis of multiple candidate boundaries
US20210272295A1 (en) Analysing Objects in a Set of Frames
JP2017068608A (ja) 演算装置、方法及びプログラム
US10891740B2 (en) Moving object tracking apparatus, moving object tracking method, and computer program product
JP6567381B2 (ja) 演算装置、方法及びプログラム
JP5570895B2 (ja) 検出器構成装置、方法、及びプログラム
TWI769603B (zh) 影像處理方法及存儲介質
CN111814884A (zh) 一种基于可变形卷积的目标检测网络模型的升级方法
KR20200134813A (ko) 기계 학습을 위한 이미지 처리 장치 및 방법
US11663816B2 (en) Apparatus and method for classifying attribute of image object
KR20200046178A (ko) 머리 영역 검출 방법 및 머리 영역 검출 장치
JP2011113360A (ja) 物体識別装置
JP2016519343A (ja) 他の画像からの情報の関数に基づく汎関数を利用する目的画像の生成
CN110134813B (zh) 图像检索方法、图像检索装置及终端设备
JP6798607B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP5277498B2 (ja) 類似情報分類参照装置および類似情報分類参照方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140610

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140625

R150 Certificate of patent or registration of utility model

Ref document number: 5570895

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees