JP6305171B2 - シーン内の物体を検出する方法 - Google Patents

シーン内の物体を検出する方法 Download PDF

Info

Publication number
JP6305171B2
JP6305171B2 JP2014079974A JP2014079974A JP6305171B2 JP 6305171 B2 JP6305171 B2 JP 6305171B2 JP 2014079974 A JP2014079974 A JP 2014079974A JP 2014079974 A JP2014079974 A JP 2014079974A JP 6305171 B2 JP6305171 B2 JP 6305171B2
Authority
JP
Japan
Prior art keywords
window
depth
data
training
depth data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014079974A
Other languages
English (en)
Other versions
JP2014229303A (ja
Inventor
ファティー・ポリクリ
メーメット・コカマズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2014229303A publication Critical patent/JP2014229303A/ja
Application granted granted Critical
Publication of JP6305171B2 publication Critical patent/JP6305171B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、包括的にはコンピュータービジョンに関し、より詳細には、シーン内の人を検出することに関する。
シーン内の人を検出することは、多くのコンピュータービジョンアプリケーションにおいて有益である。人の検出は、内部要因及び外部要因に起因して困難である。内部要因には、照明変動、不十分な照明、ヘッドライト及び投光照明等の明るい光に起因した飽和、シャドウ、反射、気象条件、シーンクラッター、他の物体、画像化雑音、及び取得データの忠実度が含まれる。外部要因は、動き、回転し、変形するとともに、様々な形状及びシルエットをとる可能性がある、関節接合された身体部分に関する。人は、立ち上がる、横になる、歩く、走る、屈む、及び他の仕草をする可能性がある。見掛け、例えば、身長、体重、服装等は、人によって大幅に異なる。加えて、人体は異なる視点において様々な姿勢を有する。これらの要因の全てが、剛性物体と比較して人検出を難しくしている。
人検出方法は、入力データの様式に基づいて2つのグループに分類することができる。
人検出
人検出のために2つのタイプのセンサー、すなわち、単眼カメラ等の視覚センサーと、1層又は多層の光検出及び測距(LIDAR:light detection and ranging)検出器及び動き検出器等の、3Dの幾何学的手がかりを提供するセンサーとを用いることができる。検出器は入力画像を取得し、画像の部分(ウィンドウ)の記述子を求める。記述子は、分類器によって、任意のウィンドウ内に人が存在するか否かを判断するのに用いられる。
1つの方法は、ハールウェーブレットを用いて記述子を構築し、複数の線形サポートベクトルマシン(SVM:support vector machine:サポートベクターマシン)をトレーニングする。別の方法は有向勾配ヒストグラム(HOG:histogram of oriented gradient)を用いる。リジェクトカスケード型(rejection cascaded)でAdaBoost型の分類器をHOGとともに用いてリアルタイムの性能を達成することができる。共分散特徴(COV:covariance feature)も知られており、分類器は基礎を成すリーマン多様体に基づくことができる。これらの全体論的方法によって、遮蔽の場合を除いて著しい成果が達成される。
代替的に、検出は、人体部分及びそれらの一般的な形状を識別することによって行うことができる。これらの方法では、身体部分の局所的な特徴が求められ、組み合わされ、人モデルが形成される。人のシルエット情報も考慮に入れて遮蔽を扱うことができる。しかしながら、性能は、人体部分の画像解像度に大きく依拠する。
検出器は、幾何学的手がかりを用いて、3Dデータ又はレンジスキャンデータから特徴を抽出する。例えば、有向フィルターを空間奥行きヒストグラムに適用することができる。分類器の代わりに、単純なしきい値演算を実行して人を検出することができる。別の方法は奥行き画像を3D点群に変換する。別の方法では、測地的な局所関心点から辞書が構築される。その方法は、人が遮蔽されておらず、他の物体と接触していない限り、高い検出率を有する。
別の方法は、局所奥行き情報のヒストグラムの大きな特徴ベクトルを用いて人を表す。その方法は遮蔽を処理するが、計算が複雑であり、リアルタイム用途には適していない。
別の方法は、LIDARスキャンを用いて脚記述子を形成する。その方法は、折れ線部分(segmented line part)からいくつかの所定の特徴を抽出し、分類器をトレーニングする。その方法は、遮蔽がなく、脚が見えており、かつLIDARが脚の方を向いているときに人を検出することができる。その方法は、人を検出するにはLIDARスキャンが脚の高さに合致することを厳密にかつ明白に必要とする。
本発明の実施形態は、人をリアルタイムで正確に検出する方法を提供する。本方法は、レンジスキャンからの1D奥行きと、画像からの2Dテクスチャとを、幾何学的記述子と、及び放射基底関数カーネルサポートベクトルマシン(SVM)学習の枠組み内でのシルエットベースの視覚的表現とを介して結合する。複数の様式を組み合わせることによって、検出精度が増大し、計算時間が低減する。従来技術と対照的に、本方法は、レンジスキャン位置に対する制限的推定を一切行わず、これによって本方法は広範にわたる実際の検出タスクに適用可能である。
本方法は、双方のデータ様式から得られた測光特徴及びレンジスキャン特徴を単一のジョイント分類器(joint classifier)において統合する。本方法は、困難で変動する環境条件下で正確である。従来技術とは異なり、本方法はレンジスキャンが人体の上部胴体及び頭部に交差する場合であっても、脚の可視性に関する推定を一切行うことなく人を検出することができる。これは現実世界の用途において重要である。
本発明の実施形態による、シーン内の人を検出する方法の流れ図である。 図1の方法の擬似コードである。 請求項1に記載の検出方法の単一のジョイント分類器のトレーニングの流れ図である。
本発明の実施形態は、物体、例えばシーン108内の人109をリアルタイムで正確に検出する方法を提供する。幾何学的(奥行き)データ及び視覚的(テクスチャ)データを利用するために、本発明による多モード人検出器は、1次元(1D)レンジスキャンデータと2次元(2D)画像データとを組み合わせて単一のジョイント特徴(joint feature)にする。このため、検出器はより高次元のジョイント特徴空間に対し動作する。本明細書では人を例示的な物体として用いているが、本発明は、動物、移動ロボット、関節接合された機械、車両等の他の複雑な物体でも機能することができることを理解すべきである。
図示されるように、本方法への入力は、シーンから取得された1D奥行きデータ101及び2次元の2Dテクスチャデータ102を含む。1D奥行きデータは奥行きセンサー又はスキャナー106によって取得することができ、テクスチャデータはカメラ107を用いて取得することができる。
奥行きは回転され、平行移動され(110)、次に投影され、テクスチャと位置合わせされ(120)、位置合わせされたデータ125が生成される。勾配ヒストグラム(HOG)が抽出され(130)、カスケード及びマージされ(140)、ジョイント特徴ベクトル103が生成される。このジョイント特徴ベクトルは、トレーニングデータ105から構築されたサポートベクトルマシン(SVM)160に従って分類され(150)、シーンが人104を含むか否かが判断される。
図2は、本方法の擬似コードを示している。全ての変数について以下に詳細に説明する。本方法のステップ及び本明細書において説明される任意の他の手順は、当該技術分野において既知のメモリ及び入出力インターフェースに接続されたプロセッサにおいて実行することができる。
トレーニング
図3は、分類器によって用いられるSVMのトレーニングを示している。テクスチャ画像データ202内のウィンドウWについて、光検出及び測距(LIDAR)を用いて、又は奥行きカメラから、対応する1DレンジスキャンデータL=(d、...、dmi)201を取得することができる。LIDARセンサーの場合、ウィンドウ内に、同期して取得された単一の水平レンジスキャンセグメントが存在する。他方で、奥行きカメラは、複数の水平レンジスキャンセグメントを提供することができ、これらはトレーニングに特に役立つ。奥行きdは、センサーからカメラ法線方向におけるシーン内の点への距離である。
幾何学的記述子
本発明による幾何学的記述子f1D211は、人体の全ての部分に適用される。この幾何学的記述子は以下の手順によって取得される。
1)対象となる人(human objects)のサイズ及び奥行きに依拠して、正のサンプルのレンジスキャンLにより、任意の長さベクトルを形成する。
Figure 0006305171
式中、‖w‖はウィンドウの幅である。任意の長さ特徴ベクトルを、均一の固定次元の特徴空間R上にマッピングするために、f 1Dに対しm点双線型補間Bが実行される(220)。補間後、f 1Dの次元mはmになる。
Figure 0006305171
2)センサー配列と人との間の距離はシーンにおいて大きく異なる。したがって、奥行きを正規化する(230)。この距離を補償するために、f 1Dにおけるセンサーに最も近い点の奥行きdが求められる。次に、dがf 1Dから減算される。
Figure 0006305171
3)背景クラッター及びシーン内の他の物体は、人から様々な距離にある可能性がある。これによって、人体のシルエットの回りにかなりの幾何学的特徴変動が生じる。トレーニングデータ内のこの全ての変動を取得することが1つの手法であろう。しかし、これには大量のトレーニングデータが必要となり、これは実際的でない。これはまた、記述子の識別力が弱まることに起因した分類器の失敗も引き起こす可能性がある。したがって、本発明者らは背景を除去する(240)。
したがって、人体形状しきい値を超える特徴ベクトル要素の奥行き値が除去される。しきい値dが、対象となる人の可能な限り最大の半径に設定される。特徴ベクトルf1D内の点がしきい値よりも大きな奥行き値を有する場合、点は最大半径に設定される。結果として、他の物体及び背景クラッターに起因する変動は以下に従って取り除かれる。
Figure 0006305171
視覚的記述子
その形状表現能力、計算単純性、及び照明変化に起因して、有向勾配ヒストグラム(HOG)がテクスチャ画像データから抽出され(210)、記述子の視覚部分212 f2D=[v,...,vが形成される。HOGは画像領域内のセルにおけるエッジ勾配の分布によって局所的外観を効率的に表すことができる。これらのセルは、重なり合っていても、規則的なグリッド上にあっても、ウィンドウのより小さな構成要素である。セル内でヒストグラムが得られ、これらの局所的セルヒストグラムは連結されてウィンドウのより大きな記述子にされる。ウィンドウ記述子の全てのセルヒストグラムは、変化する照明に対し更なる精度を得るように、ウィンドウ内の累積エネルギーを用いて正規化される。従来から、エネルギーは画像内の「情報」量又は複雑度の尺度である。
同様に、本方法の実施形態において、領域共分散記述子(COV)、共起行列係数、局所的な二値パターン及び三値パターンのヒストグラム並びにnタプル等の他の弁別的識別子が用いられる。
記述子及び分類器の組み合わされたトレーニング
幾何学的特徴f1D及び視覚的特徴f2Dが同じジョイント特徴ベクトルにおいて連結され、多モードの人記述子fが形成される。未加工の幾何学的特徴ベクトル及び視覚的特徴ベクトルは異なる寸法を有し、このため、多モード記述子におけるそれらの個々の寄与は平衡が取られていない。この問題を克服するために、個々のベクトルが単位ノルムに正規化される。
Figure 0006305171
m+nにおける組み合わされた記述子は、f=「f1D2Dである。
トレーニング中、負のサンプルは物体のないウィンドウから選択される。なぜなら、ウィンドウサイズはウィンドウ中心の奥行き値に従って変化し、負のサンプルの大きさも当然変動するためである。
本発明による分類器にサポートベクトルマシン(SVM)を用いる。SVMは、特徴空間内の正のトレーニングサンプルと負のトレーニングサンプルとの間の超平面に適合する。決定境界は、正のサンプルと負のサンプルとを最大マージンで分離する1組のサポートベクトルによって定義される。SVMの決定関数は以下となる。
Figure 0006305171
式中、αは対応するm個のサポートベクトルf の重みであり、φは空間Hへのマッピング関数である。決定関数におけるドット積はカーネル関数に置き換えることができる。
Figure 0006305171
カーネル関数を用いることによって、分類器はHにおいて超平面になる。この超平面は入力空間において非線形とすることができる。ラベル付けされたサンプルの組(x,y)を所与とすると、ここでラベルy={−1,1}であり、SVMの学習問題は以下の式の最小化として定式化することができる。
Figure 0006305171
ただし、以下を条件とする。
Figure 0006305171
式中、εは誤分類されたサンプルのペナルティである。上記の最適化は、可能な限り多くのサンプルを正確に分類しようとする。また、‖w‖の最小化によってマージンが可能な限り大きくなり、Cは相対的な影響を設定する変数項である。
SVMのカーネル関数として以下の放射基底関数(RBF:radial basis function)を用いる。
Figure 0006305171
式中、γはガウスカーネル幅の幅である。RBFを用いることによって、より高次元、場合によっては無限次元の空間で形状を完璧に表す決定関数を得ることが常に可能である。RBFを組み込むことによって、SVM決定関数は以下の形態をとる。
Figure 0006305171
分類結果はh(f)の正負符号である。決定関数はサポートベクトルとデータとの間の距離に依拠し、このため式6及び式7に定式化されるように、幾何学的特徴ベクトルf1D及び視覚的特徴ベクトルf2Dを単位ノルムに正規化することが必要である。そうでない場合、SVM決定関数はより高次元の特徴を選好する。
上記の1D検出器及び2D検出器に加えて、1D+検出器と呼ばれる単一モード分類器も、幾何学的記述子の識別力を評価するのに1Dレンジスキャンのみを用いてSVMによってトレーニングされる。
上記で説明した放射基底関数を用いるSVM分類器の代わりに、本方法の他の実施形態は、線形SVM、ブースト型分類器(AdaBoost、GentleBoost、LogitBoost)、及びk−NN分類器を用いる。
オフライントレーニング及びオンライン検出中にジョイント特徴が得られる方式が同一であることに留意すべきである。このため、得られた特徴に関する記述は双方に等しく当てはまる。
検出
トレーニングプロセスは奥行きから利益を得る。インテリジェント車両及びロボットナビゲーションを含むほとんどの用途の場合、画像とともに奥行きデータのみが入手可能である。物体検出の速度は別の重要な要素であるので、1D+2D検出器は、奥行きを利用して不要なウィンドウ評価を取り除くジョイント形式で用いられる。
試験ウィンドウが人物を示すか否かを判断するために、位置合わせされたデータにおいて対応する1D特徴及び2D特徴が求められる。レンジスキャンラインLは、透視変換L:T(L)によって2D画像Iとアラインされ、画像内の画像ピクセル座標の組L=(p,...,p)が得られる。
スライディング検索ウィンドウW(x,y,δx,δy)は、Lの座標における各pを中心とする。Wのサイズ(幅δx及び高さδy)は、より小さな奥行き、すなわちセンサーにより近い物体の場合に、ウィンドウサイズがより大きくなるように、点pの奥行きdに従って設定される。ウィンドウサイズはまた、対応する奥行きにおける平均サイズの人物に比例する。
検出プロセスを更に加速するために、「候補」ウィンドウ位置のアクティブセットが用いられる。これらのウィンドウは、奥行きデータ上、すなわちレンジスキャンラインL=(p,...,p)上に集中している。ウィンドウ位置のこのアクティブセットは、奥行きデータに基づいて、近いものから遠いものへと順序付けされ、センサーにより近い重要な物体の検出を優先付けるとともに、遮蔽の対処にも成功する。現在のウィンドウが選択され、ウィンドウ位置のアクティブセットから分類器に適用される。試験されるウィンドウ位置が物体として分類されると、ウィドウのアクティブセット内の、現在のウィンドウ幅δx内にある対応するウィンドウ位置が除去され、近傍のピクセルロケーションにある複数の物体検出が取り除かれる。
LIDARビームが常に人体の特定の高さと交差する保証はないので、現在のウィンドウWの垂直位置yは固定されず、様々な垂直位置y±Δyにある複数の垂直ウィンドウがpごとに試験される。ウィンドウサイズの選択でのように、垂直ウィンドウの数及びそれらの分離が中心点の奥行きによって求められる。この場合、dが大きな値を有する場合、複数のウィンドウ間のより小さな垂直インクリメントΔyが望ましい。これらの垂直ウィンドウは画像内で重なり合っている。垂直ウィンドウサイズは現在のウィンドウサイズに等しい。現在のウィンドウ位置におけるレンジスキャンラインから幾何学的特徴が得られ、画像内の垂直ウィンドウ領域内で視覚的特徴が得られるように、垂直ウィンドウごとのジョイント特徴が計算される。
上記の方法は、現在のウィンドウ位置における複数の垂直ウィンドウの試験を必要とする。代わりに、視覚的特徴を入力として取り、垂直ウィンドウ位置を出力として推定する回帰関数を用いることができる。
Figure 0006305171
式中、回帰関数Ωは行ベクトルである。この線形回帰は、視覚的記述子から垂直位置Δyを計算する。この視覚的記述子は、現在のウィンドウ位置において得られ、回帰関数に適用され、物体を含む可能性がより高い垂直ウィンドウ位置が求められる。例えば、現在のウィンドウが人の下部胴体を含む可能性がある場合、回帰関数に視覚的記述子を適用して、身体全体を含むより高い垂直ウィンドウを推定することが好ましい。
分類器は、回帰関数によって推定される垂直ウィンドウのみを試験する。これによって計算コストが更に大幅に低減される。回帰関数は、特定の視覚記述子について、人の画像のトレーニングデータから学習することができる。
各ウィンドウ内で、幾何学的記述子f1D及び視覚的記述子f2Dが求められ、正規化され、連結されてfにされる。SVM分類器におけるh(f)の正負符号が正である場合、多モード分類器によって人物が検出される。
様々なスケールで画像全体を検索する従来の視覚のみの人検出器と対照的に、本発明による1D+2D分類器は検索空間を劇的に低減する。この分類器は、画像スケーリングステップを完全に取り除く。Lを用いることによって、画像エリアのほとんどを取り除くのに役立ち、これによって計算負荷が大幅に低減する。
実際には、ウィンドウ評価は、LIDARセンサーの奥行き値に基づいて近いものから遠いものへと順序付けして、最も重要な物体を最初に求めることができる。
トレーニングデータ
教師あり学習では、トレーニングデータの品質及び量は分類器の性能にとって非常に重要である。より多くのトレーニングデータによって、過剰適合を防ぎ、一般性を改善し、トレーニングされたモデルがターゲットクラスサンプルの起こり得る変動を検出することを可能にする。本発明者らの目的は、人体におけるレンジスキャン位置に関する推定を一切行うことなく正確に機能する、包括的で制約を受けない分類器を構築することであるので、トレーニング用にトレーニングサンプルの大きな組が取得される。
しかしながら、レンジスキャンが人体の様々な部分と交差する、そのような多数の位置合わせされたLIDARデータ及びカメラデータを収集することは厄介である。異なる姿勢、外観変動及びスキャン位置を取得するために、LIDARの高さ及び位置は過度に変更される。これは間違いなく、十分な量及び品質のデータを取得する保証のない冗長で不十分な作業である。
本発明者らに有利には、シーンの3D構造を提供する奥行きカメラを用いることによって、正のサンプル及び負のサンプルの多数の多様なレンジスキャンを生成することが可能である。幾何学的情報をLIDARのような読み値に合成的に変換することによって、奥行き画像から任意の数のスキャンを得ることができる。本発明者らは、様々な姿勢、外観変動、照明条件及びシャドウアーティファクトにおける450人の異なる人の40000個の画像からの多モードの人トレーニングデータを用いる。

Claims (14)

  1. シーン内の物体を検出する方法であって、
    奥行きデータからウィンドウ位置のアクティブセットを求めるステップを含み、前記奥行きデータはセンサーによって取得され、該方法は、前記ウィンドウ位置のアクティブセット内の前記ウィンドウ位置ごとに、
    前記奥行きデータからウィンドウサイズを割り当てるステップと、
    前記ウィンドウ位置のアクティブセットから現在のウィンドウを選択するステップと、
    前記現在のウィンドウの前記奥行きデータ及び前記現在のウィンドウのテクスチャデータからジョイント特徴を抽出するステップであって、前記テクスチャデータはカメラによって取得される、ステップと、
    前記ジョイント特徴を分類するステップであって、それにより前記物体を検出し、分類器は、前記センサーによって取得されたトレーニング奥行きデータ及び前記カメラによって取得されたトレーニングテクスチャデータを含むトレーニングデータから抽出されたジョイントトレーニング特徴を用いてトレーニングされる、ステップと、
    次の現在のウィンドウを処理する前に、前記ウィンドウ位置のアクティブセットを更新するステップと、
    を更に含み、前記ステップはプロセッサにおいて実行され
    前記ジョイント特徴は、前記テクスチャデータから抽出された視覚的特徴と連結された奥行き特徴を含み、
    前記奥行きデータに線形双線型補間を適用するステップと、
    前記奥行きデータから最も近い奥行き値を減算するステップと、
    人体形状しきい値を超える前記奥行きデータを最大半径に設定するステップであって、それにより前記奥行き特徴を得る、ステップと、
    を更に含む、方法。
  2. シーン内の物体を検出する方法であって、
    奥行きデータからウィンドウ位置のアクティブセットを求めるステップを含み、前記奥行きデータはセンサーによって取得され、該方法は、前記ウィンドウ位置のアクティブセット内の前記ウィンドウ位置ごとに、
    前記奥行きデータからウィンドウサイズを割り当てるステップと、
    前記ウィンドウ位置のアクティブセットから現在のウィンドウを選択するステップと、
    前記現在のウィンドウの前記奥行きデータ及び前記現在のウィンドウのテクスチャデータからジョイント特徴を抽出するステップであって、前記テクスチャデータはカメラによって取得される、ステップと、
    前記ジョイント特徴を分類するステップであって、それにより前記物体を検出し、分類器は、前記センサーによって取得されたトレーニング奥行きデータ及び前記カメラによって取得されたトレーニングテクスチャデータを含むトレーニングデータから抽出されたジョイントトレーニング特徴を用いてトレーニングされる、ステップと、
    次の現在のウィンドウを処理する前に、前記ウィンドウ位置のアクティブセットを更新するステップと、
    を更に含み、前記ステップはプロセッサにおいて実行され、
    前記奥行きデータに配置される前記現在のウィンドウごとに複数の重なり合う垂直ウィンドウを割り当てるステップであって、前記垂直ウィンドウのサイズは前記現在のウィンドウのサイズに等しい、ステップと、
    前記テクスチャデータに配置される前記垂直ウィンドウごとにジョイント特徴を抽出するステップであって、奥行き特徴は前記現在のウィンドウにおける前記奥行きデータから求められ、前記テクスチャデータから抽出された視覚的特徴は前記垂直ウィンドウから求められる、ステップと、
    を更に含む、方法。
  3. シーン内の物体を検出する方法であって、
    奥行きデータからウィンドウ位置のアクティブセットを求めるステップを含み、前記奥行きデータはセンサーによって取得され、該方法は、前記ウィンドウ位置のアクティブセット内の前記ウィンドウ位置ごとに、
    前記奥行きデータからウィンドウサイズを割り当てるステップと、
    前記ウィンドウ位置のアクティブセットから現在のウィンドウを選択するステップと、
    前記現在のウィンドウの前記奥行きデータ及び前記現在のウィンドウのテクスチャデータからジョイント特徴を抽出するステップであって、前記テクスチャデータはカメラによって取得される、ステップと、
    前記ジョイント特徴を分類するステップであって、それにより前記物体を検出し、分類器は、前記センサーによって取得されたトレーニング奥行きデータ及び前記カメラによって取得されたトレーニングテクスチャデータを含むトレーニングデータから抽出されたジョイントトレーニング特徴を用いてトレーニングされる、ステップと、
    次の現在のウィンドウを処理する前に、前記ウィンドウ位置のアクティブセットを更新するステップと、
    を更に含み、前記ステップはプロセッサにおいて実行され、
    前記テクスチャデータから抽出された視覚的特徴を入力としてとり、前記テクスチャデータに配置される垂直ウィンドウの位置を出力として推定する回帰関数を適用するステップであって、前記回帰関数は前記トレーニングテクスチャデータから学習される、ステップ、
    を更に含む、方法。
  4. 前記アクティブセットの前記ウィンドウ位置は、前記奥行きデータに基づいて近いものから遠いものへと順序付けされる、請求項1から3のいずれか1項に記載の方法。
  5. 前記現在のウィンドウは最も近い奥行き値を有する、請求項1から3のいずれか1項に記載の方法。
  6. 前記ウィンドウのサイズは対応する奥行きにおける平均サイズの人物に対応する、請求項1から3のいずれか1項に記載の方法。
  7. 前記奥行きデータは前記テクスチャデータと位置合わせされる、請求項1から3のいずれか1項に記載の方法。
  8. 前記テクスチャデータから勾配ヒストグラムを前記視覚的特徴として抽出するステップを更に含む、請求項1から3のいずれか1項に記載の方法。
  9. 前記視覚的特徴は、領域共分散記述子と、共起行列係数と、局所的な二値パターン及び三値パターンのヒストグラムと、nタプルとを含む、請求項1から3のいずれか1項に記載の方法。
  10. 前記奥行き特徴及び前記視覚的特徴は異なる次元を有し、該方法は、
    前記奥行き特徴及び前記視覚的特徴を単位ノルムに正規化するステップを更に含む、請求項1から3のいずれか1項に記載の方法。
  11. 前記分類器は放射基底関数カーネルサポートベクトルマシンを用いる、請求項1から3のいずれか1項に記載の方法。
  12. 前記分類器はブースト型分類器、または線形サポートベクトルマシン分類器、またはk−NN分類器を用いる、請求項1から3のいずれか1項に記載の方法。
  13. 前記現在のウィンドウが前記分類器によって前記物体として分類されるとき、該現在のウィンドウの前記ウィンドウサイズ内の前記ウィンドウ位置のアクティブセットを除去するステップを更に含む、請求項1から3のいずれか1項に記載の方法。
  14. 前記奥行きデータはしきい値処理されてクラッターが除去される、請求項1から3のいずれか1項に記載の方法。
JP2014079974A 2013-05-20 2014-04-09 シーン内の物体を検出する方法 Expired - Fee Related JP6305171B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/897,517 2013-05-20
US13/897,517 US9639748B2 (en) 2013-05-20 2013-05-20 Method for detecting persons using 1D depths and 2D texture

Publications (2)

Publication Number Publication Date
JP2014229303A JP2014229303A (ja) 2014-12-08
JP6305171B2 true JP6305171B2 (ja) 2018-04-04

Family

ID=51895810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014079974A Expired - Fee Related JP6305171B2 (ja) 2013-05-20 2014-04-09 シーン内の物体を検出する方法

Country Status (2)

Country Link
US (1) US9639748B2 (ja)
JP (1) JP6305171B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102137264B1 (ko) * 2013-07-09 2020-07-24 삼성전자주식회사 카메라 포즈 추정 장치 및 방법
US9489570B2 (en) * 2013-12-31 2016-11-08 Konica Minolta Laboratory U.S.A., Inc. Method and system for emotion and behavior recognition
US9524582B2 (en) * 2014-01-28 2016-12-20 Siemens Healthcare Gmbh Method and system for constructing personalized avatars using a parameterized deformable mesh
CN104850844B (zh) * 2015-05-27 2019-02-26 成都新舟锐视科技有限公司 一种基于快速构建图像特征金字塔的行人检测方法
CN105243356B (zh) * 2015-09-10 2019-02-12 北京大学 一种建立行人检测模型的方法及装置及行人检测方法
KR101605292B1 (ko) 2015-11-23 2016-03-21 재단법인 다차원 스마트 아이티 융합시스템 연구단 스캔 라인 방식을 이용하는 멀티 애퍼처 카메라 시스템
EP3298874B1 (en) * 2016-09-22 2020-07-01 Honda Research Institute Europe GmbH Robotic gardening device and method for controlling the same
WO2018066351A1 (ja) * 2016-10-06 2018-04-12 株式会社アドバンスド・データ・コントロールズ シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法
JP6548690B2 (ja) * 2016-10-06 2019-07-24 株式会社アドバンスド・データ・コントロールズ シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法
WO2018066352A1 (ja) * 2016-10-06 2018-04-12 株式会社アドバンスド・データ・コントロールズ 画像生成システム、プログラム及び方法並びにシミュレーションシステム、プログラム及び方法
CN107679528A (zh) * 2017-11-24 2018-02-09 广西师范大学 一种基于AdaBoost‑SVM集成学习算法的行人检测方法
US11605172B2 (en) 2017-12-08 2023-03-14 Arizona Board Of Regents On Behalf Of The University Of Arizona Digital fringe projection and multi-spectral polarization imaging for rapid 3D reconstruction
CN108121975B (zh) * 2018-01-04 2022-04-19 中科汇通投资控股有限公司 一种联合原始数据和生成数据的人脸识别方法
CN108648233B (zh) * 2018-03-24 2022-04-12 北京工业大学 一种基于深度学习的目标识别与抓取定位方法
US11747444B2 (en) * 2018-08-14 2023-09-05 Intel Corporation LiDAR-based object detection and classification
KR102565279B1 (ko) 2018-08-23 2023-08-09 삼성전자주식회사 객체 검출 방법, 객체 검출을 위한 학습 방법 및 그 장치들
US10907960B1 (en) 2020-01-06 2021-02-02 Outsight SA Calibration system for combined depth and texture sensor
KR20210099780A (ko) 2020-02-05 2021-08-13 삼성전자주식회사 전자 장치 및 그 제어 방법
US20220084383A1 (en) * 2020-09-14 2022-03-17 Curbell Medical Products, Inc. System and method for monitoring an individual using lidar
US12050664B2 (en) 2020-10-09 2024-07-30 Nec Corporation Real-time cross-spectral object association and depth estimation

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3635942B2 (ja) * 1998-10-23 2005-04-06 ミノルタ株式会社 3次元入力装置
US7028053B2 (en) * 2003-01-16 2006-04-11 Xerox Corporation Apparatus and methods for accessing a collection of content portions
JP4775034B2 (ja) * 2006-02-28 2011-09-21 トヨタ自動車株式会社 画像認識システムおよび画像認識方法
US20070237387A1 (en) * 2006-04-11 2007-10-11 Shmuel Avidan Method for detecting humans in images
US8395642B2 (en) * 2009-03-17 2013-03-12 Mitsubishi Electric Research Laboratories, Inc. Method for virtual image synthesis
US8611604B2 (en) * 2009-06-03 2013-12-17 Chubu University Educational Foundation Object detection device
JP5297530B2 (ja) * 2009-07-15 2013-09-25 株式会社東芝 画像処理装置、及びインターフェース装置
US20110026770A1 (en) * 2009-07-31 2011-02-03 Jonathan David Brookshire Person Following Using Histograms of Oriented Gradients
CN102006402B (zh) * 2009-08-28 2014-02-19 鸿富锦精密工业(深圳)有限公司 摄像装置及其身份识别方法
JP5483961B2 (ja) * 2009-09-02 2014-05-07 キヤノン株式会社 画像処理装置、被写体判別方法、プログラム及び記憶媒体
US20110176000A1 (en) * 2010-01-21 2011-07-21 Utah State University System and Method for Counting People
US8406470B2 (en) * 2011-04-19 2013-03-26 Mitsubishi Electric Research Laboratories, Inc. Object detection in depth images
US9047681B2 (en) * 2011-07-07 2015-06-02 Samsung Electronics Co., Ltd. Depth image conversion apparatus and method

Also Published As

Publication number Publication date
JP2014229303A (ja) 2014-12-08
US9639748B2 (en) 2017-05-02
US20140341421A1 (en) 2014-11-20

Similar Documents

Publication Publication Date Title
JP6305171B2 (ja) シーン内の物体を検出する方法
CN111328396B (zh) 用于图像中的对象的姿态估计和模型检索
JP5726125B2 (ja) 奥行き画像内の物体を検出する方法およびシステム
JP6125188B2 (ja) 映像処理方法及び装置
CN111144207B (zh) 一种基于多模态信息感知的人体检测和跟踪方法
CN104268598B (zh) 一种基于二维扫描激光的人腿检测方法
JP6483168B2 (ja) ビジョンシステムで画像内のプローブを効率的に採点するためのシステム及び方法
EP3376433B1 (en) Image processing apparatus, image processing method, and image processing program
CN110751097B (zh) 一种半监督的三维点云手势关键点检测方法
AU2020272936B2 (en) Methods and systems for crack detection using a fully convolutional network
Tran et al. Non-contact gap and flush measurement using monocular structured multi-line light vision for vehicle assembly
Rao et al. Object tracking system using approximate median filter, Kalman filter and dynamic template matching
CN112784712B (zh) 一种基于实时监控的失踪儿童预警实现方法、装置
CN107203743B (zh) 一种人脸深度跟踪装置及实现方法
JP2010157093A (ja) 運動推定装置及びプログラム
Chansri et al. Reliability and accuracy of Thai sign language recognition with Kinect sensor
CN116486287A (zh) 基于环境自适应机器人视觉系统的目标检测方法及系统
Brenner et al. RGB-D and thermal sensor fusion: a systematic literature review
CN117953059B (zh) 一种基于rgb-d图像的方形吊装物姿态估计方法
CN116579955B (zh) 一种新能源电芯焊缝反光点去噪和点云补全方法及系统
Frank et al. Stereo-vision for autonomous industrial inspection robots
Wang et al. LBP-based edge detection method for depth images with low resolutions
CN108985216B (zh) 一种基于多元logistic回归特征融合的行人头部检测方法
Budzan Fusion of visual and range images for object extraction
Peng et al. Real time and robust 6D pose estimation of RGBD data for robotic bin picking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180306

R150 Certificate of patent or registration of utility model

Ref document number: 6305171

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees