JP6305171B2 - シーン内の物体を検出する方法 - Google Patents
シーン内の物体を検出する方法 Download PDFInfo
- Publication number
- JP6305171B2 JP6305171B2 JP2014079974A JP2014079974A JP6305171B2 JP 6305171 B2 JP6305171 B2 JP 6305171B2 JP 2014079974 A JP2014079974 A JP 2014079974A JP 2014079974 A JP2014079974 A JP 2014079974A JP 6305171 B2 JP6305171 B2 JP 6305171B2
- Authority
- JP
- Japan
- Prior art keywords
- window
- depth
- data
- training
- depth data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
人検出のために2つのタイプのセンサー、すなわち、単眼カメラ等の視覚センサーと、1層又は多層の光検出及び測距(LIDAR:light detection and ranging)検出器及び動き検出器等の、3Dの幾何学的手がかりを提供するセンサーとを用いることができる。検出器は入力画像を取得し、画像の部分(ウィンドウ)の記述子を求める。記述子は、分類器によって、任意のウィンドウ内に人が存在するか否かを判断するのに用いられる。
図3は、分類器によって用いられるSVMのトレーニングを示している。テクスチャ画像データ202内のウィンドウWiについて、光検出及び測距(LIDAR)を用いて、又は奥行きカメラから、対応する1DレンジスキャンデータLi=(d1、...、dmi)201を取得することができる。LIDARセンサーの場合、ウィンドウ内に、同期して取得された単一の水平レンジスキャンセグメントが存在する。他方で、奥行きカメラは、複数の水平レンジスキャンセグメントを提供することができ、これらはトレーニングに特に役立つ。奥行きdは、センサーからカメラ法線方向におけるシーン内の点への距離である。
本発明による幾何学的記述子f1D211は、人体の全ての部分に適用される。この幾何学的記述子は以下の手順によって取得される。
1)対象となる人(human objects)のサイズ及び奥行きに依拠して、正のサンプルのレンジスキャンLiにより、任意の長さベクトルを形成する。
その形状表現能力、計算単純性、及び照明変化に起因して、有向勾配ヒストグラム(HOG)がテクスチャ画像データから抽出され(210)、記述子の視覚部分212 f2D=[v1,...,vn]Tが形成される。HOGは画像領域内のセルにおけるエッジ勾配の分布によって局所的外観を効率的に表すことができる。これらのセルは、重なり合っていても、規則的なグリッド上にあっても、ウィンドウのより小さな構成要素である。セル内でヒストグラムが得られ、これらの局所的セルヒストグラムは連結されてウィンドウのより大きな記述子にされる。ウィンドウ記述子の全てのセルヒストグラムは、変化する照明に対し更なる精度を得るように、ウィンドウ内の累積エネルギーを用いて正規化される。従来から、エネルギーは画像内の「情報」量又は複雑度の尺度である。
幾何学的特徴f1D及び視覚的特徴f2Dが同じジョイント特徴ベクトルにおいて連結され、多モードの人記述子fが形成される。未加工の幾何学的特徴ベクトル及び視覚的特徴ベクトルは異なる寸法を有し、このため、多モード記述子におけるそれらの個々の寄与は平衡が取られていない。この問題を克服するために、個々のベクトルが単位ノルムに正規化される。
トレーニングプロセスは奥行きから利益を得る。インテリジェント車両及びロボットナビゲーションを含むほとんどの用途の場合、画像とともに奥行きデータのみが入手可能である。物体検出の速度は別の重要な要素であるので、1D+2D検出器は、奥行きを利用して不要なウィンドウ評価を取り除くジョイント形式で用いられる。
教師あり学習では、トレーニングデータの品質及び量は分類器の性能にとって非常に重要である。より多くのトレーニングデータによって、過剰適合を防ぎ、一般性を改善し、トレーニングされたモデルがターゲットクラスサンプルの起こり得る変動を検出することを可能にする。本発明者らの目的は、人体におけるレンジスキャン位置に関する推定を一切行うことなく正確に機能する、包括的で制約を受けない分類器を構築することであるので、トレーニング用にトレーニングサンプルの大きな組が取得される。
Claims (14)
- シーン内の物体を検出する方法であって、
奥行きデータからウィンドウ位置のアクティブセットを求めるステップを含み、前記奥行きデータはセンサーによって取得され、該方法は、前記ウィンドウ位置のアクティブセット内の前記ウィンドウ位置ごとに、
前記奥行きデータからウィンドウサイズを割り当てるステップと、
前記ウィンドウ位置のアクティブセットから現在のウィンドウを選択するステップと、
前記現在のウィンドウの前記奥行きデータ及び前記現在のウィンドウのテクスチャデータからジョイント特徴を抽出するステップであって、前記テクスチャデータはカメラによって取得される、ステップと、
前記ジョイント特徴を分類するステップであって、それにより前記物体を検出し、分類器は、前記センサーによって取得されたトレーニング奥行きデータ及び前記カメラによって取得されたトレーニングテクスチャデータを含むトレーニングデータから抽出されたジョイントトレーニング特徴を用いてトレーニングされる、ステップと、
次の現在のウィンドウを処理する前に、前記ウィンドウ位置のアクティブセットを更新するステップと、
を更に含み、前記ステップはプロセッサにおいて実行され、
前記ジョイント特徴は、前記テクスチャデータから抽出された視覚的特徴と連結された奥行き特徴を含み、
前記奥行きデータに線形双線型補間を適用するステップと、
前記奥行きデータから最も近い奥行き値を減算するステップと、
人体形状しきい値を超える前記奥行きデータを最大半径に設定するステップであって、それにより前記奥行き特徴を得る、ステップと、
を更に含む、方法。 - シーン内の物体を検出する方法であって、
奥行きデータからウィンドウ位置のアクティブセットを求めるステップを含み、前記奥行きデータはセンサーによって取得され、該方法は、前記ウィンドウ位置のアクティブセット内の前記ウィンドウ位置ごとに、
前記奥行きデータからウィンドウサイズを割り当てるステップと、
前記ウィンドウ位置のアクティブセットから現在のウィンドウを選択するステップと、
前記現在のウィンドウの前記奥行きデータ及び前記現在のウィンドウのテクスチャデータからジョイント特徴を抽出するステップであって、前記テクスチャデータはカメラによって取得される、ステップと、
前記ジョイント特徴を分類するステップであって、それにより前記物体を検出し、分類器は、前記センサーによって取得されたトレーニング奥行きデータ及び前記カメラによって取得されたトレーニングテクスチャデータを含むトレーニングデータから抽出されたジョイントトレーニング特徴を用いてトレーニングされる、ステップと、
次の現在のウィンドウを処理する前に、前記ウィンドウ位置のアクティブセットを更新するステップと、
を更に含み、前記ステップはプロセッサにおいて実行され、
前記奥行きデータに配置される前記現在のウィンドウごとに複数の重なり合う垂直ウィンドウを割り当てるステップであって、前記垂直ウィンドウのサイズは前記現在のウィンドウのサイズに等しい、ステップと、
前記テクスチャデータに配置される前記垂直ウィンドウごとにジョイント特徴を抽出するステップであって、奥行き特徴は前記現在のウィンドウにおける前記奥行きデータから求められ、前記テクスチャデータから抽出された視覚的特徴は前記垂直ウィンドウから求められる、ステップと、
を更に含む、方法。 - シーン内の物体を検出する方法であって、
奥行きデータからウィンドウ位置のアクティブセットを求めるステップを含み、前記奥行きデータはセンサーによって取得され、該方法は、前記ウィンドウ位置のアクティブセット内の前記ウィンドウ位置ごとに、
前記奥行きデータからウィンドウサイズを割り当てるステップと、
前記ウィンドウ位置のアクティブセットから現在のウィンドウを選択するステップと、
前記現在のウィンドウの前記奥行きデータ及び前記現在のウィンドウのテクスチャデータからジョイント特徴を抽出するステップであって、前記テクスチャデータはカメラによって取得される、ステップと、
前記ジョイント特徴を分類するステップであって、それにより前記物体を検出し、分類器は、前記センサーによって取得されたトレーニング奥行きデータ及び前記カメラによって取得されたトレーニングテクスチャデータを含むトレーニングデータから抽出されたジョイントトレーニング特徴を用いてトレーニングされる、ステップと、
次の現在のウィンドウを処理する前に、前記ウィンドウ位置のアクティブセットを更新するステップと、
を更に含み、前記ステップはプロセッサにおいて実行され、
前記テクスチャデータから抽出された視覚的特徴を入力としてとり、前記テクスチャデータに配置される垂直ウィンドウの位置を出力として推定する回帰関数を適用するステップであって、前記回帰関数は前記トレーニングテクスチャデータから学習される、ステップ、
を更に含む、方法。 - 前記アクティブセットの前記ウィンドウ位置は、前記奥行きデータに基づいて近いものから遠いものへと順序付けされる、請求項1から3のいずれか1項に記載の方法。
- 前記現在のウィンドウは最も近い奥行き値を有する、請求項1から3のいずれか1項に記載の方法。
- 前記ウィンドウのサイズは対応する奥行きにおける平均サイズの人物に対応する、請求項1から3のいずれか1項に記載の方法。
- 前記奥行きデータは前記テクスチャデータと位置合わせされる、請求項1から3のいずれか1項に記載の方法。
- 前記テクスチャデータから勾配ヒストグラムを前記視覚的特徴として抽出するステップを更に含む、請求項1から3のいずれか1項に記載の方法。
- 前記視覚的特徴は、領域共分散記述子と、共起行列係数と、局所的な二値パターン及び三値パターンのヒストグラムと、nタプルとを含む、請求項1から3のいずれか1項に記載の方法。
- 前記奥行き特徴及び前記視覚的特徴は異なる次元を有し、該方法は、
前記奥行き特徴及び前記視覚的特徴を単位ノルムに正規化するステップを更に含む、請求項1から3のいずれか1項に記載の方法。 - 前記分類器は放射基底関数カーネルサポートベクトルマシンを用いる、請求項1から3のいずれか1項に記載の方法。
- 前記分類器はブースト型分類器、または線形サポートベクトルマシン分類器、またはk−NN分類器を用いる、請求項1から3のいずれか1項に記載の方法。
- 前記現在のウィンドウが前記分類器によって前記物体として分類されるとき、該現在のウィンドウの前記ウィンドウサイズ内の前記ウィンドウ位置のアクティブセットを除去するステップを更に含む、請求項1から3のいずれか1項に記載の方法。
- 前記奥行きデータはしきい値処理されてクラッターが除去される、請求項1から3のいずれか1項に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/897,517 | 2013-05-20 | ||
US13/897,517 US9639748B2 (en) | 2013-05-20 | 2013-05-20 | Method for detecting persons using 1D depths and 2D texture |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014229303A JP2014229303A (ja) | 2014-12-08 |
JP6305171B2 true JP6305171B2 (ja) | 2018-04-04 |
Family
ID=51895810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014079974A Expired - Fee Related JP6305171B2 (ja) | 2013-05-20 | 2014-04-09 | シーン内の物体を検出する方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9639748B2 (ja) |
JP (1) | JP6305171B2 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102137264B1 (ko) * | 2013-07-09 | 2020-07-24 | 삼성전자주식회사 | 카메라 포즈 추정 장치 및 방법 |
US9489570B2 (en) * | 2013-12-31 | 2016-11-08 | Konica Minolta Laboratory U.S.A., Inc. | Method and system for emotion and behavior recognition |
US9524582B2 (en) * | 2014-01-28 | 2016-12-20 | Siemens Healthcare Gmbh | Method and system for constructing personalized avatars using a parameterized deformable mesh |
CN104850844B (zh) * | 2015-05-27 | 2019-02-26 | 成都新舟锐视科技有限公司 | 一种基于快速构建图像特征金字塔的行人检测方法 |
CN105243356B (zh) * | 2015-09-10 | 2019-02-12 | 北京大学 | 一种建立行人检测模型的方法及装置及行人检测方法 |
KR101605292B1 (ko) | 2015-11-23 | 2016-03-21 | 재단법인 다차원 스마트 아이티 융합시스템 연구단 | 스캔 라인 방식을 이용하는 멀티 애퍼처 카메라 시스템 |
EP3298874B1 (en) * | 2016-09-22 | 2020-07-01 | Honda Research Institute Europe GmbH | Robotic gardening device and method for controlling the same |
WO2018066351A1 (ja) * | 2016-10-06 | 2018-04-12 | 株式会社アドバンスド・データ・コントロールズ | シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法 |
JP6548690B2 (ja) * | 2016-10-06 | 2019-07-24 | 株式会社アドバンスド・データ・コントロールズ | シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法 |
WO2018066352A1 (ja) * | 2016-10-06 | 2018-04-12 | 株式会社アドバンスド・データ・コントロールズ | 画像生成システム、プログラム及び方法並びにシミュレーションシステム、プログラム及び方法 |
CN107679528A (zh) * | 2017-11-24 | 2018-02-09 | 广西师范大学 | 一种基于AdaBoost‑SVM集成学习算法的行人检测方法 |
US11605172B2 (en) | 2017-12-08 | 2023-03-14 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Digital fringe projection and multi-spectral polarization imaging for rapid 3D reconstruction |
CN108121975B (zh) * | 2018-01-04 | 2022-04-19 | 中科汇通投资控股有限公司 | 一种联合原始数据和生成数据的人脸识别方法 |
CN108648233B (zh) * | 2018-03-24 | 2022-04-12 | 北京工业大学 | 一种基于深度学习的目标识别与抓取定位方法 |
US11747444B2 (en) * | 2018-08-14 | 2023-09-05 | Intel Corporation | LiDAR-based object detection and classification |
KR102565279B1 (ko) | 2018-08-23 | 2023-08-09 | 삼성전자주식회사 | 객체 검출 방법, 객체 검출을 위한 학습 방법 및 그 장치들 |
US10907960B1 (en) | 2020-01-06 | 2021-02-02 | Outsight SA | Calibration system for combined depth and texture sensor |
KR20210099780A (ko) | 2020-02-05 | 2021-08-13 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US20220084383A1 (en) * | 2020-09-14 | 2022-03-17 | Curbell Medical Products, Inc. | System and method for monitoring an individual using lidar |
US12050664B2 (en) | 2020-10-09 | 2024-07-30 | Nec Corporation | Real-time cross-spectral object association and depth estimation |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3635942B2 (ja) * | 1998-10-23 | 2005-04-06 | ミノルタ株式会社 | 3次元入力装置 |
US7028053B2 (en) * | 2003-01-16 | 2006-04-11 | Xerox Corporation | Apparatus and methods for accessing a collection of content portions |
JP4775034B2 (ja) * | 2006-02-28 | 2011-09-21 | トヨタ自動車株式会社 | 画像認識システムおよび画像認識方法 |
US20070237387A1 (en) * | 2006-04-11 | 2007-10-11 | Shmuel Avidan | Method for detecting humans in images |
US8395642B2 (en) * | 2009-03-17 | 2013-03-12 | Mitsubishi Electric Research Laboratories, Inc. | Method for virtual image synthesis |
US8611604B2 (en) * | 2009-06-03 | 2013-12-17 | Chubu University Educational Foundation | Object detection device |
JP5297530B2 (ja) * | 2009-07-15 | 2013-09-25 | 株式会社東芝 | 画像処理装置、及びインターフェース装置 |
US20110026770A1 (en) * | 2009-07-31 | 2011-02-03 | Jonathan David Brookshire | Person Following Using Histograms of Oriented Gradients |
CN102006402B (zh) * | 2009-08-28 | 2014-02-19 | 鸿富锦精密工业(深圳)有限公司 | 摄像装置及其身份识别方法 |
JP5483961B2 (ja) * | 2009-09-02 | 2014-05-07 | キヤノン株式会社 | 画像処理装置、被写体判別方法、プログラム及び記憶媒体 |
US20110176000A1 (en) * | 2010-01-21 | 2011-07-21 | Utah State University | System and Method for Counting People |
US8406470B2 (en) * | 2011-04-19 | 2013-03-26 | Mitsubishi Electric Research Laboratories, Inc. | Object detection in depth images |
US9047681B2 (en) * | 2011-07-07 | 2015-06-02 | Samsung Electronics Co., Ltd. | Depth image conversion apparatus and method |
-
2013
- 2013-05-20 US US13/897,517 patent/US9639748B2/en active Active
-
2014
- 2014-04-09 JP JP2014079974A patent/JP6305171B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014229303A (ja) | 2014-12-08 |
US9639748B2 (en) | 2017-05-02 |
US20140341421A1 (en) | 2014-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6305171B2 (ja) | シーン内の物体を検出する方法 | |
CN111328396B (zh) | 用于图像中的对象的姿态估计和模型检索 | |
JP5726125B2 (ja) | 奥行き画像内の物体を検出する方法およびシステム | |
JP6125188B2 (ja) | 映像処理方法及び装置 | |
CN111144207B (zh) | 一种基于多模态信息感知的人体检测和跟踪方法 | |
CN104268598B (zh) | 一种基于二维扫描激光的人腿检测方法 | |
JP6483168B2 (ja) | ビジョンシステムで画像内のプローブを効率的に採点するためのシステム及び方法 | |
EP3376433B1 (en) | Image processing apparatus, image processing method, and image processing program | |
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
AU2020272936B2 (en) | Methods and systems for crack detection using a fully convolutional network | |
Tran et al. | Non-contact gap and flush measurement using monocular structured multi-line light vision for vehicle assembly | |
Rao et al. | Object tracking system using approximate median filter, Kalman filter and dynamic template matching | |
CN112784712B (zh) | 一种基于实时监控的失踪儿童预警实现方法、装置 | |
CN107203743B (zh) | 一种人脸深度跟踪装置及实现方法 | |
JP2010157093A (ja) | 運動推定装置及びプログラム | |
Chansri et al. | Reliability and accuracy of Thai sign language recognition with Kinect sensor | |
CN116486287A (zh) | 基于环境自适应机器人视觉系统的目标检测方法及系统 | |
Brenner et al. | RGB-D and thermal sensor fusion: a systematic literature review | |
CN117953059B (zh) | 一种基于rgb-d图像的方形吊装物姿态估计方法 | |
CN116579955B (zh) | 一种新能源电芯焊缝反光点去噪和点云补全方法及系统 | |
Frank et al. | Stereo-vision for autonomous industrial inspection robots | |
Wang et al. | LBP-based edge detection method for depth images with low resolutions | |
CN108985216B (zh) | 一种基于多元logistic回归特征融合的行人头部检测方法 | |
Budzan | Fusion of visual and range images for object extraction | |
Peng et al. | Real time and robust 6D pose estimation of RGBD data for robotic bin picking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171101 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6305171 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |