JP2017146957A - 深層畳み込みニューラルネットワークによるレイヤベースの物体検出の強化 - Google Patents

深層畳み込みニューラルネットワークによるレイヤベースの物体検出の強化 Download PDF

Info

Publication number
JP2017146957A
JP2017146957A JP2016227957A JP2016227957A JP2017146957A JP 2017146957 A JP2017146957 A JP 2017146957A JP 2016227957 A JP2016227957 A JP 2016227957A JP 2016227957 A JP2016227957 A JP 2016227957A JP 2017146957 A JP2017146957 A JP 2017146957A
Authority
JP
Japan
Prior art keywords
image
score
likelihood score
likelihood
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016227957A
Other languages
English (en)
Other versions
JP6288221B2 (ja
Inventor
エリック マーティンソン,
Martinson Eric
エリック マーティンソン,
ベエーラガネッシュ ヤラ,
Yalla Veeraganesh
ベエーラガネッシュ ヤラ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of JP2017146957A publication Critical patent/JP2017146957A/ja
Application granted granted Critical
Publication of JP6288221B2 publication Critical patent/JP6288221B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/421Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation by analysing segments intersecting the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像を分類する際のエラーを低減する。
【解決手段】コンピュータが物体の認識を行う方法であって、画像データを受信する受信ステップと、前記画像データから距離画像および色画像を抽出する抽出ステップと、前記距離画像を複数の領域にセグメント化することによってマスク画像を作成するマスクステップと、前記マスク画像の複数の領域に含まれる物体を識別する識別ステップと、階層型分類器を用いて前記距離画像およびマスク画像から第1の尤度スコアを決定する第1のスコア決定ステップと、深層畳み込みニューラルネットワーク(CNN)を用いて前記色画像およびマスク画像から第2の尤度スコアを決定する第2のスコア決定ステップと、前記第1の尤度スコアおよび第2の尤度スコアに基づいて、前記画像データの少なくとも一部分についてのクラスを決定する決定ステップと、を含む。
【選択図】図16

Description

本開示は、深層畳み込みニューラルネットワークによるレイヤベースの物体検出を使用する物体認識に関する。
(関連出願への相互参照)
本出願は、"AUGMENTING LAYER-BASED OBJECT DETECTION WITH DEEP CONVOLUTIONAL NEURAL NETWORKS"と題し、2016年2月19日に出願された米国特許出願第15/048
,757号の優先権を主張する。当該出願は、その全体が本明細書中に参照として組み込まれる。
今日、多くのコンピュータシステムおよびマシンが、様々な異なるアプリケーションのための人物認識技法に依存している。いくつかの例示的なアプリケーションでは、マシンおよびコンピュータシステムは、特定のプログラムをオン/オフまたはアクティブ化するために、特定の位置に人が存在するかどうか(または誰が存在するか)を知る必要がある。人物認識は、特に、人間とロボット間の相互作用において基本的な技術であることが多い。ロボットは一般的に、人間と対話するために、人間がどこにいるかを知る必要がある。
P.F.Felzenszwalb, R.B.Girshick, D.McAllester, D.Ramanan, "Object Detection with Discriminatively Trained Part Based Models",IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.32, No.9, pp. 1627-1645, 2010 T.LinderArras K.O., "People Detection, Tracking and Visualization using ROS on a Mobile Service Robot", Robot Operating System(ROS):The Complete Reference, Springer, 2016 A.Krizhevsky, I.Sutskever, G.Hinton, "ImageNet Classification with Deep Convolutional Neural Networks", Neural Information Processing(NIPS), 2012 R.Girshick, J.Donahue, T.Darrell, J.Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation", Computer Vision and Pattern Recognition, 2014 C.Couprie, C.Farabet, L.Najman, Y.LeCun, "Convolutional Nets and Watershed Cuts for Real-Time Semantic Labeling of RGBD Videos", Journal of Machine Learning Research, Vol.15(October), pp.3489-3511, 2014 S.Gupta, R.Girshick, P.Arbelaez, J.Malik, "Learning Rich Features from RGB-D Images for Object Detection and Segmentation", European Conference on Computer Vision, 2014 E.Martinson, "Detecting Occluded People for Robotic Guidance", Robots and Human Interactive Communication(RO-MAN), 2014 L.Spinello, K.Arras, R.Triebel, R.Siewart, "A Layered Approach to People Detection in 3D Range Data", Proc. of the AAAI Conf. on Artificial Intelligence:Physically Grounded AI Track, 2010 N.Kirchner, A.Alempijevic, A.Virgona, X.Dai, P.Ploger, R.Venkat, "A Robust People Detection. Tracking and Counting System", Australian Conf. on Robotics and Automation, 2014 L.SpinelloK.Arras, "People Detection in RGB-D Data", Int. Conf. on Intelligent Robots and Systems(IROS), 2011 M.Munaro, F.Basso, E.Menegatti, "Tracking people within groups with RGB-D data", International Conference on Intelligent Robots and Systems(IROS)2012, 2012 W.Choi, C.Pantofaru, S.Savarese, "Detecting and Tracking People using an RGB-D Camera via Multiple Detector Fusion", Workshop on Challenges and Opportunities in Robot Perception (in conjunction with ICCV-11), 2011
公共の場所で人物を検出することについて若干の進歩があった(非特許文献1および2参照)。しかし、家庭環境などの他の領域においては、特に困難な課題がある。
物体認識を改善するために開発された1つの解決策は、レイヤベースの分類/物体検出システムを使用して物体のクラスを識別することである。レイヤベースの分類は、セグメント化された距離画像を使用して、人物の2つ以上のクラスを区別する。しかしながら、距離画像を使用するレイヤベースの分類、特に、離れた角度(たとえば、45度)にある正方形の物体に近づくときの(ロボットなどの)移動物体検出システムに存在する1つのよくある誤りは、その物体が距離画像において曲がって見えることであり、人物と区別することが困難になる。移動物体検出システムにおいて、ロボットが普通でない角度で物体に近づくときに発生する誤分類は、ロボットの立ち往生を引き起こしうる。
物体認識を改善するために開発された別の解決策は、深層畳み込みニューラルネットワークを使用して物体や画像を分類することである。深層畳み込みニューラルネットワークを使用して物体や画像を分類することは、比較的最近の試みである。アルゴリズム自体は数十年前から存在するが、これらのアルゴリズムを大きいデータセット向けに最適化し、それらの速度および精度を向上することにおいて、重要な最近の研究が行われた。中でも注目すべきは、トロント大学においてKrizhevsky、Sutskever、およびHintonによって公
開された研究が、大きい物体認識の課題であるImageNetに対して良好に実行される、「AlexNet」と呼ばれる特定のネットワークアーキテクチャを明らかにしたことである(非特
許文献3)。
深層畳み込みニューラルネットワークは、RGB画像を利用して物体や画像を分類することが多い。深層畳み込みニューラルネットワークに対する最近の改善は、大きい物体画像の認識、ならびにトレーニングセットおよびノイズの許容値のサイズの増大において成功を示したが、深層畳み込みニューラルネットワークは重大な弱点を抱えている。
深層畳み込みニューラルネットワークは、単一の送信モダリティ(たとえば、RGB画像データ)に過度に依存するという点である。RGB内のセグメント化がはるかに困難かつ計算コストが高いだけでなく、分類器自体は、エッジおよびテクスチャに基づく決定境界、唯一でなく、または最良でさえない特徴、検知モダリティに依存する選択、および認識される物体を知ることを重要視する。
加えて、AlexNetは、しかしながら、色画像に限定されたときのセグメント化問題を解
決せず、グラフカットのような他のアルゴリズムが、物体境界ボックスを抽出するために使用され、次いで分類される(非特許文献4)。
この代替として、距離を組み込むことによって単一のモダリティ制限を乗り越える重要な取組みがあった(非特許文献5)。
Couprieらは、RGB分類より前に画像セグメント化用の距離画像に流域カットを適用
することによって、評価するべき境界ボックスの数を指数関数的に減少させた。また、Guptaらは、セグメント化および分類のステップに距離データを含めることで、さらに一歩
先を行く(非特許文献6)。
しかしながら、彼らの研究は、AlexNetとともに使用するための画像内のあらゆるピク
セルについて、地上高と引力方向との角度の両方を推定するために、カメラの方向付けの知識を必要とする。
人物検出の領域内に、RGBと距離情報の組合せを使用して特定の分類器を改善することに焦点を当てたマルチモーダル融合研究も存在する。階層人物検出(Layered person detection)および輪郭推定における前の研究によって実証されたように、人物は距離データのみにおいて検出することができ、ならびに、それらは、単眼カメラのデータ、色画像またはグレースケール画像のいずれかにおいて検出することができる(非特許文献7,8,9)。
しかし、2つのモダリティを使用することの利点は、距離ベースの認識についての障害点が、色ベースの認識についての障害点と同じではないことである。登録された色画像および距離画像を考えると、いくつかのシステムは、これら2つのモダリティの融合を利用するように開発されている。
SpinelloおよびArras(フライブルグ大学)によって公開された方法は、各領域内で同
様の分類器を適用することによって、これら2つのモダリティを融合するものである(非特許文献10)。
距離画像は、隣接ピクセルのグループに基づいて、対象の領域を最初に識別するために使用される。次いで、当初RGB画像内の物体認識用に開発され、色ベースの人物認識において広く使用される配向勾配ヒストグラムが、色画像内の対象の領域について計算される。次いで、第2の関連アルゴリズムである配向距離ヒストグラムが距離画像オブジェクトに適用され、結果として生じる複合ベクトルがサポートベクタマシンを使用して分類される。また、フライブルグより最近の研究は、ポイントクラウドライブラリとともに含まれる検出器を含む、他の公的に利用可能な検出器を融合する(非特許文献11)。
別の関連するRGB−D分類システムがミシガン大学によって公開され、それにより、動作の合図、肌の色、および検出された顔などのさらなるモダリティも複合分類システムに追加される(非特許文献12)。
これらの方法は両方とも、RGB領域と距離領域の両方からの分類器を使用するが、どちらも畳み込みニューラルネットワークが可能にすることができる精度の向上を利用しない。一番目の方法は、2つのまったく同様の分類器(HOG対HOD)を使用して領域間融合を処理するが、システムは、同じ決定境界を学習しており、その決定境界が識別することが困難である場合において失敗する。対照的に、二番目の方法は、異なる領域にまたがる様々な異なる検出器を利用する。しかしながら、畳み込みニューラルネットワークとは対照的に、大部分(たとえば、動作の合図、肌の色、および顔の検出)は、一般的な検出問題における非常に弱い分類器である。
したがって、畳み込みニューラルネットワークのプロセス時間の増加および計算の難度の高さを伴わずに、双方が距離画像を分類する際のエラーを低減する解決策が必要である。
本明細書に記載される主題の1つの発明的態様に係るシステムは、
画像データを受信する受信手段と、前記画像データから距離画像および色画像を抽出する抽出手段と、前記距離画像を複数の領域にセグメント化することによってマスク画像を作成するマスク手段と、階層型分類器を用いて前記距離画像およびマスク画像から第1の尤度スコアを決定する第1のスコア決定手段と、深層畳み込みニューラルネットワーク(CNN)を用いて前記色画像およびマスク画像から第2の尤度スコアを決定する第2のスコア決定手段と、前記第1の尤度スコアおよび第2の尤度スコアに基づいて、前記画像データの少なくとも一部分についてのクラスを決定する決定手段と、を有する。
一般に、本明細書に記載される主題の別の発明的態様に係る方法は、
画像データを受信する受信ステップと、前記画像データを複数の領域にセグメント化することによってマスク画像を作成するマスクステップと、階層型分類器を用いて前記画像データおよびマスク画像から第1の尤度スコアを決定する第1のスコア決定ステップと、深層畳み込みニューラルネットワーク(CNN)を用いて前記画像データおよびマスク画像から第2の尤度スコアを決定する第2のスコア決定ステップと、前記第1の尤度スコアおよび第2の尤度スコアに基づいて、前記画像データの少なくとも一部分についてのクラスを決定する決定ステップと、を含む。
他の態様は、上記その他の発明的態様のための対応する方法、システム、装置、およびコンピュータプログラム製品を含む。上記その他の実装形態は、各々、場合によっては、以下の特徴および/または動作のうちの1つまたは複数を含む場合がある。
たとえば、前記第2のスコア決定ステップは、前記画像データから第1の画像を抽出するステップと、前記マスク画像内の領域の前記第1の画像からピクセルをコピーすることによって物体画像を生成するステップと、前記深層CNNを用いて前記物体画像を分類するステップと、前記物体画像が前記深層CNNの異なる複数のクラスにそれぞれ属する確率を示す分類尤度スコアを生成するステップと、前記分類尤度スコアに基づいて前記第2の尤度スコアを生成するステップと、を含んでもよい。
また、前記第1の画像は、色画像、距離画像、色画像と距離画像の組合せ、のうちの1つであることを特徴としてもよい。
また、前記決定ステップでは、前記第1の尤度スコアおよび第2の尤度スコアを全体尤度スコアに融合し、前記全体尤度スコアが所定のしきい値を満たす場合に、前記全体尤度スコアを用いて、前記画像データの少なくとも一部分が人物を表すものとして分類を行うことを特徴としてもよい。
また、前記画像データから距離画像および色画像を抽出する抽出ステップをさらに含み、前記第1のスコア決定ステップでは、前記階層型分類器を用いて前記距離画像およびマスク画像から前記第1の尤度スコアを決定し、前記第2のスコア決定ステップでは、前記深層CNNを用いて前記色画像およびマスク画像から前記第2の尤度スコアを決定することを特徴としてもよい。
また、前記深層CNNが最終レイヤとしてソフトマックスレイヤを有し、前記画像データの少なくとも一部分が人物を表す前記第2の尤度スコアを生成することを特徴としてもよい。
また、前記第1の尤度スコアおよび第2の尤度スコアを第1の対数尤度値および第2の対数尤度値に変換する変換ステップと、前記第1の対数尤度値および第2の対数尤度値の加重合計を用いることにより複合尤度スコアを計算する計算ステップとをさらに含むことを特徴としてもよい。
また、前記クラスは人に対応するクラスであることを特徴としてもよい。
本開示において提示された新規の検出技術は、いくつかの点で特に有利である。たとえば、本明細書に記載される技術は、再現率を犠牲にすることなく、様々な環境にわたって様々なセンサの精度を向上することができる。個々の分類器が特に強力であると実証された領域内でも、階層型分類器と畳み込みニューラルネットワークの融合はパフォーマンス
を改善する。さらに、本明細書に記載される技術は、階層型分類器および畳み込みニューラルネットワークによって知らされる様々なタイプの決定境界(decision boundaries)を
使用することによって、精度を向上することができる。階層システムが画像データ内のピクセルのレイヤの幾何形状に焦点を当てる場合、ニューラルネットワークは、境界および輪郭を重要視する。さらに、開示される技術は、背景技術において説明された解決策と同様に、誤検出を発生させることなく、より広い様々な環境において精度および識別の向上を達成することができる。
本開示は、添付図面の図において限定ではなく例として示され、添付図面では、同様の構成要素を参照するために同様の参照番号が使用される。
本発明によれば、画像を分類する際のエラーを低減することができる。
画像オブジェクトを認識するための例示的なシステムのブロック図である。 例示的なコンピューティングデバイスのブロック図である。 例示的な検出モジュールのブロック図である。 画像オブジェクトを認識するための例示的な方法のフローチャートである。 画像オブジェクトを認識するためのさらなる例示的な方法のフローチャートである。 画像オブジェクトを認識するためのさらなる例示的な方法のフローチャートである。 人物ブロブを検出し、人物ブロブをレイヤでスライスし、レイヤを既存のユーザモデルと比較することで人物ブロブに関連付いた人物を認識するための例示的な方法の図である。 例示的な距離画像から抽出される例示的なブロブを描写する図である。 人物ブロブの複数のレイヤへの例示的なセグメント化を示す図である。 本明細書で開示される新規のレイヤベースの検出技術の様々な非限定的な利点を記載する表である。 距離画像から処理されたまっすぐに立った人物ブロブから抽出される例示的なレイヤを描写する図である。 2つの異なるタイプのセンサ間の例示的な比較を示すグラフである。 2つの異なるタイプのセンサ間の例示的な比較を示すグラフである。 本明細書に記載される新規の技術と別の代替技術との間のブロブレベルの比較を示すグラフである。 検出技術の例示的な適用例を示す図である。 センサによって取り込まれた例示的な画像の表現を描写する図である。 センサによって取り込まれた例示的な画像の表現を描写する図である。 センサによって取り込まれた例示的な画像の表現を描写する図である。 画像オブジェクトを認識するためのさらなる例示的な方法のフローチャートである。 画像オブジェクトを認識するためのさらなる例示的な方法のフローチャートである。 画像オブジェクトを認識するためのさらなる例示的な方法のフローチャートである。 ブロブをセグメント化し、分類し、スコアを生成するための例示的な方法の図である。 例示的な画像分類システムのブロック図である。 分類器の様々な組合せを使用した評価を示すグラフおよびデータの図である。 分類器の様々な組合せを使用した評価を示すグラフおよびデータの図である。 分類器の様々な組合せを使用した評価を示すグラフおよびデータの図である。 事前フィルタリングされた階層型分類器を使用する例示的な画像分類システムのブロック図である。 事前フィルタリングされた階層型分類器を使用する評価を示すグラフデータの図である。
本明細書に記載される検出技術は、距離画像、色画像などの画像データから、人物および人物以外の一意の物体を効率的かつ効果的に検出および認識することができる。例示的な実施形態では、本技術は、階層型分類器(Layered Classifier)および畳み込みニューラルネットワーク(CNN)分類器を使用して、距離画像と色画像の両方に関係する情報を単一の尤度スコアに融合させる。本技術は、物体(たとえば人物)の重要な部分(たとえば、人物の頭または肩)が遮蔽されているときでも、距離画像内でそれらの物体を認識することができるという利点を有する。遮蔽とは、本質的に、記録されているシーン内の物体の一部(たとえば、人体の一部分)が視界から(たとえば、カメラの視点から)ブロックされていることを意味する。遮蔽は、いくつかの要素によって引き起こされる場合がある。遮蔽は、例えば(1)人物の一部を視界からブロックするフレーム内の物体、(2)カメラの画像平面の縁部、および、(3)撮影時に発生する、照明、焦点、ノイズなどの、画像内の物体を見えないようにブロックまたは被覆する可能性がある他のアーティファクトによって引き起こされる場合があるが、これらに限られない。
非限定的な例では、本検出技術は、(レイヤとも呼ばれる)物体のセグメントを基準面(たとえば、凸形放物線および直線)と比較することによって、距離画像内の物体を認識するコンピュータ実装アルゴリズムを含む。本検出技術は、最小のパラメータが物体の2Dセグメントごとに推定されることを必要とする場合があり、物体の2Dセグメントから、物体から人物を分離するように分類器を迅速に学習させることができる。2Dスキャンを組み合わせると、認識精度が90%を超える結果になり得る。
本検出技術は、実際の環境において人物検出を探求すること、物体を運んでいる人物に認識を拡張すること、および、横たわるか屈んでいるなど、まっすぐに立っていないポーズにおける動作など、多くの領域において適用可能である。一般に、人間がインテリジェントコンピューティングデバイスと対話することを望むことは、あらゆる環境において検出を機能させることである。
図1は、物体を認識するための例示的なシステム100のブロック図である。図示されたように、システム100は、計算サーバ101、ならびに/または、(信号線118で示したように)ユーザ125によってアクセスおよび/もしくは対話され得る、検出システム103を含む。なお、実装形態に応じて、システムから計算サーバ101を除外してもよい。システムに計算サーバ101が含まれる実施形態では、検出システム103および計算サーバ101は、それぞれ信号線106および108を介して、ネットワーク105と通信可能に結合する。たとえば、検出システム103および計算サーバ101は、センサデータ、認識データなどのデータを交換するために、ネットワーク105を介して互いに通信可能に結合する。図1の信号線106および108は、1つまたは複数の有線接続および/またはワイヤレス接続の代表であり得る。さらなる例として、検出システム103は、処理用に計算サーバ101にセンサデータを送信することができ、計算サーバ101は、本明細書に記載されるようにデータを処理して物体を検出および認識し、認識さ
れた物体を記述するデータおよび/または結果を、動作中に検出システム103が使用するために、検出システム103に送ることができる。システムに計算サーバ101が含まれない実施形態では、検出システム103は、自律的に、または他の検出システム103(図示せず)と連携して動作して、物体を検出および認識することができる。たとえば、検出システム103は、本明細書において説明される計算を実行するために、他の同様の検出システム103とコンピュータネットワークを介してネットワーク接続されてもよい。
なお、図1では単一の検出システム103および計算サーバ101を示しているが、様々な異なるシステム環境およびシステム構成が可能であり、考察でき、本開示の範囲内であることを理解されたい。たとえば、いくつかの実施形態は、追加の、または、より少ないコンピューティングデバイス、サービス、および/またはネットワークを含む場合があり、他のコンピューティングデバイス上にローカルまたはリモートに様々な機能を実装する場合がある。さらに、様々なエンティティは、単一のコンピューティングデバイスもしくはシステムに統合されるか、または追加のコンピューティングデバイスもしくはシステムなどにわたって分散される場合がある。たとえば、検出モジュール135は、コンピューティングデバイスおよび/もしくはシステムの組合せにわたって、または1つのコンピューティングデバイスおよび/もしくはシステムの中に記憶され、それらによって実行可能であり、分散される場合がある。
ネットワーク105は、従来のタイプのネットワーク、有線ネットワーク、または無線ネットワークであってもよく、また、スター型、トークンリング型、または他の既知の構成を含む、任意の構成を取ることができる。さらに、ネットワーク105は、1つもしくは複数のローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)(たとえば、インターネット)、仮想プライベートネットワーク(VPN)、ピアツーピアネットワーク、近距離無線通信(たとえば、Bluetooth(登録商標))、セルラーネットワーク(たとえば、3G、4G、他の世代)、および/または、それを介して複数のコンピューティングノードが通信することができる任意の他の相互接続されたデータパスを含んでもよい。データは、たとえば、様々なインターネットレイヤ、トランスポートレイヤ、またはアプリケーションレイヤのプロトコルを含む、様々な異なる通信プロトコルを使用して、ネットワーク105のノード間で、暗号化または非暗号化された形態で送信されてもよい。たとえば、データは、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、伝送制御プロトコル(TCP)、ハイパーテキスト転送プロトコル(HTTP)、セキュアハイパーテキスト転送プロトコル(HTTPS)、動的適応ストリーミングオーバーHTTP(DASH)、リアルタイムストリーミングプロトコル(RTSP)、リアルタイム転送プロトコル(RTP)およびリアルタイム転送制御プロトコル(RTCP)、ボイスオーバーインターネットプロトコル(VOIP)、ファイル転送プロトコル(FTP)、ウェブソケット(WS)、ワイヤレスアクセスプロトコル(WAP)、様々なメッセージングプロトコル(SMS、MMS、XMS、IMAP、SMTP、POP、WebDAVなど)、または他の既知のプロトコルを使用して、ネットワークを介して送信されてもよい。
検出システム103は、環境内の物体の有意性を知覚、認識、および解釈して、アクションを実行することが可能な自律コンピューティングシステムの代表であってもよいし、またはそれに含まれたものであってもよい。たとえば、検出システム103は、車の内部の特定のドライバまたは同乗者を認識する能力を有するインテリジェントカーを代表するシステムであってもよく、その中に組み込まれたシステムであってもよい。さらなる例では、検出システム103は、人間および/もしくは他のロボットと協働して、様々なタスクを実行することができるソーシャルロボット、または人口が密集した環境内で動作する自律システムの代表であってもよく、またはその中に組み込まれたものであってもよい。
いくつかの実施形態では、検出システム103は、物体を検出および認識するための構成要素として、他のシステムに組み込まれる場合がある。たとえば、検出システム103は、ゲーミングシステム、テレビジョン、モバイルフォン、タブレット、ラップトップ、ワークステーション、サーバなどのクライアントデバイスの中に組み込まれたものであってもよい。たとえば、検出システム103は、ある特定の1人または複数の人物が特定の位置に存在するかどうかを判定するために、マシンまたはコンピュータシステムの中に組み込まれる場合があり、マシンまたはコンピュータシステムは、その特定の1人または複数の人物が特定の位置に存在する場合、特定のプログラムをオン/オフまたは実行する。
いくつかの実施形態では、検出システム103は、センサ155、プロセッサ195および検出モジュールのインスタンス135aを含む計算ユニット115、オブジェクトモデルのセット128を記憶する記憶装置197、ならびに/またはインターフェース175を含む。
図に示したように、センサ155は、信号線122を介して計算ユニット115に通信可能に結合される。記憶装置197は、信号線124を介して計算ユニット115に通信可能に結合される。インターフェース175は、信号線126を介して計算ユニット115に通信可能に結合される。
いくつかの実施形態では、検出モジュールのインスタンス135b、またはそれの様々な構成要素は、本明細書で説明するように、計算サーバ101に記憶され、実行可能である。検出モジュールのインスタンス135aおよび135bは、本明細書では個別に呼ばれるか、または総称して検出モジュール135と呼ばれる。
図1では、計算ユニット115、センサ155、記憶装置197、およびインターフェース175の各々の単一のインスタンスを示しているが、検出システム103は、任意の数の計算ユニット115、センサ155、記憶装置197、および/またはインターフェース175を含むことができる。さらに、構成に応じて、検出システム103は、オペレーティングシステム、プログラム、様々な追加センサ、モーター、ムーブメントアセンブリ、スピーカ、ディスプレイデバイスなどの入力/出力デバイス、ネットワーク105に通信可能に結合された他のデバイス(たとえば、計算サーバ101、他の検出システム103(図示せず)、任意の他の適切なシステム(図示せず))とのワイヤレス通信用のトランシーバユニットおよびアンテナなどの、図1に示されていない他の構成要素を含んでいてもよい。
センサ155は、周辺環境から光および他の信号を取り込み、距離データなどのセンサデータを生成および/または処理するように構成された、1つまたは複数のセンサを含む。たとえば、センサ155は、例えば、RGB−Dカメラ、立体カメラ、構造化光カメラ/スキャナ、飛行時間(Time of Flight)カメラ、干渉計、変調イメージャ、レーザー測距器、明視野カメラ、強化CCDカメラなどのレンジカメラを含む場合があるが、これらに限られない。例えば、超音波センサ、カラーカメラ、赤外線カメラなどの他のタイプのセンサが使用されてもよい。いくつかの実施形態では、センサ155および/または検出システム103は、加速度計、ジャイロスコープ、温度計、気圧計、熱電対、または他の従来の検知デバイスなどの、様々なタイプのセンサの組合せを含む。MESA ImagingによるSwiss Rangerセンサ、MicrosoftによるKinectセンサ、様々な立体視システムなどは、セ
ンサ155が含む場合があるカメラのさらなる非限定的な例である。センサ155は計算ユニット115の中に組み込まれていてもよい。また、ワイヤレス接続もしくは有線接続を介して計算ユニット115に結合される異種デバイスであってもよい。
様々な実施形態では、センサ155は、本明細書内の他の場所に記載されるように、センサ155によって取り込まれた物体に関連する距離を記述する距離データを生成し、処理用に、計算ユニット115および/または計算サーバ101に送信する。
計算ユニット115は、図2Aに示したコンピューティングデバイス200などの、任意のプロセッサベースのコンピューティングデバイスである。一実施形態では、計算ユニット115は、本明細書内の他の場所に記載されるように、センサ155からセンサデータを受信し、センサデータを処理し、処理に基づいてインターフェース175を介して提示用の結果を生成および/または供給し、処理に基づいて様々なプログラムをトリガし、処理に基づいて検出システム103または関連システムの挙動および/または運動を制御し、計算サーバ101と協働してセンサデータを処理するなどを行う。
いくつかの実施形態では、計算ユニット115は、処理されたセンサデータおよび/またはそこから処理された結果を記憶装置197に記憶させることができる。プロセッサ195および検出モジュール135については、図2A〜図19を参照して後ほど詳細に説明する。
インターフェース175は、ユーザ125と計算ユニット115との間の通信を処理するように構成されたデバイスである。たとえば、インターフェース175は、ユーザ125に検出情報を表示するための表示装置、ユーザ125に音声情報を出力するためのスピーカ、音声および/またはボイスコマンドを取り込むためのマイクロフォン、ならびに、ユーザ125との通信を容易にする任意の他の入力/出力構成要素のうちの1つまたは複数を含む。いくつかの実施形態では、インターフェース175は、計算ユニット115からユーザ125に出力を送信するように構成される。たとえば、インターフェース175は、計算ユニット115が、ユーザ125が近傍内にいることを検出した場合に、ユーザ125に音声の挨拶を再生するオーディオシステムを含む。インターフェース175は、本明細書に記載される機能を提供するための他のタイプのデバイスを含んでもよいことを理解されたい。
ユーザ125は人間のユーザである。一実施形態では、ユーザ125は、道路上の車両の中に座っているドライバまたは同乗者である。別の実施形態では、ユーザ125は、ロボットと対話する人間である。さらなる実施形態では、ユーザは、コンピューティングデバイスの従来のユーザである。ユーザ125は、計算ユニット115との間で様々なタイプのデータを送受信するインターフェース175と対話するか、または場合によっては、それに入力を供給し、かつ/もしくはそれから出力を受信する。
記憶装置197は、データを記憶する非一時的記憶媒体である。たとえば、記憶装置197は、ダイナミックランダムアクセスメモリ(DRAM)デバイス、スタティックランダムアクセスメモリ(SRAM)デバイス、フラッシュメモリ、ハードディスクドライブ、フロッピーディスクドライブ、ディスクベースのメモリデバイス(たとえば、CD、DVD、Blue−ray(登録商標)など)、フラッシュメモリデバイス、または他の何らかの既知の不揮発性記憶装置のうちの1つまたは複数を含む。記憶装置197は、検出システム103、または、検出システム103とは別個であるが、それに結合されるか、もしくはそれによってアクセス可能な別のコンピューティングデバイスおよび/もしくはストレージシステムに含まれていてもよい。いくつかの実施形態では、記憶装置197は、検出システム103および/または計算サーバ101によって動作可能なデータベース管理システム(DBMS)に関連するデータを記憶することができる。たとえば、DBMSは、構造化照会言語(SQL)のDBMS、非SQLのDBMSなどを含んでいてもよい。場合によっては、DBMSは、行と列から構成される多次元テーブルにデータを記憶し、プログラムに基づいた動作を使用して、データの行を操作、すなわち、挿入、照会、更新、および/または削除することができる。
計算サーバ101は、検出システム103が物体を検出および認識することを容易にするための、プロセッサ(図示せず)と、コンピュータ可読記憶媒体(たとえばメモリ。図
示せず)を有する、任意のコンピューティングデバイスである。いくつかの実施形態では、計算サーバ101は、検出モジュールのインスタンス135bを含む。ネットワークベースの実施形態では、計算サーバ101は、検出システム103からセンサデータ(たとえば距離データ)を受信し、センサデータを処理したうえで、任意の処理結果を検出システム103に送る。
図2Aは、検出モジュール135と、プロセッサ195と、メモリ237と、通信ユニット245と、センサ155と、記憶装置197とを含む、本実施形態に係るコンピューティングデバイス200のブロック図である。コンピューティングデバイス200の構成要素は、バス220によって通信可能に結合される。いくつかの実施形態では、コンピューティングデバイス200は、検出システム103および/または計算サーバ101のアーキテクチャの代表である。
メモリ237は、データを記憶し、コンピューティングデバイス200の他の構成要素にデータへのアクセスを提供する手段である。いくつかの実装形態では、メモリ237は、プロセッサ195によって実行され得る命令および/またはデータを記憶する。たとえば、メモリ237は、検出モジュール135および/またはその構成要素を記憶する。メモリ237はまた、たとえば、オペレーティングシステム、ハードウェアドライバ、他のソフトウェアアプリケーション、データベースなどを含む、他の命令およびデータを記憶してもよい。メモリ237は、プロセッサ195およびコンピューティングデバイス200の他の構成要素との通信のために、バス220に結合する。
メモリ237は、プロセッサ195によって処理される、または関連した命令、データ、コンピュータプログラム、ソフトウェア、コード、ルーチンなどを、含有、記憶、通信、伝搬、または搬送することができる装置またはデバイスを含むことができる、1つまたは複数の非一時的コンピュータ使用可能(たとえば、読取り可能、書込み可能などの)媒体である。いくつかの実装形態では、メモリ237は、揮発性メモリおよび不揮発性メモリのうちの1つまたは複数を含む。たとえば、メモリ237は、限定はしないが、ダイナミックランダムアクセスメモリ(DRAM)デバイス、スタティックランダムアクセスメモリ(SRAM)デバイス、ディスクリートメモリデバイス(たとえば、PROM、FPROM、ROM)、ハードディスクドライブ、光ディスクドライブ(CD、DVD、Blue−ray(登録商標)など)のうちの1つまたは複数を含む。メモリ237は単一のデバイスであり得るか、または複数のタイプのデバイスおよび構成を含んでもよいことを理解されたい。
通信ユニット245は、通信ユニット245がワイヤレス接続および/または有線接続を使用して通信可能に結合された他のコンピューティングデバイスにデータを送信し、それらからデータを受信する手段である。通信ユニット245は、データを送受信するための1つまたは複数の有線インターフェースおよび/またはワイヤレストランシーバを含む。また、通信ユニット245は、ネットワーク105に結合し、(構成に応じて)検出システム103および/または計算サーバ101などの他のコンピューティングノードと通信する。通信ユニット245は、ネットワーク105に関して上記で説明された通信方法などの標準の通信方法を使用して、他のコンピューティングノードとデータを交換することができる。
検出モジュール135は、センサデータを受信するためにセンサ155に結合することができる。いくつかの実施形態では、センサ155から受信されるセンサデータは、距離画像を表す距離データ、色画像を表すデータ、他のタイプの画像を表す画像データを含んでいてもよい。画像データは、1つまたは複数の物体を含むシーンを描写する画像である。物体は、生物または非生物、生命体または非生命体などである。例示的な物体として、
人間、動物、家具、備品、車、器具などが挙げられるが、これらに限られない。検出モジュール135は、物体に関連付けられたブロブを抽出し、ブロブをレイヤにセグメント化し、尤度を生成し、レイヤおよび尤度を用いてブロブに関連付けられた物体を分類することなどによって、物体を効率的に認識することができる。
なお、本明細書では、画像中に存在する各物体に対応する塊(すなわち、タイプが特定される前の物体)をブロブ(Blob)と称する。
様々な実施形態では、検出モジュール135は、画像データから得られる距離データから1つまたは複数の物体を表す、1つまたは複数のブロブを抽出し、人物および非人物の物体を記述するものとしてブロブを分類する。また、ブロブをレイヤにセグメント化し、各ブロブのレイヤを、オブジェクトモデルのセットと比較して、ブロブに関連付けられた物体の識別情報を決定する(たとえば、人物ブロブに関連付けられた特定の個人を認識する)。さらなる実施形態では、検出モジュール135は、さらに、画像データから色画像(たとえば、RGB画像)を抽出し、深層畳み込みニューラルネットワークを使用して色画像内のエッジおよび境界を決定し、エッジおよび境界を使用して色画像内のブロブを決定し、色画像に対応する尤度である分類スコアを生成する。ブロブは人物、またはいくつかの実施形態では特定の個人でありうる。本明細書内のさらに他の場所で説明されるように、多数のさらなる動作も可能である。
図2Bにおいて例示的な検出モジュール135として示されたように、検出モジュール135は、画像プロセッサ202と、レイヤセグメント化モジュール206と、階層型分類器モジュール210とCNNモジュール212の両方を含む分類モジュール208と、融合モジュール214とを含みうるが、検出モジュール135は、登録モジュール、トレーニングモジュールなどの追加の構成要素を含んでいてもよく、かつ/または、様々な構成要素が単一のモジュールに組み合わされるか、もしくはさらなるモジュールに分割されてもよいことを理解されたい。
画像プロセッサ202、レイヤセグメント化モジュール206、および/または分類モジュール208は、ソフトウェア、ハードウェア、または上記の組合せとして実装することができる。いくつかの実装形態では、画像プロセッサ202、レイヤセグメント化モジュール206、および/または分類モジュール208は、バス220および/またはプロセッサ195により、互いに、かつ/またはコンピューティングデバイス200の他の構成要素と通信可能に結合することができる。いくつかの実装形態では、構成要素135、202、206、および/または208のうちの1つまたは複数は、それらの機能を実現するためにプロセッサ195によって実行可能な命令のセットである。さらなる実装形態では、構成要素135、202、206、および/または208のうちの1つまたは複数は、メモリ237に記憶され、それらの機能を実現するためにプロセッサ195によってアクセス可能かつ実行可能である。上記の実装形態のいずれにおいても、これらの構成要素135、202、206、および/または208は、プロセッサ195およびコンピューティングデバイス200の他の構成要素との協働および通信に適合することができる。
画像プロセッサ202は、センサデータを受信するためにセンサ155に通信可能に結合することができ、センサデータを処理して距離データおよび色データなどの画像データを抽出することができる。いくつかの実施形態では、画像プロセッサ202は、画像によって描写される物体のブロブを抽出する。いくつかの実施形態では、センサデータは、基準点に対する物体の位置を記述する距離画像データである。たとえば、センサ155は、センサ155によって取り込まれた物体を含む距離画像を記述する多次元(たとえば、3D)データを生成する多次元深度センサを含む。いくつかの実施形態では、センサデータは、RGB画像などの画像内の様々なピクセルの色を表す色データを含む。色画像データは、画像内の物体を形成するピクセルについてのRGB値を含む。場合によっては、距離
画像データは、トリプレットまたは空間座標のアレイの形態の多次元(たとえば、3D)深度ポイントクラウドなどの、物体に関連付けられた位置情報を含んでもよい。また、場合によっては、距離画像データは、そのX座標とY座標を表す各ピクセルの列番号と行番号、ならびにそのZ座標を表すピクセルの値を含んでいてもよい。
画像プロセッサ202は、センサ155によって取り込まれた距離画像を表す距離画像データを用いて、距離画像に含まれる個別の物体を特定する。距離画像を使用すると、物体のセグメント化を簡略化することをはじめとする様々な利点が得られる。距離画像内で、物体は、しばしば、それらの相対距離により画像内で互いに分離することができる。たとえば、(センサ155の位置などの所与の基準点から測定された)同じ相対距離を有する2つの隣接するピクセルは、同じ物体に属する可能性があるが、基準点に対してかなり異なる距離を有する2つのピクセルは、画像内の異なる物体に属する可能性がある。これは、独立して立っている物体を互いからより容易に区別することに役立つ。
図6は、例示的な距離画像602から抽出される例示的な物体ブロブ600の例である。具体的には、距離画像602は、フレームの中央部分にいる男性を描写し、別の人物がフレームの左にあるテーブルに身を乗り出し、フレームの右部分には椅子がある。画像プロセッサ202は、距離画像を表すデータを処理して、テーブルを表すブロブ604、テーブルに身を乗り出す人物を表すブロブ606a、中央フレームにいる人物を表すブロブ606b、および椅子を表すブロブ608などの、物体を表すブロブを抽出する。
いくつかの実施形態では、距離画像からブロブを抽出するために、画像プロセッサ202は、距離画像内のピクセルに関連付けられた距離データを使用してそれらのピクセルについての位置を推定し、対応する距離を有する隣接/接続ピクセルに塗りつぶしアルゴリズムを適用して、ピクセルによって形成される物体用のブロブを決定する。いくつかの実施形態では、画像プロセッサ202は、位置データを推定するより前に、ピクセルに関連付けられたいずれの距離データも持たない距離画像内の任意のピクセルを除去して、必要な処理量を低減することができる。追加または代替として、ブロブを決定した後、画像プロセッサ202は、ある特定のサイズ(たとえば、500ピクセル)よりも小さいブロブを除去して、重要ではない可能性があるブロブの処理を軽減することができる。
いくつかのさらなるブロブ抽出の実施形態では、カメラ(たとえば、センサ155)の焦点距離および距離画像を使用して、画像プロセッサ202は、(たとえば、フィート、メートルなどで測定された)Z座標、X座標、およびY座標を抽出することができる。次いで、画像プロセッサ202は、距離画像をフィルタリングすることができる。詳細には、画像プロセッサ202は、距離情報を有し、ある特定の範囲(たとえば、0.5〜6.0メートル)に入らないすべてのピクセルを削除することができる。基準点(たとえば、床に平行なカメラが取り付けられた平坦面)を仮定すると、画像プロセッサ202は、以下の式を使用して各ピクセルのX座標とY座標を推定することができる。
Figure 2017146957
ここで、focal_lengthはカメラの焦点距離である。次いで、画像プロセッサ202は、いくつかのピクセルのX、Y位置に基づいてそれらを削除することができる。
次いで、画像プロセッサ202は、距離画像に含まれる、ある特定の距離しきい値(たとえば5cm)以内にある連続したピクセルに塗りつぶしアルゴリズムを適用して、距離
画像内の1つまたは複数の物体を表すブロブを生成する。画像プロセッサ202は、ある特定のサイズ(たとえば、500ピクセル)よりも小さいブロブを削除してもよい。次いで、残りのブロブは、本明細書においてさらに詳細に説明されるように、分析(たとえば、分類、レイヤにセグメント化、およびオブジェクトモデルと照合)することができる。
いくつかの実施形態では、画像プロセッサ202は、ブロブの形状に基づいてブロブを事前に分類して、最終的にセグメント化および分類される必要があるブロブの数を低減することができる。これにより、いくつかのタイプのブロブが処理される必要がない可能性があるときの処理時間が低減され得る。たとえば、場合によっては、人物ブロブのみが検出モジュール135によって認識される必要がある場合があり、画像プロセッサ202は、人物でない物体に関連付けられたいずれのブロブも取り除くことができる。また、画像プロセッサ202は、物体ブロブの全体形状に基づいて物体を事前に分類することができる。たとえば、人物ブロブは、一般に、頭と肩の領域、脚領域、腕領域、胴領域などの、人物でないブロブから区別するいくつかの人間固有の特徴を有する。画像プロセッサ202は、ブロブを分析して、それらの輪郭/形状がこれらの人間の特徴のうちの1つまたは複数を含むかどうか判定し、そうである場合、それらを人間に対応する物体タイプとして分類することができる。
レイヤセグメント化モジュール206は、センサデータから検出された1つまたは複数のブロブを記述するデータを受信するために、画像プロセッサ202、メモリ237、通信ユニット245、または他の構成要素に結合される。また、各ブロブを複数のレイヤにセグメント化し、各レイヤに関連付けられた1つまたは複数の特性を計算し、データのマスク画像を生成して分類モジュール208に供給する。
マスク画像は、セグメント内の様々なピクセルが一緒にグループ化され(たとえば、ブロブ)、ラベル付けされたデータである。
ある特定の人物などの特定の物体は、レイヤの集合(たとえば、水平スライス)によって一意に表すことができる。レイヤセグメント化モジュール206によって実行されるセグメント化は、本明細書では、様々な場所においてスライシングまたは変換とも呼ばれる。レイヤのセットは、ブロブの片側から別の側に延在する一連の連続セグメントであり得る。レイヤのセットは、ブロブの様々な部分のサンプリングを表すことができる。これにより、ブロブ全体を処理しないことによって計算効率を上げながら、非常に正確な認識率を維持するという利点が得られる。いくつかの実施形態では、セグメントは実質的に平行であり、あらかじめ決められた厚さを有する。セグメント間の間隔は、実施形態に応じて、実際は均一、不均一、またはランダムであってもよい。いくつかの実施形態では、レイヤは水平レイヤである。他の実施形態では、レイヤは垂直レイヤまたは対角レイヤである。また、レイヤは実質的に平坦であるように描写されているが、平坦でないレイヤを使用してもよいことを理解されたい。
さらなる例として、ブロブが人物である場合、レイヤセグメント化モジュール206は、最も関連すると推定される位置においてブロブをセグメント化することができる。たとえば、人物ブロブは、図7に示したように、かつ下記でより詳細に説明されるように、様々な目立つ身体の部分に対応する位置においてセグメント化することができる。レイヤセグメント化モジュール206は、場合によっては、ある特定の最小長(たとえば、長さ5ピクセル)を満たさない長さを有するレイヤを除去し、残りのレイヤ/セグメントの各々を処理してそのレイヤについての幾何特性を決定してもよい。いくつかの実施形態では、レイヤセグメント化モジュール206は、画像プロセッサ202によって事前分類された物体タイプに、適用されるセグメント化方式の基礎を置くことができる。物体タイプは、画像プロセッサ202、メモリ237、通信ユニット245、または別の構成要素から受信することができる。
図7は、人物ブロブ700の、複数のレイヤ701への例示的なセグメント化を示す図である。いくつかの実施形態では、レイヤセグメント化モジュール206は、目立つ身体部分に対応する複数の領域に人物ブロブ700をセグメント化することができる。たとえば、レイヤセグメント化モジュール206によって決定されるレイヤのセット701は、頭レイヤ702、顔レイヤ704、首レイヤ706、胸レイヤ708、腕レイヤ710、腹レイヤ712、骨盤レイヤ714、腿レイヤ716、膝レイヤ718、および足レイヤ720のうちの1つまたは複数を含む。レイヤ702〜720の各々について、レイヤセグメント化モジュール206は、1つまたは複数の特性を決定することができる。いくつかの実施形態では、特性は、本明細書内の他の場所に記載されるように、レイヤに関連付けられたサイズ、曲率、曲線適合、形状適合などとして記述することができる。
人が暮らす人工の環境は、都市の内部であれ外部であれ、人物よりもさらに多くの平坦な表面、または少なくともさらに少ない曲線状の表面を含む。対照的に、人物は、一般に、全体にわたって曲線状である。たとえば、人物の頭、腕、脚、胸などは、一般に、すべてがそれらに対するいくらかの曲率を有する。結果として、人物の一部分のみが見える場合であっても、その部分はいくらかの曲率を有する可能性がある。したがって、レイヤセグメント化モジュール206は、所与のブロブからモジュール自体によってセグメント化されたレイヤを処理して、それらの一意の曲率特性を決定することができ、次いで、当該曲率特性は分類モジュール208によりブロブを識別するために使用される。場合によっては、わずか6つの特性により、近距離にあるブロブに関連付けられた曲率を正確に特徴付けることができる。
いくつかの実施形態では、レイヤセグメント化モジュール206は、X座標およびZ座標においてレイヤに関連付けられたデータポイントに直線および放物線を適合させることによって、レイヤ曲率を決定することができる。図9は、距離画像から処理された、まっすぐに立った人物ブロブ902から抽出されたレイヤの例である。図示されたように、それぞれ、頭スライスグラフ900および胴スライスグラフ904の中の放物線903および905は、かなりの曲率を示す。頭スライスグラフ900および胴スライスグラフ904とは異なり、かかと(図示せず)に関連付けられたブロブから取られたレイヤに基づくかかとスライスグラフ906は、実際は実質的に平坦であり、直線により密接に適合する放物線907を含む。いくつかの実装形態では、レイヤセグメント化モジュール206は、倍精度浮動小数点に拡張されたポリフィットアルゴリズムを使用して、データを記述する最良線(L)および放物線(P)の式を見つけることができるが、他の適切な多項式適合アルゴリズムも使用することができる。
次いで、レイヤセグメント化モジュール206は、各レイヤに関連付けられたLおよびPの式を使用して、そのレイヤに関連付けられた幾何特性のセットを決定する。いくつかの実施形態では、幾何特性のセットは、以下の構成要素を含む6次元ベクトルとして表される。
1.凹面の測定値としてのセグメントの中央での直線距離マイナス中央の放物線距離L(xμ)−P(xμ)である、Δc
2.適合された線形方程式の2乗平均誤差である、RMSE
3.適合された線形方程式の標準偏差である、σ
4.適合された放物線方程式の2乗平均誤差である、RMSE
5.適合された放物線方程式の標準偏差である、σ
6.曲率の推定値である、k
分類モジュール208は、いくつかの実施形態では、階層型分類器モジュール210および/またはCNNモジュール212を含む。分類モジュール208は、レイヤのセットに基づいて、距離画像内の物体を一意に識別することができる。いくつかの実施形態では
、分類モジュール208は、各物体に関連付けられたレイヤを記憶されたオブジェクトモデルのセットと比較して、一致を判定する。たとえば、一致するオブジェクトモデルを特定するために、分類モジュール208は、レイヤの幾何特性をモデルの各々と比較する。さらなる例として、ブロブの1つまたは複数の水平スライスに関連付けられた1つまたは複数の曲率を使用して、分類モジュール208は、どの人物または他の物体にブロブが対応するかを特定する。前の情報から編集されたモデルの例示的なタイプには、限定はしないが、画像ギャラリー、ガウス型混合モデル、隠れマルコフモデル、およびサポートベクトルマシンが含まれる。
いくつかの実施形態では、分類モジュール208は、記憶装置197に記憶されたオブジェクトモデル128ごとに、セットのすべてのレイヤの出力を表す複合値を計算することができる。複合値は、検出された人物がそのオブジェクトモデルに属する尤度を表す。複合値は、特定の個人または物体を識別するために使用される認識スコアを表す。
分類モジュール208は、所与の距離画像に関連付けられたセグメント化されたレイヤのセット、およびレイヤの各々に関連付けられた幾何特性を受信するために、レイヤセグメント化モジュール206、メモリ237、通信ユニット245、および/または他の構成要素に結合される。分類モジュール208は、オブジェクトモデル128を取り出すために、記憶装置197に結合される。オブジェクトモデル128は、学習、登録、および/または場合によっては事前決定され、検出モジュール135によって検出可能および認識可能な物体を表すことができる。オブジェクトモデルは、たとえば、ユーザ、管理者などの適用可能な利害関係者によって手動で入力される場合があり、かつ/または、確率的グラフィカルモデル(たとえば、ガウス型混合モデル)などの様々な機械学習技法を使用して、機械学習されてもよい。いくつかの実施形態では、様々な数の混合物(たとえば、50以上)を有するガウス型混合モデル(GMM)は、様々な距離画像から手動で分類された物体を使用して学習することができる。
階層型分類器とは、画像内に存在する複数のセグメントのそれぞれについて尤度スコアを求めるための分類器である。
階層型分類器モジュール210は、分類モジュール208に関して上述された動作または機能のうちの多くを実行するモジュールである。具体的には、階層型分類器モジュール210は、距離画像およびマスク画像などの画像データを受信し、画像内のセグメント化された物体ごとに尤度スコアを決定する。図15は、階層型分類器モジュール210を使用して尤度スコアを決定するプロセス1500の例である。ステップ1502において、図7を参照して説明したレイヤセグメント化モジュール206により、画像データがセグメント化される。各セグメント1508は、レイヤセグメント化モジュール206を参照して説明したように計算される、複数(たとえば、6つ)の幾何次元ベクトルを有する場合がある。また、ステップ1504において、階層型分類器モジュール210は、セグメント内で提供される情報を使用して、人物GMMまたは非人物GMMとして各セグメントを分類する。また、ステップ1506において、階層型分類器モジュール210は、セグメントごとに人物(P)および非人物(I)についての対数尤度スコアを合計して、距離画像の一部分についての尤度スコアを生成する。
CNNモジュール212は、画像プロセッサから、色画像および/または距離画像などの画像データを受信する。色画像は、RGB色ベース、CMYK色ベース、または画像プロセッサによって実行される他の適切なタイプの画像であってもよい。CNNモジュール212はまた、レイヤセグメント化モジュール206用のマスク画像も受信することができる。マスク画像は、セグメント内の様々なピクセルグループ(ブロブ)を含む。CNNモジュール212は、色画像、距離画像、両方の画像の組合せ、または別の適切な画像タイプ(マスク画像のピクセルグループ領域(部分領域)に対応する位置を有するコピーさ
れたピクセル)からピクセルをコピーすることによって、個別の画像または色画像の修正バージョンなどの画像を構築することができる。
CNNモジュール212は、いくつかの実施形態では、深層CNNネットワークを使用する。深層CNNネットワークの典型的な例は、Krizheveskyによって最初に開発されたAlexNetであるがこれに限られない。CNNモジュール212は、限定はしないが、Caffe
などの深層学習アーキテクチャを使用して、将来の処理のためにニューラルネットワークを学習および評価することができる。
いくつかの実施形態では、CNNモジュール212は、畳み込みレイヤ、プーリングレイヤ、および完全接続レイヤを含む、ネットワークアーキテクチャを有する。限定はしないが、たとえば、CNNは、5つの畳み込みレイヤ、3つのプーリングレイヤ、および3つの完全接続レイヤを含む。
いくつかの実施形態では、レイヤは、ある特定の結果を生み出すように最適化される。CNNモジュール212は、(本明細書で説明された構築画像などの)画像またはその部分が人物を描写するかどうかの尤度を生成するように構成される場合がある。さらなる例として、CNNモジュール212内の畳み込みニューラルネットワークの最終レイヤは、物体が人物を表す尤度を生成するように構成されたある特定のレイヤタイプを備えることができる。これの1つの非限定的な例は、分類されている構築画像が人物画像である尤度をAlexNet分類器が生成することを可能にする、ソフトマックスレイヤである。
CNNモジュール212は、画像データベース内の多数の異なるカテゴリの物体を分類することができる。たとえば、非限定的な実施形態では、AlexNetは、ImageNetデータベ
ース内の1000個の異なるカテゴリの物体を分類するように設計される場合がある。他の適切なおよび/または互換性があるニューラルネットワークアーキテクチャがCNNモジュール212によって実装される場合があることを理解されたい。
融合モジュール214は、階層型分類器モジュール210およびCNNモジュール212から尤度スコアを受信し、2つの異なる分類を使用して全体尤度スコアを計算する。融合モジュール214によって実行されるスコアレベルの融合の例示的な一実施形態は、人物を検出するためのバイナリ分類器を含む。スコアレベルの融合方法は、たとえば、尤度を対数尤度に変換し、加重合計を使用して全体尤度スコアを計算する。
obj=kobj+KCNNCNNobj
対数尤度の合計は、2つのスコアを合算する1つの可能な方法であり、対数尤度の合計の他に全体尤度スコアを計算する他の変形形態も可能である。
場合によっては、検出モジュール135は、検出モジュール135とともに新しい物体を登録および/または学習するための登録モジュールおよび/またはトレーニングモジュール(図示せず)を含んでもよい。登録の間、登録モジュールは、物体の1つまたは複数の距離画像を取り込むことができ、トレーニングモジュールは、たとえば、物体の曲率を含む、物体の様々な特徴を記述するオブジェクトモデルを生成または更新することができる。物体を登録するユーザは、物体用の一意の名称(たとえば、人物の名前)を入力すること、物体を分類すること、物体についての属性(たとえば、サイズ、重さ、色など)を入力することなどの、関連するユーザインターフェースを介して、物体について自動的に決定される情報(たとえば、曲率情報)を入力および/または調整することによって、オブジェクトモデルを最適化することができる。場合によっては、オブジェクトモデルは、最新の信頼できるモデルにより定期的に更新することができる。たとえば、検出システム103および/またはユーザは、新しいオブジェクトモデルを計算サーバにアップロード
することができ、計算サーバは、ネットワーク105に結合された様々な他の検出システム103が使用するために、それらにモデルを送ることができる。
ガウス型混合モデルを利用して所与のブロブを分類する実施形態では、分類モジュール208は、以下の式を使用して、あらかじめ決められたガウス型混合人物モデルMに属するベクトルの尤度を決定することができる。
Figure 2017146957
所与のオブジェクトモデルOMに属する新しいセグメントvの対数尤度は、以下の式によって決定することができる。
Figure 2017146957
ここで、オブジェクトモデルOMは、1つまたは複数の一般または特定の人物を表すことができる。
各々がそれ自体の尤度を有する、オブジェクトシーケンスS内のN個のセグメントを仮定すると、分類モジュール208は、対数尤度を合計し、あらかじめ決められたしきい値を適用することによって、ブロブ/物体を分類することができる。最大累積スコアは、レイヤのセット/シーケンスが所与のオブジェクトモデルに対応するか否かの信頼できるインジケータであり得る。たとえば、物体がモデルに一致する有効最小尤度として検証されたあらかじめ決められたしきい値をスコアが満たす(たとえば、それよりも大きい)場合、物体が人物に対応するものとして分類することができる。これは、誤って分類されたセグメントが集まって正しい分類に悪影響を及ぼす可能性がある場合の助けになる。たとえば、人物ブロブは、地面に平行に伸ばされた腕、ドレス、および/または、それが実際に対応する特定のオブジェクトモデルに物体が関連付けられる尤度スコアを落とすように否定的に集まる可能性がある物体に関連付けられたレイヤを含む場合がある。場合によっては、そのようなレイヤの否定的な集まりの後に所与のブロブが終了する場合、物体クラウドは、潜在的に分類モジュール208によって誤って分類される可能性があり、その場合、分類モジュール208は、対数尤度スコアの累積和を考慮することができる。
本明細書で説明された新規のレイヤベースの手法の1つの重要な利点は、遮蔽に対して耐性があることである。たとえば、距離画像内で物体の一部分のみが見え、結果として、いくつかのレイヤをブロブから(たとえば、物体の上、下、右、左、および/または中央から)抽出することができず、欠落する場合でも、物体(たとえば、人物)は、レイヤの集合/セットとしてその対応するオブジェクトモデルにおいてモデル化されるので、多くの場合、分類モジュール208によってまだ認識することができる。
たとえば、人物を認識するの場合、画像をモデルと位置合わせするために他の顔および頭の認識手法によって通常必要とされる、眼、鼻、または頭の上部は、分類モジュール208が人物を正確に認識するために距離画像内で見える必要はない。他の手法に比べて本明細書に記載されたレイヤベースの認識手法のさらなる利点は、図8の表800において要約されている。
図3は、画像オブジェクトを検出および認識するための例示的な方法300のフローチャートである。
ステップ302において、画像プロセッサ202が距離画像を決定する。いくつかの実施形態では、画像プロセッサ202は、センサ155(たとえば、立体カメラ、構造化光
カメラ、飛行時間カメラなど)から距離画像を受信することによって、距離画像を決定することができる。
ステップ304において、画像プロセッサ202が距離画像内の物体ブロブを検出する。
ステップ306において、レイヤセグメント化モジュール206が物体ブロブをレイヤのセットにセグメント化する。
ステップ308において、分類モジュール208が、物体ブロブに関連付けられたレイヤのセットを、オブジェクトモデルのセットと比較して一致を判定する。
いくつかの実施形態では、レイヤのセットを決定することに関連して、レイヤセグメント化モジュール206は、レイヤのセットに関連付けられた曲率を決定し、分類モジュール208は、レイヤのセットをオブジェクトモデルと比較して一致を判定する際に、オブジェクトモデルを使用して曲率を評価する。
さらに、いくつかの実施形態では、分類モジュール208は、オブジェクトモデルの各々に属するものとして物体ブロブの尤度を決定することによって、レイヤのセットをオブジェクトモデルのセットと比較し、尤度に基づいて物体ブロブが特定のオブジェクトモデルに一致すると判定する。
次に、ステップ310において、分類モジュール208が、一致結果に基づいて物体ブロブに関連付けられた物体を認識する。たとえば、分類モジュール208は、(たとえば、一致するオブジェクトモデル128に関連して記憶された、物体についての識別情報を記憶装置197から受信することによって)物体の識別情報を決定する。物体を識別することに応答して、検出モジュール135は、物体に関連する情報の取出しや、物体と対話する(たとえば、ユーザの名前を使用してユーザに挨拶する)ための1つまたは複数の出力デバイス(たとえば、ディスプレイ、スピーカ、センサ、モーチベータなど)の制御、物体(たとえば、特定の人物/ユーザ)に関連するアカウント情報の引出しなどの、物体の識別情報に基づく動作を実行するプログラムの動作をトリガすることができる。
図4Aおよび図4Bは、画像オブジェクトを検出および認識するためのさらなる例示的な方法400のフローチャートである。
ステップ402において、画像プロセッサ202が、センサ155から距離画像を抽出し、次いで、ステップ404において、距離画像から1つまたは複数のブロブを抽出する。場合によっては、画像プロセッサ202は、抽出されたブロブを人間/人物または他の物体タイプ(たとえば、動物、家具、車両など)に分類することができる。たとえば、画像プロセッサ202は、距離画像によって描写された複数の物体に関連付けられた複数のブロブを検出することができ、ステップ406において示されたように、ブロブの形状に基づいて、人物または他のタイプの物体としてそれらのブロブの各々を分類することができる。いくつかの実施形態では、所与のブロブが1つまたは複数のブロブタイプの要件を満たすタイプに分類されない場合、画像プロセッサ202は、そのブロブをさらなる処理(たとえば、レイヤ抽出、ブロブ認識など)から除くことができる。たとえば、ステップ408において示されたように、ブロブのうちのいずれも人物に該当しない場合、方法は、最初に戻り、人物ブロブが見つかるまで繰り返すようにしてもよい。他の実施形態では、方法400は、ステップ406および408における分類動作およびフィルタリング動作を省略することができる。
次に、ステップ409において、レイヤセグメント化モジュール206が、画像プロセッサ202によって供給されたブロブごとに、当該ブロブをレイヤのセットに変換し、セットのレイヤごとに1つまたは複数の幾何特性を抽出する(ステップ410)。
次いで、ステップ412において、分類モジュール208が、レイヤのセットに含まれる各レイヤに関連付けられた1つまたは複数の幾何特性を、記憶装置197からの1つま
たは複数のオブジェクトモデルと比較する。本明細書内の他の場所で説明されたように、1つまたは複数の幾何特性は、そのレイヤのサイズ、曲率、曲線適合、および形状適合のうちの1つまたは複数を反映することができる。たとえば、1つまたは複数の幾何特性は、本明細書内の他の場所で説明されたように、レイヤ曲率に関連する特徴を含んでいる多次元ベクトル(たとえば、6D)を含む。
いくつかの実施形態では、方法400は、分類モジュール208により、オブジェクトモデルごとに、レイヤのセットの各レイヤについて認識スコアを計算するステップ(ステップ414)、および、レイヤ認識スコアを集約すること(たとえば、合計すること)によって、ブロブがオブジェクトモデルに属する尤度(たとえば、値)を決定するステップ(ステップ416)に進むことができる。
方法は、ステップ418において示されたように、各ブロブのレイヤのセットを比較して最良の一致を見つけるステップに進むことができる。例えば、尤度値のすべてに基づいて、分類モジュール208は、ブロブが属するオブジェクトモデルを特定することによってブロブを認識することができる。
たとえば、物体ブロブは、人物ブロブとして分類される場合があり、分類モジュール208は、一致するオブジェクトモデルに基づいて人物ブロブに関連付けられた人物を認識することができる。場合によっては、最も高い尤度に関連付けられたオブジェクトモデルを、一致するオブジェクトモデルとして特定することができる。この特定は、場合によっては、最小尤度しきい値を満たす尤度値に依存する場合がある。
図5は、人物ブロブを検出し、人物ブロブをレイヤにスライスし、レイヤを既存のユーザモデルと比較して、人物ブロブに関連付けられた人物を認識するための例示的な方法500の図である。本質的に、図5は、距離画像から認識スコアへの情報の流れを記載する。
ステップ502において、センサ(たとえば、立体カメラ、構造化光カメラ、飛行時間カメラなど)から距離画像が抽出される。ステップ504において、ブロブが画像から抽出され、人物または他のタイプの物体として分類される。ステップ506において、各ブロブが特定の物体タイプ(この場合は人物)として分類され、そのブロブが水平レイヤ/スライスにスライスされ、レイヤごとの1つまたは複数の幾何特性が計算される。ステップ508において、ブロブごとに、人物ブロブが特定のモデルに属するかどうかを判定するために、選ばれたまたはすべてのレイヤからの特徴が既存の(例えば、学習済みや未学習の)オブジェクトモデルと比較される。
図11は、検出技術の例示的な適用例を示す。図示されたように、検出技術は、目が見えない人にナビゲーション支援を提供することができる。たとえば、検出モジュール135を備えるロボットは、視覚障害の人々が、困難かつ混雑した環境内を移動することを助けるだけでなく、それらの人々の周りの世界を表すことを支援することができる。ロボットコンパニオンは、それらの人間のパートナーを検出、認識、および追跡し、ならびに、周囲の他の人々を検出および認識し、積極的に移動し、障害物のまわりを誘導し、目的地への経路を再計算しながら、それを行うことができる。ロボットコンパニオンは、内部および外部、あらゆる種類の照明条件の下、および、人物が辿ろうと試みる多くの異なる範囲内で動作することもできる。図11は、詳細には、(たとえば、椅子やテーブルなどの検出された障害物周辺の)屋内オフィス環境を通る人間のパートナー1100を先導する盲導ロボット1102の例を表したものである。ロボットは、人々を追跡し、環境を調査するように構成される。たとえば、ロボットは、テーブルおよび椅子を検出し、人間のパートナーにその存在、および人間のパートナーが座りたい場合その位置を知らせることができる。いくつかの実施形態では、ロボットは、個人のウエストのまわりの触覚ベルトなどの物理通信媒体を介して、人間に動作方向を常に通信するように構成される。動作方向1108は、人物の検出された位置に基づいて、ロボットによって計算される。
さらなる例として、図11に描写された例示的なシナリオでは、人間のパートナー1100が、検出システム103(ロボット)の背後から動き始め、(描写されていない右側の)大きい柱と、ウエスト高さにあるカウンタ天板1104との間を通るカーブ1108に沿ってロボットを追うことを想定している。平均して、人間のパートナー1100はロボットから約1.5mの距離を維持した。時々、この距離は、ロボットがカーブをまわり、道を外れなければならないときに、3mまで増えた。人物を追跡するために、センサ155が後ろ向きに胸の高さに取り付けられている。このセンサは、30HzでRGB画像および距離画像を記録した。取り込まれた最初の1000枚の画像は、以下の特性を有していた。
・人物の一部を含んだ画像(890枚)
・肩および/または眼が見える画像(719枚)
・眼および少なくとも1つの肩が欠落し、人物が部分的にしか見えない(たとえば、画像の端で切れている)画像(171枚)
・2人の人物が見えるか、または部分的に見える画像(331枚)
これらの画像の例が図12A〜Cに描写される。詳細には、図12Aは、人間のパートナーの通常の近距離ビューを表している。センサ155はその近距離ですべてを取り込むのに十分な角度を有していないため、頭および脚が欠落している。図12Bの画像も非常に多かった。人間のパートナーの顔が部分的に画面から外れていることに加えて、人間のパートナーが経路の側面から外れているので1つの肩しか見えず、これは、柱、壁の隅、およびドアのような様々な他の垂直障害物によってブロックされていることも示す。図12Cの画像は、フレーム内の2人の人物を描写している。
以下の表は、例示的なロボット誘導シナリオにおいて収集された例示的な統計値を示す。
Figure 2017146957
このシナリオでは、人間のパートナーが、あらゆる真正面を向いたフレームにおいて検出され、水平遮蔽を有するブロブの25%のみで欠落した。同様にフレームに現れる第2の人物は、41%の時間において検出され、フォルスポジティブ率における著しい増加はない。このシナリオのために使用されたトレーニングデータが下記に記載される。
本シナリオにおいて、本検出技術と並んで、他の人物検出アルゴリズムが、以下の2つの大きなデータセットについて評価された。
(1)動いている人物やロボット − Microsoft Kinectおよび立体視システムを用いて評価
(2)相対的に異なる向きに回転している人物 − 屋内および屋外の2つの場所で立体視システムを用いて評価
(1)の場合、ロボット上の背面Kinectセンサを使用して、合計14,375個の画像が収集された。それらは、2分から15分までの継続時間にわたる、7回の様々な動作を介して収集された。2回の最も短い動作は、カメラの前面で単に動き回ることに関するものである。残りの動作は、人物が環境を通ってロボットを追ったシナリオに関するもので
ある。1回を除き、すべての動作が少なくとも2人の人物を含んでいた。検出システムを学習させるために、人間のトレーナは、画像セットに人物および他の物体の例を手動で入力した。物体は、トレーナからの必要な入力を制限するために、ブロブ類似度スコアを集計することによって、連続フレーム間で追跡された。Kinectデータセットを使用するこの方式で、5736個の肯定的な例および9197個の否定的な例が識別された。
Kinectの代わりに取り付けられた立体画像システム(Point Gray XB3)を使用して、追加データが収集された。計算効率を求めて、フレーム間の視差を識別するために、11×11のピクセルウィンドウサイズと一致するブロックが利用された。屋内のロボットをテストすることに加えて、ロボットは、太陽光下および日陰の両方のエリアの屋外にも連れ出された。5回の試行を介して、合計7778個の立体画像が収集された。このようにして、5181個の肯定的な例および2273個の否定的な例が識別された。立体データにおける雑音の増加のために、人物認識用に考慮されるべき500ピクセルの例示的な最小しきい値を超える物体は少なかった。
上記のシナリオでは、垂直遮蔽についてのフォルスネガティブ率を増やすことなく、または速度を下げることなく、本検出技術は、フォルスネガティブ率を水平遮蔽付きで0%に減らした。2人以上の人物が移動する、より困難で大きいシナリオでは、5%を超えるパフォーマンス向上が達成された。このパフォーマンスの差は、屋内と屋外の両方の様々なシナリオを用いて実証された。連続フレームにわたって追跡する距離ベースのブロブを追加すると、人物がロボットによって検出される時間の割合がなお一層向上され得る。
図10Aおよび図10Bは、2つの異なるタイプのセンサ間の例示的な比較を示すグラフである。詳細には、図10Aは、Microsoft Kinectを使用する人物検出についての行レベルの確度(Row level accuracy)を示し、図10Bは、立体視システムを使用する人物検出についての行レベルの確度を示す。図10Aは、3つの異なるアルゴリズム:(1)Spinelloアルゴリズム、(2)線形分類器による特性のセット(Polyfit-Linear)、および(3)GMMによる特性のセット(Polyfit-GMM)についてのパフォーマンス推定値であ
る。また、図10Bは、2つの異なるアルゴリズム:(1)Spinelloアルゴリズム、および(3)GMMによる特性のセット(Polyfit-GMM)についてのパフォーマンス推定値で
ある。
図10Aを参照し、セグメントごと、または行レベルに基づいて見ると、Polyfit-Linear曲線とSpinello曲線との間にROCにおける少しの差が存在する。新規のより小さいセットの幾何特性(たとえば、6Dベクトル)を使用することは、さらなる計算オーバーヘッドなしに比較可能である。しかしながら、新しい特性にGMMを追加すると、本明細書に記載された検出技術は、推定3%のフォルスポジティブ率でかなり良好に実行し、トゥルーポジティブ率において3.6%の改善をもたらす。ROC曲線全体にわたって、それは2.5%の領域増加をもたらす。
図10Bを参照すると、特性セットの間に少しの差しか存在しない。これは、ブロブ抽出中にエッジを丸め、穴を広げることができる、ブロックマッチング視差計算に固有のフィルタリングに部分的に起因する可能性がある。
一方、図10Cは、本明細書に記載された新規の技術と別の代替技術との間のブロブレベルの比較を示すグラフである。この図において、Polyfit-GMMとSpinelloアルゴリズム
についてのROC曲線のブロブレベルの比較は、本明細書に記載される検出技術を使用する立体視システムによるより顕著なパフォーマンス向上を実証する。詳細には、幾何特性のセットでPolyfit-GMMを使用すると、0〜10%のフォルスポジティブ率からの危険領
域(Critical region)におけるパフォーマンスが上がる。3%のフォルスポジティブ率に
おいて、Spinelloアルゴリズムの77.8%に対して、新しいアルゴリズムは83.4%
のトゥルーポジティブ率を達成する。
上記の例示的なシナリオでは、認識中において、環境内を人物オブジェクトが移動しているか、ロボットが移動しているか、または両者が移動しており、結果として、検出される人物の大部分は、カメラを向いており、全体的にある程度まで遮蔽されていた。
第2の例示的なシナリオでは、例示的なデータの以下のセットは、カメラに対する様々な相対的な向きにおける人物検出の有効性を実証し、これは、一般に、人間ロボット相互作用の重要な態様である。
この第2のシナリオでは、29人の様々な人物のグループが、画像を取得している間、センサ155の前面において、定位置に立ち、回転していた。グループ内の20人の人物(15人の男性および5人の女性)は、窓がない室内において評価され、グループ内の24人の人物(17人の男性および7人の女性)は、日当たりがよい、床から天井まである窓の前において評価された。14人の人物は両方の環境に参加した。この実験に使用されたセンサ155は、立体視システムを含んでいた。合計6人の人物、全員男性がトレーニングデータセット内に存在した、本明細書に記載された誘導シナリオからのデータセットを使用して検出モデルが学習された。以下の表は、第2のシナリオの結果を要約している。
Figure 2017146957
立体視差計算に対する日当たりの影響に起因する可能性がある、2つのタイプの照明条件についての検出率の間に差が存在する。しかし、検出技術は、95%を超える時間(たとえば、屋内で99.9%および窓の近くで95.2%)、男性の人物を正しく識別した。なお、トレーニングデータに女性が存在しないため、女性を正しく識別する率は低かった。しかしながら、トレーニングなしでも、室内では84.6%の女性が正しく識別され、窓の近くでは74.7%の女性が正しく識別された。フォルスネガティブ識別情報は、細身および/または長髪の(すなわち、曲率がより小さい)女性において高く、これは、トレーニングセットを広げることによって改善される可能性がある。
図13は、画像オブジェクトを認識するための例示的な方法1300のフローチャートである。ステップ1302において、画像プロセッサ202が画像データを受信する。画像データは、センサ155によって取り込まれた様々な画像および情報を含む。たとえば、一実施形態では、ロボットは、オフィス空間内を移動している場合があり、カメラセンサ155は、ロボットが空間を通って移動している間、距離画像および色画像を取り込む。
ステップ1304において、レイヤセグメント化モジュール206が、たとえば、図5、図7、および図15を参照して上述されたように、画像データを複数の領域にセグメント化することによって、画像データのマスク画像を作成する。
ステップ1306において、階層型分類器モジュール210が、画像プロセッサ202から受信された画像データ、およびレイヤセグメント化モジュール206から受信されたマスク画像データから、尤度スコアを決定する。階層型分類器モジュール210によって計算される尤度スコアは、距離画像とマスク画像の両方に基づく。
ステップ1308において、CNNモジュール212が、画像プロセッサ202から受信した画像データ、およびレイヤセグメント化モジュール206から受信したマスク画像データから、尤度スコアを決定する。CNNモジュール212によって計算される尤度ス
コアは、色画像とマスク画像の両方、距離画像およびマスク画像、両方の組合せなどに基づいてもよい。いくつかの実施形態では、CNNモジュール212は、マスク画像内の領域の第1の画像からピクセルをコピーすることによって物体画像を生成し、CNNモジュール212内の深層畳み込みニューラルネットワークを使用して物体画像を分類する。
ステップ1310において、融合モジュール214が、階層型分類器モジュール210からの尤度スコアおよびCNNモジュール212の尤度スコアに基づいて、画像プロセッサ202によって受信された画像データの少なくとも一部分についてのクラス(たとえば、人物クラスまたは非人物クラス)を決定する。
たとえば、図6を参照してこの方法を使用すると、オフィスを通って移動するロボットが、2人の人物606、テーブル604、および椅子608の画像を取り込むことができる。画像データは、色データおよび距離データを含む場合があり、情報は、セグメント化され、分類用に検出モジュール135に供給される。色データを使用することによって、ブロブは、様々なピクセル色を使用して様々な特徴をグループ化する画像プロセッサ202によってグループ化することができる。画像602内の物体の暗画像は、画像プロセッサ202によって認識される。レイヤセグメント化モジュール206は、画像をセグメント化し、様々なブロブセグメントを分類モジュール208に送る。レイヤセグメント化モジュール206によって作成されたマスク画像と距離データおよび色データの両方を使用すると、融合モジュール214からの複合スコアを使用して、画像602をより正確に分類することができる。
図14Aは、画像オブジェクトを認識するさらなる例示的な方法のフローチャート1400である。
ステップ1402において、画像プロセッサ202が画像データを受信する。画像データは、センサ155によって取り込まれた様々な画像および情報を含んでいてもよい。たとえば、一実施形態では、ロボットは、オフィス空間内を移動している場合があり、カメラセンサ155は、ロボットが空間を通って移動している間、距離画像および色画像を取り込む。
ステップ1404において、画像プロセッサ202が、画像データから距離画像および色画像を抽出する。たとえば、センサ155が、環境の距離情報および/または色情報を取り込み、画像プロセッサ202が、センサ155によって取り込まれた関連する画像データを抽出する。
ステップ1406において、レイヤセグメント化モジュール206が、図5、図7、および図15を参照して上述されたように、画像データを複数の領域にセグメント化することによって、画像データのマスク画像を作成する。
ステップ1408において、階層型分類器モジュール210が、画像プロセッサ202から受信された距離画像データ、およびレイヤセグメント化モジュール206から受信されたマスク画像データから、尤度スコアを決定する。階層型分類器モジュール210によって計算される尤度スコアは、距離画像とマスク画像の両方に基づいてもよい。
ステップ1410において、CNNモジュール212が、画像プロセッサ202から受信された色画像、およびレイヤセグメント化モジュール206から受信されたマスク画像データから、尤度スコアを決定する。CNNモジュール212によって計算される尤度スコアは、色画像とマスク画像の両方に基づいてもよい。代替の実施形態では、CNNモジュール212が、距離画像およびマスク画像を受信し、それらの画像を使用して第2の尤度スコアを計算する。
ステップ1412において、融合モジュール214が、階層型分類器モジュール210からの尤度スコアおよびCNNモジュール212の尤度スコアに基づいて、画像データの少なくとも一部分についてのクラス(すなわち、人物クラスまたは非人物クラス)を決定する。
図14Bは、第2の尤度スコアを決定するさらなる例のフローチャート1410である。
ステップ1416において、階層型分類器モジュール210が、マスク画像を含む画像データを受信し、階層型分類器モジュール210を使用してマスク画像を事前フィルタリングする。いくつかの実施形態では、階層型分類器モジュール210からの尤度スコア(すなわち、分類)は、事前フィルタリングされたマスク画像を作成するために使用することができる。いくつかの実施形態では、マスク画像は、階層型分類器モジュール210がステップ1402においてマスク画像を受信するより事前に、レイヤセグメント化モジュール206によって生成することができる。
ステップ1418において、CNNモジュール212が、色画像、およびステップ1416において階層型分類器モジュール210によって生成された、事前フィルタリングされたマスク画像から、尤度スコアを決定する。この実施形態では、階層型分類器モジュール210は、CNNモジュール212にマスク画像を送る前に、マスク画像を事前フィルタリングする。マスク画像を事前フィルタリングすると、図19を参照して示されるように、深層畳み込みニューラルネットワークの処理時間が減少する。
ステップ1414において、CNNモジュール212が、色画像および(事前フィルタリングされていない)マスク画像を受信し、階層型分類器モジュール210が第1の尤度スコアを決定することと並行して、第2の尤度スコアを決定する。
図16は、例示的な画像分類システム1600のブロック図である。
まず、カメラノード1602がデータを受信し、距離画像および色画像を抽出する。データは、カメラノード1602の一部であり得るセンサ155によって取り込まれてもよいし、または事前に取り込まれ、カメラノード1602に送られてもよい。また、検出モジュール135の画像プロセッサ202は、カメラノード1602に含まれていてもよい。
セグメント化ノード1604は、レイヤセグメント化モジュール206を含んでいてもよく、レイヤセグメント化モジュール206を使用して、カメラノード1602から受信された距離画像からマスク画像を作成してもよい。
階層型分類器1606は、階層型分類器モジュール210を含む場合があり、距離画像およびマスク画像を使用して、画像データ内の物体が人物であるクラス尤度を計算する。
いくつかの実施形態では、階層型分類器1606はまた、セグメント化ノード1604から得たマスク画像を事前にフィルタリングして、CNN分類器1608内の深層畳み込みニューラルネットワークの処理時間を減少させることができる。
CNN分類器1608は、CNNモジュール212を含む場合がある。いくつかの実施形態では、CNN分類器1608は、セグメント化ノード1604からマスク画像を受信し、代替実施形態では、CNN分類器1608は、処理時間を減少させるために、階層型分類器1606から事前フィルタリングされたマスク画像を受信する。CNN分類器1608は、色画像、およびマスク画像または事前フィルタリングされたマスク画像のいずれかを使用して、画像データ内の物体が人物であるクラス尤度を計算する。
さらなる実施形態では、CNN分類器1608は、距離画像、または、色画像の代わりの/色画像に加えて他の適切な画像タイプを受信し、マスク画像とともに、色画像の代わりの/色画像に加えてその画像データに対して深層畳み込みニューラルネットワークアルゴリズムを実行する。
融合ノード1610は、融合モジュール214を含む場合があり、階層型分類器1606およびCNN分類器1608から、クラス尤度スコアを受信する。融合ノード1610は、尤度スコアを組み合わせて、全体尤度スコアを作成することができる。いくつかの実
施形態では、融合ノード1610は、さらなる処理用にセグメント化ノード1604からマスク画像をさらに受信することができる。
図17は、3つの異なる環境、3つの異なるセンサタイプ、4つの異なる評価セットについての曲線の形でデータを示す。
図17Aにおいて、グラフ1702は、図13に記載された方法を使用して作成された、CNNカラー+階層アルゴリズムによって生成された全体スコアを含む、画像認識用の7つの異なるアルゴリズムのパフォーマンスを表したものである。
図に示されたように、オープンラボ空間において構造化光センサを使用した場合において、階層+CNN−RGBは、6つの他の通常の認識アルゴリズムと比較して、物体認識についての最も高い複合スコアを有する。
次に、家庭内環境において構造化光センサを使用して、7つのアルゴリズムがテストされた(グラフ1704)。このテストでは、階層+CNN−RGBが最も高いスコアを示した。距離画像に基づく複合ニューラルネットワークスコアと組み合わされた階層スコアはまた、これらのテストでは、他の方法に比べて全体的に良好に実行された。
図17Bにおいて、表1706は、4つの異なるセンサを使用する7つのアルゴリズムのテストについてのデータを示す。4つの異なるテストでは、階層型分類器とCNN分類器の両方を使用したアルゴリズムの物体認識についての融合スコアが、複合全体スコアを含まない他のアルゴリズムよりも良好に実行された。構造化光センサテストおよび立体センサテストでは、色画像(RGB)のCNN分類器と組み合わされた階層型分類器が、最も高い物体認識スコアを示した。飛行時間カメラセンサテストでは、距離画像のCNN分類器と組み合わされた階層型分類器が、最も高い物体認識スコアを示した。
図17Cにおいて、グラフ1706は、オフィス環境において立体カメラセンサを使用する7つの異なるアルゴリズムのテストデータを示す。階層+CNN RGBアルゴリズムは、このテスト環境においても最も高いパフォーマンスを示した。
グラフ1708において、家庭環境において飛行時間カメラを使用して、7つの異なるアルゴリズムがテストされた。このテストでは、階層型分類器とCNN分類器の融合が他のアルゴリズムより優れていた。
図18は、事前フィルタリングされた階層型分類器を使用する画像分類デバイスのブロック図1800である。
カメラノード1802は、データを取り込むためのセンサ155を含む。カメラノード1802は、取り込まれるか、または受信された画像データを処理するための画像プロセッサ202を含んでいてもよい。画像プロセッサ202は、画像データを処理して、距離画像および/または色画像を抽出することができる。距離画像は、セグメント化/トラッキング+階層型分類器ノード1804に送られる。
セグメント化/トラッキング+階層型分類器ノード1804は、レイヤセグメント化モジュール206および/または階層型分類器モジュール210を含んでいてもよい。セグメント化/トラッキング+階層型分類器ノード1804は、距離画像をセグメント化し、融合ノードに送られ得る階層分類結果に物体を分類する。セグメント化/トラッキング+階層型分類器ノード1804はまた、マスク画像を生成し、マスク画像は、次いで事前フィルタリングされ、深層畳み込みニューラルネットワークを使用する分類のためにCNN分類器ノード1806に送られる。
セグメント化/トラッキング+階層型分類器ノード1804はまた、様々なセクションにおいてブロブの位置を追跡し、ブロブ位置情報を融合ノード1808に供給する。
CNN分類器ノード1806は、画像データ内の物体を分類する際に使用するための事
前フィルタリングされたマスク画像および色画像を受信する。いくつかの実施形態では、CNN分類器ノード1806は、代替として、カメラノード1802から距離画像を受信し、距離画像および事前フィルタリングされたマスク画像を使用して、画像データ内の物体を分類する。
融合ノード1808は、CNN分類結果および階層分類結果を受信し、画像データ内の物体が人物であることを示す全体複合尤度を計算する。いくつかの実施形態では、融合ノード1808はまた、さらなる処理用に、または複合尤度スコアの計算に含めるために、追跡されたブロブ位置を受信する。
図19は、3つの異なる状況における適合率対再現率曲線のデータを、グラフ形式で表したものである。使用されたアルゴリズムは、事前フィルタリングされたCNN(AlexNet)+階層型分類器、事前フィルタリングなしのCNN+階層型分類器、ならびに、2つ
の組み合わされた分類器の融合なしの様々なCNN分類器および階層型分類器を含む。
グラフ1902において、テストは、倒れる人に関するものであり、物体を人として分類する際の認識の適合率と再現率時間に関するものである。このシステムでは、事前フィルタリングされたアルゴリズムは、中央のいずれかであり、時間は事前フィルタリングなしの階層システムよりもかなり大きかった。
グラフ1904において、テストは、ベッドに座っている人に関するものである。事前フィルタリングされたアルゴリズムは、場合によっては、融合システムと比較して、改善された計算速度のために精度を犠牲にする場合がある。
グラフ1906において、テストは、オフィスを動き回るロボットに対して行われ、このテストでは、事前フィルタリングされたアルゴリズムは、他のアルゴリズムよりも、曲線上で高い精度および高い再現速度を示した。
上記の説明では、本発明を十分に理解できるように、多くの詳細について説明する。しかしながら、各実施形態はこれらの具体的な詳細無しでも良いことは当業者にとって明らかであろう。また、説明が不明瞭になることを避けるために、構造や装置をブロック図の形式で表すこともある。たとえば、一実施形態は、ユーザインタフェースおよび特定のハードウェアとともに説明される。しかし、ここでの説明は、データおよびコマンドを受信する任意のタイプの計算装置および任意の周辺機器について適用できる。
以上の詳細な説明の一部は、非一時的(non-transitory)なコンピュータ可読記憶媒体に記憶されたデータビットに対する動作のアルゴリズムおよび記号的表現として提供される。これらのアルゴリズム的な説明および表現は、データ処理技術分野の当業者によって、他の当業者に対して自らの成果の本質を最も効果的に説明するために用いられるものである。なお、本明細書において(また一般に)アルゴリズムとは、所望の結果を得るための論理的な手順を意味する。処理のステップは、物理量を物理的に操作するものである。必ずしも必須ではないが、通常は、これらの量は記憶・伝送・結合・比較およびその他の処理が可能な電気的または磁気的信号の形式を取る。通例にしたがって、これらの信号をビット・値・要素・エレメント・シンボル・キャラクタ・項・数値などとして称することが簡便である。
なお、これらの用語および類似する用語はいずれも、適切な物理量と関連付いているものであり、これら物理量に対する簡易的なラベルに過ぎないということに留意する必要がある。以下の説明から明らかなように、特に断らない限りは、本明細書において「処理」「計算」「コンピュータ計算(処理)」「判断」「表示」等の用語を用いた説明は、コンピュータシステムや類似の電子的計算装置の動作および処理であって、コンピュータシステムのレジスタやメモリ内の物理的(電子的)量を、他のメモリやレジスタまたは同様の情報ストレージや通信装置、表示装置内の物理量として表される他のデータへ操作および変形する動作および処理を意味する。
本発明は、本明細書で説明される動作を実行する装置にも関する。この装置は要求される目的のために特別に製造されるものであっても良いし、汎用コンピュータを用いて構成しコンピュータ内に格納されるプログラムによって選択的に実行されたり再構成されたりするものであっても良い。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な、例えばフロッピー(登録商標)ディスク・光ディスク・CD−ROM・MOディスク・磁気ディスクなど任意のタイプのディスク、読み込み専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体などの、非一時的なコンピュータ可読記憶媒体に記憶される。
発明の具体的な実施形態は、完全にハードウェアによって実現されるものでも良いし、完全にソフトウェアによって実現されるものでも良いし、ハードウェアとソフトウェアの両方によって実現されるものでも良い。好ましい実施形態は、ソフトウェアによって実現される。ここでソフトウェアとは、ファームウェア、常駐ソフトウェア、マイクロコードやその他のソフトウェアを含むものである。
さらに、ある実施形態は、コンピュータが利用あるいは読み込み可能な記憶媒体からアクセス可能なコンピュータプログラムプロダクトの形態を取る。この記憶媒体は、コンピュータや任意の命令実行システムによってあるいはそれらと共に利用されるプログラムコードを提供する。コンピュータが利用あるいは読み込み可能な記憶媒体とは、命令実行システムや装置によってあるいはそれらと共に利用されるプログラムを、保持、格納、通信、伝搬および転送可能な任意の装置を指す。
プログラムコードを格納・実行するために適したデータ処理システムは、システムバスを介して記憶素子に直接または間接的に接続された少なくとも1つのプロセッサを有する。記憶素子は、プログラムコードの実際の実行に際して使われるローカルメモリや、大容量記憶装置や、実行中に大容量記憶装置からデータを取得する回数を減らすためにいくつかのプログラムコードを一時的に記憶するキャッシュメモリなどを含む。
入力/出力(I/O)装置は、例えばキーボード、ディスプレイ、ポインティング装置などであるが、これらはI/Oコントローラを介して直接あるいは間接的にシステムに接続される。
システムにはネットワークアダプタも接続されており、これにより、私的ネットワークや公共ネットワークを介して他のデータ処理システムやリモートにあるプリンタや記憶装置に接続される。モデム、ケーブルモデム、イーサネット(登録商標)は、現在利用可能なネットワークアダプタのほんの一例である。
最後に、本明細書において提示されるアルゴリズムおよび表示は特定のコンピュータや他の装置と本来的に関連するものではない。本明細書における説明にしたがったプログラムを有する種々の汎用システムを用いることができるし、また要求された処理ステップを実行するための特定用途の装置を製作することが適した場合もある。これら種々のシステムに要求される構成は、以下の説明において明らかにされる。さらに、本発明は、特定のプログラミング言語と関連づけられるものではない。本明細書で説明される本発明の内容を実装するために種々のプログラミング言語を利用できることは明らかであろう。
実施形態の前述の説明は、例示と説明を目的として行われたものである。したがって、開示された実施形態が本発明の全てではないし、本発明を上記の実施形態に限定するものでもない。本発明は、上記の開示にしたがって、種々の変形が可能である。本発明の範囲
は上述の実施形態に限定解釈されるべきではなく、特許請求の範囲にしたがって解釈されるべきである。本発明の技術に詳しい者であれば、本発明はその思想や本質的特徴から離れることなくその他の種々の形態で実現できることを理解できるであろう。同様に、モジュール・処理・特徴・属性・方法およびその他の本発明の態様に関する名前付けや分割方法は必須なものでものないし重要でもない。また、本発明やその特徴を実装する機構は異なる名前や分割方法や構成を備えていても構わない。
さらに、当業者であれば、モジュール・処理・特徴・属性・方法およびその他の本発明の態様は、ソフトウェア、ハードウェア、ファームウェアもしくはこれらの組合せとして実装できることを理解できるであろう。また、本発明をソフトウェアとして実装する場合には、モジュールなどの各要素は、どのような様式で実装されても良い。例えば、スタンドアローンのプログラム、大きなプログラムの一部、異なる複数のプログラム、静的あるいは動的なリンクライブラリー、カーネルローダブルモジュール、デバイスドライバー、その他コンピュータプログラミングの当業者にとって既知な方式として実装することができる。さらに、本発明の実装は特定のプログラミング言語に限定されるものではないし、特定のオペレーティングシステムや環境に限定されるものでもない。以上のように、上記の本発明の説明は限定的なものではなく例示的なものであり、本発明の範囲は添付の特許請求の範囲にしたがって定められる。
100 システム
101 計算サーバ
103 検出システム
105 ネットワーク
106 信号線
108 信号線
115 計算ユニット
118 信号線
122 信号線
124 信号線
125 ユーザ
126 信号線
128 オブジェクトモデル
135 検出モジュール
135a 検出モジュール
135b 検出モジュール
155 センサ
175 インターフェース
195 プロセッサ
197 記憶装置
200 コンピューティングデバイス
202 画像プロセッサ
206 レイヤセグメント化モジュール
208 分類モジュール
210 階層型分類器モジュール
212 畳み込みニューラルネットワーク(CNN)モジュール
214 融合モジュール
220 バス
237 メモリ
243 入力/出力
245 通信ユニット
300 方法
400 方法
500 方法
600 物体ブロブ
602 距離画像
604 ブロブ
606a ブロブ
606b ブロブ
608 ブロブ
700 人物ブロブ
701 レイヤのセット
702 頭レイヤ
704 顔レイヤ
706 首レイヤ
708 胸レイヤ
710 腕レイヤ
712 腹レイヤ
714 骨盤レイヤ
716 腿レイヤ
718 膝レイヤ
720 足レイヤ
800 表
900 頭スライスグラフ
902 人物ブロブ
903 放物線
904 胴スライスグラフ
905 放物線
906 かかとスライスグラフ
907 放物線
1100 人間のパートナー
1102 盲導ロボット
1104 カウンタ天板
1106 椅子
1108 カーブ
1300 方法
1400 フローチャート
1410 フローチャート
1500 プロセス
1508 セグメント
1600 画像分類システム
1602 カメラノード
1604 セグメント化ノード
1606 階層型分類器
1608 CNN分類器
1610 融合ノード
1702 グラフ
1704 グラフ
1706 表
1706 グラフ
1708 グラフ
1800 画像分類デバイス
1802 カメラノード
1804 セグメント化/トラッキング+階層型分類器ノード
1806 CNN分類器
1808 融合ノード
1902 グラフ
1904 グラフ
1906 グラフ

Claims (20)

  1. コンピュータが物体の認識を行う方法であって、
    画像データを受信する受信ステップと、
    前記画像データから距離画像および色画像を抽出する抽出ステップと、
    前記距離画像を複数の領域にセグメント化することによってマスク画像を作成するマスクステップと、
    前記マスク画像の複数の領域に含まれる物体を識別する識別ステップと、
    階層型分類器を用いて前記距離画像およびマスク画像から第1の尤度スコアを決定する第1のスコア決定ステップと、
    深層畳み込みニューラルネットワーク(CNN)を用いて前記色画像およびマスク画像から第2の尤度スコアを決定する第2のスコア決定ステップと、
    前記第1の尤度スコアおよび第2の尤度スコアに基づいて、前記画像データの少なくとも一部分についてのクラスを決定する決定ステップと、
    を含む方法。
  2. コンピュータが物体の認識を行う方法であって、
    画像データを受信する受信ステップと、
    前記画像データを複数の領域にセグメント化することによってマスク画像を作成するマスクステップと、
    階層型分類器を用いて前記画像データおよびマスク画像から第1の尤度スコアを決定する第1のスコア決定ステップと、
    深層畳み込みニューラルネットワーク(CNN)を用いて前記画像データおよびマスク画像から第2の尤度スコアを決定する第2のスコア決定ステップと、
    前記第1の尤度スコアおよび第2の尤度スコアに基づいて、前記画像データの少なくとも一部分についてのクラスを決定する決定ステップと、
    を含む方法。
  3. 前記第2のスコア決定ステップは、
    前記画像データから第1の画像を抽出するステップと、
    前記マスク画像内の領域の前記第1の画像からピクセルをコピーすることによって物体画像を生成するステップと、
    前記深層CNNを用いて前記物体画像を分類するステップと、
    前記物体画像が前記深層CNNの異なる複数のクラスにそれぞれ属する確率を示す分類尤度スコアを生成するステップと、
    前記分類尤度スコアに基づいて前記第2の尤度スコアを生成するステップと、
    を含む、請求項2に記載の方法。
  4. 前記第1の画像は、色画像、距離画像、色画像と距離画像の組合せ、のうちの1つである、
    請求項3に記載の方法。
  5. 前記決定ステップでは、
    前記第1の尤度スコアおよび第2の尤度スコアを全体尤度スコアに融合し、前記全体尤度スコアが所定のしきい値を満たす場合に、前記全体尤度スコアを用いて、前記画像データの少なくとも一部分が人物を表すものとして分類を行う、
    請求項2に記載の方法。
  6. 前記画像データから距離画像および色画像を抽出する抽出ステップをさらに含み、
    前記第1のスコア決定ステップでは、前記階層型分類器を用いて前記距離画像およびマ
    スク画像から前記第1の尤度スコアを決定し、
    前記第2のスコア決定ステップでは、前記深層CNNを用いて前記色画像およびマスク画像から前記第2の尤度スコアを決定する、
    請求項2に記載の方法。
  7. 前記深層CNNが最終レイヤとしてソフトマックスレイヤを有し、前記画像データの少なくとも一部分が人物を表す前記第2の尤度スコアを生成する、
    請求項2に記載の方法。
  8. 前記第1の尤度スコアおよび第2の尤度スコアを第1の対数尤度値および第2の対数尤度値に変換する変換ステップと、
    前記第1の対数尤度値および第2の対数尤度値の加重合計を用いることにより複合尤度スコアを計算する計算ステップと、
    をさらに含む、請求項2に記載の方法。
  9. 前記クラスは人に対応するクラスである、
    請求項2に記載の方法。
  10. 前記第2のスコア決定ステップは、
    前記画像データおよび前記階層型分類器によって得られた前記第1の尤度スコアを用いて前記第2の尤度スコアを決定するステップをさらに含む、
    請求項2に記載の方法。
  11. 画像データを複数の領域にセグメント化することによってマスク画像を作成するマスク手段と、
    階層型分類器を用いて前記画像データおよびマスク画像から第1の尤度スコアを決定する第1のスコア決定手段と、
    深層畳み込みニューラルネットワーク(CNN)を用いて前記画像データおよびマスク画像から第2の尤度スコアを決定する第2のスコア決定手段と、
    前記第1の尤度スコアおよび第2の尤度スコアに基づいて、前記画像データの少なくとも一部分についてのクラスを決定する決定手段と、
    を有するシステム。
  12. 前記第2のスコア決定手段は、
    前記画像データから第1の画像を抽出する手段と、
    前記マスク画像内の領域の前記第1の画像からピクセルをコピーすることによって物体画像を生成する手段と、
    前記深層CNNを用いて前記物体画像を分類する手段と、
    前記物体画像が前記深層CNNの異なる複数のクラスにそれぞれ属する確率を示す分類尤度スコアを生成する手段と、
    前記分類尤度スコアに基づいて前記第2の尤度スコアを生成する手段と、
    を有する、請求項11に記載のシステム。
  13. 前記第1の画像は、色画像、距離画像、色画像と距離画像の組合せ、のうちの1つである、
    請求項12に記載のシステム。
  14. 前記決定手段は、
    前記第1の尤度スコアおよび第2の尤度スコアを全体尤度スコアに融合し、前記全体尤度スコアが所定のしきい値を満たす場合に、前記全体尤度スコアを用いて、前記画像デー
    タの少なくとも一部分が人物を表すものとして分類を行う、
    請求項11に記載のシステム。
  15. 前記画像データから距離画像および色画像を抽出する抽出手段をさらに含み、
    前記第1のスコア決定手段は、前記階層型分類器を用いて前記距離画像およびマスク画像から前記第1の尤度スコアを決定し、
    前記第2のスコア決定手段は、前記深層CNNを用いて前記色画像およびマスク画像から前記第2の尤度スコアを決定する、
    請求項11に記載のシステム。
  16. 前記深層CNNが最終レイヤとしてソフトマックスレイヤを有し、前記画像データの少なくとも一部分が人物を表す前記第2の尤度スコアを生成する、
    請求項11に記載のシステム。
  17. 前記第1の尤度スコアおよび第2の尤度スコアを第1の対数尤度値および第2の対数尤度値に変換する変換手段と、
    前記第1の対数尤度値および第2の対数尤度値の加重合計を用いることにより複合尤度スコアを計算する計算手段と、
    をさらに有する、請求項11に記載のシステム。
  18. 前記クラスは人に対応するクラスである、
    請求項11に記載のシステム。
  19. 前記第2のスコア決定手段は、
    前記階層型分類器を用いて前記マスク画像を事前フィルタする手段と、
    前記画像データと事前フィルタされた前記マスク画像を用いて前記第2の尤度スコアを決定する手段と、
    を含む、請求項11に記載のシステム。
  20. 前記階層型分類器は、ガウス型混合モデルを用いて前記第1の尤度スコアを決定する、
    請求項11に記載のシステム。
JP2016227957A 2016-02-19 2016-11-24 深層畳み込みニューラルネットワークによるレイヤベースの物体検出の強化 Active JP6288221B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/048,757 US9542626B2 (en) 2013-09-06 2016-02-19 Augmenting layer-based object detection with deep convolutional neural networks
US15/048,757 2016-02-19

Publications (2)

Publication Number Publication Date
JP2017146957A true JP2017146957A (ja) 2017-08-24
JP6288221B2 JP6288221B2 (ja) 2018-03-07

Family

ID=59683210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016227957A Active JP6288221B2 (ja) 2016-02-19 2016-11-24 深層畳み込みニューラルネットワークによるレイヤベースの物体検出の強化

Country Status (2)

Country Link
US (1) US9542626B2 (ja)
JP (1) JP6288221B2 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101894278B1 (ko) * 2018-01-18 2018-09-04 주식회사 뷰노 일련의 슬라이스 영상을 재구성하는 방법 및 이를 이용한 장치
JP2019149142A (ja) * 2018-02-26 2019-09-05 財團法人工業技術研究院Industrial Technology Research Institute 対象物標識のためのシステムおよび方法
WO2019167650A1 (ja) * 2018-03-01 2019-09-06 株式会社牧野フライス製作所 工具経路を生成するための方法及び装置
JP2019160303A (ja) * 2018-03-09 2019-09-19 株式会社リコー ライトフィールドカメラによりキャプチャされる対象物の分類のための深層学習アーキテクチャ
JP2019192059A (ja) * 2018-04-27 2019-10-31 田中 成典 対象物認識装置
WO2020080250A1 (ja) 2018-10-15 2020-04-23 オムロン株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
WO2020115866A1 (ja) * 2018-12-06 2020-06-11 株式会社DeepX 深度処理システム、深度処理プログラムおよび深度処理方法
JP2020112934A (ja) * 2019-01-09 2020-07-27 株式会社アトラックラボ 移動体、移動体の制御方法及びコンピュータプログラム
WO2020175085A1 (ja) * 2019-02-26 2020-09-03 コニカミノルタ株式会社 画像処理装置、及び画像処理方法
JPWO2020217283A1 (ja) * 2019-04-22 2020-10-29
JP2021518797A (ja) * 2018-03-23 2021-08-05 曹可瀚 寝具及びその調整方法
JP2021536613A (ja) * 2018-09-12 2021-12-27 株式会社ソニー・インタラクティブエンタテインメント 人間の3d再構成を生成するための方法とシステム
JP2022036131A (ja) * 2019-07-01 2022-03-04 株式会社アクセル 学習装置、推論装置、学習方法、推論方法、コンピュータシステムおよびプログラム
JP2022074085A (ja) * 2020-10-30 2022-05-17 ホンダ リサーチ インスティテュート ヨーロッパ ゲーエムベーハー 人が環境を評価するのを支援するための方法およびシステム
KR20220092746A (ko) * 2020-12-24 2022-07-04 동의대학교 산학협력단 스테레오 카메라 기반 미학습 물체 검출 방법 및 시스템
WO2024190158A1 (ja) * 2023-03-14 2024-09-19 株式会社Jvcケンウッド 画像分類装置、画像分類方法、および画像分類プログラム
JP7566217B1 (ja) 2024-01-26 2024-10-11 三菱電機株式会社 物体検出装置及び物体検出方法

Families Citing this family (160)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8649592B2 (en) 2010-08-30 2014-02-11 University Of Illinois At Urbana-Champaign System for background subtraction with 3D camera
US9485433B2 (en) 2013-12-31 2016-11-01 Personify, Inc. Systems and methods for iterative adjustment of video-capture settings based on identified persona
US10152796B2 (en) * 2014-02-24 2018-12-11 H. Lee Moffitt Cancer Center And Research Institute, Inc. Methods and systems for performing segmentation and registration of images using neutrosophic similarity scores
US10043112B2 (en) * 2014-03-07 2018-08-07 Qualcomm Incorporated Photo management
US9536293B2 (en) * 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
US9953425B2 (en) 2014-07-30 2018-04-24 Adobe Systems Incorporated Learning image categorization using related attributes
CN114758406B (zh) * 2015-05-11 2024-02-23 奇跃公司 用于使用神经网络的生物特征用户识别的设备、方法和系统
PE20180594A1 (es) * 2015-05-15 2018-04-05 Motion Metrics Int Corp Metodo y aparato para localizar una pieza de desgaste en una imagen de un accesorio de trabajo
US9916668B2 (en) 2015-05-19 2018-03-13 Personify, Inc. Methods and systems for identifying background in video data using geometric primitives
US9563962B2 (en) 2015-05-19 2017-02-07 Personify, Inc. Methods and systems for assigning pixels distance-cost values using a flood fill technique
WO2017004803A1 (en) * 2015-07-08 2017-01-12 Xiaoou Tang An apparatus and a method for semantic image labeling
WO2017015390A1 (en) * 2015-07-20 2017-01-26 University Of Maryland, College Park Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
US10007860B1 (en) * 2015-12-21 2018-06-26 Amazon Technologies, Inc. Identifying items in images using regions-of-interest
US9953242B1 (en) 2015-12-21 2018-04-24 Amazon Technologies, Inc. Identifying items in images using regions-of-interest
US9760807B2 (en) 2016-01-08 2017-09-12 Siemens Healthcare Gmbh Deep image-to-image network learning for medical image analysis
US9798612B1 (en) * 2016-01-14 2017-10-24 Google Inc. Artifact correction using neural networks
CA3015658A1 (en) 2016-03-11 2017-09-14 Magic Leap, Inc. Structure learning in convolutional neural networks
US10390082B2 (en) 2016-04-01 2019-08-20 Oath Inc. Computerized system and method for automatically detecting and rendering highlights from streaming videos
US10217001B2 (en) * 2016-04-14 2019-02-26 KickView Corporation Video object data storage and processing system
GB2549554A (en) 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image
US11461919B2 (en) 2016-04-21 2022-10-04 Ramot At Tel Aviv University Ltd. Cascaded neural network
US10188580B2 (en) * 2016-05-09 2019-01-29 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for providing environment information using an unmanned vehicle
JP6528723B2 (ja) * 2016-05-25 2019-06-12 トヨタ自動車株式会社 物体認識装置、物体認識方法及びプログラム
US9883155B2 (en) 2016-06-14 2018-01-30 Personify, Inc. Methods and systems for combining foreground video and background video using chromatic matching
US10475186B2 (en) * 2016-06-23 2019-11-12 Intel Corportation Segmentation of objects in videos using color and depth information
GB2554633B (en) * 2016-06-24 2020-01-22 Imperial College Sci Tech & Medicine Detecting objects in video data
US10681391B2 (en) * 2016-07-13 2020-06-09 Oath Inc. Computerized system and method for automatic highlight detection from live streaming media and rendering within a specialized media player
US10832123B2 (en) * 2016-08-12 2020-11-10 Xilinx Technology Beijing Limited Compression of deep neural networks with proper use of mask
US9965863B2 (en) 2016-08-26 2018-05-08 Elekta, Inc. System and methods for image segmentation using convolutional neural network
US9947102B2 (en) 2016-08-26 2018-04-17 Elekta, Inc. Image segmentation using neural network method
US10963775B2 (en) 2016-09-23 2021-03-30 Samsung Electronics Co., Ltd. Neural network device and method of operating neural network device
CN106651973B (zh) * 2016-09-28 2020-10-02 北京旷视科技有限公司 图像结构化方法及装置
FR3057692A1 (fr) * 2016-10-13 2018-04-20 Parrot Drones Procede et systeme electronique de detection d'une cible, programme d'ordinateur associe
JP6525934B2 (ja) * 2016-10-14 2019-06-05 キヤノン株式会社 画像処理装置および制御方法
US9881207B1 (en) * 2016-10-25 2018-01-30 Personify, Inc. Methods and systems for real-time user extraction using deep learning networks
US20180121729A1 (en) * 2016-11-02 2018-05-03 Umbo Cv Inc. Segmentation-based display highlighting subject of interest
CN106570885A (zh) * 2016-11-10 2017-04-19 河海大学 基于亮度和纹理融合阈值的背景建模方法
CN108073929B (zh) 2016-11-15 2023-11-24 北京三星通信技术研究有限公司 基于动态视觉传感器的物体检测方法及设备
CN106599805B (zh) * 2016-12-01 2019-05-21 华中科技大学 一种基于有监督数据驱动的单目视频深度估计方法
CN110062934B (zh) * 2016-12-02 2023-09-01 谷歌有限责任公司 使用神经网络确定图像中的结构和运动
US10318827B2 (en) 2016-12-19 2019-06-11 Waymo Llc Object detection neural networks
KR20180073314A (ko) 2016-12-22 2018-07-02 삼성전자주식회사 컨볼루션 신경망 시스템 및 그것의 동작 방법
US11138436B2 (en) * 2016-12-29 2021-10-05 Magic Leap, Inc. Automatic control of wearable display device based on external conditions
US10249044B2 (en) * 2016-12-30 2019-04-02 Facebook, Inc. Image segmentation with touch interaction
CN106779054B (zh) * 2016-12-31 2018-05-29 中国科学技术大学 一种基于雾天图像的pm2.5估计方法
US11423548B2 (en) * 2017-01-06 2022-08-23 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos
US10636141B2 (en) 2017-02-09 2020-04-28 Siemens Healthcare Gmbh Adversarial and dual inverse deep learning networks for medical image analysis
CN109964234A (zh) * 2017-02-17 2019-07-02 欧姆龙株式会社 评估诸如半导体基板的产品的质量
CN108509961A (zh) * 2017-02-27 2018-09-07 北京旷视科技有限公司 图像处理方法和装置
US10635927B2 (en) 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
CN107067011B (zh) * 2017-03-20 2019-05-03 北京邮电大学 一种基于深度学习的车辆颜色识别方法与装置
CN107092926A (zh) * 2017-03-30 2017-08-25 哈尔滨工程大学 基于深度学习的服务机器人物体识别算法
US11551335B2 (en) * 2017-04-07 2023-01-10 Intel Corporation Methods and systems using camera devices for deep channel and convolutional neural network images and formats
CN110352429B (zh) * 2017-04-20 2023-05-16 赫尔实验室有限公司 用于对象的判别定位的机器视觉系统
CN107169421B (zh) * 2017-04-20 2020-04-28 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
US10909407B2 (en) * 2017-05-24 2021-02-02 Hrl Laboratories, Llc Transfer learning of convolutional neural networks from visible color (RBG) to infrared (IR) domain
WO2018232754A1 (en) * 2017-06-23 2018-12-27 Microsoft Technology Licensing, Llc. JOINT OBJECT DETECTION BASED ON COLLABORATIVE INFORMATION
WO2019006473A1 (en) * 2017-06-30 2019-01-03 The Johns Hopkins University ACTION RECOGNITION SYSTEMS AND METHOD USING MICRO-DOPPLER SIGNATURES AND RECURRING NEURAL NETWORKS
US10726307B2 (en) 2017-06-30 2020-07-28 Ai Systems Co., Ltd. Real-time identification of moving objects in video images
US10650278B1 (en) 2017-07-21 2020-05-12 Apple Inc. Semantic labeling of point clouds using images
US10395144B2 (en) * 2017-07-24 2019-08-27 GM Global Technology Operations LLC Deeply integrated fusion architecture for automated driving systems
CA3070850A1 (en) * 2017-07-31 2019-02-07 Smiths Detection Inc. System for determining the presence of a substance of interest in a sample
US10474925B2 (en) 2017-07-31 2019-11-12 Industrial Technology Research Institute Deep neural network with side branches for recognizing and classifying media data and method for using the same
US10275646B2 (en) * 2017-08-03 2019-04-30 Gyrfalcon Technology Inc. Motion recognition via a two-dimensional symbol having multiple ideograms contained therein
CN107563388A (zh) * 2017-09-18 2018-01-09 东北大学 一种基于深度信息预分割的卷积神经网络物体识别方法
US11518036B2 (en) * 2017-09-29 2022-12-06 Honda Motor Co., Ltd. Service providing system, service providing method and management apparatus for service providing system
CN107958257A (zh) * 2017-10-11 2018-04-24 华南理工大学 一种基于深度神经网络的中药材识别方法
US11216988B2 (en) 2017-10-24 2022-01-04 L'oreal System and method for image processing using deep neural networks
JP2019079381A (ja) * 2017-10-26 2019-05-23 トヨタ自動車株式会社 機械学習システム及び交通情報提供システム
US11004209B2 (en) * 2017-10-26 2021-05-11 Qualcomm Incorporated Methods and systems for applying complex object detection in a video analytics system
CN108958801B (zh) * 2017-10-30 2021-06-25 上海寒武纪信息科技有限公司 神经网络处理器及使用处理器执行向量最大值指令的方法
US11144786B2 (en) * 2017-11-02 2021-10-12 Canon Kabushiki Kaisha Information processing apparatus, method for controlling information processing apparatus, and storage medium
US10762125B2 (en) 2017-11-14 2020-09-01 International Business Machines Corporation Sorting images based on learned actions
US10535138B2 (en) * 2017-11-21 2020-01-14 Zoox, Inc. Sensor data segmentation
CN108010031B (zh) * 2017-12-15 2020-12-04 厦门美图之家科技有限公司 一种人像分割方法及移动终端
CN109934077B (zh) * 2017-12-19 2020-12-04 杭州海康威视数字技术股份有限公司 一种图像识别方法和电子设备
CN108154465B (zh) * 2017-12-19 2022-03-01 北京小米移动软件有限公司 图像处理方法及装置
EP3506160B1 (en) 2017-12-28 2022-06-01 Dassault Systèmes Semantic segmentation of 2d floor plans with a pixel-wise classifier
US10891741B2 (en) * 2017-12-29 2021-01-12 RetailNext, Inc. Human analytics using fusion of image and depth modalities
US10482600B2 (en) 2018-01-16 2019-11-19 Siemens Healthcare Gmbh Cross-domain image analysis and cross-domain image synthesis using deep image-to-image networks and adversarial networks
JP7208713B2 (ja) * 2018-02-13 2023-01-19 キヤノン株式会社 画像解析装置および画像解析方法
US11615623B2 (en) * 2018-02-19 2023-03-28 Nortek Security & Control Llc Object detection in edge devices for barrier operation and parcel delivery
US11295139B2 (en) * 2018-02-19 2022-04-05 Intellivision Technologies Corp. Human presence detection in edge devices
US10586129B2 (en) 2018-02-21 2020-03-10 International Business Machines Corporation Generating artificial images for use in neural networks
CN108345866B (zh) * 2018-03-08 2021-08-24 天津师范大学 一种基于深度特征学习的行人再识别方法
CN108615046A (zh) * 2018-03-16 2018-10-02 北京邮电大学 一种储粮害虫检测识别方法及装置
US10853561B2 (en) * 2019-04-10 2020-12-01 Fetch Robotics, Inc. System and method for automatically annotating a map
CN108596964B (zh) * 2018-05-02 2020-07-03 厦门美图之家科技有限公司 深度数据获取方法、装置及可读存储介质
CN108647734B (zh) * 2018-05-15 2022-03-11 上海达显智能科技有限公司 一种食物图像大数据采集方法、采集系统及食物识别方法
US11669724B2 (en) 2018-05-17 2023-06-06 Raytheon Company Machine learning using informed pseudolabels
EP3572972A1 (en) * 2018-05-23 2019-11-27 IDEMIA Identity & Security Germany AG Extendend convolutional neural network for document analysis
CN108875141B (zh) * 2018-05-24 2022-08-19 上海集成电路研发中心有限公司 一种基于神经网络模型确定芯片全掩模聚焦参数的方法
KR102078133B1 (ko) * 2018-06-25 2020-02-17 주식회사 수아랩 데이터의 어노말리 감지 방법
US10776941B2 (en) 2018-07-02 2020-09-15 Chiral Software, Inc. Optimized neural network structure
CN109145956B (zh) * 2018-07-26 2021-12-14 上海慧子视听科技有限公司 评分方法、装置、计算机设备及存储介质
US11798126B2 (en) 2018-07-30 2023-10-24 Hewlett-Packard Development Company, L.P. Neural network identification of objects in 360-degree images
CN112602091A (zh) * 2018-07-30 2021-04-02 优创半导体科技有限公司 使用针对不同图像场训练的多个神经网络进行物体检测
US10769543B2 (en) * 2018-08-01 2020-09-08 Forcepoint Llc Double-layered image classification endpoint solution
WO2020033967A1 (en) 2018-08-10 2020-02-13 Buffalo Automation Group Inc. Training a deep learning system for maritime applications
US10782691B2 (en) 2018-08-10 2020-09-22 Buffalo Automation Group Inc. Deep learning and intelligent sensing system integration
US10475250B1 (en) * 2018-08-30 2019-11-12 Houzz, Inc. Virtual item simulation using detected surfaces
US10223614B1 (en) * 2018-09-04 2019-03-05 StradVision, Inc. Learning method, learning device for detecting lane through classification of lane candidate pixels and testing method, testing device using the same
US10796201B2 (en) 2018-09-07 2020-10-06 Toyota Research Institute, Inc. Fusing predictions for end-to-end panoptic segmentation
CN109345510A (zh) * 2018-09-07 2019-02-15 百度在线网络技术(北京)有限公司 物体检测方法、装置、设备、存储介质及车辆
CN110889851B (zh) * 2018-09-11 2023-08-01 苹果公司 针对深度和视差估计的语义分割的稳健用途
US12094456B2 (en) 2018-09-13 2024-09-17 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and system
KR102662474B1 (ko) * 2018-09-14 2024-04-30 테슬라, 인크. 트레이닝 데이터를 획득하기 위한 시스템 및 방법
US11325252B2 (en) * 2018-09-15 2022-05-10 X Development Llc Action prediction networks for robotic grasping
WO2020061236A1 (en) * 2018-09-18 2020-03-26 Focal Systems, Inc. Product onboarding machine
US11783707B2 (en) 2018-10-09 2023-10-10 Ford Global Technologies, Llc Vehicle path planning
US10977548B2 (en) 2018-12-05 2021-04-13 Bank Of America Corporation Generation of capsule neural networks for enhancing image processing platforms
US10929986B2 (en) 2018-12-19 2021-02-23 Fca Us Llc Techniques for using a simple neural network model and standard camera for image detection in autonomous driving
RU2685996C1 (ru) * 2018-12-26 2019-04-23 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система предиктивного избегания столкновения манипулятора с человеком
US10991244B2 (en) 2018-12-28 2021-04-27 Beijing Voyager Technology Co., Ltd. On-board vehicle stop cause determination system
US10990105B2 (en) * 2018-12-28 2021-04-27 Beijing Voyager Technology Co., Ltd. Vehicle-based virtual stop and yield line detection
US11435751B2 (en) 2018-12-28 2022-09-06 Beijing Voyager Technology Co., Ltd. Vehicle-based road obstacle identification system
US11557107B2 (en) 2019-01-02 2023-01-17 Bank Of America Corporation Intelligent recognition and extraction of numerical data from non-numerical graphical representations
US11748903B2 (en) * 2019-01-02 2023-09-05 Zebra Technologies Corporation System and method for robotic object detection using a convolutional neural network
US11556860B2 (en) * 2019-04-15 2023-01-17 International Business Machines Corporation Continuous learning system for models without pipelines
CN110245564B (zh) * 2019-05-14 2024-07-09 平安科技(深圳)有限公司 一种行人检测方法、系统及终端设备
CN113874883A (zh) 2019-05-21 2021-12-31 奇跃公司 手部姿势估计
US11460851B2 (en) 2019-05-24 2022-10-04 Ford Global Technologies, Llc Eccentricity image fusion
US11521494B2 (en) 2019-06-11 2022-12-06 Ford Global Technologies, Llc Vehicle eccentricity mapping
WO2020252371A1 (en) * 2019-06-14 2020-12-17 Magic Leap, Inc. Scalable three-dimensional object recognition in a cross reality system
KR102271418B1 (ko) * 2019-06-17 2021-07-01 라온피플 주식회사 제품 검사를 위한 자동 학습 방법 및 시스템
CN110232418B (zh) * 2019-06-19 2021-12-17 达闼机器人有限公司 一种语义识别方法、终端及计算机可读存储介质
US11662741B2 (en) 2019-06-28 2023-05-30 Ford Global Technologies, Llc Vehicle visual odometry
US11694432B2 (en) 2019-07-23 2023-07-04 Toyota Research Institute, Inc. System and method for augmenting a visual output from a robotic device
US20210042398A1 (en) * 2019-08-08 2021-02-11 Pulsepoint, Inc. Validation of Properties of a User Device in a Network
US11741370B2 (en) * 2019-08-28 2023-08-29 International Business Machines Corporation Transfer learning based on cross-domain homophily influences
US11475297B2 (en) 2019-08-28 2022-10-18 International Business Machines Corporation Cross-domain homophily quantification for transfer learning
CN110738116B (zh) * 2019-09-16 2023-08-08 创新先进技术有限公司 活体检测方法及装置和电子设备
US11068747B2 (en) 2019-09-27 2021-07-20 Raytheon Company Computer architecture for object detection using point-wise labels
US20220288790A1 (en) * 2019-10-03 2022-09-15 Sony Group Corporation Data processing device, data processing method, and robot
US11276250B2 (en) * 2019-10-23 2022-03-15 International Business Machines Corporation Recognition for overlapped patterns
TWI775006B (zh) * 2019-11-01 2022-08-21 財團法人工業技術研究院 擬真虛擬人臉產生方法與系統,及應用其之人臉辨識方法與系統
CN111144207B (zh) * 2019-11-21 2023-07-07 东南大学 一种基于多模态信息感知的人体检测和跟踪方法
JP7482620B2 (ja) * 2019-11-28 2024-05-14 株式会社Preferred Networks データ生成方法、データ表示方法、データ生成装置及びデータ表示システム
TWI753344B (zh) * 2019-12-30 2022-01-21 奇景光電股份有限公司 混合型深度估算系統
US20210236227A1 (en) * 2020-01-31 2021-08-05 Gauss Surgical, Inc. Instrument tracking machine
US11676391B2 (en) 2020-04-16 2023-06-13 Raytheon Company Robust correlation of vehicle extents and locations when given noisy detections and limited field-of-view image frames
US11716536B2 (en) * 2020-04-22 2023-08-01 Canon Kabushiki Kaisha Control device, image capturing apparatus, and control method for detecting obstacle
US11210544B2 (en) 2020-05-27 2021-12-28 Polarr, Inc. Distributable descriptive recipe for intelligent image and video processing systems
CN111681229B (zh) * 2020-06-10 2023-04-18 创新奇智(上海)科技有限公司 深度学习模型训练方法、可穿戴衣服瑕疵识别方法及装置
CN111783557B (zh) * 2020-06-11 2023-08-15 北京科技大学 一种基于深度视觉的可穿戴导盲设备及服务器
CN111860425B (zh) * 2020-07-30 2021-04-09 清华大学 一种深度多模态跨层交叉融合方法、终端设备及存储介质
US11602132B2 (en) 2020-10-06 2023-03-14 Sixgill, LLC System and method of counting livestock
US11562184B2 (en) 2021-02-22 2023-01-24 Raytheon Company Image-based vehicle classification
CN113112464B (zh) * 2021-03-31 2022-06-21 四川大学 基于跨模态交流编码器的rgbd显著性物体检测方法及系统
CN113256721B (zh) * 2021-06-21 2021-12-03 浙江光珀智能科技有限公司 一种室内多人三维高精度定位方法
CN113608663B (zh) * 2021-07-12 2023-07-25 哈尔滨工程大学 一种基于深度学习和k-曲率法的指尖跟踪方法
CN113554691B (zh) * 2021-07-22 2022-05-10 河北农业大学 一种植株高度测量方法
US20240221216A1 (en) * 2021-08-09 2024-07-04 Arcturus Industries Llc Hand-held controller pose tracking system
CN113591770B (zh) * 2021-08-10 2023-07-18 中国科学院深圳先进技术研究院 基于人工智能导盲的多模态融合障碍物检测方法及装置
US12046047B2 (en) * 2021-12-07 2024-07-23 Ford Global Technologies, Llc Object detection
CA3240286A1 (en) * 2021-12-15 2023-06-22 Matthew David Frei Computer vision systems and methods for segmenting and classifying building components, contents, materials, and attributes
KR20230131038A (ko) * 2022-03-04 2023-09-12 현대자동차주식회사 로봇의 이동속도 제어 장치 및 그 방법
US11455789B1 (en) * 2022-03-22 2022-09-27 Illuscio, Inc. Systems and methods for dynamically classifying point cloud data points
US11645824B1 (en) 2022-03-22 2023-05-09 Illuscio, Inc. Systems and methods for defining, bonding, and editing point cloud data points with primitives
CN116423005B (zh) * 2023-06-14 2023-10-31 苏州松德激光科技有限公司 一种提高焊接精度的锡焊工艺优化方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013142991A (ja) * 2012-01-10 2013-07-22 Nippon Telegr & Teleph Corp <Ntt> 物体領域検出装置、方法、及びプログラム
JP2014106685A (ja) * 2012-11-27 2014-06-09 Osaka Univ 車両周辺監視装置
WO2015033576A1 (ja) * 2013-09-06 2015-03-12 日本電気株式会社 セキュリティシステム、セキュリティ方法及び非一時的なコンピュータ可読媒体
WO2015157526A1 (en) * 2014-04-09 2015-10-15 Entrupy Inc. Authenticating physical objects using machine learning from microscopic variations
JP2016024503A (ja) * 2014-07-16 2016-02-08 日本電信電話株式会社 クラス分類装置、方法、及びプログラム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6125194A (en) * 1996-02-06 2000-09-26 Caelum Research Corporation Method and system for re-screening nodules in radiological images using multi-resolution processing, neural network, and image processing
US6973201B1 (en) * 2000-11-01 2005-12-06 Koninklijke Philips Electronics N.V. Person tagging in an image processing system utilizing a statistical model based on both appearance and geometric features
US7912246B1 (en) * 2002-10-28 2011-03-22 Videomining Corporation Method and system for determining the age category of people based on facial images
US7113185B2 (en) * 2002-11-14 2006-09-26 Microsoft Corporation System and method for automatically learning flexible sprites in video layers
JP3987013B2 (ja) * 2003-09-01 2007-10-03 本田技研工業株式会社 車両周辺監視装置
US20060291697A1 (en) * 2005-06-21 2006-12-28 Trw Automotive U.S. Llc Method and apparatus for detecting the presence of an occupant within a vehicle
US7747044B2 (en) 2006-01-20 2010-06-29 The Johns Hopkins University Fusing multimodal biometrics with quality estimates via a bayesian belief network
CN103778635B (zh) * 2006-05-11 2016-09-28 苹果公司 用于处理数据的方法和装置
US8131011B2 (en) * 2006-09-25 2012-03-06 University Of Southern California Human detection and tracking system
JP2011013732A (ja) * 2009-06-30 2011-01-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US8594425B2 (en) * 2010-05-31 2013-11-26 Primesense Ltd. Analysis of three-dimensional scenes
US8437506B2 (en) * 2010-09-07 2013-05-07 Microsoft Corporation System for fast, probabilistic skeletal tracking
US9064145B2 (en) 2011-04-20 2015-06-23 Institute Of Automation, Chinese Academy Of Sciences Identity recognition based on multiple feature fusion for an eye image
US9740937B2 (en) * 2012-01-17 2017-08-22 Avigilon Fortress Corporation System and method for monitoring a retail environment using video content analysis with depth sensing
US9101312B2 (en) 2012-04-18 2015-08-11 TBI Diagnostics LLC System for the physiological evaluation of brain function
US9811775B2 (en) 2012-12-24 2017-11-07 Google Inc. Parallelizing neural networks during training
US9251437B2 (en) 2012-12-24 2016-02-02 Google Inc. System and method for generating training cases for image classification
US9668699B2 (en) * 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US9202144B2 (en) * 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
US9224068B1 (en) * 2013-12-04 2015-12-29 Google Inc. Identifying objects in images
US8965112B1 (en) * 2013-12-09 2015-02-24 Google Inc. Sequence transcription with deep neural networks
US9430829B2 (en) * 2014-01-30 2016-08-30 Case Western Reserve University Automatic detection of mitosis using handcrafted and convolutional neural network features
IL231862A (en) * 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
US9317785B1 (en) * 2014-04-21 2016-04-19 Video Mining Corporation Method and system for determining ethnicity category of facial images based on multi-level primary and auxiliary classifiers
JP2016006626A (ja) * 2014-05-28 2016-01-14 株式会社デンソーアイティーラボラトリ 検知装置、検知プログラム、検知方法、車両、パラメータ算出装置、パラメータ算出プログラムおよびパラメータ算出方法
WO2016054778A1 (en) * 2014-10-09 2016-04-14 Microsoft Technology Licensing, Llc Generic object detection in images
CN104850825B (zh) * 2015-04-18 2018-04-27 中国计量学院 一种基于卷积神经网络的人脸图像颜值计算方法
CN104992142B (zh) * 2015-06-03 2018-04-17 江苏大学 一种基于深度学习和属性学习相结合的行人识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013142991A (ja) * 2012-01-10 2013-07-22 Nippon Telegr & Teleph Corp <Ntt> 物体領域検出装置、方法、及びプログラム
JP2014106685A (ja) * 2012-11-27 2014-06-09 Osaka Univ 車両周辺監視装置
WO2015033576A1 (ja) * 2013-09-06 2015-03-12 日本電気株式会社 セキュリティシステム、セキュリティ方法及び非一時的なコンピュータ可読媒体
WO2015157526A1 (en) * 2014-04-09 2015-10-15 Entrupy Inc. Authenticating physical objects using machine learning from microscopic variations
JP2016024503A (ja) * 2014-07-16 2016-02-08 日本電信電話株式会社 クラス分類装置、方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
原田 達也: "機械学習の画像認識への応用", シミュレーション, vol. 第34巻 第4号, JPN6017048759, 15 December 2015 (2015-12-15), JP, pages 18 - 24, ISSN: 0003705541 *
柴田 雅聡: "距離画像セグメンテーションに基づくリアルタイム人物検出", 日本ロボット学会誌, vol. 第32巻 第6号, JPN6017048757, 15 July 2014 (2014-07-15), JP, pages 68 - 75, ISSN: 0003705540 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101894278B1 (ko) * 2018-01-18 2018-09-04 주식회사 뷰노 일련의 슬라이스 영상을 재구성하는 방법 및 이를 이용한 장치
US11816833B2 (en) 2018-01-18 2023-11-14 Vuno Inc. Method for reconstructing series of slice images and apparatus using same
JP2019149142A (ja) * 2018-02-26 2019-09-05 財團法人工業技術研究院Industrial Technology Research Institute 対象物標識のためのシステムおよび方法
US10685263B2 (en) 2018-02-26 2020-06-16 Industrial Technology Research Institute System and method for object labeling
WO2019167650A1 (ja) * 2018-03-01 2019-09-06 株式会社牧野フライス製作所 工具経路を生成するための方法及び装置
JP2019150902A (ja) * 2018-03-01 2019-09-12 株式会社牧野フライス製作所 工具経路を生成するための方法及び装置
JP7126360B2 (ja) 2018-03-01 2022-08-26 株式会社牧野フライス製作所 工具経路を生成するための方法及び装置
US11556110B2 (en) 2018-03-01 2023-01-17 Makino Milling Machine Co., Ltd. Method and device for generating tool paths
JP2019160303A (ja) * 2018-03-09 2019-09-19 株式会社リコー ライトフィールドカメラによりキャプチャされる対象物の分類のための深層学習アーキテクチャ
US10657425B2 (en) 2018-03-09 2020-05-19 Ricoh Company, Ltd. Deep learning architectures for the classification of objects captured with a light-field camera
JP2021518797A (ja) * 2018-03-23 2021-08-05 曹可瀚 寝具及びその調整方法
JP7290240B2 (ja) 2018-04-27 2023-06-13 成典 田中 対象物認識装置
JP2019192059A (ja) * 2018-04-27 2019-10-31 田中 成典 対象物認識装置
JP7403534B2 (ja) 2018-09-12 2023-12-22 株式会社ソニー・インタラクティブエンタテインメント 人間の3d再構成を生成するための方法とシステム
JP2021536613A (ja) * 2018-09-12 2021-12-27 株式会社ソニー・インタラクティブエンタテインメント 人間の3d再構成を生成するための方法とシステム
WO2020080250A1 (ja) 2018-10-15 2020-04-23 オムロン株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
US11574397B2 (en) 2018-10-15 2023-02-07 Omron Corporation Image processing device, image processing method, and computer readable recording medium
WO2020115866A1 (ja) * 2018-12-06 2020-06-11 株式会社DeepX 深度処理システム、深度処理プログラムおよび深度処理方法
JP2020112934A (ja) * 2019-01-09 2020-07-27 株式会社アトラックラボ 移動体、移動体の制御方法及びコンピュータプログラム
JP7375806B2 (ja) 2019-02-26 2023-11-08 コニカミノルタ株式会社 画像処理装置、及び画像処理方法
JPWO2020175085A1 (ja) * 2019-02-26 2021-12-23 コニカミノルタ株式会社 画像処理装置、及び画像処理方法
WO2020175085A1 (ja) * 2019-02-26 2020-09-03 コニカミノルタ株式会社 画像処理装置、及び画像処理方法
US12094160B2 (en) 2019-04-22 2024-09-17 Nec Corporation Object detection apparatus, object detection system, object detection method, and non-transitory computer readable medium storing program
JP7156511B2 (ja) 2019-04-22 2022-10-19 日本電気株式会社 物体検出装置、物体検出システム、物体検出方法及びプログラム
WO2020217283A1 (ja) * 2019-04-22 2020-10-29 日本電気株式会社 物体検出装置、物体検出システム、物体検出方法及びプログラムが格納された非一時的なコンピュータ可読媒体
JPWO2020217283A1 (ja) * 2019-04-22 2020-10-29
JP7321579B2 (ja) 2019-07-01 2023-08-07 株式会社アクセル 学習装置、推論装置、学習方法、推論方法、コンピュータシステムおよびプログラム
US11615609B2 (en) 2019-07-01 2023-03-28 Axell Corporation Learning apparatus, inferring apparatus, learning method, program, and inferring method
JP2022036131A (ja) * 2019-07-01 2022-03-04 株式会社アクセル 学習装置、推論装置、学習方法、推論方法、コンピュータシステムおよびプログラム
JP2022074085A (ja) * 2020-10-30 2022-05-17 ホンダ リサーチ インスティテュート ヨーロッパ ゲーエムベーハー 人が環境を評価するのを支援するための方法およびシステム
JP7399926B2 (ja) 2020-10-30 2023-12-18 ホンダ リサーチ インスティテュート ヨーロッパ ゲーエムベーハー 人が環境を評価するのを支援するための方法およびシステム
KR102589433B1 (ko) 2020-12-24 2023-10-16 동의대학교 산학협력단 스테레오 카메라 기반 미학습 물체 검출 방법 및 시스템
KR20220092746A (ko) * 2020-12-24 2022-07-04 동의대학교 산학협력단 스테레오 카메라 기반 미학습 물체 검출 방법 및 시스템
WO2024190158A1 (ja) * 2023-03-14 2024-09-19 株式会社Jvcケンウッド 画像分類装置、画像分類方法、および画像分類プログラム
JP7566217B1 (ja) 2024-01-26 2024-10-11 三菱電機株式会社 物体検出装置及び物体検出方法

Also Published As

Publication number Publication date
JP6288221B2 (ja) 2018-03-07
US20160180195A1 (en) 2016-06-23
US9542626B2 (en) 2017-01-10

Similar Documents

Publication Publication Date Title
JP6288221B2 (ja) 深層畳み込みニューラルネットワークによるレイヤベースの物体検出の強化
US9355334B1 (en) Efficient layer-based object recognition
CN109934848B (zh) 一种基于深度学习的运动物体精准定位的方法
US20220261087A1 (en) Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data
CN113330490B (zh) 三维(3d)辅助个性化家庭对象检测
Leykin et al. Pedestrian tracking by fusion of thermal-visible surveillance videos
Kumar et al. Monocular fisheye camera depth estimation using sparse lidar supervision
US7831087B2 (en) Method for visual-based recognition of an object
JP6018674B2 (ja) 被写体再識別のためのシステム及び方法
Leykin et al. Thermal-visible video fusion for moving target tracking and pedestrian classification
Damen et al. Detecting carried objects from sequences of walking pedestrians
Leykin et al. Robust multi-pedestrian tracking in thermal-visible surveillance videos
Liciotti et al. People detection and tracking from an RGB-D camera in top-view configuration: review of challenges and applications
WO2013101460A2 (en) Clustering-based object classification
US11062469B2 (en) 4D tracking utilizing depth data from multiple 3D cameras
CN109035305B (zh) 一种基于rgb-d低视角情况下的室内人体检测与跟踪方法
CN113378649A (zh) 身份、位置和动作识别方法、系统、电子设备及存储介质
JP2016206795A (ja) 実空間情報によって学習する識別器を用いて物体を追跡する装置、プログラム及び方法
Liem et al. Multi-person localization and track assignment in overlapping camera views
Qian et al. 3D object recognition by geometric context and Gaussian-mixture-model-based plane classification
Thakur et al. Autonomous pedestrian detection for crowd surveillance using deep learning framework
Swadzba et al. Dynamic 3D scene analysis for acquiring articulated scene models
JP7488674B2 (ja) 物体認識装置、物体認識方法及び物体認識プログラム
KR20160113966A (ko) 행동 인식 방법 및 그 장치
Singh et al. Human activity tracking using star skeleton and activity recognition using hmms and neural network

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180122

R151 Written notification of patent or utility model registration

Ref document number: 6288221

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151