JP6807968B2 - Cnnモデルを用いる物体検出方法及び同様のそれを用いる物体検出装置 - Google Patents

Cnnモデルを用いる物体検出方法及び同様のそれを用いる物体検出装置 Download PDF

Info

Publication number
JP6807968B2
JP6807968B2 JP2019028154A JP2019028154A JP6807968B2 JP 6807968 B2 JP6807968 B2 JP 6807968B2 JP 2019028154 A JP2019028154 A JP 2019028154A JP 2019028154 A JP2019028154 A JP 2019028154A JP 6807968 B2 JP6807968 B2 JP 6807968B2
Authority
JP
Japan
Prior art keywords
object detection
algorithm
feature
stage
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019028154A
Other languages
English (en)
Other versions
JP2020095660A (ja
Inventor
威豪 ▲頼▼
威豪 ▲頼▼
珮蓉 梁
珮蓉 梁
泗得 ▲蒋▼
泗得 ▲蒋▼
澤民 陳
澤民 陳
聖彰 阮
聖彰 阮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of JP2020095660A publication Critical patent/JP2020095660A/ja
Application granted granted Critical
Publication of JP6807968B2 publication Critical patent/JP6807968B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本開示は、畳み込みニューラルネットワーク(CNN、convolutional neural network)を用いる物体検出方法及び同方法を用いる物体検出装置に関する。
近年においては自律走行車両の開発が重要な研究開発プロジェクトとなっており、検出又はセンシング装置が特に重要となっている。検出装置については次のことをなすことによって改良することができる:より信頼性のあるセンシングデータを提供すること、及び特定のタイプの環境内での車体周辺に関するより正確な情報を提供すること。検出装置は、車体の周囲についてのセンサ測定値に基づいて高精度情報を作成することもできる。検出装置の構築において、物体検出が必須的な技術の1つとなる。車体に搭載された高解像度カメラによって撮像された画像に基づいて、車両の前方に見られる物体の位置及びタイプを識別することによって、そしてまた、コンピュータビジョン及びディープラーニング等の技術をも組み合わせることによって、物体を回避すべきか制動するべきかを決定することに関して車両が正確な決定をなすことができる。意思決定は、自己の目を通じての観測に基づいた戦略を採用する人工知能のそれに似ていることができる。
もっとも、様々な物体検出法はディープラーニング方法に依拠することができる。ディープラーニングとは、学習モデルを変更するために訓練用データを用いることについての汎用的な用語である。ディープラーニングにおいては、学習モデルに関して訓練及び近似をなすために大量のコンピューティング資源を要し得る。検出装置が物体検出を行う場合、訓練済みモデルは順伝播計算のために用いられることになる。訓練段階及び予測段階の双方において計算量が相当なものとなり得る。高演算能力を有するハードウェア装置なくしては、そのような試みはほぼ無理となろう。なぜならば、単位時間当たりに処理されるべき画像個数が比較的に大きいからである。したがって、物体検出についてのアルゴリズムレベルでの継続的最適化がこの時点で必要となる。
物体検出アルゴリズムは、ある人が運転している際にセンシング範囲内にある任意の物体をセンシングすることを支援でき、また、アルゴリズムは経路早期計画機能をもたらす他のシステムを提供することもできる。卓越した検出装置がこの要請を充足するためには、少なくとも次の3つの重要な特性を具備することを要する:高ボリューム特性(即ち、識別可能物体の個数);正確性(即ち、物体のタイプ及び物体の位置について正しく識別すること)及び;迅速性(即ち、瞬発的な演算レートを達成するために要する応答性)。上述の特性を充足するには、既存のディープラーニングモデルに対して改良及び変更を施すことを要する。
表1は既存のディープラーニングモデルにおける3種類の物体検出モデル間での諸特性の比較を示す。
表1は性能及び計算量的複雑度を検出するために物体検出が有することを必要とされる条件を示す。なぜならば、物体検出における高性能化はより高度な計算量的複雑度をもたらすからである。ここで、ダブルステップDL物体検出モデルが最高の検出精度を有しているが、典型的には最大の計算量的コストを要する。詳述するに、ダブルステップDL物体検出は単一ステップDL物体検出と似た畳み込み層を採用するのであり、ダブルステップDL法はそれらの畳み込み層の後に領域提案ネットワーク(RPN、region proposal network)を活用して提供されたフィーチャマップから興味対象領域(ROI、region of interest)を提案する点で異なる。図1は、最後の畳み込み層からの既抽出フィーチャマップに基づいてのRPNからの提案された興味対象領域を示す。さらに詳述するに、プロセッサは、RPNを用いてダブルステップDL物体検出モデルにおける何らかのROIを提案することによって、提供されたフィーチャマップについてのセット(即ち、図1に示された入力フレーム)を処理することになるのであり、フィーチャマップは複数の不使用フィーチャ(即ち、不使用フィーチャ(UNU、unused feature))を含む。複数の不使用フィーチャUNUは一定量の計算量的コストを要するのであり、複数の不使用フィーチャUNUは何らの検出結果に寄与しない故に非効率的に費やされることになる。
換言するに、ダブルステップDL物体検出モデルにおけるRPNは、検出フレームワークの効率性を減じる2つの短所を有している。第1に、RPNは、提供されたフィーチャマップをROI提案との関係で任意の潜在的候補に関して分析する故に、何らのROI提案に寄与しない複数の不使用フィーチャUNUが存し得るのであり、されどこれらの不使用フィーチャUNUがRPNによって演算されるためには一定量の計算量的コストを要することになる。第1のフィーチャは不必要な計算部分であり(即ち、複数の不使用フィーチャ)、ROIが生じない領域においてなされるオペレーションによって計算量的な無駄が生じる。第2に、ダブルステップDL物体検出におけるRPN現在位置によってロバストな検出性能が実現されるも、それが非効率な学習及び推測をもたらし得る。代替的には、畳み込み層の前にROI提案を設けて、ネットワーク規模及びそれに関する計算量的負荷を相当程度減じることができる。
景技術の項目で先述したように、ダブルステップDL物体検出モデルにおけるRPNは、検出フレームワーク効率性を減じる2つの短所を有している:第1には、不使用フィーチャUNUは取るに足らないフィーチャであり、ROIが生じない領域におけるオペレーションによって計算量的な無駄がもたらされる;また、第2に、非効率な学習及び推測をそれがもたらし得る。したがって、瞬間的な演算速度を向上させ、また不要な計算のデータの量を減じるためには、CNNモデルを用いる物体検出モデル及び同方法を用いる物体検出装置を提案することが必要である。
したがって、上述の問題を解決するために、本開示は、CNNモデルを用いる物体検出モデル及び同方法を用いる物体検出装置を開示する。
例示的実施形態の1つによれば、本願開示は、CNNモデルを用いる物体検出方法であって次のステップを非限定的に含む方法を対象としている:センサを用いることによってセンサデータを生成するステップ;第1の物体検出アルゴリズムを用いることによってセンサデータを処理して第1の物体検出結果を生成するステップであって、第1の物体検出結果は境界ボックス情報を含む、ステップ;境界ボックス情報に従ってスパース更新マッピングアルゴリズムの複数の段階を用いることによって第1の物体検出結果を処理してCNNモデルにおける更新された第1の物体検出結果の複数の段階を生成するステップ;空間プーリングアルゴリズムの複数の段階を用いることによって更新された第1の物体検出結果の幾つかの段階の第1の段階を処理してスパース更新マッピングアルゴリズムの各段階間で更新された第1の物体検出結果の段階の空間的寸法を減じるステップ;ディープ畳み込み層アルゴリズムの複数の段階を実行してCNNモデルにおける更新された第1の物体検出結果の段階に基づいて複数のフィーチャ結果を対応するように抽出するステップ;ディープ畳み込み層アルゴリズムの幾つかの段階の最後の段階によって生成された最後段階フィーチャ結果に基づいて検出予測を行うステップ。
例示的実施形態の1つによれば、本開示は次の要素を非限定的に含む物体検出装置を対象としている:センサデータを生成するセンサ、及び、センサに接続されたプロセッサであって該プロセッサは少なくとも:第1の物体検出アルゴリズムを用いることによってセンサデータを処理して第1の物体検出結果を生成するステップであって、第1の物体検出結果は境界ボックス情報を含む、ステップと;境界ボックス情報に従ってスパース更新マッピングアルゴリズムの複数の段階を用いることによって第1の物体検出結果を処理してCNNモデルにおける更新された第1の物体検出結果の複数の段階を生成するステップと;空間プーリングアルゴリズムの複数の段階を用いることによって更新された第1の物体検出結果の幾つかの段階の第1の段階を処理してスパース更新マッピングアルゴリズムの各段階間で更新された第1の物体検出結果の段階の空間的寸法を減じるステップと;ディープ畳み込み層アルゴリズムの複数の段階を実行してCNNモデルにおける更新された第1の物体検出結果の段階に基づいて複数のフィーチャ結果を対応するように抽出するステップと;ディープ畳み込み層アルゴリズムの幾つかの段階の最後の段階によって生成された最後段階フィーチャ結果に基づいて検出予測を行うステップとを行うように構成されている、プロセッサ。
本発明の効果は次のものを含み得る:提供された第1の物体検出アルゴリズムを用いることによってROIに従って境界ボックス情報を見つけること;提供されたスパース更新マッピングアルゴリズムを用いることによって更新された第1の物体検出結果の不要な計算領域を除くこと;空間プーリングアルゴリズムについての複数の段階及びディープ畳み込み層アルゴリズムについての複数の段階を提供して検出予測を行うこと。このようにして、瞬間的な演算速度を向上させ得る。
添付の図面は本開示についての理解を促進するために付加されているのであり、この明細書に組み込まれその一部をなす。図面は本開示の実施形態について例示するのであり、明細書と合わさって本開示の諸原理について説明する役割を果たす。
抽出されたフィーチャマップに基づいたRPNからの提案された興味対象領域を示す図である。 本開示の1つの例示的実施形態による物体検出装置についてのハードウェアブロック図である。 本開示の1つの例示的実施形態による物体検出装置を用いる自律車両を示す概略図である。 本開示の1つの例示的実施形態による物体検出方法の諸ステップを示す流れ図である。 本開示の1つの例示的実施形態による物体検出フレームワークについての詳細なブロック図である。 本開示の1つの例示的実施形態による第1の物体検出アルゴリズムについて示す図である。 本開示の1つの例示的実施形態によるスパース更新マッピングアルゴリズムの複数の段階の各々について示す図である。 本開示の1つの例示的実施形態によるディープ畳み込み層アルゴリズムの複数の段階の各々について示す図である。 本開示の1つの例示的実施形態によるディープ畳み込み層アルゴリズムの複数の段階の各々について示す図である。 本開示の1つの例示的実施形態によるディープ畳み込み層アルゴリズムの複数の段階の各々について示す図である。 本開示の1つの例示的実施形態によるディープ畳み込み層アルゴリズムの複数の段階の各々について示す図である。 本開示の1つの例示的実施形態によるディープ畳み込み層アルゴリズムの複数の段階の各々について示す図である。 本開示の1つの例示的実施形態によるディープ畳み込み層アルゴリズムの複数の段階の各々について示す図である。 本開示の1つの例示的実施形態による空間プーリングアルゴリズムの複数の段階の各々について示す図である。 本開示の1つの例示的実施形態による物体検出方法についての別の実装例を示す概略図である。
本開示の例示的実施形態の詳細への言及が以下なされるのであり、例は添付の図面に示されている。可能である場合には、同じ又は同様の部分を参照するために同じ参照符号が図面及び詳細な説明にて使用される。
本開示は、自律車両の指定された視野(FOV、field of view)中の差し迫った物体を検出するための自律車両用のフレームワークを提供するのであり、該フレームワークは、物体検出装置、物体検出装置を用いる自律車両、及び物体検出方法の観点から説明される。装置は自律車両内に設置され得るのでありそれは何らの人間による介入を受けずに自動的に動作することとなるのであり、よって、車両の指定されたFOV内の物体を検出して道路状態についての計算及び決定をなすことが最重要となり得るのである。装置は、次のものを非限定的に含み得る:重複するFOVを有する異なるセンシング装置についての複数のセットであって例えば周囲から2次元(2D)RGBデータを取得するための1つ以上の画像センサを有する撮像装置のセット;各センサについて第1の物体検出アルゴリズムと、スパース更新マッピングアルゴリズムについての複数の段階と、空間プーリングアルゴリズムについての複数の段階と、ディープ畳み込み層アルゴリズムについての複数の段階とを少なくとも実行してフィーチャ結果を生成して検出予測をなすように構成されている処理装置。提供されるフレームワークによって、フィーチャ結果を抽出して検出予測をなして瞬間的な演算速度を向上させるとともに不要なデータ量を減じることができる。図2〜図9は、さらなる詳細と共に提供される物体検出フレームワークについて説明する。
図2は、本開示の1つの例示的実施形態による物体検出装置についてのハードウェアブロック図を示す。非限定的に述べるに、物体検出装置200は、センサ210とプロセッサ220とを含み得る。センサ210は、指定されたFOV内の可視光を捉えて2D画像にするRGB画像センサ(image sensor)等の撮像センサ(imaging sensor)たり得る。プロセッサ220は少なくとも次のことをなすように構成されていることができる:第1の物体検出アルゴリズムを用いてセンサデータを処理して第1の物体検出結果を生成するステップであって第1の物体検出結果は境界ボックス情報を含むステップ。
そして、プロセッサ220は、次のことをなすように構成されていることができる:境界ボックス情報に基づいてスパース更新マッピングアルゴリズムについての複数の段階を用いることによって第1の物体検出結果を処理して、CNNモデル内において更新された第1の物体検出結果についての複数の段階を生成するステップ。その後、プロセッサ220は次のことをなすように構成されていることができる:空間プーリングアルゴリズムの複数の段階を用いることによって更新された第1の物体検出結果の幾つかの段階の第1の段階を処理してスパース更新マッピングアルゴリズムの各段階間で更新された第1の物体検出結果の段階の空間的寸法を減じるステップ。
そして、プロセッサ220は次のことをなすように構成されていることができる:ディープ畳み込み層アルゴリズムの複数の段階を実行してCNNモデルにおける更新された第1の物体検出結果の段階に基づいて複数のフィーチャ結果を対応するように抽出するステップ。最後に、プロセッサ220は次のことをなすように構成されていることができる:ディープ畳み込み層アルゴリズムの幾つかの段階の最後の段階によって生成された最後段階フィーチャ結果に基づいて検出予測を行うステップ。このようにして、本開示は瞬間的な演算速度を向上させまた不要な計算データ量を減じるのであり、これを第1の物体検出アルゴリズムと複数のスパース更新マッピングアルゴリズムと複数の空間プーリングアルゴリズムとディープ畳み込み層アルゴリズムの複数の段階とによってなすのであり、CNNがロバストなデータセットを用いて適切にトレーニングされたが故に識別可能な物体の個数は増大するであろう。
他の実施形態では、物体検出装置200は複数の2D撮像センサを含み得るのであり、プロセッサ220は複数のセンサデータを処理するのに用い得るのであり、当業者であれば実際の局面及び要求に従ってセンサ210の個数を適応的に調節できよう。
図3は、本開示の例示的実施形態の1つによる物体検出装置を用いる自律車両を示す。非限定的に述べるに、自律車両300は図2の物体検出装置200を含み得る。
図4は、本開示の例示的実施形態の1つによる物体検出方法の諸ステップを示す流れ図である。ステップS410では、物体検出装置は、センサによってセンサデータを生成する。ステップS420では、物体検出装置は、第1の物体検出アルゴリズムを用いることによってセンサデータを処理して第1の物体検出結果を生成するのであって、第1の物体検出結果は境界ボックス情報を含む。
ステップS430では、物体検出装置は、境界ボックス情報に従ってスパース更新マッピングアルゴリズムの複数の段階を用いることによって第1の物体検出結果を処理してCNNモデルにおける更新された第1の物体検出結果の複数の段階を生成する。ステップS440では、物体検出装置は、空間プーリングアルゴリズムの複数の段階を用いることによって更新された第1の物体検出結果の幾つかの段階の第1の段階を処理してスパース更新マッピングアルゴリズムの各段階間で更新された第1の物体検出結果の段階の空間的寸法を減じる。ステップS450では、物体検出装置は、ディープ畳み込み層アルゴリズムの複数の段階を実行してCNNモデルにおける更新された第1の物体検出結果の段階に基づいて複数のフィーチャ結果を対応するように抽出する。最後に、ステップS460では、物体検出装置は、ディープ畳み込み層アルゴリズムの幾つかの段階の最後の段階によって生成された最後段階フィーチャ結果に基づいて検出予測を行う。
図5乃至図9では、幾つかの例示的実施形態及び例を用いて、開示される物体検出フレームワークについて説明する。図5は、本開示の例示的実施形態の1つによる物体検出フレームワークについての詳細なブロック図である。この実施形態では、複数タイプのセンシング装置にはセンサ(例えば、RGBカメラアレイ501a)が含まれ得る。RGBカメラアレイ501aは自律車両付近の画像を撮像して適当にセンサデータ(例えば、第t番目のRGB画像データ501)を生成するのであり、第t番目にいうtとはフレーム指数を意味する。換言すれば、RGBカメラアレイ501aは複数の時点における複数のフレームをキャプチャできるのであり、第t番目のRGB画像データ501は時点tにおいてキャプチャされたフレームである。RGBカメラアレイ501aに接続されたプロセッサがあり、該プロセッサは少なくとも第t番目のRGB画像データ501を処理するように構成されている。まず、プロセッサは、第1の物体検出アルゴリズム(例えば、図5に示したCVベースドなROIステップたるS510)を用いることによってセンサデータ(即ち、第t番目のRGB画像データ501)を処理して第1の物体検出結果(即ち、第t番目の検出されたRGB画像データ502)を生成するのであって、第t番目の検出されたRGB画像データ502は境界ボックス情報を含む。そして、プロセッサは、第1の物体検出結果(即ち、第t番目の検出されたRGB画像データ502)とセンサデータ(即ち、第t番目のRGB画像データ501)とをCNNモデル内にて処理するのであり、CNNモデルは例えばS. Ren et al., “Faster R-CNN: Towards Real-time Object Detection with Region Proposal Networks,” CoRR, vol. abs/1506.01497, 2016で教示された高速R−CNNアルゴリズムとすることができる。
詳細な説明では、プロセッサはその後、境界ボックス情報に従ってスパース更新マッピング(SUM、sparse update mapping)アルゴリズム(即ち、SUMアルゴリズムステップS520、S521、S522)の複数の段階を用いることによって第1の物体検出結果を処理して更新された第1の物体検出結果の複数の段階を生成するのであり、プロセッサは、空間プーリング(spatial pooling)アルゴリズム(即ち、空間プーリングアルゴリズムステップS560、S561)の複数の段階を用いることによって更新された第1の物体検出結果の幾つかの段階の第1の段階を処理してスパース更新マッピングアルゴリズムの各段階間で更新された第1の物体検出結果の段階の第1の段階の空間的寸法を減じる。プロセッサは、ディープ畳み込み層(deep convolution layer)アルゴリズム(即ち、ディープ畳み込み層アルゴリズムステップS530、S540、S550)の複数の段階を実行して更新された第1の物体検出結果の段階に基づいて複数のフィーチャ結果(即ち、第t番目のフィーチャマップ1 533、第t番目のフィーチャマップ2 543、第t番目のフィーチャマップk 553)を対応するように抽出するのであり、ディープ畳み込み層アルゴリズムの各段階は畳み込み(convolution)アルゴリズム(即ち、畳み込みアルゴリズムステップS531、S541、S551)を含む。その後、プロセッサは、興味対象領域(ROI、region of interest)プーリングアルゴリズム(即ち、ROIプーリングアルゴリズムステップS570)と境界ボックス回帰アルゴリズム(即ち、境界ボックス回帰アルゴリズムステップS580)とを実行して、ディープ畳み込み層アルゴリズム(即ち、ディープ畳み込み層アルゴリズムステップS550)の幾つかの段階の最後の段階によって生成された最後段階フィーチャ結果に基づいて検出予測(即ち、第t番目の推測結果503)を行う。
より詳しく述べるに、図6は本開示の例示的実施形態の1つによる第1の物体検出アルゴリズムについて例示する。図5〜6を参照するに、プロセッサは、第1の物体検出アルゴリズム(例えば、図5及び図6に示したCVベースドなROIステップたるS510)を用いることによって第t番目のRGB画像データ501を処理して、第1の物体検出結果(例えば、第t番目の検出されたRGB画像データ502)を生成するのであり、第t番目の検出されたRGB画像データ502は境界ボックス情報を含む。詳述するに、プロセッサは、第t番目のRGB画像データ501を検出して、コンピュータビジョン(CV、computer vision)に基づいて興味対象領域(ROI、regions of interest)(例えば、第t番目の検出されたRGB画像データ502に示されている境界ボックス)を探すのであり、ROIは非限定的には人間や車両や物体検出装置の面前にある任意の障害物を含む。その後、プロセッサは、ROIに従って境界ボックス情報を生成するのであって、境界ボックス情報は境界ボックスについての座標情報(例えば、境界ボックスの四隅の座標)を含む。この実施形態では、境界ボックスの検出に関しての検出性能(例えば、偽陽性率)にかかわらず効率的に計算できる任意の種類の物体検出アルゴリズムを用い得ることに留意されたい。
その後、図7では、本開示の例示的実施形態の1つによるスパース更新マッピングアルゴリズムの複数の段階の各々について例示されている。図5及び図7を参照するに、プロセッサは、スパース更新マッピングアルゴリズムの複数の段階を用いることによって第1の物体検出結果(即ち、第t番目の検出されたRGB画像データ502)を処理して、CNNモデル内の境界ボックス情報に従って更新された第1の物体検出結果の複数の段階を生成する。例えば、スパース更新マッピングアルゴリズムの第1段階(即ち、図5及び図7にて示されたSUMアルゴリズムステップS520)において、プロセッサは、境界ボックス情報をボックス情報マップ(例えば、図7に示されたボックス情報マップ)へとマッピングすることによって、複数の境界ボックス(bounding box)を有するボックス情報マップ(例えば、図7に示された境界ボックスBBX1、BBX2、BBX3)を更新された第1の物体検出結果(例えば、図7に示された更新ボックス情報マップ)として生成する。
詳述するに、ボックス情報マップは複数のグリッドセル(例えば、グリッドセルGC、GC0)を含み、更新ボックス情報マップも複数のグリッドセル(例えば、グリッドセルGC1、GC2)を含み、各グリッドセルの長さは1ピクセルPIXであり、各グリッドセルの幅は1ピクセルPIXであり、ボックス情報マップ内のグリッドセルの個数はセンサデータ内の画素数と同様である。例えば、ボックス情報マップの長さは17ピクセルPIXであり、ボックス情報マップの幅は10ピクセルPIXである故に、ボックス情報マップの大きさ(即ち、ボックス情報マップのグリッドセルの個数)は170グリッドセルであり、センサデータのグリッドセルの個数もこの実施形態では170グリッドセルで構成される。図7は例に過ぎないことに留意されたいのであり、ボックス情報マップのグリッドセル個数に関して本開示との関連では何ら制約されない。
また、境界ボックス情報をボックス情報マップへとマッピングした後は、プロセッサは、グリッドセル及び境界ボックスが整列されているか否かを確認する。グリッドセル及び境界ボックスが整列されていない場合、プロセッサは、境界ボックス(例えば、境界ボックスBBX1)と重複しているグリッドセル(例えば、グリッドセルGC0)を第1のナンバー領域として設定する。そうでない場合、プロセッサは、境界ボックス{外の/を伴わない}グリッドセル(例えば、グリッドセルGC)を第2のナンバー領域として設定する。また、プロセッサは、空間的に重複している境界ボックスについての任意のセットに関しても(例えば、境界ボックスBBX2及び境界ボックスBBX3)、重複する境界ボックスについての単一的集団として組み合わせる。その後、プロセッサは、第1のナンバー領域の値を第1の指数(例えば、2進数でいう1)に設定し、また、第2のナンバー領域の値を第2の指数(例えば、2進数でいう0)に設定する。換言するに、プロセッサは、次のように振る舞う:境界ボックス及び重複している境界ボックスについての単一的集団の内側の(又はそれと重複している)グリッドセルの値として真の値(即ち、2進数でいう1)を設定し、また、境界ボックス及び重複している境界ボックスについての単一的集団の外にあるグリッドセルの値として偽の値(即ち、2進数でいう0)を設定する。したがって、更新されることを要している領域は、値として真の値を与えられているグリッドセルである、ということをプロセッサが了知していることになる。この例示的実施形態では第1の指数及び第2の指数は2進数であるもそれについてもっと制約はみられない。このようにして、プロセッサは、更新された第1の物体検出結果を生成する(即ち、図7に示された更新ボックス情報マップ)。
図8A〜8Eは、本開示の例示的実施形態の1つによるディープ畳み込み層アルゴリズムの複数の段階の各々について例示する。図8Aは、本開示の例示的実施形態の1つによるディープ畳み込み層アルゴリズムの複数の段階の各々についての詳細なフレームワークを示す。図5及び図8Aを参照するに、プロセッサは、ディープ畳み込み層アルゴリズムを5段階実行して(例えば、図8Aに図示のディープ畳み込み層アルゴリズムステップについての次の段階:S530、S540〜S550)、CNNモデルにおける更新された第1の物体検出結果の段階に基づいて複数のフィーチャ結果を対応するように抽出する。例示的実施形態においてはプロセッサがディープ畳み込み層アルゴリズムを5段階分実行することになるが、本開示はディープ畳み込み層アルゴリズムの段階数を限定するものではなく、図8Aは例に過ぎず、本開示に関して何ら制限をもたらすものではない。他の実施形態では、プロセッサは、ディープ畳み込み層アルゴリズムをk段階分実行できるのであり、kは正の整数とする。
説明に関して詳述するに、ディープ畳み込み層アルゴリズムの各段階において、プロセッサは、次のことをなす:位置層アルゴリズムを用いることによってフィーチャ結果のプレ段階フィーチャ結果に基づいて更新された第1の物体検出結果の段階についてのプレ段階更新第1物体検出結果を処理して、ストリップフィーチャマップを生成するステップ(即ち、畳み込みアルゴリズムステップS531の位置層アルゴリズムステップS534a);畳み込み層アルゴリズムを用いてストリップフィーチャマップを処理して、畳み込みストリップフィーチャマップを生成するステップ(即ち、畳み込みアルゴリズムステップS531の畳み込み層アルゴリズムステップS534b);復元層アルゴリズム(即ち、畳み込みアルゴリズムステップS531の復元層アルゴリズムステップS534c)を用いてディープ畳み込み層アルゴリズムの諸段階の先の時点(earlier time point)における先行時フィーチャ結果(prior-time feature result)(例えば、図5及び図8Aに示された第(t−1)番目フィーチャマップ1 532、第(t−1)番目フィーチャマップ2 542、第(t−1)番目フィーチャマップ3、第(t−1)番目フィーチャマップ4、及び第(t−1)番目フィーチャマップ5 552)に基づいて畳み込みストリップフィーチャマップを処理して、フィーチャ結果(例えば、図5に示された第t番目フィーチャマップ1 533、第t番目フィーチャマップ2 543及び第t番目フィーチャマップ3 553)を生成するステップであって、時点(t−1)は時点tよりも先である、ステップ。
そして、プロセッサは、プーリング層アルゴリズムを用いることによってフィーチャ結果を処理してフィーチャ結果の空間的寸法を減じる(即ち、畳み込みアルゴリズムステップS531のプーリング層アルゴリズムステップS534d)。換言するに、畳み込みアルゴリズムの各々は(例えば、畳み込みアルゴリズムconv1、conv2、conv3、conv4、conv5、及びconvk、)、位置層アルゴリズム、畳み込み層アルゴリズム、復元層アルゴリズム、及びプーリング層アルゴリズムを含む。付言するに、ディープ畳み込み層アルゴリズムの各段階のフィルタは増大でき、後の段階にてより詳細な部分を探せるようにするのであり、例えば、conv1では64のフィルタが、conv2では128のフィルタが、conv3では256のフィルタが、conv4では512のフィルタが、またconv5では512のフィルタが伴うのであり、ここにはさらなる制約はもたらされない。これらの構成はネットワークアーキテクチャについての所望の設計応じて変えることができることに留意されたいのであり、本開示には制約が伴わない。
例えば、例示的実施形態としてのディープ畳み込み層アルゴリズムステップS530の幾つかの段階の第1の段階についての説明について言及するに、プロセッサは、更新された第1のオブジェクト検出結果(即ち、図7に示された更新されたボックス情報マップ)をプレ段階更新第1物体検出結果として受信するのであり、センサデータ(即ち、第t番目のRGB画像データ501)をプレ段階フィーチャ結果として受信するのであり、そしてプロセッサは、ディープ畳み込み層アルゴリズムの幾つかの段階の第1段階を用いて第t番目のRGB画像データ501に基づいて更新されたボックス情報マップを処理する。
その後、ディープ畳み込み層アルゴリズムステップS540の幾つかの段階の第2段階においてプロセッサは、スパース更新マッピングアルゴリズムS521の幾つかの段階の第2段階からの更新第1物体検出結果をプレ段階更新第1物体検出結果として受信するのであり、ディープ畳み込み層アルゴリズムステップS530の幾つかの段階の第1段階からのフィーチャ結果533をプレ段階フィーチャ結果として受信するのであり、そしてプロセッサは、ディープ畳み込み層アルゴリズムS540の幾つかの段階の第2段階を用いることによってフィーチャ結果533に基づいてスパース更新マッピングアルゴリズムS521の幾つかの段階の第2段階からの更新第1物体検出結果を処理するのであり、そのような態様で進み、次のことの実行がなされる:ディープ畳み込み層アルゴリズムの幾つかの段階の第3段階、ディープ畳み込み層アルゴリズムステップの幾つかの段階の第4段階、ディープ畳み込み層アルゴリズムS550の幾つかの段階の最後段階。
より具体的に述べるに、図8B〜8Cは、本開示の例示的実施形態の1つによる位置層アルゴリズムの複数の段階の各々について示す。図5、図8A及び図8B〜8Cを参照するに、位置層アルゴリズムは次のステップを含む:プレ段階更新第1物体検出結果及びプレ段階フィーチャ結果を受信するステップと、プレ段階フィーチャ結果に基づいてプレ段階更新第1物体検出結果を分割して複数の画像領域を有する位置マップを生成するステップであって、画像領域はN*Nのグリッドセルで構成されており、Nは正の整数とされる、ステップと、第1のナンバー領域と重複している画像領域の値を第1の指数として設定するステップと、位置マップをストリップフィーチャマップに畳み込むステップ。
例示的実施形態について説明するに、詳細な説明としては、ディープ畳み込み層アルゴリズムステップS530の幾つかの段階の第1段階の位置層アルゴリズムステップS534aについて言及するのであり、プロセッサは、更新された第1物体検出結果(即ち、図8Bに示された更新ボックス情報マップ)をプレ段階更新第1物体検出結果として受信するのであり、センサデータ(即ち、第t番目のRGB画像データ501)をプレ段階フィーチャ結果として受信する。そして、プロセッサは、第t番目のRGB画像データ501に基づいて更新ボックス情報マップを分割して複数の画像領域(例えば、画像領域IC)を有する(図8Bに図示の)位置マップを生成するのであり、各画像領域は3*3のグリッドセルで構成されている(例えば、9つのグリッドセルで構成されている。)次に、プロセッサは、第1のナンバー領域と重複している画像領域(例えば、画像領域IC1及びIC2)の値を第1の指数として設定する。このようにして、更新ボックス情報マップを分割して画像領域を生成する方法は計算の効率性を向上させる。なぜならば、ブロック(例えば、3*3グリッドセル)タイプの計算方法の方がディープ畳み込み層アルゴリズムにより適しているからである。
プロセッサは、位置マップ(即ち、位置マップ(w×h))をストリップフィーチャマップ(即ち、図8Cに示された画像セル(n×n×C))として識別することになろう。より具体的に述べるに、この実施形態の実の結果は位置マップ(w×h)であり、位置層アルゴリズムを用いることによって第t番目のRGB画像データ501が処理される。そして、プロセッサは、位置マップ(w×h)(即ち、ラベル付け入力マップ(w×h×C))上の画像領域にラベル付けする。その後、プロセッサは、位置マップ(w×h)を画像セル(n×n×C)に畳み込むのであり、画像セル(n×n×C)のデータはC個の画像領域を含み、C個の画像領域の各々は3*3のグリッドセルで構成されている。このような態様から分かるように、位置マップをストリップフィーチャマップに畳み込む方法は畳み込み層アルゴリズムを実行するに適している。
図8Dは、本開示の例示的実施形態の1つによる畳み込み層アルゴリズムの複数の段階の各々について示す。図5、図8A、図8Dを参照するに、畳み込み層アルゴリズムは次のステップを含む:ストリップフィーチャマップを畳み込んで畳み込まれたストリップフィーチャマップを生成するステップ。詳述するに、説明の対象とする例示的実施形態としてはディープ畳み込み層アルゴリズムステップS530の幾つかの段階の第1段階の畳み込み層アルゴリズムステップS534bを選定するのであり、プロセッサは、ストリップフィーチャマップ(即ち、画像セル(n×n×C))を畳み込んで畳み込まれたストリップフィーチャマップ(即ち、出力画像セル(n×n×C))を生成する。この実施形態での畳み込み層アルゴリズムとしては、入力画像データからフィーチャマップを抽出するに際して効率的に計算できる任意の種類の畳み込み層アルゴリズムを用い得ることに留意されたい。
図8Eは、本開示の例示的実施形態の1つによる復元層アルゴリズムの複数の段階について示す。図5、図8A、図8Eを参照するに、復元層アルゴリズムは次のステップを含む:畳み込みストリップフィーチャマップを受信するステップと、畳み込みストリップフィーチャマップと先行時フィーチャ結果とをオペレートしてフィーチャ結果を生成するステップ。より具体的に述べるに、説明の対象とする例示的実施形態としてはディープ畳み込み層アルゴリズムステップS530の幾つかの段階の第1段階の復元層アルゴリズムステップS534cを選定するのであり、プロセッサは、畳み込まれたストリップフィーチャマップ(即ち、出力画像セル(n×n×c))を受信して位置マップ(w×h)に従って畳み込まれたストリップフィーチャマップをフィーチャマップ(即ち、フィーチャマップ(w×h×C))へと復元する(図8Cに示されている)。詳しく述べるに、出力画像セル(n×n×C)のデータは元データの位置情報を含まない故に(即ち、図5に示された第t番目のRGB画像データ501)、フィーチャマップ(即ち、フィーチャマップ(w×h×C))をもってそれを位置マップへと逆写像されるべきである。そして、プロセッサは、フィーチャマップ(w×h×C)及び先行時フィーチャ結果に対してオペレーションをなして(例えば、図8Eに示された第(t−1)番目のフィーチャマップ(w×h×C))、フィーチャ結果を生成するのであり(即ち、第t番目のフィーチャマップ(w×n×C))、フィーチャ結果(即ち、第t番目のフィーチャマップ(w×n×C))の生成のオペレーションは例えばXOR演算である。
図8Fは、本開示の例示的実施形態の1つによるプーリング層アルゴリズムの複数の段階の各々について示す。図5、図8A、図8Fを参照するに、プロセッサは、プーリング層アルゴリズムを実行してフィーチャ結果の空間的寸法を減じて、入力フィーチャ結果からより多くのコンテキスチャルフィーチャを取得できるようにする(即ち、先の層から由来したフィーチャ結果)。より具体的に述べるに、説明の対象とする例示的実施形態としてはディープ畳み込み層アルゴリズムステップS530の幾つかの段階の第1段階のプーリング層アルゴリズムステップS534dを選定する。プロセッサは、フィーチャ結果(即ち、図8Fに示されている第t番目のフィーチャマップ(w×h×C))の空間的寸法を減じて空間的に減じられたフィーチャ結果(即ち、図8Fに示されている第t番目のフィーチャマップk+1(w×n×C))をもたらすのであり、第t番目のフィーチャマップ(w’×h’×C)の位置情報は第t番目のフィーチャマップk+1(w’×h’×C)の位置情報と同じであり、第t番目のフィーチャマップ(w’×h’×C)の寸法は第t番目のフィーチャマップk+1(w’×h’×C)の寸法よりも大きい。このようにして、プーリング層アルゴリズムを用いることによってフィーチャ結果の寸法を減じることができよって計算データ量の削減を図りうる。
換言するに、プロセッサは、畳み込み層アルゴリズムの前に位置層アルゴリズムを実行するのであり、畳み込み層アルゴリズムの後に復元層アルゴリズムを実行するのであり(例えば、図8Aに示されているディープ畳み込み層アルゴリズムステップS530の幾つかの段階の第1段階)、同様に進みディープ畳み込み層アルゴリズムステップS540の幾つかの段階の第2段階を実行し、ディープ畳み込み層アルゴリズムステップS550の幾つかの段階の最後段階に達する。
他方で、プロセッサは、空間プーリングアルゴリズムの複数の段階を用いることによって更新第1物体検出結果の幾つかの段階の第1段階を処理してスパース更新マッピングアルゴリズムの各段階間で更新第1物体検出結果の幾つかの段階の空間的寸法を減じる。より具体的に述べるに、図9は、本開示の例示的実施形態の1つによる空間プーリングアルゴリズムの複数の段階の各々について示す。図5及び図9を参照するに、スパース更新マッピングアルゴリズムの各段階間において、プロセッサは、更新第1物体検出結果の第1段階の空間的寸法(即ち、図7及び図9に示されている更新ボックス情報マップ)を減じて、フィーチャ結果の各々の寸法が対応して合致するように図る。詳細に言及するに、例えば、プロセッサは、SUMアルゴリズムステップS520で生成された更新第1物体検出結果の空間的寸法を減じて、更新ボックス情報マップの位置情報を保持して、更新第1物体検出結果の寸法を変更する(即ち、図9の更新ボックス情報マップk+1)。したがって、更新ボックス情報マップk+1の寸法は、第(t−1)番目のフィーチャマップ2 542の寸法と同じである。そして、プロセッサは、SUMアルゴリズムステップS521を用いて更新ボックス情報マップk+1を処理して、更新第1物体検出結果の幾つかの段階の第2段階をディープ畳み込み層アルゴリズムステップS540の入力データとして生成するのであり、同様に進み、次のステップが実行される。空間プーリングアルゴリズムの処理方法及びプーリング層アルゴリズムの処理方法は異なることに留意されたいのであり、プーリング層アルゴリズムの処理方法はフィーチャ結果についての浮動小数点数の処理を伴うのに対して、空間プーリングアルゴリズムの処理方法は更新第1物体検出結果の2進数の処理を伴う。
最後に、プロセッサは、ROIプーリングアルゴリズム(即ち、ROIプーリングアルゴリズムステップS570)及び境界ボックス回帰アルゴリズム(即ち、境界ボックス回帰アルゴリズムステップS580)を実行して、ディープ畳み込み層アルゴリズムの幾つかの段階の最後段階によって生成された最後段階フィーチャ結果に基づいて検出予測(即ち、第t番目の推測結果503)を行う。説明について詳述するに、プロセッサは、範囲不定の境界ボックスと空間的に相互接続された完全接続層とのインタフェースを提供するのであり、これによって、ネットワークアーキテクチャが畳み込みフィーチャの最終層を共有できるようにし(即ち、最後段階フィーチャ結果)、ROIプーリングアルゴリズムステップS570にて最終予測結果(即ち、検出予測)をなさるようにするのであり、そして、プロセッサは、各ROIについての信頼性予測がどのカテゴリにおそらく属するかを数値化するのであり、回帰境界ボックス値をもってそれらが物体により接近するようにし、最終出力をもたらす(即ち、第t番目の推測結果503)
このようにして、本開示は、更新第1物体検出結果の不要な計算領域(即ち、第2のナンバー領域)を除くのであり、高精度予測の前提に基づいてこれをなすのであり、これをなすために第1の物体検出アルゴリズムとスパース更新マッピングアルゴリズムの複数の段階と空間プーリングアルゴリズムの複数の段階とディープ畳み込み層アルゴリズムの複数の段階とを用いるのであり、これによって瞬間的な演算速度を向上させ、また、不要な計算データ量の削減をもたらす。
図10は、本開示の例示的実施形態の1つによる物体検出方法についての別の実装例を示す。自律車両V1010は、物体検出装置1000を備える。物体検出装置1000は、前カメラ1001及び処理装置1003を備える。前カメラ1301は処理装置1003に接続されており、処理装置1003は例えばIntel(登録商標) Core i9 7900X @ 3.3 GHzと128GB DDR4メモリとNVidia Titan X (Pascal) 12GB VRAMとを搭載してPythonプログラミング言語で動作するパーソナルコンピュータであることができ、前カメラ1001によって生成されたセンサデータは1280×720ピクセルとされ得る。
図10を参照するに、物体検出装置1000は自律車両V1010の前にある物体を正確に検出できたのであり、例えばCPUベースドな場合には平均演算速度は2.934 sec/frameに達し、例えばGPUベースドな場合には平均演算速度は0.040 sec/frameに達した。この点、S. Ren et al., “Faster R-CNN: Towards Real-time Object Detection with Region Proposal Networks,” CoRR, vol. abs/1506.01497, 2016のフレームワークにおいては、CPUベースドな場合には高速R−CNNに関しての平均演算速度は8.219 sec/frameに達し、GPUベースドな場合には高速R−CNNに関しての平均演算速度は0.092 sec/frameに達したことに留意されたい。即ち、物体検出装置1000は高速R−CNNよりも高速であり、物体検出装置1000は、元のフレームワーク(即ち、高速R−CNNフレームワーク)の精度を維持できるのであり、複雑性を減じることができる。
物体検出装置1000の複雑性は、瞬間的な演算速度を向上させて高精度予測の前提に基づいて不要な計算データ量を減じ得る。換言するに、処理装置1003は、少なくとも:第1の物体検出アルゴリズムを用いることによってセンサデータを処理して第1の物体検出結果を生成するステップであって、第1の物体検出結果は境界ボックス情報を含む、ステップと;境界ボックス情報に従ってスパース更新マッピングアルゴリズムの複数の段階を用いることによって第1の物体検出結果を処理してCNNモデルにおける更新された第1の物体検出結果の複数の段階を生成するステップと;空間プーリングアルゴリズムの複数の段階を用いることによって更新された第1の物体検出結果の幾つかの段階の第1の段階を処理してスパース更新マッピングアルゴリズムの各段階間で更新された第1の物体検出結果の段階の空間的寸法を減じるステップと;ディープ畳み込み層アルゴリズムの複数の段階を実行してCNNモデルにおける更新された第1の物体検出結果の段階に基づいて複数のフィーチャ結果を対応するように抽出するステップと;ディープ畳み込み層アルゴリズムの幾つかの段階の最後の段階によって生成された最後段階フィーチャ結果に基づいて検出予測(即ち、図5における第t番目の推測結果503)を行うステップとを行うように構成されている。
物体検出装置1000は、図2、図5にて図示された物体検出装置と同一又は類似であるという点に留意されたい。したがって、さらなる説明は提供されない。
上述の説明を参照するに、本開示は自律車両において使用するのに適した物体検出装置を提供するのである。本開示の用途としては具体的には次のものが含まれ得る:提供された第1の物体検出アルゴリズムを用いることによってROIに従って境界ボックス情報を探すこと;提供されたスパース更新マッピングアルゴリズムを用いることによって更新された第1のオブジェクト検出結果の不要な計算領域を除くこと;空間プーリングアルゴリズムの複数の段階とディープ畳み込み層アルゴリズムの複数の段階とを提供して検出予測を行うこと。このようにして、瞬間的な演算速度を向上させ得る。
明示的に反対の説明なき限り、本願において開示された実施形態についての詳細な説明にて用いられた何らの要素、行為、又は命令も、絶対的に決定的又は必須的なものとは解されてはならない。また、本明細書にて用いられている場合、不定冠詞「a」及び「an」は1つより多くの要素を含み得る。1つの要素だけが意図されている場合、「単一の」やそれに類似した表現が用いられている。さらに、本明細書においては、「...のいずれか」との関連で言及される複数の要素及び/又は複数のカテゴリの列挙は、「いずれか」、「任意の組み合わせ」、「任意の複数のもの」、及び/又は「複数の要素及び/又は要素のカテゴリの任意の組み合わせを個別的に又は他の要素及び/又は他の要素のカテゴリを伴っていることを含むことが意図されている。さらに、本明細書においては、「セット」との用語は任意の個数の要素を含むものとして意図されており、ゼロ個の場合も含まれる。さらに、本明細書においては、「数」との用語は任意の数を含むものとして意図されており、ゼロも含まれる。
当業者からすれば、本開示の範囲又は精神から逸脱せずに、開示の実施形態については様々な変更やバリエーションをもたらすことができるということが明かである。上述からして、本開示は次のような変更及びバリエーションを包括するものとして意図されている:添付の特許請求の範囲及びそれらの等価物の範囲内に収まる変更やバリエーション。
本発明は、CNNモデルを用いる物体検出方法及び同方法を用いる物体検出装置を提供する。本開示は、自律型車両やその他の類似した装置に用いるのに適したものとできる。
UNU 不使用フィーチャ(Unused feature)
200、1000 物体検出装置
210 センサ
220 プロセッサ
300、V1010 自律車両
S410 方法のステップ
S420 方法のステップ
S430 方法のステップ
S440 方法のステップ
S450 方法のステップ
S460 方法のステップ
501a RGBカメラアレイ
501 第t番目のRGB画像データ
502 第t番目の検出RGB画像データ
503 第t番目の推測結果
532、542、552 第(t−1)番目フィーチャマップ
533、543、553 第t番目フィーチャマップ
1001 前カメラ
1003 処理装置
S510 CVベースドROIステップ
S520、S521、S522 SUMアルゴリズムステップ
S530、S540、S550 ディープ畳み込み層アルゴリズムステップ
S531、S541、S551 畳み込みアルゴリズム(convolution algorithm)ステップ
S534a 位置層アルゴリズムステップ
S534b 畳み込み層アルゴリズム(convolution layer algorithm)ステップ
S534c 復元層アルゴリズムステップ
S534d プーリング層アルゴリズムステップ
S560、S561 空間プーリングアルゴリズムステップ
S570 ROIプーリングアルゴリズムステップ
S580 境界ボックス回帰アルゴリズムステップ
conv1、conv2、conv3、conv4、conv5、convk 畳み込みアルゴリズム
IC、IC1、IC2 画像領域
PIX 画素
GC、GC0、GC1、GC2 グリッドセル
BBX1、BBX2、BBX3 境界ボックス

Claims (21)

  1. CNNモデルを用いる物体検出方法であって、該方法は、
    センサを用いることによってセンサデータを生成するステップと、
    第1の物体検出アルゴリズムを用いることによって前記センサデータを処理して第1の物体検出結果を生成するステップであって、前記第1の物体検出結果は境界ボックス情報を含む、ステップと、
    前記境界ボックス情報に従って、複数の段階のスパース更新マッピングアルゴリズムを用いることによって前記第1の物体検出結果を処理して前記CNNモデルにおける複数の段階の更新された第1の物体検出結果を生成し、前記複数の段階のスパース更新マッピングアルゴリズムの各段階は、前記境界ボックス情報をボックス情報マップへとマッピングすることによって、複数の境界ボックスを有する前記ボックス情報マップを前記複数の段階の前記更新された第1の物体検出結果とするステップと、
    複数の段階の空間プーリングアルゴリズムを用いることによって前記複数の段階の前記更新された第1の物体検出結果中の第1の段階を処理して前記複数の段階のスパース更新マッピングアルゴリズムの各段階間で前記複数の段階の前記更新された第1の物体検出結果の前記段階の空間的寸法を減じるステップと、
    前記CNNモデルにおける前記複数の段階の前記更新された第1の物体検出結果に対し、複数の段階のディープ畳み込み層アルゴリズムを実行して、前記複数の段階の前記更新された第1の物体検出結果から前記複数の段階のディープ畳み込み層アルゴリズムの各段階にそれぞれ対応する複数のフィーチャ結果を抽出するステップと、
    前記複数の段階の前記ディープ畳み込み層アルゴリズムの最後の段階によって生成された最後段階フィーチャ結果に基づいて検出予測を行うステップとを含む、方法。
  2. 請求項1に記載の物体検出方法において前記スパース更新マッピングアルゴリズムの各段階は、
    前記境界ボックス情報をボックス情報マップへとマッピングすることによって複数の境界ボックスを有するボックス情報マップを前記更新された第1の物体検出結果として生成するステップであって、前記ボックス情報マップは複数のグリッドセルを含み、前記ボックス情報マップ内のグリッドセルの個数は前記センサデータ内の画素数と同様である、ステップを含む、方法。
  3. 請求項2に記載の物体検出方法において前記スパース更新マッピングアルゴリズムの各段階は、
    境界ボックスと重複している前記グリッドセルを第1のナンバー領域として設定し、また、前記境界ボックス外の前記グリッドセルを第2のナンバー領域として設定するステップと、
    前記第1のナンバー領域の値を第1の指数として設定し、また、前記第2のナンバー領域の値を第2の指数として設定するステップであって、前記第1の指数及び前記第2の指数は異なる、ステップとをさらに含む、方法。
  4. 請求項3に記載の物体検出方法において、前記第1の指数は更新を要する領域を表し、前記第2の指数は更新が不要だった領域を表す、方法。
  5. 請求項3に記載の物体検出方法において前記スパース更新マッピングアルゴリズムの各段階は、
    空間的に重複している前記境界ボックスについての任意のセットを重複する境界ボックスについての単一的集団として組み合わせるステップをさらに含む、方法。
  6. 請求項〜5のいずれかに記載の物体検出方法において、前記ディープ畳み込み層アルゴリズムの各段階は、
    位置層アルゴリズムを用いることによって前記フィーチャ結果のプレ段階フィーチャ結果に基づいて前記更新された第1の物体検出結果の前記段階についてのプレ段階更新第1物体検出結果を処理して、ストリップフィーチャマップを生成するステップと、
    畳み込み層アルゴリズムを用いて前記ストリップフィーチャマップを処理して畳み込みストリップフィーチャマップを生成するステップと、
    復元層アルゴリズムを用いて前記ディープ畳み込み層アルゴリズムの諸段階の先の時点における先行時フィーチャ結果に基づいて前記畳み込みストリップフィーチャマップを処理して前記フィーチャ結果を生成するステップと、
    プーリング層アルゴリズムを用いることによって前記フィーチャ結果を処理して前記フィーチャ結果の空間的寸法を減じるステップとを含む、方法。
  7. 請求項6に記載の物体検出方法において前記位置層アルゴリズムは、
    前記プレ段階更新第1物体検出結果及び前記プレ段階フィーチャ結果を受信するステップと、
    前記プレ段階フィーチャ結果に基づいて前記プレ段階更新第1物体検出結果を分割して複数の画像領域を有する位置マップを生成するステップであって、前記画像領域はN*Nのグリッドセルで構成されており、Nは正の整数とされる、ステップと、
    前記第1のナンバー領域と重複している前記画像領域の値を前記第1の指数として設定するステップと、
    前記位置マップに対して畳み込み処理を行って、前記ストリップフィーチャマップに変換するステップとを含む、方法。
  8. 請求項7に記載の物体検出方法において前記畳み込み層アルゴリズムは、
    前記ストリップフィーチャマップを畳み込んで畳み込みストリップフィーチャマップを生成するステップをさらに含む、方法。
  9. 請求項8に記載の物体検出方法において前記復元層アルゴリズムは、
    前記畳み込みストリップフィーチャマップを受信するステップと、
    前記畳み込みストリップフィーチャマップと前記先行時フィーチャ結果とをオペレートして前記フィーチャ結果を生成するステップとをさらに含む、方法。
  10. 請求項1〜9のいずれかに記載の物体検出方法において、前記第1の物体検出アルゴリズムを用いることによって前記センサデータを処理するステップは、
    前記センサデータを検出してコンピュータビジョンに基づいて興味対象領域を探すステップと、
    前記興味対象領域に従って前記境界ボックス情報を生成するステップとを含む、方法。
  11. 物体検出装置であって、
    センサデータを生成するセンサと、
    前記センサに接続されたプロセッサであって、該プロセッサは少なくとも、
    第1の物体検出アルゴリズムを用いることによって前記センサデータを処理して第1の物体検出結果を生成するステップであって、前記第1の物体検出結果は境界ボックス情報を含む、ステップと、
    前記境界ボックス情報に従ってスパース更新マッピングアルゴリズムの複数の段階を用いることによって前記第1の物体検出結果を処理してCNNモデルにおける更新された第1の物体検出結果の複数の段階を生成するステップと、
    空間プーリングアルゴリズムの複数の段階を用いることによって前記更新された第1の物体検出結果の幾つかの段階の第1の段階を処理してスパース更新マッピングアルゴリズムの各段階間で前記更新された第1の物体検出結果の前記段階の空間的寸法を減じるステップと、
    ディープ畳み込み層アルゴリズムの複数の段階を実行してCNNモデルにおける前記更新された第1の物体検出結果の前記段階に基づいて複数のフィーチャ結果を対応するように抽出するステップと、
    前記ディープ畳み込み層アルゴリズムの前記幾つかの段階の最後の段階によって生成された最後段階フィーチャ結果に基づいて検出予測を行うステップとを行うように構成されている、プロセッサとを備える、物体検出装置。
  12. 請求項11に記載の物体検出装置において前記スパース更新マッピングアルゴリズムの各段階は、
    前記境界ボックス情報をボックス情報マップへとマッピングすることによって複数の境界ボックスを有するボックス情報マップを前記更新された第1の物体検出結果として生成するステップであって、前記ボックス情報マップは複数のグリッドセルを含み、前記ボックス情報マップ内のグリッドセルの個数は前記センサデータ内の画素数と同様である、ステップを含む、物体検出装置。
  13. 請求項12に記載の物体検出装置において前記スパース更新マッピングアルゴリズムの各段階は、
    前記境界ボックスと重複している前記グリッドセルを第1のナンバー領域として設定し、また、前記境界ボックス外の前記グリッドセルを第2のナンバー領域として設定するステップと、
    前記第1のナンバー領域の値を第1の指数として設定し、また、前記第2のナンバー領域の値を第2の指数として設定するステップであって、前記第1の指数及び前記第2の指数は異なる、ステップとをさらに含む、物体検出装置。
  14. 請求項13に記載の物体検出装置において、前記第1の指数は更新を要する領域を表し、前記第2の指数は更新が不要だった領域を表す、物体検出装置。
  15. 請求項13に記載の物体検出装置において前記スパース更新マッピングアルゴリズムの各段階は、
    空間的に重複している前記境界ボックスについての任意のセットを重複する境界ボックスについての単一的集団として組み合わせるステップをさらに含む、物体検出装置。
  16. 請求項1〜15のいずれかに記載の物体検出装置において、前記ディープ畳み込み層アルゴリズムの各段階は、
    位置層アルゴリズムを用いることによって前記フィーチャ結果のプレ段階フィーチャ結果に基づいて前記更新された第1の物体検出結果の前記段階についてのプレ段階更新第1物体検出結果を処理して、ストリップフィーチャマップを生成するステップと、
    畳み込み層アルゴリズムを用いて前記ストリップフィーチャマップを処理して畳み込みストリップフィーチャマップを生成するステップと、
    復元層アルゴリズムを用いて前記ディープ畳み込み層アルゴリズムの諸段階の先の時点における先行時フィーチャ結果に基づいて前記畳み込みストリップフィーチャマップを処理して前記フィーチャ結果を生成するステップと、
    プーリング層アルゴリズムを用いることによって前記フィーチャ結果を処理して前記フィーチャ結果の空間的寸法を減じるステップとを含む、物体検出装置。
  17. 請求項16に記載の物体検出装置において前記位置層アルゴリズムは、
    前記プレ段階更新第1物体検出結果及び前記プレ段階フィーチャ結果を受信するステップと、
    前記プレ段階フィーチャ結果に基づいて前記プレ段階更新第1物体検出結果を分割して複数の画像領域を有する位置マップを生成するステップであって、前記画像領域はN*Nのグリッドセルで構成されており、Nは正の整数とされる、ステップと、
    前記第1のナンバー領域と重複している前記画像領域の値を前記第1の指数として設定するステップと、
    前記位置マップを前記ストリップフィーチャマップに畳み込むステップとを含む、物体検出装置。
  18. 請求項17に記載の物体検出装置において前記畳み込み層アルゴリズムは、
    前記ストリップフィーチャマップを畳み込んで畳み込みストリップフィーチャマップを生成するステップをさらに含む、物体検出装置。
  19. 請求項18に記載の物体検出装置において前記復元層アルゴリズムは、
    前記畳み込みストリップフィーチャマップを受信するステップと、
    前記畳み込みストリップフィーチャマップと前記先行時フィーチャ結果とをオペレートして前記フィーチャ結果を生成するステップとをさらに含む、物体検出装置。
  20. 請求項11〜19のいずれかに記載の物体検出装置において、前記プロセッサが行うように少なくとも構成されている前記第1の物体検出アルゴリズムを用いることによって前記センサデータを処理するステップは、
    前記センサデータを検出してコンピュータビジョンに基づいて興味対象領域を探すステップと、
    前記興味対象領域に従って前記境界ボックス情報を生成するステップとを含む、物体検出装置。
  21. 請求項11〜20のいずれかに記載の物体検出装置において前記センサはカメラを備える、物体検出装置。
JP2019028154A 2018-12-11 2019-02-20 Cnnモデルを用いる物体検出方法及び同様のそれを用いる物体検出装置 Active JP6807968B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/215,675 US10748033B2 (en) 2018-12-11 2018-12-11 Object detection method using CNN model and object detection apparatus using the same
US16/215,675 2018-12-11

Publications (2)

Publication Number Publication Date
JP2020095660A JP2020095660A (ja) 2020-06-18
JP6807968B2 true JP6807968B2 (ja) 2021-01-06

Family

ID=70971465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019028154A Active JP6807968B2 (ja) 2018-12-11 2019-02-20 Cnnモデルを用いる物体検出方法及び同様のそれを用いる物体検出装置

Country Status (3)

Country Link
US (1) US10748033B2 (ja)
JP (1) JP6807968B2 (ja)
TW (1) TWI708209B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7323356B2 (ja) * 2019-06-28 2023-08-08 フォルシアクラリオン・エレクトロニクス株式会社 駐車支援装置及び駐車支援方法
WO2021087334A1 (en) 2019-11-01 2021-05-06 Vannevar Labs, Inc. Neural network-based optical character recognition
CN111860344A (zh) * 2020-07-22 2020-10-30 浙江大华技术股份有限公司 确定图像中目标对象数量的方法及装置
US10902297B1 (en) * 2020-08-04 2021-01-26 SUPERB Al CO., LTD. Method for auto-labeling test image by using class-agnostic refinement module, and auto-labeling device using the same
CN111738231B (zh) * 2020-08-06 2020-12-11 腾讯科技(深圳)有限公司 目标对象检测方法、装置、计算机设备和存储介质
TWI803787B (zh) * 2020-11-05 2023-06-01 中華電信股份有限公司 用於路面污損分類辨識之方法及系統
CN112347964B (zh) * 2020-11-16 2023-03-24 复旦大学 一种基于图网络的行为检测方法及装置
CN112633061B (zh) * 2020-11-18 2023-03-24 淮阴工学院 一种轻量级的fire-det火焰检测方法及系统
TWI740725B (zh) * 2020-11-20 2021-09-21 英業達股份有限公司 資料傳遞及合併的方法
CN112488006A (zh) * 2020-12-05 2021-03-12 东南大学 一种基于小麦图像的目标检测算法
TWI788967B (zh) * 2021-08-24 2023-01-01 瑞昱半導體股份有限公司 影像處理方法與影像處理電路

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2950023B2 (ja) 1992-06-24 1999-09-20 日本電気株式会社 パターン認識辞書生成装置およびパターン認識装置
US7436887B2 (en) * 2002-02-06 2008-10-14 Playtex Products, Inc. Method and apparatus for video frame sequence-based object tracking
US7227893B1 (en) * 2002-08-22 2007-06-05 Xlabs Holdings, Llc Application-specific object-based segmentation and recognition system
US7639840B2 (en) * 2004-07-28 2009-12-29 Sarnoff Corporation Method and apparatus for improved video surveillance through classification of detected objects
KR101375665B1 (ko) * 2007-08-08 2014-03-18 삼성전자주식회사 배경 변화 추정 방법 및 장치, 및 이를 이용한 움직임 검출 방법 및 장치
US8200733B1 (en) * 2008-04-15 2012-06-12 Freescale Semiconductor, Inc. Device having interleaving capabilities and a method for applying an interleaving function
TW201101814A (en) 2009-06-26 2011-01-01 Nat Univ Chin Yi Technology Method of compensating for backlight image and photograph apparatus with backlight image compensation system
TWI416068B (zh) * 2009-12-10 2013-11-21 Ind Tech Res Inst 跨感測器間之物體追蹤方法與系統
JP5759161B2 (ja) * 2010-12-16 2015-08-05 キヤノン株式会社 物体認識装置、物体認識方法、学習装置、学習方法、プログラム、および情報処理システム
US8761510B2 (en) 2011-11-19 2014-06-24 Nec Laboratories America, Inc. Object-centric spatial pooling for image classification
US9298988B2 (en) 2013-11-08 2016-03-29 Analog Devices Global Support vector machine based object detection system and associated method
JP6904249B2 (ja) 2015-03-19 2021-07-14 日本電気株式会社 オブジェクト検出装置、オブジェクト検出方法およびプログラム
US20170124409A1 (en) 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Cascaded neural network with scale dependent pooling for object detection
US20180039853A1 (en) 2016-08-02 2018-02-08 Mitsubishi Electric Research Laboratories, Inc. Object Detection System and Object Detection Method
US10354159B2 (en) 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US11321609B2 (en) 2016-10-19 2022-05-03 Samsung Electronics Co., Ltd Method and apparatus for neural network quantization
TWI619099B (zh) 2016-10-25 2018-03-21 Intelligent multifunctional driving assisted driving recording method and system
TWI630544B (zh) 2017-02-10 2018-07-21 耐能股份有限公司 卷積神經網路的運算裝置及方法
US10268203B2 (en) 2017-04-20 2019-04-23 GM Global Technology Operations LLC Calibration validation for autonomous vehicle operations
TWI643137B (zh) 2017-04-21 2018-12-01 潘品睿 物件辨識方法及物件辨識系統
US10803323B2 (en) 2017-05-16 2020-10-13 Samsung Electronics Co., Ltd. Electronic device and method of detecting driving event of vehicle
US10410353B2 (en) 2017-05-18 2019-09-10 Mitsubishi Electric Research Laboratories, Inc. Multi-label semantic boundary detection system
CN108496188A (zh) 2017-05-31 2018-09-04 深圳市大疆创新科技有限公司 神经网络训练的方法、装置、计算机系统和可移动设备
CN107730905A (zh) 2017-06-13 2018-02-23 银江股份有限公司 基于深度卷积神经网络的多任务套牌车辆视觉检测系统及方法
CN108564109B (zh) 2018-03-21 2021-08-10 天津大学 一种基于深度学习的遥感图像目标检测方法

Also Published As

Publication number Publication date
US20200184260A1 (en) 2020-06-11
US10748033B2 (en) 2020-08-18
TWI708209B (zh) 2020-10-21
TW202022797A (zh) 2020-06-16
JP2020095660A (ja) 2020-06-18

Similar Documents

Publication Publication Date Title
JP6807968B2 (ja) Cnnモデルを用いる物体検出方法及び同様のそれを用いる物体検出装置
EP3933693B1 (en) Object recognition method and device
CN109559320B (zh) 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
US10438068B2 (en) Adapting to appearance variations of a target object when tracking the target object in a video sequence
US12031842B2 (en) Method and apparatus for binocular ranging
CN108154118B (zh) 一种基于自适应组合滤波与多级检测的目标探测系统及方法
CN108596053B (zh) 一种基于ssd和车辆姿态分类的车辆检测方法和系统
US20220215227A1 (en) Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium
WO2021218786A1 (zh) 一种数据处理系统、物体检测方法及其装置
EP4099220A1 (en) Processing apparatus, method and storage medium
CN113657560B (zh) 基于节点分类的弱监督图像语义分割方法及系统
CN112947419B (zh) 避障方法、装置及设备
CN115512251A (zh) 基于双分支渐进式特征增强的无人机低照度目标跟踪方法
CN111696110A (zh) 场景分割方法及系统
EP2980754A1 (en) Method and apparatus for generating temporally consistent superpixels
EP2958077B1 (en) Method and apparatus for generating temporally consistent superpixels
CN114913206A (zh) 一种基于多模态融合的多目标跟踪的方法和系统
WO2023083231A1 (en) System and methods for multiple instance segmentation and tracking
Novak Vehicle detection and pose estimation for autonomous driving
CN114332166A (zh) 基于模态竞争协同网络的可见光红外目标跟踪方法及装置
Ghosh et al. Two-stage cross-fusion network for stereo event-based depth estimation
CN114494441B (zh) 基于深度学习的葡萄及其采摘点同步识别定位方法、装置
Chadalawada Real time detection and recognition of construction vehicles: using deep learning methods
CN111310535B (zh) 使用卷积神经网络模型的对象检测方法及对象检测设备
KR102600929B1 (ko) 상황 기반 공간 변화를 이용한 다중 이동 물체 추적 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201208

R150 Certificate of patent or registration of utility model

Ref document number: 6807968

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250