JP7289918B2 - 物体認識方法及び装置 - Google Patents
物体認識方法及び装置 Download PDFInfo
- Publication number
- JP7289918B2 JP7289918B2 JP2021538658A JP2021538658A JP7289918B2 JP 7289918 B2 JP7289918 B2 JP 7289918B2 JP 2021538658 A JP2021538658 A JP 2021538658A JP 2021538658 A JP2021538658 A JP 2021538658A JP 7289918 B2 JP7289918 B2 JP 7289918B2
- Authority
- JP
- Japan
- Prior art keywords
- task
- image
- box
- header
- backbone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Description
ROI-ALIGNモジュールは、RPNモジュールにより予測された領域に基づいて、バックボーンにより提供された特徴マップから候補2Dボックスが位置する領域の特徴を抽出するように構成され、
RCNNモジュールは、ニューラルネットワークを通じて、候補2Dボックスが位置する領域の特徴に対して畳み込み処理を実行し、候補2Dボックスが各物体カテゴリに属する信頼度を取得し、物体カテゴリは並列ヘッダに対応するタスクにおける物体カテゴリであり、ニューラルネットワークを通じて、領域の候補2Dボックスの座標を調整し、それにより、調整された2D候補ボックスは候補2Dボックスよりも実際の物体の形状に一致し、信頼度が予め設定された閾値よりも大きい調整された2D候補ボックスを、領域の2Dボックスとして選択する、ように構成される。
入力画像を受信するステップと、
入力画像に対して畳み込み処理を実行し、画像に対応する、異なる解像度を有する特徴マップを出力するステップと、
異なるタスクについて、特徴マップに基づいて各タスクにおけるタスク物体を独立して検出し、各タスク物体が位置する領域の2Dボックスと、各2Dボックスに対応する信頼度とを出力するステップであり、タスク物体はタスクにおいて検出される必要がある物体であり、より高い信頼度はタスクに対応する物体が信頼度に対応する2Dボックスに存在するより高い確率を示す、ステップと
を含む。
1つ以上の特徴マップ上で、タスク物体が位置する領域を予測し、領域に一致する候補2Dボックスを出力するステップと、
タスク物体が位置する領域に基づいて、特徴マップから候補2Dボックスが位置する領域の特徴を抽出するステップと、
候補2Dボックスが位置する領域の特徴に対して畳み込み処理を実行し、候補2Dボックスが各物体カテゴリに属する信頼度を取得するステップであり、物体カテゴリはタスクにおける物体カテゴリである、ステップと、
ニューラルネットワークを通じて、領域の候補2Dボックスの座標を調整し、それにより、調整された2D候補ボックスは候補2Dボックスよりも実際の物体の形状に一致し、信頼度が予め設定された閾値よりも大きい調整された2D候補ボックスを、領域の2Dボックスとして選択するステップと
を含む。
タスクに対応する物体のアンカー(Anchor)に基づいて、バックボーンにより提供された1つ以上の特徴マップ上でタスク物体が存在する領域を予測し、提案を取得し、提案に一致する候補2Dボックスを出力するステップであり、アンカーはアンカーが属するタスク物体の統計的特徴に基づいて取得され、統計的特徴は物体の形状及びサイズを含む、ステップである。
タスクのタスク物体の2Dボックスに基づいて、バックボーン上の1つ以上の特徴マップから、2Dボックスが位置する領域の特徴を抽出し、2Dボックスが位置する領域の特徴に基づいて、タスクのタスク物体の3D情報、Mask情報又はKeypoint情報を予測するステップを更に含む。
各画像のラベル付きデータタイプに基づいて、各画像が属するタスクを決定するステップであり、各画像は1つ以上のデータタイプでラベル付けされ、複数のデータタイプは全てのデータタイプのサブセットであり、データタイプはタスクに対応する、ステップと、
各画像が属するタスクに基づいて、各画像について訓練される必要があるHeaderを決定するステップと、
各画像について訓練される必要があるHeaderの損失値を計算するステップと、
各画像について、訓練される必要があるHeaderを通じて勾配バックホールを実行し、損失値に基づいて、訓練される必要があるHeader及びバックボーンのパラメータを調整するステップと
を含む。
各画像のラベル付きデータタイプに基づいて、各画像が属するタスクを決定するように構成されたタスク決定モジュールであり、各画像は1つ以上のデータタイプでラベル付けされ、複数のデータタイプは全てのデータタイプのサブセットであり、データタイプはタスクに対応する、タスク決定モジュールと、
各画像が属するタスクに基づいて、各画像について訓練される必要があるHeaderを決定するように構成されたHeader決定モジュールと、
各画像について、Header決定モジュールにより決定されたHeaderの損失値を計算するように構成された損失値計算モジュールと、
各画像について、Header決定モジュールにより決定されたHeaderに対して勾配バックホールを実行し、損失値計算モジュールにより取得された損失値に基づいて、訓練される必要があるHeader及びバックボーンのパラメータを調整するように構成された調整モジュールと
を含む。
として表現され、ここで、
は入力ベクトルであり、
は出力ベクトルであり、
はバイアスベクトルであり、Wは重み行列(係数とも呼ばれる)であり、α()は活性化関数である。各層において、出力ベクトル
は、入力ベクトル
に対してこのような簡単な演算を実行することにより取得される。DNNに多くの層が存在するので、多くの係数W及びバイアスベクトル
も存在する。DNNにおけるこれらのパラメータの定義は以下の通りである。係数Wが例として使用される。3つの層を有するDNNにおいて、2番目の層における4番目のニューロンから3番目の層における2番目のニューロンへの線形係数がW24 3として定義されると仮定される。上付き文字3は、係数Wが位置する層を表し、下付き文字は、出力の3番目の層のインデックス2及び入力の2番目の層のインデックス4に対応する。結論として、(L-1)番目の層におけるk番目のニューロンからL番目の層におけるj番目のニューロンへの係数は、Wjk Lとして定義される。入力層においてパラメータWは存在しない点に留意すべきである。ディープニューラルネットワークでは、より多くの隠れ層は、ネットワークを、現実の世界における複雑な場合をより記述できるようにする。
各画像のラベル付きデータタイプに基づいて、各画像が属するタスクを決定するように構成されたタスク決定モジュール2900であり、各画像は1つ以上のデータタイプでラベル付けされ、複数のデータタイプは全てのデータタイプのサブセットであり、データタイプはタスクに対応する、タスク決定モジュール2900と、
タスク決定モジュール2900により決定され且つ各画像が属するタスクに基づいて、各画像について訓練される必要があるHeaderを決定するように構成されたHeader決定モジュール2901と、
各画像について、Header決定モジュール2901により決定されたHeaderの損失値を計算するように構成された損失値計算モジュール2902と、
各画像について、Header決定モジュール2901により決定されたHeaderに対して勾配バックホールを実行し、損失値計算モジュール2902により取得された損失値に基づいて、訓練される必要があるHeader及びバックボーンのパラメータを調整するように構成された調整モジュール2903と
を含む。
異なるタスクに属する画像に対してデータバランシングを実行するように構成されたデータバランシングモジュール2904を更に含んでもよい。
Keypoint検出プロセスは、図6A及び図6Bにおける直列Keypoint_Header2により完了する。「2D検出」プロセスにおいて提供された2Dボックス及びBackboneにより提供された特徴マップに基づいて、Keypoint検出プロセスにおいて、各2Dボックス内の物体のキーポイントの座標が予測される。直列Keypoint_Headerの可能な実現方式が図14A及び図14Bに示されている。
タスクに対応する物体のアンカー(Anchor)に基づいて、1つ以上の特徴マップ上でタスク物体が存在する領域を予測し、提案を取得し、提案に一致する候補2Dボックスを出力するステップであり、アンカーはアンカーが属するタスク物体の統計的特徴に基づいて取得され、統計的特徴は物体の形状及びサイズを含む、ステップを具体的に実行する。
タスクに対応する物体の2Dボックスに基づいて、バックボーン上の1つ以上の特徴マップから、物体の特徴を抽出し、物体の3D情報、Mask情報又はKeypoint情報を予測するステップを更に実行する。
Claims (18)
- 複数のヘッダに基づく感知ネットワークであり、前記感知ネットワークは、バックボーンと複数の並列ヘッダとを含み、前記複数の並列ヘッダは、前記バックボーンに接続される、感知ネットワークであって、
前記バックボーンは、入力画像を受信し、前記入力画像に対して畳み込み処理を実行し、前記画像に対応する、異なる解像度を有する特徴マップを出力するように構成され、
前記複数の並列ヘッダのそれぞれは、前記バックボーンにより出力された前記特徴マップに基づいてタスクにおけるタスク物体を検出し、前記タスク物体が位置する領域の2Dボックスと、各2Dボックスに対応する信頼度とを出力するように構成され、各並列ヘッダは異なるタスク物体を検出し、前記タスク物体は前記タスクにおいて検出される必要がある物体であり、より高い信頼度は前記タスクに対応する前記タスク物体が前記信頼度に対応する前記2Dボックスに存在するより高い確率を示し、
前記感知ネットワークは、いくつかのラベル付きデータに基づいて、
各画像のラベル付きデータタイプに基づいて、各画像が属するタスクを決定するステップであり、各画像は1つ以上のデータタイプでラベル付けされ、前記1つ以上のデータタイプは全てのデータタイプのサブセットであり、全ての前記データタイプのそれぞれはタスクに対応する、ステップと、
各画像が属する前記タスクに基づいて、各画像について訓練される必要があるヘッダを決定するステップと、
各画像について訓練される必要がある前記ヘッダの損失値を計算するステップと、
各画像について、訓練される必要がある前記ヘッダを通じて勾配バックホールを実行し、前記損失値に基づいて、訓練される必要がある前記ヘッダ及び前記バックボーンのパラメータを調整するステップと
に従って訓練される、感知ネットワーク。 - 各並列ヘッダは、領域提案ネットワーク(RPN)モジュールと、関心領域整列(ROI-ALIGN)モジュールと、領域畳み込みニューラルネットワーク(RCNN)モジュールとを含み、各並列ヘッダの前記RPNモジュールは、他の並列ヘッダのRPNモジュールと独立しており、各並列ヘッダの前記ROI-ALIGNモジュールは、他の並列ヘッダのROI-ALIGNモジュールと独立しており、各並列ヘッダの前記RCNNモジュールは、他の並列ヘッダのRCNNモジュールと独立しており、各並列ヘッダについて、
前記RPNモジュールは、前記バックボーンにより提供された1つ以上の特徴マップ上で、前記タスク物体が位置する前記領域を予測し、前記領域に一致する候補2Dボックスを出力するように構成され、
前記ROI-ALIGNモジュールは、前記RPNモジュールにより予測された前記領域に基づいて、前記バックボーンにより提供された特徴マップから前記候補2Dボックスが位置する領域の特徴を抽出するように構成され、
前記RCNNモジュールは、ニューラルネットワークを通じて、前記候補2Dボックスが位置する前記領域の前記特徴に対して畳み込み処理を実行し、前記候補2Dボックスが各物体カテゴリに属する信頼度を取得し、前記物体カテゴリは前記並列ヘッダに対応する前記タスクにおける物体カテゴリであり、前記ニューラルネットワークを通じて、前記領域の前記候補2Dボックスの座標を調整し、それにより、調整された2D候補ボックスは前記候補2Dボックスよりも実際の物体の形状に一致し、信頼度が予め設定された閾値よりも大きい調整された2D候補ボックスを、前記領域の2Dボックスとして選択する、ように構成される、請求項1に記載の感知ネットワーク。 - 前記2Dボックスは矩形ボックスである、請求項1又は2に記載の感知ネットワーク。
- 前記RPNモジュールは、前記RPNモジュールが属するタスクに対応する物体のアンカーに基づいて、前記バックボーンにより提供された前記1つ以上の特徴マップ上で前記タスク物体が存在する領域を予測し、提案を取得し、前記提案に一致する候補2Dボックスを出力するように構成され、前記アンカーは前記アンカーが属する前記タスク物体の統計的特徴に基づいて取得され、前記統計的特徴は前記物体の形状及びサイズを含む、請求項2に記載の感知ネットワーク。
- 当該感知ネットワークは、1つ以上の直列ヘッダを更に含み、前記直列ヘッダは並列ヘッダに接続され、
前記直列ヘッダは、前記直列ヘッダに接続された前記並列ヘッダにより提供され且つ前記並列ヘッダが属するタスクのタスク物体の2Dボックスを通じて、前記バックボーン上の前記1つ以上の特徴マップ上で、前記2Dボックスが位置する領域の特徴を抽出し、前記2Dボックスが位置する前記領域の前記特徴に基づいて、前記並列ヘッダが属する前記タスクの前記タスク物体の3D情報、Mask情報又はKeypoint情報を予測するように構成される、請求項1乃至4のうちいずれか1項に記載の感知ネットワーク。 - 前記RPNモジュールは、異なる解像度を有する前記特徴マップ上で、異なるサイズを有する物体が位置する領域を予測するように構成される、請求項2又は4に記載の感知ネットワーク。
- 前記RPNモジュールは、低解像度特徴マップ上で大きい物体が位置する領域を検出し、高解像度特徴マップ上で小さい物体が位置する領域を検出するように構成される、請求項6に記載の感知ネットワーク。
- 感知ネットワークを使用することによる物体検出方法であり、前記感知ネットワークは、バックボーンと複数の並列ヘッダとを含み、前記複数の並列ヘッダは、前記バックボーンに接続される、物体検出方法であって、
前記バックボーンにより、入力画像を受信するステップと、
前記バックボーンにより、前記入力画像に対して畳み込み処理を実行し、前記画像に対応する、異なる解像度を有する特徴マップを出力するステップと、
前記複数の並列ヘッダのそれぞれにより、異なるタスクについて、前記特徴マップに基づいて各タスクにおけるタスク物体を独立して検出し、各タスク物体が位置する領域の2Dボックスと、各2Dボックスに対応する信頼度とを出力するステップであり、前記タスク物体は前記タスクにおいて検出される必要がある物体であり、より高い信頼度は前記タスクに対応する前記タスク物体が前記信頼度に対応する前記2Dボックスに存在するより高い確率を示す、ステップと
を含み、
前記感知ネットワークは、いくつかのラベル付きデータに基づいて、
各画像のラベル付きデータタイプに基づいて、各画像が属するタスクを決定するステップであり、各画像は1つ以上のデータタイプでラベル付けされ、前記1つ以上のデータタイプは全てのデータタイプのサブセットであり、全ての前記データタイプのそれぞれはタスクに対応する、ステップと、
各画像が属する前記タスクに基づいて、各画像について訓練される必要があるヘッダを決定するステップと、
各画像について訓練される必要がある前記ヘッダの損失値を計算するステップと、
各画像について、訓練される必要がある前記ヘッダを通じて勾配バックホールを実行し、前記損失値に基づいて、訓練される必要がある前記ヘッダ及び前記バックボーンのパラメータを調整するステップと
に従って訓練される、物体検出方法。 - 前記複数の並列ヘッダのそれぞれにより、異なるタスクについて、前記特徴マップに基づいて各タスクにおけるタスク物体を独立して検出し、各タスク物体が位置する領域の2Dボックスと、各2Dボックスに対応する信頼度とを出力するステップは、
1つ以上の特徴マップ上で、前記タスク物体が位置する前記領域を予測し、前記領域に一致する候補2Dボックスを出力するステップと、
前記タスク物体が位置する前記領域に基づいて、特徴マップから前記候補2Dボックスが位置する領域の特徴を抽出するステップと、
前記候補2Dボックスが位置する前記領域の前記特徴に対して畳み込み処理を実行し、前記候補2Dボックスが各物体カテゴリに属する信頼度を取得するステップであり、前記物体カテゴリはタスクにおける物体カテゴリである、ステップと、
ニューラルネットワークを通じて、前記領域の前記候補2Dボックスの座標を調整し、それにより、調整された2D候補ボックスは前記候補2Dボックスよりも実際の物体の形状に一致し、信頼度が予め設定された閾値よりも大きい調整された2D候補ボックスを、前記領域の2Dボックスとして選択するステップと
を含む、請求項8に記載の物体検出方法。 - 前記2Dボックスは矩形ボックスである、請求項9に記載の物体検出方法。
- 1つ以上の特徴マップ上で、前記タスク物体が位置する前記領域を予測し、前記領域に一致する候補2Dボックスを出力するステップは、
タスクに対応する物体のアンカーに基づいて、バックボーンにより提供された前記1つ以上の特徴マップ上で前記タスク物体が存在する領域を予測し、提案を取得し、前記提案に一致する候補2Dボックスを出力するステップであり、前記アンカーは前記アンカーが属する前記タスク物体の統計的特徴に基づいて取得され、前記統計的特徴は前記物体の形状及びサイズを含む、ステップである、請求項9に記載の物体検出方法。 - 並列ヘッダに接続された直列ヘッダにより、前記タスクの前記タスク物体の2Dボックスに基づいて、バックボーン上の前記1つ以上の特徴マップから、前記2Dボックスが位置する領域の特徴を抽出し、前記2Dボックスが位置する前記領域の前記特徴に基づいて、前記タスクの前記タスク物体の3D情報、Mask情報又はKeypoint情報を予測するステップを更に含む、請求項8乃至11のうちいずれか1項に記載の物体検出方法。
- 大きい物体が位置する領域の検出は低解像度特徴マップ上で完了し、小さい物体が位置する領域の検出は高解像度特徴マップ上で完了する、請求項8乃至12のうちいずれか1項に記載の物体検出方法。
- いくつかのラベル付きデータに基づいてマルチタスク感知ネットワークを訓練するための方法であり、前記感知ネットワークは、バックボーンと、複数の並列ヘッダとを含む、方法であって、
各画像のラベル付きデータタイプに基づいて、各画像が属するタスクを決定するステップであり、各画像は1つ以上のデータタイプでラベル付けされ、前記1つ以上のデータタイプは全てのデータタイプのサブセットであり、全ての前記データタイプのそれぞれはタスクに対応する、ステップと、
各画像が属する前記タスクに基づいて、各画像について訓練される必要があるヘッダを決定するステップと、
各画像について訓練される必要がある前記ヘッダの損失値を計算するステップと、
各画像について、訓練される必要がある前記ヘッダを通じて勾配バックホールを実行し、前記損失値に基づいて、訓練される必要がある前記ヘッダ及び前記バックボーンのパラメータを調整するステップと
を含む、マルチタスク感知ネットワークを訓練するための方法。 - 各画像について訓練される必要がある前記ヘッダの損失値を計算する前に、
異なるタスクに属する画像に対してデータバランシングを実行するステップを更に含む、請求項14に記載のマルチタスク感知ネットワークを訓練するための方法。 - いくつかのラベル付きデータに基づいてマルチタスク感知ネットワークを訓練するための装置であり、前記感知ネットワークは、バックボーンと複数の並列ヘッダとを含む、装置であって、
各画像のラベル付きデータタイプに基づいて、各画像が属するタスクを決定するように構成されたタスク決定モジュールであり、各画像は1つ以上のデータタイプでラベル付けされ、前記1つ以上のデータタイプは全てのデータタイプのサブセットであり、全ての前記データタイプのそれぞれはタスクに対応する、タスク決定モジュールと、
各画像が属する前記タスクに基づいて、各画像について訓練される必要があるヘッダを決定するように構成されたヘッダ決定モジュールと、
各画像について、前記ヘッダ決定モジュールにより決定された前記ヘッダの損失値を計算するように構成された損失値計算モジュールと、
各画像について、前記ヘッダ決定モジュールにより決定された前記ヘッダに対して勾配バックホールを実行し、前記損失値計算モジュールにより取得された前記損失値に基づいて、訓練される必要がある前記ヘッダ及び前記バックボーンのパラメータを調整するように構成された調整モジュールと
を含む、マルチタスク感知ネットワークを訓練するための装置。 - 異なるタスクに属する画像に対してデータバランシングを実行するように構成されたデータバランシングモジュールを更に含む、請求項16に記載のマルチタスク感知ネットワークを訓練するための装置。
- コンピュータ読み取り可能記憶媒体であって、
当該コンピュータ読み取り可能記憶媒体は命令を記憶し、前記命令がコンピュータ上で実行されたとき、前記コンピュータは請求項8乃至15のうちいずれか1項に記載の方法を実行することが可能になる、コンピュータ読み取り可能記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910493331.6 | 2019-06-06 | ||
CN201910493331.6A CN110298262B (zh) | 2019-06-06 | 2019-06-06 | 物体识别方法及装置 |
PCT/CN2020/094803 WO2020244653A1 (zh) | 2019-06-06 | 2020-06-08 | 物体识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022515895A JP2022515895A (ja) | 2022-02-22 |
JP7289918B2 true JP7289918B2 (ja) | 2023-06-12 |
Family
ID=68027699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021538658A Active JP7289918B2 (ja) | 2019-06-06 | 2020-06-08 | 物体認識方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220165045A1 (ja) |
EP (1) | EP3916628A4 (ja) |
JP (1) | JP7289918B2 (ja) |
CN (1) | CN110298262B (ja) |
WO (1) | WO2020244653A1 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11922314B1 (en) * | 2018-11-30 | 2024-03-05 | Ansys, Inc. | Systems and methods for building dynamic reduced order physical models |
US11462112B2 (en) * | 2019-03-07 | 2022-10-04 | Nec Corporation | Multi-task perception network with applications to scene understanding and advanced driver-assistance system |
CN110298262B (zh) * | 2019-06-06 | 2024-01-02 | 华为技术有限公司 | 物体识别方法及装置 |
CN110675635B (zh) * | 2019-10-09 | 2021-08-03 | 北京百度网讯科技有限公司 | 相机外参的获取方法、装置、电子设备及存储介质 |
WO2021114031A1 (zh) * | 2019-12-09 | 2021-06-17 | 深圳市大疆创新科技有限公司 | 一种目标检测方法和装置 |
CN112989900A (zh) * | 2019-12-13 | 2021-06-18 | 深动科技(北京)有限公司 | 一种精确检测交通标志或标线的方法 |
CN111291809B (zh) * | 2020-02-03 | 2024-04-12 | 华为技术有限公司 | 一种处理装置、方法及存储介质 |
CN111598000A (zh) * | 2020-05-18 | 2020-08-28 | 中移(杭州)信息技术有限公司 | 基于多任务的人脸识别方法、装置、服务器和可读存储介质 |
CN112434552A (zh) * | 2020-10-13 | 2021-03-02 | 广州视源电子科技股份有限公司 | 神经网络模型调整方法、装置、设备及存储介质 |
WO2022126523A1 (zh) * | 2020-12-17 | 2022-06-23 | 深圳市大疆创新科技有限公司 | 物体检测方法、设备、可移动平台及计算机可读存储介质 |
CN112614105B (zh) * | 2020-12-23 | 2022-08-23 | 东华大学 | 一种基于深度网络的3d点云焊点缺陷检测方法 |
CN112869829B (zh) * | 2021-02-25 | 2022-10-21 | 北京积水潭医院 | 一种智能镜下腕管切割器 |
CN113065637B (zh) * | 2021-02-27 | 2023-09-01 | 华为技术有限公司 | 一种感知网络及数据处理方法 |
FR3121110A1 (fr) * | 2021-03-24 | 2022-09-30 | Psa Automobiles Sa | Procédé et système de contrôle d’une pluralité de systèmes d’aide à la conduite embarqués dans un véhicule |
WO2022217434A1 (zh) * | 2021-04-12 | 2022-10-20 | 华为技术有限公司 | 感知网络、感知网络的训练方法、物体识别方法及装置 |
CN113191401A (zh) * | 2021-04-14 | 2021-07-30 | 中国海洋大学 | 基于视觉显著性共享的用于三维模型识别的方法及装置 |
CN113255445A (zh) * | 2021-04-20 | 2021-08-13 | 杭州飞步科技有限公司 | 多任务模型训练及图像处理方法、装置、设备及存储介质 |
CN113762326A (zh) * | 2021-05-26 | 2021-12-07 | 腾讯云计算(北京)有限责任公司 | 一种数据识别方法、装置、设备及可读存储介质 |
CN113657486B (zh) * | 2021-08-16 | 2023-11-07 | 浙江新再灵科技股份有限公司 | 基于电梯图片数据的多标签多属性分类模型建立方法 |
CN114723966B (zh) * | 2022-03-30 | 2023-04-07 | 北京百度网讯科技有限公司 | 多任务识别方法、训练方法、装置、电子设备及存储介质 |
CN114596624B (zh) * | 2022-04-20 | 2022-08-05 | 深圳市海清视讯科技有限公司 | 人眼状态检测方法、装置、电子设备及存储介质 |
CN114821269A (zh) * | 2022-05-10 | 2022-07-29 | 安徽蔚来智驾科技有限公司 | 多任务目标检测方法、设备、自动驾驶系统和存储介质 |
CN115661784B (zh) * | 2022-10-12 | 2023-08-22 | 北京惠朗时代科技有限公司 | 一种面向智慧交通的交通标志图像大数据识别方法与系统 |
CN116385949B (zh) * | 2023-03-23 | 2023-09-08 | 广州里工实业有限公司 | 一种移动机器人的区域检测方法、系统、装置及介质 |
CN116543163B (zh) * | 2023-05-15 | 2024-01-26 | 哈尔滨市科佳通用机电股份有限公司 | 一种制动连接管折断故障检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520229A (zh) | 2018-04-04 | 2018-09-11 | 北京旷视科技有限公司 | 图像检测方法、装置、电子设备和计算机可读介质 |
CN109598186A (zh) | 2018-10-12 | 2019-04-09 | 高新兴科技集团股份有限公司 | 一种基于多任务深度学习的行人属性识别方法 |
CN109784194A (zh) | 2018-12-20 | 2019-05-21 | 上海图森未来人工智能科技有限公司 | 目标检测网络构建方法和训练方法、目标检测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124409A1 (en) * | 2015-11-04 | 2017-05-04 | Nec Laboratories America, Inc. | Cascaded neural network with scale dependent pooling for object detection |
WO2019028725A1 (en) * | 2017-08-10 | 2019-02-14 | Intel Corporation | CONVOLUTIVE NEURAL NETWORK STRUCTURE USING INVERTED CONNECTIONS AND OBJECTIVITY ANTERIORITIES TO DETECT AN OBJECT |
US10679351B2 (en) * | 2017-08-18 | 2020-06-09 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
US10223610B1 (en) * | 2017-10-15 | 2019-03-05 | International Business Machines Corporation | System and method for detection and classification of findings in images |
CN109712118A (zh) * | 2018-12-11 | 2019-05-03 | 武汉三江中电科技有限责任公司 | 一种基于Mask RCNN的变电站隔离开关检测识别方法 |
CN109815922B (zh) * | 2019-01-29 | 2022-09-30 | 卡斯柯信号有限公司 | 基于人工智能神经网络的轨道交通地面目标视频识别方法 |
CN110298262B (zh) * | 2019-06-06 | 2024-01-02 | 华为技术有限公司 | 物体识别方法及装置 |
-
2019
- 2019-06-06 CN CN201910493331.6A patent/CN110298262B/zh active Active
-
2020
- 2020-06-08 JP JP2021538658A patent/JP7289918B2/ja active Active
- 2020-06-08 EP EP20817904.4A patent/EP3916628A4/en active Pending
- 2020-06-08 WO PCT/CN2020/094803 patent/WO2020244653A1/zh active Application Filing
-
2021
- 2021-12-06 US US17/542,497 patent/US20220165045A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520229A (zh) | 2018-04-04 | 2018-09-11 | 北京旷视科技有限公司 | 图像检测方法、装置、电子设备和计算机可读介质 |
CN109598186A (zh) | 2018-10-12 | 2019-04-09 | 高新兴科技集团股份有限公司 | 一种基于多任务深度学习的行人属性识别方法 |
CN109784194A (zh) | 2018-12-20 | 2019-05-21 | 上海图森未来人工智能科技有限公司 | 目标检测网络构建方法和训练方法、目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110298262A (zh) | 2019-10-01 |
EP3916628A4 (en) | 2022-07-13 |
US20220165045A1 (en) | 2022-05-26 |
CN110298262B (zh) | 2024-01-02 |
EP3916628A1 (en) | 2021-12-01 |
WO2020244653A1 (zh) | 2020-12-10 |
JP2022515895A (ja) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7289918B2 (ja) | 物体認識方法及び装置 | |
CN110378381B (zh) | 物体检测方法、装置和计算机存储介质 | |
CN110070107B (zh) | 物体识别方法及装置 | |
EP3923233A1 (en) | Image denoising method and apparatus | |
US20220215227A1 (en) | Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium | |
WO2021218786A1 (zh) | 一种数据处理系统、物体检测方法及其装置 | |
CN111401517B (zh) | 一种感知网络结构搜索方法及其装置 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
WO2021147325A1 (zh) | 一种物体检测方法、装置以及存储介质 | |
WO2022001805A1 (zh) | 一种神经网络蒸馏方法及装置 | |
WO2021164750A1 (zh) | 一种卷积层量化方法及其装置 | |
US20220130142A1 (en) | Neural architecture search method and image processing method and apparatus | |
US20220157041A1 (en) | Image classification method and apparatus | |
EP4006777A1 (en) | Image classification method and device | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN112529904A (zh) | 图像语义分割方法、装置、计算机可读存储介质和芯片 | |
CN115375781A (zh) | 一种数据处理方法及其装置 | |
WO2022217434A1 (zh) | 感知网络、感知网络的训练方法、物体识别方法及装置 | |
US20230401826A1 (en) | Perception network and data processing method | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN111833363B (zh) | 图像边缘和显著性检测方法及装置 | |
EP4293628A1 (en) | Image processing method and related apparatus | |
CN116258176A (zh) | 一种数据处理方法及其装置 | |
CN114972182A (zh) | 一种物体检测方法及其装置 | |
CN115731530A (zh) | 一种模型训练方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210630 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230531 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7289918 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |