JP2021508388A - キーポイント検出方法及び装置、電子機器並びに記憶媒体 - Google Patents
キーポイント検出方法及び装置、電子機器並びに記憶媒体 Download PDFInfo
- Publication number
- JP2021508388A JP2021508388A JP2020518758A JP2020518758A JP2021508388A JP 2021508388 A JP2021508388 A JP 2021508388A JP 2020518758 A JP2020518758 A JP 2020518758A JP 2020518758 A JP2020518758 A JP 2020518758A JP 2021508388 A JP2021508388 A JP 2021508388A
- Authority
- JP
- Japan
- Prior art keywords
- feature map
- feature
- processing
- map
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/033—Recognition of patterns in medical or anatomical images of skeletal patterns
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
Description
本願は、出願番号が201811367869.4で、出願日が2018年11月16日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本願に組み込まれる。
入力画像に対する複数のスケールの第1特徴マップを取得するステップであって、各第1特徴マップのスケールが倍数関係になるステップと、第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するステップであって、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じであるステップと、第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するステップであって、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じであるステップと、各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップと、を含むキーポイント検出方法を提供する。
第5畳み込みカーネルを用いて第3特徴マップ
即ちn個の第1特徴マップであってよく、
入力画像に対する複数のスケールの第1特徴マップを取得するように構成され、各第1特徴マップのスケールが倍数関係になるマルチスケール特徴取得モジュール10と、第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するように構成され、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じである順方向処理モジュール20と、第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するように構成され、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じである逆方向処理モジュール30と、各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するように構成されるキーポイント検出モジュール40と、を含む。
例えば、本願は以下の項目を提供する。
(項目1)
入力画像に対する複数のスケールの第1特徴マップを取得するステップであって、各第1特徴マップのスケールが倍数関係になるステップと、
第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するステップであって、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じであるステップと、
第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するステップであって、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じであるステップと、
各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップと、を含むキーポイント検出方法。
(項目2)
前記入力画像に対する複数のスケールの第1特徴マップを取得するステップは、
前記入力画像を所定規格の第1画像に調整するステップと、
前記第1画像を残差ニューラルネットワークに入力し、第1画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第1特徴マップを取得するステップと、を含む項目1に記載の方法。
(項目3)
前記順方向処理は、第1畳み込み処理と第1線形補間処理を含み、前記逆方向処理は、第2畳み込み処理と第2線形補間処理を含む項目1に記載の方法。
(項目4)
前記第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するステップは、
第1畳み込みカーネルを用いて第1特徴マップ
中の第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
に対応する第2特徴マップ
を取得するステップであって、nが第1特徴マップの数量を示し、nが1より大きい整数であるステップと、
前記第2特徴マップ
に対して線形補間処理を実行して第2特徴マップ
に対応する第1中間特徴マップ
を取得するステップであって、第1中間特徴マップ
のスケールが第1特徴マップC n−1 のスケールと同じであるステップと、
第2畳み込みカーネルを用いて第1特徴マップ
以外の各第1特徴マップ
に対して畳み込み処理を行って、それぞれ第1特徴マップ
に一対一に対応する第2中間特徴マップ
を取得するステップであって、前記第2中間特徴マップのスケールがそれに一対一に対応する第1特徴マップのスケールと同じであるステップと、
前記第2特徴マップ
及び各前記第2中間特徴マップ
に基づいて、第2特徴マップ
及び第1中間特徴マップ
を取得するステップであって、前記第2特徴マップ
が前記第2中間特徴マップ
と前記第1中間特徴マップ
に対して重畳処理を行って取得され、第1中間特徴マップ
が対応する第2特徴マップ
に対して線形補間を行って取得され、また、前記第2中間特徴マップ
と第1中間特徴マップ
のスケールが同じであり、iが1以上であり且つnより小さい整数であるステップと、を含む項目1〜3のいずれか一項に記載の方法。
(項目5)
前記第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するステップは、
第3畳み込みカーネルを用いて第2特徴マップ
中の第2特徴マップ
に対して畳み込み処理を行って、第2特徴マップ
に対応する第3特徴マップ
を取得するステップであって、mが第2特徴マップの数量を示し、mが1より大きい整数であるステップと、
第4畳み込みカーネルを用いて第2特徴マップ
に対して畳み込み処理を行って、対応する第3中間特徴マップ
をそれぞれ取得するステップであって、第3中間特徴マップのスケールが対応する第2特徴マップのスケールと同じであるステップと、
第5畳み込みカーネルを用いて第3特徴マップ
に対して畳み込み処理を行って第3特徴マップ
に対応する第4中間特徴マップ
を取得するステップと、
各第3中間特徴マップ
及び第4中間特徴マップ
を用いて、第3特徴マップ
及び第4中間特徴マップ
を取得するステップであって、第3特徴マップ
が第3中間特徴マップ
と第4中間特徴マップ
の重畳処理により取得され、第4中間特徴マップ
が対応する第3特徴マップ
から第5畳み込みカーネルの畳み込み処理によって取得され、jが1より大きく且つm以下であるステップと、を含む項目1〜4のいずれか一項に記載の方法。
(項目6)
前記各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップは、
各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップと、
前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップと、を含む項目1〜5のいずれか一項に記載の方法。
(項目7)
前記各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップは、
線形補間の方式を用いて、各第3特徴マップを同じスケールの特徴マップに調整するステップと、
前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するステップと、を含む項目6に記載の方法。
(項目8)
前記各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得する前に、第1組の第3特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第3特徴マップをそれぞれ取得するステップであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第3特徴マップが第1組の第3特徴マップと第2組の第3特徴マップを含み、前記第1組の第3特徴マップと前記第2組の第3特徴マップのいずれにも少なくとも1つの第3特徴マップを含むステップを更に含む項目6又は7に記載の方法。
(項目9)
前記各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップは、
線形補間の方式を用いて、各前記更新後の第3特徴マップ及び前記第2組の第3特徴マップを同じスケールの特徴マップに調整するステップと、
前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するステップと、を含む項目8に記載の方法。
(項目10)
前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行うステップと、
次元削減処理後の第4特徴マップを用いて入力画像のキーポイントの位置を決定するステップと、を含む項目6〜9のいずれか一項に記載の方法。
(項目11)
前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、
第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行うステップと、
畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得するステップと、
純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するステップと、を含む項目6〜9のいずれか一項に記載の方法。
(項目12)
前記方法は、トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするステップは、
第1ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第1特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第2特徴マップを取得するステップと、
各第2特徴マップを用いて識別されるキーポイントを決定するステップと、
第1損失関数により前記キーポイントの第1損失を取得するステップと、
トレーニング回数が設定された第1回数閾値に到達するまで、前記第1損失を用いて前記第1ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む項目1〜11のいずれか一項に記載の方法。
(項目13)
前記方法は、トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするステップは、
第2ピラミッドニューラルネットワークを用いて前記第1ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第2特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得するステップと、
各第3特徴マップを用いて識別されるキーポイントを決定するステップと、
第2損失関数により識別される各キーポイントの第2損失を取得するステップと、
トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第1ピラミッドネットワーク中の畳み込みカーネル及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む項目1〜12のいずれか一項に記載の方法。
(項目14)
特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行し、また、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するステップの前に、前記方法は、トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップは、
特徴抽出ネットワークを用いて前記第2ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第3特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、
第3損失関数により各キーポイントの第3損失を取得するステップと、
トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失関数を用いて前記第1ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む項目1〜13のいずれか一項に記載の方法。
(項目15)
入力画像に対する複数のスケールの第1特徴マップを取得するように構成されるマルチスケール特徴取得モジュールであって、各第1特徴マップのスケールが倍数関係になるマルチスケール特徴取得モジュールと、
第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するように構成される順方向処理モジュールであって、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じである順方向処理モジュールと、
第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するように構成される逆方向処理モジュールであって、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じである逆方向処理モジュールと、
各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するように構成されるキーポイント検出モジュールと、を含むキーポイント検出装置。
(項目16)
前記マルチスケール特徴取得モジュールは、前記入力画像を所定規格の第1画像に調整し、前記第1画像を残差ニューラルネットワークに入力し、第1画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第1特徴マップを取得するように構成される項目15に記載の装置。
(項目17)
前記順方向処理は、第1畳み込み処理と第1線形補間処理を含み、前記逆方向処理は、第2畳み込み処理と第2線形補間処理を含む項目15に記載の装置。
(項目18)
前記順方向処理モジュールは、
第1畳み込みカーネルを用いて第1特徴マップ
中の第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
を取得し、nが第1特徴マップの数量を示し、nが1より大きい整数であり、
前記第2特徴マップ
に対して線形補間処理を実行して第2特徴マップ
に対応する第1中間特徴マップ
を取得し、第1中間特徴マップ
のスケールが第1特徴マップC n−1 のスケールと同じであり、
第2畳み込みカーネルを用いて第1特徴マップ
以外の各第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
に一対一に対応する第2中間特徴マップ
をそれぞれ取得し、前記第2中間特徴マップのスケールがそれに一対一に対応する第1特徴マップのスケールと同じであり、
前記第2特徴マップ
及び各前記第2中間特徴マップ
に基づいて、第2特徴マップ
及び第1中間特徴マップ
を取得し、前記第2特徴マップ
が前記第2中間特徴マップ
と前記第1中間特徴マップ
に対して重畳処理を行って取得され、第1中間特徴マップ
が対応する第2特徴マップ
に対して線形補間を行って取得され、また、前記第2中間特徴マップ
と第1中間特徴マップ
のスケールが同じであり、iが1以上であり且つnより小さい整数であるように構成される項目15〜17のいずれか一項に記載の装置。
(項目19)
前記逆方向処理モジュールは、
第3畳み込みカーネルを用いて第2特徴マップ
中の第2特徴マップ
に対して畳み込み処理を行って、第2特徴マップ
に対応する第3特徴マップ
を取得し、mが第2特徴マップの数量を示し、mが1より大きい整数であり、
第4畳み込みカーネルを用いて第2特徴マップ
に対して畳み込み処理を行って、対応する第3中間特徴マップ
をそれぞれ取得し、第3中間特徴マップのスケールが対応する第2特徴マップのスケールと同じであり、
第5畳み込みカーネルを用いて第3特徴マップ
に対して畳み込み処理を行って第3特徴マップ
に対応する第4中間特徴マップ
を取得し、
各第3中間特徴マップ
及び第4中間特徴マップ
を用いて第3特徴マップ
及び第4中間特徴マップ
を取得し、第3特徴マップ
が第3中間特徴マップ
と第4中間特徴マップ
の重畳処理により取得され、第4中間特徴マップ
が対応する第3特徴マップ
から第5畳み込みカーネルの畳み込み処理によって取得され、jが1より大きく且つm以下であるように構成される項目15〜18のいずれか一項に記載の装置。
(項目20)
前記キーポイント検出モジュールは、各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得し、且つ前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するように構成される項目15〜19のいずれか一項に記載の装置。
(項目21)
前記キーポイント検出モジュールは、線形補間の方式を用いて、各第3特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するように構成される項目20に記載の装置。
(項目22)
第1組の第3特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第3特徴マップをそれぞれ取得するように構成される最適化モジュールであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第3特徴マップが第1組の第3特徴マップと第2組の第3特徴マップを含み、前記第1組の第3特徴マップと前記第2組の第3特徴マップのいずれにも少なくとも1つの第3特徴マップを含む最適化モジュールを更に含む項目20又は21に記載の装置。
(項目23)
前記キーポイント検出モジュールは、更に、線形補間の方式を用いて、各前記更新後の第3特徴マップ及び前記第2組の第3特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するように構成される項目22前記の装置。
(項目24)
前記キーポイント検出モジュールは、更に、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行い、且つ次元削減処理後の第4特徴マップを用いて入力画像のキーポイントの位置を決定するように構成される項目20〜23のいずれか一項に記載の装置。
(項目25)
前記キーポイント検出モジュールは、更に、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行い、畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得し、且つ純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するように構成される項目20〜23のいずれか一項に記載の装置。
(項目26)
前記順方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングすることは、第1ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第1特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第2特徴マップを取得するステップと、各第2特徴マップを用いて識別されるキーポイントを決定するステップと、第1損失関数により前記キーポイントの第1損失を取得するステップと、トレーニング回数が設定された第1回数閾値に到達するまで、前記第1損失を用いて前記第1ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む項目15〜25のいずれか一項に記載の装置。
(項目27)
前記逆方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングすることは、第2ピラミッドニューラルネットワークを用いて前記第1ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第2特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得するステップと、各第3特徴マップを用いて識別されるキーポイントを決定するステップと、第2損失関数により識別される各キーポイントの第2損失を取得するステップと、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第1ピラミッドネットワーク中の畳み込みカーネル及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む項目15〜26のいずれか一項に記載の装置。
(項目28)
前記キーポイント検出モジュールは、更に、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するように構成され、また、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するステップの前に、更にトレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングすることは、特徴抽出ネットワークを用いて前記第2ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第3特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、第3損失関数により各キーポイントの第3損失を取得するステップと、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失関数を用いて前記第1ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む項目15〜27のいずれか一項に記載の装置。
(項目29)
項目1〜14のいずれか一項に記載の方法を実行するように構成されるプロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含む電子機器。
(項目30)
コンピュータプログラムコマンドを記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に項目1〜14のいずれか一項に記載の方法が実現されるコンピュータ可読記憶媒体。
Claims (30)
- 入力画像に対する複数のスケールの第1特徴マップを取得するステップであって、各第1特徴マップのスケールが倍数関係になるステップと、
第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するステップであって、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じであるステップと、
第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するステップであって、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じであるステップと、
各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップと、を含むキーポイント検出方法。 - 前記入力画像に対する複数のスケールの第1特徴マップを取得するステップは、
前記入力画像を所定規格の第1画像に調整するステップと、
前記第1画像を残差ニューラルネットワークに入力し、第1画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第1特徴マップを取得するステップと、を含む請求項1に記載の方法。 - 前記順方向処理は、第1畳み込み処理と第1線形補間処理を含み、前記逆方向処理は、第2畳み込み処理と第2線形補間処理を含む請求項1に記載の方法。
- 前記第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するステップは、
第1畳み込みカーネルを用いて第1特徴マップ
中の第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
に対応する第2特徴マップ
を取得するステップであって、nが第1特徴マップの数量を示し、nが1より大きい整数であるステップと、
前記第2特徴マップ
に対して線形補間処理を実行して第2特徴マップ
に対応する第1中間特徴マップ
を取得するステップであって、第1中間特徴マップ
のスケールが第1特徴マップCn−1のスケールと同じであるステップと、
第2畳み込みカーネルを用いて第1特徴マップ
以外の各第1特徴マップ
に対して畳み込み処理を行って、それぞれ第1特徴マップ
に一対一に対応する第2中間特徴マップ
を取得するステップであって、前記第2中間特徴マップのスケールがそれに一対一に対応する第1特徴マップのスケールと同じであるステップと、
前記第2特徴マップ
及び各前記第2中間特徴マップ
に基づいて、第2特徴マップ
及び第1中間特徴マップ
を取得するステップであって、前記第2特徴マップ
が前記第2中間特徴マップ
と前記第1中間特徴マップ
に対して重畳処理を行って取得され、第1中間特徴マップ
が対応する第2特徴マップ
に対して線形補間を行って取得され、また、前記第2中間特徴マップ
と第1中間特徴マップ
のスケールが同じであり、iが1以上であり且つnより小さい整数であるステップと、を含む請求項1〜3のいずれか一項に記載の方法。 - 前記第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するステップは、
第3畳み込みカーネルを用いて第2特徴マップ
中の第2特徴マップ
に対して畳み込み処理を行って、第2特徴マップ
に対応する第3特徴マップ
を取得するステップであって、mが第2特徴マップの数量を示し、mが1より大きい整数であるステップと、
第4畳み込みカーネルを用いて第2特徴マップ
に対して畳み込み処理を行って、対応する第3中間特徴マップ
をそれぞれ取得するステップであって、第3中間特徴マップのスケールが対応する第2特徴マップのスケールと同じであるステップと、
第5畳み込みカーネルを用いて第3特徴マップ
に対して畳み込み処理を行って第3特徴マップ
に対応する第4中間特徴マップ
を取得するステップと、
各第3中間特徴マップ
及び第4中間特徴マップ
を用いて、第3特徴マップ
及び第4中間特徴マップ
を取得するステップであって、第3特徴マップ
が第3中間特徴マップ
と第4中間特徴マップ
の重畳処理により取得され、第4中間特徴マップ
が対応する第3特徴マップ
から第5畳み込みカーネルの畳み込み処理によって取得され、jが1より大きく且つm以下であるステップと、を含む請求項1〜4のいずれか一項に記載の方法。 - 前記各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップは、
各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップと、
前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップと、を含む請求項1〜5のいずれか一項に記載の方法。 - 前記各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップは、
線形補間の方式を用いて、各第3特徴マップを同じスケールの特徴マップに調整するステップと、
前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するステップと、を含む請求項6に記載の方法。 - 前記各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得する前に、第1組の第3特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第3特徴マップをそれぞれ取得するステップであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第3特徴マップが第1組の第3特徴マップと第2組の第3特徴マップを含み、前記第1組の第3特徴マップと前記第2組の第3特徴マップのいずれにも少なくとも1つの第3特徴マップを含むステップを更に含む請求項6又は7に記載の方法。
- 前記各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップは、
線形補間の方式を用いて、各前記更新後の第3特徴マップ及び前記第2組の第3特徴マップを同じスケールの特徴マップに調整するステップと、
前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するステップと、を含む請求項8に記載の方法。 - 前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行うステップと、
次元削減処理後の第4特徴マップを用いて入力画像のキーポイントの位置を決定するステップと、を含む請求項6〜9のいずれか一項に記載の方法。 - 前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、
第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行うステップと、
畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得するステップと、
純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するステップと、を含む請求項6〜9のいずれか一項に記載の方法。 - 前記方法は、トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするステップは、
第1ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第1特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第2特徴マップを取得するステップと、
各第2特徴マップを用いて識別されるキーポイントを決定するステップと、
第1損失関数により前記キーポイントの第1損失を取得するステップと、
トレーニング回数が設定された第1回数閾値に到達するまで、前記第1損失を用いて前記第1ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む請求項1〜11のいずれか一項に記載の方法。 - 前記方法は、トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするステップは、
第2ピラミッドニューラルネットワークを用いて前記第1ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第2特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得するステップと、
各第3特徴マップを用いて識別されるキーポイントを決定するステップと、
第2損失関数により識別される各キーポイントの第2損失を取得するステップと、
トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第1ピラミッドネットワーク中の畳み込みカーネル及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む請求項1〜12のいずれか一項に記載の方法。 - 特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行し、また、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するステップの前に、前記方法は、トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップは、
特徴抽出ネットワークを用いて前記第2ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第3特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、
第3損失関数により各キーポイントの第3損失を取得するステップと、
トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失関数を用いて前記第1ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む請求項1〜13のいずれか一項に記載の方法。 - 入力画像に対する複数のスケールの第1特徴マップを取得するように構成されるマルチスケール特徴取得モジュールであって、各第1特徴マップのスケールが倍数関係になるマルチスケール特徴取得モジュールと、
第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するように構成される順方向処理モジュールであって、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じである順方向処理モジュールと、
第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するように構成される逆方向処理モジュールであって、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じである逆方向処理モジュールと、
各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するように構成されるキーポイント検出モジュールと、を含むキーポイント検出装置。 - 前記マルチスケール特徴取得モジュールは、前記入力画像を所定規格の第1画像に調整し、前記第1画像を残差ニューラルネットワークに入力し、第1画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第1特徴マップを取得するように構成される請求項15に記載の装置。
- 前記順方向処理は、第1畳み込み処理と第1線形補間処理を含み、前記逆方向処理は、第2畳み込み処理と第2線形補間処理を含む請求項15に記載の装置。
- 前記順方向処理モジュールは、
第1畳み込みカーネルを用いて第1特徴マップ
中の第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
を取得し、nが第1特徴マップの数量を示し、nが1より大きい整数であり、
前記第2特徴マップ
に対して線形補間処理を実行して第2特徴マップ
に対応する第1中間特徴マップ
を取得し、第1中間特徴マップ
のスケールが第1特徴マップCn−1のスケールと同じであり、
第2畳み込みカーネルを用いて第1特徴マップ
以外の各第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
に一対一に対応する第2中間特徴マップ
をそれぞれ取得し、前記第2中間特徴マップのスケールがそれに一対一に対応する第1特徴マップのスケールと同じであり、
前記第2特徴マップ
及び各前記第2中間特徴マップ
に基づいて、第2特徴マップ
及び第1中間特徴マップ
を取得し、前記第2特徴マップ
が前記第2中間特徴マップ
と前記第1中間特徴マップ
に対して重畳処理を行って取得され、第1中間特徴マップ
が対応する第2特徴マップ
に対して線形補間を行って取得され、また、前記第2中間特徴マップ
と第1中間特徴マップ
のスケールが同じであり、iが1以上であり且つnより小さい整数であるように構成される請求項15〜17のいずれか一項に記載の装置。 - 前記逆方向処理モジュールは、
第3畳み込みカーネルを用いて第2特徴マップ
中の第2特徴マップ
に対して畳み込み処理を行って、第2特徴マップ
に対応する第3特徴マップ
を取得し、mが第2特徴マップの数量を示し、mが1より大きい整数であり、
第4畳み込みカーネルを用いて第2特徴マップ
に対して畳み込み処理を行って、対応する第3中間特徴マップ
をそれぞれ取得し、第3中間特徴マップのスケールが対応する第2特徴マップのスケールと同じであり、
第5畳み込みカーネルを用いて第3特徴マップ
に対して畳み込み処理を行って第3特徴マップ
に対応する第4中間特徴マップ
を取得し、
各第3中間特徴マップ
及び第4中間特徴マップ
を用いて第3特徴マップ
及び第4中間特徴マップ
を取得し、第3特徴マップ
が第3中間特徴マップ
と第4中間特徴マップ
の重畳処理により取得され、第4中間特徴マップ
が対応する第3特徴マップ
から第5畳み込みカーネルの畳み込み処理によって取得され、jが1より大きく且つm以下であるように構成される請求項15〜18のいずれか一項に記載の装置。 - 前記キーポイント検出モジュールは、各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得し、且つ前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するように構成される請求項15〜19のいずれか一項に記載の装置。
- 前記キーポイント検出モジュールは、線形補間の方式を用いて、各第3特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するように構成される請求項20に記載の装置。
- 第1組の第3特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第3特徴マップをそれぞれ取得するように構成される最適化モジュールであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第3特徴マップが第1組の第3特徴マップと第2組の第3特徴マップを含み、前記第1組の第3特徴マップと前記第2組の第3特徴マップのいずれにも少なくとも1つの第3特徴マップを含む最適化モジュールを更に含む請求項20又は21に記載の装置。
- 前記キーポイント検出モジュールは、更に、線形補間の方式を用いて、各前記更新後の第3特徴マップ及び前記第2組の第3特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するように構成される請求項22前記の装置。
- 前記キーポイント検出モジュールは、更に、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行い、且つ次元削減処理後の第4特徴マップを用いて入力画像のキーポイントの位置を決定するように構成される請求項20〜23のいずれか一項に記載の装置。
- 前記キーポイント検出モジュールは、更に、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行い、畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得し、且つ純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するように構成される請求項20〜23のいずれか一項に記載の装置。
- 前記順方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングすることは、第1ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第1特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第2特徴マップを取得するステップと、各第2特徴マップを用いて識別されるキーポイントを決定するステップと、第1損失関数により前記キーポイントの第1損失を取得するステップと、トレーニング回数が設定された第1回数閾値に到達するまで、前記第1損失を用いて前記第1ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む請求項15〜25のいずれか一項に記載の装置。
- 前記逆方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングすることは、第2ピラミッドニューラルネットワークを用いて前記第1ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第2特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得するステップと、各第3特徴マップを用いて識別されるキーポイントを決定するステップと、第2損失関数により識別される各キーポイントの第2損失を取得するステップと、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第1ピラミッドネットワーク中の畳み込みカーネル及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む請求項15〜26のいずれか一項に記載の装置。
- 前記キーポイント検出モジュールは、更に、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するように構成され、また、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するステップの前に、更にトレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングすることは、特徴抽出ネットワークを用いて前記第2ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第3特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、第3損失関数により各キーポイントの第3損失を取得するステップと、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失関数を用いて前記第1ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む請求項15〜27のいずれか一項に記載の装置。
- 請求項1〜14のいずれか一項に記載の方法を実行するように構成されるプロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含む電子機器。 - コンピュータプログラムコマンドを記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に請求項1〜14のいずれか一項に記載の方法が実現されるコンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811367869.4A CN109614876B (zh) | 2018-11-16 | 2018-11-16 | 关键点检测方法及装置、电子设备和存储介质 |
CN201811367869.4 | 2018-11-16 | ||
PCT/CN2019/083721 WO2020098225A1 (zh) | 2018-11-16 | 2019-04-22 | 关键点检测方法及装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021508388A true JP2021508388A (ja) | 2021-03-04 |
JP6944051B2 JP6944051B2 (ja) | 2021-10-06 |
Family
ID=66003175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020518758A Active JP6944051B2 (ja) | 2018-11-16 | 2019-04-22 | キーポイント検出方法及び装置、電子機器並びに記憶媒体 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20200250462A1 (ja) |
JP (1) | JP6944051B2 (ja) |
KR (1) | KR102394354B1 (ja) |
CN (7) | CN113569796A (ja) |
SG (1) | SG11202003818YA (ja) |
TW (1) | TWI720598B (ja) |
WO (1) | WO2020098225A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023527615A (ja) * | 2021-04-28 | 2023-06-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102227583B1 (ko) * | 2018-08-03 | 2021-03-15 | 한국과학기술원 | 딥 러닝 기반의 카메라 캘리브레이션 방법 및 장치 |
CN113569796A (zh) * | 2018-11-16 | 2021-10-29 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
JP7103240B2 (ja) * | 2019-01-10 | 2022-07-20 | 日本電信電話株式会社 | 物体検出認識装置、方法、及びプログラム |
CN110378253B (zh) * | 2019-07-01 | 2021-03-26 | 浙江大学 | 一种基于轻量化神经网络的实时关键点检测方法 |
CN110378976B (zh) * | 2019-07-18 | 2020-11-13 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN110705563B (zh) * | 2019-09-07 | 2020-12-29 | 创新奇智(重庆)科技有限公司 | 一种基于深度学习的工业零件关键点检测方法 |
CN110647834B (zh) * | 2019-09-18 | 2021-06-25 | 北京市商汤科技开发有限公司 | 人脸和人手关联检测方法及装置、电子设备和存储介质 |
KR20210062477A (ko) * | 2019-11-21 | 2021-05-31 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11080833B2 (en) * | 2019-11-22 | 2021-08-03 | Adobe Inc. | Image manipulation using deep learning techniques in a patch matching operation |
WO2021146890A1 (en) * | 2020-01-21 | 2021-07-29 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for object detection in image using detection model |
CN111414823B (zh) * | 2020-03-12 | 2023-09-12 | Oppo广东移动通信有限公司 | 人体特征点的检测方法、装置、电子设备以及存储介质 |
CN111382714B (zh) * | 2020-03-13 | 2023-02-17 | Oppo广东移动通信有限公司 | 图像检测方法、装置、终端及存储介质 |
CN111401335B (zh) * | 2020-04-29 | 2023-06-30 | Oppo广东移动通信有限公司 | 一种关键点检测方法及装置、存储介质 |
CN111709428B (zh) * | 2020-05-29 | 2023-09-15 | 北京百度网讯科技有限公司 | 图像中关键点位置的识别方法、装置、电子设备及介质 |
CN111784642B (zh) * | 2020-06-10 | 2021-12-28 | 中铁四局集团有限公司 | 一种图像处理方法、目标识别模型训练方法和目标识别方法 |
CN111695519B (zh) * | 2020-06-12 | 2023-08-08 | 北京百度网讯科技有限公司 | 关键点定位方法、装置、设备以及存储介质 |
US11847823B2 (en) | 2020-06-18 | 2023-12-19 | Apple Inc. | Object and keypoint detection system with low spatial jitter, low latency and low power usage |
CN111709945B (zh) * | 2020-07-17 | 2023-06-30 | 深圳市网联安瑞网络科技有限公司 | 一种基于深度局部特征的视频拷贝检测方法 |
CN112131925A (zh) * | 2020-07-22 | 2020-12-25 | 浙江元亨通信技术股份有限公司 | 一种多通道特征空间金字塔的构造方法 |
CN112149558A (zh) * | 2020-09-22 | 2020-12-29 | 驭势科技(南京)有限公司 | 一种用于关键点检测的图像处理方法、网络和电子设备 |
CN112232361B (zh) * | 2020-10-13 | 2021-09-21 | 国网电子商务有限公司 | 图像处理的方法及装置、电子设备及计算机可读存储介质 |
CN112364699A (zh) * | 2020-10-14 | 2021-02-12 | 珠海欧比特宇航科技股份有限公司 | 基于加权损失融合网络的遥感图像分割方法、装置及介质 |
CN112257728B (zh) * | 2020-11-12 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备以及存储介质 |
CN112329888B (zh) * | 2020-11-26 | 2023-11-14 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备以及存储介质 |
CN112581450B (zh) * | 2020-12-21 | 2024-04-16 | 北京工业大学 | 基于膨胀卷积金字塔与多尺度金字塔的花粉检测方法 |
CN112800834B (zh) * | 2020-12-25 | 2022-08-12 | 温州晶彩光电有限公司 | 一种基于跪拜行为识别来定位炫彩射灯的方法及系统 |
CN112836710B (zh) * | 2021-02-23 | 2022-02-22 | 浙大宁波理工学院 | 一种基于特征金字塔网络的房间布局估计获取方法与系统 |
KR102647320B1 (ko) * | 2021-11-23 | 2024-03-12 | 숭실대학교산학협력단 | 객체 추적 장치 및 방법 |
CN114022657B (zh) * | 2022-01-06 | 2022-05-24 | 高视科技(苏州)有限公司 | 一种屏幕缺陷分类方法、电子设备及存储介质 |
CN114724175B (zh) * | 2022-03-04 | 2024-03-29 | 亿达信息技术有限公司 | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 |
WO2024011281A1 (en) * | 2022-07-11 | 2024-01-18 | James Cook University | A method and a system for automated prediction of characteristics of aquaculture animals |
CN116738296B (zh) * | 2023-08-14 | 2024-04-02 | 大有期货有限公司 | 机房状况综合智能监控系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04507027A (ja) * | 1990-05-22 | 1992-12-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Plan―ピラミッド型学習アーキテクチャ・ニューロコンピュータ |
CN104866868A (zh) * | 2015-05-22 | 2015-08-26 | 杭州朗和科技有限公司 | 基于深度神经网络的金属币识别方法和装置 |
CN106339680A (zh) * | 2016-08-25 | 2017-01-18 | 北京小米移动软件有限公司 | 人脸关键点定位方法及装置 |
US9552510B2 (en) * | 2015-03-18 | 2017-01-24 | Adobe Systems Incorporated | Facial expression capture for character animation |
CN107909041A (zh) * | 2017-11-21 | 2018-04-13 | 清华大学 | 一种基于时空金字塔网络的视频识别方法 |
CN108280455A (zh) * | 2018-01-19 | 2018-07-13 | 北京市商汤科技开发有限公司 | 人体关键点检测方法和装置、电子设备、程序和介质 |
WO2018140596A2 (en) * | 2017-01-27 | 2018-08-02 | Arterys Inc. | Automated segmentation utilizing fully convolutional networks |
CN108764133A (zh) * | 2018-05-25 | 2018-11-06 | 北京旷视科技有限公司 | 图像识别方法、装置及系统 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510257B (zh) * | 2009-03-31 | 2011-08-10 | 华为技术有限公司 | 一种人脸相似度匹配方法及装置 |
CN101980290B (zh) * | 2010-10-29 | 2012-06-20 | 西安电子科技大学 | 抗噪声环境多聚焦图像融合方法 |
CN102622730A (zh) * | 2012-03-09 | 2012-08-01 | 武汉理工大学 | 基于非降采样Laplacian金字塔和BEMD的遥感图像融合处理方法 |
CN103049895B (zh) * | 2012-12-17 | 2016-01-20 | 华南理工大学 | 基于平移不变剪切波变换的多模态医学图像融合方法 |
CN103279957B (zh) * | 2013-05-31 | 2015-11-25 | 北京师范大学 | 一种基于多尺度特征融合的遥感图像感兴趣区域提取方法 |
CN103793692A (zh) * | 2014-01-29 | 2014-05-14 | 五邑大学 | 低分辨率多光谱掌纹、掌静脉实时身份识别方法与系统 |
JP6474210B2 (ja) * | 2014-07-31 | 2019-02-27 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 大規模画像データベースの高速検索手法 |
WO2016054779A1 (en) * | 2014-10-09 | 2016-04-14 | Microsoft Technology Licensing, Llc | Spatial pyramid pooling networks for image processing |
CN104346607B (zh) * | 2014-11-06 | 2017-12-22 | 上海电机学院 | 基于卷积神经网络的人脸识别方法 |
CN104793620B (zh) * | 2015-04-17 | 2019-06-18 | 中国矿业大学 | 基于视觉特征捆绑和强化学习理论的避障机器人 |
US10007863B1 (en) * | 2015-06-05 | 2018-06-26 | Gracenote, Inc. | Logo recognition in images and videos |
CN105184779B (zh) * | 2015-08-26 | 2018-04-06 | 电子科技大学 | 一种基于快速特征金字塔的车辆多尺度跟踪方法 |
CN105912990B (zh) * | 2016-04-05 | 2019-10-08 | 深圳先进技术研究院 | 人脸检测的方法及装置 |
GB2549554A (en) * | 2016-04-21 | 2017-10-25 | Ramot At Tel-Aviv Univ Ltd | Method and system for detecting an object in an image |
US10032067B2 (en) * | 2016-05-28 | 2018-07-24 | Samsung Electronics Co., Ltd. | System and method for a unified architecture multi-task deep learning machine for object recognition |
US20170360411A1 (en) * | 2016-06-20 | 2017-12-21 | Alex Rothberg | Automated image analysis for identifying a medical parameter |
US10365617B2 (en) * | 2016-12-12 | 2019-07-30 | Dmo Systems Limited | Auto defect screening using adaptive machine learning in semiconductor device manufacturing flow |
CN108229490B (zh) * | 2017-02-23 | 2021-01-05 | 北京市商汤科技开发有限公司 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
CN106934397B (zh) * | 2017-03-13 | 2020-09-01 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
WO2018169639A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc | Recognition in unlabeled videos with domain adversarial learning and knowledge distillation |
CN108664981B (zh) * | 2017-03-30 | 2021-10-26 | 北京航空航天大学 | 显著图像提取方法及装置 |
CN107194318B (zh) * | 2017-04-24 | 2020-06-12 | 北京航空航天大学 | 目标检测辅助的场景识别方法 |
CN108229281B (zh) * | 2017-04-25 | 2020-07-17 | 北京市商汤科技开发有限公司 | 神经网络的生成方法和人脸检测方法、装置及电子设备 |
CN108229497B (zh) * | 2017-07-28 | 2021-01-05 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、存储介质、计算机程序和电子设备 |
CN108182384B (zh) * | 2017-12-07 | 2020-09-29 | 浙江大华技术股份有限公司 | 一种人脸特征点定位方法及装置 |
CN108021923B (zh) * | 2017-12-07 | 2020-10-23 | 上海为森车载传感技术有限公司 | 一种用于深度神经网络的图像特征提取方法 |
CN108229445A (zh) * | 2018-02-09 | 2018-06-29 | 深圳市唯特视科技有限公司 | 一种基于级联金字塔网络的多人姿态估计方法 |
CN108664885B (zh) * | 2018-03-19 | 2021-08-31 | 杭州电子科技大学 | 基于多尺度级联HourGlass网络的人体关键点检测方法 |
CN108520251A (zh) * | 2018-04-20 | 2018-09-11 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN108596087B (zh) * | 2018-04-23 | 2020-09-15 | 合肥湛达智能科技有限公司 | 一种基于双网络结果的驾驶疲劳程度检测回归模型 |
CN113569796A (zh) * | 2018-11-16 | 2021-10-29 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
-
2018
- 2018-11-16 CN CN202110902644.XA patent/CN113569796A/zh active Pending
- 2018-11-16 CN CN202110904119.1A patent/CN113569798A/zh active Pending
- 2018-11-16 CN CN202110904136.5A patent/CN113591755B/zh active Active
- 2018-11-16 CN CN202110902646.9A patent/CN113569797A/zh active Pending
- 2018-11-16 CN CN201811367869.4A patent/CN109614876B/zh active Active
- 2018-11-16 CN CN202110902641.6A patent/CN113591750A/zh active Pending
- 2018-11-16 CN CN202110904124.2A patent/CN113591754B/zh active Active
-
2019
- 2019-04-22 SG SG11202003818YA patent/SG11202003818YA/en unknown
- 2019-04-22 KR KR1020207012580A patent/KR102394354B1/ko active IP Right Grant
- 2019-04-22 JP JP2020518758A patent/JP6944051B2/ja active Active
- 2019-04-22 WO PCT/CN2019/083721 patent/WO2020098225A1/zh active Application Filing
- 2019-08-26 TW TW108130497A patent/TWI720598B/zh active
-
2020
- 2020-04-22 US US16/855,630 patent/US20200250462A1/en not_active Abandoned
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04507027A (ja) * | 1990-05-22 | 1992-12-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Plan―ピラミッド型学習アーキテクチャ・ニューロコンピュータ |
US9552510B2 (en) * | 2015-03-18 | 2017-01-24 | Adobe Systems Incorporated | Facial expression capture for character animation |
CN104866868A (zh) * | 2015-05-22 | 2015-08-26 | 杭州朗和科技有限公司 | 基于深度神经网络的金属币识别方法和装置 |
CN106339680A (zh) * | 2016-08-25 | 2017-01-18 | 北京小米移动软件有限公司 | 人脸关键点定位方法及装置 |
WO2018140596A2 (en) * | 2017-01-27 | 2018-08-02 | Arterys Inc. | Automated segmentation utilizing fully convolutional networks |
CN107909041A (zh) * | 2017-11-21 | 2018-04-13 | 清华大学 | 一种基于时空金字塔网络的视频识别方法 |
CN108280455A (zh) * | 2018-01-19 | 2018-07-13 | 北京市商汤科技开发有限公司 | 人体关键点检测方法和装置、电子设备、程序和介质 |
CN108764133A (zh) * | 2018-05-25 | 2018-11-06 | 北京旷视科技有限公司 | 图像识别方法、装置及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023527615A (ja) * | 2021-04-28 | 2023-06-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN113569796A (zh) | 2021-10-29 |
US20200250462A1 (en) | 2020-08-06 |
TWI720598B (zh) | 2021-03-01 |
KR20200065033A (ko) | 2020-06-08 |
SG11202003818YA (en) | 2020-06-29 |
CN109614876B (zh) | 2021-07-27 |
CN113591755B (zh) | 2024-04-16 |
CN113569797A (zh) | 2021-10-29 |
KR102394354B1 (ko) | 2022-05-04 |
WO2020098225A1 (zh) | 2020-05-22 |
CN113591750A (zh) | 2021-11-02 |
CN113569798A (zh) | 2021-10-29 |
CN113591754A (zh) | 2021-11-02 |
CN109614876A (zh) | 2019-04-12 |
CN113591754B (zh) | 2022-08-02 |
JP6944051B2 (ja) | 2021-10-06 |
CN113591755A (zh) | 2021-11-02 |
TW202020806A (zh) | 2020-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6944051B2 (ja) | キーポイント検出方法及び装置、電子機器並びに記憶媒体 | |
JP7238141B2 (ja) | 顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN111310764B (zh) | 网络训练、图像处理方法及装置、电子设备和存储介质 | |
JP7262659B2 (ja) | 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体 | |
JP6916970B2 (ja) | ビデオ処理方法及び装置、電子機器並びに記憶媒体 | |
KR102406354B1 (ko) | 비디오 수복 방법 및 장치, 전자 기기 및 기억 매체 | |
TWI706379B (zh) | 圖像處理方法及裝置、電子設備和儲存介質 | |
EP3057304B1 (en) | Method and apparatus for generating image filter | |
JP7181375B2 (ja) | 目標対象の動作認識方法、装置及び電子機器 | |
JP2021518956A (ja) | 画像処理方法及び装置、電子機器並びにコンピュータ可読記憶媒体 | |
JP2021520561A (ja) | テキスト認識 | |
CN109145970B (zh) | 基于图像的问答处理方法和装置、电子设备及存储介质 | |
CN110188865B (zh) | 信息处理方法及装置、电子设备和存储介质 | |
JP2022516452A (ja) | データ処理方法および装置、電子機器ならびに記憶媒体 | |
CN110929616B (zh) | 一种人手识别方法、装置、电子设备和存储介质 | |
CN109903252B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN109635926B (zh) | 用于神经网络的注意力特征获取方法、装置及存储介质 | |
CN113703704B (zh) | 界面显示方法、头戴式显示设备和计算机可读介质 | |
CN110837766A (zh) | 手势识别方法、手势处理方法及装置 | |
CN112734015B (zh) | 网络生成方法及装置、电子设备和存储介质 | |
CN111368748A (zh) | 网络训练方法及装置、图像识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200401 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200401 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210609 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210811 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210826 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210909 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6944051 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |