JP2021508388A - キーポイント検出方法及び装置、電子機器並びに記憶媒体 - Google Patents

キーポイント検出方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2021508388A
JP2021508388A JP2020518758A JP2020518758A JP2021508388A JP 2021508388 A JP2021508388 A JP 2021508388A JP 2020518758 A JP2020518758 A JP 2020518758A JP 2020518758 A JP2020518758 A JP 2020518758A JP 2021508388 A JP2021508388 A JP 2021508388A
Authority
JP
Japan
Prior art keywords
feature map
feature
processing
map
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020518758A
Other languages
English (en)
Other versions
JP6944051B2 (ja
Inventor
▲楊▼昆霖
田茂清
伊▲帥▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2021508388A publication Critical patent/JP2021508388A/ja
Application granted granted Critical
Publication of JP6944051B2 publication Critical patent/JP6944051B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/033Recognition of patterns in medical or anatomical images of skeletal patterns
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

入力画像に対する複数のスケールの第1特徴マップを取得するステップであって各第1特徴マップのスケールが倍数関係になるステップと、第1ピラミッドニューラルネットワークを用いて各第1特徴マップに順方向処理を行って各第1特徴マップに一対一に対応する第2特徴マップを取得するステップであって第2特徴マップのスケールがそれに一対一に対応する第1特徴マップと同じであるステップと、第2ピラミッドニューラルネットワークを用いて各第2特徴マップに逆方向処理を行って各第2特徴マップに一対一に対応する第3特徴マップを取得するステップであって第3特徴マップのスケールがそれに一対一に対応する第2特徴マップと同じであるステップと、各第3特徴マップに特徴融合処理を行い且つ特徴融合処理後の特徴マップを用いて入力画像内の各キーポイントの位置を取得するステップと、を含むキーポイント検出方法及び装置、電子機器並びに記憶媒体。

Description

(関連出願の相互参照)
本願は、出願番号が201811367869.4で、出願日が2018年11月16日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本開示は、コンピュータビジョン技術に関し、特に、キーポイント検出方法及び装置、電子機器並びに記憶媒体に関する。
人体キーポイント検出は、人体画像から関節又は五官等のキーポイントの位置情報を検出し、これらのキーポイントの位置情報によって人体の姿勢を記述することである。
人体は画像において大きくなったり小さくなったりしているので、従来の技術では、一般的にニューラルネットワークを用いて画像のマルチスケール特徴を取得して、人体キーポイントの位置を最終的に予測することができる。しかしながら、このような方式を用いれば、マルチスケール特徴を完全に掘り出して利用することがまだできなく、キーポイントの検出精度が低いことが分かった。
本開示の実施例は、キーポイント検出精度を効果的に高めるキーポイント検出方法及び装置、電子機器並びに記憶媒体を提供する。
本開示の実施例の第1態様によれば、
入力画像に対する複数のスケールの第1特徴マップを取得するステップであって、各第1特徴マップのスケールが倍数関係になるステップと、第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するステップであって、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じであるステップと、第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するステップであって、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じであるステップと、各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップと、を含むキーポイント検出方法を提供する。
いくつかの可能な実施形態では、入力画像に対する複数のスケールの第1特徴マップを取得するステップは、前記入力画像を所定規格の第1画像に調整するステップと、前記第1画像を残差ニューラルネットワークに入力し、第1画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第1特徴マップを取得するステップと、を含む。
いくつかの可能な実施形態では、前記順方向処理は、第1畳み込み処理と第1線形補間処理を含み、前記逆方向処理は、第2畳み込み処理と第2線形補間処理を含む。
いくつかの可能な実施形態では、第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するステップは、第1畳み込みカーネルを用いて第1特徴マップ
中の第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
に対応する第2特徴マップ
を取得するステップであって、nが第1特徴マップの数量を示し、nが1より大きい整数であるステップと、前記第2特徴マップ
に対して線形補間処理を実行して第2特徴マップ
に対応する第1中間特徴マップ
を取得するステップであって、第1中間特徴マップ
のスケールが第1特徴マップCn−1のスケールと同じであるステップと、第2畳み込みカーネルを用いて第1特徴マップ
以外の各第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
に一対一に対応する第2中間特徴マップ
をそれぞれ取得するステップであって、前記第2中間特徴マップのスケールがそれに一対一に対応する第1特徴マップのスケールと同じであるステップと、前記第2特徴マップ
及び各前記第2中間特徴マップ
に基づいて、第2特徴マップ
及び第1中間特徴マップ
を取得するステップであって、前記第2特徴マップ
が前記第2中間特徴マップ
と前記第1中間特徴マップ
に対して重畳処理を行って取得され、第1中間特徴マップ
が対応する第2特徴マップ
に対して線形補間を行って取得され、また、前記第2中間特徴マップ
と第1中間特徴マップ
のスケールが同じであり、iが1以上であり且つnより小さい整数であるステップと、を含む。
いくつかの可能な実施形態では、第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するステップは、第3畳み込みカーネルを用いて第2特徴マップ
中の第2特徴マップ
に対して畳み込み処理を行って、第2特徴マップ
に対応する第3特徴マップ
を取得するステップであって、mが第2特徴マップの数量を示し、mが1より大きい整数であるステップと、第4畳み込みカーネルを用いて第2特徴マップ
に対して畳み込み処理を行って、対応する第3中間特徴マップ
をそれぞれ取得するステップであって、第3中間特徴マップのスケールが対応する第2特徴マップのスケールと同じであるステップと、
第5畳み込みカーネルを用いて第3特徴マップ
に対して畳み込み処理を行って第3特徴マップ
に対応する第4中間特徴マップ
を取得するステップと、各第3中間特徴マップ
及び第4中間特徴マップ
を用いて、第3特徴マップ
及び第4中間特徴マップ
を取得するステップであって、第3特徴マップ
が第3中間特徴マップ
と第4中間特徴マップ
の重畳処理により取得され、第4中間特徴マップ
が対応する第3特徴マップ
から第5畳み込みカーネルの畳み込み処理によって取得され、jが1より大きく且つm以下であるステップと、を含む。
いくつかの可能な実施形態では、各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップは、各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップと、前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップと、を含む。
いくつかの可能な実施形態では、各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップは、線形補間の方式を用いて、各第3特徴マップを同じスケールの特徴マップに調整するステップと、前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するステップと、を含む。
いくつかの可能な実施形態では、各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得する前に、第1組の第3特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第3特徴マップをそれぞれ取得するステップであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第3特徴マップが第1組の第3特徴マップと第2組の第3特徴マップを含み、前記第1組の第3特徴マップと前記第2組の第3特徴マップのいずれにも少なくとも1つの第3特徴マップを含むステップを更に含む。
いくつかの可能な実施形態では、各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップは、線形補間の方式を用いて、各前記更新後の第3特徴マップ及び前記第2組の第3特徴マップを同じスケールの特徴マップに調整するステップと、前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するステップと、を含む。
いくつかの可能な実施形態では、前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行うステップと、次元削減処理後の第4特徴マップを用いて入力画像のキーポイントの位置を決定するステップと、を含む。
いくつかの可能な実施形態では、前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行うステップと、畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得するステップと、純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するステップと、を含む。
いくつかの可能な実施形態では、前記方法は、トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするステップを更に含み、前記トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするステップは、第1ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第1特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第2特徴マップを取得するステップと、各第2特徴マップを用いて識別されるキーポイントを決定するステップと、第1損失関数により前記キーポイントの第1損失を取得するステップと、トレーニング回数が設定された第1回数閾値に到達するまで、前記第1損失を用いて前記第1ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む。
いくつかの可能な実施形態では、前記方法は、トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするステップを更に含み、前記トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするステップは、第2ピラミッドニューラルネットワークを用いて前記第1ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第2特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得するステップと、各第3特徴マップを用いて識別されるキーポイントを決定するステップと、第2損失関数により識別される各キーポイントの第2損失を取得するステップと、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第1ピラミッドネットワーク中の畳み込みカーネル及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む。
いくつかの可能な実施形態では、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行し、また、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するステップの前に、前記方法は、トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップを更に含み、前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップは、特徴抽出ネットワークを用いて前記第2ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第3特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、第3損失関数により各キーポイントの第3損失を取得するステップと、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失関数を用いて前記第1ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む。
本開示の実施例の第2態様によれば、入力画像に対する複数のスケールの第1特徴マップを取得するように構成されるマルチスケール特徴取得モジュールであって、各第1特徴マップのスケールが倍数関係になるマルチスケール特徴取得モジュールと、第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するように構成される順方向処理モジュールであって、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じである順方向処理モジュールと、第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するように構成される逆方向処理モジュールであって、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じである逆方向処理モジュールと、各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するように構成されるキーポイント検出モジュールと、を含むキーポイント検出装置を提供する。
いくつかの可能な実施形態では、前記マルチスケール特徴取得モジュールは、前記入力画像を所定規格の第1画像に調整し、且つ前記第1画像を残差ニューラルネットワークに入力し、第1画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第1特徴マップを取得するように構成される。
いくつかの可能な実施形態では、前記順方向処理は、第1畳み込み処理と第1線形補間処理を含み、前記逆方向処理は、第2畳み込み処理と第2線形補間処理を含む。
いくつかの可能な実施形態では、前記順方向処理モジュールは、第1畳み込みカーネルを用いて第1特徴マップ
中の第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
に対応する第2特徴マップ
を取得し、nが第1特徴マップの数量を示し、nが1より大きい整数であり、前記第2特徴マップ
に対して線形補間処理を実行して第2特徴マップ
に対応する第1中間特徴マップ
を取得し、第1中間特徴マップ
のスケールが第1特徴マップCn−1のスケールと同じであり、第2畳み込みカーネルを用いて第1特徴マップ
以外の各第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
に一対一に対応する第2中間特徴マップ
をそれぞれ取得し、前記第2中間特徴マップのスケールがそれに一対一に対応する第1特徴マップのスケールと同じであり、前記第2特徴マップ
及び各前記第2中間特徴マップ
に基づいて、第2特徴マップ
及び第1中間特徴マップ
を取得し、前記第2特徴マップ
が前記第2中間特徴マップ
と前記第1中間特徴マップ
に対して重畳処理を行って取得され、第1中間特徴マップ
が対応する第2特徴マップ
に対して線形補間を行って取得され、また、前記第2中間特徴マップ
と第1中間特徴マップ
のスケールが同じであり、iが1以上であり且つnより小さい整数であるように構成される。
いくつかの可能な実施形態では、前記逆方向処理モジュールは、第3畳み込みカーネルを用いて第2特徴マップ
中の第2特徴マップ
に対して畳み込み処理を行って、第2特徴マップ
に対応する第3特徴マップ
を取得し、mが第2特徴マップの数量を示し、mが1より大きい整数であり、第4畳み込みカーネルを用いて第2特徴マップ
に対して畳み込み処理を行って、対応する第3中間特徴マップ
をそれぞれ取得し、第3中間特徴マップのスケールが対応する第2特徴マップのスケールと同じであり、第5畳み込みカーネルを用いて第3特徴マップ
に対して畳み込み処理を行って第3特徴マップ
に対応する第4中間特徴マップ
を取得し、各第3中間特徴マップ
及び第4中間特徴マップ
を用いて、第3特徴マップ
及び第4中間特徴マップ
を取得し、第3特徴マップ
が第3中間特徴マップ
と第4中間特徴マップ
の重畳処理により取得され、第4中間特徴マップ
が対応する第3特徴マップ
から第5畳み込みカーネルの畳み込み処理によって取得され、jが1より大きく且つm以下であるように構成される。
いくつかの可能な実施形態では、前記キーポイント検出モジュールは、各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得し、且つ前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するように構成される。
いくつかの可能な実施形態では、前記キーポイント検出モジュールは、線形補間の方式を用いて、各第3特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するように構成される。
いくつかの可能な実施形態では、前記装置は、第1組の第3特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第3特徴マップをそれぞれ取得するように構成される最適化モジュールを更に含み、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第3特徴マップが第1組の第3特徴マップと第2組の第3特徴マップを含み、前記第1組の第3特徴マップと前記第2組の第3特徴マップのいずれにも少なくとも1つの第3特徴マップを含む。
いくつかの可能な実施形態では、前記キーポイント検出モジュールは、更に、線形補間の方式を用いて、各前記更新後の第3特徴マップ及び前記第2組の第3特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するように構成される。
いくつかの可能な実施形態では、前記キーポイント検出モジュールは、更に、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行い、且つ次元削減処理後の第4特徴マップを用いて入力画像のキーポイントの位置を決定するように構成される。
いくつかの可能な実施形態では、前記キーポイント検出モジュールは、更に、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行い、畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得し、且つ純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するように構成される。
いくつかの可能な実施形態では、前記順方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングすることは、第1ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第1特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第2特徴マップを取得するステップと、各第2特徴マップを用いて識別されるキーポイントを決定するステップと、第1損失関数により前記キーポイントの第1損失を取得するステップと、トレーニング回数が設定された第1回数閾値に到達するまで、前記第1損失を用いて前記第1ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む。
いくつかの可能な実施形態では、前記逆方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングすることは、第2ピラミッドニューラルネットワークを用いて前記第1ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第2特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得するステップと、各第3特徴マップを用いて識別されるキーポイントを決定するステップと、第2損失関数により識別される各キーポイントの第2損失を取得するステップと、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第1ピラミッドネットワーク中の畳み込みカーネル及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む。
いくつかの可能な実施形態では、前記キーポイント検出モジュールは、更に、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するように構成され、また、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するステップの前に、更にトレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングすることは、特徴抽出ネットワークを用いて前記第2ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第3特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、第3損失関数により各キーポイントの第3損失を取得するステップと、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失関数を用いて前記第1ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む。
本開示の実施例の第3態様によれば、第1態様のいずれか一項に記載の方法を実行するように構成されるプロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含む電子機器を提供する。
本開示の実施例の第4態様によれば、コンピュータプログラムコマンドを記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に第1態様のいずれか一項に記載の方法が実現されるコンピュータ可読記憶媒体を提供する。
本開示の実施例は、双方向ピラミッドニューラルネットワークを用いてキーポイント特徴検出を実行することを提案し、ここで、順方向処理の方式を用いてマルチスケール特徴を取得すると共に、逆方向処理でより多くの特徴を融合し、それによってキーポイントの検出精度を更に高めることができる。
以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。
以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。
ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するために用いられる。
本開示の実施例に係るキーポイント検出方法のフローチャートを示す。 本開示の実施例に係るキーポイント検出方法におけるステップS100のフローチャートを示す。 本開示の実施例のキーポイント検出方法の別のフローチャートを示す。 本開示の実施例に係るキーポイント検出方法におけるステップS200のフローチャートを示す。 本開示の実施例に係るキーポイント検出方法におけるステップS300のフローチャートを示す。 本開示の実施例に係るキーポイント検出方法におけるステップS400のフローチャートを示す。 本開示の実施例に係るキーポイント検出方法におけるステップS401のフローチャートを示す。 本開示の実施例に係るキーポイント検出方法の別のフローチャートを示す。 本開示の実施例に係るキーポイント検出方法におけるステップS402のフローチャートを示す。 本開示の実施例に係るキーポイント検出方法中の第1ピラミッドニューラルネットワークをトレーニングするフローチャートを示す。 本開示の実施例に係るキーポイント検出方法中の第2ピラミッドニューラルネットワークをトレーニングするフローチャートを示す。 本開示の実施例に係るキーポイント検出方法中の特徴抽出ネットワークモデルをトレーニングするフローチャートを示す。 本開示の実施例に係るキーポイント検出装置のブロック図を示す。 本開示の実施例に係る電子機器800のブロック図を示す。 本開示の実施例に係る電子機器1900のブロック図を示す。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も他の実施例より優れたものと理解すべきではない。
本明細書の用語の「及び/又は」は、関連対象の関連関係を記述するためのものに過ぎず、3種の関係が存在可能であることを示し、例えば、A及び/又はBは、Aが単独して存在し、AとBが同時に存在し、Bが単独して存在するという3種の場合を示してもよい。また、本明細書の用語の「少なくとも1種」は多種のうちのいずれか1つ種又は多種のうちの少なくとも2種の任意の組合を示し、例えば、A、B、Cのうちの少なくとも1種を含むということは、A、B及びCから構成される集合から選択されるいずれか1つ又は複数の要素を含むことを示してもよい。
また、本開示の実施例をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示の実施例は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の実施例の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。
本開示の実施例はキーポイント検出方法を提供し、該方法は、人体画像のキーポイント検出を実行することに利用可能であり、2つのピラミッドネットワークモデルを用いてそれぞれキーポイントのマルチスケール特徴の順方向処理と逆方向処理を実行し、より多くの特徴情報を融合して、キーポイント位置検出の精度を高めることができる。
図1は本開示の実施例に係るキーポイント検出方法のフローチャートを示す。ここで、本開示の実施例のキーポイント検出方法は、以下のステップを含んでよい。
S100:入力画像に対する複数のスケールの第1特徴マップを取得し、各第1特徴マップのスケールが倍数関係になる。
本開示の実施例は、入力画像のマルチスケール特徴を融合する方式で上記キーポイントの検出を実行する。まず入力画像の複数のスケールの第1特徴マップを取得してよく、各第1特徴マップはスケールが異なり、且つ各スケール同士が倍数の関係になる。本開示の実施例は、マルチスケール解析アルゴリズムを用いて入力画像の複数のスケールの第1特徴マップを取得してもよいし、マルチスケール解析を実行可能なニューラルネットワークモデルによって入力画像の複数のスケールの第1特徴マップを取得してもよく、本開示の実施例では具体的に限定されない。
S200:第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得し、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じである。
本実施例では、順方向処理は、第1畳み込み処理及び第1線形補間処理を含んでよく、第1ピラミッドニューラルネットワークの順方向処理プロセスによって、対応する第1特徴マップのスケールと同じな第2特徴マップを取得でき、各第2特徴マップに更に入力画像の各特徴が融合されており、また、得られた第2特徴マップの数量が第1特徴マップと同じであり、且つ第2特徴マップのスケールが対応する第1特徴マップと同じである。例えば、本開示の実施例で得られた第1特徴マップはC、C、C及びCであってよく、対応する順方向処理後の第2特徴マップはF、F、F及びFであってよい。ここで、第1特徴マップC〜Cのスケール関係については、CのスケールがCのスケールの2倍であり、CのスケールがCのスケールの2倍であり、CのスケールがCの2倍である時に、得られた第2特徴マップF〜Fについては、FがCのスケールと同じであり、FがCのスケールと同じであり、FがCのスケールと同じであり、FがCのスケールと同じであり、また、第2特徴マップFのスケールがFのスケールの2倍であり、FのスケールがFのスケールの2倍であり、FのスケールがFの2倍である。以上は第1特徴マップに対して順方向処理を行って取得した第2特徴マップについての例示的な説明に過ぎず、本開示を具体的に限定するものではない。
S300:第2ピラミッドニューラルネットワークを用いて各第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得し、前記逆方向処理は第2畳み込み処理を含み、ここで、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じである。
本実施例では、逆方向処理は、第2畳み込み処理及び第2線形補間処理を含み、第2ピラミッドニューラルネットワークの逆方向処理プロセスによって、対応する第2特徴マップのスケールと同じな第3特徴マップを取得でき、各第3特徴マップは第2特徴マップと比べて更に入力画像の特徴が融合されており、また、得られた第3特徴マップの数量が第2特徴マップと同じであり、且つ第3特徴マップのスケールが対応する第2特徴マップと同じである。例えば、本開示の実施例で得られた第2特徴マップはF、F、F及びFであってよく、対応する逆方向処理後の第3特徴マップはR、R、R及びRであってよい。ここで、第2特徴マップF、F、F及びFのスケール関係については、FのスケールがFのスケールの2倍であり、FのスケールがFのスケールの2倍であり、FのスケールがFの2倍である時に、得られた第3特徴マップR〜Rについては、RがFのスケールと同じであり、RがFのスケールと同じであり、RがFのスケールと同じであり、RがFのスケールと同じであり、また、第3特徴マップRのスケールがRのスケールの2倍であり、RのスケールがRのスケールの2倍であり、RのスケールがRの2倍である。上記は第2特徴マップに対して逆方向処理を行って取得した第3特徴マップについての例示的な説明に過ぎず、本開示を具体的に限定するものではない。
S400:各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得する。
本開示の実施例では、各第1特徴マップに対して順方向処理を行って第2特徴マップを取得し、第2特徴マップの逆方向処理により第3特徴マップを取得した後、各第3特徴マップの特徴融合処理を実行することができる。例えば、本開示の実施例は対応する畳み込み処理の方式で各第3特徴マップの特徴融合を実現でき、第3特徴マップのスケールが異なる時に更にスケールの変換を実行してから特徴マップの結合及びキーポイントの抽出を実行することができる。
本開示の実施例は、入力画像の異なるキーポイントの検出を実行でき、例えば、入力画像が人物画像である時に、キーポイントは左右の目、鼻、左右の耳、左右の肩、左右の肘、左右の手首、左右の腰臀部、左右のひざ、左右の踝のうちの少なくとも1種であってよく、又は他の実施例では、入力画像が他の種類の画像であってもよく、キーポイント検出を実行する時に、他のキーポイントを識別できる。従って、本開示の実施例は第3特徴マップの特徴融合結果により更にキーポイントの検出識別を実行できる。
上記構成によれば、本開示の実施例は、双方向ピラミッドニューラルネットワーク(第1ピラミッドニューラルネットワーク及び第2ピラミッドニューラルネットワーク)によってそれぞれ第1特徴マップに基づいて順方向処理及び更なる逆方向処理を実行して、入力画像の特徴融合度を効果的に高め、更にキーポイントの検出精度を高めることができる。以上に示すように、本開示の実施例は、まず、人物画像、風景画像、動物画像等のような任意の画像種類であってよい入力画像を取得してよい。異なる種類の画像については、異なるキーポイントを識別可能である。例えば、本開示の実施例では人物画像を例にして説明する。まずステップS100によって入力画像の複数の異なるスケールの第1特徴マップを取得してよい。図2は本開示の実施例に係るキーポイント検出方法におけるステップS100のフローチャートを示す。ここで、入力画像に対する異なるスケールの第1特徴マップを取得するステップ(ステップS100)には以下のステップを含んでよい。
S101:前記入力画像を所定規格の第1画像に調整する。
本開示の実施例はまず入力画像のサイズ規格を正規化させてよく、即ち、まず入力画像を所定規格の第1画像に調整してよく、ここで、本開示の実施例中の所定規格は256pix*192pixであってよく、pixが画素値であり、他の実施例では、入力画像を他の規格の画像に統一的に変換してよく、本開示の実施例では具体的に限定されない。
S102:前記第1画像を残差ニューラルネットワークに入力し、第1画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して異なるスケールの第1特徴マップを取得する。
所定規格の第1画像を取得した後、該第1画像に対して複数のサンプリング周波数のサンプリング処理を実行してよい。例えば、本開示の実施例は、第1画像を残差ニューラルネットワークに入力することで、残差ニューラルネットワークの処理によって第1画像に対する異なるスケールの第1特徴マップを取得することができる。ここで、異なるサンプリング周波数で第1画像に対してダウンサンプリング処理を行って異なるスケールの第1特徴マップを取得することができる。本開示の実施例のサンプリング周波数は1/8、1/16、1/32等であってよいが、本開示の実施例では限定されない。また、本開示の実施例中の特徴マップとは画像の特徴行列を指し、例えば、本開示の実施例の特徴行列が3次元行列であってよく、本開示の実施例に記載の特徴マップの長さと幅がそれぞれ対応する特徴行列の行方向と列方向上の次元であってよい。
ステップS100によって処理した後入力画像の複数の異なるスケールの第1特徴マップが得られる。また、ダウンサンプリングのサンプリング周波数を制御することによって、各第1特徴マップ同士のスケール関係を
にすることができ、ただし、
は各第1特徴マップを示し、
は第1特徴マップ
の長さを示し、
は第1特徴マップ
の幅を示し、
は1以上の整数であり、iは変数であり、且つiの範囲は[2,n]であり、nは第1特徴マップの数量である。即ち、本開示の実施例中の各第1特徴マップの長さ及び幅の間の関係はいずれも2のk乗倍である。
図3は本開示の実施例のキーポイント検出方法の別のフローチャートを示す。ここで、(a)部分は本開示の実施例のステップS100のプロセスを示し、ステップS100によって4つの第1特徴マップ
を取得でき、ここで、第1特徴マップ
の長さと幅はそれぞれ対応的に第1特徴マップ
の長さと幅の2倍であってよく、第2特徴マップ
の長さと幅はそれぞれ対応的に第3特徴マップ
の長さと幅の2倍であってよく、第3特徴マップ
の長さと幅はそれぞれ対応的に第4特徴マップ
の長さと幅の2倍であってよい。本開示の実施例では、上記
の間のスケール倍数は同じであってよく、例えば、kの値が1である。他の実施例では、kは異なる値であってよく、例えば、第1特徴マップ
の長さと幅はそれぞれ対応的に第1特徴マップ
の長さと幅の2倍であってよく、第2特徴マップ
の長さと幅はそれぞれ対応的に第3特徴マップ
の長さと幅の4倍であってよく、第3特徴マップ
の長さと幅はそれぞれ対応的に第4特徴マップ
の長さと幅の8倍であってよいが、本開示の実施例では限定されない。
入力画像の異なるスケールの第1特徴マップを取得した後、ステップS200によって第1特徴マップの順方向処理プロセスを実行して、各第1特徴マップの特徴を融合した複数の異なるスケールの第2特徴マップを取得してよい。
図4は本開示の実施例に係るキーポイント検出方法におけるステップS200のフローチャートを示す。ここで、第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得する前記ステップ(ステップS200)には以下のステップを含む。
S201:第1畳み込みカーネルを用いて第1特徴マップ
中の第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
に対応する第2特徴マップ
を取得し、ここで、nが第1特徴マップの数量を示し、nが1より大きい整数であり、また、第1特徴マップ
の長さと幅がそれぞれ第2特徴マップ
の長さと幅と対応的に同じである。
本開示の実施例中の第1ピラミッドニューラルネットワークにより実行される順方向処理は、第1畳み込み処理及び第1線形補間処理を含んでもよいし、他の処理プロセスを含んでもよく、本開示の実施例では限定されない。
可能な一実施形態では、本開示の実施例で取得された第1特徴マップは

即ちn個の第1特徴マップであってよく、
は長さと幅が最も小さい特徴マップ、即ちスケールが最も小さい第1特徴マップであってよい。ここで、まず第1ピラミッドニューラルネットワークを用いて第1特徴マップ
に対して畳み込み処理を行ってよく、即ち、第1畳み込みカーネルを用いて第1特徴マップ
に対して畳み込み処理を行って、第2特徴マップ
を取得する。該第2特徴マップ
は、長さと幅がそれぞれ第1特徴マップ
の長さと幅と同じである。ここで、第1畳み込みカーネルは3*3の畳み込みカーネルであってもよいし、他の種類の畳み込みカーネルであってもよい。
S202:前記第2特徴マップ
に対して線形補間処理を実行して第2特徴マップ
に対応する第1中間特徴マップ
を取得し、ここで、第1中間特徴マップ
のスケールが第1特徴マップCn−1のスケールと同じである。
第2特徴マップ
を取得した後、該第2特徴マップ
を用いてそれに対応する第1中間特徴マップ
を取得でき、本開示の実施例は、第2特徴マップ
に対して線形補間処理を実行することで第2特徴マップ
に対応する第1中間特徴マップ
を取得することができ、ここで、第1中間特徴マップ
のスケールが第1特徴マップCn−1のスケールと同じであり、例えば、Cn−1のスケールがCのスケールの2倍である時に、第1中間特徴マップ
の長さが第2特徴マップ
の長さの2倍であり、第1中間特徴マップ
の幅が第2特徴マップ
の幅の2倍である。
S203:第2畳み込みカーネルを用いて第1特徴マップ
以外の各第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
に一対一に対応する第2中間特徴マップ
をそれぞれ取得し、ここで、前記第2中間特徴マップのスケールがそれに一対一に対応する第1特徴マップのスケールと同じである。
また、本開示の実施例は、更に第1特徴マップ
以外の各第1特徴マップ
に対応する第2中間特徴マップ
を取得でき、ここで、第2畳み込みカーネルを用いて第1特徴マップ
に対してそれぞれ第2畳み込み処理を行って、各第1特徴マップ
に一対一に対応する第2中間特徴マップ
をそれぞれ取得することができ、ここで、第2畳み込みカーネルは1*1の畳み込みカーネルであってよいが、本開示では具体的に限定されない。第2畳み込みの処理によって得られた各第2中間特徴マップは、スケールがそれぞれ対応する第1特徴マップのスケールと同じである。ここで、本開示の実施例は、第1特徴マップ
の逆順序によって、各第1特徴マップ
の第2中間特徴マップ
を取得することができる。即ち、第1特徴マップ
に対応する第2中間マップ
を取得してから第1特徴マップ
に対応する第2中間マップ
を取得し、このように類推して、第1特徴マップ
に対応する第2中間特徴マップ
が取得されるまで処理するようにしてよい。
S204:前記第2特徴マップ
及び各前記第2中間特徴マップ
に基づいて、第2特徴マップ
及び第1中間特徴マップ
を取得し、ここで、第1特徴マップ
中の第1特徴マップ
に対応する第2特徴マップ
が第2中間特徴マップ
と第1中間特徴マップ
に対して重畳処理(加算処理)を行って取得され、第1中間特徴マップ
が対応する第2特徴マップ
に対して線形補間を行って取得され、また、前記第2中間特徴マップ
のスケールが第1中間特徴マップ
と同じであり、ここで、iが1以上であり且つnより小さい整数である。
また、各第2中間特徴マップを取得すると同時に、又は各第2中間特徴マップを取得した後、更に第1中間特徴マップ
以外の他の第1中間特徴マップ
を対応的に取得することができ、本開示の実施例では、第1特徴マップ
中の第1特徴マップ
に対応する第2特徴マップ
において、第2中間特徴マップ
のスケール(長さと幅)がそれぞれ第1中間特徴マップ
のスケール(長さと幅)と等しく、第2中間特徴マップ
の長さと幅が第1特徴マップCの長さと幅と同じであり、従って、得られた第2特徴マップ
の長さと幅がそれぞれ第1特徴マップCの長さと幅である。ここで、iが1以上であり且つnより小さい整数である。
具体的には、本開示の実施例は依然として逆順序の処理方式を用いて第2特徴マップF以外の各第2特徴マップ
を取得することができる。即ち、本開示の実施例はまず第1中間特徴マップ
を取得でき、ここで、第1特徴マップ
に対応する第2中間マップ
と第1中間特徴マップ
に対して重畳処理を行うことで第2特徴マップFn−1を取得することができ、ここで、第2中間特徴マップ
の長さと幅がそれぞれ第1中間特徴マップ
の長さと幅と同じであり、第2特徴マップFn−1の長さと幅が第2中間特徴マップ
の長さと幅である。この時に第2特徴マップFn−1の長さと幅がそれぞれ第2特徴マップFの長さと幅の2倍である(Cn−1のスケールがCのスケールの2倍である)。更に、第2特徴マップFn−1に対して線形補間処理を行って第1中間特徴マップ
を取得して、
のスケールをCn−1のスケールと同じにすることができ、次に、第1特徴マップ
に対応する第2中間マップ
と第1中間特徴マップ
に対して重畳処理を行うことで第2特徴マップFn−2を取得することができ、ここで、第2中間特徴マップ
の長さと幅がそれぞれ第1中間特徴マップ
の長さと幅と同じであり、第2特徴マップFn−2の長さと幅が第2中間特徴マップ
の長さと幅である。例えば、第2特徴マップFn−2の長さと幅がそれぞれ第2特徴マップFn−1の長さと幅の2倍である。このように類推して、最終的に第1中間特徴マップ
を取得し、該第1中間特徴マップ
と第1特徴マップ
の重畳処理により第2特徴マップFを取得することができ、Fの長さと幅がそれぞれCの長さと幅と同じである。それによって各第2特徴マップが取得され、
が満たされ、
である。
例えば、上記4つの第1特徴マップ
を例として説明する。図3に示すように、ステップS200では、第1ピラミッドニューラルネットワーク(Feature Pyramid Network−−FPN)を用いてマルチスケールの第2特徴マップを取得することができる。ここで、まず
に対して3*3の第1畳み込みカーネルにより計算して新しい特徴マップF(第2特徴マップ)を取得することができ、Fの長さと幅が
と同じである。Fに対して双線形補間のアップサンプリング(upsample)操作を行って、長さと幅がいずれも2倍拡大した特徴マップ、即ち第1中間特徴マップ
を取得する。Cに対して1*1の第2畳み込みカーネルにより計算して第2中間特徴マップ
と同じであり、2つの特徴マップをプラスして新しい特徴マップF(第2特徴マップ)を取得して、第2特徴マップFの長さと幅がそれぞれ第2特徴マップFの2倍になる。Fに対して双線形補間のアップサンプリング(upsample)操作を行って、長さと幅がいずれも2倍拡大した特徴マップ、即ち第1中間特徴マップ
を取得する。Cに対して1*1の第2畳み込みカーネルによって計算して第2中間特徴マップ
と同じであり、2つの特徴マップをプラスして新しい特徴マップF(第2特徴マップ)を取得して、第2特徴マップFの長さと幅がそれぞれ第2特徴マップFの2倍になる。Fに対して双線形補間のアップサンプリング(upsample)操作を行って、長さと幅がいずれも2倍拡大した特徴マップ、即ち第1中間特徴マップ
を取得する。Cに対して1*1の第2畳み込みカーネルにより計算して第2中間特徴マップ
と同じであり、2つの特徴マップをプラスして新しい特徴マップF(第2特徴マップ)を取得して、第2特徴マップFの長さと幅がそれぞれ第2特徴マップFの2倍になる。FPNの後、同様に4つの異なるスケールの第2特徴マップが取得され、それぞれF、F、F及びFで示される。また、FとFの間の長さ及び幅の倍数がCとCの間の長さ及び幅の倍数と同じであり、FとFの間の長さ及び幅の倍数がCとCの間の長さ及び幅の倍数と同じであり、FとFの間の長さ及び幅の倍数がCとCの間の長さ及び幅の倍数と同じである。
上記ピラミッドネットワークモデルの順方向処理の後、各第2特徴マップにより多くの特徴を融合させることが可能になり、特徴の抽出精度を更に高めるために、本開示の実施例は、ステップS200の後、更に第2ピラミッドニューラルネットワークを用いて各第2特徴マップに対して逆方向処理を実行する。ここで、逆方向処理は、第2畳み込み処理及び第2線形補間処理を含んでよく、同様に、他の処理を含んでもよく、本開示の実施例では具体的に限定されない。
図5は本開示の実施例に係るキーポイント検出方法におけるステップS300のフローチャートを示す。ここで、第2ピラミッドニューラルネットワークを用いて各第2特徴マップに対して逆方向処理を行って異なるスケールの第3特徴マップ
を取得する前記ステップ(ステップS300)には以下のステップを含んでよい。
S301:第3畳み込みカーネルを用いて
中の第2特徴マップ
に対して畳み込み処理を行って、第2特徴マップ
に対応する第3特徴マップ
を取得し、ここで、第3特徴マップ
の長さと幅がそれぞれ第1特徴マップ
の長さと幅と対応的に同じであり、ここで、mが第2特徴マップの数量を示し、mが1より大きい整数であり、この時にmが第1特徴マップの数量nと同じである。
逆方向処理のプロセスで、まず長さと幅が最も大きい第2特徴マップFから逆方向処理を行ってよく、例えば、第3畳み込みカーネルを用いて該第2特徴マップFに対して畳み込み処理を行うことによって、長さと幅がそれぞれFと同じである第3中間特徴マップRを取得することができる。ここで、第3畳み込みカーネルは3*3の畳み込みカーネルであってもよいし、他の種類の畳み込みカーネルであってもよく、当業者であれば必要に応じて所望の畳み込みカーネルを選択できる。
S302:第4畳み込みカーネルを用いて第2特徴マップ
に対して畳み込み処理を行って、対応する第3中間特徴マップ
をそれぞれ取得し、ここで、第3中間特徴マップのスケールが対応する第2特徴マップのスケールと同じである。
第3特徴マップRを取得した後、第4畳み込みカーネルを用いて第2特徴マップF以外の各第2特徴マップ
に対してそれぞれ畳み込み処理を実行し、対応する第3中間特徴マップ
を取得することができる。ステップS302で、第2特徴マップF以外の第2特徴マップ
に対して第4畳み込みカーネルによって畳み込み処理を行うことができ、ここで、まずFに対して畳み込み処理を行って対応する第3中間特徴マップ
を取得してよく、次にFに対して畳み込み処理を行って対応する第3中間特徴マップ
を取得してよく、このように類推して、第2特徴マップFに対応する第3中間特徴マップ
を取得する。ここで、本開示の実施例では、各第3中間特徴マップ
の長さと幅は対応する第2特徴マップ
の長さと幅であってよい。
S303:第5畳み込みカーネルを用いて第3特徴マップ
に対して畳み込み処理を行って第3特徴マップ
に対応する第4中間特徴マップ
を取得する。
第3特徴マップRを取得した後、第4畳み込みカーネルを用いて第2特徴マップF以外の各第2特徴マップ
に対してそれぞれ畳み込み処理を実行して対応する第3中間特徴マップ
を取得することができる。ステップS302で、第2特徴マップF以外の第2特徴マップ
に対して第4畳み込みカーネルによって畳み込み処理を行うことができ、ここで、まずFに対して畳み込み処理を行って対応する第3中間特徴マップ
を取得してよく、次にFに対して畳み込み処理を行って対応する第3中間特徴マップ
を取得してよく、このように類推して、第2特徴マップFに対応する第3中間特徴マップ
を取得する。ここで、本開示の実施例では、各第3中間特徴マップ
の長さと幅は対応する第2特徴マップ
の長さと幅の半分であってよい。
S304:各第3中間特徴マップ
及び第4中間特徴マップ
を用いて第3特徴マップ
を取得し、ここで、第3特徴マップ
が第3中間特徴マップ
と第4中間特徴マップ
の重畳処理により取得され、第4中間特徴マップ
が対応する第3特徴マップ
から第5畳み込みカーネルの畳み込み処理によって取得され、ここで、jが1より大きく且つm以下である。
ステップS301を実行した後、又はS302を実行した後、更に第5畳み込みカーネルを用いて第3特徴マップRに対して畳み込み処理を行って第3特徴マップRに対応する第4中間特徴マップ
を取得することもできる。ここで、第4中間特徴マップ
の長さと幅が第2特徴マップFの長さと幅である。
また、更にステップS302で得られた第3中間特徴マップ
及びステップS303で得られた第4中間特徴マップ
を用いて、第3特徴マップ
以外の第3特徴マップ
を取得してよい。ここで、第3特徴マップ
以外の各第3特徴マップ
が第3中間特徴マップ
と第4中間特徴マップ
の重畳処理により取得される。
具体的には、ステップS304で、それぞれ対応する第3中間特徴マップ
と第4中間特徴マップ
に対して重畳処理を行うことで第3特徴マップ
以外の各第3特徴マップ
を取得することができる。ここで、まず第3中間特徴マップ
と第4中間特徴マップ
の加算結果により第3特徴マップRを取得してよい。次に、第5畳み込みカーネルを用いてRに対して畳み込み処理を行って第4中間特徴マップ
を取得し、第3中間特徴マップ
と第4中間特徴マップ
の間の加算結果によって第3特徴マップRを取得する。このように類推して、更に残りの第4中間特徴マップ
及び第3特徴マップR…Rを取得することができる。
また、本開示の実施例では、得られた各第4中間特徴マップ
の長さと幅がそれぞれ第2特徴マップFの長さと幅と同じである。また、第4中間特徴マップ
の長さと幅がそれぞれ第4中間特徴マップ
の長さと幅と同じである。それによって、得られた第3特徴マップRの長さと幅がそれぞれ第2特徴マップFの長さと幅であり、更に各第3特徴マップR…Rnの長さと幅がそれぞれ対応的に第1特徴マップC…Cの長さと幅と等しい。
以下、例を挙げて逆方向処理のプロセスを説明する。図3に示すように、更に第2特徴ピラミッドネットワーク(Reverse Feature Pyramid Network−−RFPN)を用いてマルチスケール特徴を更に最適化する。第2特徴マップFに対して3*3の畳み込みカーネル(第3畳み込みカーネル)により処理して新しい特徴マップR(第3特徴マップ)を取得し、R1の長さと幅がFと同じである。特徴マップRに対して、畳み込みカーネルが3*3(第5畳み込みカーネル)でストライド(stride)が2である畳み込み計算を行って新しい特徴マップを取得し、
で示し、
の長さと幅がそれぞれRの半分であってよい。第2特徴マップFに対して3*3の畳み込みカーネル(第4畳み込みカーネル)によって計算して新しい特徴マップを取得し、
で示す。
の大きさが同じであり、
をプラスして新しい特徴マップRを取得する。RとFに対してRとFの操作を繰り返して実行して、新しい特徴マップRを取得する。RとFに対してRとFの操作を繰り返して実行して、新しい特徴マップRを取得する。RFPNの後、同様に4つの異なるスケールの特徴マップが取得され、それぞれR、R、R及びRで示される。同様に、RとRの間の長さ及び幅の倍数がCとCの間の長さ及び幅の倍数と同じであり、RとRの間の長さ及び幅の倍数がRとRの間の長さ及び幅の倍数と同じであり、RとRの間の長さ及び幅の倍数がCとCの間の長さ及び幅の倍数と同じである。
上記構成によれば、第2ピラミッドネットワークモデルの逆方向処理で得られる第3特徴マップR…Rnを取得でき、順方向と逆方向処理といった2つの処理プロセスは画像の融合の特徴を更に高めることができ、各第3特徴マップに基づいて特徴点を精確に識別できる。
ステップS300の後、各第3特徴マップRi-の特徴融合結果により入力画像の各キーポイントの位置を取得することができる。ここで、図6は本開示の実施例に係るキーポイント検出方法におけるステップS400のフローチャートを示す。ここで、各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得する前記ステップ(ステップS400)には以下のステップを含んでよい。
S401:各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得する。
本開示の実施例では、各スケールの第3特徴マップR...Rを取得した後、各第3特徴マップに対して特徴融合を行ってよく、本開示の実施例で各第3特徴マップの長さと幅が異なるので、R…Rに対してそれぞれ線形補間処理を行って、最終的に各第3特徴マップR…Rの長さと幅を第3特徴マップRの長さと幅と同じにするようにしてよい。次に処理後の第3特徴マップを組み合わせて第4特徴マップを形成してよい。
S402:前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得する。
第4特徴マップを取得した後、第4特徴マップに対して次元削減処理を行ってよく、例えば、畳み込み処理によって第4特徴マップに対して次元削減を行い、且つ次元削減後の特徴マップを用いて入力画像の特徴点の位置を識別するようにしてよい。
図7は本開示の実施例に係るキーポイント検出方法におけるステップS401のフローチャートを示し、ここで、各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得する前記ステップ(ステップS401)には、以下のステップを含んでよい。
S4012:線形補間の方式を用いて、各第3特徴マップを同じスケールの特徴マップに調整する。
本開示の実施例で取得された各第3特徴マップR...Rのスケールが異なるので、まず各第3特徴マップを同じスケールの特徴マップに調整することが必要とされ、ここで、本開示の実施例は各第3特徴マップに対して異なる線形補間処理を実行して各特徴マップのスケールを同じにすることができ、ここで線形補間の倍数は各第3特徴マップ同士のスケール倍数に関連するものであってよい。
S4013:線形補間処理後の各特徴マップを接続して前記第4特徴マップを取得する。
同じスケールの各特徴マップを取得した後、各特徴マップを組み合わせて第4特徴マップを取得することができ、例えば、本開示の実施例の各補間処理後の特徴マップは、長さと幅がそれぞれ同じであり、高さ方向に接続して第4特徴マップを取得することができ、例えば、S4012で処理された後の各特徴マップをA、B、C及びDで示してよく、得られた第4特徴マップは
であってよい。
また、ステップS401の前に、本開示の実施例では小さいスケールの特徴を最適化するために、長さと幅が小さい第3特徴マップを更に最適化してよく、この部分の特徴に対して更なる畳み込み処理を行ってよい。図8は本開示の実施例に係るキーポイント検出方法の別のフローチャートを示し、ここで、各第3特徴マップに対して特徴融合処理を行って第4特徴マップを取得する前に、以下のステップを更に含んでよい。
S4011:第1組の第3特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第3特徴マップをそれぞれ対応的に取得し、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、ここで、前記第3特徴マップが第1組の第3特徴マップと第2組の第3特徴マップを含み、前記第1組の第3特徴マップと前記第2組の第3特徴マップのいずれにも少なくとも1つの第3特徴マップを含む。
上記のとおり、小さいスケールの特徴マップ内の特徴を最適化するために、小さいスケールの特徴マップに対して更に畳み込み処理を行ってよく、ここで、第3特徴マップR…Rを2組に分けてよく、第1組の第3特徴マップのスケールが第2組の第3特徴マップのスケールより小さい。それに対して、第1組の第3特徴マップ内の各第3特徴マップをそれぞれ異なるボトルネックブロック構成内に入力し、更新後の第3特徴マップを取得するようにしてよく、該ボトルネックブロック構成内には少なくとも1つの畳み込みモジュールを含んでよく、異なるボトルネックブロック構成中の畳み込みモジュールの数量が異なってよく、ここで、ボトルネックブロック構成による畳み込み処理を行って得られた特徴マップの大きさが入力前の第3特徴マップの大きさと同じである。
ここで、第3特徴マップの数量の特定の割合値で該第1組の第3特徴マップを決定してよい。例えば、特定の割合が50%であってよく、即ち、各第3特徴マップのうち、小さいスケールの半分の第3特徴マップを第1組の第3特徴マップとして異なるボトルネックブロック構成に入力して特徴最適化処理を行うようにしてよい。該特定の割合は他の割合値であってもよく、本開示では限定されない。又は、別の可能な実施例では、スケール閾値でボトルネックブロック構成に入力するこの第1組の第3特徴マップを決定してよい。該スケール閾値より小さい特徴マップがボトルネックブロック構成に入力されて特徴最適化処理を行われるものであると決定する。スケール閾値は各特徴マップのスケールにより決定されてよく、本開示の実施例では具体的に限定されない。
また、ボトルネックブロック構成の選択については、本開示の実施例で具体的に限定されなく、ここで、畳み込みモジュールの形態は必要に応じて選択可能である。
S4012:線形補間の方式を用いて、更新後の第3特徴マップ及び第2組の第3特徴マップを同じスケールの特徴マップに調整する。
ステップS4011を実行した後、最適化後の第1組の第3特徴マップ及び第2組の第3特徴のスケールを正規化させ、即ち各特徴マップを同じサイズの特徴マップに調整することができる。本開示の実施例は、各S4011で最適化した後の第3特徴マップ及び第2組の第3特徴マップに対してそれぞれ対応する線形補間処理を実行することで、同じ大きさの特徴マップを取得する。
本開示の実施例では、図3に示す(d)部分において、小さいスケールの特徴を最適化するために、R、R及びRの後に異なる数のボトルネックブロック(bottleneck block)構成が接続され、Rの後に1つのbottleneck blockが接続された後新しい特徴マップが得られ、
で示され、Rの後に2つのbottleneck blockが接続された後新しい特徴マップが得られ、
で示され、Rの後に3つのbottleneck blockが接続された後新しい特徴マップが得られ、
で示される。融合を行うために、4つの特徴マップ
の大きさを一致にする必要があるので、
に対して双線形補間のアップサンプリング(upsample)操作を行って2倍拡大して特徴マップ
に対して双線形補間のアップサンプリング(upsample)操作を行って4倍拡大して特徴マップ
に対して双線形補間のアップサンプリング(upsample)操作を行って8倍拡大して特徴マップ
を取得する。この時に、
はスケールが同じである。
S4013:各同じスケールの特徴マップを接続して前記第4特徴マップを取得する。
ステップS4012の後、同じスケールの特徴マップを接続してよく、例えば、上記4つの特徴マップを接続(concat)して取得された新しい特徴マップが第4特徴マップとなり、例えば、
といった4つの特徴マップがいずれも256次元であり、得られた第4特徴マップが1024次元であってよい。
上記の異なる実施例中の構成によれば、対応する第4特徴マップを取得でき、第4特徴マップを取得した後、第4特徴マップにより入力画像のキーポイント位置を取得することができる。ここで、直接第4特徴マップに対して次元削減処理を行い、次元削減処理後の特徴マップを用いて入力画像のキーポイントの位置を決定することができる。別の些実施例では、更に次元削減後の特徴マップに対して純化処理を行って、キーポイントの精度を更に高めることが可能である。図9は本開示の実施例に係るキーポイント検出方法におけるステップS402のフローチャートを示し、前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得する前記ステップには以下のステップを含んでよい。
S4021:第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行う。
本開示の実施例では、次元削減処理を実行する形態は畳み込み処理であってよく、即ち、特定の畳み込みモジュールを用いて第4特徴マップに対して畳み込み処理を行って、第4特徴マップの次元削減を実現して、例えば256次元の特徴マップを取得する。
S4022:畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得する。
次に、更に畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップに対して純化処理を行ってよい。ここで、畳み込みブロックアテンションモジュールは従来技術における畳み込みブロックアテンションモジュールであってよい。例えば、本開示の実施例の畳み込みブロックアテンションモジュールは、チャンネルアテンションユニット及び重要度アテンションユニットを含んでよい。ここで、まず次元削減処理後の第4特徴マップをチャンネルアテンションユニットに入力してよく、ここで、まず次元削減処理後の第4特徴マップに対して高さと幅に基づく大域最大プーリング(global max pooling)及び大域平均プーリング(global average pooling)を行い、次に大域最大プーリングで得られた第1結果及び大域平均プーリングで得られた第2結果をそれぞれ多層パーセプトロン(MLP)に入力し、MLP処理を行った後の2つの結果に対して加算処理を行って第3結果を取得し、第3結果に対して活性化処理を行ってチャンネルアテンション特徴マップを取得するようにしてよい。
チャンネルアテンション特徴マップを取得した後、該チャンネルアテンション特徴マップを重要度アテンションユニットに入力し、まず該チャンネルアテンション特徴マップに対してチャンネルに基づく大域最大プーリング(global max pooling)及び大域平均プーリング(global average pooling)処理を行い、第4結果と第5結果をそれぞれ取得し、続いて第4結果と第5結果を接続し、次に接続後の結果に対して畳み込み処理によって次元削減を行い、sigmoid関数を用いて次元削減結果を処理して重要度アテンション特徴マップを取得し、次に重要度アテンション特徴マップとチャンネルアテンション特徴マップを乗算して純化後の特徴マップを取得するようにしてよい。以上は本開示の実施例による畳み込みブロックアテンションモジュールに対する例示的説明に過ぎず、他の実施例では、他の構成を用いて次元削減後の第4特徴マップに対して純化処理を行ってもよい。
S4023:純化後の特徴マップを用いて入力画像のキーポイントの位置を決定する。
純化後の特徴マップを取得した後、該特徴マップを用いてキーポイントの位置情報を取得することができ、例えば、該純化後の特徴マップを3*3の畳み込みモジュールに入力して入力画像内の各キーポイントの位置情報を予測することができる。ここで、入力画像が顔部画像である時に、予測キーポイントは、例えば、左右の目、鼻、左右の耳、左右の肩、左右の肘、左右の手首、左右の腰臀部、左右のひざ、左右の踝の位置を含んでよい17個のキーポイントの位置であってよい。他の実施例では、他のキーポイントの位置を取得してもよく、本開示の実施例では限定されない。
上記構成によれば、第1ピラミッドニューラルネットワークの順方向処理及び第2ピラミッドニューラルネットワークの逆方向処理によって特徴をより十分に融合して、キーポイントの検出精度を高めることができる。
本開示の実施例では、順方向処理と逆方向処理により動作精度を満たすように、更に第1ピラミッドニューラルネットワーク及び第2ピラミッドニューラルネットワークのトレーニングを実行してもよい。ここで、図10は本開示の実施例に係るキーポイント検出方法中の第1ピラミッドニューラルネットワークをトレーニングするフローチャートを示す。ここで、本開示の実施例では、トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングしてよく、それには以下のステップを含む。
S501:第1ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第1特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第2特徴マップを取得する。
本開示の実施例では、トレーニング画像データ集合を第1ピラミッドニューラルネットワークに入力しトレーニングすることができる。ここで、トレーニング画像データ集合には複数の画像及び画像に対応するキーポイントの真実的位置を含んでよい。第1ピラミッドネットワークを用いて、上述したステップS100及びS200(マルチスケールの第1特徴マップの抽出及び順方向処理)を実行して、各画像の第2特徴マップを取得することができる。
S502:各第2特徴マップを用いて識別されるキーポイントを決定する。
ステップS201の後、取得された第2特徴マップを用いてトレーニング画像のキーポイントを識別して、トレーニング画像の各キーポイントの第1位置を取得することができる。
S503:第1損失関数により前記キーポイントの第1損失を取得する。
S504:トレーニング回数が設定された第1回数閾値に到達するまで、前記第1損失値を用いて前記第1ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節する。
それに対して、各キーポイントの第1位置を取得した後、この予測で得られる第1位置に対応する第1損失を取得することができる。トレーニングのプロセスで、トレーニング回数が第1回数閾値に到達するまで、毎回のトレーニングで得られた第1損失により第1ピラミッドニューラルネットワークのパラメータ、例えば、畳み込みカーネルのパラメータを逆方向調節することができ、該第1回数閾値は必要に応じて設定可能であり、一般的には120より大きい数値であり、例えば、本開示の実施例で第1回数閾値が140であってよい。
ここで、第1位置に対応する第1損失は第1位置と真実的位置との第1差を第1損失関数に入力して取得された損失値であってよく、ここで、第1損失関数は対数損失関数であってよい。又は、第1位置と真実的位置を第1損失関数に入力して対応する第1損失を取得してもよい。本開示の実施例では限定されない。以上のことによれば、第1ピラミッドニューラルネットワークのトレーニングプロセスを実現し、第1ピラミッドニューラルネットワークパラメータの最適化を実現することができる。
また、それに対して、図11は本開示の実施例に係るキーポイント検出方法中の第2ピラミッドニューラルネットワークをトレーニングするフローチャートを示す。ここで、本開示の実施例では、トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングしてよく、それには以下のステップを含む。
S601:第2ピラミッドニューラルネットワークを用いて前記第1ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第2特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得する。
S602:各第3特徴マップを用いてキーポイントを識別する。
本開示の実施例では、まず第1ピラミッドニューラルネットワークを用いてトレーニング画像データ集合中の各画像の第2特徴マップを取得し、次に第2ピラミッドニューラルネットワークによって前記トレーニング画像データ集合中の各画像に対応する第2特徴マップに対して上記の逆方向処理を行い、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得し、次に第3特徴マップを用いて対応する画像のキーポイントの第2位置を予測するようにしてよい。
S603:第2損失関数により識別されるキーポイントの第2損失を取得する。
S604:トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又はトレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第1ピラミッドネットワーク中の畳み込みカーネル及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節する。
それに対して、各キーポイントの第2位置を取得した後、この予測で得られる第2位置に対応する第2損失を取得することができる。トレーニングのプロセスで、トレーニング回数が第2回数閾値に到達するまで、毎回のトレーニングで得られた第2損失により第2ピラミッドニューラルネットワークのパラメータ、例えば、畳み込みカーネルのパラメータを逆方向調節することができ、該第2回数閾値は必要に応じて設定可能であり、一般的には120より大きい数値であり、例えば、本開示の実施例で第2回数閾値が140であってよい。
ここで、第2位置に対応する第2損失は第2位置と真実的位置との第2差を第2損失関数に入力して取得された損失値であってよく、ここで、第2損失関数は対数損失関数であってよい。又は、第2位置と真実的位置を第2損失関数に入力して、対応する第2損失値を取得してもよい。本開示の実施例では限定されない。
本開示の別の実施例では、第2ピラミッドニューラルネットワークをトレーニングすると同時に、第1ピラミッドニューラルネットワークを更に最適化してトレーニングすることができ、即ち、本開示の実施例では、ステップS604の時に、取得された第2損失値を用いて第1ピラミッドニューラルネットワーク中の畳み込みカーネルのパラメータ及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータを同時に逆方向調節することができる。それによってネットワークモデル全体の更なる最適化が実現される。
以上のことによれば、第2ピラミッドニューラルネットワークのトレーニングプロセスを実現し、第1ピラミッドニューラルネットワークの最適化を実現することができる。
また、本開示の実施例では、ステップS400は特徴抽出ネットワークモデルによって実現されてよく、ここで、本開示の実施例は更に特徴抽出ネットワークモデルの最適化プロセスを実行してよく、ここで、図12は本開示の実施例に係るキーポイント検出方法中の特徴抽出ネットワークモデルをトレーニングするフローチャートを示し、ここで、トレーニング画像データ集合を用いて前記特徴抽出ネットワークモデルをトレーニングするステップには以下のステップを含んでよい。
S701:特徴抽出ネットワークモデルを用いて前記第2ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第3特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別する。
本開示の実施例では、トレーニング画像データ集合に対応する、第1ピラミッドニューラルネットワークの順方向処理及び第2ピラミッドニューラルネットワークの処理で得られた第3特徴マップを特徴抽出ネットワークモデルに入力し、特徴抽出ネットワークモデルによる特徴融合及び純化等の処理を実行して、トレーニング画像データ集合中の各画像のキーポイントの第3位置を取得することができる。
S702:第3損失関数により各キーポイントの第3損失を取得する。
S703:トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又はトレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失関数を用いて前記第1ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節する。
それに対して、各キーポイントの第3位置を取得した後、この予測で得られる第3位置に対応する第3損失値を取得することができる。トレーニングのプロセスで、トレーニング回数が第3回数閾値に到達するまで、毎回のトレーニングで得られた第3損失により特徴抽出ネットワークモデルのパラメータ、例えば、畳み込みカーネルのパラメータ又は上記プーリング等のプロセスの各パラメータを逆方向調節することができ、該第3回数閾値は必要に応じて設定可能であり、一般的には120より大きい数値であり、例えば、本開示の実施例で第3回数閾値が140であってよい。
ここで、第3位置に対応する第3損失は第3位置と真実的位置との第3差を第3損失関数に入力して取得された損失値であってよく、ここで、第3損失関数は対数損失関数であってよい。又は、第3位置と真実的位置を第3損失関数に入力して対応する第3損失値を取得してもよい。本開示の実施例では限定されない。
以上のことによれば、特徴抽出ネットワークモデルのトレーニングプロセスを実現し、特徴抽出ネットワークモデルパラメータの最適化を実現することができる。
本開示の別の実施例では、特徴抽出ネットワークをトレーニングすると同時に、第1ピラミッドニューラルネットワークと第2ピラミッドニューラルネットワークを更に最適化してトレーニングすることができ、即ち、本開示の実施例では、ステップS703の時に、取得された第3損失値を用いて第1ピラミッドニューラルネットワーク中の畳み込みカーネルのパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び特徴抽出ネットワークモデルのパラメータを同時に逆方向調節することができ、それによってネットワークモデル全体の更なる最適化が実現される。
要するに、本開示の実施例は、双方向ピラミッドネットワークモデルを用いてキーポイント特徴検出を実行することを提案し、ここで、順方向処理の方式を用いてマルチスケール特徴を取得すると共に、逆方向処理でより多くの特徴を融合し、それによってキーポイントの検出精度を更に高めることができる。
具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならなく、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。
本願で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。
また、本開示は、キーポイント検出装置、電子機器、コンピュータ可読記憶媒体及びプログラムを更に提供し、それらはいずれも本開示で提供されるいずれか1種のキーポイント検出方法を実現することに利用可能であり、対応する技術的解決手段や説明については方法部分の対応する記載を参照してよく、詳細な説明を省略する。
図13は本開示の実施例に係るキーポイント検出装置のブロック図を示し、図13に示すように、前記キーポイント検出装置は、
入力画像に対する複数のスケールの第1特徴マップを取得するように構成され、各第1特徴マップのスケールが倍数関係になるマルチスケール特徴取得モジュール10と、第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するように構成され、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じである順方向処理モジュール20と、第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するように構成され、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じである逆方向処理モジュール30と、各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するように構成されるキーポイント検出モジュール40と、を含む。
いくつかの可能な実施形態では、前記マルチスケール特徴取得モジュールは、前記入力画像を所定規格の第1画像に調整し、且つ前記第1画像を残差ニューラルネットワークに入力し、第1画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第1特徴マップを取得するように構成される。
いくつかの可能な実施形態では、前記順方向処理は、第1畳み込み処理と第1線形補間処理を含み、前記逆方向処理は、第2畳み込み処理と第2線形補間処理を含む。
いくつかの可能な実施形態では、前記順方向処理モジュールは、第1畳み込みカーネルを用いて第1特徴マップ
中の第1特徴マップ
に対して畳み込み処理を行って、第1特徴マップ
に対応する第2特徴マップ
を取得し、nが第1特徴マップの数量を示し、nが1より大きい整数であり、前記第2特徴マップ
に対して線形補間処理を実行して第2特徴マップ
に対応する第1中間特徴マップ
を取得し、第1中間特徴マップ
のスケールが第1特徴マップCn−1のスケールと同じであり、第2畳み込みカーネルを用いて第1特徴マップ
以外の各第1特徴マップ
に対して畳み込み処理を行って、それぞれ第1特徴マップ
に一対一に対応する第2中間特徴マップ
を取得し、前記第2中間特徴マップのスケールがそれに一対一に対応する第1特徴マップのスケールと同じであり、前記第2特徴マップ
及び各前記第2中間特徴マップ
に基づいて、第2特徴マップ
及び第1中間特徴マップ
を取得し、前記第2特徴マップ
が前記第2中間特徴マップ
と前記第1中間特徴マップ
に対して重畳処理を行って取得され、第1中間特徴マップ
が対応する第2特徴マップ
に対して線形補間を行って取得され、また、前記第2中間特徴マップ
と第1中間特徴マップ
のスケールが同じであり、iが1以上であり且つnより小さい整数であるように構成される。
いくつかの可能な実施形態では、前記逆方向処理モジュールは、第3畳み込みカーネルを用いて第2特徴マップ
中の第2特徴マップ
に対して畳み込み処理を行って、第2特徴マップ
に対応する第3特徴マップ
を取得し、mが第2特徴マップの数量を示し、mが1より大きい整数であり、第4畳み込みカーネルを用いて第2特徴マップ
に対して畳み込み処理を行って、対応する第3中間特徴マップ
をそれぞれ取得し、第3中間特徴マップのスケールが対応する第2特徴マップのスケールと同じであり、第5畳み込みカーネルを用いて第3特徴マップ
に対して畳み込み処理を行って第3特徴マップ
に対応する第4中間特徴マップ
を取得し、各第3中間特徴マップ
及び第4中間特徴マップ
を用いて、第3特徴マップ
及び第4中間特徴マップ
を取得し、第3特徴マップ
が第3中間特徴マップ
と第4中間特徴マップ
の重畳処理により取得され、第4中間特徴マップ
が対応する第3特徴マップ
から第5畳み込みカーネルの畳み込み処理によって取得され、jが1より大きく且つm以下であるように構成される。
いくつかの可能な実施形態では、前記キーポイント検出モジュールは、各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得し、且つ前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するように構成される。
いくつかの可能な実施形態では、前記キーポイント検出モジュールは、線形補間の方式を用いて、各第3特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するように構成される。
いくつかの可能な実施形態では、前記装置は、第1組の第3特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第3特徴マップをそれぞれ取得するように構成される最適化モジュールであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第3特徴マップが第1組の第3特徴マップと第2組の第3特徴マップを含み、前記第1組の第3特徴マップと前記第2組の第3特徴マップのいずれにも少なくとも1つの第3特徴マップを含む最適化モジュールを更に含む。
いくつかの可能な実施形態では、前記キーポイント検出モジュールは、更に、線形補間の方式を用いて、各前記更新後の第3特徴マップ及び前記第2組の第3特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するように構成される。
いくつかの可能な実施形態では、前記キーポイント検出モジュールは、更に、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行い、且つ次元削減処理後の第4特徴マップを用いて入力画像のキーポイントの位置を決定するように構成される。
いくつかの可能な実施形態では、前記キーポイント検出モジュールは、更に、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行い、畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得し、且つ純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するように構成される。
いくつかの可能な実施形態では、前記順方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングすることは、第1ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第1特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第2特徴マップを取得するステップと、各第2特徴マップを用いて識別されるキーポイントを決定するステップと、第1損失関数により前記キーポイントの第1損失を取得するステップと、トレーニング回数が設定された第1回数閾値に到達するまで、前記第1損失を用いて前記第1ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む。
いくつかの可能な実施形態では、前記逆方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングすることは、第2ピラミッドニューラルネットワークを用いて前記第1ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第2特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得するステップと、各第3特徴マップを用いて識別されるキーポイントを決定するステップと、第2損失関数により識別される各キーポイントの第2損失を取得するステップと、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第1ピラミッドネットワーク中の畳み込みカーネル及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む。
いくつかの可能な実施形態では、前記キーポイント検出モジュールは、更に、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するように構成され、また、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するステップの前に、更にトレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングすることは、特徴抽出ネットワークを用いて前記第2ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第3特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、第3損失関数により各キーポイントの第3損失を取得するステップと、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失関数を用いて前記第1ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む。
いくつかの実施例では、本開示の実施例で提供された装置に備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してもよく、簡単化するために、ここで重複説明は割愛する。
本開示の実施例は、コンピュータプログラムコマンドを記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記方法が実現されるコンピュータ可読記憶媒体を更に提供する。コンピュータ可読記憶媒体は非揮発性コンピュータ可読記憶媒体であってよい。
本開示の実施例は、上記方法を実行するように構成されるプロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含む電子機器を更に提供する。
電子機器は、端末、サーバ又は他の形態の装置として提供されてよい。
図14は本開示の実施例に係る電子機器800のブロック図を示す。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。
図14を参照すると、電子機器800は処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインターフェイス812、センサコンポーネント814、および通信コンポーネント816の一つ以上を含むことができる。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを完了するために、一つ以上のプロセッサ820を含んで命令を実行することができる。また、処理コンポーネント802は、他のコンポーネントとの対話のために、一つ以上のモジュールを含むことができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808との対話のために、マルチメディアモジュールを含むことができる。
メモリ804は電子機器800での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器800において運用するためのあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インターフェイスを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ(LCD)およびタッチパネル(TP)を含むことができる。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチ画面として実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または後面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラおよび後面カメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク(MIC)を含む。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインターフェイス812は処理コンポーネント802と周辺インターフェイスモジュールとの間でインターフェイスを提供し、上記周辺インターフェイスモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含むことができるが、これらに限定されない。
センサコンポーネント814は電子機器800に各面での状態評価を提供するための一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、コンポーネントの相対的位置決め、例えば前記コンポーネントが電子機器800の表示装置およびキーパッドであることを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように構成された近接センサを含む。センサコンポーネント814はさらに、CMOS又はCCDのような、イメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含むことができる。
通信コンポーネント816は電子機器800と他の機器との間の有線または無線通信を実現するように配置される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールでは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は電子機器800のプロセッサ820によって実行して上記方法を完了することができる。
図15は本開示の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900はサーバとして提供できる。図15を参照すると、電子機器1900は、さらに一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されたアプリケーションプログラムはそれぞれが1グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント1922は命令を実行し、それによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成された電源コンポーネント1926、電子機器1900をネットワークにアクセスするように構成された有線または無線ネットワークインターフェイス1950、および入出力(I/O)インターフェイス1958を含むことができる。電子機器1900はメモリ1932に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は電子機器1900の処理コンポーネント1922によって実行して上記方法を完了することができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各態様を実現させるためのコンピュータ読み取り可能プログラム命令がロードされているコンピュータ読み取り可能記憶媒体を含むことができる。
コンピュータ読み取り可能記憶媒体は命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例(非包括的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含むことができる。各計算/処理機器内のネットワークアダプタカードまたはネットワークインターフェイスはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能記憶媒体に記憶する。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。
なお、ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明しが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ読み取り可能プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する手段を創出する。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ読み取り可能記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各態様を実現する命令を含む製品を備える。
コンピュータ読み取り可能プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。
例えば、本願は以下の項目を提供する。
(項目1)
入力画像に対する複数のスケールの第1特徴マップを取得するステップであって、各第1特徴マップのスケールが倍数関係になるステップと、
第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するステップであって、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じであるステップと、
第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するステップであって、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じであるステップと、
各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップと、を含むキーポイント検出方法。
(項目2)
前記入力画像に対する複数のスケールの第1特徴マップを取得するステップは、
前記入力画像を所定規格の第1画像に調整するステップと、
前記第1画像を残差ニューラルネットワークに入力し、第1画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第1特徴マップを取得するステップと、を含む項目1に記載の方法。
(項目3)
前記順方向処理は、第1畳み込み処理と第1線形補間処理を含み、前記逆方向処理は、第2畳み込み処理と第2線形補間処理を含む項目1に記載の方法。
(項目4)
前記第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するステップは、
第1畳み込みカーネルを用いて第1特徴マップ

中の第1特徴マップ

に対して畳み込み処理を行って、第1特徴マップ

に対応する第2特徴マップ

を取得するステップであって、nが第1特徴マップの数量を示し、nが1より大きい整数であるステップと、
前記第2特徴マップ

に対して線形補間処理を実行して第2特徴マップ

に対応する第1中間特徴マップ

を取得するステップであって、第1中間特徴マップ

のスケールが第1特徴マップC n−1 のスケールと同じであるステップと、
第2畳み込みカーネルを用いて第1特徴マップ

以外の各第1特徴マップ

に対して畳み込み処理を行って、それぞれ第1特徴マップ

に一対一に対応する第2中間特徴マップ

を取得するステップであって、前記第2中間特徴マップのスケールがそれに一対一に対応する第1特徴マップのスケールと同じであるステップと、
前記第2特徴マップ

及び各前記第2中間特徴マップ

に基づいて、第2特徴マップ

及び第1中間特徴マップ

を取得するステップであって、前記第2特徴マップ

が前記第2中間特徴マップ

と前記第1中間特徴マップ

に対して重畳処理を行って取得され、第1中間特徴マップ

が対応する第2特徴マップ

に対して線形補間を行って取得され、また、前記第2中間特徴マップ

と第1中間特徴マップ

のスケールが同じであり、iが1以上であり且つnより小さい整数であるステップと、を含む項目1〜3のいずれか一項に記載の方法。
(項目5)
前記第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するステップは、
第3畳み込みカーネルを用いて第2特徴マップ

中の第2特徴マップ

に対して畳み込み処理を行って、第2特徴マップ

に対応する第3特徴マップ

を取得するステップであって、mが第2特徴マップの数量を示し、mが1より大きい整数であるステップと、
第4畳み込みカーネルを用いて第2特徴マップ

に対して畳み込み処理を行って、対応する第3中間特徴マップ

をそれぞれ取得するステップであって、第3中間特徴マップのスケールが対応する第2特徴マップのスケールと同じであるステップと、
第5畳み込みカーネルを用いて第3特徴マップ

に対して畳み込み処理を行って第3特徴マップ

に対応する第4中間特徴マップ

を取得するステップと、
各第3中間特徴マップ

及び第4中間特徴マップ

を用いて、第3特徴マップ

及び第4中間特徴マップ

を取得するステップであって、第3特徴マップ

が第3中間特徴マップ

と第4中間特徴マップ

の重畳処理により取得され、第4中間特徴マップ

が対応する第3特徴マップ

から第5畳み込みカーネルの畳み込み処理によって取得され、jが1より大きく且つm以下であるステップと、を含む項目1〜4のいずれか一項に記載の方法。
(項目6)
前記各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップは、
各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップと、
前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップと、を含む項目1〜5のいずれか一項に記載の方法。
(項目7)
前記各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップは、
線形補間の方式を用いて、各第3特徴マップを同じスケールの特徴マップに調整するステップと、
前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するステップと、を含む項目6に記載の方法。
(項目8)
前記各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得する前に、第1組の第3特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第3特徴マップをそれぞれ取得するステップであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第3特徴マップが第1組の第3特徴マップと第2組の第3特徴マップを含み、前記第1組の第3特徴マップと前記第2組の第3特徴マップのいずれにも少なくとも1つの第3特徴マップを含むステップを更に含む項目6又は7に記載の方法。
(項目9)
前記各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップは、
線形補間の方式を用いて、各前記更新後の第3特徴マップ及び前記第2組の第3特徴マップを同じスケールの特徴マップに調整するステップと、
前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するステップと、を含む項目8に記載の方法。
(項目10)
前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行うステップと、
次元削減処理後の第4特徴マップを用いて入力画像のキーポイントの位置を決定するステップと、を含む項目6〜9のいずれか一項に記載の方法。
(項目11)
前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、
第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行うステップと、
畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得するステップと、
純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するステップと、を含む項目6〜9のいずれか一項に記載の方法。
(項目12)
前記方法は、トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするステップは、
第1ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第1特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第2特徴マップを取得するステップと、
各第2特徴マップを用いて識別されるキーポイントを決定するステップと、
第1損失関数により前記キーポイントの第1損失を取得するステップと、
トレーニング回数が設定された第1回数閾値に到達するまで、前記第1損失を用いて前記第1ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む項目1〜11のいずれか一項に記載の方法。
(項目13)
前記方法は、トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするステップは、
第2ピラミッドニューラルネットワークを用いて前記第1ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第2特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得するステップと、
各第3特徴マップを用いて識別されるキーポイントを決定するステップと、
第2損失関数により識別される各キーポイントの第2損失を取得するステップと、
トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第1ピラミッドネットワーク中の畳み込みカーネル及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む項目1〜12のいずれか一項に記載の方法。
(項目14)
特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行し、また、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するステップの前に、前記方法は、トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップは、
特徴抽出ネットワークを用いて前記第2ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第3特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、
第3損失関数により各キーポイントの第3損失を取得するステップと、
トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失関数を用いて前記第1ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む項目1〜13のいずれか一項に記載の方法。
(項目15)
入力画像に対する複数のスケールの第1特徴マップを取得するように構成されるマルチスケール特徴取得モジュールであって、各第1特徴マップのスケールが倍数関係になるマルチスケール特徴取得モジュールと、
第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するように構成される順方向処理モジュールであって、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じである順方向処理モジュールと、
第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するように構成される逆方向処理モジュールであって、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じである逆方向処理モジュールと、
各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するように構成されるキーポイント検出モジュールと、を含むキーポイント検出装置。
(項目16)
前記マルチスケール特徴取得モジュールは、前記入力画像を所定規格の第1画像に調整し、前記第1画像を残差ニューラルネットワークに入力し、第1画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第1特徴マップを取得するように構成される項目15に記載の装置。
(項目17)
前記順方向処理は、第1畳み込み処理と第1線形補間処理を含み、前記逆方向処理は、第2畳み込み処理と第2線形補間処理を含む項目15に記載の装置。
(項目18)
前記順方向処理モジュールは、
第1畳み込みカーネルを用いて第1特徴マップ

中の第1特徴マップ

に対して畳み込み処理を行って、第1特徴マップ
に対応する第2特徴マップ

を取得し、nが第1特徴マップの数量を示し、nが1より大きい整数であり、
前記第2特徴マップ

に対して線形補間処理を実行して第2特徴マップ

に対応する第1中間特徴マップ

を取得し、第1中間特徴マップ

のスケールが第1特徴マップC n−1 のスケールと同じであり、
第2畳み込みカーネルを用いて第1特徴マップ

以外の各第1特徴マップ

に対して畳み込み処理を行って、第1特徴マップ

に一対一に対応する第2中間特徴マップ

をそれぞれ取得し、前記第2中間特徴マップのスケールがそれに一対一に対応する第1特徴マップのスケールと同じであり、
前記第2特徴マップ

及び各前記第2中間特徴マップ

に基づいて、第2特徴マップ

及び第1中間特徴マップ

を取得し、前記第2特徴マップ

が前記第2中間特徴マップ

と前記第1中間特徴マップ

に対して重畳処理を行って取得され、第1中間特徴マップ

が対応する第2特徴マップ

に対して線形補間を行って取得され、また、前記第2中間特徴マップ

と第1中間特徴マップ

のスケールが同じであり、iが1以上であり且つnより小さい整数であるように構成される項目15〜17のいずれか一項に記載の装置。
(項目19)
前記逆方向処理モジュールは、
第3畳み込みカーネルを用いて第2特徴マップ

中の第2特徴マップ

に対して畳み込み処理を行って、第2特徴マップ

に対応する第3特徴マップ

を取得し、mが第2特徴マップの数量を示し、mが1より大きい整数であり、
第4畳み込みカーネルを用いて第2特徴マップ

に対して畳み込み処理を行って、対応する第3中間特徴マップ

をそれぞれ取得し、第3中間特徴マップのスケールが対応する第2特徴マップのスケールと同じであり、
第5畳み込みカーネルを用いて第3特徴マップ

に対して畳み込み処理を行って第3特徴マップ

に対応する第4中間特徴マップ

を取得し、
各第3中間特徴マップ

及び第4中間特徴マップ

を用いて第3特徴マップ

及び第4中間特徴マップ

を取得し、第3特徴マップ

が第3中間特徴マップ

と第4中間特徴マップ

の重畳処理により取得され、第4中間特徴マップ

が対応する第3特徴マップ

から第5畳み込みカーネルの畳み込み処理によって取得され、jが1より大きく且つm以下であるように構成される項目15〜18のいずれか一項に記載の装置。
(項目20)
前記キーポイント検出モジュールは、各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得し、且つ前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するように構成される項目15〜19のいずれか一項に記載の装置。
(項目21)
前記キーポイント検出モジュールは、線形補間の方式を用いて、各第3特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するように構成される項目20に記載の装置。
(項目22)
第1組の第3特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第3特徴マップをそれぞれ取得するように構成される最適化モジュールであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第3特徴マップが第1組の第3特徴マップと第2組の第3特徴マップを含み、前記第1組の第3特徴マップと前記第2組の第3特徴マップのいずれにも少なくとも1つの第3特徴マップを含む最適化モジュールを更に含む項目20又は21に記載の装置。
(項目23)
前記キーポイント検出モジュールは、更に、線形補間の方式を用いて、各前記更新後の第3特徴マップ及び前記第2組の第3特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するように構成される項目22前記の装置。
(項目24)
前記キーポイント検出モジュールは、更に、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行い、且つ次元削減処理後の第4特徴マップを用いて入力画像のキーポイントの位置を決定するように構成される項目20〜23のいずれか一項に記載の装置。
(項目25)
前記キーポイント検出モジュールは、更に、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行い、畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得し、且つ純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するように構成される項目20〜23のいずれか一項に記載の装置。
(項目26)
前記順方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングすることは、第1ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第1特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第2特徴マップを取得するステップと、各第2特徴マップを用いて識別されるキーポイントを決定するステップと、第1損失関数により前記キーポイントの第1損失を取得するステップと、トレーニング回数が設定された第1回数閾値に到達するまで、前記第1損失を用いて前記第1ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む項目15〜25のいずれか一項に記載の装置。
(項目27)
前記逆方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングすることは、第2ピラミッドニューラルネットワークを用いて前記第1ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第2特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得するステップと、各第3特徴マップを用いて識別されるキーポイントを決定するステップと、第2損失関数により識別される各キーポイントの第2損失を取得するステップと、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第1ピラミッドネットワーク中の畳み込みカーネル及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む項目15〜26のいずれか一項に記載の装置。
(項目28)
前記キーポイント検出モジュールは、更に、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するように構成され、また、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するステップの前に、更にトレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングすることは、特徴抽出ネットワークを用いて前記第2ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第3特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、第3損失関数により各キーポイントの第3損失を取得するステップと、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失関数を用いて前記第1ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む項目15〜27のいずれか一項に記載の装置。
(項目29)
項目1〜14のいずれか一項に記載の方法を実行するように構成されるプロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含む電子機器。
(項目30)
コンピュータプログラムコマンドを記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に項目1〜14のいずれか一項に記載の方法が実現されるコンピュータ可読記憶媒体。

Claims (30)

  1. 入力画像に対する複数のスケールの第1特徴マップを取得するステップであって、各第1特徴マップのスケールが倍数関係になるステップと、
    第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するステップであって、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じであるステップと、
    第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するステップであって、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じであるステップと、
    各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップと、を含むキーポイント検出方法。
  2. 前記入力画像に対する複数のスケールの第1特徴マップを取得するステップは、
    前記入力画像を所定規格の第1画像に調整するステップと、
    前記第1画像を残差ニューラルネットワークに入力し、第1画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第1特徴マップを取得するステップと、を含む請求項1に記載の方法。
  3. 前記順方向処理は、第1畳み込み処理と第1線形補間処理を含み、前記逆方向処理は、第2畳み込み処理と第2線形補間処理を含む請求項1に記載の方法。
  4. 前記第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するステップは、
    第1畳み込みカーネルを用いて第1特徴マップ

    中の第1特徴マップ

    に対して畳み込み処理を行って、第1特徴マップ

    に対応する第2特徴マップ

    を取得するステップであって、nが第1特徴マップの数量を示し、nが1より大きい整数であるステップと、
    前記第2特徴マップ

    に対して線形補間処理を実行して第2特徴マップ

    に対応する第1中間特徴マップ

    を取得するステップであって、第1中間特徴マップ

    のスケールが第1特徴マップCn−1のスケールと同じであるステップと、
    第2畳み込みカーネルを用いて第1特徴マップ

    以外の各第1特徴マップ

    に対して畳み込み処理を行って、それぞれ第1特徴マップ

    に一対一に対応する第2中間特徴マップ

    を取得するステップであって、前記第2中間特徴マップのスケールがそれに一対一に対応する第1特徴マップのスケールと同じであるステップと、
    前記第2特徴マップ

    及び各前記第2中間特徴マップ

    に基づいて、第2特徴マップ

    及び第1中間特徴マップ

    を取得するステップであって、前記第2特徴マップ

    が前記第2中間特徴マップ

    と前記第1中間特徴マップ

    に対して重畳処理を行って取得され、第1中間特徴マップ

    が対応する第2特徴マップ

    に対して線形補間を行って取得され、また、前記第2中間特徴マップ

    と第1中間特徴マップ

    のスケールが同じであり、iが1以上であり且つnより小さい整数であるステップと、を含む請求項1〜3のいずれか一項に記載の方法。
  5. 前記第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するステップは、
    第3畳み込みカーネルを用いて第2特徴マップ

    中の第2特徴マップ

    に対して畳み込み処理を行って、第2特徴マップ

    に対応する第3特徴マップ

    を取得するステップであって、mが第2特徴マップの数量を示し、mが1より大きい整数であるステップと、
    第4畳み込みカーネルを用いて第2特徴マップ

    に対して畳み込み処理を行って、対応する第3中間特徴マップ

    をそれぞれ取得するステップであって、第3中間特徴マップのスケールが対応する第2特徴マップのスケールと同じであるステップと、
    第5畳み込みカーネルを用いて第3特徴マップ

    に対して畳み込み処理を行って第3特徴マップ

    に対応する第4中間特徴マップ

    を取得するステップと、
    各第3中間特徴マップ

    及び第4中間特徴マップ

    を用いて、第3特徴マップ

    及び第4中間特徴マップ

    を取得するステップであって、第3特徴マップ

    が第3中間特徴マップ

    と第4中間特徴マップ

    の重畳処理により取得され、第4中間特徴マップ

    が対応する第3特徴マップ

    から第5畳み込みカーネルの畳み込み処理によって取得され、jが1より大きく且つm以下であるステップと、を含む請求項1〜4のいずれか一項に記載の方法。
  6. 前記各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップは、
    各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップと、
    前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップと、を含む請求項1〜5のいずれか一項に記載の方法。
  7. 前記各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップは、
    線形補間の方式を用いて、各第3特徴マップを同じスケールの特徴マップに調整するステップと、
    前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するステップと、を含む請求項6に記載の方法。
  8. 前記各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得する前に、第1組の第3特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第3特徴マップをそれぞれ取得するステップであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第3特徴マップが第1組の第3特徴マップと第2組の第3特徴マップを含み、前記第1組の第3特徴マップと前記第2組の第3特徴マップのいずれにも少なくとも1つの第3特徴マップを含むステップを更に含む請求項6又は7に記載の方法。
  9. 前記各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得するステップは、
    線形補間の方式を用いて、各前記更新後の第3特徴マップ及び前記第2組の第3特徴マップを同じスケールの特徴マップに調整するステップと、
    前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するステップと、を含む請求項8に記載の方法。
  10. 前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行うステップと、
    次元削減処理後の第4特徴マップを用いて入力画像のキーポイントの位置を決定するステップと、を含む請求項6〜9のいずれか一項に記載の方法。
  11. 前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、
    第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行うステップと、
    畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得するステップと、
    純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するステップと、を含む請求項6〜9のいずれか一項に記載の方法。
  12. 前記方法は、トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするステップを更に含み、
    前記トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするステップは、
    第1ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第1特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第2特徴マップを取得するステップと、
    各第2特徴マップを用いて識別されるキーポイントを決定するステップと、
    第1損失関数により前記キーポイントの第1損失を取得するステップと、
    トレーニング回数が設定された第1回数閾値に到達するまで、前記第1損失を用いて前記第1ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む請求項1〜11のいずれか一項に記載の方法。
  13. 前記方法は、トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするステップを更に含み、
    前記トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするステップは、
    第2ピラミッドニューラルネットワークを用いて前記第1ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第2特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得するステップと、
    各第3特徴マップを用いて識別されるキーポイントを決定するステップと、
    第2損失関数により識別される各キーポイントの第2損失を取得するステップと、
    トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第1ピラミッドネットワーク中の畳み込みカーネル及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む請求項1〜12のいずれか一項に記載の方法。
  14. 特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行し、また、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するステップの前に、前記方法は、トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップを更に含み、
    前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップは、
    特徴抽出ネットワークを用いて前記第2ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第3特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、
    第3損失関数により各キーポイントの第3損失を取得するステップと、
    トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失関数を用いて前記第1ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む請求項1〜13のいずれか一項に記載の方法。
  15. 入力画像に対する複数のスケールの第1特徴マップを取得するように構成されるマルチスケール特徴取得モジュールであって、各第1特徴マップのスケールが倍数関係になるマルチスケール特徴取得モジュールと、
    第1ピラミッドニューラルネットワークを用いて各前記第1特徴マップに対して順方向処理を行って各前記第1特徴マップに一対一に対応する第2特徴マップを取得するように構成される順方向処理モジュールであって、前記第2特徴マップのスケールがそれに一対一に対応する前記第1特徴マップと同じである順方向処理モジュールと、
    第2ピラミッドニューラルネットワークを用いて各前記第2特徴マップに対して逆方向処理を行って各前記第2特徴マップに一対一に対応する第3特徴マップを取得するように構成される逆方向処理モジュールであって、前記第3特徴マップのスケールがそれに一対一に対応する前記第2特徴マップと同じである逆方向処理モジュールと、
    各前記第3特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するように構成されるキーポイント検出モジュールと、を含むキーポイント検出装置。
  16. 前記マルチスケール特徴取得モジュールは、前記入力画像を所定規格の第1画像に調整し、前記第1画像を残差ニューラルネットワークに入力し、第1画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第1特徴マップを取得するように構成される請求項15に記載の装置。
  17. 前記順方向処理は、第1畳み込み処理と第1線形補間処理を含み、前記逆方向処理は、第2畳み込み処理と第2線形補間処理を含む請求項15に記載の装置。
  18. 前記順方向処理モジュールは、
    第1畳み込みカーネルを用いて第1特徴マップ

    中の第1特徴マップ

    に対して畳み込み処理を行って、第1特徴マップ
    に対応する第2特徴マップ

    を取得し、nが第1特徴マップの数量を示し、nが1より大きい整数であり、
    前記第2特徴マップ

    に対して線形補間処理を実行して第2特徴マップ

    に対応する第1中間特徴マップ

    を取得し、第1中間特徴マップ

    のスケールが第1特徴マップCn−1のスケールと同じであり、
    第2畳み込みカーネルを用いて第1特徴マップ

    以外の各第1特徴マップ

    に対して畳み込み処理を行って、第1特徴マップ

    に一対一に対応する第2中間特徴マップ

    をそれぞれ取得し、前記第2中間特徴マップのスケールがそれに一対一に対応する第1特徴マップのスケールと同じであり、
    前記第2特徴マップ

    及び各前記第2中間特徴マップ

    に基づいて、第2特徴マップ

    及び第1中間特徴マップ

    を取得し、前記第2特徴マップ

    が前記第2中間特徴マップ

    と前記第1中間特徴マップ

    に対して重畳処理を行って取得され、第1中間特徴マップ

    が対応する第2特徴マップ

    に対して線形補間を行って取得され、また、前記第2中間特徴マップ

    と第1中間特徴マップ

    のスケールが同じであり、iが1以上であり且つnより小さい整数であるように構成される請求項15〜17のいずれか一項に記載の装置。
  19. 前記逆方向処理モジュールは、
    第3畳み込みカーネルを用いて第2特徴マップ

    中の第2特徴マップ

    に対して畳み込み処理を行って、第2特徴マップ

    に対応する第3特徴マップ

    を取得し、mが第2特徴マップの数量を示し、mが1より大きい整数であり、
    第4畳み込みカーネルを用いて第2特徴マップ

    に対して畳み込み処理を行って、対応する第3中間特徴マップ

    をそれぞれ取得し、第3中間特徴マップのスケールが対応する第2特徴マップのスケールと同じであり、
    第5畳み込みカーネルを用いて第3特徴マップ

    に対して畳み込み処理を行って第3特徴マップ

    に対応する第4中間特徴マップ

    を取得し、
    各第3中間特徴マップ

    及び第4中間特徴マップ

    を用いて第3特徴マップ

    及び第4中間特徴マップ

    を取得し、第3特徴マップ

    が第3中間特徴マップ

    と第4中間特徴マップ

    の重畳処理により取得され、第4中間特徴マップ

    が対応する第3特徴マップ

    から第5畳み込みカーネルの畳み込み処理によって取得され、jが1より大きく且つm以下であるように構成される請求項15〜18のいずれか一項に記載の装置。
  20. 前記キーポイント検出モジュールは、各第3特徴マップに対して特徴融合処理を行って、第4特徴マップを取得し、且つ前記第4特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するように構成される請求項15〜19のいずれか一項に記載の装置。
  21. 前記キーポイント検出モジュールは、線形補間の方式を用いて、各第3特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するように構成される請求項20に記載の装置。
  22. 第1組の第3特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第3特徴マップをそれぞれ取得するように構成される最適化モジュールであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第3特徴マップが第1組の第3特徴マップと第2組の第3特徴マップを含み、前記第1組の第3特徴マップと前記第2組の第3特徴マップのいずれにも少なくとも1つの第3特徴マップを含む最適化モジュールを更に含む請求項20又は21に記載の装置。
  23. 前記キーポイント検出モジュールは、更に、線形補間の方式を用いて、各前記更新後の第3特徴マップ及び前記第2組の第3特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第4特徴マップを取得するように構成される請求項22前記の装置。
  24. 前記キーポイント検出モジュールは、更に、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行い、且つ次元削減処理後の第4特徴マップを用いて入力画像のキーポイントの位置を決定するように構成される請求項20〜23のいずれか一項に記載の装置。
  25. 前記キーポイント検出モジュールは、更に、第5畳み込みカーネルを用いて前記第4特徴マップに対して次元削減処理を行い、畳み込みブロックアテンションモジュールを用いて次元削減処理後の第4特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得し、且つ純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するように構成される請求項20〜23のいずれか一項に記載の装置。
  26. 前記順方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第1ピラミッドニューラルネットワークをトレーニングすることは、第1ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第1特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第2特徴マップを取得するステップと、各第2特徴マップを用いて識別されるキーポイントを決定するステップと、第1損失関数により前記キーポイントの第1損失を取得するステップと、トレーニング回数が設定された第1回数閾値に到達するまで、前記第1損失を用いて前記第1ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む請求項15〜25のいずれか一項に記載の装置。
  27. 前記逆方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第2ピラミッドニューラルネットワークをトレーニングすることは、第2ピラミッドニューラルネットワークを用いて前記第1ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第2特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第3特徴マップを取得するステップと、各第3特徴マップを用いて識別されるキーポイントを決定するステップと、第2損失関数により識別される各キーポイントの第2損失を取得するステップと、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第2回数閾値に到達するまで、前記第2損失を用いて前記第1ピラミッドネットワーク中の畳み込みカーネル及び第2ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む請求項15〜26のいずれか一項に記載の装置。
  28. 前記キーポイント検出モジュールは、更に、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するように構成され、また、特徴抽出ネットワークによって各前記第3特徴マップに対する前記特徴融合処理を実行するステップの前に、更にトレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングすることは、特徴抽出ネットワークを用いて前記第2ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第3特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、第3損失関数により各キーポイントの第3損失を取得するステップと、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第3回数閾値に到達するまで、前記第3損失関数を用いて前記第1ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第2ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む請求項15〜27のいずれか一項に記載の装置。
  29. 請求項1〜14のいずれか一項に記載の方法を実行するように構成されるプロセッサと、
    プロセッサ実行可能コマンドを記憶するためのメモリと、を含む電子機器。
  30. コンピュータプログラムコマンドを記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に請求項1〜14のいずれか一項に記載の方法が実現されるコンピュータ可読記憶媒体。
JP2020518758A 2018-11-16 2019-04-22 キーポイント検出方法及び装置、電子機器並びに記憶媒体 Active JP6944051B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811367869.4A CN109614876B (zh) 2018-11-16 2018-11-16 关键点检测方法及装置、电子设备和存储介质
CN201811367869.4 2018-11-16
PCT/CN2019/083721 WO2020098225A1 (zh) 2018-11-16 2019-04-22 关键点检测方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021508388A true JP2021508388A (ja) 2021-03-04
JP6944051B2 JP6944051B2 (ja) 2021-10-06

Family

ID=66003175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020518758A Active JP6944051B2 (ja) 2018-11-16 2019-04-22 キーポイント検出方法及び装置、電子機器並びに記憶媒体

Country Status (7)

Country Link
US (1) US20200250462A1 (ja)
JP (1) JP6944051B2 (ja)
KR (1) KR102394354B1 (ja)
CN (7) CN113569796A (ja)
SG (1) SG11202003818YA (ja)
TW (1) TWI720598B (ja)
WO (1) WO2020098225A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023527615A (ja) * 2021-04-28 2023-06-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102227583B1 (ko) * 2018-08-03 2021-03-15 한국과학기술원 딥 러닝 기반의 카메라 캘리브레이션 방법 및 장치
CN113569796A (zh) * 2018-11-16 2021-10-29 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
JP7103240B2 (ja) * 2019-01-10 2022-07-20 日本電信電話株式会社 物体検出認識装置、方法、及びプログラム
CN110378253B (zh) * 2019-07-01 2021-03-26 浙江大学 一种基于轻量化神经网络的实时关键点检测方法
CN110378976B (zh) * 2019-07-18 2020-11-13 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110705563B (zh) * 2019-09-07 2020-12-29 创新奇智(重庆)科技有限公司 一种基于深度学习的工业零件关键点检测方法
CN110647834B (zh) * 2019-09-18 2021-06-25 北京市商汤科技开发有限公司 人脸和人手关联检测方法及装置、电子设备和存储介质
KR20210062477A (ko) * 2019-11-21 2021-05-31 삼성전자주식회사 전자 장치 및 그 제어 방법
US11080833B2 (en) * 2019-11-22 2021-08-03 Adobe Inc. Image manipulation using deep learning techniques in a patch matching operation
WO2021146890A1 (en) * 2020-01-21 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for object detection in image using detection model
CN111414823B (zh) * 2020-03-12 2023-09-12 Oppo广东移动通信有限公司 人体特征点的检测方法、装置、电子设备以及存储介质
CN111382714B (zh) * 2020-03-13 2023-02-17 Oppo广东移动通信有限公司 图像检测方法、装置、终端及存储介质
CN111401335B (zh) * 2020-04-29 2023-06-30 Oppo广东移动通信有限公司 一种关键点检测方法及装置、存储介质
CN111709428B (zh) * 2020-05-29 2023-09-15 北京百度网讯科技有限公司 图像中关键点位置的识别方法、装置、电子设备及介质
CN111784642B (zh) * 2020-06-10 2021-12-28 中铁四局集团有限公司 一种图像处理方法、目标识别模型训练方法和目标识别方法
CN111695519B (zh) * 2020-06-12 2023-08-08 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质
US11847823B2 (en) 2020-06-18 2023-12-19 Apple Inc. Object and keypoint detection system with low spatial jitter, low latency and low power usage
CN111709945B (zh) * 2020-07-17 2023-06-30 深圳市网联安瑞网络科技有限公司 一种基于深度局部特征的视频拷贝检测方法
CN112131925A (zh) * 2020-07-22 2020-12-25 浙江元亨通信技术股份有限公司 一种多通道特征空间金字塔的构造方法
CN112149558A (zh) * 2020-09-22 2020-12-29 驭势科技(南京)有限公司 一种用于关键点检测的图像处理方法、网络和电子设备
CN112232361B (zh) * 2020-10-13 2021-09-21 国网电子商务有限公司 图像处理的方法及装置、电子设备及计算机可读存储介质
CN112364699A (zh) * 2020-10-14 2021-02-12 珠海欧比特宇航科技股份有限公司 基于加权损失融合网络的遥感图像分割方法、装置及介质
CN112257728B (zh) * 2020-11-12 2021-08-17 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备以及存储介质
CN112329888B (zh) * 2020-11-26 2023-11-14 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备以及存储介质
CN112581450B (zh) * 2020-12-21 2024-04-16 北京工业大学 基于膨胀卷积金字塔与多尺度金字塔的花粉检测方法
CN112800834B (zh) * 2020-12-25 2022-08-12 温州晶彩光电有限公司 一种基于跪拜行为识别来定位炫彩射灯的方法及系统
CN112836710B (zh) * 2021-02-23 2022-02-22 浙大宁波理工学院 一种基于特征金字塔网络的房间布局估计获取方法与系统
KR102647320B1 (ko) * 2021-11-23 2024-03-12 숭실대학교산학협력단 객체 추적 장치 및 방법
CN114022657B (zh) * 2022-01-06 2022-05-24 高视科技(苏州)有限公司 一种屏幕缺陷分类方法、电子设备及存储介质
CN114724175B (zh) * 2022-03-04 2024-03-29 亿达信息技术有限公司 行人图像的检测网络、检测方法、训练方法、电子设备和介质
WO2024011281A1 (en) * 2022-07-11 2024-01-18 James Cook University A method and a system for automated prediction of characteristics of aquaculture animals
CN116738296B (zh) * 2023-08-14 2024-04-02 大有期货有限公司 机房状况综合智能监控系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04507027A (ja) * 1990-05-22 1992-12-03 インターナショナル・ビジネス・マシーンズ・コーポレーション Plan―ピラミッド型学習アーキテクチャ・ニューロコンピュータ
CN104866868A (zh) * 2015-05-22 2015-08-26 杭州朗和科技有限公司 基于深度神经网络的金属币识别方法和装置
CN106339680A (zh) * 2016-08-25 2017-01-18 北京小米移动软件有限公司 人脸关键点定位方法及装置
US9552510B2 (en) * 2015-03-18 2017-01-24 Adobe Systems Incorporated Facial expression capture for character animation
CN107909041A (zh) * 2017-11-21 2018-04-13 清华大学 一种基于时空金字塔网络的视频识别方法
CN108280455A (zh) * 2018-01-19 2018-07-13 北京市商汤科技开发有限公司 人体关键点检测方法和装置、电子设备、程序和介质
WO2018140596A2 (en) * 2017-01-27 2018-08-02 Arterys Inc. Automated segmentation utilizing fully convolutional networks
CN108764133A (zh) * 2018-05-25 2018-11-06 北京旷视科技有限公司 图像识别方法、装置及系统

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510257B (zh) * 2009-03-31 2011-08-10 华为技术有限公司 一种人脸相似度匹配方法及装置
CN101980290B (zh) * 2010-10-29 2012-06-20 西安电子科技大学 抗噪声环境多聚焦图像融合方法
CN102622730A (zh) * 2012-03-09 2012-08-01 武汉理工大学 基于非降采样Laplacian金字塔和BEMD的遥感图像融合处理方法
CN103049895B (zh) * 2012-12-17 2016-01-20 华南理工大学 基于平移不变剪切波变换的多模态医学图像融合方法
CN103279957B (zh) * 2013-05-31 2015-11-25 北京师范大学 一种基于多尺度特征融合的遥感图像感兴趣区域提取方法
CN103793692A (zh) * 2014-01-29 2014-05-14 五邑大学 低分辨率多光谱掌纹、掌静脉实时身份识别方法与系统
JP6474210B2 (ja) * 2014-07-31 2019-02-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 大規模画像データベースの高速検索手法
WO2016054779A1 (en) * 2014-10-09 2016-04-14 Microsoft Technology Licensing, Llc Spatial pyramid pooling networks for image processing
CN104346607B (zh) * 2014-11-06 2017-12-22 上海电机学院 基于卷积神经网络的人脸识别方法
CN104793620B (zh) * 2015-04-17 2019-06-18 中国矿业大学 基于视觉特征捆绑和强化学习理论的避障机器人
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
CN105184779B (zh) * 2015-08-26 2018-04-06 电子科技大学 一种基于快速特征金字塔的车辆多尺度跟踪方法
CN105912990B (zh) * 2016-04-05 2019-10-08 深圳先进技术研究院 人脸检测的方法及装置
GB2549554A (en) * 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image
US10032067B2 (en) * 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
US20170360411A1 (en) * 2016-06-20 2017-12-21 Alex Rothberg Automated image analysis for identifying a medical parameter
US10365617B2 (en) * 2016-12-12 2019-07-30 Dmo Systems Limited Auto defect screening using adaptive machine learning in semiconductor device manufacturing flow
CN108229490B (zh) * 2017-02-23 2021-01-05 北京市商汤科技开发有限公司 关键点检测方法、神经网络训练方法、装置和电子设备
CN106934397B (zh) * 2017-03-13 2020-09-01 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备
WO2018169639A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc Recognition in unlabeled videos with domain adversarial learning and knowledge distillation
CN108664981B (zh) * 2017-03-30 2021-10-26 北京航空航天大学 显著图像提取方法及装置
CN107194318B (zh) * 2017-04-24 2020-06-12 北京航空航天大学 目标检测辅助的场景识别方法
CN108229281B (zh) * 2017-04-25 2020-07-17 北京市商汤科技开发有限公司 神经网络的生成方法和人脸检测方法、装置及电子设备
CN108229497B (zh) * 2017-07-28 2021-01-05 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
CN108182384B (zh) * 2017-12-07 2020-09-29 浙江大华技术股份有限公司 一种人脸特征点定位方法及装置
CN108021923B (zh) * 2017-12-07 2020-10-23 上海为森车载传感技术有限公司 一种用于深度神经网络的图像特征提取方法
CN108229445A (zh) * 2018-02-09 2018-06-29 深圳市唯特视科技有限公司 一种基于级联金字塔网络的多人姿态估计方法
CN108664885B (zh) * 2018-03-19 2021-08-31 杭州电子科技大学 基于多尺度级联HourGlass网络的人体关键点检测方法
CN108520251A (zh) * 2018-04-20 2018-09-11 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN108596087B (zh) * 2018-04-23 2020-09-15 合肥湛达智能科技有限公司 一种基于双网络结果的驾驶疲劳程度检测回归模型
CN113569796A (zh) * 2018-11-16 2021-10-29 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04507027A (ja) * 1990-05-22 1992-12-03 インターナショナル・ビジネス・マシーンズ・コーポレーション Plan―ピラミッド型学習アーキテクチャ・ニューロコンピュータ
US9552510B2 (en) * 2015-03-18 2017-01-24 Adobe Systems Incorporated Facial expression capture for character animation
CN104866868A (zh) * 2015-05-22 2015-08-26 杭州朗和科技有限公司 基于深度神经网络的金属币识别方法和装置
CN106339680A (zh) * 2016-08-25 2017-01-18 北京小米移动软件有限公司 人脸关键点定位方法及装置
WO2018140596A2 (en) * 2017-01-27 2018-08-02 Arterys Inc. Automated segmentation utilizing fully convolutional networks
CN107909041A (zh) * 2017-11-21 2018-04-13 清华大学 一种基于时空金字塔网络的视频识别方法
CN108280455A (zh) * 2018-01-19 2018-07-13 北京市商汤科技开发有限公司 人体关键点检测方法和装置、电子设备、程序和介质
CN108764133A (zh) * 2018-05-25 2018-11-06 北京旷视科技有限公司 图像识别方法、装置及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023527615A (ja) * 2021-04-28 2023-06-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム

Also Published As

Publication number Publication date
CN113569796A (zh) 2021-10-29
US20200250462A1 (en) 2020-08-06
TWI720598B (zh) 2021-03-01
KR20200065033A (ko) 2020-06-08
SG11202003818YA (en) 2020-06-29
CN109614876B (zh) 2021-07-27
CN113591755B (zh) 2024-04-16
CN113569797A (zh) 2021-10-29
KR102394354B1 (ko) 2022-05-04
WO2020098225A1 (zh) 2020-05-22
CN113591750A (zh) 2021-11-02
CN113569798A (zh) 2021-10-29
CN113591754A (zh) 2021-11-02
CN109614876A (zh) 2019-04-12
CN113591754B (zh) 2022-08-02
JP6944051B2 (ja) 2021-10-06
CN113591755A (zh) 2021-11-02
TW202020806A (zh) 2020-06-01

Similar Documents

Publication Publication Date Title
JP6944051B2 (ja) キーポイント検出方法及び装置、電子機器並びに記憶媒体
JP7238141B2 (ja) 顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
CN111310764B (zh) 网络训练、图像处理方法及装置、电子设备和存储介质
JP7262659B2 (ja) 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体
JP6916970B2 (ja) ビデオ処理方法及び装置、電子機器並びに記憶媒体
KR102406354B1 (ko) 비디오 수복 방법 및 장치, 전자 기기 및 기억 매체
TWI706379B (zh) 圖像處理方法及裝置、電子設備和儲存介質
EP3057304B1 (en) Method and apparatus for generating image filter
JP7181375B2 (ja) 目標対象の動作認識方法、装置及び電子機器
JP2021518956A (ja) 画像処理方法及び装置、電子機器並びにコンピュータ可読記憶媒体
JP2021520561A (ja) テキスト認識
CN109145970B (zh) 基于图像的问答处理方法和装置、电子设备及存储介质
CN110188865B (zh) 信息处理方法及装置、电子设备和存储介质
JP2022516452A (ja) データ処理方法および装置、電子機器ならびに記憶媒体
CN110929616B (zh) 一种人手识别方法、装置、电子设备和存储介质
CN109903252B (zh) 图像处理方法及装置、电子设备和存储介质
CN109635926B (zh) 用于神经网络的注意力特征获取方法、装置及存储介质
CN113703704B (zh) 界面显示方法、头戴式显示设备和计算机可读介质
CN110837766A (zh) 手势识别方法、手势处理方法及装置
CN112734015B (zh) 网络生成方法及装置、电子设备和存储介质
CN111368748A (zh) 网络训练方法及装置、图像识别方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200401

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210909

R150 Certificate of patent or registration of utility model

Ref document number: 6944051

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250