JP2021508388A

JP2021508388A - キーポイント検出方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2021508388A
Application number: JP2020518758A
Authority: JP
Inventors: ▲楊▼昆霖; 田茂清; 伊▲帥▼
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-11-16
Filing date: 2019-04-22
Publication date: 2021-03-04
Anticipated expiration: 2039-04-22
Also published as: CN113569796A; US20200250462A1; TWI720598B; KR20200065033A; SG11202003818YA; CN109614876B; CN113591755B; CN113569797A; KR102394354B1; WO2020098225A1; CN113591750A; CN113569798A; CN113591754A; CN109614876A; CN113591754B; JP6944051B2; CN113591755A; TW202020806A

Abstract

入力画像に対する複数のスケールの第１特徴マップを取得するステップであって各第１特徴マップのスケールが倍数関係になるステップと、第１ピラミッドニューラルネットワークを用いて各第１特徴マップに順方向処理を行って各第１特徴マップに一対一に対応する第２特徴マップを取得するステップであって第２特徴マップのスケールがそれに一対一に対応する第１特徴マップと同じであるステップと、第２ピラミッドニューラルネットワークを用いて各第２特徴マップに逆方向処理を行って各第２特徴マップに一対一に対応する第３特徴マップを取得するステップであって第３特徴マップのスケールがそれに一対一に対応する第２特徴マップと同じであるステップと、各第３特徴マップに特徴融合処理を行い且つ特徴融合処理後の特徴マップを用いて入力画像内の各キーポイントの位置を取得するステップと、を含むキーポイント検出方法及び装置、電子機器並びに記憶媒体。

Description

（関連出願の相互参照）
本願は、出願番号が２０１８１１３６７８６９．４で、出願日が２０１８年１１月１６日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本願に組み込まれる。

本開示は、コンピュータビジョン技術に関し、特に、キーポイント検出方法及び装置、電子機器並びに記憶媒体に関する。

人体キーポイント検出は、人体画像から関節又は五官等のキーポイントの位置情報を検出し、これらのキーポイントの位置情報によって人体の姿勢を記述することである。

人体は画像において大きくなったり小さくなったりしているので、従来の技術では、一般的にニューラルネットワークを用いて画像のマルチスケール特徴を取得して、人体キーポイントの位置を最終的に予測することができる。しかしながら、このような方式を用いれば、マルチスケール特徴を完全に掘り出して利用することがまだできなく、キーポイントの検出精度が低いことが分かった。

本開示の実施例は、キーポイント検出精度を効果的に高めるキーポイント検出方法及び装置、電子機器並びに記憶媒体を提供する。

本開示の実施例の第１態様によれば、
入力画像に対する複数のスケールの第１特徴マップを取得するステップであって、各第１特徴マップのスケールが倍数関係になるステップと、第１ピラミッドニューラルネットワークを用いて各前記第１特徴マップに対して順方向処理を行って各前記第１特徴マップに一対一に対応する第２特徴マップを取得するステップであって、前記第２特徴マップのスケールがそれに一対一に対応する前記第１特徴マップと同じであるステップと、第２ピラミッドニューラルネットワークを用いて各前記第２特徴マップに対して逆方向処理を行って各前記第２特徴マップに一対一に対応する第３特徴マップを取得するステップであって、前記第３特徴マップのスケールがそれに一対一に対応する前記第２特徴マップと同じであるステップと、各前記第３特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップと、を含むキーポイント検出方法を提供する。

いくつかの可能な実施形態では、入力画像に対する複数のスケールの第１特徴マップを取得するステップは、前記入力画像を所定規格の第１画像に調整するステップと、前記第１画像を残差ニューラルネットワークに入力し、第１画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第１特徴マップを取得するステップと、を含む。

いくつかの可能な実施形態では、前記順方向処理は、第１畳み込み処理と第１線形補間処理を含み、前記逆方向処理は、第２畳み込み処理と第２線形補間処理を含む。

いくつかの可能な実施形態では、第１ピラミッドニューラルネットワークを用いて各前記第１特徴マップに対して順方向処理を行って各前記第１特徴マップに一対一に対応する第２特徴マップを取得するステップは、第１畳み込みカーネルを用いて第１特徴マップ

中の第１特徴マップ

に対して畳み込み処理を行って、第１特徴マップ

に対応する第２特徴マップ

を取得するステップであって、ｎが第１特徴マップの数量を示し、ｎが１より大きい整数であるステップと、前記第２特徴マップ

に対して線形補間処理を実行して第２特徴マップ

に対応する第１中間特徴マップ

を取得するステップであって、第１中間特徴マップ

のスケールが第１特徴マップＣ_ｎ−１のスケールと同じであるステップと、第２畳み込みカーネルを用いて第１特徴マップ

以外の各第１特徴マップ

に対して畳み込み処理を行って、第１特徴マップ

に一対一に対応する第２中間特徴マップ

をそれぞれ取得するステップであって、前記第２中間特徴マップのスケールがそれに一対一に対応する第１特徴マップのスケールと同じであるステップと、前記第２特徴マップ

及び各前記第２中間特徴マップ

に基づいて、第２特徴マップ

及び第１中間特徴マップ

を取得するステップであって、前記第２特徴マップ

が前記第２中間特徴マップ

と前記第１中間特徴マップ

に対して重畳処理を行って取得され、第１中間特徴マップ

が対応する第２特徴マップ

に対して線形補間を行って取得され、また、前記第２中間特徴マップ

と第１中間特徴マップ

のスケールが同じであり、ｉが１以上であり且つｎより小さい整数であるステップと、を含む。

いくつかの可能な実施形態では、第２ピラミッドニューラルネットワークを用いて各前記第２特徴マップに対して逆方向処理を行って各前記第２特徴マップに一対一に対応する第３特徴マップを取得するステップは、第３畳み込みカーネルを用いて第２特徴マップ

中の第２特徴マップ

に対して畳み込み処理を行って、第２特徴マップ

に対応する第３特徴マップ

を取得するステップであって、ｍが第２特徴マップの数量を示し、ｍが１より大きい整数であるステップと、第４畳み込みカーネルを用いて第２特徴マップ

に対して畳み込み処理を行って、対応する第３中間特徴マップ

をそれぞれ取得するステップであって、第３中間特徴マップのスケールが対応する第２特徴マップのスケールと同じであるステップと、
第５畳み込みカーネルを用いて第３特徴マップ

に対して畳み込み処理を行って第３特徴マップ

に対応する第４中間特徴マップ

を取得するステップと、各第３中間特徴マップ

及び第４中間特徴マップ

を用いて、第３特徴マップ

及び第４中間特徴マップ

を取得するステップであって、第３特徴マップ

が第３中間特徴マップ

と第４中間特徴マップ

の重畳処理により取得され、第４中間特徴マップ

が対応する第３特徴マップ

から第５畳み込みカーネルの畳み込み処理によって取得され、ｊが１より大きく且つｍ以下であるステップと、を含む。

いくつかの可能な実施形態では、各前記第３特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップは、各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得するステップと、前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップと、を含む。

いくつかの可能な実施形態では、各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得するステップは、線形補間の方式を用いて、各第３特徴マップを同じスケールの特徴マップに調整するステップと、前記同じスケールの特徴マップを接続して前記第４特徴マップを取得するステップと、を含む。

いくつかの可能な実施形態では、各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得する前に、第１組の第３特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第３特徴マップをそれぞれ取得するステップであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第３特徴マップが第１組の第３特徴マップと第２組の第３特徴マップを含み、前記第１組の第３特徴マップと前記第２組の第３特徴マップのいずれにも少なくとも１つの第３特徴マップを含むステップを更に含む。

いくつかの可能な実施形態では、各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得するステップは、線形補間の方式を用いて、各前記更新後の第３特徴マップ及び前記第２組の第３特徴マップを同じスケールの特徴マップに調整するステップと、前記同じスケールの特徴マップを接続して前記第４特徴マップを取得するステップと、を含む。

いくつかの可能な実施形態では、前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行うステップと、次元削減処理後の第４特徴マップを用いて入力画像のキーポイントの位置を決定するステップと、を含む。

いくつかの可能な実施形態では、前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行うステップと、畳み込みブロックアテンションモジュールを用いて次元削減処理後の第４特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得するステップと、純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するステップと、を含む。

いくつかの可能な実施形態では、前記方法は、トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングするステップを更に含み、前記トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングするステップは、第１ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第１特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第２特徴マップを取得するステップと、各第２特徴マップを用いて識別されるキーポイントを決定するステップと、第１損失関数により前記キーポイントの第１損失を取得するステップと、トレーニング回数が設定された第１回数閾値に到達するまで、前記第１損失を用いて前記第１ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む。

いくつかの可能な実施形態では、前記方法は、トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングするステップを更に含み、前記トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングするステップは、第２ピラミッドニューラルネットワークを用いて前記第１ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第２特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第３特徴マップを取得するステップと、各第３特徴マップを用いて識別されるキーポイントを決定するステップと、第２損失関数により識別される各キーポイントの第２損失を取得するステップと、トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第１ピラミッドネットワーク中の畳み込みカーネル及び第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む。

いくつかの可能な実施形態では、特徴抽出ネットワークによって各前記第３特徴マップに対する前記特徴融合処理を実行し、また、特徴抽出ネットワークによって各前記第３特徴マップに対する前記特徴融合処理を実行するステップの前に、前記方法は、トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップを更に含み、前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップは、特徴抽出ネットワークを用いて前記第２ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第３特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、第３損失関数により各キーポイントの第３損失を取得するステップと、トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失関数を用いて前記第１ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第２ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む。

本開示の実施例の第２態様によれば、入力画像に対する複数のスケールの第１特徴マップを取得するように構成されるマルチスケール特徴取得モジュールであって、各第１特徴マップのスケールが倍数関係になるマルチスケール特徴取得モジュールと、第１ピラミッドニューラルネットワークを用いて各前記第１特徴マップに対して順方向処理を行って各前記第１特徴マップに一対一に対応する第２特徴マップを取得するように構成される順方向処理モジュールであって、前記第２特徴マップのスケールがそれに一対一に対応する前記第１特徴マップと同じである順方向処理モジュールと、第２ピラミッドニューラルネットワークを用いて各前記第２特徴マップに対して逆方向処理を行って各前記第２特徴マップに一対一に対応する第３特徴マップを取得するように構成される逆方向処理モジュールであって、前記第３特徴マップのスケールがそれに一対一に対応する前記第２特徴マップと同じである逆方向処理モジュールと、各前記第３特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するように構成されるキーポイント検出モジュールと、を含むキーポイント検出装置を提供する。

いくつかの可能な実施形態では、前記マルチスケール特徴取得モジュールは、前記入力画像を所定規格の第１画像に調整し、且つ前記第１画像を残差ニューラルネットワークに入力し、第１画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第１特徴マップを取得するように構成される。

いくつかの可能な実施形態では、前記順方向処理モジュールは、第１畳み込みカーネルを用いて第１特徴マップ

中の第１特徴マップ

に対して畳み込み処理を行って、第１特徴マップ

に対応する第２特徴マップ

を取得し、ｎが第１特徴マップの数量を示し、ｎが１より大きい整数であり、前記第２特徴マップ

に対して線形補間処理を実行して第２特徴マップ

に対応する第１中間特徴マップ

を取得し、第１中間特徴マップ

のスケールが第１特徴マップＣ_ｎ−１のスケールと同じであり、第２畳み込みカーネルを用いて第１特徴マップ

以外の各第１特徴マップ

に対して畳み込み処理を行って、第１特徴マップ

に一対一に対応する第２中間特徴マップ

をそれぞれ取得し、前記第２中間特徴マップのスケールがそれに一対一に対応する第１特徴マップのスケールと同じであり、前記第２特徴マップ

及び各前記第２中間特徴マップ

に基づいて、第２特徴マップ

及び第１中間特徴マップ

を取得し、前記第２特徴マップ

が前記第２中間特徴マップ

と前記第１中間特徴マップ

に対して重畳処理を行って取得され、第１中間特徴マップ

が対応する第２特徴マップ

と第１中間特徴マップ

のスケールが同じであり、ｉが１以上であり且つｎより小さい整数であるように構成される。

いくつかの可能な実施形態では、前記逆方向処理モジュールは、第３畳み込みカーネルを用いて第２特徴マップ

中の第２特徴マップ

に対して畳み込み処理を行って、第２特徴マップ

に対応する第３特徴マップ

を取得し、ｍが第２特徴マップの数量を示し、ｍが１より大きい整数であり、第４畳み込みカーネルを用いて第２特徴マップ

をそれぞれ取得し、第３中間特徴マップのスケールが対応する第２特徴マップのスケールと同じであり、第５畳み込みカーネルを用いて第３特徴マップ

に対して畳み込み処理を行って第３特徴マップ

に対応する第４中間特徴マップ

を取得し、各第３中間特徴マップ

及び第４中間特徴マップ

を用いて、第３特徴マップ

及び第４中間特徴マップ

を取得し、第３特徴マップ

が第３中間特徴マップ

と第４中間特徴マップ

の重畳処理により取得され、第４中間特徴マップ

が対応する第３特徴マップ

から第５畳み込みカーネルの畳み込み処理によって取得され、ｊが１より大きく且つｍ以下であるように構成される。

いくつかの可能な実施形態では、前記キーポイント検出モジュールは、各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得し、且つ前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するように構成される。

いくつかの可能な実施形態では、前記キーポイント検出モジュールは、線形補間の方式を用いて、各第３特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第４特徴マップを取得するように構成される。

いくつかの可能な実施形態では、前記装置は、第１組の第３特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第３特徴マップをそれぞれ取得するように構成される最適化モジュールを更に含み、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第３特徴マップが第１組の第３特徴マップと第２組の第３特徴マップを含み、前記第１組の第３特徴マップと前記第２組の第３特徴マップのいずれにも少なくとも１つの第３特徴マップを含む。

いくつかの可能な実施形態では、前記キーポイント検出モジュールは、更に、線形補間の方式を用いて、各前記更新後の第３特徴マップ及び前記第２組の第３特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第４特徴マップを取得するように構成される。

いくつかの可能な実施形態では、前記キーポイント検出モジュールは、更に、第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行い、且つ次元削減処理後の第４特徴マップを用いて入力画像のキーポイントの位置を決定するように構成される。

いくつかの可能な実施形態では、前記キーポイント検出モジュールは、更に、第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行い、畳み込みブロックアテンションモジュールを用いて次元削減処理後の第４特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得し、且つ純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するように構成される。

いくつかの可能な実施形態では、前記順方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングすることは、第１ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第１特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第２特徴マップを取得するステップと、各第２特徴マップを用いて識別されるキーポイントを決定するステップと、第１損失関数により前記キーポイントの第１損失を取得するステップと、トレーニング回数が設定された第１回数閾値に到達するまで、前記第１損失を用いて前記第１ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む。

いくつかの可能な実施形態では、前記逆方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングすることは、第２ピラミッドニューラルネットワークを用いて前記第１ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第２特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第３特徴マップを取得するステップと、各第３特徴マップを用いて識別されるキーポイントを決定するステップと、第２損失関数により識別される各キーポイントの第２損失を取得するステップと、トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第１ピラミッドネットワーク中の畳み込みカーネル及び第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む。

いくつかの可能な実施形態では、前記キーポイント検出モジュールは、更に、特徴抽出ネットワークによって各前記第３特徴マップに対する前記特徴融合処理を実行するように構成され、また、特徴抽出ネットワークによって各前記第３特徴マップに対する前記特徴融合処理を実行するステップの前に、更にトレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングすることは、特徴抽出ネットワークを用いて前記第２ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第３特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、第３損失関数により各キーポイントの第３損失を取得するステップと、トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失関数を用いて前記第１ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第２ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む。

本開示の実施例の第３態様によれば、第１態様のいずれか一項に記載の方法を実行するように構成されるプロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含む電子機器を提供する。

本開示の実施例の第４態様によれば、コンピュータプログラムコマンドを記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に第１態様のいずれか一項に記載の方法が実現されるコンピュータ可読記憶媒体を提供する。

本開示の実施例は、双方向ピラミッドニューラルネットワークを用いてキーポイント特徴検出を実行することを提案し、ここで、順方向処理の方式を用いてマルチスケール特徴を取得すると共に、逆方向処理でより多くの特徴を融合し、それによってキーポイントの検出精度を更に高めることができる。

以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。

以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。

ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するために用いられる。
本開示の実施例に係るキーポイント検出方法のフローチャートを示す。本開示の実施例に係るキーポイント検出方法におけるステップＳ１００のフローチャートを示す。本開示の実施例のキーポイント検出方法の別のフローチャートを示す。本開示の実施例に係るキーポイント検出方法におけるステップＳ２００のフローチャートを示す。本開示の実施例に係るキーポイント検出方法におけるステップＳ３００のフローチャートを示す。本開示の実施例に係るキーポイント検出方法におけるステップＳ４００のフローチャートを示す。本開示の実施例に係るキーポイント検出方法におけるステップＳ４０１のフローチャートを示す。本開示の実施例に係るキーポイント検出方法の別のフローチャートを示す。本開示の実施例に係るキーポイント検出方法におけるステップＳ４０２のフローチャートを示す。本開示の実施例に係るキーポイント検出方法中の第１ピラミッドニューラルネットワークをトレーニングするフローチャートを示す。本開示の実施例に係るキーポイント検出方法中の第２ピラミッドニューラルネットワークをトレーニングするフローチャートを示す。本開示の実施例に係るキーポイント検出方法中の特徴抽出ネットワークモデルをトレーニングするフローチャートを示す。本開示の実施例に係るキーポイント検出装置のブロック図を示す。本開示の実施例に係る電子機器８００のブロック図を示す。本開示の実施例に係る電子機器１９００のブロック図を示す。

以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。

ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も他の実施例より優れたものと理解すべきではない。

本明細書の用語の「及び／又は」は、関連対象の関連関係を記述するためのものに過ぎず、３種の関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａが単独して存在し、ＡとＢが同時に存在し、Ｂが単独して存在するという３種の場合を示してもよい。また、本明細書の用語の「少なくとも１種」は多種のうちのいずれか１つ種又は多種のうちの少なくとも２種の任意の組合を示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１種を含むということは、Ａ、Ｂ及びＣから構成される集合から選択されるいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示の実施例をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示の実施例は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の実施例の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。

本開示の実施例はキーポイント検出方法を提供し、該方法は、人体画像のキーポイント検出を実行することに利用可能であり、２つのピラミッドネットワークモデルを用いてそれぞれキーポイントのマルチスケール特徴の順方向処理と逆方向処理を実行し、より多くの特徴情報を融合して、キーポイント位置検出の精度を高めることができる。

図１は本開示の実施例に係るキーポイント検出方法のフローチャートを示す。ここで、本開示の実施例のキーポイント検出方法は、以下のステップを含んでよい。

Ｓ１００：入力画像に対する複数のスケールの第１特徴マップを取得し、各第１特徴マップのスケールが倍数関係になる。

本開示の実施例は、入力画像のマルチスケール特徴を融合する方式で上記キーポイントの検出を実行する。まず入力画像の複数のスケールの第１特徴マップを取得してよく、各第１特徴マップはスケールが異なり、且つ各スケール同士が倍数の関係になる。本開示の実施例は、マルチスケール解析アルゴリズムを用いて入力画像の複数のスケールの第１特徴マップを取得してもよいし、マルチスケール解析を実行可能なニューラルネットワークモデルによって入力画像の複数のスケールの第１特徴マップを取得してもよく、本開示の実施例では具体的に限定されない。

Ｓ２００：第１ピラミッドニューラルネットワークを用いて各前記第１特徴マップに対して順方向処理を行って各前記第１特徴マップに一対一に対応する第２特徴マップを取得し、前記第２特徴マップのスケールがそれに一対一に対応する前記第１特徴マップと同じである。

本実施例では、順方向処理は、第１畳み込み処理及び第１線形補間処理を含んでよく、第１ピラミッドニューラルネットワークの順方向処理プロセスによって、対応する第１特徴マップのスケールと同じな第２特徴マップを取得でき、各第２特徴マップに更に入力画像の各特徴が融合されており、また、得られた第２特徴マップの数量が第１特徴マップと同じであり、且つ第２特徴マップのスケールが対応する第１特徴マップと同じである。例えば、本開示の実施例で得られた第１特徴マップはＣ_１、Ｃ_２、Ｃ_３及びＣ_４であってよく、対応する順方向処理後の第２特徴マップはＦ_１、Ｆ_２、Ｆ_３及びＦ_４であってよい。ここで、第１特徴マップＣ_１〜Ｃ_４のスケール関係については、Ｃ_１のスケールがＣ_２のスケールの２倍であり、Ｃ_２のスケールがＣ_３のスケールの２倍であり、Ｃ_３のスケールがＣ_４の２倍である時に、得られた第２特徴マップＦ_１〜Ｆ_４については、Ｆ_１がＣ_１のスケールと同じであり、Ｆ_２がＣ_２のスケールと同じであり、Ｆ_３がＣ_３のスケールと同じであり、Ｆ_４がＣ_４のスケールと同じであり、また、第２特徴マップＦ_１のスケールがＦ_２のスケールの２倍であり、Ｆ_２のスケールがＦ_３のスケールの２倍であり、Ｆ_３のスケールがＦ_４の２倍である。以上は第１特徴マップに対して順方向処理を行って取得した第２特徴マップについての例示的な説明に過ぎず、本開示を具体的に限定するものではない。

Ｓ３００：第２ピラミッドニューラルネットワークを用いて各第２特徴マップに対して逆方向処理を行って各前記第２特徴マップに一対一に対応する第３特徴マップを取得し、前記逆方向処理は第２畳み込み処理を含み、ここで、前記第３特徴マップのスケールがそれに一対一に対応する前記第２特徴マップと同じである。

本実施例では、逆方向処理は、第２畳み込み処理及び第２線形補間処理を含み、第２ピラミッドニューラルネットワークの逆方向処理プロセスによって、対応する第２特徴マップのスケールと同じな第３特徴マップを取得でき、各第３特徴マップは第２特徴マップと比べて更に入力画像の特徴が融合されており、また、得られた第３特徴マップの数量が第２特徴マップと同じであり、且つ第３特徴マップのスケールが対応する第２特徴マップと同じである。例えば、本開示の実施例で得られた第２特徴マップはＦ_１、Ｆ_２、Ｆ_３及びＦ_４であってよく、対応する逆方向処理後の第３特徴マップはＲ_１、Ｒ_２、Ｒ_３及びＲ_４であってよい。ここで、第２特徴マップＦ_１、Ｆ_２、Ｆ_３及びＦ_４のスケール関係については、Ｆ_１のスケールがＦ_２のスケールの２倍であり、Ｆ_２のスケールがＦ_３のスケールの２倍であり、Ｆ_３のスケールがＦ_４の２倍である時に、得られた第３特徴マップＲ_１〜Ｒ_４については、Ｒ_１がＦ_１のスケールと同じであり、Ｒ_２がＦ_２のスケールと同じであり、Ｒ_３がＦ_３のスケールと同じであり、Ｒ_４がＦ_４のスケールと同じであり、また、第３特徴マップＲ_１のスケールがＲ_２のスケールの２倍であり、Ｒ_２のスケールがＲ_３のスケールの２倍であり、Ｒ_３のスケールがＲ_４の２倍である。上記は第２特徴マップに対して逆方向処理を行って取得した第３特徴マップについての例示的な説明に過ぎず、本開示を具体的に限定するものではない。

Ｓ４００：各前記第３特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得する。

本開示の実施例では、各第１特徴マップに対して順方向処理を行って第２特徴マップを取得し、第２特徴マップの逆方向処理により第３特徴マップを取得した後、各第３特徴マップの特徴融合処理を実行することができる。例えば、本開示の実施例は対応する畳み込み処理の方式で各第３特徴マップの特徴融合を実現でき、第３特徴マップのスケールが異なる時に更にスケールの変換を実行してから特徴マップの結合及びキーポイントの抽出を実行することができる。

本開示の実施例は、入力画像の異なるキーポイントの検出を実行でき、例えば、入力画像が人物画像である時に、キーポイントは左右の目、鼻、左右の耳、左右の肩、左右の肘、左右の手首、左右の腰臀部、左右のひざ、左右の踝のうちの少なくとも１種であってよく、又は他の実施例では、入力画像が他の種類の画像であってもよく、キーポイント検出を実行する時に、他のキーポイントを識別できる。従って、本開示の実施例は第３特徴マップの特徴融合結果により更にキーポイントの検出識別を実行できる。

上記構成によれば、本開示の実施例は、双方向ピラミッドニューラルネットワーク（第１ピラミッドニューラルネットワーク及び第２ピラミッドニューラルネットワーク）によってそれぞれ第１特徴マップに基づいて順方向処理及び更なる逆方向処理を実行して、入力画像の特徴融合度を効果的に高め、更にキーポイントの検出精度を高めることができる。以上に示すように、本開示の実施例は、まず、人物画像、風景画像、動物画像等のような任意の画像種類であってよい入力画像を取得してよい。異なる種類の画像については、異なるキーポイントを識別可能である。例えば、本開示の実施例では人物画像を例にして説明する。まずステップＳ１００によって入力画像の複数の異なるスケールの第１特徴マップを取得してよい。図２は本開示の実施例に係るキーポイント検出方法におけるステップＳ１００のフローチャートを示す。ここで、入力画像に対する異なるスケールの第１特徴マップを取得するステップ（ステップＳ１００）には以下のステップを含んでよい。

Ｓ１０１：前記入力画像を所定規格の第１画像に調整する。

本開示の実施例はまず入力画像のサイズ規格を正規化させてよく、即ち、まず入力画像を所定規格の第１画像に調整してよく、ここで、本開示の実施例中の所定規格は２５６ｐｉｘ＊１９２ｐｉｘであってよく、ｐｉｘが画素値であり、他の実施例では、入力画像を他の規格の画像に統一的に変換してよく、本開示の実施例では具体的に限定されない。

Ｓ１０２：前記第１画像を残差ニューラルネットワークに入力し、第１画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して異なるスケールの第１特徴マップを取得する。

所定規格の第１画像を取得した後、該第１画像に対して複数のサンプリング周波数のサンプリング処理を実行してよい。例えば、本開示の実施例は、第１画像を残差ニューラルネットワークに入力することで、残差ニューラルネットワークの処理によって第１画像に対する異なるスケールの第１特徴マップを取得することができる。ここで、異なるサンプリング周波数で第１画像に対してダウンサンプリング処理を行って異なるスケールの第１特徴マップを取得することができる。本開示の実施例のサンプリング周波数は１／８、１／１６、１／３２等であってよいが、本開示の実施例では限定されない。また、本開示の実施例中の特徴マップとは画像の特徴行列を指し、例えば、本開示の実施例の特徴行列が３次元行列であってよく、本開示の実施例に記載の特徴マップの長さと幅がそれぞれ対応する特徴行列の行方向と列方向上の次元であってよい。

ステップＳ１００によって処理した後入力画像の複数の異なるスケールの第１特徴マップが得られる。また、ダウンサンプリングのサンプリング周波数を制御することによって、各第１特徴マップ同士のスケール関係を

にすることができ、ただし、

は各第１特徴マップを示し、

は第１特徴マップ

の長さを示し、

は第１特徴マップ

の幅を示し、

は１以上の整数であり、ｉは変数であり、且つｉの範囲は［２，ｎ］であり、ｎは第１特徴マップの数量である。即ち、本開示の実施例中の各第１特徴マップの長さ及び幅の間の関係はいずれも２のｋ_１乗倍である。

図３は本開示の実施例のキーポイント検出方法の別のフローチャートを示す。ここで、（ａ）部分は本開示の実施例のステップＳ１００のプロセスを示し、ステップＳ１００によって４つの第１特徴マップ

を取得でき、ここで、第１特徴マップ

の長さと幅はそれぞれ対応的に第１特徴マップ

の長さと幅の２倍であってよく、第２特徴マップ

の長さと幅はそれぞれ対応的に第３特徴マップ

の長さと幅の２倍であってよく、第３特徴マップ

の長さと幅はそれぞれ対応的に第４特徴マップ

の長さと幅の２倍であってよい。本開示の実施例では、上記

の間のスケール倍数は同じであってよく、例えば、ｋ_１の値が１である。他の実施例では、ｋ_１は異なる値であってよく、例えば、第１特徴マップ

の長さと幅はそれぞれ対応的に第１特徴マップ

の長さと幅の２倍であってよく、第２特徴マップ

の長さと幅はそれぞれ対応的に第３特徴マップ

の長さと幅の４倍であってよく、第３特徴マップ

の長さと幅はそれぞれ対応的に第４特徴マップ

の長さと幅の８倍であってよいが、本開示の実施例では限定されない。

入力画像の異なるスケールの第１特徴マップを取得した後、ステップＳ２００によって第１特徴マップの順方向処理プロセスを実行して、各第１特徴マップの特徴を融合した複数の異なるスケールの第２特徴マップを取得してよい。

図４は本開示の実施例に係るキーポイント検出方法におけるステップＳ２００のフローチャートを示す。ここで、第１ピラミッドニューラルネットワークを用いて各前記第１特徴マップに対して順方向処理を行って各前記第１特徴マップに一対一に対応する第２特徴マップを取得する前記ステップ（ステップＳ２００）には以下のステップを含む。

Ｓ２０１：第１畳み込みカーネルを用いて第１特徴マップ

中の第１特徴マップ

に対して畳み込み処理を行って、第１特徴マップ

に対応する第２特徴マップ

を取得し、ここで、ｎが第１特徴マップの数量を示し、ｎが１より大きい整数であり、また、第１特徴マップ

の長さと幅がそれぞれ第２特徴マップ

の長さと幅と対応的に同じである。

本開示の実施例中の第１ピラミッドニューラルネットワークにより実行される順方向処理は、第１畳み込み処理及び第１線形補間処理を含んでもよいし、他の処理プロセスを含んでもよく、本開示の実施例では限定されない。

可能な一実施形態では、本開示の実施例で取得された第１特徴マップは

、
即ちｎ個の第１特徴マップであってよく、

は長さと幅が最も小さい特徴マップ、即ちスケールが最も小さい第１特徴マップであってよい。ここで、まず第１ピラミッドニューラルネットワークを用いて第１特徴マップ

に対して畳み込み処理を行ってよく、即ち、第１畳み込みカーネルを用いて第１特徴マップ

に対して畳み込み処理を行って、第２特徴マップ

を取得する。該第２特徴マップ

は、長さと幅がそれぞれ第１特徴マップ

の長さと幅と同じである。ここで、第１畳み込みカーネルは３＊３の畳み込みカーネルであってもよいし、他の種類の畳み込みカーネルであってもよい。

Ｓ２０２：前記第２特徴マップ

に対して線形補間処理を実行して第２特徴マップ

に対応する第１中間特徴マップ

を取得し、ここで、第１中間特徴マップ

のスケールが第１特徴マップＣ_ｎ−１のスケールと同じである。

第２特徴マップ

を取得した後、該第２特徴マップ

を用いてそれに対応する第１中間特徴マップ

を取得でき、本開示の実施例は、第２特徴マップ

に対して線形補間処理を実行することで第２特徴マップ

に対応する第１中間特徴マップ

を取得することができ、ここで、第１中間特徴マップ

のスケールが第１特徴マップＣ_ｎ−１のスケールと同じであり、例えば、Ｃ_ｎ−１のスケールがＣ_ｎのスケールの２倍である時に、第１中間特徴マップ

の長さが第２特徴マップ

の長さの２倍であり、第１中間特徴マップ

の幅が第２特徴マップ

の幅の２倍である。

Ｓ２０３：第２畳み込みカーネルを用いて第１特徴マップ

以外の各第１特徴マップ

に対して畳み込み処理を行って、第１特徴マップ

に一対一に対応する第２中間特徴マップ

をそれぞれ取得し、ここで、前記第２中間特徴マップのスケールがそれに一対一に対応する第１特徴マップのスケールと同じである。

また、本開示の実施例は、更に第１特徴マップ

以外の各第１特徴マップ

に対応する第２中間特徴マップ

を取得でき、ここで、第２畳み込みカーネルを用いて第１特徴マップ

に対してそれぞれ第２畳み込み処理を行って、各第１特徴マップ

に一対一に対応する第２中間特徴マップ

をそれぞれ取得することができ、ここで、第２畳み込みカーネルは１＊１の畳み込みカーネルであってよいが、本開示では具体的に限定されない。第２畳み込みの処理によって得られた各第２中間特徴マップは、スケールがそれぞれ対応する第１特徴マップのスケールと同じである。ここで、本開示の実施例は、第１特徴マップ

の逆順序によって、各第１特徴マップ

の第２中間特徴マップ

を取得することができる。即ち、第１特徴マップ

に対応する第２中間マップ

を取得してから第１特徴マップ

に対応する第２中間マップ

を取得し、このように類推して、第１特徴マップ

に対応する第２中間特徴マップ

が取得されるまで処理するようにしてよい。

Ｓ２０４：前記第２特徴マップ

及び各前記第２中間特徴マップ

に基づいて、第２特徴マップ

及び第１中間特徴マップ

を取得し、ここで、第１特徴マップ

中の第１特徴マップ

に対応する第２特徴マップ

が第２中間特徴マップ

と第１中間特徴マップ

に対して重畳処理（加算処理）を行って取得され、第１中間特徴マップ

が対応する第２特徴マップ

のスケールが第１中間特徴マップ

と同じであり、ここで、ｉが１以上であり且つｎより小さい整数である。

また、各第２中間特徴マップを取得すると同時に、又は各第２中間特徴マップを取得した後、更に第１中間特徴マップ

以外の他の第１中間特徴マップ

を対応的に取得することができ、本開示の実施例では、第１特徴マップ

中の第１特徴マップ

に対応する第２特徴マップ

において、第２中間特徴マップ

のスケール（長さと幅）がそれぞれ第１中間特徴マップ

のスケール（長さと幅）と等しく、第２中間特徴マップ

の長さと幅が第１特徴マップＣ_ｉの長さと幅と同じであり、従って、得られた第２特徴マップ

の長さと幅がそれぞれ第１特徴マップＣ_ｉの長さと幅である。ここで、ｉが１以上であり且つｎより小さい整数である。

具体的には、本開示の実施例は依然として逆順序の処理方式を用いて第２特徴マップＦ_ｎ以外の各第２特徴マップ

を取得することができる。即ち、本開示の実施例はまず第１中間特徴マップ

を取得でき、ここで、第１特徴マップ

に対応する第２中間マップ

と第１中間特徴マップ

に対して重畳処理を行うことで第２特徴マップＦ_ｎ−１を取得することができ、ここで、第２中間特徴マップ

の長さと幅がそれぞれ第１中間特徴マップ

の長さと幅と同じであり、第２特徴マップＦ_ｎ−１の長さと幅が第２中間特徴マップ

の長さと幅である。この時に第２特徴マップＦ_ｎ−１の長さと幅がそれぞれ第２特徴マップＦ_ｎの長さと幅の２倍である（Ｃ_ｎ−１のスケールがＣ_ｎのスケールの２倍である）。更に、第２特徴マップＦ_ｎ−１に対して線形補間処理を行って第１中間特徴マップ

を取得して、

のスケールをＣ_ｎ−１のスケールと同じにすることができ、次に、第１特徴マップ

に対応する第２中間マップ

と第１中間特徴マップ

に対して重畳処理を行うことで第２特徴マップＦ_ｎ−２を取得することができ、ここで、第２中間特徴マップ

の長さと幅がそれぞれ第１中間特徴マップ

の長さと幅と同じであり、第２特徴マップＦ_ｎ−２の長さと幅が第２中間特徴マップ

の長さと幅である。例えば、第２特徴マップＦ_ｎ−２の長さと幅がそれぞれ第２特徴マップＦ_ｎ−１の長さと幅の２倍である。このように類推して、最終的に第１中間特徴マップ

を取得し、該第１中間特徴マップ

と第１特徴マップ

の重畳処理により第２特徴マップＦ_１を取得することができ、Ｆ_１の長さと幅がそれぞれＣ_１の長さと幅と同じである。それによって各第２特徴マップが取得され、

が満たされ、

である。

例えば、上記４つの第１特徴マップ

を例として説明する。図３に示すように、ステップＳ２００では、第１ピラミッドニューラルネットワーク（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋ−−ＦＰＮ）を用いてマルチスケールの第２特徴マップを取得することができる。ここで、まず

に対して３＊３の第１畳み込みカーネルにより計算して新しい特徴マップＦ_４（第２特徴マップ）を取得することができ、Ｆ_４の長さと幅が

と同じである。Ｆ_４に対して双線形補間のアップサンプリング（ｕｐｓａｍｐｌｅ）操作を行って、長さと幅がいずれも２倍拡大した特徴マップ、即ち第１中間特徴マップ

を取得する。Ｃ_３に対して１＊１の第２畳み込みカーネルにより計算して第２中間特徴マップ

と同じであり、２つの特徴マップをプラスして新しい特徴マップＦ_３（第２特徴マップ）を取得して、第２特徴マップＦ_３の長さと幅がそれぞれ第２特徴マップＦ_４の２倍になる。Ｆ_３に対して双線形補間のアップサンプリング（ｕｐｓａｍｐｌｅ）操作を行って、長さと幅がいずれも２倍拡大した特徴マップ、即ち第１中間特徴マップ

を取得する。Ｃ_２に対して１＊１の第２畳み込みカーネルによって計算して第２中間特徴マップ

と同じであり、２つの特徴マップをプラスして新しい特徴マップＦ_２（第２特徴マップ）を取得して、第２特徴マップＦ_２の長さと幅がそれぞれ第２特徴マップＦ_３の２倍になる。Ｆ_２に対して双線形補間のアップサンプリング（ｕｐｓａｍｐｌｅ）操作を行って、長さと幅がいずれも２倍拡大した特徴マップ、即ち第１中間特徴マップ

を取得する。Ｃ_１に対して１＊１の第２畳み込みカーネルにより計算して第２中間特徴マップ

と同じであり、２つの特徴マップをプラスして新しい特徴マップＦ_２（第２特徴マップ）を取得して、第２特徴マップＦ_１の長さと幅がそれぞれ第２特徴マップＦ_２の２倍になる。ＦＰＮの後、同様に４つの異なるスケールの第２特徴マップが取得され、それぞれＦ_１、Ｆ_２、Ｆ_３及びＦ_４で示される。また、Ｆ_１とＦ_２の間の長さ及び幅の倍数がＣ_１とＣ_２の間の長さ及び幅の倍数と同じであり、Ｆ_２とＦ_３の間の長さ及び幅の倍数がＣ_２とＣ_３の間の長さ及び幅の倍数と同じであり、Ｆ_３とＦ_４の間の長さ及び幅の倍数がＣ_３とＣ_４の間の長さ及び幅の倍数と同じである。

上記ピラミッドネットワークモデルの順方向処理の後、各第２特徴マップにより多くの特徴を融合させることが可能になり、特徴の抽出精度を更に高めるために、本開示の実施例は、ステップＳ２００の後、更に第２ピラミッドニューラルネットワークを用いて各第２特徴マップに対して逆方向処理を実行する。ここで、逆方向処理は、第２畳み込み処理及び第２線形補間処理を含んでよく、同様に、他の処理を含んでもよく、本開示の実施例では具体的に限定されない。

図５は本開示の実施例に係るキーポイント検出方法におけるステップＳ３００のフローチャートを示す。ここで、第２ピラミッドニューラルネットワークを用いて各第２特徴マップに対して逆方向処理を行って異なるスケールの第３特徴マップ

を取得する前記ステップ（ステップＳ３００）には以下のステップを含んでよい。

Ｓ３０１：第３畳み込みカーネルを用いて

中の第２特徴マップ

に対して畳み込み処理を行って、第２特徴マップ

に対応する第３特徴マップ

を取得し、ここで、第３特徴マップ

の長さと幅がそれぞれ第１特徴マップ

の長さと幅と対応的に同じであり、ここで、ｍが第２特徴マップの数量を示し、ｍが１より大きい整数であり、この時にｍが第１特徴マップの数量ｎと同じである。

逆方向処理のプロセスで、まず長さと幅が最も大きい第２特徴マップＦ_１から逆方向処理を行ってよく、例えば、第３畳み込みカーネルを用いて該第２特徴マップＦ_１に対して畳み込み処理を行うことによって、長さと幅がそれぞれＦ_１と同じである第３中間特徴マップＲ_１を取得することができる。ここで、第３畳み込みカーネルは３＊３の畳み込みカーネルであってもよいし、他の種類の畳み込みカーネルであってもよく、当業者であれば必要に応じて所望の畳み込みカーネルを選択できる。

Ｓ３０２：第４畳み込みカーネルを用いて第２特徴マップ

をそれぞれ取得し、ここで、第３中間特徴マップのスケールが対応する第２特徴マップのスケールと同じである。

第３特徴マップＲ_１を取得した後、第４畳み込みカーネルを用いて第２特徴マップＦ_１以外の各第２特徴マップ

に対してそれぞれ畳み込み処理を実行し、対応する第３中間特徴マップ

を取得することができる。ステップＳ３０２で、第２特徴マップＦ_１以外の第２特徴マップ

に対して第４畳み込みカーネルによって畳み込み処理を行うことができ、ここで、まずＦ_２に対して畳み込み処理を行って対応する第３中間特徴マップ

を取得してよく、次にＦ_３に対して畳み込み処理を行って対応する第３中間特徴マップ

を取得してよく、このように類推して、第２特徴マップＦ_ｍに対応する第３中間特徴マップ

を取得する。ここで、本開示の実施例では、各第３中間特徴マップ

の長さと幅は対応する第２特徴マップ

の長さと幅であってよい。

Ｓ３０３：第５畳み込みカーネルを用いて第３特徴マップ

に対して畳み込み処理を行って第３特徴マップ

に対応する第４中間特徴マップ

を取得する。

に対してそれぞれ畳み込み処理を実行して対応する第３中間特徴マップ

の長さと幅は対応する第２特徴マップ

の長さと幅の半分であってよい。

Ｓ３０４：各第３中間特徴マップ

及び第４中間特徴マップ

を用いて第３特徴マップ

を取得し、ここで、第３特徴マップ

が第３中間特徴マップ

と第４中間特徴マップ

の重畳処理により取得され、第４中間特徴マップ

が対応する第３特徴マップ

から第５畳み込みカーネルの畳み込み処理によって取得され、ここで、ｊが１より大きく且つｍ以下である。

ステップＳ３０１を実行した後、又はＳ３０２を実行した後、更に第５畳み込みカーネルを用いて第３特徴マップＲ_１に対して畳み込み処理を行って第３特徴マップＲ_１に対応する第４中間特徴マップ

を取得することもできる。ここで、第４中間特徴マップ

の長さと幅が第２特徴マップＦ_２の長さと幅である。

また、更にステップＳ３０２で得られた第３中間特徴マップ

及びステップＳ３０３で得られた第４中間特徴マップ

を用いて、第３特徴マップ

以外の第３特徴マップ

を取得してよい。ここで、第３特徴マップ

以外の各第３特徴マップ

が第３中間特徴マップ

と第４中間特徴マップ

の重畳処理により取得される。

具体的には、ステップＳ３０４で、それぞれ対応する第３中間特徴マップ

と第４中間特徴マップ

に対して重畳処理を行うことで第３特徴マップ

以外の各第３特徴マップ

を取得することができる。ここで、まず第３中間特徴マップ

と第４中間特徴マップ

の加算結果により第３特徴マップＲ_２を取得してよい。次に、第５畳み込みカーネルを用いてＲ_２に対して畳み込み処理を行って第４中間特徴マップ

を取得し、第３中間特徴マップ

と第４中間特徴マップ

の間の加算結果によって第３特徴マップＲ_３を取得する。このように類推して、更に残りの第４中間特徴マップ

及び第３特徴マップＲ_４…Ｒ_ｍを取得することができる。

また、本開示の実施例では、得られた各第４中間特徴マップ

の長さと幅がそれぞれ第２特徴マップＦ_２の長さと幅と同じである。また、第４中間特徴マップ

の長さと幅がそれぞれ第４中間特徴マップ

の長さと幅と同じである。それによって、得られた第３特徴マップＲ_ｊの長さと幅がそれぞれ第２特徴マップＦ_ｉの長さと幅であり、更に各第３特徴マップＲ_１…Ｒｎの長さと幅がそれぞれ対応的に第１特徴マップＣ_１…Ｃ_ｎの長さと幅と等しい。

以下、例を挙げて逆方向処理のプロセスを説明する。図３に示すように、更に第２特徴ピラミッドネットワーク（ＲｅｖｅｒｓｅＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋ−−ＲＦＰＮ）を用いてマルチスケール特徴を更に最適化する。第２特徴マップＦ_１に対して３＊３の畳み込みカーネル（第３畳み込みカーネル）により処理して新しい特徴マップＲ_１（第３特徴マップ）を取得し、Ｒ_１の長さと幅がＦ_１と同じである。特徴マップＲ_１に対して、畳み込みカーネルが３＊３（第５畳み込みカーネル）でストライド（ｓｔｒｉｄｅ）が２である畳み込み計算を行って新しい特徴マップを取得し、

で示し、

の長さと幅がそれぞれＲ_１の半分であってよい。第２特徴マップＦ_２に対して３＊３の畳み込みカーネル（第４畳み込みカーネル）によって計算して新しい特徴マップを取得し、

で示す。

の大きさが同じであり、

をプラスして新しい特徴マップＲ_２を取得する。Ｒ_２とＦ_３に対してＲ_１とＦ_２の操作を繰り返して実行して、新しい特徴マップＲ_３を取得する。Ｒ_３とＦ_４に対してＲ_１とＦ_２の操作を繰り返して実行して、新しい特徴マップＲ_４を取得する。ＲＦＰＮの後、同様に４つの異なるスケールの特徴マップが取得され、それぞれＲ_１、Ｒ_２、Ｒ_３及びＲ_４で示される。同様に、Ｒ_１とＲ_２の間の長さ及び幅の倍数がＣ_１とＣ_２の間の長さ及び幅の倍数と同じであり、Ｒ_２とＲ_３の間の長さ及び幅の倍数がＲ_２とＲ_３の間の長さ及び幅の倍数と同じであり、Ｒ_３とＲ_４の間の長さ及び幅の倍数がＣ_３とＣ_４の間の長さ及び幅の倍数と同じである。

上記構成によれば、第２ピラミッドネットワークモデルの逆方向処理で得られる第３特徴マップＲ_１…Ｒｎを取得でき、順方向と逆方向処理といった２つの処理プロセスは画像の融合の特徴を更に高めることができ、各第３特徴マップに基づいて特徴点を精確に識別できる。

ステップＳ３００の後、各第３特徴マップＲ_ｉ-の特徴融合結果により入力画像の各キーポイントの位置を取得することができる。ここで、図６は本開示の実施例に係るキーポイント検出方法におけるステップＳ４００のフローチャートを示す。ここで、各前記第３特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得する前記ステップ（ステップＳ４００）には以下のステップを含んでよい。

Ｓ４０１：各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得する。

本開示の実施例では、各スケールの第３特徴マップＲ_１．．．Ｒ_ｎを取得した後、各第３特徴マップに対して特徴融合を行ってよく、本開示の実施例で各第３特徴マップの長さと幅が異なるので、Ｒ_２…Ｒ_ｎに対してそれぞれ線形補間処理を行って、最終的に各第３特徴マップＲ_２…Ｒ_ｎの長さと幅を第３特徴マップＲ_１の長さと幅と同じにするようにしてよい。次に処理後の第３特徴マップを組み合わせて第４特徴マップを形成してよい。

Ｓ４０２：前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得する。

第４特徴マップを取得した後、第４特徴マップに対して次元削減処理を行ってよく、例えば、畳み込み処理によって第４特徴マップに対して次元削減を行い、且つ次元削減後の特徴マップを用いて入力画像の特徴点の位置を識別するようにしてよい。

図７は本開示の実施例に係るキーポイント検出方法におけるステップＳ４０１のフローチャートを示し、ここで、各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得する前記ステップ（ステップＳ４０１）には、以下のステップを含んでよい。

Ｓ４０１２：線形補間の方式を用いて、各第３特徴マップを同じスケールの特徴マップに調整する。

本開示の実施例で取得された各第３特徴マップＲ_１．．．Ｒ_ｎのスケールが異なるので、まず各第３特徴マップを同じスケールの特徴マップに調整することが必要とされ、ここで、本開示の実施例は各第３特徴マップに対して異なる線形補間処理を実行して各特徴マップのスケールを同じにすることができ、ここで線形補間の倍数は各第３特徴マップ同士のスケール倍数に関連するものであってよい。

Ｓ４０１３：線形補間処理後の各特徴マップを接続して前記第４特徴マップを取得する。

同じスケールの各特徴マップを取得した後、各特徴マップを組み合わせて第４特徴マップを取得することができ、例えば、本開示の実施例の各補間処理後の特徴マップは、長さと幅がそれぞれ同じであり、高さ方向に接続して第４特徴マップを取得することができ、例えば、Ｓ４０１２で処理された後の各特徴マップをＡ、Ｂ、Ｃ及びＤで示してよく、得られた第４特徴マップは

であってよい。

また、ステップＳ４０１の前に、本開示の実施例では小さいスケールの特徴を最適化するために、長さと幅が小さい第３特徴マップを更に最適化してよく、この部分の特徴に対して更なる畳み込み処理を行ってよい。図８は本開示の実施例に係るキーポイント検出方法の別のフローチャートを示し、ここで、各第３特徴マップに対して特徴融合処理を行って第４特徴マップを取得する前に、以下のステップを更に含んでよい。

Ｓ４０１１：第１組の第３特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第３特徴マップをそれぞれ対応的に取得し、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、ここで、前記第３特徴マップが第１組の第３特徴マップと第２組の第３特徴マップを含み、前記第１組の第３特徴マップと前記第２組の第３特徴マップのいずれにも少なくとも１つの第３特徴マップを含む。

上記のとおり、小さいスケールの特徴マップ内の特徴を最適化するために、小さいスケールの特徴マップに対して更に畳み込み処理を行ってよく、ここで、第３特徴マップＲ_１…Ｒ_ｍを２組に分けてよく、第１組の第３特徴マップのスケールが第２組の第３特徴マップのスケールより小さい。それに対して、第１組の第３特徴マップ内の各第３特徴マップをそれぞれ異なるボトルネックブロック構成内に入力し、更新後の第３特徴マップを取得するようにしてよく、該ボトルネックブロック構成内には少なくとも１つの畳み込みモジュールを含んでよく、異なるボトルネックブロック構成中の畳み込みモジュールの数量が異なってよく、ここで、ボトルネックブロック構成による畳み込み処理を行って得られた特徴マップの大きさが入力前の第３特徴マップの大きさと同じである。

ここで、第３特徴マップの数量の特定の割合値で該第１組の第３特徴マップを決定してよい。例えば、特定の割合が５０％であってよく、即ち、各第３特徴マップのうち、小さいスケールの半分の第３特徴マップを第１組の第３特徴マップとして異なるボトルネックブロック構成に入力して特徴最適化処理を行うようにしてよい。該特定の割合は他の割合値であってもよく、本開示では限定されない。又は、別の可能な実施例では、スケール閾値でボトルネックブロック構成に入力するこの第１組の第３特徴マップを決定してよい。該スケール閾値より小さい特徴マップがボトルネックブロック構成に入力されて特徴最適化処理を行われるものであると決定する。スケール閾値は各特徴マップのスケールにより決定されてよく、本開示の実施例では具体的に限定されない。

また、ボトルネックブロック構成の選択については、本開示の実施例で具体的に限定されなく、ここで、畳み込みモジュールの形態は必要に応じて選択可能である。

Ｓ４０１２：線形補間の方式を用いて、更新後の第３特徴マップ及び第２組の第３特徴マップを同じスケールの特徴マップに調整する。

ステップＳ４０１１を実行した後、最適化後の第１組の第３特徴マップ及び第２組の第３特徴のスケールを正規化させ、即ち各特徴マップを同じサイズの特徴マップに調整することができる。本開示の実施例は、各Ｓ４０１１で最適化した後の第３特徴マップ及び第２組の第３特徴マップに対してそれぞれ対応する線形補間処理を実行することで、同じ大きさの特徴マップを取得する。

本開示の実施例では、図３に示す（ｄ）部分において、小さいスケールの特徴を最適化するために、Ｒ_２、Ｒ_３及びＲ_４の後に異なる数のボトルネックブロック（ｂｏｔｔｌｅｎｅｃｋｂｌｏｃｋ）構成が接続され、Ｒ_２の後に１つのｂｏｔｔｌｅｎｅｃｋｂｌｏｃｋが接続された後新しい特徴マップが得られ、

で示され、Ｒ_３の後に２つのｂｏｔｔｌｅｎｅｃｋｂｌｏｃｋが接続された後新しい特徴マップが得られ、

で示され、Ｒ_４の後に３つのｂｏｔｔｌｅｎｅｃｋｂｌｏｃｋが接続された後新しい特徴マップが得られ、

で示される。融合を行うために、４つの特徴マップ

の大きさを一致にする必要があるので、

に対して双線形補間のアップサンプリング（ｕｐｓａｍｐｌｅ）操作を行って２倍拡大して特徴マップ

に対して双線形補間のアップサンプリング（ｕｐｓａｍｐｌｅ）操作を行って４倍拡大して特徴マップ

に対して双線形補間のアップサンプリング（ｕｐｓａｍｐｌｅ）操作を行って８倍拡大して特徴マップ

を取得する。この時に、

はスケールが同じである。

Ｓ４０１３：各同じスケールの特徴マップを接続して前記第４特徴マップを取得する。

ステップＳ４０１２の後、同じスケールの特徴マップを接続してよく、例えば、上記４つの特徴マップを接続（ｃｏｎｃａｔ）して取得された新しい特徴マップが第４特徴マップとなり、例えば、

といった４つの特徴マップがいずれも２５６次元であり、得られた第４特徴マップが１０２４次元であってよい。

上記の異なる実施例中の構成によれば、対応する第４特徴マップを取得でき、第４特徴マップを取得した後、第４特徴マップにより入力画像のキーポイント位置を取得することができる。ここで、直接第４特徴マップに対して次元削減処理を行い、次元削減処理後の特徴マップを用いて入力画像のキーポイントの位置を決定することができる。別の些実施例では、更に次元削減後の特徴マップに対して純化処理を行って、キーポイントの精度を更に高めることが可能である。図９は本開示の実施例に係るキーポイント検出方法におけるステップＳ４０２のフローチャートを示し、前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得する前記ステップには以下のステップを含んでよい。

Ｓ４０２１：第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行う。

本開示の実施例では、次元削減処理を実行する形態は畳み込み処理であってよく、即ち、特定の畳み込みモジュールを用いて第４特徴マップに対して畳み込み処理を行って、第４特徴マップの次元削減を実現して、例えば２５６次元の特徴マップを取得する。

Ｓ４０２２：畳み込みブロックアテンションモジュールを用いて次元削減処理後の第４特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得する。

次に、更に畳み込みブロックアテンションモジュールを用いて次元削減処理後の第４特徴マップに対して純化処理を行ってよい。ここで、畳み込みブロックアテンションモジュールは従来技術における畳み込みブロックアテンションモジュールであってよい。例えば、本開示の実施例の畳み込みブロックアテンションモジュールは、チャンネルアテンションユニット及び重要度アテンションユニットを含んでよい。ここで、まず次元削減処理後の第４特徴マップをチャンネルアテンションユニットに入力してよく、ここで、まず次元削減処理後の第４特徴マップに対して高さと幅に基づく大域最大プーリング（ｇｌｏｂａｌｍａｘｐｏｏｌｉｎｇ）及び大域平均プーリング（ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇ）を行い、次に大域最大プーリングで得られた第１結果及び大域平均プーリングで得られた第２結果をそれぞれ多層パーセプトロン（ＭＬＰ）に入力し、ＭＬＰ処理を行った後の２つの結果に対して加算処理を行って第３結果を取得し、第３結果に対して活性化処理を行ってチャンネルアテンション特徴マップを取得するようにしてよい。

チャンネルアテンション特徴マップを取得した後、該チャンネルアテンション特徴マップを重要度アテンションユニットに入力し、まず該チャンネルアテンション特徴マップに対してチャンネルに基づく大域最大プーリング（ｇｌｏｂａｌｍａｘｐｏｏｌｉｎｇ）及び大域平均プーリング（ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇ）処理を行い、第４結果と第５結果をそれぞれ取得し、続いて第４結果と第５結果を接続し、次に接続後の結果に対して畳み込み処理によって次元削減を行い、ｓｉｇｍｏｉｄ関数を用いて次元削減結果を処理して重要度アテンション特徴マップを取得し、次に重要度アテンション特徴マップとチャンネルアテンション特徴マップを乗算して純化後の特徴マップを取得するようにしてよい。以上は本開示の実施例による畳み込みブロックアテンションモジュールに対する例示的説明に過ぎず、他の実施例では、他の構成を用いて次元削減後の第４特徴マップに対して純化処理を行ってもよい。

Ｓ４０２３：純化後の特徴マップを用いて入力画像のキーポイントの位置を決定する。

純化後の特徴マップを取得した後、該特徴マップを用いてキーポイントの位置情報を取得することができ、例えば、該純化後の特徴マップを３＊３の畳み込みモジュールに入力して入力画像内の各キーポイントの位置情報を予測することができる。ここで、入力画像が顔部画像である時に、予測キーポイントは、例えば、左右の目、鼻、左右の耳、左右の肩、左右の肘、左右の手首、左右の腰臀部、左右のひざ、左右の踝の位置を含んでよい１７個のキーポイントの位置であってよい。他の実施例では、他のキーポイントの位置を取得してもよく、本開示の実施例では限定されない。

上記構成によれば、第１ピラミッドニューラルネットワークの順方向処理及び第２ピラミッドニューラルネットワークの逆方向処理によって特徴をより十分に融合して、キーポイントの検出精度を高めることができる。

本開示の実施例では、順方向処理と逆方向処理により動作精度を満たすように、更に第１ピラミッドニューラルネットワーク及び第２ピラミッドニューラルネットワークのトレーニングを実行してもよい。ここで、図１０は本開示の実施例に係るキーポイント検出方法中の第１ピラミッドニューラルネットワークをトレーニングするフローチャートを示す。ここで、本開示の実施例では、トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングしてよく、それには以下のステップを含む。

Ｓ５０１：第１ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第１特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第２特徴マップを取得する。

本開示の実施例では、トレーニング画像データ集合を第１ピラミッドニューラルネットワークに入力しトレーニングすることができる。ここで、トレーニング画像データ集合には複数の画像及び画像に対応するキーポイントの真実的位置を含んでよい。第１ピラミッドネットワークを用いて、上述したステップＳ１００及びＳ２００（マルチスケールの第１特徴マップの抽出及び順方向処理）を実行して、各画像の第２特徴マップを取得することができる。

Ｓ５０２：各第２特徴マップを用いて識別されるキーポイントを決定する。

ステップＳ２０１の後、取得された第２特徴マップを用いてトレーニング画像のキーポイントを識別して、トレーニング画像の各キーポイントの第１位置を取得することができる。

Ｓ５０３：第１損失関数により前記キーポイントの第１損失を取得する。

Ｓ５０４：トレーニング回数が設定された第１回数閾値に到達するまで、前記第１損失値を用いて前記第１ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節する。

それに対して、各キーポイントの第１位置を取得した後、この予測で得られる第１位置に対応する第１損失を取得することができる。トレーニングのプロセスで、トレーニング回数が第１回数閾値に到達するまで、毎回のトレーニングで得られた第１損失により第１ピラミッドニューラルネットワークのパラメータ、例えば、畳み込みカーネルのパラメータを逆方向調節することができ、該第１回数閾値は必要に応じて設定可能であり、一般的には１２０より大きい数値であり、例えば、本開示の実施例で第１回数閾値が１４０であってよい。

ここで、第１位置に対応する第１損失は第１位置と真実的位置との第１差を第１損失関数に入力して取得された損失値であってよく、ここで、第１損失関数は対数損失関数であってよい。又は、第１位置と真実的位置を第１損失関数に入力して対応する第１損失を取得してもよい。本開示の実施例では限定されない。以上のことによれば、第１ピラミッドニューラルネットワークのトレーニングプロセスを実現し、第１ピラミッドニューラルネットワークパラメータの最適化を実現することができる。

また、それに対して、図１１は本開示の実施例に係るキーポイント検出方法中の第２ピラミッドニューラルネットワークをトレーニングするフローチャートを示す。ここで、本開示の実施例では、トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングしてよく、それには以下のステップを含む。

Ｓ６０１：第２ピラミッドニューラルネットワークを用いて前記第１ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第２特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第３特徴マップを取得する。

Ｓ６０２：各第３特徴マップを用いてキーポイントを識別する。

本開示の実施例では、まず第１ピラミッドニューラルネットワークを用いてトレーニング画像データ集合中の各画像の第２特徴マップを取得し、次に第２ピラミッドニューラルネットワークによって前記トレーニング画像データ集合中の各画像に対応する第２特徴マップに対して上記の逆方向処理を行い、前記トレーニング画像データ集合中の各画像に対応する第３特徴マップを取得し、次に第３特徴マップを用いて対応する画像のキーポイントの第２位置を予測するようにしてよい。

Ｓ６０３：第２損失関数により識別されるキーポイントの第２損失を取得する。

Ｓ６０４：トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又はトレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第１ピラミッドネットワーク中の畳み込みカーネル及び第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節する。

それに対して、各キーポイントの第２位置を取得した後、この予測で得られる第２位置に対応する第２損失を取得することができる。トレーニングのプロセスで、トレーニング回数が第２回数閾値に到達するまで、毎回のトレーニングで得られた第２損失により第２ピラミッドニューラルネットワークのパラメータ、例えば、畳み込みカーネルのパラメータを逆方向調節することができ、該第２回数閾値は必要に応じて設定可能であり、一般的には１２０より大きい数値であり、例えば、本開示の実施例で第２回数閾値が１４０であってよい。

ここで、第２位置に対応する第２損失は第２位置と真実的位置との第２差を第２損失関数に入力して取得された損失値であってよく、ここで、第２損失関数は対数損失関数であってよい。又は、第２位置と真実的位置を第２損失関数に入力して、対応する第２損失値を取得してもよい。本開示の実施例では限定されない。

本開示の別の実施例では、第２ピラミッドニューラルネットワークをトレーニングすると同時に、第１ピラミッドニューラルネットワークを更に最適化してトレーニングすることができ、即ち、本開示の実施例では、ステップＳ６０４の時に、取得された第２損失値を用いて第１ピラミッドニューラルネットワーク中の畳み込みカーネルのパラメータ及び第２ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータを同時に逆方向調節することができる。それによってネットワークモデル全体の更なる最適化が実現される。

以上のことによれば、第２ピラミッドニューラルネットワークのトレーニングプロセスを実現し、第１ピラミッドニューラルネットワークの最適化を実現することができる。

また、本開示の実施例では、ステップＳ４００は特徴抽出ネットワークモデルによって実現されてよく、ここで、本開示の実施例は更に特徴抽出ネットワークモデルの最適化プロセスを実行してよく、ここで、図１２は本開示の実施例に係るキーポイント検出方法中の特徴抽出ネットワークモデルをトレーニングするフローチャートを示し、ここで、トレーニング画像データ集合を用いて前記特徴抽出ネットワークモデルをトレーニングするステップには以下のステップを含んでよい。

Ｓ７０１：特徴抽出ネットワークモデルを用いて前記第２ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第３特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別する。

本開示の実施例では、トレーニング画像データ集合に対応する、第１ピラミッドニューラルネットワークの順方向処理及び第２ピラミッドニューラルネットワークの処理で得られた第３特徴マップを特徴抽出ネットワークモデルに入力し、特徴抽出ネットワークモデルによる特徴融合及び純化等の処理を実行して、トレーニング画像データ集合中の各画像のキーポイントの第３位置を取得することができる。

Ｓ７０２：第３損失関数により各キーポイントの第３損失を取得する。

Ｓ７０３：トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又はトレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失関数を用いて前記第１ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第２ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節する。

それに対して、各キーポイントの第３位置を取得した後、この予測で得られる第３位置に対応する第３損失値を取得することができる。トレーニングのプロセスで、トレーニング回数が第３回数閾値に到達するまで、毎回のトレーニングで得られた第３損失により特徴抽出ネットワークモデルのパラメータ、例えば、畳み込みカーネルのパラメータ又は上記プーリング等のプロセスの各パラメータを逆方向調節することができ、該第３回数閾値は必要に応じて設定可能であり、一般的には１２０より大きい数値であり、例えば、本開示の実施例で第３回数閾値が１４０であってよい。

ここで、第３位置に対応する第３損失は第３位置と真実的位置との第３差を第３損失関数に入力して取得された損失値であってよく、ここで、第３損失関数は対数損失関数であってよい。又は、第３位置と真実的位置を第３損失関数に入力して対応する第３損失値を取得してもよい。本開示の実施例では限定されない。

以上のことによれば、特徴抽出ネットワークモデルのトレーニングプロセスを実現し、特徴抽出ネットワークモデルパラメータの最適化を実現することができる。

本開示の別の実施例では、特徴抽出ネットワークをトレーニングすると同時に、第１ピラミッドニューラルネットワークと第２ピラミッドニューラルネットワークを更に最適化してトレーニングすることができ、即ち、本開示の実施例では、ステップＳ７０３の時に、取得された第３損失値を用いて第１ピラミッドニューラルネットワーク中の畳み込みカーネルのパラメータ、第２ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び特徴抽出ネットワークモデルのパラメータを同時に逆方向調節することができ、それによってネットワークモデル全体の更なる最適化が実現される。

要するに、本開示の実施例は、双方向ピラミッドネットワークモデルを用いてキーポイント特徴検出を実行することを提案し、ここで、順方向処理の方式を用いてマルチスケール特徴を取得すると共に、逆方向処理でより多くの特徴を融合し、それによってキーポイントの検出精度を更に高めることができる。

具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならなく、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。

本願で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。

また、本開示は、キーポイント検出装置、電子機器、コンピュータ可読記憶媒体及びプログラムを更に提供し、それらはいずれも本開示で提供されるいずれか１種のキーポイント検出方法を実現することに利用可能であり、対応する技術的解決手段や説明については方法部分の対応する記載を参照してよく、詳細な説明を省略する。

図１３は本開示の実施例に係るキーポイント検出装置のブロック図を示し、図１３に示すように、前記キーポイント検出装置は、
入力画像に対する複数のスケールの第１特徴マップを取得するように構成され、各第１特徴マップのスケールが倍数関係になるマルチスケール特徴取得モジュール１０と、第１ピラミッドニューラルネットワークを用いて各前記第１特徴マップに対して順方向処理を行って各前記第１特徴マップに一対一に対応する第２特徴マップを取得するように構成され、前記第２特徴マップのスケールがそれに一対一に対応する前記第１特徴マップと同じである順方向処理モジュール２０と、第２ピラミッドニューラルネットワークを用いて各前記第２特徴マップに対して逆方向処理を行って各前記第２特徴マップに一対一に対応する第３特徴マップを取得するように構成され、前記第３特徴マップのスケールがそれに一対一に対応する前記第２特徴マップと同じである逆方向処理モジュール３０と、各前記第３特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するように構成されるキーポイント検出モジュール４０と、を含む。

中の第１特徴マップ

に対して畳み込み処理を行って、第１特徴マップ

に対応する第２特徴マップ

に対して線形補間処理を実行して第２特徴マップ

に対応する第１中間特徴マップ

を取得し、第１中間特徴マップ

以外の各第１特徴マップ

に対して畳み込み処理を行って、それぞれ第１特徴マップ

に一対一に対応する第２中間特徴マップ

を取得し、前記第２中間特徴マップのスケールがそれに一対一に対応する第１特徴マップのスケールと同じであり、前記第２特徴マップ

及び各前記第２中間特徴マップ

に基づいて、第２特徴マップ

及び第１中間特徴マップ

を取得し、前記第２特徴マップ

が前記第２中間特徴マップ

と前記第１中間特徴マップ

に対して重畳処理を行って取得され、第１中間特徴マップ

が対応する第２特徴マップ

と第１中間特徴マップ

中の第２特徴マップ

に対して畳み込み処理を行って、第２特徴マップ

に対応する第３特徴マップ

に対して畳み込み処理を行って第３特徴マップ

に対応する第４中間特徴マップ

を取得し、各第３中間特徴マップ

及び第４中間特徴マップ

を用いて、第３特徴マップ

及び第４中間特徴マップ

を取得し、第３特徴マップ

が第３中間特徴マップ

と第４中間特徴マップ

の重畳処理により取得され、第４中間特徴マップ

が対応する第３特徴マップ

いくつかの可能な実施形態では、前記装置は、第１組の第３特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第３特徴マップをそれぞれ取得するように構成される最適化モジュールであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第３特徴マップが第１組の第３特徴マップと第２組の第３特徴マップを含み、前記第１組の第３特徴マップと前記第２組の第３特徴マップのいずれにも少なくとも１つの第３特徴マップを含む最適化モジュールを更に含む。

いくつかの実施例では、本開示の実施例で提供された装置に備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してもよく、簡単化するために、ここで重複説明は割愛する。

本開示の実施例は、コンピュータプログラムコマンドを記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記方法が実現されるコンピュータ可読記憶媒体を更に提供する。コンピュータ可読記憶媒体は非揮発性コンピュータ可読記憶媒体であってよい。

本開示の実施例は、上記方法を実行するように構成されるプロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含む電子機器を更に提供する。

電子機器は、端末、サーバ又は他の形態の装置として提供されてよい。

図１４は本開示の実施例に係る電子機器８００のブロック図を示す。例えば、電子機器８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。

図１４を参照すると、電子機器８００は処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）のインターフェイス８１２、センサコンポーネント８１４、および通信コンポーネント８１６の一つ以上を含むことができる。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法の全てまたは一部のステップを完了するために、一つ以上のプロセッサ８２０を含んで命令を実行することができる。また、処理コンポーネント８０２は、他のコンポーネントとの対話のために、一つ以上のモジュールを含むことができる。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８との対話のために、マルチメディアモジュールを含むことができる。

メモリ８０４は電子機器８００での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器８００において運用するためのあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インターフェイスを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含むことができる。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチ画面として実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラおよび／または後面カメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび／または後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラおよび後面カメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、電子機器８００が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク（ＭＩＣ）を含む。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインターフェイス８１２は処理コンポーネント８０２と周辺インターフェイスモジュールとの間でインターフェイスを提供し、上記周辺インターフェイスモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含むことができるが、これらに限定されない。

センサコンポーネント８１４は電子機器８００に各面での状態評価を提供するための一つ以上のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、コンポーネントの相対的位置決め、例えば前記コンポーネントが電子機器８００の表示装置およびキーパッドであることを検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように構成された近接センサを含む。センサコンポーネント８１４はさらに、ＣＭＯＳ又はＣＣＤのような、イメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含むことができる。

通信コンポーネント８１６は電子機器８００と他の機器との間の有線または無線通信を実現するように配置される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールでは無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術および他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は電子機器８００のプロセッサ８２０によって実行して上記方法を完了することができる。

図１５は本開示の実施例に係る電子機器１９００のブロック図を示す。例えば、電子機器１９００はサーバとして提供できる。図１５を参照すると、電子機器１９００は、さらに一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されたアプリケーションプログラムはそれぞれが１グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント１９２２は命令を実行し、それによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成された電源コンポーネント１９２６、電子機器１９００をネットワークにアクセスするように構成された有線または無線ネットワークインターフェイス１９５０、および入出力（Ｉ／Ｏ）インターフェイス１９５８を含むことができる。電子機器１９００はメモリ１９３２に記憶されたオペレーティングシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は電子機器１９００の処理コンポーネント１９２２によって実行して上記方法を完了することができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各態様を実現させるためのコンピュータ読み取り可能プログラム命令がロードされているコンピュータ読み取り可能記憶媒体を含むことができる。

コンピュータ読み取り可能記憶媒体は命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例（非包括的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含むことができる。各計算／処理機器内のネットワークアダプタカードまたはネットワークインターフェイスはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算／処理機器内のコンピュータ読み取り可能記憶媒体に記憶する。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。

なお、ここで本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明しが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ読み取り可能プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する手段を創出する。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ読み取り可能記憶媒体は、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各態様を実現する命令を含む製品を備える。

コンピュータ読み取り可能プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャートおよびブロック図は本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。
例えば、本願は以下の項目を提供する。
（項目１）
入力画像に対する複数のスケールの第１特徴マップを取得するステップであって、各第１特徴マップのスケールが倍数関係になるステップと、
第１ピラミッドニューラルネットワークを用いて各前記第１特徴マップに対して順方向処理を行って各前記第１特徴マップに一対一に対応する第２特徴マップを取得するステップであって、前記第２特徴マップのスケールがそれに一対一に対応する前記第１特徴マップと同じであるステップと、
第２ピラミッドニューラルネットワークを用いて各前記第２特徴マップに対して逆方向処理を行って各前記第２特徴マップに一対一に対応する第３特徴マップを取得するステップであって、前記第３特徴マップのスケールがそれに一対一に対応する前記第２特徴マップと同じであるステップと、
各前記第３特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップと、を含むキーポイント検出方法。
（項目２）
前記入力画像に対する複数のスケールの第１特徴マップを取得するステップは、
前記入力画像を所定規格の第１画像に調整するステップと、
前記第１画像を残差ニューラルネットワークに入力し、第１画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第１特徴マップを取得するステップと、を含む項目１に記載の方法。
（項目３）
前記順方向処理は、第１畳み込み処理と第１線形補間処理を含み、前記逆方向処理は、第２畳み込み処理と第２線形補間処理を含む項目１に記載の方法。
（項目４）
前記第１ピラミッドニューラルネットワークを用いて各前記第１特徴マップに対して順方向処理を行って各前記第１特徴マップに一対一に対応する第２特徴マップを取得するステップは、
第１畳み込みカーネルを用いて第１特徴マップ

中の第１特徴マップ

に対して畳み込み処理を行って、第１特徴マップ

に対応する第２特徴マップ

を取得するステップであって、ｎが第１特徴マップの数量を示し、ｎが１より大きい整数であるステップと、
前記第２特徴マップ

に対して線形補間処理を実行して第２特徴マップ

に対応する第１中間特徴マップ

を取得するステップであって、第１中間特徴マップ

のスケールが第１特徴マップＣ _ｎ−１のスケールと同じであるステップと、
第２畳み込みカーネルを用いて第１特徴マップ

以外の各第１特徴マップ

に対して畳み込み処理を行って、それぞれ第１特徴マップ

に一対一に対応する第２中間特徴マップ

を取得するステップであって、前記第２中間特徴マップのスケールがそれに一対一に対応する第１特徴マップのスケールと同じであるステップと、
前記第２特徴マップ

及び各前記第２中間特徴マップ

に基づいて、第２特徴マップ

及び第１中間特徴マップ

を取得するステップであって、前記第２特徴マップ

が前記第２中間特徴マップ

と前記第１中間特徴マップ

に対して重畳処理を行って取得され、第１中間特徴マップ

が対応する第２特徴マップ

に対して線形補間を行って取得され、また、前記第２中間特徴マップ

と第１中間特徴マップ

のスケールが同じであり、ｉが１以上であり且つｎより小さい整数であるステップと、を含む項目１〜３のいずれか一項に記載の方法。
（項目５）
前記第２ピラミッドニューラルネットワークを用いて各前記第２特徴マップに対して逆方向処理を行って各前記第２特徴マップに一対一に対応する第３特徴マップを取得するステップは、
第３畳み込みカーネルを用いて第２特徴マップ

中の第２特徴マップ

に対して畳み込み処理を行って、第２特徴マップ

に対応する第３特徴マップ

を取得するステップであって、ｍが第２特徴マップの数量を示し、ｍが１より大きい整数であるステップと、
第４畳み込みカーネルを用いて第２特徴マップ

に対して畳み込み処理を行って、対応する第３中間特徴マップ

をそれぞれ取得するステップであって、第３中間特徴マップのスケールが対応する第２特徴マップのスケールと同じであるステップと、
第５畳み込みカーネルを用いて第３特徴マップ

に対して畳み込み処理を行って第３特徴マップ

に対応する第４中間特徴マップ

を取得するステップと、
各第３中間特徴マップ

及び第４中間特徴マップ

を用いて、第３特徴マップ

及び第４中間特徴マップ

を取得するステップであって、第３特徴マップ

が第３中間特徴マップ

と第４中間特徴マップ

の重畳処理により取得され、第４中間特徴マップ

が対応する第３特徴マップ

から第５畳み込みカーネルの畳み込み処理によって取得され、ｊが１より大きく且つｍ以下であるステップと、を含む項目１〜４のいずれか一項に記載の方法。
（項目６）
前記各前記第３特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップは、
各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得するステップと、
前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップと、を含む項目１〜５のいずれか一項に記載の方法。
（項目７）
前記各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得するステップは、
線形補間の方式を用いて、各第３特徴マップを同じスケールの特徴マップに調整するステップと、
前記同じスケールの特徴マップを接続して前記第４特徴マップを取得するステップと、を含む項目６に記載の方法。
（項目８）
前記各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得する前に、第１組の第３特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第３特徴マップをそれぞれ取得するステップであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第３特徴マップが第１組の第３特徴マップと第２組の第３特徴マップを含み、前記第１組の第３特徴マップと前記第２組の第３特徴マップのいずれにも少なくとも１つの第３特徴マップを含むステップを更に含む項目６又は７に記載の方法。
（項目９）
前記各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得するステップは、
線形補間の方式を用いて、各前記更新後の第３特徴マップ及び前記第２組の第３特徴マップを同じスケールの特徴マップに調整するステップと、
前記同じスケールの特徴マップを接続して前記第４特徴マップを取得するステップと、を含む項目８に記載の方法。
（項目１０）
前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行うステップと、
次元削減処理後の第４特徴マップを用いて入力画像のキーポイントの位置を決定するステップと、を含む項目６〜９のいずれか一項に記載の方法。
（項目１１）
前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、
第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行うステップと、
畳み込みブロックアテンションモジュールを用いて次元削減処理後の第４特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得するステップと、
純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するステップと、を含む項目６〜９のいずれか一項に記載の方法。
（項目１２）
前記方法は、トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングするステップは、
第１ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第１特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第２特徴マップを取得するステップと、
各第２特徴マップを用いて識別されるキーポイントを決定するステップと、
第１損失関数により前記キーポイントの第１損失を取得するステップと、
トレーニング回数が設定された第１回数閾値に到達するまで、前記第１損失を用いて前記第１ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む項目１〜１１のいずれか一項に記載の方法。
（項目１３）
前記方法は、トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングするステップは、
第２ピラミッドニューラルネットワークを用いて前記第１ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第２特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第３特徴マップを取得するステップと、
各第３特徴マップを用いて識別されるキーポイントを決定するステップと、
第２損失関数により識別される各キーポイントの第２損失を取得するステップと、
トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第１ピラミッドネットワーク中の畳み込みカーネル及び第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む項目１〜１２のいずれか一項に記載の方法。
（項目１４）
特徴抽出ネットワークによって各前記第３特徴マップに対する前記特徴融合処理を実行し、また、特徴抽出ネットワークによって各前記第３特徴マップに対する前記特徴融合処理を実行するステップの前に、前記方法は、トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップは、
特徴抽出ネットワークを用いて前記第２ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第３特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、
第３損失関数により各キーポイントの第３損失を取得するステップと、
トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失関数を用いて前記第１ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第２ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む項目１〜１３のいずれか一項に記載の方法。
（項目１５）
入力画像に対する複数のスケールの第１特徴マップを取得するように構成されるマルチスケール特徴取得モジュールであって、各第１特徴マップのスケールが倍数関係になるマルチスケール特徴取得モジュールと、
第１ピラミッドニューラルネットワークを用いて各前記第１特徴マップに対して順方向処理を行って各前記第１特徴マップに一対一に対応する第２特徴マップを取得するように構成される順方向処理モジュールであって、前記第２特徴マップのスケールがそれに一対一に対応する前記第１特徴マップと同じである順方向処理モジュールと、
第２ピラミッドニューラルネットワークを用いて各前記第２特徴マップに対して逆方向処理を行って各前記第２特徴マップに一対一に対応する第３特徴マップを取得するように構成される逆方向処理モジュールであって、前記第３特徴マップのスケールがそれに一対一に対応する前記第２特徴マップと同じである逆方向処理モジュールと、
各前記第３特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するように構成されるキーポイント検出モジュールと、を含むキーポイント検出装置。
（項目１６）
前記マルチスケール特徴取得モジュールは、前記入力画像を所定規格の第１画像に調整し、前記第１画像を残差ニューラルネットワークに入力し、第１画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第１特徴マップを取得するように構成される項目１５に記載の装置。
（項目１７）
前記順方向処理は、第１畳み込み処理と第１線形補間処理を含み、前記逆方向処理は、第２畳み込み処理と第２線形補間処理を含む項目１５に記載の装置。
（項目１８）
前記順方向処理モジュールは、
第１畳み込みカーネルを用いて第１特徴マップ

中の第１特徴マップ

に対して畳み込み処理を行って、第1特徴マップ
に対応する第２特徴マップ

を取得し、ｎが第１特徴マップの数量を示し、ｎが１より大きい整数であり、
前記第２特徴マップ

に対して線形補間処理を実行して第２特徴マップ

に対応する第１中間特徴マップ

を取得し、第１中間特徴マップ

のスケールが第１特徴マップＣ _ｎ−１のスケールと同じであり、
第２畳み込みカーネルを用いて第１特徴マップ

以外の各第１特徴マップ

に対して畳み込み処理を行って、第１特徴マップ

に一対一に対応する第２中間特徴マップ

をそれぞれ取得し、前記第２中間特徴マップのスケールがそれに一対一に対応する第１特徴マップのスケールと同じであり、
前記第２特徴マップ

及び各前記第２中間特徴マップ

に基づいて、第２特徴マップ

及び第１中間特徴マップ

を取得し、前記第２特徴マップ

が前記第２中間特徴マップ

と前記第１中間特徴マップ

に対して重畳処理を行って取得され、第１中間特徴マップ

が対応する第２特徴マップ

に対して線形補間を行って取得され、また、前記第２中間特徴マップ

と第１中間特徴マップ

のスケールが同じであり、ｉが１以上であり且つｎより小さい整数であるように構成される項目１５〜１７のいずれか一項に記載の装置。
（項目１９）
前記逆方向処理モジュールは、
第３畳み込みカーネルを用いて第２特徴マップ

中の第２特徴マップ

に対して畳み込み処理を行って、第２特徴マップ

に対応する第３特徴マップ

を取得し、ｍが第２特徴マップの数量を示し、ｍが１より大きい整数であり、
第４畳み込みカーネルを用いて第２特徴マップ

に対して畳み込み処理を行って、対応する第３中間特徴マップ

をそれぞれ取得し、第３中間特徴マップのスケールが対応する第２特徴マップのスケールと同じであり、
第５畳み込みカーネルを用いて第３特徴マップ

に対して畳み込み処理を行って第３特徴マップ

に対応する第４中間特徴マップ

を取得し、
各第３中間特徴マップ

及び第４中間特徴マップ

を用いて第３特徴マップ

及び第４中間特徴マップ

を取得し、第３特徴マップ

が第３中間特徴マップ

と第４中間特徴マップ

の重畳処理により取得され、第４中間特徴マップ

が対応する第３特徴マップ

から第５畳み込みカーネルの畳み込み処理によって取得され、ｊが１より大きく且つｍ以下であるように構成される項目１５〜１８のいずれか一項に記載の装置。
（項目２０）
前記キーポイント検出モジュールは、各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得し、且つ前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するように構成される項目１５〜１９のいずれか一項に記載の装置。
（項目２１）
前記キーポイント検出モジュールは、線形補間の方式を用いて、各第３特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第４特徴マップを取得するように構成される項目２０に記載の装置。
（項目２２）
第１組の第３特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第３特徴マップをそれぞれ取得するように構成される最適化モジュールであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第３特徴マップが第１組の第３特徴マップと第２組の第３特徴マップを含み、前記第１組の第３特徴マップと前記第２組の第３特徴マップのいずれにも少なくとも１つの第３特徴マップを含む最適化モジュールを更に含む項目２０又は２１に記載の装置。
（項目２３）
前記キーポイント検出モジュールは、更に、線形補間の方式を用いて、各前記更新後の第３特徴マップ及び前記第２組の第３特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第４特徴マップを取得するように構成される項目２２前記の装置。
（項目２４）
前記キーポイント検出モジュールは、更に、第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行い、且つ次元削減処理後の第４特徴マップを用いて入力画像のキーポイントの位置を決定するように構成される項目２０〜２３のいずれか一項に記載の装置。
（項目２５）
前記キーポイント検出モジュールは、更に、第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行い、畳み込みブロックアテンションモジュールを用いて次元削減処理後の第４特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得し、且つ純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するように構成される項目２０〜２３のいずれか一項に記載の装置。
（項目２６）
前記順方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングすることは、第１ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第１特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第２特徴マップを取得するステップと、各第２特徴マップを用いて識別されるキーポイントを決定するステップと、第１損失関数により前記キーポイントの第１損失を取得するステップと、トレーニング回数が設定された第１回数閾値に到達するまで、前記第１損失を用いて前記第１ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む項目１５〜２５のいずれか一項に記載の装置。
（項目２７）
前記逆方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングすることは、第２ピラミッドニューラルネットワークを用いて前記第１ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第２特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第３特徴マップを取得するステップと、各第３特徴マップを用いて識別されるキーポイントを決定するステップと、第２損失関数により識別される各キーポイントの第２損失を取得するステップと、トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第１ピラミッドネットワーク中の畳み込みカーネル及び第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む項目１５〜２６のいずれか一項に記載の装置。
（項目２８）
前記キーポイント検出モジュールは、更に、特徴抽出ネットワークによって各前記第３特徴マップに対する前記特徴融合処理を実行するように構成され、また、特徴抽出ネットワークによって各前記第３特徴マップに対する前記特徴融合処理を実行するステップの前に、更にトレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングすることは、特徴抽出ネットワークを用いて前記第２ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第３特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、第３損失関数により各キーポイントの第３損失を取得するステップと、トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失関数を用いて前記第１ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第２ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む項目１５〜２７のいずれか一項に記載の装置。
（項目２９）
項目１〜１４のいずれか一項に記載の方法を実行するように構成されるプロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含む電子機器。
（項目３０）
コンピュータプログラムコマンドを記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に項目１〜１４のいずれか一項に記載の方法が実現されるコンピュータ可読記憶媒体。

Claims

入力画像に対する複数のスケールの第１特徴マップを取得するステップであって、各第１特徴マップのスケールが倍数関係になるステップと、
第１ピラミッドニューラルネットワークを用いて各前記第１特徴マップに対して順方向処理を行って各前記第１特徴マップに一対一に対応する第２特徴マップを取得するステップであって、前記第２特徴マップのスケールがそれに一対一に対応する前記第１特徴マップと同じであるステップと、
第２ピラミッドニューラルネットワークを用いて各前記第２特徴マップに対して逆方向処理を行って各前記第２特徴マップに一対一に対応する第３特徴マップを取得するステップであって、前記第３特徴マップのスケールがそれに一対一に対応する前記第２特徴マップと同じであるステップと、
各前記第３特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップと、を含むキーポイント検出方法。
前記入力画像に対する複数のスケールの第１特徴マップを取得するステップは、
前記入力画像を所定規格の第１画像に調整するステップと、
前記第１画像を残差ニューラルネットワークに入力し、第１画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第１特徴マップを取得するステップと、を含む請求項１に記載の方法。
前記順方向処理は、第１畳み込み処理と第１線形補間処理を含み、前記逆方向処理は、第２畳み込み処理と第２線形補間処理を含む請求項１に記載の方法。
前記第１ピラミッドニューラルネットワークを用いて各前記第１特徴マップに対して順方向処理を行って各前記第１特徴マップに一対一に対応する第２特徴マップを取得するステップは、
第１畳み込みカーネルを用いて第１特徴マップ

中の第１特徴マップ

に対して畳み込み処理を行って、第１特徴マップ

に対応する第２特徴マップ

を取得するステップであって、ｎが第１特徴マップの数量を示し、ｎが１より大きい整数であるステップと、
前記第２特徴マップ

に対して線形補間処理を実行して第２特徴マップ

に対応する第１中間特徴マップ

を取得するステップであって、第１中間特徴マップ

のスケールが第１特徴マップＣ_ｎ−１のスケールと同じであるステップと、
第２畳み込みカーネルを用いて第１特徴マップ

以外の各第１特徴マップ

に対して畳み込み処理を行って、それぞれ第１特徴マップ

に一対一に対応する第２中間特徴マップ

を取得するステップであって、前記第２中間特徴マップのスケールがそれに一対一に対応する第１特徴マップのスケールと同じであるステップと、
前記第２特徴マップ

及び各前記第２中間特徴マップ

に基づいて、第２特徴マップ

及び第１中間特徴マップ

を取得するステップであって、前記第２特徴マップ

が前記第２中間特徴マップ

と前記第１中間特徴マップ

に対して重畳処理を行って取得され、第１中間特徴マップ

が対応する第２特徴マップ

に対して線形補間を行って取得され、また、前記第２中間特徴マップ

と第１中間特徴マップ

のスケールが同じであり、ｉが１以上であり且つｎより小さい整数であるステップと、を含む請求項１〜３のいずれか一項に記載の方法。
前記第２ピラミッドニューラルネットワークを用いて各前記第２特徴マップに対して逆方向処理を行って各前記第２特徴マップに一対一に対応する第３特徴マップを取得するステップは、
第３畳み込みカーネルを用いて第２特徴マップ

中の第２特徴マップ

に対して畳み込み処理を行って、第２特徴マップ

に対応する第３特徴マップ

を取得するステップであって、ｍが第２特徴マップの数量を示し、ｍが１より大きい整数であるステップと、
第４畳み込みカーネルを用いて第２特徴マップ

に対して畳み込み処理を行って、対応する第３中間特徴マップ

をそれぞれ取得するステップであって、第３中間特徴マップのスケールが対応する第２特徴マップのスケールと同じであるステップと、
第５畳み込みカーネルを用いて第３特徴マップ

に対して畳み込み処理を行って第３特徴マップ

に対応する第４中間特徴マップ

を取得するステップと、
各第３中間特徴マップ

及び第４中間特徴マップ

を用いて、第３特徴マップ

及び第４中間特徴マップ

を取得するステップであって、第３特徴マップ

が第３中間特徴マップ

と第４中間特徴マップ

の重畳処理により取得され、第４中間特徴マップ

が対応する第３特徴マップ

から第５畳み込みカーネルの畳み込み処理によって取得され、ｊが１より大きく且つｍ以下であるステップと、を含む請求項１〜４のいずれか一項に記載の方法。
前記各前記第３特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するステップは、
各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得するステップと、
前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップと、を含む請求項１〜５のいずれか一項に記載の方法。
前記各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得するステップは、
線形補間の方式を用いて、各第３特徴マップを同じスケールの特徴マップに調整するステップと、
前記同じスケールの特徴マップを接続して前記第４特徴マップを取得するステップと、を含む請求項６に記載の方法。
前記各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得する前に、第１組の第３特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第３特徴マップをそれぞれ取得するステップであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第３特徴マップが第１組の第３特徴マップと第２組の第３特徴マップを含み、前記第１組の第３特徴マップと前記第２組の第３特徴マップのいずれにも少なくとも１つの第３特徴マップを含むステップを更に含む請求項６又は７に記載の方法。
前記各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得するステップは、
線形補間の方式を用いて、各前記更新後の第３特徴マップ及び前記第２組の第３特徴マップを同じスケールの特徴マップに調整するステップと、
前記同じスケールの特徴マップを接続して前記第４特徴マップを取得するステップと、を含む請求項８に記載の方法。
前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行うステップと、
次元削減処理後の第４特徴マップを用いて入力画像のキーポイントの位置を決定するステップと、を含む請求項６〜９のいずれか一項に記載の方法。
前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するステップは、
第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行うステップと、
畳み込みブロックアテンションモジュールを用いて次元削減処理後の第４特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得するステップと、
純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するステップと、を含む請求項６〜９のいずれか一項に記載の方法。
前記方法は、トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングするステップは、
第１ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第１特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第２特徴マップを取得するステップと、
各第２特徴マップを用いて識別されるキーポイントを決定するステップと、
第１損失関数により前記キーポイントの第１損失を取得するステップと、
トレーニング回数が設定された第１回数閾値に到達するまで、前記第１損失を用いて前記第１ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む請求項１〜１１のいずれか一項に記載の方法。
前記方法は、トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングするステップは、
第２ピラミッドニューラルネットワークを用いて前記第１ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第２特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第３特徴マップを取得するステップと、
各第３特徴マップを用いて識別されるキーポイントを決定するステップと、
第２損失関数により識別される各キーポイントの第２損失を取得するステップと、
トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第１ピラミッドネットワーク中の畳み込みカーネル及び第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む請求項１〜１２のいずれか一項に記載の方法。
特徴抽出ネットワークによって各前記第３特徴マップに対する前記特徴融合処理を実行し、また、特徴抽出ネットワークによって各前記第３特徴マップに対する前記特徴融合処理を実行するステップの前に、前記方法は、トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップを更に含み、
前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするステップは、
特徴抽出ネットワークを用いて前記第２ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第３特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、
第３損失関数により各キーポイントの第３損失を取得するステップと、
トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失関数を用いて前記第１ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第２ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む請求項１〜１３のいずれか一項に記載の方法。
入力画像に対する複数のスケールの第１特徴マップを取得するように構成されるマルチスケール特徴取得モジュールであって、各第１特徴マップのスケールが倍数関係になるマルチスケール特徴取得モジュールと、
第１ピラミッドニューラルネットワークを用いて各前記第１特徴マップに対して順方向処理を行って各前記第１特徴マップに一対一に対応する第２特徴マップを取得するように構成される順方向処理モジュールであって、前記第２特徴マップのスケールがそれに一対一に対応する前記第１特徴マップと同じである順方向処理モジュールと、
第２ピラミッドニューラルネットワークを用いて各前記第２特徴マップに対して逆方向処理を行って各前記第２特徴マップに一対一に対応する第３特徴マップを取得するように構成される逆方向処理モジュールであって、前記第３特徴マップのスケールがそれに一対一に対応する前記第２特徴マップと同じである逆方向処理モジュールと、
各前記第３特徴マップに対して特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記入力画像内の各キーポイントの位置を取得するように構成されるキーポイント検出モジュールと、を含むキーポイント検出装置。
前記マルチスケール特徴取得モジュールは、前記入力画像を所定規格の第１画像に調整し、前記第１画像を残差ニューラルネットワークに入力し、第１画像に対して異なるサンプリング周波数のダウンサンプリング処理を実行して複数の異なるスケールの第１特徴マップを取得するように構成される請求項１５に記載の装置。
前記順方向処理は、第１畳み込み処理と第１線形補間処理を含み、前記逆方向処理は、第２畳み込み処理と第２線形補間処理を含む請求項１５に記載の装置。
前記順方向処理モジュールは、
第１畳み込みカーネルを用いて第１特徴マップ

中の第１特徴マップ

に対して畳み込み処理を行って、第1特徴マップ
に対応する第２特徴マップ

を取得し、ｎが第１特徴マップの数量を示し、ｎが１より大きい整数であり、
前記第２特徴マップ

に対して線形補間処理を実行して第２特徴マップ

に対応する第１中間特徴マップ

を取得し、第１中間特徴マップ

のスケールが第１特徴マップＣ_ｎ−１のスケールと同じであり、
第２畳み込みカーネルを用いて第１特徴マップ

以外の各第１特徴マップ

に対して畳み込み処理を行って、第１特徴マップ

に一対一に対応する第２中間特徴マップ

をそれぞれ取得し、前記第２中間特徴マップのスケールがそれに一対一に対応する第１特徴マップのスケールと同じであり、
前記第２特徴マップ

及び各前記第２中間特徴マップ

に基づいて、第２特徴マップ

及び第１中間特徴マップ

を取得し、前記第２特徴マップ

が前記第２中間特徴マップ

と前記第１中間特徴マップ

に対して重畳処理を行って取得され、第１中間特徴マップ

が対応する第２特徴マップ

に対して線形補間を行って取得され、また、前記第２中間特徴マップ

と第１中間特徴マップ

のスケールが同じであり、ｉが１以上であり且つｎより小さい整数であるように構成される請求項１５〜１７のいずれか一項に記載の装置。
前記逆方向処理モジュールは、
第３畳み込みカーネルを用いて第２特徴マップ

中の第２特徴マップ

に対して畳み込み処理を行って、第２特徴マップ

に対応する第３特徴マップ

を取得し、ｍが第２特徴マップの数量を示し、ｍが１より大きい整数であり、
第４畳み込みカーネルを用いて第２特徴マップ

に対して畳み込み処理を行って、対応する第３中間特徴マップ

をそれぞれ取得し、第３中間特徴マップのスケールが対応する第２特徴マップのスケールと同じであり、
第５畳み込みカーネルを用いて第３特徴マップ

に対して畳み込み処理を行って第３特徴マップ

に対応する第４中間特徴マップ

を取得し、
各第３中間特徴マップ

及び第４中間特徴マップ

を用いて第３特徴マップ

及び第４中間特徴マップ

を取得し、第３特徴マップ

が第３中間特徴マップ

と第４中間特徴マップ

の重畳処理により取得され、第４中間特徴マップ

が対応する第３特徴マップ

から第５畳み込みカーネルの畳み込み処理によって取得され、ｊが１より大きく且つｍ以下であるように構成される請求項１５〜１８のいずれか一項に記載の装置。
前記キーポイント検出モジュールは、各第３特徴マップに対して特徴融合処理を行って、第４特徴マップを取得し、且つ前記第４特徴マップに基づいて前記入力画像内の各キーポイントの位置を取得するように構成される請求項１５〜１９のいずれか一項に記載の装置。
前記キーポイント検出モジュールは、線形補間の方式を用いて、各第３特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第４特徴マップを取得するように構成される請求項２０に記載の装置。
第１組の第３特徴マップをそれぞれ異なるボトルネックブロック構成に入力して畳み込み処理を行って、更新後の第３特徴マップをそれぞれ取得するように構成される最適化モジュールであって、各前記ボトルネックブロック構成に異なる数量の畳み込みモジュールを含み、前記第３特徴マップが第１組の第３特徴マップと第２組の第３特徴マップを含み、前記第１組の第３特徴マップと前記第２組の第３特徴マップのいずれにも少なくとも１つの第３特徴マップを含む最適化モジュールを更に含む請求項２０又は２１に記載の装置。
前記キーポイント検出モジュールは、更に、線形補間の方式を用いて、各前記更新後の第３特徴マップ及び前記第２組の第３特徴マップを同じスケールの特徴マップに調整し、且つ前記同じスケールの特徴マップを接続して前記第４特徴マップを取得するように構成される請求項２２前記の装置。
前記キーポイント検出モジュールは、更に、第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行い、且つ次元削減処理後の第４特徴マップを用いて入力画像のキーポイントの位置を決定するように構成される請求項２０〜２３のいずれか一項に記載の装置。
前記キーポイント検出モジュールは、更に、第５畳み込みカーネルを用いて前記第４特徴マップに対して次元削減処理を行い、畳み込みブロックアテンションモジュールを用いて次元削減処理後の第４特徴マップ内の特徴に対して純化処理を行って、純化後の特徴マップを取得し、且つ純化後の特徴マップを用いて前記入力画像のキーポイントの位置を決定するように構成される請求項２０〜２３のいずれか一項に記載の装置。
前記順方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第１ピラミッドニューラルネットワークをトレーニングすることは、第１ピラミッドニューラルネットワークを用いて前記トレーニング画像データ集合中の各画像に対応する第１特徴マップに対して前記順方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第２特徴マップを取得するステップと、各第２特徴マップを用いて識別されるキーポイントを決定するステップと、第１損失関数により前記キーポイントの第１損失を取得するステップと、トレーニング回数が設定された第１回数閾値に到達するまで、前記第１損失を用いて前記第１ピラミッドニューラルネットワーク中の各畳み込みカーネルを逆方向調節するステップと、を含む請求項１５〜２５のいずれか一項に記載の装置。
前記逆方向処理モジュールは、更に、トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記第２ピラミッドニューラルネットワークをトレーニングすることは、第２ピラミッドニューラルネットワークを用いて前記第１ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第２特徴マップに対して前記逆方向処理を行って、前記トレーニング画像データ集合中の各画像に対応する第３特徴マップを取得するステップと、各第３特徴マップを用いて識別されるキーポイントを決定するステップと、第２損失関数により識別される各キーポイントの第２損失を取得するステップと、トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節し、又は、トレーニング回数が設定された第２回数閾値に到達するまで、前記第２損失を用いて前記第１ピラミッドネットワーク中の畳み込みカーネル及び第２ピラミッドニューラルネットワーク中の畳み込みカーネルを逆方向調節するステップと、を含む請求項１５〜２６のいずれか一項に記載の装置。
前記キーポイント検出モジュールは、更に、特徴抽出ネットワークによって各前記第３特徴マップに対する前記特徴融合処理を実行するように構成され、また、特徴抽出ネットワークによって各前記第３特徴マップに対する前記特徴融合処理を実行するステップの前に、更にトレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングするように構成され、前記トレーニング画像データ集合を用いて前記特徴抽出ネットワークをトレーニングすることは、特徴抽出ネットワークを用いて前記第２ピラミッドニューラルネットワークの出力したトレーニング画像データ集合中の各画像に対応する第３特徴マップに対して前記特徴融合処理を行い、且つ特徴融合処理後の特徴マップを用いて前記トレーニング画像データ集合中の各画像のキーポイントを識別するステップと、第３損失関数により各キーポイントの第３損失を取得するステップと、トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失値を用いて前記特徴抽出ネットワークのパラメータを逆方向調節し、又は、トレーニング回数が設定された第３回数閾値に到達するまで、前記第３損失関数を用いて前記第１ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、第２ピラミッドニューラルネットワーク中の畳み込みカーネルパラメータ、及び前記特徴抽出ネットワークのパラメータを逆方向調節するステップと、を含む請求項１５〜２７のいずれか一項に記載の装置。
請求項１〜１４のいずれか一項に記載の方法を実行するように構成されるプロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含む電子機器。
コンピュータプログラムコマンドを記憶したコンピュータ可読記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に請求項１〜１４のいずれか一項に記載の方法が実現されるコンピュータ可読記憶媒体。