JP7443647B2

JP7443647B2 - キーポイント検出及びモデル訓練方法、装置、デバイス、記憶媒体、並びにコンピュータプログラム

Info

Publication number: JP7443647B2
Application number: JP2022129693A
Authority: JP
Inventors: ヤン、キアシェン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-14
Filing date: 2022-08-16
Publication date: 2024-03-06
Anticipated expiration: 2042-08-16
Also published as: CN114092963A; US20230120054A1; JP2023059231A; EP4167194A1; CN114092963B

Description

本開示は、人工知能の分野に関し、具体的にコンピュータビジョン及びディープラーニング技術に関し、具体的に行動認識、人体特殊効果生成、娯楽・ゲーム・インタラクションなどの場面で使用可能であり、特にキーポイント検出及びモデル訓練方法、装置、デバイス、及び記憶媒体に関する。

社会の進歩と科学技術の発展に伴い、ショート動画、ライブ配信、オンライン教育などの業界が絶えず台頭し、各種のインタラクションシーンにおいて、人体のキーポイントの情報に基づいてインタラクションを行う機能の需要がますます増えている。

関連技術では、一般的にヒート図あるいは回帰座標の方式を用いて人体の３Ｄキーポイント検出を行う。

本開示は、キーポイント検出及びモデル訓練方法、装置、デバイス、及び記憶媒体を提供する。

本開示の一態様によれば、画像に対して特徴抽出処理を行って前記画像の画像特徴を取得し、前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と前記キーポイントのうちの中心点の位置情報とを含む図情報を取得し、前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得することを含むキーポイント検出方法が提供される。

本開示の別の態様によれば、画像サンプルに対して特徴抽出処理を行って前記画像サンプルの画像特徴を取得し、前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と前記キーポイントのうちの中心点の予測位置情報とを含む予測図情報を取得し、前記予測位置関係図と前記予測位置情報とに基づいて総損失関数を構築し、前記総損失関数に基づいてキーポイント検出モデルを訓練することを含むキーポイント検出モデルの訓練方法が提供される。

本開示の別の態様によれば、画像に対して特徴抽出処理を行って前記画像の画像特徴を取得する特徴抽出モジュールと、前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と、前記キーポイントのうちの中心点の位置情報とを含む図情報を取得する図情報抽出モジュールと、前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得する決定モジュールとを備えるキーポイント検出装置が提供される。

本開示の別の態様によれば、画像サンプルに対して特徴抽出処理を行って前記画像サンプルの画像特徴を取得する特徴抽出モジュールと、前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と、前記キーポイントのうちの中心点の予測位置情報とを含む予測図情報を取得する図情報抽出モジュールと、前記予測位置関係図及び前記予測位置情報に基づいて総損失関数を構築する構築モジュールと、前記総損失関数に基づいて、キーポイント検出モデルを訓練する訓練モジュールとを備えるキーポイント図情報抽出モデルの訓練装置が提供される。

本開示の別の態様によれば、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに前記態様のいずれか１項に記載された方法を実行させる電子デバイスが提供される。

本開示の別の態様によれば、コンピュータに前記態様のいずれか１項に記載された方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体が提供される。

本開示の別の態様によれば、プロセッサにより実行されると、前記態様のいずれか１項に記載された方法を実現するコンピュータプログラムを含むコンピュータプログラム製品が提供される。

本開示の技術案によれば、キーポイントの検出精度を向上させることができる。

理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。

図面は、本技術案をより良く理解するためのものであり、本願に制限されない。
本開示による第１実施形態の概略図である。本開示による第２実施形態の概略図である。本開示による第３実施形態の概略図である。本開示による第４実施形態の概略図である。本開示による第５実施形態の概略図である。本開示による第６実施形態の概略図である。本開示による第７実施形態の概略図である。本開示による第８実施形態の概略図である。本開示による第９実施形態の概略図である。本開示による第１０実施形態の概略図である。本開示による第１１実施形態の概略図である。本開示の実施形態に係るキーポイント検出又はキーポイント図情報抽出モデルの訓練方法の何れかひとつを実施するための電子デバイスの概略図である。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

関連技術では、一般的にヒートマップあるいは回帰座標の方式を用いて人体の３Ｄキーポイント検出を行う。しかし、この測位方式では精度が不足している。

キーポイント検出の精度を向上させるために、本開示は以下の実施形態を提供する。

図１は本開示による第１実施形態の概略図である。本実施形態は、以下のステップを含むキーポイント検出方法を提供する。

１０１において、画像に対して特徴抽出処理を行って前記画像の画像特徴を取得する。

１０２において、前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と前記キーポイントのうちの中心点の位置情報とを含む図情報を取得する。

１０３において、前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得する。

本実施形態の実行主体は、キーポイント検出装置と呼ぶことができる。キーポイント検出装置は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアの組み合わせであって良く、電子デバイス内に配置されてよい。この電子デバイスは、サーバ側又はユーザ端末に配置されて良い。サーバ側はローカルサーバ又はクラウドであってもよく、ユーザ端末は、モバイルデバイス（例えば、携帯電話、タブレット）、車載端末（例えば、車機）、ウェアラブルデバイス（例えば、スマートウォッチ、スマートブレスレット）、スマートホームデバイス（例えば、スマートテレビ、スマートスピーカー）などを含むことができる。

キーポイント検出は、行動の識別、人体の特殊効果の生成、娯楽ゲームのインタラクションなどの場面など、さまざまな場面に応用することができる。

ユーザ端末による実行を例にすると、図２に示すように、ユーザ端末２００（例えば、携帯電話）上のカメラ２０１を利用して人体画像を収集して、ユーザ端末上の人体インタラクティブを必要とするＡＰＰ２０２に送信することができる。当該ＡＰＰは、ユーザ端末上でローカルに人体の３Ｄキーポイントを識別することができる。もちろん、理解すべきなのは、ＡＰＰが人体画像をクラウドに送信し、クラウドが３Ｄキーポイントの位置合わせを行うこともできる。

画像とは、目標を含む画像である。目標とは、検出すべきキーポイントの対象であり、例えば、顔、手、人体、動物などであってもよい。目標が人体である場合には、画像は、具体的には人体画像であってもよい。

画像を取得した後、様々な関連する特徴抽出ネットワークを用いて、画像の画像特徴を抽出することができる。特徴抽出ネットワークは例えばディープ畳み込みニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＤＣＮＮ）であり、そのバックボーンネットワーク（ｂａｃｋｂｏｎｅ）は例えばＨｏｕｒｇｌａｓｓである。

目標の違いに基づいて、異なる検出すべきキーポイントを設定することができる。例えば、人体に対して、キーポイントは具体的に３Ｄキーポイントであって良い。３Ｄキーポイントとは、キーポイントの位置情報が３次元空間情報であることを指し、一般に２次元の（ｘ，ｙ）と深さ情報で表すことができる。

図３に示すように、頭頂部、鼻部、咽頭部、左右肩部、左右肘部、左右手部、胃部、下腹部、左右股関節部、左右膝部、左右足部の計１７個のキーポイントを含めることができる。

キーポイントは、中心点と非中心点に分けることができる。中心点はキーポイントの１つであり、たとえば下腹部のキーポイントを中心点に設定し、残りを非中心点に設定するように設定することができる。たとえば、図３を参照すると、中心点は黒丸で示され、非中心点は白丸で示されている。

位置関係図は、キーポイント間の位置関係を示す。更に、キーポイントが３Ｄキーポイントである場合には、位置関係図は３Ｄ位置関係図であり、３Ｄ構造図、３Ｄベクトルグラフなどとも呼ばれる。

位置関係には、ノードとエッジが含まれる。ノードは各キーポイントであり、エッジはノード間の方向付きの接続線である。たとえば、図３はある人体のキーポイントの位置関係図であり、含まれる各ノードは各キーポイントであり、各ノード間のエッジは有向矢印で表されている。

キーポイントが３Ｄキーポイントである場合に、中心点の位置情報は、中心点の２Ｄヒートマップ及び中心点の深さ情報を含む中心点の３Ｄ位置情報になる。

ヒートマップは、熱力図、ガウスヒートマップなどとも呼ばれる。中心点はヒートマップにおいて１つの点に対応する。

２Ｄヒートマップとは、中心点に対応するヒートマップにおける点が２Ｄであることを指し、点の２Ｄ座標（ｘ，ｙ）を中心点の２Ｄ位置情報とすることができる。

３次元空間の座標が（ｘ，ｙ，ｚ）で表されるとすると、深さ情報は一般に１～４０００の間の値であり、カメラ内部パラメータにより具体的な３次元空間のｚ方向の数値に変換できる。

従って、中心点の２Ｄヒートマップと深さ情報とに基づいて、中心点の３Ｄ位置情報（ｘ，ｙ，ｚ）を得ることができる。

中心点の３Ｄ位置情報とキーポイントの３Ｄ位置関係図を取得した後、各キーポイントの３Ｄ位置情報を得るためにノードごとに復号することができる。

中心点の２Ｄヒートマップ及び深さ情報に基づいて、中心点の３Ｄ座標が（ｘ０，ｙ０，ｚ０）であることが決定される。位置関係図に有向エッジの情報を含めることができ、例えば図３において、黒点（中心ノード）とそれに接続された白色点との間の有向エッジの３Ｄ座標が（Δｘ，Δｙ，Δｚ）で示されるとすると、黒点に接続された白色点の３Ｄ座標が（ｘ０＋Δｘ，ｙ０＋Δｙ，ｚ０＋Δｚ）である。残りのノードの復号プロセスも同様である。

従って、画像特徴に基づいて中心点の位置情報を得、中心点の位置情報と位置関係図とに基づいて非中心点の位置情報を得ることができるため、全てのキーポイントの位置情報を得ることができる。

人体キーポイントの検出を例とすると、ディープニューラルネットワークを用いて人体キーポイントの３Ｄ位置情報を検出することができる。

ここで、人体キーポイントの位置関係図を人体キーポイントの３Ｄベクトルグラフと呼ぶことができる。中心点の位置情報は、具体的には中心点の３Ｄ位置情報とすることができる。３Ｄベクトルグラフと中心点の３Ｄ位置情報とを抽出するネットワークをキーポイント図情報抽出モデル（又はネットワーク）と呼ぶことができる。上述した３Ｄベクトルグラフと中心点の３Ｄ位置情報とに基づいて人体のキーポイントの３Ｄ位置情報を得るネットワークを復号ネットワークと呼ぶことができる。

図４に示すように、キーポイント図情報抽出モデル４０１に人体画像が入力されると、キーポイント図情報抽出モデル４０１は、人体画像を処理して人体のキーポイントの３Ｄベクトルグラフと、キーポイントのうちの中心点の３Ｄ位置情報とを得ることができる。その後、復号ネットワーク４０２は、入力された３Ｄベクトルプロットと中心点の３Ｄ位置情報とをノードごとに復号して非中心点の３Ｄ位置情報を得ることができる。中心点の３Ｄ位置情報がその前に得られていたため、すべてのキーポイントの３Ｄ位置情報が得られた。

さらに、キーポイント情報抽出モデルは、画像特徴抽出ネットワーク４０１１及び図情報抽出ネットワーク４０１２を含むことができる。

画像特徴抽出ネットワーク４０１１は、入力された人体画像に対して画像特徴抽出を行って画像特徴を得る。画像特徴抽出ネットワークはＤＣＮＮであって良く、具体的なバックボーンネットワークは例えばＨｏｕｒｇｌａｓｓである。

図情報抽出ネットワーク４０１２は、入力された画像特徴を処理して、人体キーポイントの３Ｄベクトルグラフと中心点の３Ｄ位置情報とを得る。

本発明の実施形態によれば、画像特徴に基づいて中心点の位置情報と位置関係図とを得、及び中心点の位置情報と位置関係図とに基づいて非中心点の位置情報を得ることができる。すなわち、キーポイントの位置合わせの際に位置関係図を参照することができるため、キーポイントの検出精度を向上させることができる。

いくつかの実施形態では、前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報を取得することは、前記目標のキーポイントの位置チャネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を得、前記グラフ畳み込み強調特徴に基づいて前記図情報を取得することを含む。

ここで、図４に示すように、画像特徴に基づいてキーポイントの図情報を取得するネットワークを図情報抽出ネットワークと呼ぶことができる。

さらに、図５に示すように、図情報抽出ネットワークは、グラフ畳み込みネットワーク及び出力ネットワークを含むことができる。

グラフ畳み込みネットワークの入力及び出力は、それぞれ、画像特徴及びグラフ畳み込み強調特徴である。すなわち、グラフ畳み込みネットワークは、前記目標のキーポイントの図特徴に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を得ることができる。

グラフ畳み込み強調特徴は、画像特徴を強調した特徴である。強調する際にキーポイントの位置特徴を考慮し、畳み込み処理方式を採用することができるため、グラフ畳み込み強調特徴と呼ぶことができる。理解すべきなのは、別の名称を付けてもよい。キーポイントの位置特徴は、画像特徴が位置チャネルに投影されることに基づいて取得され、具体的な取得方法は後述を参照することができる。

出力ネットワークの入力と出力はそれぞれグラフ畳み込み強調特徴と図情報である。すなわち、出力ネットワークは、前記グラフ畳み込み強調特徴に基づいて前記図情報を得ることができる。

各図情報は、種類毎の出力ネットワークに対応することができる。

さらに、中心点の３Ｄ位置情報は、中心点の２Ｄヒートマップ及び深さ情報を含むことができるため、出力ネットワークは、人体のキーポイントの３Ｄベクトルグラフ、中心点の２Ｄヒートマップ及び中心点の深さ情報をそれぞれ出力する３つの出力ネットワークとすることができる。

図５では、これら３つの出力ネットワークはすべて畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）とすることができ、それぞれ第１出力畳み込みネットワーク、第２出力畳み込みネットワーク、第３出力畳み込みネットワークと表す。

目標のキーポイントの位置チャンネル数に基づいてグラフ畳み込み強調特徴を求め、さらにグラフ畳み込み強調特徴に基づいてキーポイントの図情報を求めることにより、画像特徴にキーポイントの位置特徴を導入することができ、キーポイントの位置関係図と中心点の位置情報という図情報を得ることができる。

いくつかの実施形態では、前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を得ることは、前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して統合特徴を取得し、前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得することを含む。

ここで、グラフ畳み込みネットワークは、図６のように示すことができる。図６において、画像特徴はｘで表され、次元はＨ＊Ｗ＊Ｄである。ここで、Ｈは高さ、Ｗは幅、Ｄはチャンネル数を表す。

図６に示すように、重み付け画像特徴はＦ（ｘ）で表され、Ｆ（ｘ）の次元はｘの次元と一致しており、即ちＨ＊Ｗ＊Ｄである。

Ｆ（ｘ）は、各チャネルに応じてｘに対して重み付けを行って得られたものである。例えば、ｘが合計Ｄ個のチャネルである場合、第１チャネル上のＨ＊Ｗ個のピクセル値に対して、第１チャネルに対応する重み係数で重み付けを行い、第２チャネル上のＨ＊Ｗ個のピクセル値に対して、第２チャネルに対応する重み係数で重み付けを行うように類推することができる。異なるチャネル上の重み係数は、同一であっても異なっていてもよい。

いくつかの実施形態では、前記画像特徴は、複数のチャンネルの画像特徴であり、前記画像特徴に重み付け処理を行って重み付け画像特徴を得ることは、前記複数のチャンネルのそれぞれの画像特徴に対してプール化、１次元畳み込み及び活性化処理を行って前記各チャンネルの重み係数を決定し、前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を得ることを含む。

具体的には、図６に示すように、画像特徴の各チャネルに応じて、平均プール化（ａｖｇｐｏｏｌｉｎｇ）のようなプール化、１＊１畳み込み、活性化（例えばｓｉｇｍｏｉｄ活性化）をそれぞれ行った後に各チャネル上の重み係数を求めて良い。すなわち、重み係数の次元は１＊１＊Ｄとすることができる。

画像特徴にプール化、１次元畳み込み、活性化処理を行うことにより、各チャンネルの画像特徴の重み係数を得ることができ、さらに、重み係数に基づいて重み付け画像特徴を得ることができる。

図６では、画像チャネルの個数をＤ、キーポイントの位置チャネルの個数をＭとし、ＭもＤも設定値である。一般的にＤの値はより大きく、Ｍはキーポイントの個数＊位置座標の次元として選択されて良い。たとえば、キーポイントの個数が１７個、キーポイントが３Ｄキーポイントであれば、Ｍ＝１７＊３＝５１とすることができる。

画像チャネルが位置する空間領域を画像チャネル領域と呼び、位置チャネルが位置する空間領域を位置チャネル領域と呼ぶことができる。図６において、画像チャネル領域から位置チャネル領域までの間の射影行列はθ（ｘ）で示され、θ（ｘ）の次元はＭ＊Ｈ＊Ｗである。

具体的には、Ｍ個の１＊１の畳み込みカーネルを用いて、画像特徴ｘに畳み込み処理を行って投影行列θ（ｘ）を得ることができる。

重み付け画像特徴Ｆ（ｘ）及び投影行列θ（ｘ）が得られた後、重み付け画像特徴を位置チャネル領域に投影するために、両者を乗算することができる。さらに、乗算の前に、更に１＊１の畳み込みカーネルを用いて重み付き画像特徴Ｆ（ｘ）に畳み込み処理を行っても良い。処理された重み付き画像特徴の次元もＨ＊Ｗ＊Ｄである。

位置チャネル領域に射影された特徴は、キーポイントの位置チャネルのアグリゲーション特徴と呼ぶことができ、Ｖで表される。Ｖの次元はＭ＊Ｄである。

アグリゲーション特徴が取得された後、アグリゲーション特徴を解析してキーポイントの位置情報に関連付けられた各位置チャネルの位置特徴を取得し、その後に位置特徴に基づいてキーポイントの位置情報を取得することができる。

いくつかの実施形態では、前記アグリゲーション特徴に基づいて前記キーポイントの位置チャネルの位置特徴を取得することは、前記アグリゲーション特徴に複数のスケールの１次元畳み込み処理を行って複数のスケールの特徴を取得し、前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得することを含む。

ここで、図６に示すように、複数のスケールの一次元畳み込みは３つである。すなわち、３つの１＊１畳み込みカーネルを用いてアグリゲーション特徴Ｖを処理することができる。この３つの畳み込みカーネルのパラメータはそれぞれ３、７、１１であり、各一次元畳み込み処理後の各スケールの特徴の次元はＭ＊Ｄである。

スタックとは、複数のスケールの特徴を組み合わせることである。例えば、３つのスケールの特徴を組み合わせることにより、次元がＭ＊Ｄ＊３の特徴となる。

その後、位置特徴を得るために３＊３の畳み込みを用いて処理することができる。

図６において、キーポイントの位置チャネルの位置特徴はＧＶＭで表され、次元はＭ＊Ｄである。

アグリゲーション特徴に対してマルチスケールの畳み込み処理を行うことにより、より豊富な情報を得ることができ、ひいてはキーポイント検出の精度を向上させることができる。

投影行列の転置行列はθ^ｔで示され、次元がＨ＊Ｗ＊Ｄである。

逆投影とは、位置特徴ＧＶＭに射影行列の転置行列を乗じて統合特徴を得られることである。統合特徴は、Ｋ（ｘ）で示され、次元がＨ＊Ｗ＊Ｄである。

統合特徴Ｋ（ｘ）が得られた後、オリジナルの画像特徴ｘを統合特徴Ｋ（ｘ）に加算して、次元がＨ＊Ｗ＊Ｄであるグラフ畳み込み強調特徴Ｇ（ｘ）を得ることができる。

上記の重み付け、畳み込み、投影、逆投影等の処理により、キーポイントの位置特徴を統合したグラフ畳み込み強調特徴を得ることができ、さらに、グラフ畳み込み強調特徴に基づいてキーポイントの図情報を得ることができる。

いくつかの実施形態では、前記位置関係図は、３Ｄ位置関係図であり、前記中心点の位置情報は２Ｄヒートマップと深さ情報とを含み、前記グラフ畳み込み強調特徴に基づいて前記図情報を取得することは、前記グラフ畳み込み強調特徴に第１畳み込み処理を行って前記３Ｄ位置関係図を取得し、前記グラフ畳み込み強調特徴に第２畳み込み処理を行って前記中心点の２Ｄヒートマップを取得し、前記グラフ畳み込み強調特徴に第３畳み込み処理を行って前記中心点の深さ情報を取得することを含む。

図５に示すように、第１畳み込み処理、第２畳み込み処理、及び第３畳み込み処理に対応するネットワークを、第１出力畳み込みネットワーク、第２出力畳み込みネットワーク、及び第３出力畳み込みネットワークと呼ぶことができる。

これら３つのネットワークは、すべてＣＮＮネットワークであってもよく、具体的に異なってもよい。

例えば、３Ｄベクトルグラフに対応する場合に、第１畳み込み処理の畳み込みカーネルの次元はＨ＊Ｗ＊Ｍであり、Ｍ＝キーポイントの個数＊座標の個数であり、例えば３Ｄ検出では、キーポイントが１７個であれば、Ｍ＝５１であり、ＨとＷは画像の高さと幅である。

中心点の２Ｄヒートマップに対応する場合に、第２畳み込み処理の畳み込みカーネルの次元はＨ＊Ｗ＊１であり、すなわち中心点の２Ｄヒートマップであるヒートマップを検出することができる。

中心点の深さ情報に対応する場合に、第３畳み込み処理の畳み込みカーネルの次元はＨ＊Ｗ＊１であり、すなわち１つの深さ情報を検出することができる。

畳み込み処理を用いることにより、グラフ畳み込み強調特徴に基づいてキーポイントの図情報を得ることができる。

いくつかの実施形態では、前記位置関係図に異なるキーポイント間の有向エッジの情報が含まれ、前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて前記キーポイントのうちの非中心点の位置情報を取得することは、前記有向エッジの情報に基づいて、前記中心点の位置情報から順に接続関係を有する非中心点の位置情報を復号することを含む。

例えば、中心点の２Ｄヒートマップ及び深さ情報に基づいて、中心点の３Ｄ座標が（ｘ０，ｙ０，ｚ０）であることが決定される。位置関係図に有向エッジの情報を含めることができ、例えば図３において、黒点（中心ノード）とそれに接続された白色点との間の有向エッジの３Ｄ座標が（Δｘ，Δｙ，Δｚ）で示されるとすると、黒点に接続された白色点の３Ｄ座標が（ｘ０＋Δｘ，ｙ０＋Δｙ，ｚ０＋Δｚ）である。残りのノードの復号プロセスも同様である。

中心点の位置情報から順に各非中心点の位置情報を復号することにより、各キーポイントの位置情報を得ることができる。

上記内容は、グラフ畳み込み強調特徴に基づいて中心点の深さ情報を得ることを例に挙げた。理解すべきなのは、図情報に位置関係図及び中心点の２Ｄヒートマップが含まれ、ユーザが使用するハードウェアデバイスに基づいて中心点の深さ情報を取得することができる。例えば、ユーザは、深さ感知装置を有する装置を使用し、当該装置に基づいて中心点の深さ情報を取得することができ、さらに、中心点の深さ情報に基づいて後続の処理を実行することができる。あるいは、当該装置に基づいて、すべてのキーポイントの深さ情報を取得することができる。上記の処理手順は、２Ｄヒートマップを構築するだけでよい。

本開示の実施形態では、人体画像の３Ｄキーポイント検出において、キーポイントの図情報を取得し、図情報に基づいて３Ｄキーポイント検出を行うことにより、ヒートマップや回帰方式のみによる精度の悪さを解消し、３Ｄキーポイント検出の精度を向上させることができる。

図７は本開示の第７実施形態の概略図である。本実施形態は、以下のステップを含むキーポイント図情報抽出モデルの訓練方法を提供する。

７０１において、画像サンプルに特徴抽出処理を行って前記画像サンプルの画像特徴を取得する。

７０２において、前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と、前記キーポイント中の中心点の予測位置情報とを含む予測図情報を取得する。

７０３において、前記予測位置関係図と前記予測位置情報とに基づいて、総損失関数を構築する。

７０４において、前記総損失関数に基づいて、キーポイント検出モデルを訓練する。

ここで、訓練段階で採用された画像を画像サンプルと呼ぶことができる。既存の訓練セットから画像サンプルを取得することができる。

画像サンプルを取得する際に、更に、画像サンプルにおける目標に対して人工による注釈などの処理を行って、画像サンプルにおける目標の真の値を取得することができる。真の値は目標の真の結果である。

３Ｄキーポイント検出では、真の値は、前記目標の真の３Ｄ位置関係図、前記中心点の真の２Ｄヒートマップ、及び前記中心点の真の深さ情報を含んでよい。

ここで、中心点の真の深さ情報は具体的な値であり、人工による注釈を採用可能である。この値は一般に１～４０００の間の値である。

目標を人体とすると、２人の人体に対応する真の３Ｄ位置関係図は図８のように示されて良い。

中心点の真の２Ｄヒートマップは真の２Ｄヒートマップに基づいて得ることができる。真の２Ｄヒートマップは人工方式などを採用して注釈することができる。２Ｄヒートマップとは各キーポイントに対応してその２Ｄ位置を注釈することを指し、例えば、図９を参照すると、人体に対応する２Ｄヒートマップであり、各黒丸は１つのキーポイントに対応する。

従って、真の３Ｄ位置関係図、中心点の真の２Ｄヒートマップ、真の深さ情報を得ることができる。

適用段階の図情報に対応して、訓練段階の当該情報を予測図情報と呼ぶことができる。

いくつかの実施形態では、前記予測位置関係図は、予測３Ｄ位置関係図であり、前記予測位置情報は、予測２Ｄヒートマップ及び予測深さ情報を含み、前記予測位置関係図及び前記予測位置情報に基づいて総損失関数を構築することは、前記予測３Ｄ位置関係図及び前記目標の真の３Ｄ位置関係図に基づいて第１損失関数を構築し、前記予測２Ｄヒートマップ及び前記中心点の真の２Ｄヒートマップに基づいて第２損失関数を構築し、前記予測深さ情報と前記中心点の真の深さ情報とに基づいて第３損失関数を構築し、前記第１損失関数、前記第２損失関数及び前記第３損失関数に基づいて、前記総損失関数を構築することを含む。

上記の第１損失関数、第２損失関数及び第３損失関数の具体的な式は限定されず、例えば、Ｌ１損失関数、Ｌ２損失関数、クロスエントロピー損失関数などであってよい。

総損失関数を構築した後、総損失関数に基づいて訓練を行うことは、予め設定された繰り返し回数又は損失関数が収束することを含むことができる終了条件に達するまで、総損失関数に基づいてモデルパラメータを調整し、終了条件に達した場合のモデルを最終モデルとすることを含んでよい。

ここで、キーポイント図情報抽出モデルに含まれるディープニューラルネットワークは、具体的に、画像特徴抽出ネットワークと図情報抽出ネットワークを含んでよく、図情報抽出ネットワークは、グラフ畳み込みネットワークと出力畳み込みネットワークを含んでよい。従って、モデルパラメータを調整する場合は、上記に関わるネットワークのパラメータを具体的に調整することができる。

理解すべきなのは、モデル訓練段階（図７に対応する実施形態）とモデル適用段階（図１に対応する実施形態）のそれぞれのプロセスの原理は一致しているため、本実施形態では詳しく説明しないが、具体的な内容は上記適用段階の説明を参照してもよい。

本発明の実施形態によれば、予測図情報を取得し、予測図情報に基づいて総損失関数を構築することにより、モデル訓練時にキーポイントの図情報を参照することができ、キーポイント図情報抽出モデルの精度を向上させ、ひいてはキーポイント検出の精度を向上させることができる。

図１０は本開示の第１０実施形態の概略図である。本実施形態は、特徴抽出モジュール１００１と、図情報抽出モジュール１００２と、決定モジュール１００３とを備えたキーポイント検出装置１０００を提供する。

特徴抽出モジュール１００１は、画像に特徴抽出処理を行って前記画像の画像特徴を取得する。図情報抽出モジュール１００２は、前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報を取得する。前記図情報は、前記キーポイントの位置関係図と、前記キーポイントのうちの中心点の位置情報とを含む。決定モジュール１００３は、前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得する。

いくつかの実施形態では、前記図情報抽出モジュール１００２は、前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を得る強調部と、前記グラフ畳み込み強調特徴に基づいて前記図情報を取得する取得部とを備える。

いくつかの実施形態では、前記強調部は、具体的に、前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して、統合特徴を取得し、前記画像特徴及び前記統合特徴に基づいて前記グラフ畳み込み強調特徴を取得する。

いくつかの実施形態では、前記画像特徴は、複数のチャネルの画像特徴であり、前記強調部は、さらに具体的に、前記複数のチャネルの各々の画像特徴にプール化、１次元畳み込み及び活性化処理を行って、前記各チャネルの重み係数を決定し、前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する。

いくつかの実施形態では、前記強調部は、さらに具体的に、前記アグリゲーション特徴に複数のスケールの１次元畳み込み処理を行って複数のスケールの特徴を取得し、前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する。

いくつかの実施形態では、前記位置関係図は３Ｄ位置関係図であり、前記中心点の位置情報は、２Ｄヒートマップ及び深さ情報を含み、前記取得部は、具体的に、前記グラフ畳み込み強調特徴に第１畳み込み処理を行って前記３Ｄ位置関係図を取得し、前記グラフ畳み込み強調特徴に第２畳み込み処理を行って前記中心点の２Ｄヒートマップを取得し、前記グラフ畳み込み強調特徴に第３畳み込み処理を行って前記中心点の深さ情報を取得する。

いくつかの実施形態では、前記位置関係図に異なるキーポイント間の有向エッジの情報が含まれ、前記決定モジュール１００３は、具体的に、前記有向エッジの情報に基づいて、前記中心点の位置情報から順に接続関係を有する非中心点の位置情報を復号する。

本開示の実施形態では、複数の段階の検出結果に基づいてキーポイント検出結果を得ることにより、目標結果においてスケール情報を参照することができ、複数の段階の検出結果を得る際に位置符号化を考慮することにより、距離情報を参照することができるため、キーポイント検出結果がスケール情報と距離情報を参照し、キーポイントの検出精度を向上させることができる。

図１１は本開示の第１１実施形態の概略図である。本実施形態は、特徴抽出モジュール１１０１と、図情報抽出モジュール１１０２と、構築モジュール１１０３と、訓練モジュール１１０４とを備えるキーポイント検出モデルの訓練装置１１００を提供する。

特徴抽出モジュール１１０１は、画像サンプルに特徴抽出処理を行って前記画像サンプルの画像特徴を取得する。図情報抽出モジュール１１０２は、前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と、前記キーポイントのうちの中心点の予測位置情報とを含む予測図情報を取得する。構築モジュール１１０３は、前記予測位置関係図及び前記予測位置情報に基づいて、総損失関数を構築する。訓練モジュール１１０４は、前記総損失関数に基づいてキーポイント検出モデルを訓練する。

いくつかの実施形態では、前記予測位置関係図は予測３Ｄ位置関係図であり、前記予測位置情報は予測２Ｄヒートマップ及び予測深さ情報を含み、前記構築モジュール１１０３は、具体的に、前記予測３Ｄ位置関係図及び前記目標の真の３Ｄ位置関係図に基づいて、第１損失関数を構築し、前記予測３Ｄ位置関係図及び前記目標の真の３Ｄ位置関係図に基づいて、第１損失関数を構築し、前記予測２Ｄヒートマップ及び前記中心点の真の２Ｄヒートマップに基づいて、第２損失関数を構築し、前記予測深さ情報と前記中心点の真の深さ情報とに基づいて第３損失関数を構築し、前記第１損失関数、前記第２損失関数及び前記第３損失関数に基づいて、前記総損失関数を構築する。

いくつかの実施形態では、前記図情報抽出モジュール１１０２は、前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得する強調部と、前記グラフ畳み込み強調特徴に基づいて前記予測図情報を取得する取得部とを備える。

いくつかの実施形態では、前記強調部は、具体に、前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して、統合特徴を取得し、前記画像特徴及び前記統合特徴に基づいて前記グラフ畳み込み強調特徴を取得する。

いくつかの実施形態では、前記予測位置関係図は、予測３Ｄ位置関係図であり、前記中心点の予測位置情報は、予測２Ｄヒートマップ及び予測深さ情報を含み、前記取得部は、具体的に、前記グラフ畳み込み強調特徴に第１畳み込み処理を行って前記予測３Ｄ位置関係図を取得し、前記グラフ畳み込み強調特徴に第２畳み込み処理を行って前記中心点の予測２Ｄヒートマップを取得し、前記グラフ畳み込み強調特徴に第３畳み込み処理を行って前記中心点の予測深さ情報を取得する。

本開示の実施形態では、複数の段階の検出結果に基づいて総損失関数を構築することにより、総損失関数においてスケール情報を参照することができ、複数の段階の検出結果を得る際に位置符号化を考慮することにより、距離情報を参照することができるため、総損失関数がスケール情報と距離情報を参照し、キーポイント検出モデルの精度を向上させることができる。

理解すべきなのは、本開示の実施形態では、異なる実施形態における同一又は類似の内容は相互に参照されてもよい。

なお、本開示の実施形態における「第１」、「第２」等は、単に区別するためのものであり、重要度の高さ、タイミングの優先度等を示すものではない。

本開示の技術案において、関わるユーザの個人情報の取得、記憶及び応用等は、いずれも関連法律法規の規定に適合しており、公序良俗に反するものではない。

本開示の実施形態によれば、本開示は更に、電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。

図１２は、本開示の実施形態を実現可能な例示的な電子デバイス１２００の概略的なブロック図を示した。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、ＰＤＡ、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び／又は要求された本開示の実現を制限することではない。

図１２に示すように、デバイス１２００は、読み取り専用メモリ（ＲＯＭ）１２０２に記憶されたコンピュータプログラム、又は記憶手段１２０８からランダムアクセスメモリ（ＲＡＭ）１２０３にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段１２０１を含む。ＲＡＭ１２０３には、デバイス１２００の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段１２０１、ＲＯＭ１２０２及びＲＡＭ１２０３は、バス１２０４を介して接続されている。入出力（Ｉ／Ｏ）インターフェース１２０５もバス１２０４に接続されている。

例えばキーボード、マウス等の入力手段１２０６と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段１２０７と、例えば磁気ディスク、光ディスク等の記憶手段１２０８と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段１２０９を含むデバイス１２００の複数の構成要素は、Ｉ／Ｏインターフェース１２０５に接続される。通信手段１２０９は、デバイス１２００が例えばインターネットのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

演算手段１２０１は、処理能力及び演算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってよい。演算手段１２０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段１２０１は、上述した様々な方法及び処理、例えばキーポイント検出方法又はキーポイント検出モデルの訓練方法を実行する。例えば、幾つかの実施形態では、キーポイント検出方法又はキーポイント検出モデルの訓練方法は、例えば記憶手段１２０８のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ＲＯＭ１２０２及び／又は通信手段１２０９を介してデバイス１２００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ１２０３にロードされ、演算手段１２０１により実行されると、前記キーポイント検出方法又はキーポイント検出モデルの訓練方法の１つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段１２０１は、キーポイント検出方法又はキーポイント検出モデルの訓練方法を実行するように、他の任意の適切な方法で（例えば、ファームウェアを介する）構成されてもよい。

本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブル論理デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置にデータ及び命令を転送することができる。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び／又はブロック図に指定された機能／動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。

本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であって良く、ユーザからの入力を任意の形式（音入力、音声入力、又は触覚入力を含む）で受信して良い。

本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント－サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、或いは「ＶＰＳ」と略称される）サービスにおいて管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の１つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims

キーポイント検出方法であって、
画像に特徴抽出処理を行って前記画像の画像特徴を取得することと、
前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と前記キーポイントのうちの中心点の位置情報とを含む図情報を取得することと、
前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得することと、を含み、
前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報を取得することは、
前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得することと、
前記グラフ畳み込み強調特徴に基づいて前記図情報を取得することと、を含み、
前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得することは、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、
前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、
前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、
前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して統合特徴を取得し、
前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得する、ことを含む、
キーポイント検出方法。
前記画像特徴は、複数のチャンネルの画像特徴であり、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得することは、
前記複数のチャンネルの各チャンネルの画像特徴にプール化、１次元畳み込み処理、及び活性化処理を行って、前記各チャンネルの重み係数を決定し、
前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する、
ことを含む請求項１に記載のキーポイント検出方法。
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得することは、
前記アグリゲーション特徴に複数のスケールの１次元畳み込み処理を行って複数のスケールの特徴を取得し、
前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、
前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、
前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する、
ことを含む請求項１に記載のキーポイント検出方法。
前記位置関係図は、３Ｄ位置関係図であり、前記中心点の位置情報は、２Ｄヒートマップ及び深さ情報を含み、
前記グラフ畳み込み強調特徴に基づいて前記図情報を取得することは、
前記グラフ畳み込み強調特徴に第１畳み込み処理を行って前記３Ｄ位置関係図を取得し、
前記グラフ畳み込み強調特徴に第２畳み込み処理を行って前記中心点の２Ｄヒートマップを取得し、
前記グラフ畳み込み強調特徴に第３畳み込み処理を行って前記中心点の深さ情報を取得する、
ことを含む請求項１に記載のキーポイント検出方法。
前記位置関係図は、異なるキーポイント間の有向エッジの情報を含み、
前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得することは、
前記有向エッジの情報に基づいて、前記中心点の位置情報から順に接続関係を有する非中心点の位置情報を復号する、
ことを含む請求項１に記載のキーポイント検出方法。
キーポイント図情報抽出モデルの訓練方法であって、
画像サンプルに特徴抽出処理を行って前記画像サンプルの画像特徴を取得し、
前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と、前記キーポイントのうちの中心点の予測位置情報とを含む予測図情報を取得することと、
前記予測位置関係図及び前記予測位置情報に基づいて総損失関数を構築することと、
前記総損失関数に基づいて、キーポイント検出モデルを訓練することと、を含み、
前記予測位置関係図は、予測３Ｄ位置関係図であり、前記予測位置情報は、予測２Ｄヒートマップと予測深さ情報とを含み、
前記予測位置関係図と前記予測位置情報とに基づいて総損失関数を構築することは、
前記予測３Ｄ位置関係図と前記目標の真の３Ｄ位置関係図とに基づいて、第１損失関数を構築し、
前記予測２Ｄヒートマップ及び前記中心点の真の２Ｄヒートマップに基づいて、第２損失関数を構築し、
前記予測深さ情報と前記中心点の真の深さ情報とに基づいて第３損失関数を構築し、
前記第１損失関数、前記第２損失関数及び前記第３損失関数に基づいて、前記総損失関数を構築する、ことを含む、
キーポイント図情報抽出モデルの訓練方法。
前記画像特徴に基づいて前記画像サンプルにおける目標のキーポイントの予測図情報を取得することは、
前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得することと、
前記グラフ畳み込み強調特徴に基づいて前記予測図情報を取得することと、を含む、
請求項６に記載のキーポイント図情報抽出モデルの訓練方法。
前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得することは、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、
前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、
前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、
前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して、統合特徴を取得し、
前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得する、
ことを含む請求項７に記載のキーポイント図情報抽出モデルの訓練方法。
前記画像特徴は、複数のチャンネルの画像特徴であり、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得することは、
前記複数のチャンネルの各チャンネルの画像特徴にプール化、１次元畳み込み処理、及び活性化処理を行って、前記各チャンネルの重み係数を決定し、
前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する、
ことを含む請求項８に記載のキーポイント図情報抽出モデルの訓練方法。
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得することは、
前記アグリゲーション特徴に複数のスケールの１次元畳み込み処理を行って、複数のスケールの特徴を取得し、
前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、
前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、
前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する、
ことを含む請求項８に記載のキーポイント図情報抽出モデルの訓練方法。
前記予測位置関係図は、予測３Ｄ位置関係図であり、前記中心点の予測位置情報は、予測２Ｄヒートマップ及び予測深さ情報を含み、
前記グラフ畳み込み強調特徴に基づいて前記予測図情報を取得することは、
前記グラフ畳み込み強調特徴に第１畳み込み処理を行って前記予測３Ｄ位置関係図を取得し、
前記グラフ畳み込み強調特徴に第２畳み込み処理を行って前記中心点の予測２Ｄヒートマップを取得し、
前記グラフ畳み込み強調特徴に第３畳み込み処理を行って、前記中心点の予測深さ情報を取得する、
ことを含む請求項７に記載のキーポイント図情報抽出モデルの訓練方法。
キーポイント検出装置であって、
画像に特徴抽出処理を行って前記画像の画像特徴を取得する特徴抽出モジュールと、
前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と、前記キーポイントのうちの中心点の位置情報とを含む図情報を取得する図情報抽出モジュールと、
前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得する決定モジュールと、を備え、
前記図情報抽出モジュールは、
前記キーポイントの位置チャンネルの数に基づいて前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得する強調部と、
前記グラフ畳み込み強調特徴に基づいて前記図情報を取得する取得部と、を備え、
前記強調部は、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、
前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、
前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、
前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して統合特徴を取得し、
前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得する、
キーポイント検出装置。
前記画像特徴は、複数のチャンネルの画像特徴であり、前記強調部は、さらに、
前記複数のチャンネルの各チャンネルの画像特徴にプール化、１次元畳み込み、及び活性化処理を行って、前記各チャンネルの重み係数を決定し、
前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する、
請求項１２に記載のキーポイント検出装置。
前記強調部は、さらに、
前記アグリゲーション特徴に複数のスケールの１次元畳み込み処理を行って複数のスケールの特徴を取得し、
前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、
前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、
前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する、
請求項１２に記載のキーポイント検出装置。
前記位置関係図は、３Ｄ位置関係図であり、前記中心点の位置情報は、２Ｄヒートマップ及び深さ情報を含み、
前記取得部は、
前記グラフ畳み込み強調特徴に第１畳み込み処理を行って前記３Ｄ位置関係図を取得し、
前記グラフ畳み込み強調特徴に第２畳み込み処理を行って前記中心点の２Ｄヒートマップを取得し、
前記グラフ畳み込み強調特徴に第３畳み込み処理を行って前記中心点の深さ情報を取得する、
請求項１２に記載のキーポイント検出装置。
前記位置関係図は、異なるキーポイント間の有向エッジの情報を含み、
前記決定モジュールは、
前記有向エッジの情報に基づいて、前記中心点の位置情報から順に接続関係を有する非中心点の位置情報を復号する、
請求項１２に記載のキーポイント検出装置。
キーポイント図情報抽出モデルの訓練装置であって、
画像サンプルに特徴抽出処理を行って前記画像サンプルの画像特徴を取得する特徴抽出モジュールと、
前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と、前記キーポイントのうちの中心点の予測位置情報とを含む予測図情報を取得する図情報抽出モジュールと、
前記予測位置関係図及び前記予測位置情報に基づいて総損失関数を構築する構築モジュールと、
前記総損失関数に基づいて、キーポイント検出モデルを訓練する訓練モジュールと、を備え、
前記予測位置関係図は、予測３Ｄ位置関係図であり、前記予測位置情報は、予測２Ｄヒートマップ及び予測深さ情報を含み、
前記構築モジュールは、
前記予測３Ｄ位置関係図と前記目標の真の３Ｄ位置関係図とに基づいて、第１損失関数を構築し、
前記予測２Ｄヒートマップ及び前記中心点の真の２Ｄヒートマップに基づいて、第２損失関数を構築し、
前記予測深さ情報と前記中心点の真の深さ情報とに基づいて第３損失関数を構築し、
前記第１損失関数、前記第２損失関数及び前記第３損失関数に基づいて、前記総損失関数を構築する、
キーポイント図情報抽出モデルの訓練装置。
前記図情報抽出モジュールは、
前記キーポイントの位置チャンネルの数に基づいて前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得する強調部と、
前記グラフ畳み込み強調特徴に基づいて前記予測図情報を取得する取得部と、
を備える請求項１７に記載のキーポイント図情報抽出モデルの訓練装置。
前記強調部は、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、
前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、
前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、
前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して、統合特徴を取得し、
前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得する、
請求項１８に記載のキーポイント図情報抽出モデルの訓練装置。
前記画像特徴は、複数のチャンネルの画像特徴であり、
前記強調部は、さらに、
前記複数のチャンネルの各チャンネルの画像特徴にプール化、１次元畳み込み、及び活性化処理を行って、前記各チャンネルの重み係数を決定し、
前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する、
請求項１９に記載のキーポイント図情報抽出モデルの訓練装置。
前記強調部は、さらに、
前記アグリゲーション特徴に複数のスケールの１次元畳み込み処理を行って複数のスケールの特徴を取得し、
前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、
前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、
前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する、
請求項１９に記載のキーポイント図情報抽出モデルの訓練装置。
前記予測位置関係図は、予測３Ｄ位置関係図であり、前記中心点の予測位置情報は、予測２Ｄヒートマップ及び予測深さ情報を含み、
前記取得部は、
前記グラフ畳み込み強調特徴に第１畳み込み処理を行って前記予測３Ｄ位置関係図を取得し、
前記グラフ畳み込み強調特徴に第２畳み込み処理を行って前記中心点の予測２Ｄヒートマップを取得し、
前記グラフ畳み込み強調特徴に第３畳み込み処理を行って前記中心点の予測深さ情報を取得する、
請求項１８に記載のキーポイント図情報抽出モデルの訓練装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備え、
前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに請求項１～５のいずれか１項に記載のキーポイント検出方法、又は、請求項６～１１のいずれか１項に記載のキーポイント図情報抽出モデルの訓練方法を実行させる電子デバイス。
コンピュータに請求項１～５のいずれか１項に記載のキーポイント検出方法、又は、請求項６～１１のいずれか１項に記載のキーポイント図情報抽出モデルの訓練方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項１～５のいずれか１項に記載のキーポイント検出方法、又は、請求項６～１１のいずれか１項に記載のキーポイント図情報抽出モデルの訓練方法を実現するコンピュータプログラム。