JP7194215B2

JP7194215B2 - キーポイントの特定方法及び装置、機器、記憶媒体

Info

Publication number: JP7194215B2
Application number: JP2021039045A
Authority: JP
Inventors: ジェンワン，; ズーポンルー，; ハオスン，; ホンウージャン，; シーレイウェン，; アールイディン，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2021-03-11
Publication date: 2022-12-21
Anticipated expiration: 2041-03-11
Also published as: US20210390731A1; US11610389B2; KR102584074B1; CN111695519A; EP3869402B1; JP2021197157A; EP3869402A1; KR20210035787A; CN111695519B

Description

本発明の実施例は、コンピュータ技術の分野に関し、具体的には人工知能、深層学習、画像処理技術の分野に関し、特にキーポイントの特定方法及び装置、機器、記憶媒体に関する。

人体のキーポイントの特定とは、画像から例えば頭、五官、首、四肢などの人体の重要な部位の座標位置を検出して特定することである。当該技術は、人体の姿、運動の軌跡、動作の角度などの分析に広く使用され、スポーツ選手に対しスポーツのトレーニングを行うことを支援し、フィットネスのトレーニング効果を分析し、授業の効率を向上させることができる。

現在、人体のキーポイントの特定の主な実施形態は、特徴マップ抽出器としてディープニューラルネットワークを使用し、この後、特徴マップに基づいてキーポイントのヒートマップを生成し、最後にヒートマップに基づいてキーポイントの位置を直接的に特定することである。

本発明の実施例では、キーポイントの特定方法及び装置、機器、記憶媒体を提案する。

第１側面において、本発明の実施例は、特定待ち画像の第１の特徴マップと第２の特徴マップを抽出することであって、ここで、第１の特徴マップは、第２の特徴マップと異なる特徴マップであることと、第１の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定することと、第２の特徴マップに基づいて、キーポイントのオフセット量を確定することと、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られることと、を含むキーポイントの特定方法に関する。

第２側面において、本発明の実施例は、特定待ち画像の第１の特徴マップと第２の特徴マップを抽出するように構成される特徴マップ抽出モジュールであって、ここで、第１の特徴マップは、第２の特徴マップと異なる特徴マップである特徴マップ抽出モジュールと、第１の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定するように構成される初期位置確定モジュールと、第２の特徴マップに基づいて、キーポイントのオフセット量を確定するように構成されるオフセット量確定モジュールと、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られるように構成される最終位置生成モジュールと、を含むキーポイントの特定装置に関する。

第３側面において、本発明の実施例は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信接続されたメモリと、を含み、ここで、メモリは、少なくとも１つのプロセッサによって実行可能な指令を記憶し、指令が少なくとも１つのプロセッサによって実行されることにより、第１側面のいずれかの実施形態で説明された方法を少なくとも１つのプロセッサに実現させる電子機器に関する。

第４側面において、本発明の実施例は、コンピュータ指令が記憶された非一時的コンピュータ可読記憶媒体であって、コンピュータ指令は、第１側面のいずれかの実施形態で説明された方法をコンピュータに実行させるために使用される非一時的コンピュータ可読記憶媒体に関する。

第５側面において、本発明の実施例は、コンピュータプログラムであって、プロセッサによって実行されると、第１側面のいずれかの実施形態で説明された方法を実現するコンピュータプログラムに関する。

本発明の実施例によるキーポイントの特定方法及び装置、機器、記憶媒体は、まず、特定待ち画像の第１の特徴マップと第２の特徴マップを抽出し、次に、第１の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定し、第２の特徴マップに基づいて、キーポイントのオフセット量を確定し、最後に、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。異なる特徴マップを使用して、キーポイントに対し粗い特定と正確な特定をそれぞれに行うことにより、粗い特定と正確な特定で注目された異なるタイプの特徴に対する特徴マップの学習能力を高め、最終的にキーポイントの特定の正確さを向上させる。直接にヒートマップに基づくキーポイントの特定に誤差があるという技術的問題を解決した。当該技術案は、オープンなＡＩプラットフォームに適用でき、既存のオープンソースの技術案より優れている。

本明細書で記載された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図したものではなく、本開示の範囲を制限するものでもないことを理解すべきである。本開示の他の特徴は、以下の説明によって容易に理解される。

本発明のその他の特徴、目的および利点をより明確にするために、以下の図面を参照してなされた非限定的な実施例の詳細な説明を参照する。図面は、本技術案をよりよく理解するために使用され、本発明に対する限定を構成しない。

本発明が適用可能な例示的なシステムアーキテクチャ図である。本発明によるキーポイントの特定方法の一実施例のフローチャートである。本発明によるキーポイントの特定方法の別の実施例のフローチャートである。本発明の実施例のキーポイントの特定方法を実現することができるシーン図である。本発明によるキーポイントの特定装置の一実施例の概略構成図である。本発明の実施例のキーポイントの特定方法を実現するための電子機器のブロック図である。

以下、図面に関連して本発明の例示的な実施例を説明し、理解を容易にするための本発明の実施例の様々な詳細を含んでいるが、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本発明の範囲および精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明確かつ簡明にするために、以下の説明では、公知の機能および構造に対する説明が省略される。

なお、矛盾しない場合には、本発明の実施例及び実施例における特徴を互いに組み合わせることができる。以下、図面を参照して、実施例に合わせて本発明を詳細に説明する。

図１には、本発明が適用され得る、キーポイントの特定方法又はキーポイントの特定装置の実施例の例示的なシステムアーキテクチャ１００が示されている。

図１に示すように、システムアーキテクチャ１００は、端末機器１０１、ネットワーク１０２およびサーバ１０３を含むことができる。ネットワーク１０２は、端末機器１０１とサーバ１０３との間に通信リンクの媒体を提供するために使用される。ネットワーク１０２としては、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。

ユーザは、端末機器１０１を使用してネットワーク１０２を介してサーバ１０３とインタラクティブすることにより、メッセージなどを送受信することができる。端末機器１０１には、例えば画像処理アプリケーションなどの様々なクライアントアプリケーションをインストールすることができる。

端末機器１０１は、ハードウェアでもソフトウェアでもよい。端末機器１０１がハードウェアである場合、カメラを有する様々な電子機器であってもよく、監視カメラ、スマートデバイスなどを含むがこれらに限定されない。端末機器１０１がソフトウェアである場合、上記電子機器にインストールすることができる。それは、複数のソフトウェアまたはソフトウェアモジュールとして実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。

サーバ１０３は、例えば画像処理アプリケーションのバックグラウンドサーバなどの様々なサービスを提供するサーバであってもよい。画像処理アプリケーションのバックグラウンドサーバは、端末機器１０１から受信された特定待ち画像などのデータに対し分析などの処理を行い、処理結果（例えばキーポイントの最終位置）を端末機器１０１にフィードバックすることができる。

なお、サーバ１０３は、ハードウェアでもソフトウェアでもよい。サーバ１０３がハードウェアである場合、複数のサーバからなる分散型サーバクラスターとして実現されてもよく、単一のサーバとして実現されてもよい。サーバ１０３がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール（例えば分散型サービスを提供する）として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。

なお、本発明の実施例によるキーポイントの特定方法は、一般的にサーバ１０３によって実行され、これに対応して、キーポイントの特定装置は、一般的にサーバ１０３に配置されている。

図１の端末機器、ネットワーク、およびサーバの数は単なる例示であることを理解すべきである。必要に応じて、任意の数の端末機器、ネットワーク、およびサーバを備えることができる。サーバ１０３に特定待ち画像が記憶される場合、システムアーキテクチャ１００には、端末機器１０１およびネットワーク１０２を設けなくてもよい。また、端末機器１０１が処理能力を有する場合、本発明の実施例によるキーポイントの特定方法は、端末機器１０１によって実行されてもよく、これに対応して、キーポイントの特定装置は、端末機器１０１に配置されてもよい。この場合、システムアーキテクチャ１００には、ネットワーク１０２およびサーバ１０３を設けなくてもよい。

続けて図２を参照すると、本発明によるキーポイントの特定方法の一実施例のフロー２００が示されている。当該キーポイントの特定方法は、以下のステップを含む。

ステップ２０１において、特定待ち画像の第１の特徴マップと第２の特徴マップを抽出する。

本実施例において、キーポイントの特定方法の実行主体（例えば図１に示されたサーバ１０３）は、特定待ち画像を取得し、特定待ち画像の第１の特徴マップと第２の特徴マップを抽出することができる。

通常、上記実行主体は、端末機器（例えば図１に示された端末機器１０１）から特定待ち画像を取得することができる。ここで、端末機器は、画像収集機能をサポートする様々な電子機器であってもよく、監視カメラ、スマートデバイスなどを含むがこれらに限定されない。当該キーポイントの特定方法は、端末機器がより正確なキーポイントの特定を取得する能力を可能にすることにより、動作の識別、人体の局所的な属性および外観特徴の分析などの下流のアプリケーション分析をさらに支援することができる。また、特定待ち画像がローカルに記憶される場合、上記実行主体は、ローカルに記憶された特定待ち画像を取得することができる。

実践において、第１の特徴マップは、第２の特徴マップと異なる特徴マップであってもよい。例えば、２つの独立したディープニューラルネットワークを使用してそれぞれ抽出された２つの特徴マップである。また例えば、１つのディープニューラルネットワークの２つの異なる畳み込み層を使用してそれぞれ抽出された２つの特徴マップである。さらに例えば、１つのディープニューラルネットワークの２つの独立した分岐を使用してそれぞれ抽出された２つの特徴マップである。

ステップ２０２において、第１の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定する。

本実施例において、上記実行主体は、第１の特徴マップに基づいて粗い特定を行うことにより、キーポイントの大まかな位置を得ることができる。例えば、第１の特徴マップにおける特徴を分析して、特定待ち画像におけるキーポイントの初期位置を確定する。具体的に、第１の特徴マップにおける大きなスケールの大域的意味特徴を用いて、キーポイントの初期位置を確定することができる。ここで、キーポイントは、特定待ち画像に存在したターゲットの主要な部位上の点であってもよい。キーポイントの初期位置は、キーポイントの大まかな位置であってもよい。特定待ち画像に存在する人体を例にとると、その対応するキーポイントは、頭、五官、首、四肢などの部位上の点を含むことができるが、これらに限定されない。

ステップ２０３において、第２の特徴マップに基づいて、キーポイントのオフセット量を確定する。

本実施例において、上記実行主体は、第２の特徴マップに基づいて正確な特定を行うことにより、キーポイントの正確なオフセットを得ることができる。例えば、第２の特徴マップにおける特徴を分析して、特定待ち画像におけるキーポイントのオフセット量を確定する。具体的に、第２の特徴マップにおける小さなスケールの局所的意味特徴を用いて、キーポイントのオフセット量を確定することができる。ここで、キーポイントのオフセット量は、キーポイントの最終位置と初期位置との間のオフセットであってもよい。キーポイントの最終位置は、キーポイントの正確な位置であってもよい。

ステップ２０４において、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。

本実施例において、上記実行主体は、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置を得ることができる。

本発明の実施例によるキーポイントの特定方法は、まず、特定待ち画像の第１の特徴マップと第２の特徴マップを抽出し、次に、第１の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定し、第２の特徴マップに基づいて、キーポイントのオフセット量を確定し、最後に、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。異なる特徴マップを使用して、キーポイントに対し粗い特定と正確な特定をそれぞれに行うことにより、粗い特定と正確な特定で注目された異なるタイプの特徴に対する特徴マップの学習能力を高め、最終的にキーポイントの特定の正確さを向上させる。直接にヒートマップに基づくキーポイントの特定に誤差があるという技術的問題を解決した。当該技術案は、オープンなＡＩプラットフォームに適用でき、既存のオープンソースの技術案より優れている。

さらに図３を参照すると、本発明によるキーポイントの特定方法の別の実施例のフロー３００が示されている。当該キーポイントの特定方法は、以下のステップを含む。

ステップ３０１において、特定待ち特徴マップをマスターネットワークに入力し、特定待ち画像の初期特徴マップを出力する。

本実施例において、キーポイントの特定方法の実行主体（例えば図１に示されたサーバ１０３）は、１つのディープニューラルネットワークの２つの独立した分岐を使用して２つの特徴マップをそれぞれ抽出することができる。通常、ディープニューラルネットワークは、１つのマスターネットワークを含むことができ、マスターネットワークから第１のサブネットワークと第２のサブネットワークの２つの異なる分岐を引き出すことができる。まず特定待ち特徴マップをマスターネットワークに入力し、マスターネットワークは、特定待ち画像の初期特徴マップを出力することができる。ここで、マスターネットワークは、大量の畳み込み層を含むことができる。

ステップ３０２において、初期特徴マップを第１のサブネットワークおよび第２のサブネットワークにそれぞれ入力し、第１の特徴マップおよび第２の特徴マップを出力する。

本実施例において、上記実行主体は、マスターネットワークから出力された初期特徴マップを第１のサブネットワークおよび第２のサブネットワークにそれぞれ入力し、第１の特徴マップおよび第２の特徴マップを出力することができる。

ここで、第１のサブネットワークと第２のサブネットワークは、マスターネットワークの２つの異なる分岐であってもよい。この２つの分岐は、大量の畳み込み層を含むことができ、その構造は同じでもいいし、異なってもいい。構造が同じである場合、２つの分岐が２つの異なる特徴マップを出力することを保証するために、そのパラメータが必ず異なる。

ステップ３０３において、第１の特徴マップに基づいて、特定待ち画像におけるキーポイントのヒートマップを生成する。

本実施例において、上記実行主体は、第１の特徴マップに基づいて、特定待ち画像におけるキーポイントのヒートマップを生成することができる。ここで、ヒートマップ上の各ポイントの熱力値は、それがキーポイントである確率を表すために用いることができる。通常、熱力値が大きいほど、対応するポイントがキーポイントである確率が高くなる。

ステップ３０４において、ヒートマップ上のポイントの熱力値に基づいて、キーポイントの初期位置を確定する。

本実施例において、上記実行主体は、ヒートマップ上のポイントの熱力値に基づいて、キーポイントの初期位置を確定することができる。例えば、上記実行主体は、熱力値が予め設定された閾値より大きいポイントをキーポイントとして大まかに確定することができ、そのヒートマップ上の位置は、キーポイントの初期位置である。

いくつかの実施例において、１×１で第１の特徴マップを畳み込むことにより、ヒートマップを得ることができる。ここで、ヒートマップのチャネルの数は、キーポイントの数と同じであり、ヒートマップのチャネルは、キーポイントに１対１で対応する。１つのチャネルにおいて応答値が最も大きいポイントの位置が、対応するキーポイントの初期位置である。

ステップ３０５において、キーポイントの初期位置に基づいて、第２の特徴マップの対応する位置において特徴を抽出する。

本実施例において、上記実行主体は、キーポイントの初期位置に基づいて、第２の特徴マップにおいて対応する位置を検索し、対応する位置において特徴を抽出することができる。対応する位置だけで特徴を抽出するので、得られたものが、キーポイントの局所的意味特徴である。

ステップ３０６において、特徴を用いてオフセット量の回帰を行うことにより、キーポイントのオフセット量が得られる。

本実施例において、上記実行主体は、特徴を用いてオフセット量の回帰を行うことにより、キーポイントのオフセット量を得ることができる。

ここで、キーポイントのオフセット量δは、式δ＝ｆｕｎｃ（Ｆ）によって得られる。Ｆは、キーポイントの初期位置に基づいて、第２の特徴マップの対応する位置において抽出された特徴である。ｆｕｎｃは、回帰ネットワークであり、１～２層の全結合層であってよい。

ステップ３０７において、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。

本実施例において、ステップ３０７の具体的な動作は、図２に示された実施例のステップ２０４において詳細に説明され、ここでは説明を省略する。

図３から分かるように、図２に対応する実施例と比較して、本実施例におけるキーポイントの特定方法のフロー３００は、特徴マップを抽出するステップ及びオフセット量を確定するステップを強調している。したがって、本実施例で説明された技術案では、同じディープニューラルネットワークの異なる分岐を用いて第１の特徴マップおよび第２の特徴マップをそれぞれ抽出し、抽出プロセスは、同じ層と独立した層との両方を含み、２つの特徴マップに一定の関連があり、また一定の区別があるようにすることができる。また、粗い特定の段階とは異なる第２の特徴マップを用いて、キーポイントの位置誤差の回帰を行うことにより、キーポイントに対する正確な特定が実現された。

理解を容易にするために、以下、本発明の実施例のキーポイントの特定方法を実現することができるシーン図を提供する。図４に示すように、当該シーンは、特徴マップ抽出段階４０１と、粗い特定段階４０２と、正確な特定段階４０３とを含む。特徴マップ抽出段階４０１については、２つの独立した分岐を含む１つのディープニューラルネットワークを用いて、画像の第１の特徴マップと第２の特徴マップをそれぞれ抽出する。粗い特定段階４０２については、第１の特徴マップに基づいてヒートマップを生成し、ヒートマップ上のポイントの熱力値に基づいてキーポイントの大まかな位置を確定する。正確な特定段階４０３については、大まかな位置に基づいて第２の特徴マップの対応する位置において特徴を抽出し、また、特徴を用いてオフセット量の回帰を行うことにより、オフセット量が得られる。最後に、大まかな位置をオフセット量に加算することにより、正確な位置が得られる。

さらに図５を参照して、上記の各図に示された方法の実現として、本開示はキーポイントの特定装置の一実施例を提供し、当該装置の実施例は、図２に示す方法実施例に対応し、当該装置は、具体的に様々な電子機器に適用できる。

図５に示すように、本実施例に係るキーポイントの特定装置５００は、特徴マップ抽出モジュール５０１と、初期位置確定モジュール５０２と、オフセット量確定モジュール５０３と、最終位置生成モジュール５０４とを含む。ここで、特徴マップ抽出モジュール５０１は、特定待ち画像の第１の特徴マップと第２の特徴マップを抽出するように構成され、ここで、第１の特徴マップは、第２の特徴マップと異なる特徴マップである。初期位置確定モジュール５０２は、第１の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定するように構成される。オフセット量確定モジュール５０３は、第２の特徴マップに基づいて、キーポイントのオフセット量を確定するように構成される。最終位置生成モジュール５０４は、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られるように構成される。

本実施例において、キーポイントの特定装置５００において、特徴マップ抽出モジュール５０１、初期位置確定モジュール５０２、オフセット量確定モジュール５０３、及び最終位置生成モジュール５０４の具体的な処理およびそれによる技術的効果について、図２の対応する実施例におけるステップ２０１～２０４の関連説明をそれぞれ参照することができ、ここでは説明を省略する。

本実施例のいくつかの選択可能な実施形態において、特徴マップ抽出モジュール５０１は、さらに、特定待ち特徴マップをマスターネットワークに入力し、特定待ち画像の初期特徴マップを出力し、初期特徴マップを第１のサブネットワークおよび第２のサブネットワークにそれぞれ入力し、第１の特徴マップおよび第２の特徴マップを出力するように構成され、ここで、第１のサブネットワークと第２のサブネットワークは、マスターネットワークの２つの異なる分岐である。

本実施例のいくつかの選択可能な実施形態において、初期位置確定モジュール５０２は、第１の特徴マップに基づいて、特定待ち画像におけるキーポイントのヒートマップを生成するように構成されるヒートマップ生成サブモジュール（図示せず）と、ヒートマップ上のポイントの熱力値に基づいて、キーポイントの初期位置を確定するように構成される初期位置確定サブモジュール（図示せず）と、を含む。

本実施例のいくつかの選択可能な実施形態において、ヒートマップ生成サブモジュールは、さらに、１×１で第１の特徴マップを畳み込むことにより、ヒートマップが得られるように構成され、ここで、ヒートマップのチャネルは、キーポイントに１対１で対応する。

本実施例のいくつかの選択可能な実施形態において、オフセット量確定モジュール５０３は、さらに、キーポイントの初期位置に基づいて、第２の特徴マップの対応する位置において特徴を抽出し、特徴を用いてオフセット量の回帰を行うことにより、キーポイントのオフセット量が得られるように構成される。

本発明の実施例によると、本発明は、電子機器及び可読記憶媒体をさらに提供する。

図６に示すように、本発明の実施例のキーポイントの特定方法による電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の類似のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すこともできる。本明細書に示された部品、それらの接続および関係、およびそれらの機能は、単なる例にすぎ、本明細書で説明されおよび/または要求されている本発明の実現を制限することを意図しない。

図６に示すように、当該電子機器は、少なくとも１つのプロセッサ６０１と、メモリ６０２と、高速インターフェースと低速インターフェースを含む各部品を接続するためのインターフェースとを含む。各部品は、異なるバスを利用して互いに接続され、共通マザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、ＧＵＩのグラフィカル情報を外部入力／出力装置（例えば、インターフェースにカップリングされた表示装置）に表示するためのメモリ内またはメモリ上に記憶された命令を含む、電子機器内で実行された指令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子機器を接続してもよく、各機器は、部分的に必要な動作（例えば、サーバアレイ、１組のブレードサーバ、またはマルチプロセッサシステムとして）を提供する。図６では、１つのプロセッサ６０１を例にとる。

メモリ６０２は、本発明による非一時的コンピュータ可読記憶媒体である。ここで、前記メモリは、少なくとも１つのプロセッサによって実行され得る指令を記憶することにより、本発明によるキーポイントの特定方法を前記少なくとも１つのプロセッサに実行させる。本発明の非一時的コンピュータ可読記憶媒体は、コンピュータ指令を記憶し、当該コンピュータ指令は、本発明によるキーポイントの特定方法をコンピュータに実行させるために使用される。

メモリ６０２は、非一時的コンピュータ可読記憶媒体として、本発明の実施例におけるキーポイントの特定方法に対応するプログラム指令／モジュール（例えば、図５に示された特徴マップ抽出モジュール５０１、初期位置確定モジュール５０２、オフセット量確定モジュール５０３、および最終位置生成モジュール５０４）のような、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、およびモジュールを記憶するために使用することができる。プロセッサ６０１は、メモリ６０２に記憶された非一時的ソフトウェアプログラム、指令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行し、すなわち、上述した方法の実施例におけるキーポイントの特定方法が実現される。

メモリ６０２は、プログラム記憶領域およびデータ記憶領域を含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、キーポイントの特定方法による電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ６０２としては、高速ランダムアクセスメモリを含むことができ、例えば少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一時的固体記憶装置などの非一時的メモリを含むこともできる。いくつかの実施例では、選択肢の一つとして、メモリ６０２は、プロセッサ６０１に対して遠隔的に配置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してキーポイントの特定方法の電子機器に接続することができる。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルエリアネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。

キーポイントの特定方法の電子機器は、入力装置６０３および出力装置６０４をさらに含むことができる。プロセッサ６０１、メモリ６０２、入力装置６０３および出力装置６０４は、バスまたは他の方法で接続することができ、図６では、バスで接続されることを例にとる。

入力装置６０３は、入力された数字または文字メッセージを受信し、キーポイントの特定方法の電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックボード、タッチパッド、指示棒、１つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置６０４としては、表示装置、補助照明装置（例えば、ＬＥＤ）、および触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置としては、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施例では、表示装置は、タッチスクリーンであってもよい。

ここで説明されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、以下の内容を含むことができ、即ち、１つ以上のコンピュータプログラムに実施され、当該１つ以上のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈することができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび指令を受信し、且つデータおよび指令を当該記憶システム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置に送信することができる。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサのマシン指令を含み、高度なプロセスおよび／またはオブジェクトに向けたプログラミング言語、および／またはアセンブリ／マシン言語を利用してこれらの計算プログラムを実行することができる。本明細書で使用されたような用語「機械可読媒体」および「コンピュータ可読媒体」とは、機械指令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械可読信号である機械指令を受信する機械可読媒体を含む。用語「機械可読信号」とは、機械指令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクティブを提供するために、ここで説明されたシステムおよび技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）を備え、ユーザは、当該キーボードおよび当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクティブを提供するために使用することもできる。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形態（声入力、音声入力、または触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステムおよび技術を、バックグラウンド部品を含む計算システム（例えば、データサーバ）、またはミドルウエア部品を含む計算システム（例えば、アプリケーションサーバ）、またはフロントエンド部品を含む計算システム（例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータが挙げられ、ユーザは、当該グラフィカルユーザインタフェースまたは当該ネットワークブラウザを介してここで説明されたシステムおよび技術の実施形態とインタラクティブすることができる）、またはこのようなバックグラウンド部品、ミドルウエア部品、またはフロントエンド部品の任意の組合せを含む計算システム上で実施することができる。システムの部品は、任意の形態またはメディアのデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されてもよい。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に互いに離れ、通常は通信ネットワークを介してインタラクティブする。クライアントとサーバとの関係は、対応するコンピュータ上で実行され、且つ互いにクライアント－サーバ関係を有するコンピュータプログラムによって生成される。

本発明の技術案によると、まず、特定待ち画像の第１の特徴マップと第２の特徴マップを抽出し、次に、第１の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定し、第２の特徴マップに基づいて、キーポイントのオフセット量を確定し、最後に、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。異なる特徴マップを使用して、キーポイントに対し粗い特定と正確な特定をそれぞれに行うことにより、粗い特定と正確な特定で注目された異なるタイプの特徴に対する特徴マップの学習能力を高め、最終的にキーポイントの特定の正確さを向上させる。直接にヒートマップに基づくキーポイントの特定に誤差があるという技術的問題を解決した。当該技術案は、オープンなＡＩプラットフォームに適用でき、既存のオープンソースの技術案より優れている。

以上で示された様々な形態のフローを用いて、ステップを並べ替え、追加、または削除できることを理解すべきである。例えば、本発明に記載された各ステップは、並列的に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望の結果が達成される限り、本明細書では制限しない。

上記具体的な実施形態は、本発明の保護範囲に対する制限を構成するものではない。当業者は、設計要件とその他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、および代替を行うことが可能であることを理解すべきである。本発明の精神及び原則内でなされたいかなる修正、均等置換及び改善等も、いずれも本発明の保護範囲に含まれるべきである。

Claims

特定待ち画像の第１の特徴マップと第２の特徴マップを抽出することであって、ここで、前記第１の特徴マップは、前記第２の特徴マップと異なる特徴マップであることと、
前記第１の特徴マップに基づいて、前記特定待ち画像におけるキーポイントの初期位置を確定することと、
前記第２の特徴マップに基づいて、前記キーポイントのオフセット量を確定することと、
前記キーポイントの初期位置を前記キーポイントのオフセット量に加算することにより、前記キーポイントの最終位置が得られることと、
を含み、
前記特定待ち画像の第１の特徴マップと第２の特徴マップを抽出することは、
特定待ち特徴マップをマスターネットワークに入力し、前記特定待ち画像の初期特徴マップを出力することと、
前記初期特徴マップを第１のサブネットワークおよび第２のサブネットワークにそれぞれ入力し、前記第１のサブネットワークから前記第１の特徴マップを出力し、前記第２のサブネットワークから前記第２の特徴マップを出力することであって、ここで、前記第１のサブネットワークと前記第２のサブネットワークは、前記マスターネットワークの２つの異なる分岐であることと、を含む、
キーポイントの特定方法。
前記第１の特徴マップに基づいて、前記特定待ち画像におけるキーポイントの初期位置を確定することは、
前記第１の特徴マップに基づいて、前記特定待ち画像におけるキーポイントのヒートマップを生成することと、
前記ヒートマップ上のポイントの熱力値に基づいて、前記キーポイントの初期位置を確定することと、
を含む、
請求項１に記載の方法。
前記第１の特徴マップに基づいて、前記特定待ち画像におけるキーポイントのヒートマップを生成することは、
１×１で前記第１の特徴マップを畳み込むことにより、前記ヒートマップが得られ、ここで、前記ヒートマップのチャネルは、前記キーポイントに１対１で対応することを含む、
請求項２に記載の方法。
前記第２の特徴マップに基づいて、前記キーポイントのオフセット量を確定することは、
前記キーポイントの初期位置に基づいて、前記第２の特徴マップの対応する位置において特徴を抽出することと、
前記特徴を用いてオフセット量の回帰を行うことにより、前記キーポイントのオフセット量が得られることと、
を含む、
請求項１に記載の方法。
特定待ち画像の第１の特徴マップと第２の特徴マップを抽出するように構成される特徴マップ抽出モジュールであって、ここで、前記第１の特徴マップは、前記第２の特徴マップと異なる特徴マップである特徴マップ抽出モジュールと、
前記第１の特徴マップに基づいて、前記特定待ち画像におけるキーポイントの初期位置を確定するように構成される初期位置確定モジュールと、
前記第２の特徴マップに基づいて、前記キーポイントのオフセット量を確定するように構成されるオフセット量確定モジュールと、
前記キーポイントの初期位置を前記キーポイントのオフセット量に加算することにより、前記キーポイントの最終位置が得られるように構成される最終位置生成モジュールと、
を含む、
前記特徴マップ抽出モジュールは、さらに、
特定待ち特徴マップをマスターネットワークに入力し、前記特定待ち画像の初期特徴マップを出力し、
前記初期特徴マップを第１のサブネットワークおよび第２のサブネットワークにそれぞれ入力し、前記第１の特徴マップおよび前記第２の特徴マップを出力するように構成され、ここで、前記第１のサブネットワークと前記第２のサブネットワークは、前記マスターネットワークの２つの異なる分岐である、
キーポイントの特定装置。
前記初期位置確定モジュールは、
前記第１の特徴マップに基づいて、前記特定待ち画像におけるキーポイントのヒートマップを生成するように構成されるヒートマップ生成サブモジュールと、
前記ヒートマップ上のポイントの熱力値に基づいて、前記キーポイントの初期位置を確定するように構成される初期位置確定サブモジュールと、
を含む、
請求項５に記載の装置。
前記ヒートマップ生成サブモジュールは、さらに、
１×１で前記第１の特徴マップを畳み込むことにより、前記ヒートマップが得られるように構成され、ここで、前記ヒートマップのチャネルは、前記キーポイントに１対１で対応する、
請求項６に記載の装置。
前記オフセット量確定モジュールは、さらに、
前記キーポイントの初期位置に基づいて、前記第２の特徴マップの対応する位置において特徴を抽出し、
前記特徴を用いてオフセット量の回帰を行うことにより、前記キーポイントのオフセット量が得られるように構成される、
請求項５に記載の装置。
１つ以上のプロセッサと、
１つ以上のプログラムが記憶された記憶装置と、
を含み、
前記１つ以上のプログラムが前記１つ以上のプロセッサによって実行されるとき、請求項１から４のいずれか１項に記載の方法を前記１つ以上のプロセッサに実現させる、
電子機器。
コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１から４のいずれか１項に記載の方法を実現する、
コンピュータ可読媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１から４のいずれか１項に記載の方法を実現する
コンピュータプログラム。