JP7182021B2 - キーポイント検出方法、キーポイント検出装置、電子機器及び記憶媒体 - Google Patents

キーポイント検出方法、キーポイント検出装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7182021B2
JP7182021B2 JP2021565761A JP2021565761A JP7182021B2 JP 7182021 B2 JP7182021 B2 JP 7182021B2 JP 2021565761 A JP2021565761 A JP 2021565761A JP 2021565761 A JP2021565761 A JP 2021565761A JP 7182021 B2 JP7182021 B2 JP 7182021B2
Authority
JP
Japan
Prior art keywords
keypoint
keypoints
graphic model
information
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021565761A
Other languages
English (en)
Other versions
JP2022543954A (ja
Inventor
金晟
▲劉▼文▲韜▼
▲錢▼晨
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2022543954A publication Critical patent/JP2022543954A/ja
Application granted granted Critical
Publication of JP7182021B2 publication Critical patent/JP7182021B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Description

(関連出願の相互参照)
本開示は、出願番号が202010622135.7、出願日が2020年6月30日の中国特許出願に基づいて提案され、且つこの中国特許出願の優先権を主張し、この中国特許出願の全てが参照によって本願に組み込まれる。
本開示は、画像処理の技術分野に関し、特に、キーポイント検出方法、キーポイント検出装置、電子機器及び記憶媒体に関するものである。
人体キーポイントの検出と追跡は、ビデオ解析の基礎となり、安全保障分野や動作解析分野において今後でも重要なものと言える。ボトムアップの多人姿勢検出技術は、高い計算効率を有するので、幅広く応用されている。一般的には、ボトムアップ手法は、まず予測して各キーポイントの位置を得、次に各キーポイントに対してクラスタリングを行い、全体的な人体姿勢を得るようになっている。
従来の方法において、グラフカットアルゴリズム又は発見的クラスタリングアルゴリズムを用いて各キーポイントに対してクラスタリングを行うことができ、クラスタリングプロセスはただ後処理操作となり、クラスタリング結果に対する直接的な教師がなく、キーポイントクラスタリングプロセスの正確度が低い。
係る事情に鑑みて、本開示は、少なくともキーポイント検出方法、キーポイント検出装置、電子機器及び記憶媒体を提供する。
第1態様では、本開示は、キーポイント検出方法を提供する。前記方法は、検出すべき画像を取得するステップと、前記検出すべき画像に基づいて画像特徴マップと複数のキーポイントヒートマップを生成するステップであって、前記画像特徴マップは前記検出すべき画像中の各目標対象間の相対的位置関係を表すためのものであり、各前記キーポイントヒートマップは前記検出すべき画像の1種のカテゴリのキーポイントを含み、異なるカテゴリのキーポイントが前記目標対象の異なる部位に対応する、ステップと、前記画像特徴マップと複数の前記キーポイントヒートマップに基づいて初期キーポイントグラフィックモデルを生成するステップであって、前記初期キーポイントグラフィックモデルは前記検出すべき画像における異なるカテゴリのキーポイントの情報及び接続辺の情報を含み、各接続辺は2つの異なるカテゴリのキーポイントの間の辺である、ステップと、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行って、それぞれ各目標対象に属するキーポイント情報を得るステップと、を含む。
上記方法を採用すれば、生成した画像特徴マップと複数のキーポイントヒートマップに基づいて検出すべき画像に対応する初期キーポイントグラフィックモデルを生成することができ、初期キーポイントグラフィックモデルは画像特徴マップとキーポイントヒートマップ中の情報を含み、画像特徴マップが検出すべき画像における異なる目標対象間の相対的位置関係を表すことができるので、初期キーポイントグラフィックモデルに対して、接続辺の枝刈り処理を行って各目標対象のキーポイント情報を得ることができ、異なる目標対象のキーポイントを正確に区別して、キーポイントクラスタリングの精度を高める。
可能な一実施形態では、前記キーポイントの情報は位置情報、カテゴリ情報及び画素特徴情報を含み、前記キーポイントヒートマップに基づいて各キーポイントの位置情報を決定するステップと、各前記キーポイントの位置情報に基づいて前記画像特徴マップから前記キーポイントの画素特徴情報を抽出し、且つ前記キーポイントの所属するキーポイントヒートマップのカテゴリラベルに基づいて前記キーポイントに対応するカテゴリ情報を決定するステップと、により、前記初期キーポイントグラフィックモデル中の各キーポイントの情報を決定する。
可能な一実施形態では、前記方法は、前記初期キーポイントグラフィックモデル中の各前記キーポイントに対して、前記キーポイントの情報、及び前記キーポイントグラフィックモデルにおける前記キーポイントの間に接続辺が存在する他のキーポイントの情報に基づいて、前記キーポイントの融合特徴を決定するステップを更に含み、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行うステップは、前記初期キーポイントグラフィックモデルに含まれる各前記キーポイントの融合特徴に基づいて、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行うステップを含む。
可能な一実施形態では、前記処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行うステップは、現在キーポイントグラフィックモデルに対して第1処理プロセスを実行するステップであって、前記現在キーポイントグラフィックモデル中の各接続辺に対応する2つのキーポイントの融合特徴に基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、クラスタリングされた複数の隣接キーポイントを含む少なくとも1つのマクロノードを得、各前記マクロノードに含まれるキーポイントの融合特徴に基づいて前記マクロノードの融合特徴を決定するステップと、得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて、前記現在キーポイントグラフィックモデルに対して今回の前記接続辺の枝刈り処理を行って、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップと、を含む、第1処理プロセスを実行するステップと、今回の前記第1処理プロセスを実行した後、今回の枝刈り処理後のキーポイントグラフィックモデルを現在キーポイントグラフィックモデルとし、今回決定された前記マクロノード及び前記マクロノードの融合特徴を前記現在キーポイントグラフィックモデル中のキーポイント及びキーポイントの融合特徴とし、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記第1処理プロセスを再度実行するステップと、を含む。
可能な一実施形態では、前記現在キーポイントグラフィックモデル中の各接続辺に対応する2つのキーポイントの融合特徴に基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得るステップは、前記接続辺に対応する2つのキーポイントの融合特徴に基づいて前記接続辺の重みを決定するステップであって、前記重みは前記接続辺に対応する2つのキーポイントが同一目標対象に属する確率を表す、ステップと、前記現在キーポイントグラフィックモデルに含まれる各接続辺の重みに基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得るステップと、を含む。ここで、接続辺に対応する2つのキーポイントが同一目標対象に属する確率を表す、各接続辺の重みを決定することで、各接続辺の重みに基づいて現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得ることができ、例えば、対応する重みの大きい2つのキーポイントを1グループにクラスタリングして、1つのマクロノードを得て、マクロノードが正確に決定される。
可能な一実施形態では、得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて、前記現在キーポイントグラフィックモデルに対して今回の前記接続辺の枝刈り処理を行って、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップは、得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて削除すべき接続辺を決定し、且つ前記現在キーポイントグラフィックモデルから前記削除すべき接続辺を削除するステップと、少なくとも1つの前記マクロノード、及び前記現在キーポイントグラフィックモデルにおける前記マクロノードに含まれるキーポイント以外の他のキーポイントを枝刈り処理後のキーポイントとし、削除後に残された接続辺を枝刈り処理後の接続辺として、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップと、を含む。
可能な一実施形態では、得られた少なくとも1つのマクロノードと前記現在キーポイントグラフィックモデルに基づいて削除すべき接続辺を決定するステップは、少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び前記現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、前記削除すべき接続辺を決定するステップを含む。
可能な一実施形態では、少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び前記現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、前記削除すべき接続辺を決定するステップは、前記現在キーポイントグラフィックモデルにおけるいずれかの接続辺に対して、このいずれかの接続辺に対応する2つのキーポイントが異なるマクロノード中のキーポイントであり、且つこのいずれかの接続辺に対応する2つのマクロノードにカテゴリ情報が同じなキーポイントが存在する場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、このいずれかの接続辺に対応する2つのキーポイントが同一マクロノード中のキーポイントである場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、このいずれかの接続辺に対応する2つのキーポイントの一方がマクロノード中のキーポイントであり、他方がマクロノード中のキーポイントでなく、且つこのいずれかの接続辺に対応する前記マクロノードに他方のキーポイントのカテゴリ情報と同じなキーポイントが存在する場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、を含む。
可能な一実施形態では、前記各目標対象のキーポイント情報は事前トレーニング済み目標ニューラルネットワークによって生成され、前記目標ニューラルネットワークはマクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして得られたものであり、前記マクロノード弁別器は各マクロノードに含まれる複数のキーポイントが同一目標対象に属するかを判別するためのものである。
可能な一実施形態では、サンプル画像を取得するステップと、前記サンプル画像に基づいて前記マクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップと、によって、前記トレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得る。
可能な一実施形態では、前記サンプル画像に基づいて前記マクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップは、前記サンプル画像に基づいて前記トレーニング待ちニューラルネットワークをトレーニングして、予測結果を得るステップであって、前記予測結果は前記マクロノード弁別器の検出結果、各キーポイントの予測カテゴリ及び各キーポイントの予測位置情報を含む、ステップと、前記マクロノード弁別器の検出結果に基づいて第1損失値を決定し、また、前記各キーポイントの予測カテゴリ、前記各キーポイントの予測位置情報及び前記サンプル画像に含まれるラベリング結果に基づいて第2損失値を決定するステップであって、前記ラベリング結果は対応する目標対象に属する各キーポイントのラベリングカテゴリ及び各キーポイントのラベリング位置情報を含む、ステップと、前記第1損失値と前記第2損失値に基づいて前記トレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップと、を含む。
可能な一実施形態では、前記検出すべき画像中の各目標対象のキーポイント情報を得た後、各目標対象に対応する前記キーポイント情報に基づいてこの目標対象の行動種類を決定するステップを更に含む。
可能な一実施形態では、前記検出すべき画像中の各目標対象のキーポイント情報を得た後、各目標対象に対応する前記キーポイント情報に基づいてこの目標対象の少なくとも1つの目標部位の位置情報を決定し、且つ前記少なくとも1つの目標部位の位置情報により前記少なくとも1つの目標部位に対する特殊効果情報を生成するステップを更に含む。
以下において、装置、電子機器等の効果の記述については上記方法の説明を参照し、ここで詳細な説明を省略する。
第2態様では、本開示は、キーポイント検出装置を提供する。前記装置は、検出すべき画像を取得するように構成される取得モジュールと、前記検出すべき画像に基づいて画像特徴マップと複数のキーポイントヒートマップを生成するように構成される第1生成モジュールであって、前記画像特徴マップは前記検出すべき画像中の各目標対象のキーポイント間の相対的位置関係を表すためのものであり、各前記キーポイントヒートマップは前記検出すべき画像の1種のカテゴリのキーポイントを含み、異なるカテゴリのキーポイントが前記目標対象の異なる部位に対応する、第1生成モジュールと、前記画像特徴マップと複数の前記キーポイントヒートマップに基づいて初期キーポイントグラフィックモデルを生成するように構成される第2生成モジュールであって、前記初期キーポイントグラフィックモデルは前記検出すべき画像における異なるカテゴリのキーポイントの情報及び接続辺の情報を含み、各接続辺は2つの異なるカテゴリのキーポイントの間の辺である、第2生成モジュールと、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行って、それぞれ各目標対象に属するキーポイント情報を得るように構成される処理モジュールと、を備える。
第3態様では、本開示は、電子機器を提供する。前記電子機器は、プロセッサと、前記プロセッサによって実行可能な機器可読命令を記憶するメモリと、バスと、を備え、電子機器が実行する場合に、前記プロセッサと前記メモリがバスによって通信し、前記プロセッサは前記機器可読命令を実行して上記第1態様又はいずれかの実施形態に記載のキーポイント検出方法のステップを実行する。
第4態様では、本開示は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体は、プロセッサにより実行する時に前記プロセッサに上記第1態様又はいずれかの実施形態に記載のキーポイント検出方法のステップを実行させるコンピュータプログラムを記憶する。
第5態様では、本開示は、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品は、電子機器で実行する時に、前記電子機器中のプロセッサに上記1つ又は複数の実施例に記載のキーポイント検出方法を実行するためのコンピュータ可読コードを含む。
本開示の上記の目的、特徴及びメリットをより明らかで分かりやすくするために、以下において、特に好ましい実施例を挙げ、添付された図面を参照しながら詳細に説明する。
例えば、本願は以下の項目を提供する。
(項目1)
検出すべき画像を取得するステップと、
前記検出すべき画像に基づいて画像特徴マップと複数のキーポイントヒートマップを生成するステップであって、前記画像特徴マップは前記検出すべき画像中の各目標対象間の相対的位置関係を表すためのものであり、各前記キーポイントヒートマップは前記検出すべき画像の1種のカテゴリのキーポイントを含み、異なるカテゴリのキーポイントが前記目標対象の異なる部位に対応する、ステップと、
前記画像特徴マップと複数の前記キーポイントヒートマップに基づいて初期キーポイントグラフィックモデルを生成するステップであって、前記初期キーポイントグラフィックモデルは前記検出すべき画像における異なるカテゴリのキーポイントの情報及び接続辺の情報を含み、各接続辺は2つの異なるカテゴリのキーポイントの間の辺である、ステップと、
処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行って、それぞれ各目標対象に属するキーポイント情報を得るステップと、を含む、キーポイント検出方法。
(項目2)
前記キーポイントの情報は位置情報、カテゴリ情報及び画素特徴情報を含み、
前記キーポイントヒートマップに基づいて各キーポイントの位置情報を決定するステップと、
各前記キーポイントの位置情報に基づいて前記画像特徴マップから前記キーポイントの画素特徴情報を抽出し、且つ前記キーポイントの所属するキーポイントヒートマップのカテゴリラベルに基づいて前記キーポイントに対応するカテゴリ情報を決定するステップと、により、前記初期キーポイントグラフィックモデル中の各キーポイントの情報を決定する
項目1に記載のキーポイント検出方法。
(項目3)
前記初期キーポイントグラフィックモデル中の各前記キーポイントに対して、前記キーポイントの情報、及び前記キーポイントグラフィックモデルにおける前記キーポイントの間に接続辺が存在する他のキーポイントの情報に基づいて、前記キーポイントの融合特徴を決定するステップを更に含み、
前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行うステップは、
前記初期キーポイントグラフィックモデルに含まれる各前記キーポイントの融合特徴に基づいて、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行うステップを含む
項目1に記載のキーポイント検出方法。
(項目4)
前記処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行うステップは、
現在キーポイントグラフィックモデルに対して第1処理プロセスを実行するステップであって、
前記現在キーポイントグラフィックモデル中の各接続辺に対応する2つのキーポイントの融合特徴に基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、クラスタリングされた複数の隣接キーポイントを含む少なくとも1つのマクロノードを得、各前記マクロノードに含まれるキーポイントの融合特徴に基づいて前記マクロノードの融合特徴を決定するステップと、
得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて、前記現在キーポイントグラフィックモデルに対して今回の前記接続辺の枝刈り処理を行って、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップと、を含む、第1処理プロセスを実行するステップと、
今回の前記第1処理プロセスを実行した後、今回の枝刈り処理後のキーポイントグラフィックモデルを現在キーポイントグラフィックモデルとし、今回決定された前記マクロノード及び前記マクロノードの融合特徴を前記現在キーポイントグラフィックモデル中のキーポイント及びキーポイントの融合特徴とし、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記第1処理プロセスを再度実行するステップと、を含む
項目1~3のいずれか一項に記載のキーポイント検出方法。
(項目5)
前記現在キーポイントグラフィックモデル中の各接続辺に対応する2つのキーポイントの融合特徴に基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得るステップは、
前記接続辺に対応する2つのキーポイントの融合特徴に基づいて前記接続辺の重みを決定するステップであって、前記重みは前記接続辺に対応する2つのキーポイントが同一目標対象に属する確率を表す、ステップと、
前記現在キーポイントグラフィックモデルに含まれる各接続辺の重みに基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得るステップと、を含む
項目4に記載のキーポイント検出方法。
(項目6)
前記得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて、前記現在キーポイントグラフィックモデルに対して今回の前記接続辺の枝刈り処理を行って、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップは、
前記得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて削除すべき接続辺を決定し、且つ前記現在キーポイントグラフィックモデルから前記削除すべき接続辺を削除するステップと、
前記少なくとも1つの前記マクロノード、及び前記現在キーポイントグラフィックモデルにおける前記マクロノードに含まれるキーポイント以外の他のキーポイントを枝刈り処理後のキーポイントとし、削除後に残された接続辺を枝刈り処理後の接続辺として、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップと、を含む
項目4に記載のキーポイント検出方法。
(項目7)
前記得られた少なくとも1つのマクロノードと前記現在キーポイントグラフィックモデルに基づいて削除すべき接続辺を決定するステップは、
前記少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び前記現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、前記削除すべき接続辺を決定するステップを含む
項目6に記載のキーポイント検出方法。
(項目8)
前記少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び前記現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、前記削除すべき接続辺を決定するステップは、
前記現在キーポイントグラフィックモデルにおけるいずれかの接続辺に対して、このいずれかの接続辺に対応する2つのキーポイントが異なるマクロノード中のキーポイントであり、且つこのいずれかの接続辺に対応する2つのマクロノードにカテゴリ情報が同じなキーポイントが存在する場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、
このいずれかの接続辺に対応する2つのキーポイントが同一マクロノード中のキーポイントである場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、
このいずれかの接続辺に対応する2つのキーポイントの一方がマクロノード中のキーポイントであり、他方がマクロノード中のキーポイントでなく、且つこのいずれかの接続辺に対応する前記マクロノードに他方のキーポイントのカテゴリ情報と同じなキーポイントが存在する場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、を含む
項目7に記載のキーポイント検出方法。
(項目9)
前記各目標対象のキーポイント情報は事前トレーニング済み目標ニューラルネットワークによって生成され、前記目標ニューラルネットワークはマクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして得られたものであり、前記マクロノード弁別器は各マクロノードに含まれる複数のキーポイントが同一目標対象に属するかを判別するためのものである
項目1~8のいずれか一項に記載のキーポイント検出方法。
(項目10)
サンプル画像を取得するステップと、
前記サンプル画像に基づいて前記マクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップと、によって、前記トレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得る
項目9に記載のキーポイント検出方法。
(項目11)
前記サンプル画像に基づいて前記マクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップは、
前記サンプル画像に基づいて前記トレーニング待ちニューラルネットワークをトレーニングして、予測結果を得るステップであって、前記予測結果は前記マクロノード弁別器の検出結果、各キーポイントの予測カテゴリ及び各キーポイントの予測位置情報を含む、ステップと、
前記マクロノード弁別器の検出結果に基づいて第1損失値を決定し、また、前記各キーポイントの予測カテゴリ、前記各キーポイントの予測位置情報及び前記サンプル画像に含まれるラベリング結果に基づいて第2損失値を決定するステップであって、前記ラベリング結果は対応する目標対象に属する各キーポイントのラベリングカテゴリ及び各キーポイントのラベリング位置情報を含む、ステップと、
前記第1損失値と前記第2損失値に基づいて前記トレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップと、を含む
項目10に記載のキーポイント検出方法。
(項目12)
前記検出すべき画像中の各目標対象のキーポイント情報を得た後、
各目標対象に対応する前記キーポイント情報に基づいてこの目標対象の行動種類を決定するステップを更に含む
項目1~11のいずれか一項に記載のキーポイント検出方法。
(項目13)
前記検出すべき画像中の各目標対象のキーポイント情報を得た後、
各目標対象に対応する前記キーポイント情報に基づいてこの目標対象の少なくとも1つの目標部位の位置情報を決定し、且つ前記少なくとも1つの目標部位の位置情報により前記少なくとも1つの目標部位に対する特殊効果情報を生成するステップを更に含む
項目1~11のいずれか一項に記載のキーポイント検出方法。
(項目14)
検出すべき画像を取得するように構成される取得モジュールと、
前記検出すべき画像に基づいて画像特徴マップと複数のキーポイントヒートマップを生成するように構成される第1生成モジュールであって、前記画像特徴マップは前記検出すべき画像中の各目標対象のキーポイント間の相対的位置関係を表すためのものであり、各前記キーポイントヒートマップは前記検出すべき画像の1種のカテゴリのキーポイントを含み、異なるカテゴリのキーポイントが前記目標対象の異なる部位に対応する、第1生成モジュールと、
前記画像特徴マップと複数の前記キーポイントヒートマップに基づいて初期キーポイントグラフィックモデルを生成するように構成される第2生成モジュールであって、前記初期キーポイントグラフィックモデルは前記検出すべき画像における異なるカテゴリのキーポイントの情報及び接続辺の情報を含み、各接続辺は2つの異なるカテゴリのキーポイントの間の辺である、第2生成モジュールと、
処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行って、それぞれ各目標対象に属するキーポイント情報を得るように構成される処理モジュールと、を備える、キーポイント検出装置。
(項目15)
前記キーポイントの情報は位置情報、カテゴリ情報及び画素特徴情報を含み、前記第2生成モジュールは、
前記キーポイントヒートマップに基づいて各キーポイントの位置情報を決定するステップと、
各前記キーポイントの位置情報に基づいて前記画像特徴マップから前記キーポイントの画素特徴情報を抽出し、且つ前記キーポイントの所属するキーポイントヒートマップのカテゴリラベルに基づいて前記キーポイントに対応するカテゴリ情報を決定するステップと、により、前記初期キーポイントグラフィックモデル中の各キーポイントの情報を決定するように構成される
項目14に記載のキーポイント検出装置。
(項目16)
前記初期キーポイントグラフィックモデル中の各前記キーポイントに対して、前記キーポイントの情報、及び前記キーポイントグラフィックモデルにおける前記キーポイントの間に接続辺が存在する他のキーポイントの情報に基づいて、前記キーポイントの融合特徴を決定するように構成される決定モジュールを更に備え、
前記処理モジュールは、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行う場合に、
前記初期キーポイントグラフィックモデルに含まれる各前記キーポイントの融合特徴に基づいて、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行うように構成される
項目14に記載のキーポイント検出装置。
(項目17)
前記処理モジュールは、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行う場合に、
現在キーポイントグラフィックモデルに対して第1処理プロセスを実行するステップであって、
前記現在キーポイントグラフィックモデル中の各接続辺に対応する2つのキーポイントの融合特徴に基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、クラスタリングされた複数の隣接キーポイントを含む少なくとも1つのマクロノードを得、各前記マクロノードに含まれるキーポイントの融合特徴に基づいて前記マクロノードの融合特徴を決定するステップと、
得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて、前記現在キーポイントグラフィックモデルに対して今回の前記接続辺の枝刈り処理を行って、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップと、を含む、第1処理プロセスを実行するステップと、
今回の前記第1処理プロセスを実行した後、今回の枝刈り処理後のキーポイントグラフィックモデルを現在キーポイントグラフィックモデルとし、今回決定された前記マクロノード及び前記マクロノードの融合特徴を前記現在キーポイントグラフィックモデル中のキーポイント及びキーポイントの融合特徴とし、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記第1処理プロセスを再度実行するステップと、を実行するように構成される
項目14~16のいずれか一項に記載のキーポイント検出装置。
(項目18)
前記処理モジュールは、前記現在キーポイントグラフィックモデル中の各接続辺に対応する2つのキーポイントの融合特徴に基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得る場合に、
前記接続辺に対応する2つのキーポイントの融合特徴に基づいて前記接続辺の重みを決定するステップであって、前記重みは前記接続辺に対応する2つのキーポイントが同一目標対象に属する確率を表す、ステップと、
前記現在キーポイントグラフィックモデルに含まれる各接続辺の重みに基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得るステップと、を実行するように構成される
項目17に記載のキーポイント検出装置。
(項目19)
前記処理モジュールは、得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて、前記現在キーポイントグラフィックモデルに対して今回の前記接続辺の枝刈り処理を行って、今回の枝刈り処理後のキーポイントグラフィックモデルを得る場合に、
前記得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて削除すべき接続辺を決定し、且つ前記現在キーポイントグラフィックモデルから前記削除すべき接続辺を削除するステップと、
少なくとも1つの前記マクロノード、及び前記現在キーポイントグラフィックモデルにおける前記マクロノードに含まれるキーポイント以外の他のキーポイントを枝刈り処理後のキーポイントとし、削除後に残された接続辺を枝刈り処理後の接続辺として、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップと、を実行するように構成される
項目17に記載のキーポイント検出装置。
(項目20)
前記処理モジュールは、得られた少なくとも1つのマクロノードと前記現在キーポイントグラフィックモデルに基づいて削除すべき接続辺を決定する場合に、
前記少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び前記現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、前記削除すべき接続辺を決定するように構成される
項目19に記載のキーポイント検出装置。
(項目21)
前記処理モジュールは、前記少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び前記現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、前記削除すべき接続辺を決定する場合に、
前記現在キーポイントグラフィックモデルにおけるいずれかの接続辺に対して、このいずれかの接続辺に対応する2つのキーポイントが異なるマクロノード中のキーポイントであり、且つこのいずれかの接続辺に対応する2つのマクロノードにカテゴリ情報が同じなキーポイントが存在する場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、
このいずれかの接続辺に対応する2つのキーポイントが同一マクロノード中のキーポイントである場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、
このいずれかの接続辺に対応する2つのキーポイントの一方がマクロノード中のキーポイントであり、他方がマクロノード中のキーポイントでなく、且つこのいずれかの接続辺に対応する前記マクロノードに他方のキーポイントのカテゴリ情報と同じなキーポイントが存在する場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、を実行するように構成される
項目20に記載のキーポイント検出装置。
(項目22)
前記各目標対象のキーポイント情報は事前トレーニング済み目標ニューラルネットワークによって生成され、前記目標ニューラルネットワークはマクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして得られたものであり、前記マクロノード弁別器は各マクロノードに含まれる複数のキーポイントが同一目標対象に属するかを判別するためのものである
項目14~21のいずれか一項に記載のキーポイント検出装置。
(項目23)
サンプル画像を取得するステップと、
前記サンプル画像に基づいて前記マクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップと、によって、前記トレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るように構成されるトレーニングモジュールを更に備える
項目22に記載のキーポイント検出装置。
(項目24)
前記トレーニングモジュールは、前記サンプル画像に基づいて前記マクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得る場合に、
前記サンプル画像に基づいて前記トレーニング待ちニューラルネットワークをトレーニングして、予測結果を得るステップであって、前記予測結果は前記マクロノード弁別器の検出結果、各キーポイントの予測カテゴリ及び各キーポイントの予測位置情報を含む、ステップと、
前記マクロノード弁別器の検出結果に基づいて第1損失値を決定し、また、前記各キーポイントの予測カテゴリ、前記各キーポイントの予測位置情報及び前記サンプル画像に含まれるラベリング結果に基づいて第2損失値を決定するステップであって、前記ラベリング結果は対応する目標対象に属する各キーポイントのラベリングカテゴリ及び各キーポイントのラベリング位置情報を含む、ステップと、
前記第1損失値と前記第2損失値に基づいて前記トレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップと、を実行するように構成される
項目23に記載のキーポイント検出装置。
(項目25)
前記検出すべき画像中の各目標対象のキーポイント情報を得た後、
各目標対象に対応する前記キーポイント情報に基づいてこの目標対象の行動種類を決定するように構成される行動種類決定モジュールを更に備える
項目14~24のいずれか一項に記載のキーポイント検出装置。
(項目26)
前記検出すべき画像中の各目標対象のキーポイント情報を得た後、
各目標対象に対応する前記キーポイント情報に基づいてこの目標対象の少なくとも1つの目標部位の位置情報を決定し、且つ前記少なくとも1つの目標部位の位置情報により前記少なくとも1つの目標部位に対する特殊効果情報を生成するように構成される特殊効果生成モジュールを更に備える
項目14~24のいずれか一項に記載のキーポイント検出装置。
(項目27)
電子機器であって、
プロセッサと、前記プロセッサによって実行可能な機器可読命令を記憶するメモリと、バスと、を備え、電子機器が実行する時に、前記プロセッサと前記メモリが前記バスによって通信し、前記プロセッサは、前記機器可読命令を実行して、項目1~13のいずれか一項に記載のキーポイント検出方法のステップを実行する、電子機器。
(項目28)
プロセッサにより実行する時に、前記プロセッサに項目1~13のいずれか一項に記載のキーポイント検出方法のステップを実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
(項目29)
電子機器で実行する時に、前記電子機器中のプロセッサに項目1~13のいずれか一項に記載のキーポイント検出方法のステップを実行させるためのコンピュータ可読コードを含む、コンピュータプログラム製品。
本開示の実施例に係るキーポイント検出方法を模式的に示すフローチャートである。 本開示の実施例に係るキーポイント検出方法における枝刈り処理を模式的に示すフローチャートである。 本開示の実施例に係るキーポイント検出方法を実現するネットワーク構成の模式図である。 本開示の実施例に係るキーポイント検出装置の構成の模式図である。 本開示の実施例に係る電子機器400の構成の模式図である。
本開示の実施例の目的、技術的解決手段及び利点をより明確にするために、以下に本開示の実施例における図面を参照し、本開示の実施例における技術的解決手段を明確に、完全に説明し、当然ながら、説明される実施例はただ本開示の実施例の一部に過ぎず、全ての実施例ではない。一般的には、この図面に記載され示された本開示の実施例のアセンブリは様々な配置方式によって配置、設定され得る。従って、以下において図面で提供された本開示の実施例に加えられる詳細な記載は、保護を主張される本開示の範囲を限定する意図がなく、本開示の選択実施例を示すものに過ぎない。本開示における実施例に基づき、当業者が創造的な労力を要することなく、得られた他の全ての実施例は、いずれも本開示の保護範囲に属する。
一般的には、ボトムアップ手法は、まず予測して各キーポイントの位置を得、次に各キーポイントに対してクラスタリングを行い、全体的な人体姿勢を得るようになっている。従来の方法において、グラフカットアルゴリズム又は発見的クラスタリングアルゴリズムを用いて各キーポイントに対してクラスタリングを行うことができ、クラスタリングプロセスはただ後処理操作となり、クラスタリング結果に対する直接的な教師がなく、キーポイントクラスタリングプロセスの正確度が低い。
キーポイントクラスタリングプロセスの正確度を高くするために、本開示の実施例はキーポイント検出方法を提供する。
本開示の実施例を理解しやすくするために、まず本開示の実施例で開示されるキーポイント検出方法について詳細に説明する。
本開示の実施例に係るキーポイント検出方法を模式的に示すフローチャートである図1に示すように、この方法はS101-S104を含む。
S101で、検出すべき画像を取得する。
S102で、検出すべき画像に基づいて画像特徴マップと複数のキーポイントヒートマップを生成し、画像特徴マップは検出すべき画像中の各目標対象間の相対的位置関係を表すためのものであり、各キーポイントヒートマップは検出すべき画像の1種のカテゴリのキーポイントを含み、異なるカテゴリのキーポイントが目標対象の異なる部位に対応する。
S103で、画像特徴マップと複数のキーポイントヒートマップに基づいて初期キーポイントグラフィックモデルを生成し、初期キーポイントグラフィックモデルは検出すべき画像における異なるカテゴリのキーポイントの情報及び接続辺の情報を含み、各接続辺は2つの異なるカテゴリのキーポイントの間の辺である。
S104で、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、初期キーポイントグラフィックモデルに対して接続辺の枝刈り処理を複数回行って、それぞれ各目標対象に属するキーポイント情報を得る。
上記方法において、生成した画像特徴マップと複数のキーポイントヒートマップに基づいて検出すべき画像に対応する初期キーポイントグラフィックモデルを生成することができ、初期キーポイントグラフィックモデルは画像特徴マップとキーポイントヒートマップ中の情報を含み、画像特徴マップが検出すべき画像における異なる目標対象間の相対的位置関係を表すことができるので、初期キーポイントグラフィックモデルに対して、接続辺の枝刈り処理を行って各目標対象のキーポイント情報を得ることができ、異なる目標対象のキーポイントを正確に区別して、キーポイントクラスタリングの精度を高める。
S101及びS102に関しては、検出すべき画像は複数の目標対象を含む任意の画像であってよい。目標対象は人間であってよく、即ち、被検出対象に含まれる複数の人体キーポイントを検出する。
実施過程で、取得した検出すべき画像をトレーニングされたキーポイント検出ニューラルネットワークに入力して画像特徴マップと複数のキーポイントヒートマップを生成し、且つ画像特徴マップ、複数のキーポイントヒートマップ及びトレーニングされたキーポイント検出ニューラルネットワークに基づいて各目標対象の各キーポイントを決定することができる。
ここで、各キーポイントヒートマップは検出すべき画像の1種のカテゴリのキーポイントを含み、異なるカテゴリのキーポイントが目標対象の異なる部位に対応する。例えば、キーポイントのカテゴリは頭部、頚部、手部等であってもよく、更にキーポイントヒートマップは頭部キーポイントを含む画像であってもよく、又は、キーポイントヒートマップは頚部キーポイントを含む画像等であってもよく、又は、キーポイントのカテゴリは設定された第1カテゴリ、第2カテゴリ等であってもよく、そのうち、第1カテゴリキーポイントは親指におけるキーポイントであってもよく、第2カテゴリキーポイントは人差し指におけるキーポイント等であってもよく、更にキーポイントヒートマップは第1カテゴリのキーポイントを含む画像であってもよく、又は、キーポイントヒートマップは第2カテゴリのキーポイントを含む画像等であってもよい。ここで、キーポイントのカテゴリとカテゴリの数量は実際の需要に応じて設定可能である。また、各目標対象に対応するキーポイントの数量は実際の需要に応じて設定可能であり、例えば、各目標対象に対応するキーポイントの数量は17、105等であってよい。
ここで、キーポイントヒートマップの数量は設定されたキーポイントカテゴリの数量と同じであり、例えば、設定されたキーポイントのカテゴリの数量が17である場合に、検出すべき画像に基づいて生成されるキーポイントヒートマップの数量も17である。そのうち、それぞれのカテゴリのキーポイントの数量は1であってよい。
画像特徴マップの数量は1であっても、複数であってもよい。ここで、画像特徴マップの数量が1である場合に、この画像特徴マップは検出すべき画像中の各目標対象の各種カテゴリのキーポイントに対応する部位間の相対的位置関係を表現可能である。画像特徴マップの数量が複数である場合に、画像特徴マップの数量はキーポイントヒートマップの数量と同じであってもよく、即ち、各画像特徴マップは検出すべき画像中の各目標対象の1種のカテゴリのキーポイントに対応する部位間の相対的位置関係を表現可能である。ここで、画像特徴マップはサイズがキーポイントヒートマップのサイズと同じである。
実施過程で、キーポイント検出ニューラルネットワークに異なる損失関数を設定することによって画像特徴マップと複数のキーポイントヒートマップを得ることができる。
S103に関しては、ここで、複数のキーポイントヒートマップと画像特徴マップから各キーポイントの情報を抽出し、情報を含む各キーポイントをノードとし、異なるカテゴリのキーポイントの間の辺を接続辺として、初期キーポイントグラフィックモデルを構成することができる。ここで、接続辺の情報は対応する2つのキーポイントの間に接続関係が存在する情報であってよく、例えば、接続辺1の情報は、接続辺1に対応するキーポイントP1とキーポイントP2に接続関係が存在する情報であってよい。
本開示のいくつかの実施例では、キーポイントの情報は位置情報、カテゴリ情報及び画素特徴情報を含む。ここで、キーポイントヒートマップに基づいて各キーポイントの位置情報を決定するステップと、各キーポイントの位置情報に基づいて画像特徴マップからキーポイントの画素特徴情報を抽出し、且つキーポイントの所属するキーポイントヒートマップのカテゴリラベルに基づいてキーポイントに対応するカテゴリ情報を決定するステップと、により、初期キーポイントグラフィックモデル中の各キーポイントの情報を決定することができる。
実施過程で、キーポイントヒートマップ中の各画素点の画素値に基づいて各キーポイントの位置情報を決定することができる。例示的に、各キーポイントヒートマップに対して、画素値が極大値の画素点を選択してキーポイントに決定し、且つ選択されたこの画素点の位置情報をキーポイントの位置情報に決定することができる。ここで、キーポイントヒートマップにおけるある画素点の画素値が周辺画素点の画素値より大きい場合に、この画素点の画素値が極大値であると考えられ、この画素点をキーポイントとする。各画素点の位置情報が得られた後、画像特徴マップからこの位置情報に対応する画素点の画素値を抽出し、抽出した画素値をキーポイントの画素特徴情報に決定することができる。同時に、各キーポイントの所属するキーポイントヒートマップのカテゴリラベルによりキーポイントに対応するカテゴリ情報を決定するようにしてもよい。例えば、キーポイントヒートマップG1のカテゴリラベルが頭部である場合に、キーポイントヒートマップG1に含まれる各キーポイントのカテゴリ情報は頭部キーポイントであり、キーポイントヒートマップG2のカテゴリラベルが頚部である場合に、キーポイントヒートマップG2に含まれる各キーポイントのカテゴリ情報は頚部キーポイントである。
S104に関しては、本開示のいくつかの実施例では、初期キーポイントに対して枝刈り処理を複数回行う前に、初期キーポイントグラフィックモデル中の各キーポイントに対して、キーポイントの情報、及びキーポイントグラフィックモデルにおけるキーポイントの間に接続辺が存在する他のキーポイントの情報に基づいて、キーポイントの融合特徴を決定するステップを更に含んでもよい。更に、初期キーポイントグラフィックモデルに対して接続辺の枝刈り処理を複数回行うステップは、初期キーポイントグラフィックモデルに含まれる各キーポイントの融合特徴に基づいて、初期キーポイントグラフィックモデルに対して接続辺の枝刈り処理を複数回行うステップを含むことができる。
ここで、先に初期キーポイントグラフィックモデル中の各キーポイントに対応の融合特徴を生成し、次に各キーポイントの融合特徴に基づいて、初期キーポイントグラフィックモデルに対して接続辺の枝刈り処理を複数回行うことができる。
実施過程で、各キーポイントに対して、初期キーポイントグラフィックモデルにおけるこのキーポイントの間に接続辺が存在する他のキーポイントを決定し、このキーポイントの情報と他のキーポイントの情報に基づいてこのキーポイントの融合特徴を生成することができる。例示的に、グラフニューラルネットワーク(Graph Neural Network:GNN)を用いて初期キーポイントグラフィックモデルにおける各キーポイントの融合特徴を決定し、且つ初期キーポイントグラフィックモデルに含まれる各キーポイントの融合特徴に基づいて、初期キーポイントグラフィックモデルに対して接続辺の枝刈り処理を複数回行うことができる。
上記実施形態では、各キーポイントに対して、このキーポイントの情報及びこのキーポイントの間に接続辺が存在する他のキーポイントの情報に基づいて、このキーポイントに対応する融合特徴を生成することによって、このキーポイントの融合特徴はこのキーポイントの特徴を表現可能であることに加えて、このキーポイントと他のキーポイントの間の関連関係を表すことができ、そのため、各キーポイントにそれぞれ対応する融合特徴に基づいて、初期キーポイントグラフィックモデルに対する複数回の接続辺の枝刈り処理を正確に行うことができ、更に各目標対象に対応するキーポイント情報を正確に決定できる。
本開示のいくつかの実施例では、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、初期キーポイントグラフィックモデルに対して接続辺の枝刈り処理を複数回行うステップは、
現在キーポイントグラフィックモデルに対して第1処理プロセスを実行するステップであって、現在キーポイントグラフィックモデル中の各接続辺に対応する2つのキーポイントの融合特徴に基づいて、現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、クラスタリングされた複数の隣接キーポイントを含む少なくとも1つのマクロノードを得、各マクロノードに含まれるキーポイントの融合特徴に基づいてマクロノードの融合特徴を決定するステップ1と、得られた少なくとも1つのマクロノードと現在キーポイントグラフィックモデルに基づいて、現在キーポイントグラフィックモデルに対して今回の接続辺の枝刈り処理を行って、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップ2と、を含む、第1処理プロセスを実行するステップと、今回の第1処理プロセスを実行した後、今回の枝刈り処理後のキーポイントグラフィックモデルを現在キーポイントグラフィックモデルとし、今回決定されたマクロノード及びマクロノードの融合特徴を現在キーポイントグラフィックモデル中のキーポイント及びキーポイントの融合特徴とし、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、第1処理プロセスを再度実行するステップ3と、を含む。ここで、初期キーポイントグラフィックモデルを現在キーポイントグラフィックモデルとして1回目の第1処理プロセスを実行して、枝刈り処理後のキーポイントグラフィックモデルを得、また、1回目の枝刈り処理後のキーポイントグラフィックモデルを現在キーポイントグラフィックモデルとし、1回目の枝刈り処理後に得られた各マクロノードと各マクロノードに対応する融合特徴を現在キーポイントグラフィックモデル中のキーポイント及びキーポイントの融合特徴として、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、2回目の第1処理プロセスを実行することができ、クラスタリングして得られたクラスタの数量は検出すべき画像に含まれる目標対象の数量と同じであり、各クラスタにそれぞれ1つの目標対象に対応する全てのキーポイントを含み、即ち、検出すべき画像中の各目標対象の各キーポイントが得られた。
上記実施形態で、毎回の第1処理プロセスにおいて、隣接するキーポイントに対してクラスタリングを一回行って少なくとも1つのマクロノードを得、各マクロノードに含まれる複数のキーポイントが同一目標対象のキーポイントであり、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、初期キーポイントグラフィックモデルに対して第1処理プロセスを複数回行って、各目標対象のキーポイント情報を得ることによって、得られる各目標対象に対応するキーポイント情報が正確になる。
以下において第1処理プロセスを詳細に説明する。本開示のいくつかの実施例で、現在キーポイントグラフィックモデル中の各接続辺に対応する2つのキーポイントの融合特徴に基づいて、現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得るステップ1は、接続辺に対応する2つのキーポイントの融合特徴に基づいて接続辺の重みを決定するステップであって、重みは接続辺に対応する2つのキーポイントが同一目標対象に属する確率を表す、ステップA1と、現在キーポイントグラフィックモデルに含まれる各接続辺の重みに基づいて、現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得るステップA2と、を含む。ここで、各接続辺に対応する重みを決定してよく、この重みは接続辺の両側の2つのキーポイントが同一目標対象に属する確率を表す。例示的に、トレーニングされた辺弁別器によって、各接続辺に対応する2つのキーポイントの融合特徴に対して、各接続辺の重みを決定してよい。
本開示のいくつかの実施例では、現在キーポイントグラフィックモデルに含まれる各接続辺の重みに基づいて、現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対してキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得ることができ、ここで、各マクロノードに含まれる複数のキーポイントは同一目標対象に属するキーポイントである。例えば、重みの大きい接続辺に対応する2つのキーポイントを1グループにクラスタリングして、1つのマクロノードを得ることができる。各マクロノードには現在キーポイントグラフィックモデル中の2つのキーポイントを含み、クラスタリングされた後に得られた少なくとも1つのマクロノードに含まれる接続辺の重みの和が大きくなる。例えば、現在キーポイントグラフィックモデルに対して今回のキーポイントクラスタリングを行った後、2つのマクロノードが得られた場合に、クラスタリングした後に得られたこの2つのマクロノードに含まれる接続辺の重みの和が大きくなることが可能である。
マクロノードが得られた後、次回の第1処理プロセスを行う前に、各マクロノードの融合特徴を決定してよい。即ち、マクロノードに含まれる各キーポイントの融合特徴に対して融合処理を行ってマクロノードに対応する融合特徴を得ることができる。実施過程で、マクロノードに含まれる各キーポイントの融合特徴に対してプーリング処理を行ってこのマクロノードの融合特徴を得ることができる。
ここで、接続辺に対応する2つのキーポイントが同一目標対象に属する確率を表す、各接続辺の重みを決定し、各接続辺の重みに基づいて、現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行うことによって、少なくとも1つのマクロノードを得ることができ、例えば、対応する重みの大きい2つのキーポイントを1グループにクラスタリングして1つのマクロノードを得て、マクロノードが正確に決定される。
得られた少なくとも1つのマクロノードと現在キーポイントグラフィックモデルに基づいて、現在キーポイントグラフィックモデルに対して今回の接続辺の枝刈り処理を行って、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップ2は、得られた少なくとも1つのマクロノードと現在キーポイントグラフィックモデルに基づいて削除すべき接続辺を決定し、且つ現在キーポイントグラフィックモデルから削除すべき接続辺を削除するステップB1と、少なくとも1つのマクロノード、及び現在キーポイントグラフィックモデルにおけるマクロノードに含まれるキーポイント以外の他のキーポイントを枝刈り処理後のキーポイントとし、削除後に残された接続辺を枝刈り処理後の接続辺として、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップB2と、を含む。
ここで、ステップB1で、先に得られた少なくとも1つのマクロノードと現在キーポイントグラフィックモデルにより、今回の枝刈り処理中の削除すべき接続辺を決定し、この削除すべき接続辺を現在キーポイントグラフィックモデルから削除することができる。
本開示のいくつかの実施例では、得られた少なくとも1つのマクロノードと現在キーポイントグラフィックモデルに基づいて削除すべき接続辺を決定するステップB1は、少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、削除すべき接続辺を決定するステップを含む。ここで、各目標対象には同じカテゴリのキーポイントを1つしか包含してならなく、例えば、各目標対象には頭部カテゴリのキーポイント、頚部カテゴリのキーポイント、左足カテゴリのキーポイントをそれぞれ1つしか包含してならないことを考慮すれば、少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、削除すべき接続辺を決定することができる。
本開示のいくつかの実施例では、少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、削除すべき接続辺を決定するステップは、以下を含む。
現在キーポイントグラフィックモデル中のいずれかの接続辺に対して、条件1で、このいずれかの接続辺に対応する2つのキーポイントが異なるマクロノード中のキーポイントであり、且つこのいずれかの接続辺に対応する2つのマクロノードにカテゴリ情報が同じなキーポイントが存在する場合に、このいずれかの接続辺を削除すべき接続辺に決定する。条件2で、このいずれかの接続辺に対応する2つのキーポイントが同一マクロノード中のキーポイントである場合に、このいずれかの接続辺を削除すべき接続辺に決定する。条件3で、このいずれかの接続辺に対応する2つのキーポイントの一方がマクロノード中のキーポイントであり、他方がマクロノード中のキーポイントでなく、且つこのいずれかの接続辺に対応するマクロノードに他方のキーポイントのカテゴリ情報と同じなキーポイントが存在する場合に、このいずれかの接続辺を削除すべき接続辺に決定する。
ここで、現在キーポイントグラフィックモデル中のいずれかの接続辺に対して、この接続辺が条件1、条件2及び条件3のいずれかを満たした場合に、この接続辺が削除すべき接続辺となると考えられ、でなければ、この接続辺が削除すべき接続辺とならない。
条件1で、接続辺に対応する2つのキーポイントが異なるマクロノード中のキーポイントである場合に、この接続辺に対応する2つのマクロノードにはカテゴリ情報が同じなキーポイントが存在するかを判断してよく、カテゴリ情報が同じなキーポイントが存在する場合に、この接続辺が削除すべき接続辺となり、カテゴリ情報が同じなキーポイントが存在しない場合に、この接続辺が削除すべき接続辺とならない。条件2で、接続辺に対応する2つのキーポイントが同一マクロノード中のキーポイントである場合に、この接続辺が削除すべき接続辺となる。条件3で、この接続辺に対応するキーポイントの一方がマクロノードに含まれるキーポイントであり、他方がマクロノード中のキーポイントでなく、即ち他方のキーポイントが現在キーポイントグラフィックモデルにおけるマクロノードに含まれるキーポイント以外の他のキーポイントである場合に、この接続辺に対応するマクロノードには他方のキーポイントのカテゴリ情報と同じなキーポイントが存在するかを判断してよく、前記キーポイントが存在する場合に、この接続辺が削除すべき接続辺となり、前記キーポイントが存在しない場合に、この接続辺が削除すべき接続辺とならない。
上記実施形態で、各目標対象のキーポイント情報には同じカテゴリのキーポイントを1つしか包含しなく、即ち各目標対象のキーポイント情報には頭部キーポイント、頚部キーポイント、左足キーポイント等をそれぞれ1つしか包含しないことを考慮すれば、ここで、接続辺に対応する2つのキーポイントのカテゴリに基づいて、削除すべき接続辺を決定し、且つ枝刈り後のキーポイントグラフィックモデルを生成することができ、更に、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、次回の第1処理プロセスを行ってよい。
B2で、削除すべき接続辺を削除した後、少なくとも1つのマクロノード、及び現在キーポイントグラフィックモデルにおけるマクロノードに含まれるキーポイント以外の他のキーポイントを枝刈り処理後のキーポイントとし、削除後に残された接続辺を枝刈り処理後の接続辺として、今回の枝刈り処理後のキーポイントグラフィックモデルを得ることができる。即ち、今回の枝刈り処理後のキーポイントグラフィックモデルにおいて、キーポイントがマクロノードである場合に、このキーポイントの融合特徴はこのマクロノードに対応する融合特徴である。
ステップ3で、今回の第1処理プロセスを実行した後、今回の枝刈り処理後のキーポイントグラフィックモデルを次回の枝刈り処理時に対応する現在キーポイントグラフィックモデルとし、今回決定されたマクロノード及びマクロノードの融合特徴を現在キーポイントグラフィックモデル中のキーポイント及びキーポイントの融合特徴として、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、即ち処理後のキーポイントグラフィックモデルにいずれの接続辺も存在しなくなるまで、第1処理プロセスを再度実行して、検出すべき画像に含まれる各目標対象の各キーポイントを得ることができる。
キーポイント検出方法における枝刈り処理を模式的に示すフローチャートである図2Aに示すように、検出すべき画像に基づいて画像特徴マップ22(即ち、Feature maps)と複数のキーポイントヒートマップ21(即ち、Heatmaps)を生成し、次に画像特徴マップ22と複数のキーポイントヒートマップ21に基づいて初期キーポイントグラフィックモデル23を生成することができ、ここで、初期キーポイントグラフィックモデル23中の円形マークがキーポイントであり、点線が異なるカテゴリのキーポイント間の接続辺である。続いて、各キーポイントに対応の融合特徴を生成し、トレーニングされた辺弁別器24によって各接続辺の重みを決定し、且つ初期キーポイントグラフィックモデル23に含まれる各接続辺の重みに基づいて、初期キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノード25を得ることができる。続いて、得られた少なくとも1つのマクロノード25と初期キーポイントグラフィックモデル23に基づいて削除すべき接続辺を決定し、且つ初期キーポイントグラフィックモデルから削除すべき接続辺を削除し、更に少なくとも1つのマクロノード、及び初期キーポイントグラフィックモデルにおけるマクロノードに含まれるキーポイント以外の他のキーポイントを枝刈り処理後のキーポイントとし、削除後に残された接続辺を枝刈り処理後の接続辺として、今回の枝刈り処理後のキーポイントグラフィックモデル26を得、今回の枝刈り処理後のキーポイントグラフィックモデル26を現在キーポイントグラフィックモデルとして、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、即ち、例えば図2Aに示す最後のステップで得られる処理結果になるまで、再度第1処理プロセスを行うことができる。ここで、トレーニング待ちニューラルネットワークをトレーニングする場合に、生成した各マクロノードをマクロノード弁別器27によって判別し、即ち各マクロノードに含まれるキーポイントが同一目標対象に属するかを判断し、且つマクロノード弁別器27の検出結果に基づいてトレーニング待ちニューラルネットワークをトレーニングして、トレーニング済み目標ニューラルネットワークを得るようにしてもよい。
本開示のいくつかの実施例では、各目標対象のキーポイント情報は事前トレーニング済み目標ニューラルネットワークによって生成され、ここで、目標ニューラルネットワークはマクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして得られたものであり、マクロノード弁別器は各マクロノードに含まれる複数のキーポイントが同一目標対象に属するかを判別するためのものである。検出すべき画像を事前トレーニング済み目標ニューラルネットワークに入力し、検出すべき画像に含まれる各目標対象のキーポイント情報を得ることができる。ここで、各目標対象に対応する各キーポイントのカテゴリとキーポイントの数量は、実際の需要に応じて設定可能である。
実施過程で、この事前トレーニング済み目標ニューラルネットワークはマクロノード弁別器を備えなくてもよい。即ち、このマクロノード弁別器はトレーニング待ちニューラルネットワークのトレーニング工程で、得られた各マクロノード中の複数のキーポイントが同一目標対象に属するかを判断するようになってもよい。上記実施形態で、マクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングすることによって、目標ニューラルネットワークを得、ここで、マクロノード弁別器は各マクロノードに含まれる複数のキーポイントが同一目標対象に属するかを判別するためのものであり、トレーニングして得られた目標ニューラルネットワークの正確度を向上可能である。
本開示のいくつかの実施例では、下記ステップによってトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得る。
サンプル画像を取得し、且つサンプル画像に基づいてマクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得る。
サンプル画像に基づいてマクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップは、サンプル画像に基づいてトレーニング待ちニューラルネットワークをトレーニングして、予測結果を得るステップであって、予測結果はマクロノード弁別器の検出結果、各キーポイントの予測カテゴリ及び各キーポイントの予測位置情報を含む、ステップ一と、マクロノード弁別器の検出結果に基づいて第1損失値を決定し、また、各キーポイントの予測カテゴリ、各キーポイントの予測位置情報及びサンプル画像に含まれるラベリング結果に基づいて第2損失値を決定するステップであって、ラベリング結果は対応する目標対象に属する各キーポイントのラベリングカテゴリ及び各キーポイントのラベリング位置情報を含む、ステップ二と、第1損失値と第2損失値に基づいてトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップ三と、を含むことができる。ここで、サンプル画像にはラベリング結果が含まれており、このラベリング結果には対応する目標対象に属する各キーポイントのラベリングカテゴリ及び各キーポイントのラベリング位置情報を含む。サンプル画像をトレーニング待ちニューラルネットワークに入力して予測結果を得、ここで、予測結果にはマクロノード弁別器の検出結果、各キーポイントの予測カテゴリ及び各キーポイントの予測位置情報を含む。更に、予測結果とラベリング結果に基づいてトレーニング待ちニューラルネットワークをトレーニングして、トレーニング済み目標ニューラルネットワークを得ることができる。マクロノード弁別器の検出結果に基づいて第1損失値を決定し、また、各キーポイントの予測カテゴリ、各キーポイントの予測位置情報及びサンプル画像に含まれるラベリング結果に基づいて第2損失値を決定し、第1損失値と第2損失値の和によって、トレーニング待ちニューラルネットワークをトレーニングして、目標ニューラルネットワークを得ることができる。
本開示のいくつかの実施例では、検出すべき画像中の各目標対象のキーポイント情報が得られた後、各目標対象に対応するキーポイント情報に基づいてこの目標対象の行動種類を決定するステップを更に含む。ここで、各目標対象の各キーポイントの情報が得られた後、各目標対象の各キーポイントの情報を行動検出ニューラルネットワークに入力し、この目標対象の行動種類を決定することができ、例えば、この行動種類はランニング、ウォーキング、両腕を挙げている等であってよい。
本開示のいくつかの実施例では、検出すべき画像中の各目標対象のキーポイント情報が得られた後、各目標対象に対応するキーポイント情報に基づいて、この目標対象の少なくとも1つの目標部位の位置情報を決定し、且つ少なくとも1つの目標部位の位置情報により少なくとも1つの目標部位に対する特殊効果情報を生成するステップを更に含む。ここで、各目標対象の各キーポイントの情報に対して、この目標対象の少なくとも1つの目標部位の位置情報を決定し、予め設定された目標部位に対応する特殊効果情報に基づいて、目標部位の位置で対応する特殊効果情報を生成することができる。ここで、目標部位は腕、頭部、手部等であってよい。例えば、目標対象の各キーポイントの情報に対して、目標対象の腕位置を決定し、予め設定された腕の特殊効果情報に基づいて、目標対象の腕位置で腕に対応する特殊効果情報を生成することができる。
関連技術において、人体キーポイントの検出と追跡は、ビデオ解析の基礎となり、安全保障分野や動作解析分野において今後でも重要なものと言える。ボトムアップの多人姿勢検出技術は、高い計算効率を有するので、幅広く応用されている。一般的には、ボトムアップ手法は、通常、2つのステップに分けられる。1番目のステップは、キーポイントのガウス応答グラフを予測して各キーポイントの位置を得る。2番目のステップは、各キーポイントに対してクラスタリングを行って全体的な人体姿勢を得る。しかしながら、関連技術において、クラスタリングのステップでグラフカットアルゴリズム又は発見的クラスタリングアルゴリズムが採用されている。クラスタリングはただ後処理操作となり、クラスタリング結果に対する直接的な教師がない。以上から分かるように、関連技術は下記欠点がある。(1)クラスタリングのステップでグラフカットアルゴリズム又は発見的クラスタリングアルゴリズムを採用することが一般であり、それはただ後処理操作となり、クラスタリング結果に対する直接的な教師がない。(2)一般のグラフクラスタリングアルゴリズムは、人体の階層化構造先験的情報を十分に利用できなく、例えば、階層化情報としては、人間を上半身と下半身に区別可能であり、上半身を更に頭、肩、腕に区別可能であり、頭部が更に顔部の5個のキーポイントからなることが挙げられる。(3)一般のグラフクラスタリングアルゴリズムは、ローカル情報のみを利用するが、グローバル人体情報を無視する。
上記問題を解決するために、本開示の実施例はキーポイント検出方法を提供し、この方法において、まず、微分可能な「階層化グラフクラスタリングモジュール」に基づいてキーポイントの検出とクラスタリングを結合して、エンドツーエンドのトレーニングを行う。続いて、クラスタリング結果に教師を与え、クラスタリングの損失は直接的に下層特徴抽出ネットワークに逆伝播して、ネットワーク全体を最適化可能である。このようにして、ネットワークはクラスタリング結果が間違ったキーポイントにより多い注意を払い、より効率的に特徴学習を行うことができるようになる。一方で、階層化グラフクラスタリングアルゴリズムは目標対象キーポイントに対するクラスタリングを逐次反復し、キーポイント-肢体-目標対象全体のような階層構造を構成し、各階層のクラスタリング構造に教師を与えることができ、目標対象の階層構造先験的情報をより好適に保留することができる。他方で、マクロノード弁別器(Macro-node Discriminator)を導入することによって、マクロノード全体内部の特徴を判別でき、グローバル特徴情報をより好適に保留する。
図2Aは本開示の実施例に係るキーポイント検出方法における枝刈り処理を模式的に示すフローチャートであり、キーポイントが2つずつ同一目標対象に属するかを判断することによって、同一目標対象のキーポイントを1グループに集約する。
1)検出すべき画像中のキーポイント情報を抽出し、且つ前記キーポイント情報により初期キーポイントグラフィックモデルを構築し、ここで、まず、キーポイントの情報を抽出して初期キーポイントグラフィックモデルG={V,E}を構築する必要がある。初期キーポイントグラフィックモデルGはキーポイントVと辺Eの2部分に分けられ、そのうち、キーポイントVは各キーポイントの情報であり、即ち「キーポイントのカテゴリT、キーポイントの座標X、キーポイントの特徴F」を含む。辺Eはキーポイント間の関係を表し、即ち同一目標対象に属するかを表す。初期キーポイントグラフィックモデルが構築された後、相関的特徴の抽出を行う。
2)GNNを用いて相関的特徴の学習を行う。エッジ畳み込み(EdgeConv)によってグラフ畳み込みニューラルネットワークモデルを構築し、構築されたキーポイントグラフィックモデル(Graph)に対して畳み込みを行って、キーポイントの特徴を更新する。
3)キーポイント間の類似度行列を更新する。即ち、次に、辺弁別器(Edge Discriminator)をトレーニングし、キーポイントペア毎に判別し、このキーポイントペアが同一目標対象に属するかを判断する。判別情報によってキーポイント間の類似度行列を更新する。
4)クラスタリング(Grouping):キーポイント間の類似度行列を用いてクラスタリングアルゴリズムを実行し、隣接するキーポイントを一グループに集約して、新しいマクロノードとする(クラスタリングした後に得られたキーポイントがマクロノードとなる)。マクロノードの弁別器(Macro-Node Discriminator)をトレーニングし、マクロノード内部のキーポイントが同一目標対象に属するかを判断する。
5)枝刈り処理(Graph Pruning):何らかの目標対象構造の先験的制約により、キーポイントグラフィックモデル(Graph)に対して枝刈り処理を行って、相関性のない辺を削除する。
6)特徴集約(Feature Aggregation):各マクロノードに対して特徴を更新する。キーポイントグラフィックモデルにおける全ての辺が削除されるまで、又は全てのキーポイントが成功的に複数のクラスタにクラスタリングされるまで、クラスタリングプロセス全体を反復的に行う。
本開示の実施例はキーポイント検出方法を提供し、オンライン階層化グラフクラスタリング(Online Hierarchical Graph Clustering:OHGC)を例とし、1枚の多目標対象RGB画像(目標対象数をPと仮定する)を入力し、P個の目標対象キーポイントクラスタ(1つの目標対象の全てのキーポイントが1つのクラスタを構成する)を出力し、前記方法は、
検出すべき画像中のキーポイント情報を抽出するステップS1と、多目標対象のキーポイントヒートマップを構築するステップS2と、GNNの相関性に基づいて特徴学習を行うステップS3と、前記キーポイントグラフィックモデルにおいて枝刈り待ちの辺がなくなるまで、複数回反復するステップS4と、を含む。
本開示のいくつかの実施例では、前記キーポイントグラフィックモデルにおいて枝刈り待ちの辺がなくなるまで、複数回反復する前記ステップS4は、プーリング層(avg-pooling)を用いてキーポイント特徴融合を行うステップS41と、キーポイント間の類似度行列を更新するステップS42と、前記キーポイントに対してクラスタリングを行うステップであって、前記クラスタリングはキーポイントの統合を実現できるステップS43と、現在キーポイントグラフィックモデルに対して枝刈り処理を行うステップS44と、を含む。目標対象構造制約により、現在キーポイントグラフィックモデルにおける不合理な辺を削除する。例えば、1つの目標対象には1つの頭頂点しかない。
図2Bは本開示の実施例に係るキーポイント検出方法を実現するネットワーク構成の模式図であり、図2Bに示すように、前記ネットワーク構成はGNNモジュール21、辺弁別器22(Edge Discriminator)及びマクロノード弁別器23(Macro-node Discriminator)を備え、その中で、GNNモジュール21は、エッジ畳み込みEdgeConv層と多層ニューラルネットワーク(Multi-Layer Perceptron:MLP)を重ねてなったものである。その中で、EdgeConv層は微分可能で、既存のネットワークアーキテクチャに組み込み可能なニューラルネットワークモジュールであり、ローカル領域情報を含み、EdgeConvモジュールを重ね又は循環して使用することでグローバル形状情報を抽出できる等のメリットを有する。辺弁別器22は、1対のキーポイントの特徴を入力して、これら2つのキーポイントが同一目標対象に属するかを判断するように構成される。マクロノード弁別器23は、1つのマクロノード内部のキーポイントが完全に同一目標対象に属するかを判断するように構成される。
上記方法は、インターネットビデオにおいて目標対象キーポイントの位置を正確に予測することに利用してもよく、目標対象の行動種類を解析することに利用してもよく、更に目標対象の異なる部位にリアルタイムな特殊効果を施すことに利用してもよい。上記方法において、階層化グラフクラスタリングモジュールに基づいて、オンライン階層化グラフクラスタリングアルゴリズムを実現し、目標対象の構造先験的情報と目標対象のグローバル情報を保留する。一方で、エンドツーエンドのトレーニングによって、クラスタリング結果に発生した誤りに更に注目し、より効率的に特徴学習を行うようになり、クラスタリング結果を直接最適化して、クラスタリング精度を高くすることができる。他方で、目標対象の構造先験的情報とグローバル特徴情報が利用可能であり、キーポイントのクラスタリング精度を高くする。
実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならず、各ステップの実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。
同様な構想に基づいて、本開示の実施例は、本開示の実施例に係るキーポイント検出装置の構成の模式図である図3に示すように、取得モジュール301、第1生成モジュール302、第2生成モジュール303、処理モジュール304、決定モジュール305、トレーニングモジュール306、行動種類決定モジュール307及び特殊効果生成モジュール308を備えるキーポイント検出装置を更に提供する。
取得モジュール301は、検出すべき画像を取得するように構成される。
第1生成モジュール302は、前記検出すべき画像に基づいて画像特徴マップと複数のキーポイントヒートマップを生成するように構成され、前記画像特徴マップは前記検出すべき画像中の各目標対象のキーポイント間の相対的位置関係を表すためのものであり、各前記キーポイントヒートマップは前記検出すべき画像の1種のカテゴリのキーポイントを含み、異なるカテゴリのキーポイントが前記目標対象の異なる部位に対応する。
第2生成モジュール303は、前記画像特徴マップと複数の前記キーポイントヒートマップに基づいて初期キーポイントグラフィックモデルを生成するように構成され、前記初期キーポイントグラフィックモデルは前記検出すべき画像における異なるカテゴリのキーポイントの情報及び接続辺の情報を含み、各接続辺は2つの異なるカテゴリのキーポイントの間の辺である。
処理モジュール304は、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行って、それぞれ各目標対象に属するキーポイント情報を得るように構成される。
可能な一実施形態では、前記キーポイントの情報は位置情報、カテゴリ情報及び画素特徴情報を含み、前記第2生成モジュール303は、前記キーポイントヒートマップに基づいて各キーポイントの位置情報を決定するステップと、各前記キーポイントの位置情報に基づいて前記画像特徴マップから前記キーポイントの画素特徴情報を抽出し、且つ前記キーポイントの所属するキーポイントヒートマップのカテゴリラベルに基づいて前記キーポイントに対応するカテゴリ情報を決定するステップと、により、前記初期キーポイントグラフィックモデル中の各キーポイントの情報を決定するように構成される。
可能な一実施形態では、前記装置は、前記初期キーポイントグラフィックモデル中の各前記キーポイントに対して、前記キーポイントの情報、及び前記キーポイントグラフィックモデルにおける前記キーポイントの間に接続辺が存在する他のキーポイントの情報に基づいて、前記キーポイントの融合特徴を決定するように構成される決定モジュール305を更に備え、前記処理モジュール304は、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行う場合に、前記初期キーポイントグラフィックモデルに含まれる各前記キーポイントの融合特徴に基づいて、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行うように構成される。
可能な一実施形態では、前記処理モジュール304は、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行う場合に、現在キーポイントグラフィックモデルに対して第1処理プロセスを実行するステップであって、前記現在キーポイントグラフィックモデル中の各接続辺に対応する2つのキーポイントの融合特徴に基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、クラスタリングされた複数の隣接キーポイントを含む少なくとも1つのマクロノードを得、各前記マクロノードに含まれるキーポイントの融合特徴に基づいて前記マクロノードの融合特徴を決定するステップと、得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて、前記現在キーポイントグラフィックモデルに対して今回の前記接続辺の枝刈り処理を行って、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップと、を含む、第1処理プロセスを実行するステップと、今回の前記第1処理プロセスを実行した後、今回の枝刈り処理後のキーポイントグラフィックモデルを現在キーポイントグラフィックモデルとし、今回決定された前記マクロノード及び前記マクロノードの融合特徴を前記現在キーポイントグラフィックモデル中のキーポイント及びキーポイントの融合特徴とし、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記第1処理プロセスを再度実行するステップと、を実行するように構成される。
可能な一実施形態では、前記処理モジュール304は、前記現在キーポイントグラフィックモデル中の各接続辺に対応する2つのキーポイントの融合特徴に基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得る場合に、前記接続辺に対応する2つのキーポイントの融合特徴に基づいて前記接続辺の重みを決定するステップであって、前記重みは前記接続辺に対応する2つのキーポイントが同一目標対象に属する確率を表す、ステップと、前記現在キーポイントグラフィックモデルに含まれる各接続辺の重みに基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得るステップと、を実行するように構成される。
可能な一実施形態では、前記処理モジュール304は、得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて、前記現在キーポイントグラフィックモデルに対して今回の前記接続辺の枝刈り処理を行って、今回の枝刈り処理後のキーポイントグラフィックモデルを得る場合に、得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて削除すべき接続辺を決定し、且つ前記現在キーポイントグラフィックモデルから前記削除すべき接続辺を削除するステップと、少なくとも1つの前記マクロノード、及び前記現在キーポイントグラフィックモデルにおける前記マクロノードに含まれるキーポイント以外の他のキーポイントを枝刈り処理後のキーポイントとし、削除後に残された接続辺を枝刈り処理後の接続辺として、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップと、を実行するように構成される。
可能な一実施形態では、前記処理モジュール304は、得られた少なくとも1つのマクロノードと前記現在キーポイントグラフィックモデルに基づいて削除すべき接続辺を決定する場合に、少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び前記現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、前記削除すべき接続辺を決定するように構成される。
可能な一実施形態では、前記処理モジュール304は、少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び前記現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、前記削除すべき接続辺を決定する場合に、前記現在キーポイントグラフィックモデルにおけるいずれかの接続辺に対して、このいずれかの接続辺に対応する2つのキーポイントが異なるマクロノード中のキーポイントであり、且つこのいずれかの接続辺に対応する2つのマクロノードにカテゴリ情報が同じなキーポイントが存在する場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、このいずれかの接続辺に対応する2つのキーポイントが同一マクロノード中のキーポイントである場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、このいずれかの接続辺に対応する2つのキーポイントの一方がマクロノード中のキーポイントであり、他方がマクロノード中のキーポイントでなく、且つこのいずれかの接続辺に対応する前記マクロノードに他方のキーポイントのカテゴリ情報と同じなキーポイントが存在する場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、を実行するように構成される。
可能な一実施形態では、前記各目標対象のキーポイント情報は事前トレーニング済み目標ニューラルネットワークによって生成され、前記目標ニューラルネットワークはマクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして得られたものであり、マクロノード弁別器は各マクロノードに含まれる複数のキーポイントが同一目標対象に属するかを判別するためのものである。
可能な一実施形態では、前記装置は、サンプル画像を取得するステップと、前記サンプル画像に基づいて前記マクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップと、によって、前記トレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るように構成されるトレーニングモジュール306を更に備える。
可能な一実施形態では、前記トレーニングモジュール306は、前記サンプル画像に基づいて前記マクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得る場合に、前記サンプル画像に基づいて前記トレーニング待ちニューラルネットワークをトレーニングして、予測結果を得るステップであって、前記予測結果は前記マクロノード弁別器の検出結果、各キーポイントの予測カテゴリ及び各キーポイントの予測位置情報を含む、ステップと、前記マクロノード弁別器の検出結果に基づいて第1損失値を決定し、また、前記各キーポイントの予測カテゴリ、前記各キーポイントの予測位置情報及び前記サンプル画像に含まれるラベリング結果に基づいて第2損失値を決定するステップであって、前記ラベリング結果は対応する目標対象に属する各キーポイントのラベリングカテゴリ及び各キーポイントのラベリング位置情報を含む、ステップと、前記第1損失値と前記第2損失値に基づいて前記トレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップと、を実行するように構成される。
可能な一実施形態では、前記検出すべき画像中の各目標対象のキーポイント情報を得た後、各目標対象に対応する前記キーポイント情報に基づいてこの目標対象の行動種類を決定するように構成される行動種類決定モジュール307を更に備える。
可能な一実施形態では、前記検出すべき画像中の各目標対象のキーポイント情報を得た後、各目標対象に対応する前記キーポイント情報に基づいてこの目標対象の少なくとも1つの目標部位の位置情報を決定し、且つ前記少なくとも1つの目標部位の位置情報により前記少なくとも1つの目標部位に対する特殊効果情報を生成するように構成される特殊効果生成モジュール308を更に備える。
いくつかの実施例では、本開示の実施例に係る装置に備える機能又はそれに含まれるモジュールは上述した方法実施例に記載のキーポイント検出方法を実行するために用いられ、その実現のプロセスについては上述した方法実施例の記載を参照してもよく、簡潔化するために、ここで詳細な説明を省略する。
同様な技術構想に基づいて、本開示の実施例は電子機器を更に提供する。本開示の実施例に係る電子機器の構成の模式図である図4に示すように、プロセッサ401、メモリ402及びバス403を含む。ここで、メモリ402は実行命令を記憶するように構成され、内部メモリ4021と外部メモリ4022を含み、上述した内部メモリ4021は内部記憶装置とも呼ばれ、プロセッサ401中の演算データ及びハードディスク等の外部メモリ4022と交換するデータを一時保存するように構成される。プロセッサ401は、内部メモリ4021を経由して外部メモリ4022とデータ交換を行い、電子機器400が実行する場合に、プロセッサ401は、バス403によってメモリ402と通信して、
検出すべき画像を取得するステップと、前記検出すべき画像に基づいて画像特徴マップと複数のキーポイントヒートマップを生成するステップであって、前記画像特徴マップは前記検出すべき画像中の各目標対象間の相対的位置関係を表すためのものであり、各前記キーポイントヒートマップは前記検出すべき画像の1種のカテゴリのキーポイントを含み、異なるカテゴリのキーポイントが前記目標対象の異なる部位に対応する、ステップと、前記画像特徴マップと複数の前記キーポイントヒートマップに基づいて初期キーポイントグラフィックモデルを生成するステップであって、前記初期キーポイントグラフィックモデルは前記検出すべき画像における異なるカテゴリのキーポイントの情報及び接続辺の情報を含み、各接続辺は2つの異なるカテゴリのキーポイントの間の辺である、ステップと、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行って、それぞれ各目標対象に属するキーポイント情報を得るステップと、を実施する命令を実行する。また、本開示の実施例は、プロセッサによって実行する時に、プロセッサに上記の方法実施例に記載のキーポイント検出方法のステップを実行させるコンピュータプログラムを記憶したコンピュータ可読記憶媒体を更に提供する。
本開示の実施例に係るキーポイント検出方法によるコンピュータプログラム製品は、プログラムコードを記憶したコンピュータ可読記憶媒体を含み、前記プログラムコードに含まれる命令は上記の方法実施例に記載のキーポイント検出方法のステップを実行することに利用可能であり、上記の方法実施例を参照してもよく、ここで詳細な説明を省略する。
説明の便宜上、上述したシステムと装置の動作プロセスについては上記の方法実施例に対応するプロセスを参照してもよいことが当業者に明らかであるため、ここで詳細な説明を省略する。本開示により提供されるいくつかの実施例では、開示するシステム、装置及び方法は、他の形態で実現できることを理解すべきである。上述した装置実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際に実現時に別の形態で分割してもよく、更に例えば、複数のユニット又はコンポーネントは組み合わせてもよく、又は別のシステムに統合してもよく、又はいくつかの特徴を省略もしくは実行しなくてもよい。一方、図示又は説明した相互の結合又は直接結合又は通信接続はいくつかの通信インタフェース、機器又はユニットを介した間接結合又は通信接続であり得、電気的、機械的又は他の形態であり得る。
分離部材として説明した前記ユニットは物理的に分離されたものであってもなくてもよく、ユニットとして示した部材は物理ユニットであってもなくてもよく、一箇所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際の必要に応じてその一部又は全てのユニットを選択して本実施例の解決手段の目的を実現できる。また、本開示の各実施例における各機能ユニットは一つの処理ユニットに統合されてもよく、それぞれ独立して物理的に存在してもよく、二つ又は二つ以上で一つのユニットに統合されてもよい。
前記機能がソフトウェア機能ユニットの形式で実現され且つ独立した製品として販売又は使用される場合、プロセッサに実行可能な非揮発性コンピュータ可読記憶媒体に記憶されてもよい。このような見解をもとに、本開示の技術的解決手段は実質的に従来技術に寄与する部分またはこの技術的解決手段の一部がソフトウェア製品の形で実施することができ、該コンピュータソフトウェア製品は記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器等であってもよい)に本開示の各実施例に記載のキーポイント検出方法のステップの全部又は一部を実行させる複数の命令を含む。前記記憶媒体は、USBメモリ、モバイルハードディスク、読出し専用メモリ(Read-Only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク又は光ディスク等のプログラムコードを記憶可能である様々な媒体を含む。以上は本開示の具体的な実施形態に過ぎず、本開示の保護範囲がそれに限定されるものでなく、本開示に記載された技術範囲内に当業者に容易に想到される変化又は取り替えは、全て本開示の保護範囲に含まれる。従って、本開示の保護範囲は請求項の保護範囲に準ずるものとする。
本開示は、生成した画像特徴マップと複数のキーポイントヒートマップに基づいて検出すべき画像に対応する初期キーポイントグラフィックモデルを生成し、初期キーポイントグラフィックモデルは画像特徴マップとキーポイントヒートマップ中の情報を含み、画像特徴マップが検出すべき画像における異なる目標対象間の相対的位置関係を表すことができるので、初期キーポイントグラフィックモデルに対して、接続辺の枝刈り処理を行って各目標対象のキーポイント情報を得ることができ、異なる目標対象のキーポイントを正確に区別して、キーポイントクラスタリングの精度を高める。

Claims (15)

  1. 検出すべき画像を取得するステップと、
    前記検出すべき画像に基づいて画像特徴マップと複数のキーポイントヒートマップを生成するステップであって、前記画像特徴マップは前記検出すべき画像中の各目標対象間の相対的位置関係を表すためのものであり、各前記キーポイントヒートマップは前記検出すべき画像の1種のカテゴリのキーポイントを含み、異なるカテゴリのキーポイントが前記目標対象の異なる部位に対応する、ステップと、
    前記画像特徴マップと複数の前記キーポイントヒートマップに基づいて初期キーポイントグラフィックモデルを生成するステップであって、前記初期キーポイントグラフィックモデルは前記検出すべき画像における異なるカテゴリのキーポイントの情報及び接続辺の情報を含み、各接続辺は2つの異なるカテゴリのキーポイントの間の辺である、ステップと、
    処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行って、それぞれ各目標対象に属するキーポイント情報を得るステップと、を含む、キーポイント検出方法。
  2. 前記キーポイントの情報は位置情報、カテゴリ情報及び画素特徴情報を含み、
    前記キーポイントヒートマップに基づいて各キーポイントの位置情報を決定するステップと、
    各前記キーポイントの位置情報に基づいて前記画像特徴マップから前記キーポイントの画素特徴情報を抽出し、且つ前記キーポイントの所属するキーポイントヒートマップのカテゴリラベルに基づいて前記キーポイントに対応するカテゴリ情報を決定するステップと、により、前記初期キーポイントグラフィックモデル中の各キーポイントの情報を決定する
    請求項1に記載のキーポイント検出方法。
  3. 前記初期キーポイントグラフィックモデル中の各前記キーポイントに対して、前記キーポイントの情報、及び前記キーポイントグラフィックモデルにおける前記キーポイントの間に接続辺が存在する他のキーポイントの情報に基づいて、前記キーポイントの融合特徴を決定するステップを更に含み、
    前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行うステップは、
    前記初期キーポイントグラフィックモデルに含まれる各前記キーポイントの融合特徴に基づいて、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行うステップを含む
    請求項1に記載のキーポイント検出方法。
  4. 前記処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行うステップは、
    現在キーポイントグラフィックモデルに対して第1処理プロセスを実行するステップであって、
    前記現在キーポイントグラフィックモデル中の各接続辺に対応する2つのキーポイントの融合特徴に基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、クラスタリングされた複数の隣接キーポイントを含む少なくとも1つのマクロノードを得、各前記マクロノードに含まれるキーポイントの融合特徴に基づいて前記マクロノードの融合特徴を決定するステップと、
    得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて、前記現在キーポイントグラフィックモデルに対して今回の前記接続辺の枝刈り処理を行って、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップと、を含む、第1処理プロセスを実行するステップと、
    今回の前記第1処理プロセスを実行した後、今回の枝刈り処理後のキーポイントグラフィックモデルを現在キーポイントグラフィックモデルとし、今回決定された前記マクロノード及び前記マクロノードの融合特徴を前記現在キーポイントグラフィックモデル中のキーポイント及びキーポイントの融合特徴とし、処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記第1処理プロセスを再度実行するステップと、を含む
    請求項1~3のいずれか一項に記載のキーポイント検出方法。
  5. 前記現在キーポイントグラフィックモデル中の各接続辺に対応する2つのキーポイントの融合特徴に基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得るステップは、
    前記接続辺に対応する2つのキーポイントの融合特徴に基づいて前記接続辺の重みを決定するステップであって、前記重みは前記接続辺に対応する2つのキーポイントが同一目標対象に属する確率を表す、ステップと、
    前記現在キーポイントグラフィックモデルに含まれる各接続辺の重みに基づいて、前記現在キーポイントグラフィックモデルに含まれる複数のキーポイントのうちの隣接キーポイントに対して同一目標対象のキーポイントクラスタリングを行って、少なくとも1つのマクロノードを得るステップと、を含む
    請求項4に記載のキーポイント検出方法。
  6. 前記得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて、前記現在キーポイントグラフィックモデルに対して今回の前記接続辺の枝刈り処理を行って、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップは、
    前記得られた少なくとも1つの前記マクロノードと前記現在キーポイントグラフィックモデルに基づいて削除すべき接続辺を決定し、且つ前記現在キーポイントグラフィックモデルから前記削除すべき接続辺を削除するステップと、
    前記少なくとも1つの前記マクロノード、及び前記現在キーポイントグラフィックモデルにおける前記マクロノードに含まれるキーポイント以外の他のキーポイントを枝刈り処理後のキーポイントとし、削除後に残された接続辺を枝刈り処理後の接続辺として、今回の枝刈り処理後のキーポイントグラフィックモデルを得るステップと、を含む
    請求項4に記載のキーポイント検出方法。
  7. 前記得られた少なくとも1つのマクロノードと前記現在キーポイントグラフィックモデルに基づいて削除すべき接続辺を決定するステップは、
    前記少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び前記現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、前記削除すべき接続辺を決定するステップを含む
    請求項6に記載のキーポイント検出方法。
  8. 前記少なくとも1つのマクロノードに含まれる各キーポイントのカテゴリ情報、及び前記現在キーポイントグラフィックモデルにおける少なくとも1つのマクロノードに含まれるキーポイント以外の他のキーポイントのカテゴリ情報に基づいて、前記削除すべき接続辺を決定するステップは、
    前記現在キーポイントグラフィックモデルにおけるいずれかの接続辺に対して、このいずれかの接続辺に対応する2つのキーポイントが異なるマクロノード中のキーポイントであり、且つこのいずれかの接続辺に対応する2つのマクロノードにカテゴリ情報が同じなキーポイントが存在する場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、
    このいずれかの接続辺に対応する2つのキーポイントが同一マクロノード中のキーポイントである場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、
    このいずれかの接続辺に対応する2つのキーポイントの一方がマクロノード中のキーポイントであり、他方がマクロノード中のキーポイントでなく、且つこのいずれかの接続辺に対応する前記マクロノードに他方のキーポイントのカテゴリ情報と同じなキーポイントが存在する場合に、このいずれかの接続辺を前記削除すべき接続辺に決定するステップと、を含む
    請求項7に記載のキーポイント検出方法。
  9. 前記各目標対象のキーポイント情報は事前トレーニング済み目標ニューラルネットワークによって生成され、前記目標ニューラルネットワークはマクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして得られたものであり、前記マクロノード弁別器は各マクロノードに含まれる複数のキーポイントが同一目標対象に属するかを判別するためのものであり、
    サンプル画像を取得するステップと、
    前記サンプル画像に基づいて前記マクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップと、によって、前記トレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得る
    請求項1~8のいずれか一項に記載のキーポイント検出方法。
  10. 前記サンプル画像に基づいて前記マクロノード弁別器を備えるトレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップは、
    前記サンプル画像に基づいて前記トレーニング待ちニューラルネットワークをトレーニングして、予測結果を得るステップであって、前記予測結果は前記マクロノード弁別器の検出結果、各キーポイントの予測カテゴリ及び各キーポイントの予測位置情報を含む、ステップと、
    前記マクロノード弁別器の検出結果に基づいて第1損失値を決定し、また、前記各キーポイントの予測カテゴリ、前記各キーポイントの予測位置情報及び前記サンプル画像に含まれるラベリング結果に基づいて第2損失値を決定するステップであって、前記ラベリング結果は対応する目標対象に属する各キーポイントのラベリングカテゴリ及び各キーポイントのラベリング位置情報を含む、ステップと、
    前記第1損失値と前記第2損失値に基づいて前記トレーニング待ちニューラルネットワークをトレーニングして、事前トレーニング済み目標ニューラルネットワークを得るステップと、を含む
    請求項に記載のキーポイント検出方法。
  11. 前記検出すべき画像中の各目標対象のキーポイント情報を得た後、
    各目標対象に対応する前記キーポイント情報に基づいてこの目標対象の行動種類を決定するステップ、及び/又は
    各目標対象に対応する前記キーポイント情報に基づいてこの目標対象の少なくとも1つの目標部位の位置情報を決定し、且つ前記少なくとも1つの目標部位の位置情報により前記少なくとも1つの目標部位に対する特殊効果情報を生成するステップを更に含む
    請求項1~10のいずれか一項に記載のキーポイント検出方法。
  12. 検出すべき画像を取得するように構成される取得モジュールと、
    前記検出すべき画像に基づいて画像特徴マップと複数のキーポイントヒートマップを生成するように構成される第1生成モジュールであって、前記画像特徴マップは前記検出すべき画像中の各目標対象のキーポイント間の相対的位置関係を表すためのものであり、各前記キーポイントヒートマップは前記検出すべき画像の1種のカテゴリのキーポイントを含み、異なるカテゴリのキーポイントが前記目標対象の異なる部位に対応する、第1生成モジュールと、
    前記画像特徴マップと複数の前記キーポイントヒートマップに基づいて初期キーポイントグラフィックモデルを生成するように構成される第2生成モジュールであって、前記初期キーポイントグラフィックモデルは前記検出すべき画像における異なるカテゴリのキーポイントの情報及び接続辺の情報を含み、各接続辺は2つの異なるカテゴリのキーポイントの間の辺である、第2生成モジュールと、
    処理後のキーポイントグラフィックモデル中の複数のキーポイントが複数のクラスタにクラスタリングされるまで、前記初期キーポイントグラフィックモデルに対して前記接続辺の枝刈り処理を複数回行って、それぞれ各目標対象に属するキーポイント情報を得るように構成される処理モジュールと、を備える、キーポイント検出装置。
  13. 電子機器であって、
    プロセッサと、前記プロセッサによって実行可能な機器可読命令を記憶するメモリと、バスと、を備え、電子機器が実行する時に、前記プロセッサと前記メモリが前記バスによって通信し、前記プロセッサは、前記機器可読命令を実行して、請求項1~11のいずれか一項に記載のキーポイント検出方法を実行する、電子機器。
  14. コンピュータに請求項1~11のいずれか一項に記載のキーポイント検出方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
  15. コンピュータに請求項1~11のいずれか一項に記載のキーポイント検出方法を実行させる、コンピュータプログラム

JP2021565761A 2020-06-30 2021-02-10 キーポイント検出方法、キーポイント検出装置、電子機器及び記憶媒体 Active JP7182021B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010622135.7 2020-06-30
CN202010622135.7A CN111898642B (zh) 2020-06-30 2020-06-30 关键点检测方法、装置、电子设备及存储介质
PCT/CN2021/076467 WO2022001123A1 (zh) 2020-06-30 2021-02-10 关键点检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022543954A JP2022543954A (ja) 2022-10-17
JP7182021B2 true JP7182021B2 (ja) 2022-12-01

Family

ID=73191965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021565761A Active JP7182021B2 (ja) 2020-06-30 2021-02-10 キーポイント検出方法、キーポイント検出装置、電子機器及び記憶媒体

Country Status (4)

Country Link
JP (1) JP7182021B2 (ja)
CN (1) CN111898642B (ja)
TW (1) TWI766618B (ja)
WO (1) WO2022001123A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898642B (zh) * 2020-06-30 2021-08-13 北京市商汤科技开发有限公司 关键点检测方法、装置、电子设备及存储介质
CN111783882B (zh) * 2020-06-30 2022-09-09 北京市商汤科技开发有限公司 关键点检测方法、装置、电子设备及存储介质
CN112465006B (zh) * 2020-11-24 2022-08-05 中国人民解放军海军航空大学 一种图神经网络目标跟踪方法及装置
CN112561054B (zh) * 2020-12-03 2023-03-31 中国科学院光电技术研究所 一种基于批量特征热图的神经网络滤波器剪枝方法
CN112580652B (zh) * 2020-12-24 2024-04-09 咪咕文化科技有限公司 虚拟装饰方法、装置、电子设备及存储介质
CN112598070B (zh) * 2020-12-25 2023-07-28 创新奇智(广州)科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113408568B (zh) * 2021-04-16 2024-04-16 科大讯飞股份有限公司 对象关键点的检测模型训练的相关方法、装置、设备
CN113850245A (zh) * 2021-11-30 2021-12-28 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质
CN114372477B (zh) 2022-03-21 2022-06-10 北京百度网讯科技有限公司 文本识别模型的训练方法、文本识别方法及装置
CN115019136B (zh) * 2022-08-05 2022-11-25 山东圣点世纪科技有限公司 抗边界点漂移的目标关键点检测模型训练方法及检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532873A (zh) 2019-07-24 2019-12-03 西安交通大学 一种联合人体检测与姿态估计的深度网络学习方法
EP3605394A1 (en) 2018-08-03 2020-02-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for recognizing body movement
US20200065612A1 (en) 2018-08-27 2020-02-27 TalkMeUp Interactive artificial intelligence analytical system
US10643085B1 (en) 2019-01-30 2020-05-05 StradVision, Inc. Method and device for estimating height and weight of passengers using body part length and face information based on human's status recognition
CN111341438A (zh) 2020-02-25 2020-06-26 中国科学技术大学 图像处理、装置、电子设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200919210A (en) * 2007-07-18 2009-05-01 Steven Kays Adaptive electronic design
CN105893920B (zh) * 2015-01-26 2019-12-27 阿里巴巴集团控股有限公司 一种人脸活体检测方法和装置
US11238612B2 (en) * 2018-08-28 2022-02-01 Beijing Jingdong Shangke Information Technology Co., Ltd. Device and method of tracking poses of multiple objects based on single-object pose estimator
CN110020633B (zh) * 2019-04-12 2022-11-04 腾讯科技(深圳)有限公司 姿态识别模型的训练方法、图像识别方法及装置
CN111160085A (zh) * 2019-11-19 2020-05-15 天津中科智能识别产业技术研究院有限公司 一种人体图像关键点姿态估计方法
CN111339903B (zh) * 2020-02-21 2022-02-08 河北工业大学 一种多人人体姿态估计方法
CN111783882B (zh) * 2020-06-30 2022-09-09 北京市商汤科技开发有限公司 关键点检测方法、装置、电子设备及存储介质
CN111898642B (zh) * 2020-06-30 2021-08-13 北京市商汤科技开发有限公司 关键点检测方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3605394A1 (en) 2018-08-03 2020-02-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for recognizing body movement
US20200065612A1 (en) 2018-08-27 2020-02-27 TalkMeUp Interactive artificial intelligence analytical system
US10643085B1 (en) 2019-01-30 2020-05-05 StradVision, Inc. Method and device for estimating height and weight of passengers using body part length and face information based on human's status recognition
CN110532873A (zh) 2019-07-24 2019-12-03 西安交通大学 一种联合人体检测与姿态估计的深度网络学习方法
CN111341438A (zh) 2020-02-25 2020-06-26 中国科学技术大学 图像处理、装置、电子设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Alejandro Newell et al.,Associative Embedding: End-to-End Learning for Joint Detection and Grouping,[オンライン],2016年11月16日,[検索日 2022.11.02], インターネット: <URL:https://arxiv.org/pdf/1611.05424.pdf>
Sheng Jin et al.,Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation, [オンライン],2020年07月23日,[検索日 2022.11.02], インターネット: <URL:https://arxiv.org/pdf/2007.11864.pdf>
Yue Wang et al.,Dynamic Graph CNN for Learning on Point Clouds, [オンライン],2018年01月24日,[検索日 2022.11.02], インターネット: <URL:https://arxiv.org/pdf/1801.07829.pdf>

Also Published As

Publication number Publication date
WO2022001123A1 (zh) 2022-01-06
CN111898642A (zh) 2020-11-06
CN111898642B (zh) 2021-08-13
JP2022543954A (ja) 2022-10-17
TWI766618B (zh) 2022-06-01
TW202203212A (zh) 2022-01-16

Similar Documents

Publication Publication Date Title
JP7182021B2 (ja) キーポイント検出方法、キーポイント検出装置、電子機器及び記憶媒体
CN110175527B (zh) 行人再识别方法及装置、计算机设备及可读介质
Yang et al. Uncertainty-guided transformer reasoning for camouflaged object detection
Moreira et al. Image provenance analysis at scale
Xie et al. Point clouds learning with attention-based graph convolution networks
CN111950596A (zh) 一种用于神经网络的训练方法以及相关设备
Tian et al. Neuron coverage-guided domain generalization
KR20220004009A (ko) 키 포인트 검출 방법, 장치, 전자 기기 및 저장 매체
Biswas et al. Hybrid expert system using case based reasoning and neural network for classification
Fang et al. Robust image clustering via context-aware contrastive graph learning
Yu et al. Exemplar-based recursive instance segmentation with application to plant image analysis
CN107480627B (zh) 行为识别方法、装置、存储介质和处理器
Wang et al. Geometry consistency aware confidence evaluation for feature matching
Xu et al. Vision transformers for computational histopathology
CN113705276A (zh) 模型构建方法、模型构建装置、计算机设备及介质
Ding et al. Rlsegnet: An medical image segmentation network based on reinforcement learning
CN114239083A (zh) 一种基于图神经网络的高效状态寄存器识别方法
CN113762331A (zh) 关系型自蒸馏方法、装置和系统及存储介质
Zhu et al. Graph-based reasoning attention pooling with curriculum design for content-based image retrieval
CN106547890A (zh) 海量图像特征向量中的快速聚类预处理方法
EP4002297A1 (en) Systems and methods for automated detection of building footprints
CN115170599A (zh) 通过图神经网络的链路预测进行血管分割的方法和装置
Alshahrani et al. Optimal Deep Convolutional Neural Network for Vehicle Detection in Remote Sensing Images.
Ren et al. A novel federated multi-view clustering method for unaligned and incomplete data fusion
Dai et al. FMAP: Learning robust and accurate local feature matching with anchor points

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211104

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221118

R150 Certificate of patent or registration of utility model

Ref document number: 7182021

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150