JP7194215B2 - キーポイントの特定方法及び装置、機器、記憶媒体 - Google Patents

キーポイントの特定方法及び装置、機器、記憶媒体 Download PDF

Info

Publication number
JP7194215B2
JP7194215B2 JP2021039045A JP2021039045A JP7194215B2 JP 7194215 B2 JP7194215 B2 JP 7194215B2 JP 2021039045 A JP2021039045 A JP 2021039045A JP 2021039045 A JP2021039045 A JP 2021039045A JP 7194215 B2 JP7194215 B2 JP 7194215B2
Authority
JP
Japan
Prior art keywords
feature map
keypoint
keypoints
network
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021039045A
Other languages
English (en)
Other versions
JP2021197157A (ja
Inventor
ジェン ワン,
ズーポン ルー,
ハオ スン,
ホンウー ジャン,
シーレイ ウェン,
アールイ ディン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021197157A publication Critical patent/JP2021197157A/ja
Application granted granted Critical
Publication of JP7194215B2 publication Critical patent/JP7194215B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)

Description

本発明の実施例は、コンピュータ技術の分野に関し、具体的には人工知能、深層学習、画像処理技術の分野に関し、特にキーポイントの特定方法及び装置、機器、記憶媒体に関する。
人体のキーポイントの特定とは、画像から例えば頭、五官、首、四肢などの人体の重要な部位の座標位置を検出して特定することである。当該技術は、人体の姿、運動の軌跡、動作の角度などの分析に広く使用され、スポーツ選手に対しスポーツのトレーニングを行うことを支援し、フィットネスのトレーニング効果を分析し、授業の効率を向上させることができる。
現在、人体のキーポイントの特定の主な実施形態は、特徴マップ抽出器としてディープニューラルネットワークを使用し、この後、特徴マップに基づいてキーポイントのヒートマップを生成し、最後にヒートマップに基づいてキーポイントの位置を直接的に特定することである。
本発明の実施例では、キーポイントの特定方法及び装置、機器、記憶媒体を提案する。
第1側面において、本発明の実施例は、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出することであって、ここで、第1の特徴マップは、第2の特徴マップと異なる特徴マップであることと、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定することと、第2の特徴マップに基づいて、キーポイントのオフセット量を確定することと、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られることと、を含むキーポイントの特定方法に関する。
第2側面において、本発明の実施例は、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出するように構成される特徴マップ抽出モジュールであって、ここで、第1の特徴マップは、第2の特徴マップと異なる特徴マップである特徴マップ抽出モジュールと、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定するように構成される初期位置確定モジュールと、第2の特徴マップに基づいて、キーポイントのオフセット量を確定するように構成されるオフセット量確定モジュールと、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られるように構成される最終位置生成モジュールと、を含むキーポイントの特定装置に関する。
第3側面において、本発明の実施例は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されたメモリと、を含み、ここで、メモリは、少なくとも1つのプロセッサによって実行可能な指令を記憶し、指令が少なくとも1つのプロセッサによって実行されることにより、第1側面のいずれかの実施形態で説明された方法を少なくとも1つのプロセッサに実現させる電子機器に関する。
第4側面において、本発明の実施例は、コンピュータ指令が記憶された非一時的コンピュータ可読記憶媒体であって、コンピュータ指令は、第1側面のいずれかの実施形態で説明された方法をコンピュータに実行させるために使用される非一時的コンピュータ可読記憶媒体に関する。
第5側面において、本発明の実施例は、コンピュータプログラムであって、プロセッサによって実行されると、第1側面のいずれかの実施形態で説明された方法を実現するコンピュータプログラムに関する。
本発明の実施例によるキーポイントの特定方法及び装置、機器、記憶媒体は、まず、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出し、次に、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定し、第2の特徴マップに基づいて、キーポイントのオフセット量を確定し、最後に、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。異なる特徴マップを使用して、キーポイントに対し粗い特定と正確な特定をそれぞれに行うことにより、粗い特定と正確な特定で注目された異なるタイプの特徴に対する特徴マップの学習能力を高め、最終的にキーポイントの特定の正確さを向上させる。直接にヒートマップに基づくキーポイントの特定に誤差があるという技術的問題を解決した。当該技術案は、オープンなAIプラットフォームに適用でき、既存のオープンソースの技術案より優れている。
本明細書で記載された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図したものではなく、本開示の範囲を制限するものでもないことを理解すべきである。本開示の他の特徴は、以下の説明によって容易に理解される。
本発明のその他の特徴、目的および利点をより明確にするために、以下の図面を参照してなされた非限定的な実施例の詳細な説明を参照する。図面は、本技術案をよりよく理解するために使用され、本発明に対する限定を構成しない。
本発明が適用可能な例示的なシステムアーキテクチャ図である。 本発明によるキーポイントの特定方法の一実施例のフローチャートである。 本発明によるキーポイントの特定方法の別の実施例のフローチャートである。 本発明の実施例のキーポイントの特定方法を実現することができるシーン図である。 本発明によるキーポイントの特定装置の一実施例の概略構成図である。 本発明の実施例のキーポイントの特定方法を実現するための電子機器のブロック図である。
以下、図面に関連して本発明の例示的な実施例を説明し、理解を容易にするための本発明の実施例の様々な詳細を含んでいるが、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本発明の範囲および精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明確かつ簡明にするために、以下の説明では、公知の機能および構造に対する説明が省略される。
なお、矛盾しない場合には、本発明の実施例及び実施例における特徴を互いに組み合わせることができる。以下、図面を参照して、実施例に合わせて本発明を詳細に説明する。
図1には、本発明が適用され得る、キーポイントの特定方法又はキーポイントの特定装置の実施例の例示的なシステムアーキテクチャ100が示されている。
図1に示すように、システムアーキテクチャ100は、端末機器101、ネットワーク102およびサーバ103を含むことができる。ネットワーク102は、端末機器101とサーバ103との間に通信リンクの媒体を提供するために使用される。ネットワーク102としては、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。
ユーザは、端末機器101を使用してネットワーク102を介してサーバ103とインタラクティブすることにより、メッセージなどを送受信することができる。端末機器101には、例えば画像処理アプリケーションなどの様々なクライアントアプリケーションをインストールすることができる。
端末機器101は、ハードウェアでもソフトウェアでもよい。端末機器101がハードウェアである場合、カメラを有する様々な電子機器であってもよく、監視カメラ、スマートデバイスなどを含むがこれらに限定されない。端末機器101がソフトウェアである場合、上記電子機器にインストールすることができる。それは、複数のソフトウェアまたはソフトウェアモジュールとして実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。
サーバ103は、例えば画像処理アプリケーションのバックグラウンドサーバなどの様々なサービスを提供するサーバであってもよい。画像処理アプリケーションのバックグラウンドサーバは、端末機器101から受信された特定待ち画像などのデータに対し分析などの処理を行い、処理結果(例えばキーポイントの最終位置)を端末機器101にフィードバックすることができる。
なお、サーバ103は、ハードウェアでもソフトウェアでもよい。サーバ103がハードウェアである場合、複数のサーバからなる分散型サーバクラスターとして実現されてもよく、単一のサーバとして実現されてもよい。サーバ103がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば分散型サービスを提供する)として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。
なお、本発明の実施例によるキーポイントの特定方法は、一般的にサーバ103によって実行され、これに対応して、キーポイントの特定装置は、一般的にサーバ103に配置されている。
図1の端末機器、ネットワーク、およびサーバの数は単なる例示であることを理解すべきである。必要に応じて、任意の数の端末機器、ネットワーク、およびサーバを備えることができる。サーバ103に特定待ち画像が記憶される場合、システムアーキテクチャ100には、端末機器101およびネットワーク102を設けなくてもよい。また、端末機器101が処理能力を有する場合、本発明の実施例によるキーポイントの特定方法は、端末機器101によって実行されてもよく、これに対応して、キーポイントの特定装置は、端末機器101に配置されてもよい。この場合、システムアーキテクチャ100には、ネットワーク102およびサーバ103を設けなくてもよい。
続けて図2を参照すると、本発明によるキーポイントの特定方法の一実施例のフロー200が示されている。当該キーポイントの特定方法は、以下のステップを含む。
ステップ201において、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出する。
本実施例において、キーポイントの特定方法の実行主体(例えば図1に示されたサーバ103)は、特定待ち画像を取得し、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出することができる。
通常、上記実行主体は、端末機器(例えば図1に示された端末機器101)から特定待ち画像を取得することができる。ここで、端末機器は、画像収集機能をサポートする様々な電子機器であってもよく、監視カメラ、スマートデバイスなどを含むがこれらに限定されない。当該キーポイントの特定方法は、端末機器がより正確なキーポイントの特定を取得する能力を可能にすることにより、動作の識別、人体の局所的な属性および外観特徴の分析などの下流のアプリケーション分析をさらに支援することができる。また、特定待ち画像がローカルに記憶される場合、上記実行主体は、ローカルに記憶された特定待ち画像を取得することができる。
実践において、第1の特徴マップは、第2の特徴マップと異なる特徴マップであってもよい。例えば、2つの独立したディープニューラルネットワークを使用してそれぞれ抽出された2つの特徴マップである。また例えば、1つのディープニューラルネットワークの2つの異なる畳み込み層を使用してそれぞれ抽出された2つの特徴マップである。さらに例えば、1つのディープニューラルネットワークの2つの独立した分岐を使用してそれぞれ抽出された2つの特徴マップである。
ステップ202において、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定する。
本実施例において、上記実行主体は、第1の特徴マップに基づいて粗い特定を行うことにより、キーポイントの大まかな位置を得ることができる。例えば、第1の特徴マップにおける特徴を分析して、特定待ち画像におけるキーポイントの初期位置を確定する。具体的に、第1の特徴マップにおける大きなスケールの大域的意味特徴を用いて、キーポイントの初期位置を確定することができる。ここで、キーポイントは、特定待ち画像に存在したターゲットの主要な部位上の点であってもよい。キーポイントの初期位置は、キーポイントの大まかな位置であってもよい。特定待ち画像に存在する人体を例にとると、その対応するキーポイントは、頭、五官、首、四肢などの部位上の点を含むことができるが、これらに限定されない。
ステップ203において、第2の特徴マップに基づいて、キーポイントのオフセット量を確定する。
本実施例において、上記実行主体は、第2の特徴マップに基づいて正確な特定を行うことにより、キーポイントの正確なオフセットを得ることができる。例えば、第2の特徴マップにおける特徴を分析して、特定待ち画像におけるキーポイントのオフセット量を確定する。具体的に、第2の特徴マップにおける小さなスケールの局所的意味特徴を用いて、キーポイントのオフセット量を確定することができる。ここで、キーポイントのオフセット量は、キーポイントの最終位置と初期位置との間のオフセットであってもよい。キーポイントの最終位置は、キーポイントの正確な位置であってもよい。
ステップ204において、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。
本実施例において、上記実行主体は、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置を得ることができる。
本発明の実施例によるキーポイントの特定方法は、まず、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出し、次に、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定し、第2の特徴マップに基づいて、キーポイントのオフセット量を確定し、最後に、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。異なる特徴マップを使用して、キーポイントに対し粗い特定と正確な特定をそれぞれに行うことにより、粗い特定と正確な特定で注目された異なるタイプの特徴に対する特徴マップの学習能力を高め、最終的にキーポイントの特定の正確さを向上させる。直接にヒートマップに基づくキーポイントの特定に誤差があるという技術的問題を解決した。当該技術案は、オープンなAIプラットフォームに適用でき、既存のオープンソースの技術案より優れている。
さらに図3を参照すると、本発明によるキーポイントの特定方法の別の実施例のフロー300が示されている。当該キーポイントの特定方法は、以下のステップを含む。
ステップ301において、特定待ち特徴マップをマスターネットワークに入力し、特定待ち画像の初期特徴マップを出力する。
本実施例において、キーポイントの特定方法の実行主体(例えば図1に示されたサーバ103)は、1つのディープニューラルネットワークの2つの独立した分岐を使用して2つの特徴マップをそれぞれ抽出することができる。通常、ディープニューラルネットワークは、1つのマスターネットワークを含むことができ、マスターネットワークから第1のサブネットワークと第2のサブネットワークの2つの異なる分岐を引き出すことができる。まず特定待ち特徴マップをマスターネットワークに入力し、マスターネットワークは、特定待ち画像の初期特徴マップを出力することができる。ここで、マスターネットワークは、大量の畳み込み層を含むことができる。
ステップ302において、初期特徴マップを第1のサブネットワークおよび第2のサブネットワークにそれぞれ入力し、第1の特徴マップおよび第2の特徴マップを出力する。
本実施例において、上記実行主体は、マスターネットワークから出力された初期特徴マップを第1のサブネットワークおよび第2のサブネットワークにそれぞれ入力し、第1の特徴マップおよび第2の特徴マップを出力することができる。
ここで、第1のサブネットワークと第2のサブネットワークは、マスターネットワークの2つの異なる分岐であってもよい。この2つの分岐は、大量の畳み込み層を含むことができ、その構造は同じでもいいし、異なってもいい。構造が同じである場合、2つの分岐が2つの異なる特徴マップを出力することを保証するために、そのパラメータが必ず異なる。
ステップ303において、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントのヒートマップを生成する。
本実施例において、上記実行主体は、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントのヒートマップを生成することができる。ここで、ヒートマップ上の各ポイントの熱力値は、それがキーポイントである確率を表すために用いることができる。通常、熱力値が大きいほど、対応するポイントがキーポイントである確率が高くなる。
ステップ304において、ヒートマップ上のポイントの熱力値に基づいて、キーポイントの初期位置を確定する。
本実施例において、上記実行主体は、ヒートマップ上のポイントの熱力値に基づいて、キーポイントの初期位置を確定することができる。例えば、上記実行主体は、熱力値が予め設定された閾値より大きいポイントをキーポイントとして大まかに確定することができ、そのヒートマップ上の位置は、キーポイントの初期位置である。
いくつかの実施例において、1×1で第1の特徴マップを畳み込むことにより、ヒートマップを得ることができる。ここで、ヒートマップのチャネルの数は、キーポイントの数と同じであり、ヒートマップのチャネルは、キーポイントに1対1で対応する。1つのチャネルにおいて応答値が最も大きいポイントの位置が、対応するキーポイントの初期位置である。
ステップ305において、キーポイントの初期位置に基づいて、第2の特徴マップの対応する位置において特徴を抽出する。
本実施例において、上記実行主体は、キーポイントの初期位置に基づいて、第2の特徴マップにおいて対応する位置を検索し、対応する位置において特徴を抽出することができる。対応する位置だけで特徴を抽出するので、得られたものが、キーポイントの局所的意味特徴である。
ステップ306において、特徴を用いてオフセット量の回帰を行うことにより、キーポイントのオフセット量が得られる。
本実施例において、上記実行主体は、特徴を用いてオフセット量の回帰を行うことにより、キーポイントのオフセット量を得ることができる。
ここで、キーポイントのオフセット量δは、式δ=func(F)によって得られる。Fは、キーポイントの初期位置に基づいて、第2の特徴マップの対応する位置において抽出された特徴である。funcは、回帰ネットワークであり、1~2層の全結合層であってよい。
ステップ307において、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。
本実施例において、ステップ307の具体的な動作は、図2に示された実施例のステップ204において詳細に説明され、ここでは説明を省略する。
図3から分かるように、図2に対応する実施例と比較して、本実施例におけるキーポイントの特定方法のフロー300は、特徴マップを抽出するステップ及びオフセット量を確定するステップを強調している。したがって、本実施例で説明された技術案では、同じディープニューラルネットワークの異なる分岐を用いて第1の特徴マップおよび第2の特徴マップをそれぞれ抽出し、抽出プロセスは、同じ層と独立した層との両方を含み、2つの特徴マップに一定の関連があり、また一定の区別があるようにすることができる。また、粗い特定の段階とは異なる第2の特徴マップを用いて、キーポイントの位置誤差の回帰を行うことにより、キーポイントに対する正確な特定が実現された。
理解を容易にするために、以下、本発明の実施例のキーポイントの特定方法を実現することができるシーン図を提供する。図4に示すように、当該シーンは、特徴マップ抽出段階401と、粗い特定段階402と、正確な特定段階403とを含む。特徴マップ抽出段階401については、2つの独立した分岐を含む1つのディープニューラルネットワークを用いて、画像の第1の特徴マップと第2の特徴マップをそれぞれ抽出する。粗い特定段階402については、第1の特徴マップに基づいてヒートマップを生成し、ヒートマップ上のポイントの熱力値に基づいてキーポイントの大まかな位置を確定する。正確な特定段階403については、大まかな位置に基づいて第2の特徴マップの対応する位置において特徴を抽出し、また、特徴を用いてオフセット量の回帰を行うことにより、オフセット量が得られる。最後に、大まかな位置をオフセット量に加算することにより、正確な位置が得られる。
さらに図5を参照して、上記の各図に示された方法の実現として、本開示はキーポイントの特定装置の一実施例を提供し、当該装置の実施例は、図2に示す方法実施例に対応し、当該装置は、具体的に様々な電子機器に適用できる。
図5に示すように、本実施例に係るキーポイントの特定装置500は、特徴マップ抽出モジュール501と、初期位置確定モジュール502と、オフセット量確定モジュール503と、最終位置生成モジュール504とを含む。ここで、特徴マップ抽出モジュール501は、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出するように構成され、ここで、第1の特徴マップは、第2の特徴マップと異なる特徴マップである。初期位置確定モジュール502は、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定するように構成される。オフセット量確定モジュール503は、第2の特徴マップに基づいて、キーポイントのオフセット量を確定するように構成される。最終位置生成モジュール504は、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られるように構成される。
本実施例において、キーポイントの特定装置500において、特徴マップ抽出モジュール501、初期位置確定モジュール502、オフセット量確定モジュール503、及び最終位置生成モジュール504の具体的な処理およびそれによる技術的効果について、図2の対応する実施例におけるステップ201~204の関連説明をそれぞれ参照することができ、ここでは説明を省略する。
本実施例のいくつかの選択可能な実施形態において、特徴マップ抽出モジュール501は、さらに、特定待ち特徴マップをマスターネットワークに入力し、特定待ち画像の初期特徴マップを出力し、初期特徴マップを第1のサブネットワークおよび第2のサブネットワークにそれぞれ入力し、第1の特徴マップおよび第2の特徴マップを出力するように構成され、ここで、第1のサブネットワークと第2のサブネットワークは、マスターネットワークの2つの異なる分岐である。
本実施例のいくつかの選択可能な実施形態において、初期位置確定モジュール502は、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントのヒートマップを生成するように構成されるヒートマップ生成サブモジュール(図示せず)と、ヒートマップ上のポイントの熱力値に基づいて、キーポイントの初期位置を確定するように構成される初期位置確定サブモジュール(図示せず)と、を含む。
本実施例のいくつかの選択可能な実施形態において、ヒートマップ生成サブモジュールは、さらに、1×1で第1の特徴マップを畳み込むことにより、ヒートマップが得られるように構成され、ここで、ヒートマップのチャネルは、キーポイントに1対1で対応する。
本実施例のいくつかの選択可能な実施形態において、オフセット量確定モジュール503は、さらに、キーポイントの初期位置に基づいて、第2の特徴マップの対応する位置において特徴を抽出し、特徴を用いてオフセット量の回帰を行うことにより、キーポイントのオフセット量が得られるように構成される。
本発明の実施例によると、本発明は、電子機器及び可読記憶媒体をさらに提供する。
図6に示すように、本発明の実施例のキーポイントの特定方法による電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の類似のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すこともできる。本明細書に示された部品、それらの接続および関係、およびそれらの機能は、単なる例にすぎ、本明細書で説明されおよび/または要求されている本発明の実現を制限することを意図しない。
図6に示すように、当該電子機器は、少なくとも1つのプロセッサ601と、メモリ602と、高速インターフェースと低速インターフェースを含む各部品を接続するためのインターフェースとを含む。各部品は、異なるバスを利用して互いに接続され、共通マザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、GUIのグラフィカル情報を外部入力/出力装置(例えば、インターフェースにカップリングされた表示装置)に表示するためのメモリ内またはメモリ上に記憶された命令を含む、電子機器内で実行された指令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子機器を接続してもよく、各機器は、部分的に必要な動作(例えば、サーバアレイ、1組のブレードサーバ、またはマルチプロセッサシステムとして)を提供する。図6では、1つのプロセッサ601を例にとる。
メモリ602は、本発明による非一時的コンピュータ可読記憶媒体である。ここで、前記メモリは、少なくとも1つのプロセッサによって実行され得る指令を記憶することにより、本発明によるキーポイントの特定方法を前記少なくとも1つのプロセッサに実行させる。本発明の非一時的コンピュータ可読記憶媒体は、コンピュータ指令を記憶し、当該コンピュータ指令は、本発明によるキーポイントの特定方法をコンピュータに実行させるために使用される。
メモリ602は、非一時的コンピュータ可読記憶媒体として、本発明の実施例におけるキーポイントの特定方法に対応するプログラム指令/モジュール(例えば、図5に示された特徴マップ抽出モジュール501、初期位置確定モジュール502、オフセット量確定モジュール503、および最終位置生成モジュール504)のような、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、およびモジュールを記憶するために使用することができる。プロセッサ601は、メモリ602に記憶された非一時的ソフトウェアプログラム、指令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行し、すなわち、上述した方法の実施例におけるキーポイントの特定方法が実現される。
メモリ602は、プログラム記憶領域およびデータ記憶領域を含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、キーポイントの特定方法による電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ602としては、高速ランダムアクセスメモリを含むことができ、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一時的固体記憶装置などの非一時的メモリを含むこともできる。いくつかの実施例では、選択肢の一つとして、メモリ602は、プロセッサ601に対して遠隔的に配置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してキーポイントの特定方法の電子機器に接続することができる。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルエリアネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。
キーポイントの特定方法の電子機器は、入力装置603および出力装置604をさらに含むことができる。プロセッサ601、メモリ602、入力装置603および出力装置604は、バスまたは他の方法で接続することができ、図6では、バスで接続されることを例にとる。
入力装置603は、入力された数字または文字メッセージを受信し、キーポイントの特定方法の電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックボード、タッチパッド、指示棒、1つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置604としては、表示装置、補助照明装置(例えば、LED)、および触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置としては、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施例では、表示装置は、タッチスクリーンであってもよい。
ここで説明されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、以下の内容を含むことができ、即ち、1つ以上のコンピュータプログラムに実施され、当該1つ以上のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈することができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび指令を受信し、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に送信することができる。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサのマシン指令を含み、高度なプロセスおよび/またはオブジェクトに向けたプログラミング言語、および/またはアセンブリ/マシン言語を利用してこれらの計算プログラムを実行することができる。本明細書で使用されたような用語「機械可読媒体」および「コンピュータ可読媒体」とは、機械指令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械可読信号である機械指令を受信する機械可読媒体を含む。用語「機械可読信号」とは、機械指令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクティブを提供するために、ここで説明されたシステムおよび技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)を備え、ユーザは、当該キーボードおよび当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクティブを提供するために使用することもできる。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形態(声入力、音声入力、または触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステムおよび技術を、バックグラウンド部品を含む計算システム(例えば、データサーバ)、またはミドルウエア部品を含む計算システム(例えば、アプリケーションサーバ)、またはフロントエンド部品を含む計算システム(例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータが挙げられ、ユーザは、当該グラフィカルユーザインタフェースまたは当該ネットワークブラウザを介してここで説明されたシステムおよび技術の実施形態とインタラクティブすることができる)、またはこのようなバックグラウンド部品、ミドルウエア部品、またはフロントエンド部品の任意の組合せを含む計算システム上で実施することができる。システムの部品は、任意の形態またはメディアのデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されてもよい。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に互いに離れ、通常は通信ネットワークを介してインタラクティブする。クライアントとサーバとの関係は、対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。
本発明の技術案によると、まず、特定待ち画像の第1の特徴マップと第2の特徴マップを抽出し、次に、第1の特徴マップに基づいて、特定待ち画像におけるキーポイントの初期位置を確定し、第2の特徴マップに基づいて、キーポイントのオフセット量を確定し、最後に、キーポイントの初期位置をキーポイントのオフセット量に加算することにより、キーポイントの最終位置が得られる。異なる特徴マップを使用して、キーポイントに対し粗い特定と正確な特定をそれぞれに行うことにより、粗い特定と正確な特定で注目された異なるタイプの特徴に対する特徴マップの学習能力を高め、最終的にキーポイントの特定の正確さを向上させる。直接にヒートマップに基づくキーポイントの特定に誤差があるという技術的問題を解決した。当該技術案は、オープンなAIプラットフォームに適用でき、既存のオープンソースの技術案より優れている。
以上で示された様々な形態のフローを用いて、ステップを並べ替え、追加、または削除できることを理解すべきである。例えば、本発明に記載された各ステップは、並列的に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望の結果が達成される限り、本明細書では制限しない。
上記具体的な実施形態は、本発明の保護範囲に対する制限を構成するものではない。当業者は、設計要件とその他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、および代替を行うことが可能であることを理解すべきである。本発明の精神及び原則内でなされたいかなる修正、均等置換及び改善等も、いずれも本発明の保護範囲に含まれるべきである。

Claims (11)

  1. 特定待ち画像の第1の特徴マップと第2の特徴マップを抽出することであって、ここで、前記第1の特徴マップは、前記第2の特徴マップと異なる特徴マップであることと、
    前記第1の特徴マップに基づいて、前記特定待ち画像におけるキーポイントの初期位置を確定することと、
    前記第2の特徴マップに基づいて、前記キーポイントのオフセット量を確定することと、
    前記キーポイントの初期位置を前記キーポイントのオフセット量に加算することにより、前記キーポイントの最終位置が得られることと、
    を含み、
    前記特定待ち画像の第1の特徴マップと第2の特徴マップを抽出することは、
    特定待ち特徴マップをマスターネットワークに入力し、前記特定待ち画像の初期特徴マップを出力することと、
    前記初期特徴マップを第1のサブネットワークおよび第2のサブネットワークにそれぞれ入力し、前記第1のサブネットワークから前記第1の特徴マップを出力し、前記第2のサブネットワークから前記第2の特徴マップを出力することであって、ここで、前記第1のサブネットワークと前記第2のサブネットワークは、前記マスターネットワークの2つの異なる分岐であることと、を含む、
    キーポイントの特定方法。
  2. 前記第1の特徴マップに基づいて、前記特定待ち画像におけるキーポイントの初期位置を確定することは、
    前記第1の特徴マップに基づいて、前記特定待ち画像におけるキーポイントのヒートマップを生成することと、
    前記ヒートマップ上のポイントの熱力値に基づいて、前記キーポイントの初期位置を確定することと、
    を含む、
    請求項1に記載の方法。
  3. 前記第1の特徴マップに基づいて、前記特定待ち画像におけるキーポイントのヒートマップを生成することは、
    1×1で前記第1の特徴マップを畳み込むことにより、前記ヒートマップが得られ、ここで、前記ヒートマップのチャネルは、前記キーポイントに1対1で対応することを含む、
    請求項に記載の方法。
  4. 前記第2の特徴マップに基づいて、前記キーポイントのオフセット量を確定することは、
    前記キーポイントの初期位置に基づいて、前記第2の特徴マップの対応する位置において特徴を抽出することと、
    前記特徴を用いてオフセット量の回帰を行うことにより、前記キーポイントのオフセット量が得られることと、
    を含む、
    請求項1に記載の方法。
  5. 特定待ち画像の第1の特徴マップと第2の特徴マップを抽出するように構成される特徴マップ抽出モジュールであって、ここで、前記第1の特徴マップは、前記第2の特徴マップと異なる特徴マップである特徴マップ抽出モジュールと、
    前記第1の特徴マップに基づいて、前記特定待ち画像におけるキーポイントの初期位置を確定するように構成される初期位置確定モジュールと、
    前記第2の特徴マップに基づいて、前記キーポイントのオフセット量を確定するように構成されるオフセット量確定モジュールと、
    前記キーポイントの初期位置を前記キーポイントのオフセット量に加算することにより、前記キーポイントの最終位置が得られるように構成される最終位置生成モジュールと、
    を含む、
    前記特徴マップ抽出モジュールは、さらに、
    特定待ち特徴マップをマスターネットワークに入力し、前記特定待ち画像の初期特徴マップを出力し、
    前記初期特徴マップを第1のサブネットワークおよび第2のサブネットワークにそれぞれ入力し、前記第1の特徴マップおよび前記第2の特徴マップを出力するように構成され、ここで、前記第1のサブネットワークと前記第2のサブネットワークは、前記マスターネットワークの2つの異なる分岐である、
    キーポイントの特定装置。
  6. 前記初期位置確定モジュールは、
    前記第1の特徴マップに基づいて、前記特定待ち画像におけるキーポイントのヒートマップを生成するように構成されるヒートマップ生成サブモジュールと、
    前記ヒートマップ上のポイントの熱力値に基づいて、前記キーポイントの初期位置を確定するように構成される初期位置確定サブモジュールと、
    を含む、
    請求項に記載の装置。
  7. 前記ヒートマップ生成サブモジュールは、さらに、
    1×1で前記第1の特徴マップを畳み込むことにより、前記ヒートマップが得られるように構成され、ここで、前記ヒートマップのチャネルは、前記キーポイントに1対1で対応する、
    請求項に記載の装置。
  8. 前記オフセット量確定モジュールは、さらに、
    前記キーポイントの初期位置に基づいて、前記第2の特徴マップの対応する位置において特徴を抽出し、
    前記特徴を用いてオフセット量の回帰を行うことにより、前記キーポイントのオフセット量が得られるように構成される、
    請求項に記載の装置。
  9. 1つ以上のプロセッサと、
    1つ以上のプログラムが記憶された記憶装置と、
    を含み、
    前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行されるとき、請求項1からのいずれか1項に記載の方法を前記1つ以上のプロセッサに実現させる、
    電子機器。
  10. コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1からのいずれか1項に記載の方法を実現する、
    コンピュータ可読媒体。
  11. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1からのいずれか1項に記載の方法を実現する
    コンピュータプログラム。
JP2021039045A 2020-06-12 2021-03-11 キーポイントの特定方法及び装置、機器、記憶媒体 Active JP7194215B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010538339.2A CN111695519B (zh) 2020-06-12 2020-06-12 关键点定位方法、装置、设备以及存储介质
CN202010538339.2 2020-06-12

Publications (2)

Publication Number Publication Date
JP2021197157A JP2021197157A (ja) 2021-12-27
JP7194215B2 true JP7194215B2 (ja) 2022-12-21

Family

ID=72480804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021039045A Active JP7194215B2 (ja) 2020-06-12 2021-03-11 キーポイントの特定方法及び装置、機器、記憶媒体

Country Status (5)

Country Link
US (1) US11610389B2 (ja)
EP (1) EP3869402B1 (ja)
JP (1) JP7194215B2 (ja)
KR (1) KR102584074B1 (ja)
CN (1) CN111695519B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695519B (zh) * 2020-06-12 2023-08-08 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质
CN112132054A (zh) * 2020-09-24 2020-12-25 重庆邮电大学 一种基于深度学习的文档定位和分割方法
CN114511613B (zh) * 2020-11-16 2023-04-18 阿里巴巴集团控股有限公司 关键点检测方法、模型训练方法、装置、设备和存储介质
CN112784743B (zh) * 2021-01-21 2023-08-04 北京百度网讯科技有限公司 关键点的识别方法、装置及存储介质
CN114648503A (zh) * 2022-03-21 2022-06-21 Oppo广东移动通信有限公司 视频关键点质量评价方法及装置、存储介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104925A (zh) 2019-12-30 2020-05-05 上海商汤临港智能科技有限公司 图像处理方法、装置、存储介质和电子设备
CN111191622A (zh) 2020-01-03 2020-05-22 华南师范大学 基于热力图和偏移向量的姿态识别方法、系统及存储介质
WO2020098225A1 (zh) 2018-11-16 2020-05-22 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6573354B2 (ja) * 2014-11-28 2019-09-11 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
CN105447490B (zh) * 2015-11-19 2019-04-30 浙江宇视科技有限公司 基于梯度回归树的车辆关键点检测方法及装置
US10095957B2 (en) * 2016-03-15 2018-10-09 Tata Consultancy Services Limited Method and system for unsupervised word image clustering
JP6842039B2 (ja) * 2017-03-02 2021-03-17 富士通株式会社 カメラ位置姿勢推定装置、方法およびプログラム
US10095975B2 (en) * 2017-03-10 2018-10-09 Capital One Services, Llc Systems and methods for capturing visible information
CN111433812A (zh) * 2017-12-03 2020-07-17 脸谱公司 动态对象实例检测、分割和结构映射的优化
CN108304765B (zh) * 2017-12-11 2020-08-11 中国科学院自动化研究所 用于人脸关键点定位与语义分割的多任务检测装置
CN108229445A (zh) * 2018-02-09 2018-06-29 深圳市唯特视科技有限公司 一种基于级联金字塔网络的多人姿态估计方法
CN109190636B (zh) * 2018-07-30 2022-05-31 北京航空航天大学 一种遥感图像舰船目标信息提取方法
US10872435B2 (en) * 2018-10-19 2020-12-22 Here Global B.V. Method and apparatus for iteratively establishing object position
CN109508681B (zh) * 2018-11-20 2021-11-30 北京京东尚科信息技术有限公司 生成人体关键点检测模型的方法和装置
US11019364B2 (en) * 2019-03-23 2021-05-25 Uatc, Llc Compression of images having overlapping fields of view using machine-learned models
CN110147776B (zh) * 2019-05-24 2021-06-11 北京百度网讯科技有限公司 确定人脸关键点位置的方法和装置
US10600210B1 (en) * 2019-07-25 2020-03-24 Second Spectrum, Inc. Data processing systems for real-time camera parameter estimation
CN110705365A (zh) * 2019-09-06 2020-01-17 北京达佳互联信息技术有限公司 一种人体关键点检测方法、装置、电子设备及存储介质
CN110738110A (zh) * 2019-09-11 2020-01-31 北京迈格威科技有限公司 基于锚点的人脸关键点检测方法、装置、系统和存储介质
CN110930454B (zh) * 2019-11-01 2022-11-22 北京航空航天大学 一种基于边界框外关键点定位的六自由度位姿估计算法
CN111291631B (zh) * 2020-01-17 2023-11-07 北京市商汤科技开发有限公司 视频分析方法及其相关的模型训练方法、设备、装置
CN111695519B (zh) * 2020-06-12 2023-08-08 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质
CN114648747A (zh) * 2022-03-30 2022-06-21 上海商汤临港智能科技有限公司 目标检测、行驶控制方法、装置、电子设备及存储介质
CN114898190A (zh) * 2022-04-19 2022-08-12 北京沃东天骏信息技术有限公司 一种图像处理方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020098225A1 (zh) 2018-11-16 2020-05-22 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN111104925A (zh) 2019-12-30 2020-05-05 上海商汤临港智能科技有限公司 图像处理方法、装置、存储介质和电子设备
CN111191622A (zh) 2020-01-03 2020-05-22 华南师范大学 基于热力图和偏移向量的姿态识别方法、系统及存储介质

Also Published As

Publication number Publication date
US20210390731A1 (en) 2021-12-16
US11610389B2 (en) 2023-03-21
KR102584074B1 (ko) 2023-10-04
CN111695519A (zh) 2020-09-22
EP3869402B1 (en) 2023-05-17
JP2021197157A (ja) 2021-12-27
EP3869402A1 (en) 2021-08-25
KR20210035787A (ko) 2021-04-01
CN111695519B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
JP7194215B2 (ja) キーポイントの特定方法及び装置、機器、記憶媒体
JP7166322B2 (ja) モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN111931591B (zh) 用于构建关键点学习模型的方法、装置、电子设备及可读存储介质
JP7258066B2 (ja) 測位方法、測位装置及び電子機器
KR102565659B1 (ko) 정보 생성 방법 및 장치
JP7113097B2 (ja) テキストエンティティの語義記述処理方法、装置及び機器
EP3893142A1 (en) Question analysis method, device, knowledge base question answering system and electronic equipment
JP2021082308A (ja) マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体
JP7262571B2 (ja) 知識グラフのベクトル表現生成方法、装置及び電子機器
US11775845B2 (en) Character recognition method and apparatus, electronic device and computer readable storage medium
JP7222040B2 (ja) モデル訓練、画像処理方法及びデバイス、記憶媒体、プログラム製品
CN112270711B (zh) 模型训练以及姿态预测方法、装置、设备以及存储介质
JP2021192294A (ja) 人体3dキー点検出方法、モデル訓練方法及び関連装置
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
CN111507355A (zh) 一种字符识别方法、装置、设备和存储介质
JP7229291B2 (ja) データ拡張の方法及び装置、機器、記憶媒体
US11423650B2 (en) Visual positioning method and apparatus, and computer-readable storage medium
JP2021192289A (ja) 機械学習モデルの敵対的訓練方法、装置、電子機器及び媒体
CN111640103B (zh) 图像检测方法、装置、设备以及存储介质
JP2021136028A (ja) エッジベースの拡張現実3次元追跡登録方法、装置及び電子機器
CN112507090A (zh) 用于输出信息的方法、装置、设备和存储介质
CN111832611B (zh) 动物识别模型的训练方法、装置、设备及存储介质
KR20210146770A (ko) 실내 측위 방법, 장치, 장비 및 저장 매체
CN110532415A (zh) 图像搜索处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221209

R150 Certificate of patent or registration of utility model

Ref document number: 7194215

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150