JP7443647B2 - キーポイント検出及びモデル訓練方法、装置、デバイス、記憶媒体、並びにコンピュータプログラム - Google Patents
キーポイント検出及びモデル訓練方法、装置、デバイス、記憶媒体、並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP7443647B2 JP7443647B2 JP2022129693A JP2022129693A JP7443647B2 JP 7443647 B2 JP7443647 B2 JP 7443647B2 JP 2022129693 A JP2022129693 A JP 2022129693A JP 2022129693 A JP2022129693 A JP 2022129693A JP 7443647 B2 JP7443647 B2 JP 7443647B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- image
- information
- predicted
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 94
- 238000001514 detection method Methods 0.000 title claims description 60
- 238000012549 training Methods 0.000 title claims description 42
- 238000004590 computer program Methods 0.000 title claims description 11
- 238000010586 diagram Methods 0.000 claims description 161
- 238000000605 extraction Methods 0.000 claims description 70
- 230000006870 function Effects 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 56
- 230000002776 aggregation Effects 0.000 claims description 36
- 238000004220 aggregation Methods 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 35
- 238000011176 pooling Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 210000001015 abdomen Anatomy 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Description
Claims (25)
- キーポイント検出方法であって、
画像に特徴抽出処理を行って前記画像の画像特徴を取得することと、
前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と前記キーポイントのうちの中心点の位置情報とを含む図情報を取得することと、
前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得することと、を含み、
前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報を取得することは、
前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得することと、
前記グラフ畳み込み強調特徴に基づいて前記図情報を取得することと、を含み、
前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得することは、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、
前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、
前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、
前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して統合特徴を取得し、
前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得する、ことを含む、
キーポイント検出方法。 - 前記画像特徴は、複数のチャンネルの画像特徴であり、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得することは、
前記複数のチャンネルの各チャンネルの画像特徴にプール化、1次元畳み込み処理、及び活性化処理を行って、前記各チャンネルの重み係数を決定し、
前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する、
ことを含む請求項1に記載のキーポイント検出方法。 - 前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得することは、
前記アグリゲーション特徴に複数のスケールの1次元畳み込み処理を行って複数のスケールの特徴を取得し、
前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、
前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、
前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する、
ことを含む請求項1に記載のキーポイント検出方法。 - 前記位置関係図は、3D位置関係図であり、前記中心点の位置情報は、2Dヒートマップ及び深さ情報を含み、
前記グラフ畳み込み強調特徴に基づいて前記図情報を取得することは、
前記グラフ畳み込み強調特徴に第1畳み込み処理を行って前記3D位置関係図を取得し、
前記グラフ畳み込み強調特徴に第2畳み込み処理を行って前記中心点の2Dヒートマップを取得し、
前記グラフ畳み込み強調特徴に第3畳み込み処理を行って前記中心点の深さ情報を取得する、
ことを含む請求項1に記載のキーポイント検出方法。 - 前記位置関係図は、異なるキーポイント間の有向エッジの情報を含み、
前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得することは、
前記有向エッジの情報に基づいて、前記中心点の位置情報から順に接続関係を有する非中心点の位置情報を復号する、
ことを含む請求項1に記載のキーポイント検出方法。 - キーポイント図情報抽出モデルの訓練方法であって、
画像サンプルに特徴抽出処理を行って前記画像サンプルの画像特徴を取得し、
前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と、前記キーポイントのうちの中心点の予測位置情報とを含む予測図情報を取得することと、
前記予測位置関係図及び前記予測位置情報に基づいて総損失関数を構築することと、
前記総損失関数に基づいて、キーポイント検出モデルを訓練することと、を含み、
前記予測位置関係図は、予測3D位置関係図であり、前記予測位置情報は、予測2Dヒートマップと予測深さ情報とを含み、
前記予測位置関係図と前記予測位置情報とに基づいて総損失関数を構築することは、
前記予測3D位置関係図と前記目標の真の3D位置関係図とに基づいて、第1損失関数を構築し、
前記予測2Dヒートマップ及び前記中心点の真の2Dヒートマップに基づいて、第2損失関数を構築し、
前記予測深さ情報と前記中心点の真の深さ情報とに基づいて第3損失関数を構築し、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記総損失関数を構築する、ことを含む、
キーポイント図情報抽出モデルの訓練方法。 - 前記画像特徴に基づいて前記画像サンプルにおける目標のキーポイントの予測図情報を取得することは、
前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得することと、
前記グラフ畳み込み強調特徴に基づいて前記予測図情報を取得することと、を含む、
請求項6に記載のキーポイント図情報抽出モデルの訓練方法。 - 前記キーポイントの位置チャンネルの数に基づいて、前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得することは、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、
前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、
前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、
前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して、統合特徴を取得し、
前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得する、
ことを含む請求項7に記載のキーポイント図情報抽出モデルの訓練方法。 - 前記画像特徴は、複数のチャンネルの画像特徴であり、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得することは、
前記複数のチャンネルの各チャンネルの画像特徴にプール化、1次元畳み込み処理、及び活性化処理を行って、前記各チャンネルの重み係数を決定し、
前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する、
ことを含む請求項8に記載のキーポイント図情報抽出モデルの訓練方法。 - 前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得することは、
前記アグリゲーション特徴に複数のスケールの1次元畳み込み処理を行って、複数のスケールの特徴を取得し、
前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、
前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、
前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する、
ことを含む請求項8に記載のキーポイント図情報抽出モデルの訓練方法。 - 前記予測位置関係図は、予測3D位置関係図であり、前記中心点の予測位置情報は、予測2Dヒートマップ及び予測深さ情報を含み、
前記グラフ畳み込み強調特徴に基づいて前記予測図情報を取得することは、
前記グラフ畳み込み強調特徴に第1畳み込み処理を行って前記予測3D位置関係図を取得し、
前記グラフ畳み込み強調特徴に第2畳み込み処理を行って前記中心点の予測2Dヒートマップを取得し、
前記グラフ畳み込み強調特徴に第3畳み込み処理を行って、前記中心点の予測深さ情報を取得する、
ことを含む請求項7に記載のキーポイント図情報抽出モデルの訓練方法。 - キーポイント検出装置であって、
画像に特徴抽出処理を行って前記画像の画像特徴を取得する特徴抽出モジュールと、
前記画像特徴に基づいて、前記画像における目標のキーポイントの図情報であって、前記キーポイントの位置関係図と、前記キーポイントのうちの中心点の位置情報とを含む図情報を取得する図情報抽出モジュールと、
前記キーポイントの位置関係図と前記中心点の位置情報とに基づいて、前記キーポイントのうちの非中心点の位置情報を取得する決定モジュールと、を備え、
前記図情報抽出モジュールは、
前記キーポイントの位置チャンネルの数に基づいて前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得する強調部と、
前記グラフ畳み込み強調特徴に基づいて前記図情報を取得する取得部と、を備え、
前記強調部は、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、
前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、
前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、
前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して統合特徴を取得し、
前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得する、
キーポイント検出装置。 - 前記画像特徴は、複数のチャンネルの画像特徴であり、前記強調部は、さらに、
前記複数のチャンネルの各チャンネルの画像特徴にプール化、1次元畳み込み、及び活性化処理を行って、前記各チャンネルの重み係数を決定し、
前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する、
請求項12に記載のキーポイント検出装置。 - 前記強調部は、さらに、
前記アグリゲーション特徴に複数のスケールの1次元畳み込み処理を行って複数のスケールの特徴を取得し、
前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、
前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、
前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する、
請求項12に記載のキーポイント検出装置。 - 前記位置関係図は、3D位置関係図であり、前記中心点の位置情報は、2Dヒートマップ及び深さ情報を含み、
前記取得部は、
前記グラフ畳み込み強調特徴に第1畳み込み処理を行って前記3D位置関係図を取得し、
前記グラフ畳み込み強調特徴に第2畳み込み処理を行って前記中心点の2Dヒートマップを取得し、
前記グラフ畳み込み強調特徴に第3畳み込み処理を行って前記中心点の深さ情報を取得する、
請求項12に記載のキーポイント検出装置。 - 前記位置関係図は、異なるキーポイント間の有向エッジの情報を含み、
前記決定モジュールは、
前記有向エッジの情報に基づいて、前記中心点の位置情報から順に接続関係を有する非中心点の位置情報を復号する、
請求項12に記載のキーポイント検出装置。 - キーポイント図情報抽出モデルの訓練装置であって、
画像サンプルに特徴抽出処理を行って前記画像サンプルの画像特徴を取得する特徴抽出モジュールと、
前記画像特徴に基づいて、前記画像サンプルにおける目標のキーポイントの予測図情報であって、前記キーポイントの予測位置関係図と、前記キーポイントのうちの中心点の予測位置情報とを含む予測図情報を取得する図情報抽出モジュールと、
前記予測位置関係図及び前記予測位置情報に基づいて総損失関数を構築する構築モジュールと、
前記総損失関数に基づいて、キーポイント検出モデルを訓練する訓練モジュールと、を備え、
前記予測位置関係図は、予測3D位置関係図であり、前記予測位置情報は、予測2Dヒートマップ及び予測深さ情報を含み、
前記構築モジュールは、
前記予測3D位置関係図と前記目標の真の3D位置関係図とに基づいて、第1損失関数を構築し、
前記予測2Dヒートマップ及び前記中心点の真の2Dヒートマップに基づいて、第2損失関数を構築し、
前記予測深さ情報と前記中心点の真の深さ情報とに基づいて第3損失関数を構築し、
前記第1損失関数、前記第2損失関数及び前記第3損失関数に基づいて、前記総損失関数を構築する、
キーポイント図情報抽出モデルの訓練装置。 - 前記図情報抽出モジュールは、
前記キーポイントの位置チャンネルの数に基づいて前記画像特徴に強調処理を行ってグラフ畳み込み強調特徴を取得する強調部と、
前記グラフ畳み込み強調特徴に基づいて前記予測図情報を取得する取得部と、
を備える請求項17に記載のキーポイント図情報抽出モデルの訓練装置。 - 前記強調部は、
前記画像特徴に重み付け処理を行って重み付け画像特徴を取得し、
前記キーポイントの位置チャネルの数に基づいて、前記画像特徴の画像チャネル領域から前記キーポイントの位置チャネル領域への投影行列を決定し、
前記投影行列に基づいて、前記重み付け画像特徴を前記位置チャネル領域に投影して、前記キーポイントの位置チャネルのアグリゲーション特徴を取得し、
前記アグリゲーション特徴に基づいて、前記キーポイントの位置チャネルの位置特徴を取得し、
前記投影行列の転置行列に基づいて、前記位置特徴を前記画像チャネル領域に逆投影して、統合特徴を取得し、
前記画像特徴及び前記統合特徴に基づいて、前記グラフ畳み込み強調特徴を取得する、
請求項18に記載のキーポイント図情報抽出モデルの訓練装置。 - 前記画像特徴は、複数のチャンネルの画像特徴であり、
前記強調部は、さらに、
前記複数のチャンネルの各チャンネルの画像特徴にプール化、1次元畳み込み、及び活性化処理を行って、前記各チャンネルの重み係数を決定し、
前記各チャンネルの重み係数に基づいて前記各チャンネルの画像特徴に重み付け処理を行って前記重み付け画像特徴を取得する、
請求項19に記載のキーポイント図情報抽出モデルの訓練装置。 - 前記強調部は、さらに、
前記アグリゲーション特徴に複数のスケールの1次元畳み込み処理を行って複数のスケールの特徴を取得し、
前記複数のスケールの特徴にスタック処理を行ってスタック特徴を取得し、
前記スタック特徴に次元が前記複数のスケールの数と同じである多次元畳み込み処理を行って畳み込み後の特徴を取得し、
前記アグリゲーション特徴と前記畳み込み後の特徴とに基づいて前記位置特徴を取得する、
請求項19に記載のキーポイント図情報抽出モデルの訓練装置。 - 前記予測位置関係図は、予測3D位置関係図であり、前記中心点の予測位置情報は、予測2Dヒートマップ及び予測深さ情報を含み、
前記取得部は、
前記グラフ畳み込み強調特徴に第1畳み込み処理を行って前記予測3D位置関係図を取得し、
前記グラフ畳み込み強調特徴に第2畳み込み処理を行って前記中心点の予測2Dヒートマップを取得し、
前記グラフ畳み込み強調特徴に第3畳み込み処理を行って前記中心点の予測深さ情報を取得する、
請求項18に記載のキーポイント図情報抽出モデルの訓練装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~5のいずれか1項に記載のキーポイント検出方法、又は、請求項6~11のいずれか1項に記載のキーポイント図情報抽出モデルの訓練方法を実行させる電子デバイス。 - コンピュータに請求項1~5のいずれか1項に記載のキーポイント検出方法、又は、請求項6~11のいずれか1項に記載のキーポイント図情報抽出モデルの訓練方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体。
- プロセッサにより実行されると、請求項1~5のいずれか1項に記載のキーポイント検出方法、又は、請求項6~11のいずれか1項に記載のキーポイント図情報抽出モデルの訓練方法を実現するコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111196690.9 | 2021-10-14 | ||
CN202111196690.9A CN114092963B (zh) | 2021-10-14 | 2021-10-14 | 关键点检测及模型训练方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023059231A JP2023059231A (ja) | 2023-04-26 |
JP7443647B2 true JP7443647B2 (ja) | 2024-03-06 |
Family
ID=80296907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022129693A Active JP7443647B2 (ja) | 2021-10-14 | 2022-08-16 | キーポイント検出及びモデル訓練方法、装置、デバイス、記憶媒体、並びにコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230120054A1 (ja) |
EP (1) | EP4167194A1 (ja) |
JP (1) | JP7443647B2 (ja) |
CN (1) | CN114092963B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114373080B (zh) * | 2022-03-22 | 2022-07-29 | 中国石油大学(华东) | 基于全局推理的轻量化混合卷积模型的高光谱分类方法 |
CN115375976B (zh) * | 2022-10-25 | 2023-02-10 | 杭州华橙软件技术有限公司 | 图像处理模型训练方法、电子设备和计算机可读存储介质 |
CN115775300B (zh) * | 2022-12-23 | 2024-06-11 | 北京百度网讯科技有限公司 | 人体模型的重建方法、人体重建模型的训练方法及装置 |
CN116894844B (zh) * | 2023-07-06 | 2024-04-02 | 北京长木谷医疗科技股份有限公司 | 一种髋关节图像分割与关键点联动识别方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210417A (zh) | 2019-06-05 | 2019-09-06 | 深圳前海达闼云端智能科技有限公司 | 一种行人运动轨迹的预测方法、终端及可读存储介质 |
CN111652124A (zh) | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN112381004A (zh) | 2020-11-17 | 2021-02-19 | 华南理工大学 | 一种基于骨架的双流自适应图卷积网络行为识别方法 |
JP2021043974A (ja) | 2019-09-11 | 2021-03-18 | ネイバー コーポレーションNAVER Corporation | 暗示的ポーズ表現を利用した行動認識 |
US20210090284A1 (en) | 2019-09-20 | 2021-03-25 | Beijing Jingdong Shangke Information Technology Co., Ltd. | Lighttrack: system and method for online top-down human pose tracking |
CN112580559A (zh) | 2020-12-25 | 2021-03-30 | 山东师范大学 | 基于骨架特征和视频表征结合的双流视频行为识别方法 |
CN112597883A (zh) | 2020-12-22 | 2021-04-02 | 武汉大学 | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 |
CN113095254A (zh) | 2021-04-20 | 2021-07-09 | 清华大学深圳国际研究生院 | 一种人体部位关键点的定位方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163080A (zh) * | 2019-04-02 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 人脸关键点检测方法及装置、存储介质和电子设备 |
CN110929692B (zh) * | 2019-12-11 | 2022-05-24 | 中国科学院长春光学精密机械与物理研究所 | 一种基于多传感器信息融合的三维目标检测方法及装置 |
CN112446302B (zh) * | 2020-11-05 | 2023-09-19 | 杭州易现先进科技有限公司 | 一种人体姿态检测方法、系统、电子设备和存储介质 |
CN112270669B (zh) * | 2020-11-09 | 2024-03-01 | 北京百度网讯科技有限公司 | 人体3d关键点检测方法、模型训练方法及相关装置 |
CN112733767B (zh) * | 2021-01-15 | 2022-05-31 | 西安电子科技大学 | 一种人体关键点检测方法、装置、存储介质及终端设备 |
CN112991452A (zh) * | 2021-03-31 | 2021-06-18 | 杭州健培科技有限公司 | 基于椎体中心点的端到端椎体关键点定位测量方法及装置 |
-
2021
- 2021-10-14 CN CN202111196690.9A patent/CN114092963B/zh active Active
-
2022
- 2022-08-09 EP EP22189366.2A patent/EP4167194A1/en not_active Withdrawn
- 2022-08-10 US US17/884,968 patent/US20230120054A1/en not_active Abandoned
- 2022-08-16 JP JP2022129693A patent/JP7443647B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210417A (zh) | 2019-06-05 | 2019-09-06 | 深圳前海达闼云端智能科技有限公司 | 一种行人运动轨迹的预测方法、终端及可读存储介质 |
JP2021043974A (ja) | 2019-09-11 | 2021-03-18 | ネイバー コーポレーションNAVER Corporation | 暗示的ポーズ表現を利用した行動認識 |
US20210090284A1 (en) | 2019-09-20 | 2021-03-25 | Beijing Jingdong Shangke Information Technology Co., Ltd. | Lighttrack: system and method for online top-down human pose tracking |
CN111652124A (zh) | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN112381004A (zh) | 2020-11-17 | 2021-02-19 | 华南理工大学 | 一种基于骨架的双流自适应图卷积网络行为识别方法 |
CN112597883A (zh) | 2020-12-22 | 2021-04-02 | 武汉大学 | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 |
CN112580559A (zh) | 2020-12-25 | 2021-03-30 | 山东师范大学 | 基于骨架特征和视频表征结合的双流视频行为识别方法 |
CN113095254A (zh) | 2021-04-20 | 2021-07-09 | 清华大学深圳国际研究生院 | 一种人体部位关键点的定位方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114092963A (zh) | 2022-02-25 |
US20230120054A1 (en) | 2023-04-20 |
JP2023059231A (ja) | 2023-04-26 |
EP4167194A1 (en) | 2023-04-19 |
CN114092963B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7443647B2 (ja) | キーポイント検出及びモデル訓練方法、装置、デバイス、記憶媒体、並びにコンピュータプログラム | |
JP7373554B2 (ja) | クロスドメイン画像変換 | |
JP7163504B2 (ja) | 画像処理方法並びにその、装置、コンピュータプログラム及び電子機器 | |
US10121273B2 (en) | Real-time reconstruction of the human body and automated avatar synthesis | |
JP2024004444A (ja) | 3次元顔再構成モデルトレーニング、3次元顔イメージ生成方法及び装置 | |
US20220012930A1 (en) | Artificial Intelligence-Based Animation Character Control and Drive Method and Apparatus | |
CN111831844A (zh) | 图像检索方法、图像检索装置、图像检索设备及介质 | |
WO2017070923A1 (zh) | 一种人脸识别方法和装置 | |
WO2022116678A1 (zh) | 目标物体位姿确定方法、装置、存储介质及电子设备 | |
CN113610958A (zh) | 一种基于风格迁移的3d图像构建方法、装置及终端 | |
CN114298997B (zh) | 一种伪造图片检测方法、装置及存储介质 | |
WO2021051562A1 (zh) | 人脸特征点定位方法、装置、计算设备和存储介质 | |
CN113298931B (zh) | 一种物体模型的重建方法、装置、终端设备和存储介质 | |
WO2020001016A1 (zh) | 运动图像生成方法、装置、电子设备及计算机可读存储介质 | |
US11941771B2 (en) | Multi-dimensional model texture transfer | |
CN112749576B (zh) | 图像识别方法和装置、计算设备以及计算机存储介质 | |
TWI711004B (zh) | 圖片處理方法和裝置 | |
CN115775300B (zh) | 人体模型的重建方法、人体重建模型的训练方法及装置 | |
US20220392251A1 (en) | Method and apparatus for generating object model, electronic device and storage medium | |
WO2023061195A1 (zh) | 图像获取模型的训练方法、图像检测方法、装置及设备 | |
WO2023109086A1 (zh) | 文字识别方法、装置、设备及存储介质 | |
WO2022236802A1 (zh) | 一种物体模型的重建方法、装置、终端设备和存储介质 | |
CN115115901A (zh) | 获取跨域学习模型的方法及装置 | |
CN114092653A (zh) | 基于2d图像重建3d图像方法、装置、设备及存储介质 | |
CN110047118B (zh) | 视频生成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7443647 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |