JP2021518022A - 手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラム - Google Patents
手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP2021518022A JP2021518022A JP2020558521A JP2020558521A JP2021518022A JP 2021518022 A JP2021518022 A JP 2021518022A JP 2020558521 A JP2020558521 A JP 2020558521A JP 2020558521 A JP2020558521 A JP 2020558521A JP 2021518022 A JP2021518022 A JP 2021518022A
- Authority
- JP
- Japan
- Prior art keywords
- image
- hand
- key point
- recognition
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 173
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000004590 computer program Methods 0.000 title claims description 14
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims abstract description 99
- 238000012545 processing Methods 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 11
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 32
- 230000006870 function Effects 0.000 description 25
- 238000001994 activation Methods 0.000 description 13
- 230000004913 activation Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000011176 pooling Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 11
- 230000003993 interaction Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 230000001133 acceleration Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000003213 activating effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 239000000919 ceramic Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000000078 claw Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000000811 metacarpophalangeal joint Anatomy 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/174—Segmentation; Edge detection involving the use of two or more images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
本願は、2018年07月10日に中国特許局に提出された出願番号201810752953.1、発明名称「手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置」の中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するステップであって、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、ステップと、
前記実模擬画像における手部画像を抽出するステップと、
前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するステップであって、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、ステップと、を含む。
実画像を収集するステップであって、前記実画像に、手部画像が含まれる、ステップと、
前記実画像における前記手部画像を抽出するステップと、
前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るステップであって、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる、ステップと、を含む。
Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するように構成される変換モジュールであって、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、変換モジュールと、
前記実模擬画像における手部画像を抽出するように構成される第1抽出モジュールと、
前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するように構成される第1訓練モジュールであって、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、第1訓練モジュールと、を備える。
実画像を収集するように構成される収集モジュールであって、前記実画像に、手部画像が含まれる、収集モジュールと、
前記実画像における前記手部画像を抽出するように構成される第2抽出モジュールと、
前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るように構成される認識モジュールであって、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる、認識モジュールと、を備える。
Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するステップであって、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、ステップと、
前記実模擬画像における手部画像を抽出するステップと、
前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するステップであって、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、ステップと、を実行させる。
実画像を収集するステップであって、前記実画像に、手部画像が含まれる、ステップと、
前記実画像における前記手部画像を抽出するステップと、
前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るステップであって、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる、ステップと、を実行させる。
Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するステップであって、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、ステップと、
前記実模擬画像における手部画像を抽出するステップと、
前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するステップであって、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、ステップと、を実行させる。
実画像を収集するステップであって、前記実画像に、手部画像が含まれる、ステップと、
前記実画像における前記手部画像を抽出するステップと、
前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るステップであって、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる、ステップと、を実行させる。
手部キーポイント認識方法が手話認識シーンに適用される場合、手部キーポイント認識方法を手話認識ソフトウェアで実行し、手話認識ソフトウェアを端末にインストールすることができる。端末は、手話認識ソフトウェアを起動した後、カメラにより手話画像を収集し、手話画像で表される意味を認識し、文字の形態で認識結果を展示することで、手話ができない者と障碍者とのコミュニケーションを容易にする。
手部キーポイント認識方法がジェスチャーインタラクションシーンに適用される場合、手部キーポイント認識方法をスマートホーム制御ソフトウェアで実行し、該ソフトウェアを、ジェスチャー制御をサポートするスマートホーム装置にインストールすることができる。スマートホーム装置が運転する過程において、カメラにより、ユーザジェスチャーを含む画像を収集し、そのうちのジェスチャーを認識することで、ユーザジェスチャーに対応する制御命令を決定し、更に、制御命令に基づいて、対応する操作を実行し、ユーザがジェスチャーによりスマートホーム装置を迅速に制御することに寄与する。
手部キーポイント認識方法が手部特殊効果シーンに適用される場合、手部キーポイント認識方法を画像処理ソフトウェアで実行し、該ソフトウェアを端末にインストールすることができる。端末は、該画像処理ソフトウェアを起動した後、カメラにより、手部画像を収集し、ユーザにより選択された手部特殊効果(例えば、鷹の爪、熊の手のひら等)に基づいて、手部特殊効果を、対応する手部キーポイント上に重ね合わし、手部特殊効果をリアルタイムに表示することを実現させる。
例示的には、図12に示すように、モデル訓練装置により構築された手部キーポイント認識モデルに、二次元認識分岐1210及び三次元認識分岐1220が含まれる。二次元認識分岐1210は、5個の二次元残差ブロック(各二次元残差ブロックは、一層の二次元残差層に対応する)及び1つの全結合層1216で構成され、三次元認識分岐1220は、5個の三次元残差ブロック(各三次元残差ブロックは、一層の三次元残差層に対応する)及び1つの畳み込み層1226で構成される。また、二次元認識分岐1210の先頭の3層は、三次元認識分岐1220の先頭の3層と互いに結合される。任意選択的に、二次元認識分岐及び三次元認識分岐における残差ブロックとして、一般的に用いられるResidual残差ブロックを用いることができる。また、一部の残差ブロックにおいて、ステップ幅が2である畳み込みカーネルを利用して特徴マップに対して次元削減を行い、演算量を低減させ特徴マップの受容野を拡大することができる。本願は、これを限定するものではない。
変換モジュール1610は、Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するように構成され、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである。
収集モジュール1710は、実画像を収集するように構成され、前記実画像に、手部画像が含まれる。
前記モデル訓練装置1800は、中央処理ユニット(CPU)1801と、ランダムアクセスメモリ(RAM)1802及び読み出し専用メモリ(ROM)1803を含むシステムメモリ1804と、システムメモリ1804と中央処理ユニット1801とを接続するためのシステムバス1805と、を備える。前記モデル訓練装置1800は、コンピュータ内の各機器間の情報伝送に寄与する基本入力/出力システム(I/Oシステム)1806と、オペレーティングシステム1813、アプリケーションプログラム1814及び他のプログラムモジュール1815を記憶するための大容量記憶装置1807と、を更に備える。
1002 メモリ
1003 外部装置インタフェース
1004 無線周波数回路
1005 ディスプレイ
1006 カメラコンポーネント
1007 オーディオ回路
1008 位置決めコンポーネント
1009 電源
1010 センサ
1011 加速度センサ
1012 ジャイロセンサ
1013 圧力センサ
1014 指紋センサ
1015 光学センサ
1016 近接センサ
1610 変換モジュール
1620 第1抽出モジュール
1630 第1訓練モジュール
1710 収集モジュール
1720 第2抽出モジュール
1730 認識モジュール
1801 中央処理ユニット
1802 ランダムアクセスメモリ
1803 読み出し専用メモリ
1804 システムメモリ
1805 システムバス
1807 大容量記憶装置
1808 ディスプレイ
1809 入力装置
1810 入力/出力コントローラ
1811 ネットワークインタフェースユニット
1812 ネットワーク
1813 オペレーティングシステム
1814 アプリケーションプログラム
1815 他のプログラムモジュール
Claims (20)
- モデル訓練装置が実行する手部キーポイント認識モデルの訓練方法であって、
Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するステップであって、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、ステップと、
前記実模擬画像における手部画像を抽出するステップと、
前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するステップであって、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、ステップと、を含むことを特徴とする、前記方法。 - 前記Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換する前に、前記方法は、
サンプル実画像及び前記サンプル仮想画像に基づいて、前記Cycle−GANモデルを訓練するステップであって、前記サンプル実画像は、実際のシーンで収集された画像である、ステップを更に含むことを特徴とする
請求項1に記載の方法。 - 前記サンプル実画像及び前記サンプル仮想画像に基づいて、前記Cycle−GANモデルを訓練するステップは、
第1ジェネレーター及び第2ジェネレーターを構築するステップであって、前記第1ジェネレーターは、前記実模擬画像を生成するためのものであり、前記第2ジェネレーターは、仮想模擬画像を生成するためのものであり、前記仮想模擬画像は、前記サンプル仮想画像の画調を模倣するためのものである、ステップと、
第1ディスクリミネーター及び第2ディスクリミネーターを構築するステップであって、前記第1ディスクリミネーターは、前記サンプル仮想画像と前記仮想模擬画像を判別するために用いられ、前記第2ディスクリミネーターは、前記サンプル実画像と前記実模擬画像を判別するために用いられる、ステップと、
前記第1ジェネレーター、前記第2ジェネレーター、前記第1ディスクリミネーター及び前記第2ディスクリミネーターに基づいて、前記Cycle−GANモデルを構築するステップと、
前記サンプル実画像及び前記サンプル仮想画像に基づいて、前記Cycle−GANモデルの損失を算出するステップであって、前記Cycle−GANモデルの損失に、ジェネレーター損失、ディスクリミネーター損失及びサイクル損失が含まれる、ステップと、
前記Cycle−GANモデルの損失に基づいて、前記Cycle−GANモデルを逆訓練するステップと、を含むことを特徴とする
請求項2に記載の方法。 - 前記Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するステップは、
前記Cycle−GANモデルにおける前記第1ジェネレーターにより、前記サンプル仮想画像を前記実模擬画像に変換するステップを含むことを特徴とする
請求項3に記載の方法。 - 前記実模擬画像における手部画像を抽出するステップは、
前記実模擬画像をジェスチャー分割ニューラルネットワークに入力し、手部信頼領域を出力するステップであって、前記ジェスチャー分割ニューラルネットワークは、手部領域がラベリングされた画像に基づいて訓練を行うことで得られる、ステップと、
前記手部信頼領域に基づいて、前記実模擬画像から手部画像を抽出するステップと、を含むことを特徴とする
請求項1から4のうちいずれか一項に記載の方法。 - 前記ジェスチャー分割ニューラルネットワークは、n個層の畳み込み層及びn個層の逆畳み込み層を含み、n≧2であり、nは整数であり、
前記実模擬画像をジェスチャー分割ニューラルネットワークに入力し、手部信頼領域を出力するステップは、
前記n個層の畳み込み層により前記実模擬画像を処理し、前記実模擬画像に対応する中間特徴マップを得るステップと、
前記n個層の逆畳み込み層により、前記中間特徴マップを処理し、前記実模擬画像に対応するターゲット特徴マップを得るステップと、
前記ターゲット特徴マップに基づいて確率行列を生成するステップであって、前記確率行列は、前記実模擬画像における各画素点が手部である確率を表すためのものである、ステップと、
前記確率行列に対して二値化処理を行い、前記手部領域に対応するヒートマップを出力するステップであって、前記ヒートマップは、前記実模擬画像における前記手部信頼領域を示すためのものである、ステップと、を含むことを特徴とする
請求項5に記載の方法。 - 前記n個層の逆畳み込み層により、前記中間特徴マップを処理し、前記実模擬画像に対応するターゲット特徴マップを得ることは、
第m層の逆畳み込み層から出力された特徴マップと第n−m層の畳み込み層から出力された特徴マップをスプライシングするステップであって、1≦m≦n−1である、ステップと、
第m+1層の逆畳み込み層により、スプライシングされた特徴マップを処理するステップと、を含むことを特徴とする
請求項6に記載の方法。 - 前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、前記手部キーポイント認識モデルを訓練するステップは、
前記手部キーポイント認識モデルを構築するステップであって、前記手部キーポイント認識モデルに、二次元認識分岐及び三次元認識分岐が含まれ、前記二次元認識分岐は、i個層の二次元残差層と畳み込み層を含み、前記三次元認識分岐は、i個層の三次元残差層と全結合層を含み、また、最初のj個層の二次元残差層は、最初のj個層の三次元残差層と結合され、2≦j≦i−1であり、i及びjは整数である、ステップと、
前記手部画像及び前記キーポイント座標に基づいて、前記手部キーポイント認識モデルの二次元認識損失及び三次元認識損失を算出するステップであって、前記二次元認識損失は、前記二次元認識分岐の認識損失であり、前記三次元認識損失は、前記三次元認識分岐の認識損失である、ステップと、
前記二次元認識損失及び前記三次元認識損失に基づいて、前記手部キーポイント認識モデルを逆訓練するステップと、を含むことを特徴とする
請求項1から4のうちいずれか一項に記載方法。 - 前記手部画像及び前記キーポイント座標に基づいて、前記手部キーポイント認識モデルの二次元認識損失及び三次元認識損失を算出するステップは、
前記手部画像をそれぞれ前記二次元認識分岐及び前記三次元認識分岐に入力するステップと、
第k層の二次元残差層から出力された特徴マップと第k層の三次元残差層から出力された特徴マップを加算するステップであって、1≦k≦j−1である、ステップと、
加算された特徴マップを第k+1層の二次元残差層及び第k+1層の三次元残差層に入力するステップと、
第j+1層から第i層の二次元残差層及び前記畳み込み層により、前記第j層の二次元残差層から出力された特徴マップを処理し、二次元認識結果を得るステップと、
第j+1層から第i層の三次元残差層及び前記全結合層により、前記第j層の三次元残差層から出力された特徴マップを処理し、三次元認識結果を得るステップと、
前記二次元認識結果及び前記キーポイント座標に基づいて前記二次元認識損失を算出するステップと、
前記三次元認識結果及び前記キーポイント座標に基づいて前記三次元認識損失を算出ステップと、を含むことを特徴とする
請求項8に記載の方法。 - 手部キーポイント認識装置が実行する手部キーポイント認識方法であって、
実画像を収集するステップであって、前記実画像に、手部画像が含まれる、ステップと、
前記実画像における前記手部画像を抽出するステップと、
前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るステップであって、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる、ステップと、を含むことを特徴とする、前記方法。 - 手部キーポイント認識モデル訓練装置であって、
Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するように構成される変換モジュールであって、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、変換モジュールと、
前記実模擬画像における手部画像を抽出するように構成される第1抽出モジュールと、
前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するように構成される第1訓練モジュールであって、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、第1訓練モジュールと、を備えることを特徴とする、前記装置。 - 前記装置は、
サンプル実画像及び前記サンプル仮想画像に基づいて、前記Cycle−GANモデルを訓練するように構成される第2訓練モジュールを更に備え、前記サンプル実画像は、実際のシーンで収集された画像であることを特徴とする
請求項11に記載の装置。 - 第2訓練モジュールは更に、第1ジェネレーター及び第2ジェネレーターを構築するように構成され、前記第1ジェネレーターは、前記実模擬画像を生成するためのものであり、前記第2ジェネレーターは、仮想模擬画像を生成するためのものであり、前記仮想模擬画像は、前記サンプル仮想画像の画調を模倣するためのものであり、前記第2訓練モジュールは更に、第1ディスクリミネーター及び第2ディスクリミネーターを構築するように構成され、前記第1ディスクリミネーターは、前記サンプル仮想画像と前記仮想模擬画像を判別するために用いられ、前記第2ディスクリミネーターは、サンプル実画像と前記実模擬画像を判別するために用いられ、前記第2訓練モジュールは更に、前記第1ジェネレーター、前記第2ジェネレーター、前記第1ディスクリミネーター及び前記第2ディスクリミネーターに基づいて、前記Cycle−GANモデルを構築し、前記サンプル実画像及び前記サンプル仮想画像に基づいて、前記Cycle−GANモデルの損失を算出するように構成され、前記Cycle−GANモデルの損失に、ジェネレーター損失、ディスクリミネーター損失及びサイクル損失が含まれ、前記第2訓練モジュールは更に、前記Cycle−GANモデルの損失に基づいて、前記Cycle−GANモデルを逆訓練するように構成されることを特徴とする
請求項11に記載の装置。 - 前記変換モジュールは更に、前記Cycle−GANモデルにおける前記第1ジェネレーターにより、前記サンプル仮想画像を前記実模擬画像に変換するように構成されることを特徴とする
請求項13に記載の装置。 - 前記第1抽出モジュールは更に、前記実模擬画像をジェスチャー分割ニューラルネットワークに入力し、手部信頼領域を出力するように構成され、前記ジェスチャー分割ニューラルネットワークは、手部領域がラベリングされた画像に基づいて訓練を行うことで得られ、前記第1抽出モジュールは更に、前記手部信頼領域に基づいて、前記実模擬画像から手部画像を抽出するように構成されることを特徴とする
請求項11から14のうちいずれか一項に記載の装置。 - 前記ジェスチャー分割ニューラルネットワークは、n個層の畳み込み層及びn個層の逆畳み込み層を含み、n≧2であり、nは整数であり、前記第1抽出モジュールは更に、前記n個層の畳み込み層により前記実模擬画像を処理し、前記実模擬画像に対応する中間特徴マップを得て、前記n個層の逆畳み込み層により、前記中間特徴マップを処理し、前記実模擬画像に対応するターゲット特徴マップを得て、前記ターゲット特徴マップに基づいて確率行列を生成するように構成され、前記確率行列は、前記実模擬画像における各画素点が手部である確率を表すためのものであり、前記前記第1抽出モジュールは更に、前記確率行列に対して二値化処理を行い、前記手部領域に対応するヒートマップを出力するように構成され、前記ヒートマップは、前記実模擬画像における前記手部信頼領域を示すためのものであることを特徴とする
請求項15に記載の装置。 - 手部キーポイント認識装置であって、
実画像を収集するように構成される収集モジュールであって、前記実画像に、手部画像が含まれる、収集モジュールと、
前記実画像における前記手部画像を抽出するように構成される第2抽出モジュールと、
前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るように構成される認識モジュールであって、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる、認識モジュールと、を備えることを特徴とする、前記手部キーポイント認識装置。 - モデル訓練装置であって、前記モデル訓練装置は、プロセッサと、メモリと、を備え、前記メモリにコンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記プロセッサにより実行される場合、前記プロセッサに、請求項1から9のうちいずれか一項に記載の方法の工程を実行させることを特徴とする、前記モデル訓練装置。
- 手部キーポイント認識装置であって、前記手部キーポイント認識装置は、プロセッサと、メモリと、を備え、前記メモリにコンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記プロセッサにより実行される場合、前記プロセッサに、請求項10に記載の方法の工程を実行させることを特徴とする、前記手部キーポイント認識装置。
- コンピュータに、請求項1から9のうちいずれか一項に記載の方法、又は請求項10に記載の方法を実行させることを特徴とする、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810752953.1A CN110163048B (zh) | 2018-07-10 | 2018-07-10 | 手部关键点的识别模型训练方法、识别方法及设备 |
CN201810752953.1 | 2018-07-10 | ||
PCT/CN2019/090542 WO2020010979A1 (zh) | 2018-07-10 | 2019-06-10 | 手部关键点的识别模型训练方法、识别方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021518022A true JP2021518022A (ja) | 2021-07-29 |
JP7130057B2 JP7130057B2 (ja) | 2022-09-02 |
Family
ID=67645012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020558521A Active JP7130057B2 (ja) | 2018-07-10 | 2019-06-10 | 手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11989350B2 (ja) |
EP (1) | EP3742332B1 (ja) |
JP (1) | JP7130057B2 (ja) |
CN (1) | CN110163048B (ja) |
WO (1) | WO2020010979A1 (ja) |
Families Citing this family (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102061408B1 (ko) * | 2017-03-24 | 2019-12-31 | (주)제이엘케이인스펙션 | 가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법 |
CN110490213B (zh) * | 2017-09-11 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置及存储介质 |
CN108882025B (zh) * | 2018-08-07 | 2019-12-10 | 北京字节跳动网络技术有限公司 | 视频帧处理方法和装置 |
CN110070063B (zh) * | 2019-04-29 | 2020-06-30 | 北京字节跳动网络技术有限公司 | 目标对象的动作识别方法、装置和电子设备 |
KR20210030147A (ko) * | 2019-09-09 | 2021-03-17 | 삼성전자주식회사 | 3d 렌더링 방법 및 장치 |
CN110705611B (zh) * | 2019-09-17 | 2024-06-28 | 平安科技(深圳)有限公司 | 眼底图像样本扩展方法、装置、介质及电子设备 |
CN110930354B (zh) * | 2019-10-09 | 2020-07-10 | 西安交通大学 | 用于图像大数据的平滑过渡的视频画面内容分析系统 |
CN112767300B (zh) * | 2019-10-18 | 2024-07-09 | 宏达国际电子股份有限公司 | 自动生成手部的标注数据的方法和计算骨骼长度的方法 |
CN111222401B (zh) * | 2019-11-14 | 2023-08-22 | 北京华捷艾米科技有限公司 | 一种手部关键点三维坐标的识别方法及装置 |
WO2021098543A1 (zh) * | 2019-11-20 | 2021-05-27 | Oppo广东移动通信有限公司 | 一种姿势识别方法及装置、存储介质 |
CN111062261B (zh) * | 2019-11-25 | 2023-07-07 | 维沃移动通信(杭州)有限公司 | 一种图像处理方法及装置 |
CN110991319B (zh) * | 2019-11-29 | 2021-10-19 | 广州市百果园信息技术有限公司 | 手部关键点检测方法、手势识别方法及相关装置 |
CN113033256B (zh) * | 2019-12-24 | 2024-06-11 | 武汉Tcl集团工业研究院有限公司 | 一种指尖检测模型的训练方法和设备 |
CN111161239B (zh) * | 2019-12-27 | 2024-02-27 | 上海联影智能医疗科技有限公司 | 医学图像分析方法、装置、存储介质及计算机设备 |
CN111222486B (zh) * | 2020-01-15 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 手部姿态识别模型的训练方法、装置、设备及存储介质 |
JP2022522551A (ja) | 2020-02-03 | 2022-04-20 | ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド | 画像処理方法及び装置、電子機器並びに記憶媒体 |
CN111310616B (zh) * | 2020-02-03 | 2023-11-28 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111340694B (zh) * | 2020-02-07 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机可读存储介质和计算机设备 |
CN111368668B (zh) * | 2020-02-25 | 2023-05-23 | 北京字节跳动网络技术有限公司 | 三维手部识别方法、装置、电子设备及存储介质 |
CN112742031B (zh) * | 2020-03-18 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 模型训练方法、游戏测试方法、ai角色训练方法及装置 |
CN111462234B (zh) * | 2020-03-27 | 2023-07-18 | 北京华捷艾米科技有限公司 | 一种位置确定方法及装置 |
CN113468924B (zh) * | 2020-03-31 | 2024-06-18 | 北京沃东天骏信息技术有限公司 | 关键点检测模型训练方法和装置、关键点检测方法和装置 |
CN111488824B (zh) * | 2020-04-09 | 2023-08-08 | 北京百度网讯科技有限公司 | 运动提示方法、装置、电子设备和存储介质 |
CN111401318B (zh) * | 2020-04-14 | 2022-10-04 | 支付宝(杭州)信息技术有限公司 | 动作识别方法及装置 |
CN111832383B (zh) * | 2020-05-08 | 2023-12-08 | 北京嘀嘀无限科技发展有限公司 | 姿态关键点识别模型的训练方法、姿态识别方法及装置 |
CN113674182B (zh) * | 2020-05-15 | 2023-12-05 | 北京罗克维尔斯科技有限公司 | 图像的生成方法及装置 |
CN111598075B (zh) * | 2020-05-25 | 2024-09-20 | 深圳前海微众银行股份有限公司 | 图片生成方法、设备及可读存储介质 |
CN111832612B (zh) * | 2020-06-03 | 2023-06-23 | 北京百度网讯科技有限公司 | 动物识别模型的训练方法、装置、设备及存储介质 |
CN111695628B (zh) * | 2020-06-11 | 2023-05-05 | 北京百度网讯科技有限公司 | 关键点标注方法、装置、电子设备及存储介质 |
CN111680758B (zh) * | 2020-06-15 | 2024-03-05 | 杭州海康威视数字技术股份有限公司 | 图像训练样本生成方法和装置 |
CN111754478A (zh) * | 2020-06-22 | 2020-10-09 | 怀光智能科技(武汉)有限公司 | 一种基于生成对抗网络的无监督域适应系统及方法 |
CN111783626B (zh) * | 2020-06-29 | 2024-03-26 | 北京字节跳动网络技术有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111862046B (zh) * | 2020-07-21 | 2023-11-17 | 江苏省人民医院(南京医科大学第一附属医院) | 一种心脏冠脉剪影中导管位置判别系统和方法 |
CN111967353B (zh) * | 2020-07-31 | 2024-05-14 | 北京金山云网络技术有限公司 | 图片识别方法、装置、电子设备以及介质 |
CN114077891B (zh) * | 2020-08-07 | 2024-10-15 | 北京达佳互联信息技术有限公司 | 风格转换模型的训练方法及虚拟建筑检测模型的训练方法 |
CN111985414B (zh) * | 2020-08-21 | 2024-02-23 | 成都数字天空科技有限公司 | 一种关节点位置确定方法及装置 |
CN112115799B (zh) * | 2020-08-24 | 2023-12-26 | 青岛小鸟看看科技有限公司 | 基于标记点的三维手势的识别方法、装置及设备 |
CN112101362A (zh) * | 2020-08-25 | 2020-12-18 | 中国科学院空间应用工程与技术中心 | 用于空间科学实验数据的语义分割方法及系统 |
CN112115894B (zh) * | 2020-09-24 | 2023-08-25 | 北京达佳互联信息技术有限公司 | 手部关键点检测模型的训练方法、装置及电子设备 |
CN112215112A (zh) * | 2020-09-30 | 2021-01-12 | 幻境虚拟现实(广州)智能科技研究院有限公司 | 一种可用于手部动作识别的神经网络模型的生成方法和系统 |
CN112232183B (zh) * | 2020-10-14 | 2023-04-28 | 抖音视界有限公司 | 虚拟佩戴物匹配方法、装置、电子设备和计算机可读介质 |
CN112256589B (zh) * | 2020-11-11 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 一种仿真模型的训练方法、点云数据的生成方法及装置 |
CN112330711B (zh) * | 2020-11-26 | 2023-12-05 | 北京奇艺世纪科技有限公司 | 模型生成方法、信息提取方法、装置及电子设备 |
CN112561782B (zh) * | 2020-12-15 | 2023-01-03 | 哈尔滨工程大学 | 一种提高海上场景仿真图片真实度的方法 |
CN114756115A (zh) * | 2020-12-28 | 2022-07-15 | 阿里巴巴集团控股有限公司 | 交互控制方法、装置及设备 |
CN112767478B (zh) * | 2021-01-08 | 2022-07-19 | 北京航空航天大学 | 一种基于表观指导的六自由度位姿估计方法 |
CN112699837A (zh) * | 2021-01-13 | 2021-04-23 | 新大陆数字技术股份有限公司 | 一种基于深度学习的手势识别方法及设备 |
CN112836597B (zh) * | 2021-01-15 | 2023-10-17 | 西北大学 | 基于级联并行卷积神经网络的多手姿态关键点估计方法 |
CN112905006B (zh) * | 2021-01-21 | 2022-12-02 | 清华大学 | 基于物理仿真的虚拟现实人手交互方法和装置 |
CN113033300B (zh) * | 2021-02-07 | 2022-11-08 | 广东省科学院智能制造研究所 | 一种基于计算机视觉的扶梯安全自动监控方法及系统 |
CN112818929B (zh) * | 2021-02-26 | 2023-04-18 | 济南博观智能科技有限公司 | 一种人员斗殴检测方法、装置、电子设备及存储介质 |
CN113034361B (zh) * | 2021-03-03 | 2022-10-14 | 深圳市数字城市工程研究中心 | 一种基于改进esrgan的遥感影像超分重建方法 |
CN115082978A (zh) * | 2021-03-10 | 2022-09-20 | 佳能株式会社 | 面部姿态的检测装置、方法、图像处理系统及存储介质 |
CN112967180B (zh) * | 2021-03-17 | 2023-12-22 | 福建库克智能科技有限公司 | 一种生成对抗网络的训练方法、图像风格转换方法和装置 |
CN113139441A (zh) * | 2021-04-07 | 2021-07-20 | 青岛以萨数据技术有限公司 | 一种图像处理方法及系统 |
CN113192175A (zh) * | 2021-04-14 | 2021-07-30 | 武汉联影智融医疗科技有限公司 | 模型训练方法、装置、计算机设备和可读存储介质 |
CN113111886B (zh) * | 2021-04-19 | 2023-03-24 | 太原科技大学 | 一种基于双层残差网络的交通场景图像语义分割方法 |
CN113762969B (zh) * | 2021-04-23 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
CN113128520B (zh) * | 2021-04-28 | 2022-11-11 | 北京市商汤科技开发有限公司 | 图像特征提取方法、目标重识别方法、装置及存储介质 |
CN113011403B (zh) * | 2021-04-30 | 2023-11-24 | 恒睿(重庆)人工智能技术研究院有限公司 | 手势识别方法、系统、介质及设备 |
CN113238705A (zh) * | 2021-05-10 | 2021-08-10 | 青岛小鸟看看科技有限公司 | 虚拟键盘交互方法及系统 |
CN113177606B (zh) * | 2021-05-20 | 2023-11-28 | 上海商汤智能科技有限公司 | 图像处理方法、装置、设备及存储介质 |
CN113326755A (zh) * | 2021-05-21 | 2021-08-31 | 华南理工大学 | 一种照明系统监测手部位置实现照明区域控制的方法 |
CN113077383B (zh) * | 2021-06-07 | 2021-11-02 | 深圳追一科技有限公司 | 一种模型训练方法及模型训练装置 |
CN113610102A (zh) * | 2021-06-23 | 2021-11-05 | 浙江大华技术股份有限公司 | 分割网络的训练及目标分割方法、相关设备 |
CN113487738B (zh) * | 2021-06-24 | 2022-07-05 | 哈尔滨工程大学 | 基于虚拟知识迁移的建筑物及其遮挡区域单体化提取方法 |
CN113706463B (zh) * | 2021-07-22 | 2024-04-26 | 杭州键嘉医疗科技股份有限公司 | 基于深度学习的关节影像关键点自动检测方法、装置 |
CN113706497B (zh) * | 2021-08-24 | 2024-04-09 | 南京金盾公共安全技术研究院有限公司 | 一种违禁品智能识别装置和系统 |
CN113808184A (zh) * | 2021-08-30 | 2021-12-17 | 中科尚易健康科技(北京)有限公司 | 基于点云识别的插值方法和装置、设备及存储介质 |
CN113723283A (zh) * | 2021-08-30 | 2021-11-30 | 河南牧原智能科技有限公司 | 个体关键点检测模型获取方法、检测方法及系统 |
CN113869217A (zh) * | 2021-09-29 | 2021-12-31 | 北京复数健康科技有限公司 | 一种用于获取图像识别数据的方法和系统 |
CN114066814A (zh) * | 2021-10-19 | 2022-02-18 | 杭州易现先进科技有限公司 | 一种ar设备的手势3d关键点检测方法、电子设备 |
CN114185429B (zh) * | 2021-11-11 | 2024-03-26 | 杭州易现先进科技有限公司 | 手势关键点定位或姿态估计的方法、电子装置和存储介质 |
CN114186632B (zh) * | 2021-12-10 | 2023-04-18 | 北京百度网讯科技有限公司 | 关键点检测模型的训练方法、装置、设备、存储介质 |
CN114330433B (zh) * | 2021-12-24 | 2023-05-05 | 南京理工大学 | 基于虚拟惯性测量信号生成模型的动作识别方法及系统 |
CN116453204B (zh) * | 2022-01-05 | 2024-08-13 | 腾讯科技(深圳)有限公司 | 动作识别方法和装置、存储介质及电子设备 |
CN114882168B (zh) * | 2022-04-08 | 2023-04-18 | 清华大学 | 一种基于视觉的触觉传感器的数字孪生方法及装置 |
CN115167673A (zh) * | 2022-07-06 | 2022-10-11 | 中科传媒科技有限责任公司 | 虚拟手势同步的实现方法、装置、设备及存储介质 |
CN114973424A (zh) * | 2022-08-01 | 2022-08-30 | 深圳市海清视讯科技有限公司 | 特征提取模型训练、手部动作识别方法、装置及电子设备 |
US20240193866A1 (en) * | 2022-12-09 | 2024-06-13 | Yannick VERDIE | Methods and systems for 3d hand pose estimation from rgb images |
CN116704427B (zh) * | 2023-04-19 | 2024-01-26 | 广东建设职业技术学院 | 一种基于3d cnn循环施工过程监测方法 |
CN116148311B (zh) * | 2023-04-24 | 2023-06-27 | 苏州太湖雪丝绸股份有限公司 | 一种纺织品接触凉感性能检测装置及其检测方法 |
CN116820251B (zh) * | 2023-08-28 | 2023-11-07 | 中数元宇数字科技(上海)有限公司 | 一种手势轨迹交互方法、智能眼镜及存储介质 |
CN117420917B (zh) * | 2023-12-19 | 2024-03-08 | 烟台大学 | 基于手部骨架的虚拟现实控制方法、系统、设备及介质 |
CN117807782B (zh) * | 2023-12-29 | 2024-06-07 | 南京仁高隆软件科技有限公司 | 一种实现三维仿真模型的方法 |
CN117523645B (zh) * | 2024-01-08 | 2024-03-22 | 深圳市宗匠科技有限公司 | 一种人脸关键点检测方法、装置、电子设备及存储介质 |
CN117908678B (zh) * | 2024-01-19 | 2024-07-16 | 广州维启通讯科技有限公司 | 一种耳机及其充电盒显示屏的手势识别控制系统 |
CN118196910B (zh) * | 2024-05-17 | 2024-07-26 | 江西求是高等研究院 | 一种手势交互方法、系统、计算机及存储介质 |
CN118379441B (zh) * | 2024-06-27 | 2024-08-23 | 江西财经大学 | 面向真实场景的实时3d手部网格重建方法与系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017191576A (ja) * | 2016-04-15 | 2017-10-19 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法およびプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6147678A (en) * | 1998-12-09 | 2000-11-14 | Lucent Technologies Inc. | Video hand image-three-dimensional computer interface with multiple degrees of freedom |
TW201322058A (zh) * | 2011-11-16 | 2013-06-01 | Chunghwa Picture Tubes Ltd | 手勢辨識系統及方法 |
EP2980728A1 (en) * | 2014-08-01 | 2016-02-03 | Imersivo, S.L. | Procedure for identifying a hand gesture |
US10078780B2 (en) * | 2015-03-27 | 2018-09-18 | Intel Corporation | Gesture recognition mechanism |
US10157309B2 (en) * | 2016-01-14 | 2018-12-18 | Nvidia Corporation | Online detection and classification of dynamic gestures with recurrent convolutional neural networks |
CN105787439B (zh) * | 2016-02-04 | 2019-04-05 | 广州新节奏智能科技股份有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
KR101925907B1 (ko) * | 2016-06-03 | 2019-02-26 | (주)싸이언테크 | 신경망 생성 모델을 이용한 객체 움직임 패턴 학습장치 및 그 방법 |
US10916001B2 (en) * | 2016-11-28 | 2021-02-09 | Adobe Inc. | Facilitating sketch to painting transformations |
CN108133220A (zh) * | 2016-11-30 | 2018-06-08 | 北京市商汤科技开发有限公司 | 模型训练、关键点定位及图像处理方法、系统及电子设备 |
CN108230232B (zh) | 2016-12-21 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种图像处理的方法以及相关装置 |
CN107168527B (zh) * | 2017-04-25 | 2019-10-18 | 华南理工大学 | 基于区域卷积神经网络的第一视角手势识别与交互方法 |
CN107808143B (zh) * | 2017-11-10 | 2021-06-01 | 西安电子科技大学 | 基于计算机视觉的动态手势识别方法 |
CN108229318A (zh) * | 2017-11-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 手势识别和手势识别网络的训练方法及装置、设备、介质 |
CN108229324B (zh) * | 2017-11-30 | 2021-01-26 | 北京市商汤科技开发有限公司 | 手势追踪方法和装置、电子设备、计算机存储介质 |
CN108256431B (zh) * | 2017-12-20 | 2020-09-25 | 中车工业研究院有限公司 | 一种手部位置标识方法及装置 |
-
2018
- 2018-07-10 CN CN201810752953.1A patent/CN110163048B/zh active Active
-
2019
- 2019-06-10 JP JP2020558521A patent/JP7130057B2/ja active Active
- 2019-06-10 WO PCT/CN2019/090542 patent/WO2020010979A1/zh active Application Filing
- 2019-06-10 EP EP19833424.5A patent/EP3742332B1/en active Active
-
2020
- 2020-08-24 US US17/000,844 patent/US11989350B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017191576A (ja) * | 2016-04-15 | 2017-10-19 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法およびプログラム |
Non-Patent Citations (2)
Title |
---|
FRANZISKA MUELLER ET AL.: "GANerated Hands for Real-Time 3D Hand Tracking from Monocular RGB", ARXIV, JPN6022000246, 4 December 2017 (2017-12-04), US, pages 1 - 13, ISSN: 0004680368 * |
JUN-YAN ZHU ET AL., UNPAIRED IMAGE-TO-IMAGE TRANSLATION USING CYCLE-CONSISTENT ADVERSARIAL NETWORKS, JPN6022032708, 30 May 2017 (2017-05-30), US, pages 1 - 18, ISSN: 0004844362 * |
Also Published As
Publication number | Publication date |
---|---|
EP3742332B1 (en) | 2023-06-28 |
CN110163048A (zh) | 2019-08-23 |
US20200387698A1 (en) | 2020-12-10 |
EP3742332A4 (en) | 2021-08-18 |
WO2020010979A1 (zh) | 2020-01-16 |
CN110163048B (zh) | 2023-06-02 |
EP3742332A1 (en) | 2020-11-25 |
JP7130057B2 (ja) | 2022-09-02 |
US11989350B2 (en) | 2024-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7130057B2 (ja) | 手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラム | |
CN109978989B (zh) | 三维人脸模型生成方法、装置、计算机设备及存储介质 | |
CN110348543B (zh) | 眼底图像识别方法、装置、计算机设备及存储介质 | |
CN110135336B (zh) | 行人生成模型的训练方法、装置及存储介质 | |
CN111091132B (zh) | 基于人工智能的图像识别方法、装置、计算机设备及介质 | |
US20220309836A1 (en) | Ai-based face recognition method and apparatus, device, and medium | |
WO2020224479A1 (zh) | 目标的位置获取方法、装置、计算机设备及存储介质 | |
CN108594997A (zh) | 手势骨架构建方法、装置、设备及存储介质 | |
CN111476783B (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
EP4345777A1 (en) | Living body detection method and apparatus, and training method and apparatus for living body detection system | |
CN112749613B (zh) | 视频数据处理方法、装置、计算机设备及存储介质 | |
CN112036331A (zh) | 活体检测模型的训练方法、装置、设备及存储介质 | |
CN114332530A (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN111860485A (zh) | 图像识别模型的训练方法、图像的识别方法、装置、设备 | |
CN111192262A (zh) | 基于人工智能的产品缺陷分类方法、装置、设备及介质 | |
CN113705302A (zh) | 图像生成模型的训练方法、装置、计算机设备及存储介质 | |
CN113516143A (zh) | 文本图像匹配方法、装置、计算机设备及存储介质 | |
CN113821658A (zh) | 对编码器进行训练的方法、装置、设备及存储介质 | |
CN113763931B (zh) | 波形特征提取方法、装置、计算机设备及存储介质 | |
CN113516723A (zh) | 人脸图片加密方法、装置、计算机设备及存储介质 | |
CN112528760A (zh) | 图像处理方法、装置、计算机设备及介质 | |
CN115578494B (zh) | 中间帧的生成方法、装置、设备及存储介质 | |
CN111753813A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN115206305B (zh) | 语义文本的生成方法、装置、电子设备及存储介质 | |
CN111310701B (zh) | 手势识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220323 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220823 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7130057 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |