JP2021518022A - 手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラム - Google Patents

手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラム Download PDF

Info

Publication number
JP2021518022A
JP2021518022A JP2020558521A JP2020558521A JP2021518022A JP 2021518022 A JP2021518022 A JP 2021518022A JP 2020558521 A JP2020558521 A JP 2020558521A JP 2020558521 A JP2020558521 A JP 2020558521A JP 2021518022 A JP2021518022 A JP 2021518022A
Authority
JP
Japan
Prior art keywords
image
hand
key point
recognition
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020558521A
Other languages
English (en)
Other versions
JP7130057B2 (ja
Inventor
▲陽▼ 易
▲陽▼ 易
世杰 ▲趙▼
世杰 ▲趙▼
峰 李
峰 李
小祥 左
小祥 左
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2021518022A publication Critical patent/JP2021518022A/ja
Application granted granted Critical
Publication of JP7130057B2 publication Critical patent/JP7130057B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

手部キーポイント認識モデルの訓練方法であって、該方法は、Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するステップであって、サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、ステップと、実模擬画像における手部画像を抽出するステップと、実模擬画像における手部画像及びキーポイント座標に基づいて、手部キーポイント認識モデルを訓練するステップであって、手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、ステップと、を含む。

Description

(関連出願の相互参照)
本願は、2018年07月10日に中国特許局に提出された出願番号201810752953.1、発明名称「手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置」の中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願の実施例は、ジェスチャー認識技術分野に関し、特に手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラムに関する。
人工知能技術が成熟し続けるにつれて、ますます多くの適用シーンは、マンマシンインタラクションをサポートするようになる。ジェスチャーインタラクションは、一般的なマンマシンインタラクション形態である。
ジェスチャーインタラクションの要点は、手部キーポイントの認識である。手部キーポイントの認識形態において、開発者は、まず、コンピュータにより手部仮想三次元モデルを構築し、仮想三次元モデルの仮想画像及び手部キーポイントに対応する三次元座標データを訓練サンプルとして、手部キーポイント認識モデルを訓練する。後続でジェスチャー認識を行う場合、カメラにより収集された、ジェスチャーを含む実画像を手部キーポイント認識モデルに入力した後、実画像における各手部キーポイントの三次元座標を得て、そのジェスチャーを認識することができる。
しかしながら、上記方法でジェスチャー認識を行う場合、仮想画像の細部と実画像の細部は大きく異なっている。例えば、仮想画像における手部皮膚及び背景は、実画像における手部皮膚及び背景と異なっている。従って、仮想画像に基づいて訓練された認識モデルを利用してジェスチャー認識を行う場合、正確率が低く、ジェスチャーインタラクションの正確性に影響を与えてしまう。
本願の実施例は、手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置を提供する。
手部キーポイント認識モデルの訓練方法であって、
Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するステップであって、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、ステップと、
前記実模擬画像における手部画像を抽出するステップと、
前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するステップであって、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、ステップと、を含む。
手部キーポイント認識方法であって、
実画像を収集するステップであって、前記実画像に、手部画像が含まれる、ステップと、
前記実画像における前記手部画像を抽出するステップと、
前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るステップであって、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる、ステップと、を含む。
手部キーポイント認識モデル訓練装置であって、
Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するように構成される変換モジュールであって、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、変換モジュールと、
前記実模擬画像における手部画像を抽出するように構成される第1抽出モジュールと、
前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するように構成される第1訓練モジュールであって、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、第1訓練モジュールと、を備える。
手部キーポイント認識装置であって、
実画像を収集するように構成される収集モジュールであって、前記実画像に、手部画像が含まれる、収集モジュールと、
前記実画像における前記手部画像を抽出するように構成される第2抽出モジュールと、
前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るように構成される認識モジュールであって、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる、認識モジュールと、を備える。
モデル訓練装置であって、前記モデル訓練装置は、プロセッサと、メモリと、を備え、前記メモリにコンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記プロセッサにより実行される場合、前記プロセッサに、
Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するステップであって、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、ステップと、
前記実模擬画像における手部画像を抽出するステップと、
前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するステップであって、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、ステップと、を実行させる。
手部キーポイント認識装置であって、前記手部キーポイント認識装置は、プロセッサと、メモリと、を備え、前記メモリにコンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記プロセッサにより実行される場合、前記プロセッサに、
実画像を収集するステップであって、前記実画像に、手部画像が含まれる、ステップと、
前記実画像における前記手部画像を抽出するステップと、
前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るステップであって、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる、ステップと、を実行させる。
不揮発性コンピュータ可読記憶媒体であって、コンピュータ可読命令が記憶されており、前記コンピュータ可読命令が1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに、
Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するステップであって、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、ステップと、
前記実模擬画像における手部画像を抽出するステップと、
前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するステップであって、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、ステップと、を実行させる。
不揮発性コンピュータ可読記憶媒体であって、コンピュータ可読命令が記憶されており、前記コンピュータ可読命令が1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに、
実画像を収集するステップであって、前記実画像に、手部画像が含まれる、ステップと、
前記実画像における前記手部画像を抽出するステップと、
前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るステップであって、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる、ステップと、を実行させる。
コンピュータプログラムであって、前記コンピュータプログラムがコンピュータ上で実行される場合、コンピュータに、上記本願の実施例に記載の方法を実行させる。
本願の1つ又は複数の実施例の詳細は下記図面及び説明において述べられる。本願の他の特徴、目的及び利点は、明細書、図面及び特許請求の範囲から明らかになろう。
本出願の一実施例による実行環境を示す概略図である。 関連技術における仮想画像に基づいたモデル訓練の原理を示す概略図である。 本願の実施例によるジェスチャーキーポイント認識モデルの訓練プロセスの原理を示す概略図である。 本願の一実施例による認識モデル訓練方法を示すフローチャートである。 本願のもう1つの実施例による認識モデル訓練方法を示すフローチャートである。 本願の一実施例によるCycle−GANモデルにおけるジェネレーターの構造を示す概略図である。 本願の一実施例によるCycle−GANモデルにおけるディスクリミネーターの構造を示す概略図である。 本願の一実施例によるCycle−GANモデルの構造を示す概略図である。 本願の一実施例によるジェスチャー分割ニューラルネットワークを利用して手部信頼領域を決定する原理を示す模式図である。 本願の一実施例によるジェスチャー分割ニューラルネットワークを利用して手部信頼領域を決定する方法を示すフローチャートである。 本願の一実施例による二値化処理の実行を示す概略図である。 本願の一実施例による手部キーポイント認識モデルの構造を示す概略図である。 本願の一実施例による手部キーポイント認識モデルの訓練方法を示すフローチャートである。 本願の一実施例による手部キーポイント認識方法を示すフローチャートである。 様々な適用シーンでの手部キーポイント認識結果の用途を示す概略図である。 本願の一実施例による手部キーポイント認識モデル訓練装置を示すブロック図である。 本願の一実施例による手部キーポイント認識装置を示すブロック図である。 本願の一実施例によるモデル訓練装置の構造を示す概略図である。 本願の一例示的な実施例による手部キーポイント認識装置の構造を示すブロック図である。
本願の実施例における技術的解決手段をより明確にするために、以下、実施例の説明に必要な図面を簡単に説明する。勿論、以下の図面は本願の一部の実施例に過ぎず、当業者は創造的な労力を要することなく、これらの図面に基づいて他の図面を得ることもできる。
本願の目的、技術的解決手段及びメリットをより明確にするために、以下、図面を参照しながら、本願の実施形態をさらに詳しく説明する。
理解しやすくするために、以下、本願の実施例に係る用語を説明する。
Cycle−GANモデルは、サイクル敵対的生成ネットワーク(Cycle Generative Adversarial Networks:Cycle−GAN)モデルであり、データを生データフィールドからターゲットデータフィールドに変換するための深層学習モデルであり、画像に対して画調変換を行うために用いられる。例えば、Cycle−GANモデルは、入力ピクチャに基づいてアニメピクチャを出力する(ピクチャのアニメ化)ために用いられるか又は入力ピクチャにおけるオブジェクトAをオブジェクトBに変換する(例えば、猫を犬に変換する)ために用いられる。本願の実施例におけるCycle−GANモデルは、仮想画像を実画像に変換するか又は実画像を仮想画像に変換するために用いられる。ここで、該仮想画像は、コンピューターモデリングにより生成され、且つ、キーポイント座標を搬送している。
Cycle−GANモデルは、ジェネレーター(Generator)及びディスクリミネーター(Discriminator)からなる。ここで、ジェネレーターは、画像に対して画調変換を行うように構成され、ディスクリミネーターは、元画像とジェネレーターから出力された画像を判別するように構成される。
畳み込み(convolution)層は、畳み込みニューラルネットワークにおける、特徴抽出のための層であり、高次元データに対して低次元特徴抽出を行うように構成される。それは、畳み込み操作、活性化(activation)操作、プーリング(pooling)操作という3つの部分に分けられる。ここで、畳み込み操作を行う場合、事前訓練学習により得られた畳み込みカーネルを利用して特徴抽出を行う。活性化操作を行う場合、活性化関数(activation function)を利用して、畳み込みで得られた特徴マップを活性化処理する。一般的に用いられる活性化関数は、正規化線形(Rectified Linear Unit:ReLU)関数、シグモイド(Sigmoid)関数及び曲線正接(Tanh)関数を含む。畳み込み及び活性化を行った後、プーリング操作により、畳み込み及び活性化から出力された特徴ベクトルを低減させる(つまり、特徴マップの寸法を小さくする)と共に、オーバーフィッティングの問題を軽減する。一般的に用いられるプーリング方式は、平均プーリング(mean−pooling)、最大プーリング(max−pooling)及び確率的プーリング(stochastic−pooling)を含む。
逆畳み込み(deconvolution)層は、畳み込み層とは反対の作用を有し、逆畳み込み層は、低次元特徴を高次元出力にマップングするために用いられる。本願の実施例において、逆畳み込み層は、特徴ベクトルに対してアップサンプリングを行う層であり、つまり、特徴マップの寸法を大きくするために用いられる。
スプライシング:本願の実施例において、スプライシングは、寸法が同じである2枚のマルチチャネル特徴マップをフュージョンするプロセスであり、ここで、スプライシングされた特徴マップのチャネル数は、2枚の特徴マップをスプライシングするチャネルの数の合計である。
残差層は、残差ネットワーク(Residual Network:ResNet)構造により特徴抽出を行う層構造である。本願の実施例において、残差層は、抽出された手部画像に対して特徴抽出を行い、手部画像におけるキーポイントを決定するように構成される。
全結合層は、内積層とも呼ばれる。畳み込みニューラルネットワークにおいて、特徴抽出された後、ピクチャは、隠れ層の特徴空間へマッピングされる。全結合層は、学習訓練により得られた特徴をサンプル分類空間へマッピングするように構成される。
本願の一実施例による実行環境を示す概略図である図1を参照されたい。該実行環境に、少なくとも1つの端末110及びサーバ120が含まれる。
端末110は、画像収集機能を有する電子機器である。該電子機器は、カメラが配置されたスマートフォン、タブレット、体感ゲーム機器又はパソコン等であってもよい。例えば、図1に示すように、端末110はカメラ111が配置されたス携帯電話である場合、該カメラ111は、フロントカメラ(携帯電話のディスプレイ側に位置する)又はリアカメラ(携帯電話のディスプレイの反対側に位置する)であってもよい。
可能な適用シーンにおいて、所定のアプリケーションプログラム(ジェスチャーインタラクション機能をサポートする)を起動する場合、端末110は、カメラにより赤緑青(Red Green Blue:RGB)ピクチャを収集するか又はカメラにより連続したRGBピクチャからなるビデオを収集する。例えば、ジェスチャーインタラクションをサポートする体感ゲームを起動する場合、端末110は、カメラを起動して画像収集を行う。
端末110とサーバ120は、有線又は無線ネットワークを経由して接続される。
サーバ120は、1つのサーバ、複数のサーバからなるサーバクラスタ又はクラウドコンピューティングセンタである。可能な実施形態において、サーバ120は、端末110における所定のアプリケーションプログラムのバックエンドサーバである。
可能な適用シーンにおいて、図1に示すように、端末110は、カメラ111によりRGBピクチャを収集した後、RGBピクチャをサーバ120に送信する。サーバ120は、予め訓練されたジェスチャー分割ニューラルネットワーク121により、RGBピクチャにおける手部画像を抽出する。続いて、予め訓練された手部キーポイント認識モデル122により、手部画像での手部キーポイントのキーポイント座標を認識することで、キーポイント座標に基づいて、手部画像により指示されたジェスチャーを決定し、更にジェスチャー認識結果を端末110にフィードバックする。
もう1つの可能な適用シーンにおいて、端末110は、ジェスチャー認識機能を持つ場合、端末110は、収集されたRGBピクチャに対して、サーバ120を利用する必要がなく、手部画像抽出及び手部キーポイント認識をローカルで行う。
任意選択的に、端末110又はサーバ120は、ニューラルネットワークチップによりジェスチャー認識機能を実現する。
任意選択的に、上記無線ネットワーク又は有線ネットワークは、標準的な通信技術及び/又はプロトコルを用いる。ネットワークは、一般的には、インターネットであるが、如何なるネットワークであってもよく、ローカルエリアネットワーク(Local Area Network:LAN)、メトロエリアネットワーク(Metropolitan Area Network:MAN)、広域ネットワーク(Wide Area Network:WAN)、モバイルネットワーク、有線又は無線ネットワーク、専用ネットワーク又は仮想専用ネットワークの如何なる組み合わせを含むが、これらに限定されない。幾つかの実施例において、ハイパーテキストマークアップ言語(Hyper Text Mark−up Language:HTML)、拡張マークアップ言語(Extensible Markup Language:XML)等を含む技術及び/又はフォーマットで、ネットワークを経由して交換されたデータを表す。なお、セキュアソケットレイヤ(Secure Socket Layer:SSL)、トランスポートレイヤセキュリティ(Transport Layer Security:TLS)、仮想専用ネットワーク(Virtual Private Network:VPN)、インターネットプロトコルセキュリティ(Internet Protocol Security:IPsec)などの従来の暗号化技術を利用して全て又は一部のリンクを暗号化することもできる。別の幾つかの実施例において、カスタマイズ及び/又は専用データ通信技術で、上記データ通信技術を置換するか又は補完することもできる。
本願の各実施例で提供される手部キーポイント認識モデルの訓練方法は、モデル訓練装置により実行されてもよい。該モデル訓練装置は、高い演算能力を持つコンピュータ又はサーバであってもよい。本願の各実施例で提供される手部キーポイント認識方法は、手部キーポイント認識装置により実行されてもよい。該手部キーポイント認識装置は、図1における端末110又はサーバ120であってもよい。
RGBピクチャに基づいた三次元ジェスチャー認識とは、二次元RGBピクチャにおける手部キーポイントを決定し、各手部キーポイントの三次元座標を更に取得することを指す。関連技術において、一般的には、深層ニューラルネットワークに基づいた手部キーポイント認識モデルを利用して手部キーポイント認識を行う。しかしながら、手部キーポイント認識モデルの訓練段階において、大量のラベル情報(手部キーポイントの座標)を搬送している的RGBピクチャを訓練サンプルとして用いる必要があるが、実際のシーンで手部キーポイント座標を収集するために大量のセンシング装置を用いる必要があるため、初期で訓練サンプルの収集難度が高く、更に、手部キーポイント認識モデルの訓練難度が高くなる。
手部キーポイント認識モデルの訓練難度を低減させるために、手部キーポイント認識モデルの訓練方法を提供する。図2に示すように、該訓練方法において、まず、コンピュータのグラフィックスレンダリング機能を利用して手部三次元モデルを自動的に構築し、手部三次元モデルに対応する仮想画像21以及ラベル情報22(モデリング時に自動的に生成された座標データ)を訓練サンプルとして、ジェスチャー分割モデル23(画像における手部領域を認識するために用いられる)、2Dキーポイント認識モデル24(画像における二次元手部キーポイントのヒートマップを得るために用いられる)、3Dキーポイント認識モデル25(画像における三次元手部キーポイントの三次元座標を得るために用いられる)をそれぞれ訓練する。
上記方法を用いる場合、ラベル情報がモデリング段階でコンピュータにより自動的に生成されるため、訓練サンプル取得の難度を低減させ、モデルの訓練効率を向上させることができる。しかしながら、仮想画像と実際のシーンで収集された実画像とは、データ分布の点で格差がある(細部の点で大きい差異がある)。例えば、実画像と仮想画像とは、手部皮膚の細部及び背景の細部等の点で大きい差異がある。従って、実画像26を利用してモデル(仮想画像により訓練されたもの)をテストする場合のテスト効果が低い。また、実際の適用シーンにおいて、該モデルへの入力はいずれも実画像である。従って、該モデルを利用して手部キーポイントを認識する場合の正確率が低い。
データ分布の点での格差による問題を解決するために、図3に示すように、本願の実施例で提供される手部キーポイント認識モデルの訓練方法において、仮想画像21及び実画像26に基づいてCycle−GANモデル27を予め訓練し、Cycle−GANモデル27を利用して仮想画像21を実模擬画像28に変換する。これにより、実模擬画像28及び対応するラベル情報22を訓練サンプルとして、ジェスチャー分割モデル23を訓練する。また、2Dキーポイント認識モデルと3Dキーポイント認識モデルを2D−3Dキーポイント結合認識モデル29となるように結合することで、モデル出力の正確率を向上させる。Cycle−GANモデル27により、仮想シーンフィールドのデータを実際のシーンのデータフィールドへ移行することで、データ分布の点での格差による問題を軽減し、実画像の場合のモデルのテスト結果を向上させ、実際の適用シーンにおける手部キーポイント認識の正確率を向上させる。
本願の実施例で提供される手部キーポイント認識方法は、手話認識シーン、ジェスチャーインタラクションシーン、手部特殊効果シーンなどのようなジェスチャー認識に関わる他のシーンに適用可能である。以下、様々な適用シーンを参照しながら、説明する。
手話認識シーン:
手部キーポイント認識方法が手話認識シーンに適用される場合、手部キーポイント認識方法を手話認識ソフトウェアで実行し、手話認識ソフトウェアを端末にインストールすることができる。端末は、手話認識ソフトウェアを起動した後、カメラにより手話画像を収集し、手話画像で表される意味を認識し、文字の形態で認識結果を展示することで、手話ができない者と障碍者とのコミュニケーションを容易にする。
ジェスチャーインタラクションシーン:
手部キーポイント認識方法がジェスチャーインタラクションシーンに適用される場合、手部キーポイント認識方法をスマートホーム制御ソフトウェアで実行し、該ソフトウェアを、ジェスチャー制御をサポートするスマートホーム装置にインストールすることができる。スマートホーム装置が運転する過程において、カメラにより、ユーザジェスチャーを含む画像を収集し、そのうちのジェスチャーを認識することで、ユーザジェスチャーに対応する制御命令を決定し、更に、制御命令に基づいて、対応する操作を実行し、ユーザがジェスチャーによりスマートホーム装置を迅速に制御することに寄与する。
手部特殊効果シーン:
手部キーポイント認識方法が手部特殊効果シーンに適用される場合、手部キーポイント認識方法を画像処理ソフトウェアで実行し、該ソフトウェアを端末にインストールすることができる。端末は、該画像処理ソフトウェアを起動した後、カメラにより、手部画像を収集し、ユーザにより選択された手部特殊効果(例えば、鷹の爪、熊の手のひら等)に基づいて、手部特殊効果を、対応する手部キーポイント上に重ね合わし、手部特殊効果をリアルタイムに表示することを実現させる。
本願の一実施例で提供される認識モデルの訓練方法を示すフローチャートである図4を参照されたい。本実施例において、該手部キーポイント認識モデルの訓練方法がモデル訓練装置に適用されることを例として説明する。該方法は、下記ステップを含んでもよい。
ステップS401において、Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換し、サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、実模擬画像は、実際のシーンで収集された画像を模倣するためのものである。
任意選択的に、Cycle−GANモデルを利用して画像変換を行う前に、モデル訓練装置は、サンプル実画像及びサンプル仮想画像に基づいてCycle−GANモデルを訓練する。
ここで、サンプル実画像は、実際のシーンで採集された、手部画像を含むRGBピクチャである。サンプル仮想画像は、仮想環境における三次元手部モデルのRGBピクチャであり、該三次元手部モデルは、コンピュータにより、三次元モデリングを利用して仮想環境において構築されたものである。また、サンプル仮想画像で、三次元手部モデルにおける手部キーポイントのキーポイント座標(モデリング時に自動的に生成された)が搬送されている。訓練されたCycle−GANモデルは、サンプル仮想画像を実模擬画像に変換するか又は実画像を仮想模擬画像に変換するためのものである。
任意選択的に、該手部キーポイントは、指先、遠位端指関節(指先に近接する指関節)、近位端指関節(手のひらに近接する指関節)、中手指節関節などの複数のキーポイントを含む。例えば、21個のキーポイントを含む。キーポイント座標は、三次元座標及び/又は二次元座標であってもよい。
Cycle−GANモデルを訓練する場合、一対一に対応する画像対を利用する必要がない。つまり、サンプル実画像とサンプル仮想画像は、一対一に対応する必要がない。従って、可能な実施形態において、モデル訓練装置は、実際のシーンにおける、ジェスチャーを含む画像をサンプル実画像集合として収集し、ラベル情報を搬送している既存の仮想画像をサンプル仮想画像集合として用いる。
実画像と仮想画像との、データ分布の点での格差による問題を軽減するために、モデル訓練装置は、サンプル仮想画像をCycle−GANモデルに入力し、Cycle−GANモデルから出力された実模擬画像を得て、データを仮想シーンにおけるデータフィールドから実際のシーンにおけるデータフィールドへ移行することを実現させる。
ここで、サンプル仮想画像を画調変換して実模擬画像を得た後、対応するキーポイント座標は依然として保留される。
ステップS402において、実模擬画像における手部画像を抽出する。
サンプル仮想画像に、手部画像に加えて、胴体画像、背景画像などの干渉要素が含まれることがあるため、構築されたモデルの品質を向上させるように、モデル訓練装置は、更に、実模擬画像における手部画像を抽出する。
可能な実施形態において、モデル訓練装置は、ジェスチャー分割ニューラルネットワークを予め訓練し、該ジェスチャー分割ニューラルネットワークを利用して実模擬画像における手部画像を抽出する。ここで、該ジェスチャー分割ニューラルネットワークは、ラベル情報(手部領域及び非手部領域をラベリングする)が記憶されている複数枚の実画像に基づいて訓練することで生成されてもよい。
ステップS403において、実模擬画像における手部画像及びキーポイント座標に基づいて、手部キーポイント認識モデルを訓練し、手部キーポイント認識モデルは、入力された実画像に基づいて、実画像における手部の手部キーポイント座標を出力するためのものである。
更に、モデル訓練装置は、抽出された手部画像及び対応するキーポイント座標を訓練サンプルとして、手部キーポイント認識モデルを訓練する。訓練サンプルとした実模擬画像の画調は、実画像の画調と同じである(同一のデータフィールドに属する)ため、実画像を利用して手部キーポイント認識モデルをテストする場合の正確性がより高く、且つ、該手部キーポイント認識モデルを利用して実画像におけるジェスチャーを認識する場合の正確性がより高い。
可能な実施形態において、該手部キーポイント認識モデルは、二次元認識分岐及び三次元認識分岐を含む。収集された実画像を手部キーポイント認識モデルに入力した後、二次元認識分岐から出力された二次元キーポイントヒートマップ(ヒートマップにおいて応答性が高い点は、二次元キーポイントである)、及び三次元認識分岐から出力された三次元キーポイント座標を得る。
要するに、本実施例において、Cycle−GANモデルを利用してサンプル仮想画像を実模擬画像に変換することで、実模擬画像における手部画像及びキーポイント座標に基づいて、手部キーポイント認識モデルを訓練する。Cycle−GANモデルにより変換を行うことで得られた実模擬画像は、サンプル実画像の画調を模擬することできる。つまり、訓練サンプルは、採集された実画像に近似する。従って、後続で該手部キーポイント認識モデルを利用して実画像に対してジェスチャー認識を行う場合の正確率は、より高い。また、キーポイント座標を搬送しているサンプル仮想画像に基づいて手部キーポイント認識モデルを訓練することにより、キーポイント座標を手動でラベリングすることが避けられ、モデル訓練の効率及び正確性を更に向上させる。
Cycle−GANモデルの訓練の要点は、ジェネレーター及びディスクリミネーターの訓練である。本願の実施例におけるジェネレーターは、画像に対して画調変換を行うために用いられ、ディスクリミネーターは、元画像とジェネレーターから出力された画像とを判別するために用いられる。Cycle−GANモデルの訓練は、ジェネレーターとディスクリミネーターとが対抗し合う過程である。これにより、ジェネレーターから出力された画像の画調をターゲット画像の画調と一致させ(出力をターゲット分布に近似させる)、ディスクリミネーターをランダム判別状態にする(元画像及びジェネレーターから出力された画像に対する判別の確率が均等である)。以下、概略的な実施例を利用してCycle−GANモデルの訓練過程を説明する。
本願のもう1つの実施例で提供される認識モデルの訓練方法を示すフローチャートである図5を参照されたい。本実施例において、該手部キーポイント認識モデルの訓練方法がモデル訓練装置に適用されることを例として説明する。該方法は、下記ステップを含んでもよい。
ステップS501において、第1ジェネレーター及び第2ジェネレーターを構築し、第1ジェネレーターは、実模擬画像を生成するためのものであり、第2ジェネレーターは、仮想模擬画像を生成するためのものであり、仮想模擬画像は、サンプル仮想画像の画調を模倣するためのものである。
Cycle−GANモデルの生成訓練は、ジェネレーターにより実現する。本願の実施例におけるCycle−GANモデルは、画像に対して画調変換を行うためのものである。入力画像に基づいて実模擬画像を生成するための第1ジェネレーター及び入力画像に基づいて仮想模擬画像を生成するための第2ジェネレーターという2つのジェネレーターを備える。第1ジェネレーターの入力画像は、(元)仮想画像又は第2ジェネレーターから出力された仮想模擬画像である。第2ジェネレーターの入力画像は、(元)実画像又は第1ジェネレーターから出力された実模擬画像である。
可能な実施形態において、図6に示すように、ジェネレーターは、エンコーダ61、変換器62及びデコーダ63という3つの部分から構成されてもよい。
ここで、エンコーダ61は、複数層の畳み込み層611(図面において3層の畳み込み層を例とする)を含む。該複数層の畳み込み層611はそれぞれ、入力画像に対して畳み込み処理を行い、入力画像の特徴を抽出するために用いられる。例えば、畳み込み層611に、ステップ幅が2である複数の畳み込みカーネルが含まれる。任意選択的に、畳み込み層611の後に、活性化層(ReLU)又はバッチ正規化(Batch Normalization:BN)層が追加されてもよく、本願の実施例はこれを限定するものではない。
エンコーダ61により処理された後、入力画像は、複数の入力画像の属するデータフィールド特徴ベクトルに圧縮される。続いて、変換器62により、該特徴ベクトルを出力画像の属するデータフィールドの特徴ベクトルに変換する。例えば、入力画像のサイズが256×256×3(幅×高さ×チャネル数)である場合、エンコーダ61により処理された後、サイズが64×64×256である特徴マップを得る。
変換器62は、複数の(図面において3つの残差ブロックを例とする)残差ブロック621で構成される残差ネットワークである。任意選択的に、各残差ブロック621は、少なくとも2つの畳み込み層で構成される。また、残差ブロック621の一部の入力は、直接的に出力に追加される。つまり、残差ブロック621の出力は、その畳み込み層の出力及び入力で構成される。従って、先のネットワーク層の入力が後のネットワーク層に直接的に作用することを確保し、対応する出力と元入力との偏差を小さくし、元画像の特徴を出力及び出力結果に保留させる。
本願の実施例において、変換器62は、エンコーダ61から出力された特徴ベクトルに対してデータフィールド変換を行うために用いられる。ここで、変換器62の出力サイズは、入力サイズと同じである。例えば、変換器62は、エンコーダ61から出力された64×64×256の特徴マップ(仮想画像の特徴)に対して変換を行い、64×64×256の特徴マップ(実画像の特徴)を出力し、仮想画像データフィールドから実画像データフィールドへの変換を実現させる。
コーディング過程とは逆であるように、デコーディング過程は、特徴ベクトルから、低次特徴を復元し、画調変換された画像を採集的に得るために用いられる。図6に示すように、デコーダ63は、複数層の逆畳み込み層631(図面において3層の逆畳み込み層を例とする)を含む。該複数層の逆畳み込み層631はそれぞれ、変換器62から出力された特徴ベクトルに対して逆畳み込み処理を行い、低次特徴を復元するために用いられる。例えば、逆畳み込み層631に、ステップ幅が1/2である複数の畳み込みカーネルが含まれる。
ここで、デコーダ63から最終的に出力された画像のサイズは、入力画像のサイズと同じである。例えば、入力画像のサイズが256×256×3である場合、デコーダ63から、サイズが256×256×3であって画調変換された画像が最終的に出力される。
ステップS502において、第1ディスクリミネーター及び第2ディスクリミネーターを構築し、第1ディスクリミネーターは、サンプル仮想画像と仮想模擬画像を判別するために用いられ、第2ディスクリミネーターは、サンプル実画像と実模擬画像を判別するために用いられる。
Cycle−GANモデルの敵対的訓練は、ディスクリミネーターにより実現される。本願の実施例におけるCycle−GANモデルは、サンプル仮想画像と仮想模擬画像を判別するための第1ディスクリミネーター及びサンプル実画像と実模擬画像を判別するための第2ディスクリミネーターという2つのディスクリミネーターを備える。ここで、仮想模擬画像は、第2ジェネレーターにより、サンプル画像に基づいて生成される。実模擬画像は、第1ジェネレーターにより、サンプル仮想画像に基づいて生成される。
ディスクリミネーターは、畳み込みニューラルネットワーク構造を用いる。画像特徴を抽出するための複数の畳み込み層と、一次元出力を発生するための畳み込み層とが含まれる。図7に示すように、ディスクリミネーターにおける畳み込み層71、畳み込み層72、畳み込み層73及び畳み込み層74は、入力画像に対して順に特徴抽出を行い、入力画像の特徴マップ75を得るために用いられる。畳み込み層76は、特徴マップ75に基づいて一次元出力を発生することで、一次元出力に基づいて、入力画像が実画像であるか、それとも実模擬画像であるかを判定し、又は、該入力画像が仮想画像であるか、それとも仮想模擬画像であるかを判定するために用いられる。
考えられる実現形態において、本願の実施例におけるディスクリミネーターは、0/1判別を用いる。例えば、ディスクリミネーターの出力が1である場合、入力画像が実画像であることを示し、ディスクリミネーターの出力が0である場合、入力画像が実模擬画像であることを示す。
もう1つの可能な実施形態において、本願の実施例におけるディスクリミネーターは、0/1判別を利用せず、入力画像をサイズが同じである複数のパッチ(Patch)ブロックに分割し、Patchブロックに基づいて判別を行う。0/1判別に比べて、Patchブロックに基づいた判別形態を利用する場合、訓練におけるパラメータ量を低減させ、訓練効率を向上させることができる。
ステップS503において、第1ジェネレーター、第2ジェネレーター、第1ディスクリミネーター及び第2ディスクリミネーターに基づいて、Cycle−GANモデルを構築する。
更に、上記ステップで構築されたジェネレーター及びディスクリミネーターに基づいて、モデル訓練装置は、Cycle−GANモデルを構築する。
例示的に、図8に示すCycle−GANモデルに、第1ジェネレーター81、第2ジェネレーター82、第1ディスクリミネーター83及び第2ディスクリミネーター84が含まれる。
ステップS504において、サンプル実画像及びサンプル仮想画像に基づいて、Cycle−GANモデルの損失を算出し、Cycle−GANモデルの損失に、ジェネレーター損失、ディスクリミネーター損失及びサイクル損失が含まれる。
構築されたCycle−GANモデルを訓練する場合、モデル訓練装置は、サンプル仮想画像及びサンプル実画像を、対応するジェネレーターの入力画像として、ジェネレーターにより、入力画像に対して画調変換を行い、ディスクリミネーターにより、ジェネレーターから出力された画像と元入力画像を判別し、ジェネレーター損失、ディスクリミネーター損失及びサイクル損失を算出し、後続で上記損失に基づいて、バックプロパゲーションアルゴリズムでモデル訓練を行う。ここで、ジェネレーターは、ジェネレーターによる画像変換の時に発生した損失である。ディスクリミネーター損失は、ディスクリミネーターの判別結果と所定の結果との誤差を示すためのものである。サイクル損失(又はサイクル一貫性損失(Cycle Consistency Loss)と呼ばれる)は、入力画像と、2つのジェネレーターにより変換された出力画像との、再構築誤差(Reconstruc)を示すためのものである。
ここで、入力されたサンプル実画像とサンプル仮想画像とは、対をなす必要がない。つまり、サンプル実画像におけるジェスチャーは、サンプル仮想画像におけるジェスチャーと一致する必要がない。
図8に示すCycle−GANモデルにおけるジェネレーターを訓練する場合、モデル訓練装置は、サンプル仮想画像Aを第1ジェネレーター81に入力し、第1ジェネレーター81により、サンプル仮想画像Aを実模擬画像B1に変換する。更に、第1ジェネレーター81は、変換により得られた実模擬画像B1を第2ジェネレーター82に入力し、第2ジェネレーター82により、実模擬画像B1を仮想模擬画像A2に変換し、サンプル仮想画像Aと仮想模擬画像A2との再構築誤差RAを算出することによりサイクル損失を決定する。再構築誤差RAは、2つのジェネレーターにより画調変換されたサンプル仮想画像Aと、元サンプル仮想画像Aとの画像差異を示すためのものである。ここで、再構築誤差RAが小さいほど、サンプル仮想画像Aと仮想模擬画像A2との類似性が高くなる。
モデル訓練装置は、サンプル実画像Bを第2ジェネレーター82に入力し、第2ジェネレーター82により、サンプル実画像Bを仮想模擬画像A1に変換する。更に、第2ジェネレーター82は、変換により得られた仮想模擬画像A1を第1ジェネレーター81に入力し、第1ジェネレーター81により、仮想模擬画像A1を実模擬画像B2に変換し、サンプル実画像Bと実模擬画像B2との再構築誤差RBを算出することでサイクル損失を決定する。再構築誤差RBは、2つのジェネレーターにより画調変換されたサンプル実画像Bと、元サンプル実画像Bとの画像差異を示すためのものである。ここで、再構築誤差RBが小さいほど、サンプル実画像Bと実模擬画像B2との類似性が高くなる。
図8に示すCycle−GANモデルにおけるディスクリミネーターを訓練する場合、モデル訓練装置は、サンプル仮想画像A及び仮想模擬画像A1を第1ディスクリミネーター83に入力し、第1ディスクリミネーター83により判別を行い、実際の判別結果及びターゲット判別結果に基づいて、第1ディスクリミネーター83のディスクリミネーター損失及び第2ジェネレーター82のジェネレーター損失を算出する。同様に、モデル訓練装置は、サンプル実画像B及び実模擬画像B1を第2ディスクリミネーター84に入力し、第2ディスクリミネーター84により判別を行い、実際の判別結果及びターゲット判別結果に基づいて、第2ディスクリミネーター84のディスクリミネーター損失及び第1ジェネレーター81のジェネレーター損失を算出する。
任意選択的に、モデル訓練装置は、ジェネレーター損失、ディスクリミネーター損失及びサイクル損失に基づいて、Cycle−GANモデルの損失関数を構築する。ここで、損失関数において、サイクル損失の乗法的因子(重み)は、ディスクリミネーター損失の乗法的因子より大きい。
ステップS505において、Cycle−GANモデルの損失に基づいて、Cycle−GANモデルを逆訓練する。
任意選択的に、モデル訓練装置は、Cycle−GANモデルのジェネレーター損失、ディスクリミネーター損失及びサイクル損失に基づいて、バックプロパゲーションアルゴリズムでCycle−GANモデルを訓練する。本願の実施例は、損失に基づいてCycle−GANモデルを訓練するための具体的な形態を限定するものではない。
任意選択的に、訓練により最終的に得られたCycle−GANモデルの損失関数は最も小さい。
訓練により最終的に得られたCycle−GANモデルにおいて、ジェネレーターとディスクリミネーターとの間で、ナッシュ均衡(Nash equilibrium)が実現された。つまり、ジェネレーターから出力された画像の画調はターゲット画像の画調と一致し(出力がターゲット分布に近似する)、ディスクリミネーターは、ランダム判別状態にある(元画像及びジェネレーターから出力された画像に対する判別の確率が均等である)。
上記ステップS501からS505により、モデル訓練装置は、サンプル仮想画像及びサンプル実画像に基づいて訓練を行い、画調変換用Cycle−GANモデルを得る。後続で手部キーポイント認識モデルの訓練を行う場合、モデル訓練装置は、該モデルを利用して、ラベル情報を搬送しているサンプル仮想画像に対して画調変換を行う。
ステップS506において、Cycle−GANモデルにおける第1ジェネレーターにより、サンプル仮想画像を実模擬画像に変換する。
訓練サンプルを実際のシーンで収集された実画像に更に近似させるために、モデル訓練装置は、サンプル仮想画像をCycle−GANモデルの第1ジェネレーターに入力し、第1ジェネレーターにより、サンプル仮想画像を実模擬画像に変換する。
実模擬画像における手部が小さな空間を占用する可能性があるため、実模擬画像をスケーリングした後に直接的に訓練又はテストを行うと、手部画像の面積が更に圧縮されてしまう。なお、手部キーポイントの分布が密であり、且つ自己遮蔽等の問題が存在するため、解像度が小さくて画像ぼけが存在する場合、認識効果は著しく低下する。このような問題を軽減するために、本願の実施例において、モデル訓練装置は、まず、手部信頼領域を位置決めし、続いて、手部信頼領域に基づいて、手部及び周辺の一部の領域を切り出してスケーリングし、次段の入力とする。図5に示すように、モデル訓練装置は更に、下記ステップS507からS508により、実模擬画像から手部画像を抽出する。
ステップS507において、実模擬画像をジェスチャー分割ニューラルネットワークに入力し、手部信頼領域を出力し、ジェスチャー分割ニューラルネットワークは、手部領域がラベリングされた画像に基づいて訓練を行うことで得られる。
可能な実施形態において、ジェスチャー分割ニューラルネットワークは、U型ネットワーク(U−NET)構造を用いた畳み込みニューラルネットワーク(Convolutional Neural Networks:CNN)である。それは、n個層の畳み込み層及びn個層の逆畳み込み層を含む。ここで、n個層の畳み込み層は、画像に対して様々なレベルの特徴抽出を行うために用いられる。n個層の逆畳み込み層は、抽出された特徴をデコーディングして出力するために用いられる。例示的に、図9に示すように、該ジェスチャー分割ニューラルネットワークは、3層の畳み込み層及び3層の逆畳み込み層を含む。
任意選択的に、図10に示すように、ジェスチャー分割ニューラルネットワークにより、手部信頼領域を決定するステップは、下記ステップを含む。
ステップS507Aにおいて、n個層の畳み込み層により実模擬画像を処理し、実模擬画像に対応する中間特徴マップを得る。
モデル訓練装置は、実模擬画像をジェスチャー分割ニューラルネットワークに入力し、n個層の畳み込み層により、実模擬画像に対して順に畳み込み処理を行い、実模擬画像における特徴を抽出し、実模擬画像に対応する中間特徴マップを得る。ここで、第1層の畳み込み層にとって、その入力は、実模擬画像である。第i層の畳み込み層にとって、その入力は、第i−1層の畳み込み層から出力された特徴マップである。
任意選択的に、各層の畳み込み層は、畳み込みカーネルを利用して入力画像又は特徴マップ(上位層の畳み込み層から出力される)に対して畳み込み処理を行うことに加えて、畳み込み結果に対して活性化及びプーリング処理を行う。
ここで、ReLU関数を利用して畳み込み結果を活性化処理する。本願の実施例は、用いられる具体的な活性化関数を限定するものではない。
活性化処理を行った後、畳み込み層は、活性化結果(特徴マップ)をプーリング処理し、プーリング処理された特徴マップを次の畳み込み層に入力する。ここで、プーリング処理は、特徴マップのサイズを縮小し、特徴マップにおける重要な情報を保留するために用いられる。任意選択的に、各階層のプーリング層は、入力された特徴マップを最大プーリング処理する。例えば、2×2ブロックについて、ステップ幅2で特徴マップをプーリング処理する場合、特徴マップにおける2×2ブロックの最大値を抽出し、特徴マップのサイズを四分の一までに縮小する。
任意選択的に、平均プーリング又は確率的プーリングを用いてプーリング処理を行うこともでき、本実施例はこれを限定するものではない。
例示的に、図9に示すように、実模擬画像91を第一層の畳み込み層に入力した後、第1層の畳み込み層で、畳み込み−プーリング処理を行い、特徴マップ92を得て、第2層の畳み込み層に入力する。特徴マップ92を第2層の畳み込み層で畳み込み−プーリング処理した後、特徴マップ93を得て、第3層の畳み込み層に入力する。特徴マップ93を第3層の畳み込み層で畳み込み−プーリング処理した後、更に畳み込み処理し、特徴マップ94を得て、n個層の逆畳み込み層に入力する。
ステップS507Bにおいて、n個層の逆畳み込み層により、中間特徴マップを処理し、実模擬画像に対応するターゲット特徴マップを得る。
ジェスチャー分割ニューラルネットワークは更に、n個層の逆畳み込み層により、中間特徴マップに対して逆畳み込み処理を行い、実模擬画像に対応するターゲットマップを最終的に得る。ここで、ターゲット特徴マップのサイズは、実模擬画像のサイズに等しい。
底層特徴マップは、より優れた空間的情報を持ち、上位層特徴マップは、より優れたセマンティック情報を持つため、特徴マップでより好適に特徴を表すように、可能な実施形態において、中間特徴マップに対して逆畳み込み処理を行う過程において、上位層特徴マップと先に生成された底層特徴マップをスプライシングしてフュージョンする。従って、該ステップは、下記ステップを含んでもよい。
ステップ1において、第m層の逆畳み込み層から出力された特徴マップと第n−m層の畳み込み層から出力された特徴マップをスプライシングし、1≦m≦n−1である。
第m層の逆畳み込み層から出力された特徴マップに対して、モデル訓練装置は、該特徴マップと第n−m層の畳み込み層から出力された特徴マップをチャネルスプライシングし、スプライシングされた特徴マップを得る。ここで、スプライシングされた特徴マップのチャネル数は、スプライシングされる前の特徴マップのチャネル数の合計である。
第n−m層の畳み込み層から出力された特徴マップのサイズが、第m層の逆畳み込み層から出力された特徴マップのサイズより大きいため、第m層の逆畳み込み層から出力された特徴マップに対して更にアップサンプリング処理を行い、特徴マップのサイズを大きくする必要がある。
任意選択的に、スプライシングを行う前に、1×1の畳み込みカーネルを利用して特徴マップを更に畳み込み処理し、特徴マップの次元を低下させ、スプライシングされた特徴マップのチャネル数を低減させ、演算量を低減させる。1×1の畳み込みカーネルを利用して畳み込み処理を行うことに加えて、3×3の畳み込みカーネルを利用して特徴マップを更に畳み込み処理し、特徴マップの受容野を拡大し、アップサンプリング過程における不正確な縁による影響を無くすこともできる。
ステップ2において、第m+1層の逆畳み込み層により、スプライシングされた特徴マップを処理する。
更に、スプライシングされた特徴マップは、第m+1層の逆畳み込み層に入力され、第m+1層の逆畳み込み層により、逆畳み込み活性化処理される。
例示的に、図9に示すように、特徴マップ94を第1層の逆畳み込み層で逆畳み込み−アップサンプリング処理した後、第2層畳み込み層で生成された特徴マップ92とスプライシングし、特徴マップ95を生成し、第2層の逆畳み込み層に入力する。特徴マップ95を第2層の逆畳み込み層で逆畳み込み−アップサンプリング処理した後、第1層の畳み込み層で生成された特徴マップ91とスプライシングし、特徴マップ96を生成する。
上記実施例は、3層の畳み込み層及び3層の逆畳み込み層を含むことを例として説明するが、ジェスチャー分割ニューラルネットワークの構造を限定するものではない。
ステップS507Cにおいて、ターゲット特徴マップに基づいて確率行列を生成し、確率行列は、実模擬画像における各画素点が手部である確率を表すためのものである。
更に、出力されたターゲット特徴マップに基づいて、モデル訓練装置は、実模擬画像における手部信頼領域を決定する。可能な実施形態において、モデル訓練装置は、ターゲット特徴マップに基づいて、画素レベルの認識及び分類を行い、各画素点に対応する手部領域の確率を決定する。ここで、画素点に対応する確率が高いほど、該画素点が手部領域である確率が高いことを表す。
ステップS507Dにおいて、確率行列に対して二値化処理を行い、手部領域に対応するヒートマップを出力し、ヒートマップは、実模擬画像における手部信頼領域を示すためのものである。
二値化処理の方式について、可能な実施形態において、モデル訓練装置は、確率行列における各確率を確率閾値と比較する。確率が確率閾値より大きいと、該確率を1とし、確率が確率閾値より小さいと、該確率を0とする。
例示的に、図11に示すように、モデル訓練装置は、確率閾値0.6に基づいて、確率行列1101に対して二値化処理を行い、確率が0.6より大きい領域を1とし、確率が0.6より小さい領域を0とし、ヒートマップ1102を得る。ヒートマップ1102において、値が1である領域は、手部信頼領域である。
例えば、図9に示すように、二値化処理により得られたヒートマップ97において、白色領域は、手部信頼領域であり、黒色領域は、非手部信頼領域である。
ステップS508において、手部信頼領域に基づいて、実模擬画像から手部画像を抽出する。
ジェスチャー分割ニューラルネットワークから出力された手部信頼領域の座標に基づいて、モデル訓練装置は、実模擬画像から手部画像を抽出する。
上記ステップS507Dにおいて、二値化処理により手部信頼領域を得る場合、一部の手部領域の画素点を非手部領域と誤分類し、一部の非手部領域の画素点を手部領域と誤分類することがある。このような誤分類は一般的には、実際の手部領域の縁に存在する。従って、可能な実施形態において、モデル訓練装置は、手部信頼領域の座標に基づいて、実模擬画像のXY平面から、サイズが手部信頼領域よりもやや大きい手部画像を抽出する。
任意選択的に、モデル訓練装置は、抽出された手部画像をスケーリング処理し、手部画像のサイズを手部キーポイント認識モデルの入力サイズと一致させるように確保する。
ステップS509において、手部キーポイント認識モデルを構築し、手部キーポイント認識モデルに、二次元認識分岐及び三次元認識分岐が含まれる。
図2に示した訓練されたモデルを利用して手部キーポイント認識を行う場合、まず、2Dキーポイント認識モデル23により、二次元キーポイントヒートマップを得て、続いて、二次元キーポイントを3Dキーポイント認識モデル24に入力し、手部キーポイントの三次元座標を最終的に得る。しかしながら、このような方式によれば、二次元及び三次元手部キーポイントを、独立したモデルにより認識し、二次元知覚と三次元知覚との相互関係が無視され、キーポイント認識の正確性が低くなってしまう。
本願の実施例において、モデル訓練装置は、二次元ヒートマップと三次元キーポイント座標を結合した深層学習方法で、手部キーポイント認識モデルを訓練する。このような結合方式は、眼によって視覚画像を処理するメカニズム(奥行きの立体情報を三次元で予測し、表現情報を二次元で観測する)に更に近似するため、訓練されたモデルを利用してキーポイント認識を行う場合の正確率はより高い。
任意選択的に、モデル訓練装置により構築された手部キーポイント認識モデルは、二次元認識分岐及び三次元認識分岐を含む。ここで、二次元認識分岐は、i個層の二次元残差層と畳み込み層を含み、三次元認識分岐は、i個層の三次元残差層と全結合層を含む。また、最初のj個層の二次元残差層は、最初のj個層の三次元残差層と結合され、2≦j≦i−1であり、i及びjは整数である。任意選択的に、
例示的には、図12に示すように、モデル訓練装置により構築された手部キーポイント認識モデルに、二次元認識分岐1210及び三次元認識分岐1220が含まれる。二次元認識分岐1210は、5個の二次元残差ブロック(各二次元残差ブロックは、一層の二次元残差層に対応する)及び1つの全結合層1216で構成され、三次元認識分岐1220は、5個の三次元残差ブロック(各三次元残差ブロックは、一層の三次元残差層に対応する)及び1つの畳み込み層1226で構成される。また、二次元認識分岐1210の先頭の3層は、三次元認識分岐1220の先頭の3層と互いに結合される。任意選択的に、二次元認識分岐及び三次元認識分岐における残差ブロックとして、一般的に用いられるResidual残差ブロックを用いることができる。また、一部の残差ブロックにおいて、ステップ幅が2である畳み込みカーネルを利用して特徴マップに対して次元削減を行い、演算量を低減させ特徴マップの受容野を拡大することができる。本願は、これを限定するものではない。
図12において、第1二次元残差ブロック1211及び第1三次元残差ブロック1221の入力はいずれも、抽出された手部画像である。第2二次元残差ブロック1212の入力は、第1二次元残差ブロック1211及び第1三次元残差ブロック1221の出力である。第2三次元残差ブロック1222の入力は、第1二次元残差ブロック1211及び第1三次元残差ブロック1221の出力である。第3二次元残差ブロック1213の入力は、第2二次元残差ブロック1212及び第2三次元残差ブロック1222の出力である。第3三次元残差ブロック1223の入力は、第2二次元残差ブロック1212及び第2三次元残差ブロック1222の出力である。
ステップS510において、手部画像及びキーポイント座標に基づいて、手部キーポイント認識モデルの二次元認識損失及び三次元認識損失を算出し、二次元認識損失は、二次元認識分岐の認識損失であり、三次元認識損失は、三次元認識分岐の認識損失である。
更に、モデル訓練装置は、手部画像をそれぞれ二次元認識分岐及び三次元認識分岐に入力し、キーポイント座標及び二次元認識分岐から出力された認識結果に基づいて二次元認識損失を算出し、キーポイント座標及び三次元認識分岐から出力された認識結果に基づいて三次元認識損失を算出する。可能な実施形態において、図13に示すように、該ステップは、下記ステップを含む。
ステップS510Aにおいて、手部画像をそれぞれ二次元認識分岐及び三次元認識分岐に入力する。
図12に示すように、モデル訓練装置は、手部画像をそれぞれ第1二次元残差ブロック1211及び第1三次元残差ブロック1221に入力する。
ステップS510Bにおいて、第k層の二次元残差層から出力された特徴マップと第k層の三次元残差層から出力された特徴マップを加算し、1≦k≦j−1である。
最初のj個層の相互結合された二次元残差層及び三次元残差層について、モデル訓練装置は、第k層の二次元残差層から出力された特徴マップと第k層の三次元残差層から出力された特徴マップを加算し、加算により得られた特徴マップを第k+1層の二次元残差層及び第k+1層の三次元残差層の入力とする。
ここで、加算される特徴マップの次元は同じであり、且つ、加算前後の特徴マップの次元は一致する。
例示的に、図12に示すように、モデル訓練装置は、第1二次元残差ブロック1211から出力された特徴マップと第1三次元残差ブロック1221から出力された特徴マップに対して要素ごとの加算を行う。第2二次元残差ブロック1212から出力された特徴マップと第2三次元残差ブロック1222から出力された特徴マップに対して要素ごとの加算を行う。
ステップS510Cにおいて、加算された特徴マップを第k+1層の二次元残差層及び第k+1層の三次元残差層に入力する。
更に、モデル訓練装置は、加算された特徴マップをそれぞれ第k+1層の二次元残差層及び第k+1層の三次元残差層に入力し、第k+1層の二次元残差層及び第k+1層の三次元残差層により、加算された特徴マップに対して残差処理を行う。
先頭のj−1層の二次元残差層及び先頭のj−1層の三次元残差層に対して、モデル訓練装置は、加算された特徴マップを第j層の二次元残差層及び第j層の三次元残差層に入力するまで上記ステップS510B及びS510Cを繰り返して実行する。
ステップS510Dにおいて、第j+1層から第i層の二次元残差層及び畳み込み層により、第j層の二次元残差層から出力された特徴マップを処理し、二次元認識結果を得る。
第j層の二次元残差層から出力された特徴マップについて、モデル訓練装置は、順に第j+1層から第i層の二次元残差層により、特徴マップを残差処理し、更に、畳み込み層により、第i層の二次元残差層から出力された特徴マップを処理し、二次元認識結果を得て、下記ステップS510Fを実行する。
任意選択的に、該二次元認識結果は、手部画像における二次元キーポイントのヒートマップである。該ヒートマップのサイズは、手部画像と一致し、且つヒートマップにおける応答性が高い点は、手部キーポイントである。
任意選択的に、二次元認識分岐は、二次元認識結果で示された手部キーポイントを元実模擬画像上に重畳表示し、異なる色で、異なる指に対応する手部キーポイントをマーキングする。
ステップS510Eにおいて、第j+1層から第i層の三次元残差層及び全結合層により、第j層の三次元残差層から出力された特徴マップを処理し、三次元認識結果を得る。
二次元認識と同様に、第j層の三次元残差層から出力された特徴マップについて、モデル訓練装置は、順に第j+1層から第i層の三次元残差層により特徴マップを残差処理し、更に、全結合層により、第i層の三次元残差層から出力された特徴マップを処理し、三次元認識結果を得て、下記ステップS510Gを実行する。
任意選択的に、該三次元認識結果は、手部画像における各手部キーポイントの三次元座標であり、且つ、該三次元座標は相対的座標である。つまり、手部における所定のキーポイントを座標原点として、他のキーポイントと所定のキーポイントとの正規化距離を算出して他のキーポイントの三次元座標を決定する。例えば、21個の手部キーポイントが含まれる場合、三次元認識分岐における全結合層のニューロンの数は、21×3=63個である。
ステップS510Fにおいて、二次元認識結果及びキーポイント座標に基づいて二次元認識損失を算出する。
モデル訓練装置は、二次元認識結果で示される手部キーポイントの二次元座標に基づいて、該二次元座標とキーポイント座標(即ちグラウンドトルス(Ground Truth))との二次元認識損失を算出する。任意選択的に、キーポイント座標は、サンプル仮想画像における手部キーポイントの二次元座標であり、且つ、二次元認識損失は、ユークリッド距離でマーキングされてもよい。例えば、二次元認識結果においてキーポイントAの二次元座標が(100px,150px)であり、また、キーポイントAの実際の二次元座標が(90px,140px)である場合、キーポイントAの二次元認識損失は、

Figure 2021518022
である。
ステップS510Gにおいて、三次元認識結果及びキーポイント座標に基づいて三次元認識損失を算出する。
二次元認識損失の算出と同様に、モデル訓練装置は、三次元認識結果で示される手部キーポイントの三次元座標に基づいて、該三次元座標とキーポイント座標(即ちグラウンドトルス(Ground Truth))との三次元認識損失を算出する。任意選択的に、キーポイント座標は、サンプル仮想画像における手部キーポイントの三次元座標であり、且つ、三次元認識損失は、ユークリッド距離でマーキングされてもよい。例えば、三次元認識結果においてキーポイントAの二次元座標が(100px,150px,100px)であり、また、キーポイントAの実際の三次元座標が(90px,140px,100px)である場合、キーポイントAの三次元認識損失は、

Figure 2021518022
である。
ステップS511において、二次元認識損失及び三次元認識損失に基づいて手部キーポイント認識モデルを逆訓練する。
任意選択的に、算出された二次元認識損失に基づいて、モデル訓練装置は、バックプロパゲーションアルゴリズムで手部キーポイント認識モデルの二次元認識分岐を訓練する。算出された三次元認識損失に基づいて、モデル訓練装置は、バックプロパゲーションアルゴリズムで手部キーポイント認識モデルの三次元認識分岐を訓練する。本願の実施例は、認識損失に基づいて手部キーポイント認識モデルを訓練するための具体的な形態を限定するものではない。
本実施例において、2つのジェネレーター及び2つのディスクリミネーターを含むCycle−GANモデルを構築し、ジェネレーター損失、ディスクリミネーター損失及びサイクル損失に基づいてCycle−GANモデルを逆訓練することで、得られたCycle−GANモデルの品質を向上させる。
本実施例において、手部キーポイント認識モデルを訓練する場合、二次元認識分岐と三次元認識分岐を結合させることで、訓練された手部キーポイント認識モデルを、眼によって視覚画像を処理するメカニズムに更に近似させ、手部キーポイント認識の正確率を向上させる。
本願の一実施例による認識方法を示すフローチャートである図14を参照されたい。本実施例において、該手部キーポイントの認識方法が手部キーポイント認識装置に適用されることを例として説明する。該方法は下記ステップを含んでもよい。
ステップS1401において、実画像を収集し、実画像に手部画像が含まれる。
可能な実施形態において、手部キーポイント認識装置は、カメラが設けられた端末である。端末は、カメラにより、手部画像を含む実画像を収集する。
ステップS1402において、実画像における手部画像を抽出する。
可能な実施形態において、手部キーポイント認識装置は、図5に示す実施例中におけるジェスチャー分割ニューラルネットワークを利用して、実画像における手部画像を抽出する。本実施例は、手部画像の抽出プロセスの詳細な説明を省略する。
ステップS1403において、手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得て、手部キーポイント認識モデルは、実模擬画像及び実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、実模擬画像は、Cycle−GANモデルによりサンプル仮想画像に基づいて生成されたものであり、Cycle−GANモデルは、サンプル実画像及びサンプル仮想画像に基づいて訓練されて生成されたものであり、サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる。
手部キーポイント認識装置は、抽出された手部画像を上記実施例で訓練された手部キーポイント認識モデルに入力し、モデルから出力された手部キーポイント座標を得る。ここで、該手部キーポイント座標は、二次元座標及び/又は三次元座標である。
可能な実施形態において、図15における(a)に示すように、手部キーポイント座標が二次元座標である場合、手部キーポイント認識装置は、二次元座標に基づいて手部キーポイントを実画像上に重畳表示し、異なる色で、同一の指におけるキーポイントをマーキングする。図15における(b)に示すように、手部キーポイント座標が三次元座標である場合、手部キーポイント認識装置は、三次元座標に基づいて、三次元座標系において、三次元手部モデルを構築し、異なる色で、同一の指におけるキーポイントをマーキングする。
図15に示すように、上記方法が手話認識シーンに適用される場合、端末は、手部キーポイントにより認識されたOKジェスチャーに基づいて、インタフェースに手話翻訳結果「OK」を表示する。手部特殊効果シーンに適用される場合、端末は、認識されたOKジェスチャーに基づいて、インタフェースにおける手部領域で、熊の手のひらを模擬してOKジェスチャーを作る。ジェスチャーインタラクションシーンに適用される場合、スマートホーム装置は、認識されたOKジェスチャーに基づいて確認操作を実行する。
要するに、本実施例において、サンプル実画像及びサンプル仮想画像に基づいてCycle−GANモデルを予め訓練し、Cycle−GANモデルを利用してサンプル仮想画像を実模擬画像に変換することで、実模擬画像における手部画像及びキーポイント座標に基づいて、手部キーポイント認識モデルを訓練する。Cycle−GANモデルにより変換を行うことで得られた実模擬画像は、サンプル実画像の画調を模擬することできる。つまり、訓練サンプルは、採集された実画像に近似する。従って、後続で該手部キーポイント認識モデルを利用して実画像に対してジェスチャー認識を行う場合の正確率は、より高い。また、キーポイント座標を搬送しているサンプル仮想画像に基づいて手部キーポイント認識モデルを訓練することにより、キーポイント座標を手動でラベリングすることが避けられ、モデル訓練の効率及び正確性を更に向上させる。
以下は、本願の装置の実施例であり、本願の方法の実施例を実行するために用いられる。本願の装置の実施例で開示されていない細部については、本願の方法の実施例を参照されたい。
本願の一実施例による認識モデル訓練装置を示すブロック図である図16を参照されたい。該装置は、上記方法の例を実行する機能を持ち、機能は、ハードウェアにより実現されてもよく、ハードウェアによって実行されるソフトウェアにより実現されてもよい。該装置は、変換モジュール1610と、第1抽出モジュール1620と、第1訓練モジュール1630と、を備えてもよく、ここで、
変換モジュール1610は、Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するように構成され、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである。
第1抽出モジュール1620は、前記実模擬画像における手部画像を抽出するように構成される。
第1訓練モジュール1630は、前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するように構成され、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである。
任意選択的に、前記装置は、サンプル実画像及び前記サンプル仮想画像に基づいて、前記Cycle−GANモデルを訓練するように構成される第2訓練モジュールであって、前記サンプル実画像は、実際のシーンで収集された画像である、第2訓練モジュールを更に備える。
任意選択的に、前記第2訓練モジュールは更に、第1ジェネレーター及び第2ジェネレーターを構築するように構成され、前記第1ジェネレーターは、前記実模擬画像を生成するためのものであり、前記第2ジェネレーターは、仮想模擬画像を生成するためのものであり、前記仮想模擬画像は、前記サンプル仮想画像の画調を模倣するためのものであり、前記第2訓練モジュールは更に、第1ディスクリミネーター及び第2ディスクリミネーターを構築するように構成され、前記第1ディスクリミネーターは、前記サンプル仮想画像と前記仮想模擬画像を判別するために用いられ、前記第2ディスクリミネーターは、前記サンプル実画像と前記実模擬画像を判別するために用いられ、前記第2訓練モジュールは更に、前記第1ジェネレーター、前記第2ジェネレーター、前記第1ディスクリミネーター及び前記第2ディスクリミネーターに基づいて、前記Cycle−GANモデルを構築し、前記サンプル実画像及び前記サンプル仮想画像に基づいて、前記Cycle−GANモデルの損失を算出するように構成され、前記Cycle−GANモデルの損失に、ジェネレーター損失、ディスクリミネーター損失及びサイクル損失が含まれ、前記第2訓練モジュールは更に、前記Cycle−GANモデルの損失に基づいて、前記Cycle−GANモデルを逆訓練するように構成される。
任意選択的に、前記変換モジュール1610は更に、前記Cycle−GANモデルにおける前記第1ジェネレーターにより、前記サンプル仮想画像を前記実模擬画像に変換するように構成される。
任意選択的に、前記第1抽出モジュール1620は更に、前記実模擬画像をジェスチャー分割ニューラルネットワークに入力し、手部信頼領域を出力するように構成され、ジェスチャー分割ニューラルネットワークは、手部領域がラベリングされた画像に基づいて訓練を行うことで得られ、前記第1抽出モジュール1620は更に、前記手部信頼領域に基づいて、前記実模擬画像から手部画像を抽出するように構成される。
任意選択的に、前記ジェスチャー分割ニューラルネットワークは、n個層の畳み込み層及びn個層の逆畳み込み層を含み、n≧2であり、nは整数であり、前記第1抽出モジュール1620は更に、前記n個層の畳み込み層により前記実模擬画像を処理し、前記実模擬画像に対応する中間特徴マップを得て、前記n個層の逆畳み込み層により、前記中間特徴マップを処理し、前記実模擬画像に対応するターゲット特徴マップを得て、前記ターゲット特徴マップに基づいて確率行列を生成するように構成され、前記確率行列は、前記実模擬画像における各画素点が手部である確率を表すためのものであり、前記前記第1抽出モジュール1620は更に、前記確率行列に対して二値化処理を行い、前記手部領域に対応するヒートマップを出力するように構成され、前記ヒートマップは、前記実模擬画像における前記手部信頼領域を示すためのものである。
任意選択的に、前記n個層の逆畳み込み層により、前記中間特徴マップを処理し、前記実模擬画像に対応するターゲット特徴マップを得る場合、前記第1抽出モジュール1620は更に、第m層の逆畳み込み層から出力された特徴マップと第n−m層の畳み込み層から出力された特徴マップをスプライシングするように構成され、1≦m≦n−1であり、前記第1抽出モジュール1620は更に、第m+1層の逆畳み込み層により、スプライシングされた特徴マップを処理するように構成される。
任意選択的に、前記第1訓練モジュール1630は更に、前記手部キーポイント認識モデルを構築するように構成され、前記手部キーポイント認識モデルに、二次元認識分岐及び三次元認識分岐が含まれ、前記二次元認識分岐は、i個層の二次元残差層と畳み込み層を含み、三次元認識分岐は、i個層の三次元残差層と全結合層を含み、また、最初のj個層の二次元残差層は、最初のj個層の三次元残差層と結合され、2≦j≦i−1であり、i及びjは整数であり、前記第1訓練モジュール1630は更に、前記手部画像及び前記キーポイント座標に基づいて、前記手部キーポイント認識モデルの二次元認識損失及び三次元認識損失を算出するように構成され、前記二次元認識損失は、前記二次元認識分岐の認識損失であり、前記三次元認識損失は、前記三次元認識分岐の認識損失であり、前記第1訓練モジュール1630は更に、前記二次元認識損失及び前記三次元認識損失に基づいて、前記手部キーポイント認識モデルを逆訓練するように構成される。
任意選択的に、前記手部画像及び前記キーポイント座標に基づいて、前記手部キーポイント認識モデルの二次元認識損失及び三次元認識損失を算出する場合、前記第1訓練モジュール1630は更に、前記手部画像をそれぞれ前記二次元認識分岐及び前記三次元認識分岐に入力し、第k層の二次元残差層から出力された特徴マップと第k層の三次元残差層から出力された特徴マップを加算するように構成され、1≦k≦j−1であり、前記第1訓練モジュール1630は更に、加算された特徴マップを第k+1層の二次元残差層及び第k+1層の三次元残差層に入力し、第j+1層から第i層の二次元残差層及び前記畳み込み層により、前記第j層の二次元残差層から出力された特徴マップを処理し、二次元認識結果を得て、第j+1層から第i層の三次元残差層及び前記全結合層により、前記第j層の三次元残差層から出力された特徴マップを処理し、三次元認識結果を得て、前記二次元認識結果及び前記キーポイント座標に基づいて前記二次元認識損失を算出し、前記三次元認識結果及び前記キーポイント座標に基づいて前記三次元認識損失を算出するように構成される。
本願の一実施例による認識装置を示すブロック図である図17を参照されたい。該装置は、情報方法の例を実行する機能を持つ。機能は、ハードウェアにより実現されてもよく、ハードウェアによって実行されるソフトウェアにより実現されてもよい。該装置は、収集モジュール1710と、第2抽出モジュール1720と、認識モジュール1730と、をそなえてもよく、ここで、
収集モジュール1710は、実画像を収集するように構成され、前記実画像に、手部画像が含まれる。
第2抽出モジュール1720は、前記実画像における前記手部画像を抽出するように構成される。
認識モジュール1730は、前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るように構成され、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる。
本願の一実施例によるモデル訓練装置の構造を示す概略図である図18を参照されたい。該モデル訓練装置は、上記実施例で提供される手部キーポイント認識モデルの訓練方法を実行するように構成される。具体的には、
前記モデル訓練装置1800は、中央処理ユニット(CPU)1801と、ランダムアクセスメモリ(RAM)1802及び読み出し専用メモリ(ROM)1803を含むシステムメモリ1804と、システムメモリ1804と中央処理ユニット1801とを接続するためのシステムバス1805と、を備える。前記モデル訓練装置1800は、コンピュータ内の各機器間の情報伝送に寄与する基本入力/出力システム(I/Oシステム)1806と、オペレーティングシステム1813、アプリケーションプログラム1814及び他のプログラムモジュール1815を記憶するための大容量記憶装置1807と、を更に備える。
前記基本入力/出力システム1806は、情報を表示するためのディスプレイ1808と、ユーザによる情報入力のためのマウス、キーボードのような入力装置1809と、を備える。ここで、前記ディスプレイ1808及び入力装置1809はいずれも、システムバス1805に接続された入力出力コントローラ1810を介して中央処理ユニット1801に接続される。前記基本入力/出力システム1806は、キーボード、マウス又は電子スタイラスなどのような複数の他の装置からの入力を受信して処理するための入力出力コントローラ1810を更に備えてもよい。同様に、入力出力コントローラ1810は更に、出力をディスプレイスクリーン、プリンタ又は他のタイプの出力装置に提供する。
前記大容量記憶装置1807は、システムバス1805に接続された大容量記憶コントローラ(図示されず)を介して中央処理ユニット1801に接続される。前記大容量記憶装置1807及びそれに関連するコンピュータ可読媒体は、モデル訓練装置1800のために不揮発性記憶を提供する。つまり、前記大容量記憶装置1807は、ハードディスク又はCD−ROMドライブのようなコンピュータ可読媒体(図示されず)を含んでもよい。
一般性を失うことなく、前記コンピュータ可読媒体は、コンピュータ記憶媒体及び通信媒体を含んでもよい。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、程序モジュール又は他のデータなどの情報を記憶するための如何なる方法又は技術で実現された、揮発性および不揮発性、取外し可能および取外し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EPROM、EEPROM、フラッシュメモリ又は他のソリッドステートメモリ及び技術、CD−ROM、DVD又は他の光学記憶装置、磁気テープカセット、磁気テープ、磁気ディスクメモリ又は他の磁気記憶装置を含む。勿論、前記コンピュータ記憶媒体が上述したものに限定されないことは、当業者には明らかである。上記システムメモリ1804及び大容量記憶装置1807は、メモリと総称されてもよい。
本願の種々の実施例によれば、前記モデル訓練装置1800は更に、インターネットなどのネットワークを介してネットワーク上のリモートコンピュータに接続されて実行されることも可能である。つまり、モデル訓練装置1800は、前記システムバス1805に接続されたネットワークインタフェースユニット1811を介してネットワーク1812に接続されてもよい。又は、ネットワークインタフェースユニット1811を利用して他のタイプのネットワーク又はリモートコンピュータシステムに接続されてもよい。
前記メモリに、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットは、1つ又は1つ以上のプロセッサにより実行され、上記手部キーポイント認識モデルの訓練方法における各工程の機能を実現させる。
図19は、本願の一例示的な実施例による手部キーポイント認識装置1000の構造を示すブロック図である。該手部キーポイント認識装置1000は、スマートフォン、タブレット、MP3プレーヤー(Moving Picture Experts Group Audio Layer III:動画専門家集団オーディオ規格のレイヤ3)、MP4(Moving Picture Experts Group Audio Layer IV::動画専門家集団オーディオ規格のレイヤ4)プレーヤーのような携帯型移動端末であってもよい。
一般的に、手部キーポイント認識装置1000は、プロセッサ1001と、メモリ1002とを備える。
プロセッサ1001は、1つ又は複数のプロセッシングコアを含んでもよい。例えば、4コアプロセッサ、8コアプロセッサ等である。プロセッサ1001は、DSP(Digital Signal Processing:デジタル信号処理)、FPGA(Field−Programmable Gate Array:フィールドプログラマブルゲートアレイ)、PLA(Programmable Logic Array:プログラマブルロジックアレイ)のうちの少なくとも1つのハードウェア形態により実現してもよい。プロセッサ1001は、ホストプロセッサ及びコプロセッサを含んでもよい。ホストプロセッサは、アウェイク状態であるデータを処理するためのプロセッサであり、CPU(Central Processing Unit:中央プロセッサ)とも呼ばれる。コプロセッサは、待機状態であるデータを処理するための低電力プロセッサである。幾つかの実施例において、プロセッサ1001に、GPU(Graphics Processing Unit:画像プロセッサ)が集積されてもよい。GPUは、ディスプレイが表示すべきコンテンツのレンダリング及び描画に用いられる。幾つかの実施例において、プロセッサ1001は、AI(Artificial Intelligence:人工知能)プロセッサを含んでもよい。該AIプロセッサは、機器学習に関わる演算操作を処理するためのものである。任意選択的に、本願の実施例において、該AIプロセッサは、ジェスチャー認識機能を持つニューラルネットワークプロセッサ(チップ)である。
メモリ1002は、1つ又は複数のコンピュータ可読記憶媒体を含んでもよい。該コンピュータ可読記憶媒体は、有形で非一時的なものであってもよい。メモリ1002は、高速ランダムアクセスメモリ、及び不揮発性メモリを含んでもよい。例えば、1つ又は複数の磁気ディスク記憶装置、フラッシュ記憶装置を含む。幾つかの実施例において、メモリ1002における非一時的なコンピュータ可読記憶媒体は、少なくとも1つの命令を記憶するためのものである。該少なくとも1つの命令は、プロセッサ1001により実行され、本願の方法実施例で提供される手部キーポイント認識方法を実現させる。
幾つかの実施例において、手部キーポイント認識装置1000は、任意選択的に、外部装置インタフェース1003と、少なくとも1つの外部装置と、を備えてもよい。具体的に、外部装置は、無線周波数回路1004、タッチディスプレイ1005、カメラコンポーネント1006、オーディオ回路1007、位置決めコンポーネント1008及電源1009のうちの少なくとも1つを含む。
外部装置インタフェース1003は、I/O(Input /Output:入力/出力)に関わる少なくとも1つの外部装置をプロセッサ1001及びメモリ1002に接続するためのものであってもよい。幾つかの実施例において、プロセッサ1001、メモリ1002及び外部装置インタフェース1003は、同一のチップ又は回路基板に集積される。幾つかの他の実施例において、プロセッサ1001、メモリ1002及び外部装置インタフェース1003のうちのいずれか1つ又は2つは、単独のチップ又は回路基板上で実現されてもよく、本実施例はこれを限定するものではない。
無線周波数回路1004は、電磁信号とも呼ばれるRF(Radio Frequency:無線周波数)信号の受信及び送信に用いられる。無線周波数回路1004は電磁信号を経由して通信ネットワーク及び他の通信装置と通信する。無線周波数回路1004は、電気信号を電磁信号に変換して送信するか又は受信した電磁信号を電気信号に変換する。任意選択的に、無線周波数回路1004は、アンテナシステム、RF送受信機、1つ又は複数の増幅器、チューナ、発振器、デジタル信号プロセッサ、コーデックチップセット、加入者識別モジュールカードなどを含む。無線周波数回路1004は、少なくとも1つの無線通信プロトコルにより、他の端末と通信することができる。該無線通信プロトコルは、ワールドワイドウェブ、メトロエリアネットワーク、イントラネット、各世代の移動体通信ネットワーク(2G、3G、4G及び5G)、無線ローカルエリアネットワーク及び/又はWiFi(Wireless Fidelity:ワイヤレスフィデリティ)ネットワークを含むが、これらに限定されない。幾つかの実施例において、無線周波数回路1004は、NFC(Near Field Communication:近接場通信)に関わる回路を含んでもよく、本願は、これを限定するものではない。
ディスプレイ1005は、UI(User Interface:ユーザインタフェース)を表示するためのものである。該UIは、図形、テキスト、アイコン、ビデオ及びそれらの任意の組み合わせを含んでもよい。ディスプレイ1005がタッチディスプレイである場合、ディスプレイ1005は、ディスプレイ1005の表面又は表面の上方のタッチ信号を収集する能力を持つ。該タッチ信号は、制御信号としてプロセッサ1001に入力されて処理されてもよい。この場合、ディスプレイ1005は、ソフトボタン及び/又はソフトキーボードとも呼ばれる仮想ボタン及び/又は仮想キーボードを提供するためのものであってもよい。幾つかの実施例において、ディスプレイ1005は、1つであってもよく、手部キーポイント認識装置1000のフロントパネルに設けられる。別の幾つかの実施例において、ディスプレイ1005は少なくとも2つであってもよく、それぞれ手部キーポイント認識装置1000の異なった表面に設けられるか又は折り畳むように設けられる。また幾つかの実施例において、ディスプレイ1005は、フレキシブルディスプレイであってもよく、手部キーポイント認識装置1000の湾曲表面又は折り畳み面に設けられる。なお、ディスプレイ1005は、非矩形の不規則な画像に設けられてもよく、つまり、異形ディスプレイであってもよい。ディスプレイ1005として、LCD(Liquid Crystal Display:液晶ディスプレイ)、OLED(Organic Light−Emitting Diode:有機発光ダイオード)などの材質からなるものであってもよい。
カメラコンポーネント1006は、画像又はビデオの収集に用いられる。任意選択的に、カメラコンポーネント1006は、フロントカメラ及びリアカメラを備える。一般的に、フロントカメラは、ビデオ通話又は自撮りを実現させるためのものである。リアカメラは、写真又はビデオの撮影を実現させるためのものである。幾つかの実施例において、リアカメラは少なくとも2つであり、それぞれメインカメラ、デプスカメラ、広角カメラのうちのいずれか1つである。これにより、メインカメラとデプスカメラを組み合わせて背景ぼかし機能を実現させる。メインカメラと広角カメラを組み合わせてパノラマ撮影及びVR(Virtual Reality:仮想現実)撮影機能を実現させる。幾つかの実施例において、カメラコンポーネント1006は、フラッシュを含んでもよい。フラッシュは、単色フラッシュであってもよく、二色フラッシュであってもよい。二色フラッシュは、暖色光フラッシュと冷色光フラッシュとの組み合わせを指し、様々な色温度での光線補償に用いられる。
オーディオ回路1007は、ユーザと手部キーポイント認識装置1000とのオーディオインタフェースを提供するためのものである。オーディオ回路1007は、マイクロホン及びスピーカーを含んでもよい。マイクロホンは、ユーザ及び環境の音波を収集し、音波を電気信号に変換してプロセッサ1001に入力して処理するか、又は無線周波数回路1004に入力して音声通信を実現させる。ステレオ音響の収集又はノイズ低減を実現させるために、マイクロホンは、複数であってもよく、それぞれ手部キーポイント認識装置1000の様々な部位に設けられる。マイクロホンは、アレイマイクロホン又は全方向収集型マイクロホンであってもよい。スピーカーは、プロセッサ1001又は無線周波数回路1004からの電気信号を音波に変換するためのものである。スピーカーは、従来のフィルムスピーカーであってもよく、圧電セラミックススピーカーであってもよい。スピーカーは、圧電セラミックススピーカーである場合、電気信号を、人間にとって可聴な音波に変換することができるだけでなく、電気信号を、人間にとって不可聴な音波に変換して距離測定などの用途に適用することもできる。幾つかの実施例において、オーディオ回路1007は、イヤホンジャックを含んでもよい。
位置決めコンポーネント1008は、手部キーポイント認識装置1000の現在の地理的位置を位置決めし、ナビゲーション又はLBS(Location Based Service:ロケーションベースサービス)を実現させるためのものである。位置決めコンポーネント1008は、米国のGPS(Global Positioning System:全地球測位システム)、中国の北斗システム又はロシアのガリレオシステムに基づいた位置決めコンポーネントであってもよい。
電源1009は、手部キーポイント認識装置1000における各ユニットに給電するためのものである。電源1009は、交流電、直流電、使い捨て電池又は充電可能な電池であってもよい。電源1009が充電可能な電池を含む場合、該充電可能な電池は、有線充電電池又は無線充電電池であってもよい。有線充電電池は、有線回路により充電される電池であり、無線充電電池は、無線コイルにより充電される電池である。該充電可能な電池は、急速充電技術をサポートするものであってもよい。
幾つかの実施例において、手部キーポイント認識装置1000は、1つ又は複数のセンサ1010を更に備える。該1つ又は複数のセンサ1010は、加速度センサ1011、ジャイロセンサ1012、圧力センサ1013、指紋センサ1014、光学センサ1015及び近接センサ1016を含むが、これらに限定されない。
加速センサ1011は、手部キーポイント認識装置1000により確立された座標系の3つの座標軸における加速度の大きさを検出することができる。例えば、加速度センサ1011は、3つの座標軸における重力加速度の成分を検出することができる。プロセッサ1001は、加速度センサ1011により収集された重力加速度信号に基づいて、タッチディスプレイ1005を、横ビュー又は縦ビューによりユーザインタフェースの表示を行うように制御することができる。加速度センサ1011は、ゲーム又はユーザの運動データの収集にも用いられる。
ジャイロセンサ1012は、手部キーポイント認識装置1000の本体方向及び回転角度を検出することができる。ジャイロセンサ1012は、ユーザによる端末1800に対する3D動作を加速度センサ1011と協力して収集することができる。プロセッサ1001は、ジャイロセンサ1012により収集されたデータに基づいて、動作検知(例えば、ユーザによる傾斜操作に基づいてUIを変える)、撮影時の画像安定化、ゲーム制御及び慣性航法機能を実現させることができる。
圧力センサ1013は、手部キーポイント認識装置1000の側枠及び/又はタッチディスプレイ1005の下層に設けられてもよい。圧力センサ1013が端末1800の側枠に設けられる時、ユーザによる手部キーポイント認識装置1000に対する把持信号を検出することができる。プロセッサ1001は、圧力センサ1013により収集された把持信号に基づいて、左右手識別又はショートカット操作を行う。圧力センサ1013がタッチディスプレイ1005の下層に設けられる時、プロセッサ1001は、ユーザによるタッチディスプレイ1005に対する加圧操作に基づいて、UIインタフェースにおける操作可能なコントロールの制御を実現させる。操作可能なコントロールは、ボタンコントロール、スクロールバーコントロール、アイコンコントロール、メニューコントロールのうちの少なくとも1つを含む。
指紋センサ1014は、ユーザの指紋の収集に用いられる。収集された指紋に基づいて、ユーザの身分認証を行う。ユーザの身分が信頼できる身分であると判定した時、プロセッサ1001は、該ユーザによる関連機密操作の実行を許可する。該機密操作は、スクリーンアンロック、暗号化情報の確認、ソフトウェアダウンロード、支払い及び設定変更などを含む。指紋センサ1014は、手部キーポイント認識装置1000の正面、背面又は側面に設けられてもよい。手部キーポイント認識装置1000に物理的ボタン又はメーカーLogoが設けられた場合、指紋センサ1014は、物理的ボタン又はメーカーLogoと一体化されてもよい。
光学センサ1015は、環境光の強度の収集に用いられる。一実施例において、プロセッサ1001は、光学センサ1015により収集された環境光の強度に基づいて、タッチディスプレイ1005の表示輝度を制御することができる。具体的に、環境光の強度が高い時、タッチディスプレイ1005の表示輝度を高くする。環境光の強度が低い時、タッチディスプレイ1005の表示輝度を低くする。別の実施例において、プロセッサ1001は、光学センサ1015により収集された環境光の強度に基づいて、カメラコンポーネント1006の撮影パラメータを動的に調整することもできる。
近接センサ1016は、距離センサとも呼ばれ、一般的に、手部キーポイント認識装置1000の正面に設けられる。近接センサ1016は、ユーザと手部キーポイント認識装置1000の正面との距離の収集に用いられる。一実施例において、近接センサ1016は、ユーザと手部キーポイント認識装置1000の正面との距離が次第に小さくなることを検出した時、プロセッサ1001により、タッチディスプレイ1005をスクリーン点灯状態からスクリーン消灯状態に切り替えるように制御する。近接センサ1016は、ユーザと手部キーポイント認識装置1000の正面との距離が次第に大きくなることを検出した時、プロセッサ1001により、タッチディスプレイ1005をスクリーン消灯状態からスクリーン点灯状態に切り替えるように制御する。
図10に示した構造は、手部キーポイント認識装置1000を限定するものではなく、図示したものより多く又は少ないユニットをふくんでもよく、幾つかのユニットを組み合わせてもよく、様々なユニット配置を利用してもよいことは、当業者であれば理解されるべきである。
一実施例において、モデル訓練装置を提供する。該装置は、メモリと、プロセッサと、を備え、メモリに、コンピュータプログラムが記憶されており、コンピュータプログラムがプロセッサにより実行される場合、プロセッサに上記認識モデルの訓練方法の工程を実行させる。ここで、認識モデルの訓練方法の工程は、上記各実施例の認識モデルの訓練方法における工程であってもよい。
一実施例において、コンピュータ可読記憶媒体を提供する。該記憶媒体にコンピュータプログラムが記憶されており、コンピュータプログラムがプロセッサにより実行される場合、プロセッサに上記認識モデルの訓練方法の工程を実行させる。ここで、認識モデルの訓練方法の工程は、上記各実施例の認識モデルの訓練方法における工程であってもよい。
一実施例において、手部キーポイント認識装置を提供する。該装置は、メモリと、プロセッサと、を備え、メモリにコンピュータプログラムが記憶されており、コンピュータプログラムがプロセッサにより実行される場合、プロセッサに、上記認識方法の工程を実行させる。ここで、認識方法の工程は、上記各実施例の認識方法における工程であってもよい。
一実施例において、コンピュータ可読記憶媒体を提供する。該記憶媒体にコンピュータプログラムが記憶されており、コンピュータプログラムがプロセッサにより実行される場合、プロセッサに上記認識方法の工程を実行させる。ここで、認識方法の工程は、上記各実施例の認識方法における工程であってもよい。
任意選択的に、該コンピュータ可読記憶媒体は、読み出し専用メモリ(ROM:Read Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、ソリッドステートドライブ(SSD:Solid State Drives)又は光ディスク等を含んでもよい。ここで、ランダムアクセスメモリは、抵抗変化型ランダムアクセスメモリ(ReRAM: Resistance Random Access Memory)及びダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)を含んでもよい。上記本願の実施例の番号は、ただ、記述するためのものであり、実施例の優劣を意味しない。
1001 プロセッサ
1002 メモリ
1003 外部装置インタフェース
1004 無線周波数回路
1005 ディスプレイ
1006 カメラコンポーネント
1007 オーディオ回路
1008 位置決めコンポーネント
1009 電源
1010 センサ
1011 加速度センサ
1012 ジャイロセンサ
1013 圧力センサ
1014 指紋センサ
1015 光学センサ
1016 近接センサ
1610 変換モジュール
1620 第1抽出モジュール
1630 第1訓練モジュール
1710 収集モジュール
1720 第2抽出モジュール
1730 認識モジュール
1801 中央処理ユニット
1802 ランダムアクセスメモリ
1803 読み出し専用メモリ
1804 システムメモリ
1805 システムバス
1807 大容量記憶装置
1808 ディスプレイ
1809 入力装置
1810 入力/出力コントローラ
1811 ネットワークインタフェースユニット
1812 ネットワーク
1813 オペレーティングシステム
1814 アプリケーションプログラム
1815 他のプログラムモジュール

Claims (20)

  1. モデル訓練装置が実行する手部キーポイント認識モデルの訓練方法であって、
    Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するステップであって、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、ステップと、
    前記実模擬画像における手部画像を抽出するステップと、
    前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するステップであって、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、ステップと、を含むことを特徴とする、前記方法。
  2. 前記Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換する前に、前記方法は、
    サンプル実画像及び前記サンプル仮想画像に基づいて、前記Cycle−GANモデルを訓練するステップであって、前記サンプル実画像は、実際のシーンで収集された画像である、ステップを更に含むことを特徴とする
    請求項1に記載の方法。
  3. 前記サンプル実画像及び前記サンプル仮想画像に基づいて、前記Cycle−GANモデルを訓練するステップは、
    第1ジェネレーター及び第2ジェネレーターを構築するステップであって、前記第1ジェネレーターは、前記実模擬画像を生成するためのものであり、前記第2ジェネレーターは、仮想模擬画像を生成するためのものであり、前記仮想模擬画像は、前記サンプル仮想画像の画調を模倣するためのものである、ステップと、
    第1ディスクリミネーター及び第2ディスクリミネーターを構築するステップであって、前記第1ディスクリミネーターは、前記サンプル仮想画像と前記仮想模擬画像を判別するために用いられ、前記第2ディスクリミネーターは、前記サンプル実画像と前記実模擬画像を判別するために用いられる、ステップと、
    前記第1ジェネレーター、前記第2ジェネレーター、前記第1ディスクリミネーター及び前記第2ディスクリミネーターに基づいて、前記Cycle−GANモデルを構築するステップと、
    前記サンプル実画像及び前記サンプル仮想画像に基づいて、前記Cycle−GANモデルの損失を算出するステップであって、前記Cycle−GANモデルの損失に、ジェネレーター損失、ディスクリミネーター損失及びサイクル損失が含まれる、ステップと、
    前記Cycle−GANモデルの損失に基づいて、前記Cycle−GANモデルを逆訓練するステップと、を含むことを特徴とする
    請求項2に記載の方法。
  4. 前記Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するステップは、
    前記Cycle−GANモデルにおける前記第1ジェネレーターにより、前記サンプル仮想画像を前記実模擬画像に変換するステップを含むことを特徴とする
    請求項3に記載の方法。
  5. 前記実模擬画像における手部画像を抽出するステップは、
    前記実模擬画像をジェスチャー分割ニューラルネットワークに入力し、手部信頼領域を出力するステップであって、前記ジェスチャー分割ニューラルネットワークは、手部領域がラベリングされた画像に基づいて訓練を行うことで得られる、ステップと、
    前記手部信頼領域に基づいて、前記実模擬画像から手部画像を抽出するステップと、を含むことを特徴とする
    請求項1から4のうちいずれか一項に記載の方法。
  6. 前記ジェスチャー分割ニューラルネットワークは、n個層の畳み込み層及びn個層の逆畳み込み層を含み、n≧2であり、nは整数であり、
    前記実模擬画像をジェスチャー分割ニューラルネットワークに入力し、手部信頼領域を出力するステップは、
    前記n個層の畳み込み層により前記実模擬画像を処理し、前記実模擬画像に対応する中間特徴マップを得るステップと、
    前記n個層の逆畳み込み層により、前記中間特徴マップを処理し、前記実模擬画像に対応するターゲット特徴マップを得るステップと、
    前記ターゲット特徴マップに基づいて確率行列を生成するステップであって、前記確率行列は、前記実模擬画像における各画素点が手部である確率を表すためのものである、ステップと、
    前記確率行列に対して二値化処理を行い、前記手部領域に対応するヒートマップを出力するステップであって、前記ヒートマップは、前記実模擬画像における前記手部信頼領域を示すためのものである、ステップと、を含むことを特徴とする
    請求項5に記載の方法。
  7. 前記n個層の逆畳み込み層により、前記中間特徴マップを処理し、前記実模擬画像に対応するターゲット特徴マップを得ることは、
    第m層の逆畳み込み層から出力された特徴マップと第n−m層の畳み込み層から出力された特徴マップをスプライシングするステップであって、1≦m≦n−1である、ステップと、
    第m+1層の逆畳み込み層により、スプライシングされた特徴マップを処理するステップと、を含むことを特徴とする
    請求項6に記載の方法。
  8. 前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、前記手部キーポイント認識モデルを訓練するステップは、
    前記手部キーポイント認識モデルを構築するステップであって、前記手部キーポイント認識モデルに、二次元認識分岐及び三次元認識分岐が含まれ、前記二次元認識分岐は、i個層の二次元残差層と畳み込み層を含み、前記三次元認識分岐は、i個層の三次元残差層と全結合層を含み、また、最初のj個層の二次元残差層は、最初のj個層の三次元残差層と結合され、2≦j≦i−1であり、i及びjは整数である、ステップと、
    前記手部画像及び前記キーポイント座標に基づいて、前記手部キーポイント認識モデルの二次元認識損失及び三次元認識損失を算出するステップであって、前記二次元認識損失は、前記二次元認識分岐の認識損失であり、前記三次元認識損失は、前記三次元認識分岐の認識損失である、ステップと、
    前記二次元認識損失及び前記三次元認識損失に基づいて、前記手部キーポイント認識モデルを逆訓練するステップと、を含むことを特徴とする
    請求項1から4のうちいずれか一項に記載方法。
  9. 前記手部画像及び前記キーポイント座標に基づいて、前記手部キーポイント認識モデルの二次元認識損失及び三次元認識損失を算出するステップは、
    前記手部画像をそれぞれ前記二次元認識分岐及び前記三次元認識分岐に入力するステップと、
    第k層の二次元残差層から出力された特徴マップと第k層の三次元残差層から出力された特徴マップを加算するステップであって、1≦k≦j−1である、ステップと、
    加算された特徴マップを第k+1層の二次元残差層及び第k+1層の三次元残差層に入力するステップと、
    第j+1層から第i層の二次元残差層及び前記畳み込み層により、前記第j層の二次元残差層から出力された特徴マップを処理し、二次元認識結果を得るステップと、
    第j+1層から第i層の三次元残差層及び前記全結合層により、前記第j層の三次元残差層から出力された特徴マップを処理し、三次元認識結果を得るステップと、
    前記二次元認識結果及び前記キーポイント座標に基づいて前記二次元認識損失を算出するステップと、
    前記三次元認識結果及び前記キーポイント座標に基づいて前記三次元認識損失を算出ステップと、を含むことを特徴とする
    請求項8に記載の方法。
  10. 手部キーポイント認識装置が実行する手部キーポイント認識方法であって、
    実画像を収集するステップであって、前記実画像に、手部画像が含まれる、ステップと、
    前記実画像における前記手部画像を抽出するステップと、
    前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るステップであって、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる、ステップと、を含むことを特徴とする、前記方法。
  11. 手部キーポイント認識モデル訓練装置であって、
    Cycle−GANモデルにより、サンプル仮想画像を実模擬画像に変換するように構成される変換モジュールであって、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイント座標が含まれ、前記実模擬画像は、実際のシーンで収集された画像を模倣するためのものである、変換モジュールと、
    前記実模擬画像における手部画像を抽出するように構成される第1抽出モジュールと、
    前記実模擬画像における手部画像及び前記キーポイント座標に基づいて、手部キーポイント認識モデルを訓練するように構成される第1訓練モジュールであって、前記手部キーポイント認識モデルは、入力された実画像に基づいて、前記実画像における手部の手部キーポイント座標を出力するためのものである、第1訓練モジュールと、を備えることを特徴とする、前記装置。
  12. 前記装置は、
    サンプル実画像及び前記サンプル仮想画像に基づいて、前記Cycle−GANモデルを訓練するように構成される第2訓練モジュールを更に備え、前記サンプル実画像は、実際のシーンで収集された画像であることを特徴とする
    請求項11に記載の装置。
  13. 第2訓練モジュールは更に、第1ジェネレーター及び第2ジェネレーターを構築するように構成され、前記第1ジェネレーターは、前記実模擬画像を生成するためのものであり、前記第2ジェネレーターは、仮想模擬画像を生成するためのものであり、前記仮想模擬画像は、前記サンプル仮想画像の画調を模倣するためのものであり、前記第2訓練モジュールは更に、第1ディスクリミネーター及び第2ディスクリミネーターを構築するように構成され、前記第1ディスクリミネーターは、前記サンプル仮想画像と前記仮想模擬画像を判別するために用いられ、前記第2ディスクリミネーターは、サンプル実画像と前記実模擬画像を判別するために用いられ、前記第2訓練モジュールは更に、前記第1ジェネレーター、前記第2ジェネレーター、前記第1ディスクリミネーター及び前記第2ディスクリミネーターに基づいて、前記Cycle−GANモデルを構築し、前記サンプル実画像及び前記サンプル仮想画像に基づいて、前記Cycle−GANモデルの損失を算出するように構成され、前記Cycle−GANモデルの損失に、ジェネレーター損失、ディスクリミネーター損失及びサイクル損失が含まれ、前記第2訓練モジュールは更に、前記Cycle−GANモデルの損失に基づいて、前記Cycle−GANモデルを逆訓練するように構成されることを特徴とする
    請求項11に記載の装置。
  14. 前記変換モジュールは更に、前記Cycle−GANモデルにおける前記第1ジェネレーターにより、前記サンプル仮想画像を前記実模擬画像に変換するように構成されることを特徴とする
    請求項13に記載の装置。
  15. 前記第1抽出モジュールは更に、前記実模擬画像をジェスチャー分割ニューラルネットワークに入力し、手部信頼領域を出力するように構成され、前記ジェスチャー分割ニューラルネットワークは、手部領域がラベリングされた画像に基づいて訓練を行うことで得られ、前記第1抽出モジュールは更に、前記手部信頼領域に基づいて、前記実模擬画像から手部画像を抽出するように構成されることを特徴とする
    請求項11から14のうちいずれか一項に記載の装置。
  16. 前記ジェスチャー分割ニューラルネットワークは、n個層の畳み込み層及びn個層の逆畳み込み層を含み、n≧2であり、nは整数であり、前記第1抽出モジュールは更に、前記n個層の畳み込み層により前記実模擬画像を処理し、前記実模擬画像に対応する中間特徴マップを得て、前記n個層の逆畳み込み層により、前記中間特徴マップを処理し、前記実模擬画像に対応するターゲット特徴マップを得て、前記ターゲット特徴マップに基づいて確率行列を生成するように構成され、前記確率行列は、前記実模擬画像における各画素点が手部である確率を表すためのものであり、前記前記第1抽出モジュールは更に、前記確率行列に対して二値化処理を行い、前記手部領域に対応するヒートマップを出力するように構成され、前記ヒートマップは、前記実模擬画像における前記手部信頼領域を示すためのものであることを特徴とする
    請求項15に記載の装置。
  17. 手部キーポイント認識装置であって、
    実画像を収集するように構成される収集モジュールであって、前記実画像に、手部画像が含まれる、収集モジュールと、
    前記実画像における前記手部画像を抽出するように構成される第2抽出モジュールと、
    前記手部画像を手部キーポイント認識モデルに入力し、手部キーポイント座標を得るように構成される認識モジュールであって、前記手部キーポイント認識モデルは、実模擬画像及び前記実模擬画像における手部画像の三次元ラベリングデータに基づいて訓練されたものであり、前記実模擬画像は、Cycle−GANモデルにより、サンプル仮想画像に基づいて生成されたものであり、前記Cycle−GANモデルは、サンプル実画像及び前記サンプル仮想画像に基づいて訓練されて生成されたものであり、前記サンプル仮想画像は、三次元モデリングにより生成された画像であり、且つ、前記サンプル仮想画像に、手部キーポイントに対応するキーポイン座標が含まれる、認識モジュールと、を備えることを特徴とする、前記手部キーポイント認識装置。
  18. モデル訓練装置であって、前記モデル訓練装置は、プロセッサと、メモリと、を備え、前記メモリにコンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記プロセッサにより実行される場合、前記プロセッサに、請求項1から9のうちいずれか一項に記載の方法の工程を実行させることを特徴とする、前記モデル訓練装置。
  19. 手部キーポイント認識装置であって、前記手部キーポイント認識装置は、プロセッサと、メモリと、を備え、前記メモリにコンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記プロセッサにより実行される場合、前記プロセッサに、請求項10に記載の方法の工程を実行させることを特徴とする、前記手部キーポイント認識装置。
  20. コンピュータに、請求項1から9のうちいずれか一項に記載の方法、又は請求項10に記載の方法を実行させることを特徴とする、コンピュータプログラム。
JP2020558521A 2018-07-10 2019-06-10 手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラム Active JP7130057B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810752953.1A CN110163048B (zh) 2018-07-10 2018-07-10 手部关键点的识别模型训练方法、识别方法及设备
CN201810752953.1 2018-07-10
PCT/CN2019/090542 WO2020010979A1 (zh) 2018-07-10 2019-06-10 手部关键点的识别模型训练方法、识别方法及设备

Publications (2)

Publication Number Publication Date
JP2021518022A true JP2021518022A (ja) 2021-07-29
JP7130057B2 JP7130057B2 (ja) 2022-09-02

Family

ID=67645012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020558521A Active JP7130057B2 (ja) 2018-07-10 2019-06-10 手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US11989350B2 (ja)
EP (1) EP3742332B1 (ja)
JP (1) JP7130057B2 (ja)
CN (1) CN110163048B (ja)
WO (1) WO2020010979A1 (ja)

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102061408B1 (ko) * 2017-03-24 2019-12-31 (주)제이엘케이인스펙션 가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법
CN110490213B (zh) * 2017-09-11 2021-10-29 腾讯科技(深圳)有限公司 图像识别方法、装置及存储介质
CN108882025B (zh) * 2018-08-07 2019-12-10 北京字节跳动网络技术有限公司 视频帧处理方法和装置
CN110070063B (zh) * 2019-04-29 2020-06-30 北京字节跳动网络技术有限公司 目标对象的动作识别方法、装置和电子设备
KR20210030147A (ko) * 2019-09-09 2021-03-17 삼성전자주식회사 3d 렌더링 방법 및 장치
CN110705611B (zh) * 2019-09-17 2024-06-28 平安科技(深圳)有限公司 眼底图像样本扩展方法、装置、介质及电子设备
CN110930354B (zh) * 2019-10-09 2020-07-10 西安交通大学 用于图像大数据的平滑过渡的视频画面内容分析系统
CN112767300B (zh) * 2019-10-18 2024-07-09 宏达国际电子股份有限公司 自动生成手部的标注数据的方法和计算骨骼长度的方法
CN111222401B (zh) * 2019-11-14 2023-08-22 北京华捷艾米科技有限公司 一种手部关键点三维坐标的识别方法及装置
WO2021098543A1 (zh) * 2019-11-20 2021-05-27 Oppo广东移动通信有限公司 一种姿势识别方法及装置、存储介质
CN111062261B (zh) * 2019-11-25 2023-07-07 维沃移动通信(杭州)有限公司 一种图像处理方法及装置
CN110991319B (zh) * 2019-11-29 2021-10-19 广州市百果园信息技术有限公司 手部关键点检测方法、手势识别方法及相关装置
CN113033256B (zh) * 2019-12-24 2024-06-11 武汉Tcl集团工业研究院有限公司 一种指尖检测模型的训练方法和设备
CN111161239B (zh) * 2019-12-27 2024-02-27 上海联影智能医疗科技有限公司 医学图像分析方法、装置、存储介质及计算机设备
CN111222486B (zh) * 2020-01-15 2022-11-04 腾讯科技(深圳)有限公司 手部姿态识别模型的训练方法、装置、设备及存储介质
JP2022522551A (ja) 2020-02-03 2022-04-20 ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド 画像処理方法及び装置、電子機器並びに記憶媒体
CN111310616B (zh) * 2020-02-03 2023-11-28 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN111340694B (zh) * 2020-02-07 2023-10-27 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN111368668B (zh) * 2020-02-25 2023-05-23 北京字节跳动网络技术有限公司 三维手部识别方法、装置、电子设备及存储介质
CN112742031B (zh) * 2020-03-18 2022-08-02 腾讯科技(深圳)有限公司 模型训练方法、游戏测试方法、ai角色训练方法及装置
CN111462234B (zh) * 2020-03-27 2023-07-18 北京华捷艾米科技有限公司 一种位置确定方法及装置
CN113468924B (zh) * 2020-03-31 2024-06-18 北京沃东天骏信息技术有限公司 关键点检测模型训练方法和装置、关键点检测方法和装置
CN111488824B (zh) * 2020-04-09 2023-08-08 北京百度网讯科技有限公司 运动提示方法、装置、电子设备和存储介质
CN111401318B (zh) * 2020-04-14 2022-10-04 支付宝(杭州)信息技术有限公司 动作识别方法及装置
CN111832383B (zh) * 2020-05-08 2023-12-08 北京嘀嘀无限科技发展有限公司 姿态关键点识别模型的训练方法、姿态识别方法及装置
CN113674182B (zh) * 2020-05-15 2023-12-05 北京罗克维尔斯科技有限公司 图像的生成方法及装置
CN111598075B (zh) * 2020-05-25 2024-09-20 深圳前海微众银行股份有限公司 图片生成方法、设备及可读存储介质
CN111832612B (zh) * 2020-06-03 2023-06-23 北京百度网讯科技有限公司 动物识别模型的训练方法、装置、设备及存储介质
CN111695628B (zh) * 2020-06-11 2023-05-05 北京百度网讯科技有限公司 关键点标注方法、装置、电子设备及存储介质
CN111680758B (zh) * 2020-06-15 2024-03-05 杭州海康威视数字技术股份有限公司 图像训练样本生成方法和装置
CN111754478A (zh) * 2020-06-22 2020-10-09 怀光智能科技(武汉)有限公司 一种基于生成对抗网络的无监督域适应系统及方法
CN111783626B (zh) * 2020-06-29 2024-03-26 北京字节跳动网络技术有限公司 图像识别方法、装置、电子设备及存储介质
CN111862046B (zh) * 2020-07-21 2023-11-17 江苏省人民医院(南京医科大学第一附属医院) 一种心脏冠脉剪影中导管位置判别系统和方法
CN111967353B (zh) * 2020-07-31 2024-05-14 北京金山云网络技术有限公司 图片识别方法、装置、电子设备以及介质
CN114077891B (zh) * 2020-08-07 2024-10-15 北京达佳互联信息技术有限公司 风格转换模型的训练方法及虚拟建筑检测模型的训练方法
CN111985414B (zh) * 2020-08-21 2024-02-23 成都数字天空科技有限公司 一种关节点位置确定方法及装置
CN112115799B (zh) * 2020-08-24 2023-12-26 青岛小鸟看看科技有限公司 基于标记点的三维手势的识别方法、装置及设备
CN112101362A (zh) * 2020-08-25 2020-12-18 中国科学院空间应用工程与技术中心 用于空间科学实验数据的语义分割方法及系统
CN112115894B (zh) * 2020-09-24 2023-08-25 北京达佳互联信息技术有限公司 手部关键点检测模型的训练方法、装置及电子设备
CN112215112A (zh) * 2020-09-30 2021-01-12 幻境虚拟现实(广州)智能科技研究院有限公司 一种可用于手部动作识别的神经网络模型的生成方法和系统
CN112232183B (zh) * 2020-10-14 2023-04-28 抖音视界有限公司 虚拟佩戴物匹配方法、装置、电子设备和计算机可读介质
CN112256589B (zh) * 2020-11-11 2022-02-01 腾讯科技(深圳)有限公司 一种仿真模型的训练方法、点云数据的生成方法及装置
CN112330711B (zh) * 2020-11-26 2023-12-05 北京奇艺世纪科技有限公司 模型生成方法、信息提取方法、装置及电子设备
CN112561782B (zh) * 2020-12-15 2023-01-03 哈尔滨工程大学 一种提高海上场景仿真图片真实度的方法
CN114756115A (zh) * 2020-12-28 2022-07-15 阿里巴巴集团控股有限公司 交互控制方法、装置及设备
CN112767478B (zh) * 2021-01-08 2022-07-19 北京航空航天大学 一种基于表观指导的六自由度位姿估计方法
CN112699837A (zh) * 2021-01-13 2021-04-23 新大陆数字技术股份有限公司 一种基于深度学习的手势识别方法及设备
CN112836597B (zh) * 2021-01-15 2023-10-17 西北大学 基于级联并行卷积神经网络的多手姿态关键点估计方法
CN112905006B (zh) * 2021-01-21 2022-12-02 清华大学 基于物理仿真的虚拟现实人手交互方法和装置
CN113033300B (zh) * 2021-02-07 2022-11-08 广东省科学院智能制造研究所 一种基于计算机视觉的扶梯安全自动监控方法及系统
CN112818929B (zh) * 2021-02-26 2023-04-18 济南博观智能科技有限公司 一种人员斗殴检测方法、装置、电子设备及存储介质
CN113034361B (zh) * 2021-03-03 2022-10-14 深圳市数字城市工程研究中心 一种基于改进esrgan的遥感影像超分重建方法
CN115082978A (zh) * 2021-03-10 2022-09-20 佳能株式会社 面部姿态的检测装置、方法、图像处理系统及存储介质
CN112967180B (zh) * 2021-03-17 2023-12-22 福建库克智能科技有限公司 一种生成对抗网络的训练方法、图像风格转换方法和装置
CN113139441A (zh) * 2021-04-07 2021-07-20 青岛以萨数据技术有限公司 一种图像处理方法及系统
CN113192175A (zh) * 2021-04-14 2021-07-30 武汉联影智融医疗科技有限公司 模型训练方法、装置、计算机设备和可读存储介质
CN113111886B (zh) * 2021-04-19 2023-03-24 太原科技大学 一种基于双层残差网络的交通场景图像语义分割方法
CN113762969B (zh) * 2021-04-23 2023-08-08 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机设备和存储介质
CN113128520B (zh) * 2021-04-28 2022-11-11 北京市商汤科技开发有限公司 图像特征提取方法、目标重识别方法、装置及存储介质
CN113011403B (zh) * 2021-04-30 2023-11-24 恒睿(重庆)人工智能技术研究院有限公司 手势识别方法、系统、介质及设备
CN113238705A (zh) * 2021-05-10 2021-08-10 青岛小鸟看看科技有限公司 虚拟键盘交互方法及系统
CN113177606B (zh) * 2021-05-20 2023-11-28 上海商汤智能科技有限公司 图像处理方法、装置、设备及存储介质
CN113326755A (zh) * 2021-05-21 2021-08-31 华南理工大学 一种照明系统监测手部位置实现照明区域控制的方法
CN113077383B (zh) * 2021-06-07 2021-11-02 深圳追一科技有限公司 一种模型训练方法及模型训练装置
CN113610102A (zh) * 2021-06-23 2021-11-05 浙江大华技术股份有限公司 分割网络的训练及目标分割方法、相关设备
CN113487738B (zh) * 2021-06-24 2022-07-05 哈尔滨工程大学 基于虚拟知识迁移的建筑物及其遮挡区域单体化提取方法
CN113706463B (zh) * 2021-07-22 2024-04-26 杭州键嘉医疗科技股份有限公司 基于深度学习的关节影像关键点自动检测方法、装置
CN113706497B (zh) * 2021-08-24 2024-04-09 南京金盾公共安全技术研究院有限公司 一种违禁品智能识别装置和系统
CN113808184A (zh) * 2021-08-30 2021-12-17 中科尚易健康科技(北京)有限公司 基于点云识别的插值方法和装置、设备及存储介质
CN113723283A (zh) * 2021-08-30 2021-11-30 河南牧原智能科技有限公司 个体关键点检测模型获取方法、检测方法及系统
CN113869217A (zh) * 2021-09-29 2021-12-31 北京复数健康科技有限公司 一种用于获取图像识别数据的方法和系统
CN114066814A (zh) * 2021-10-19 2022-02-18 杭州易现先进科技有限公司 一种ar设备的手势3d关键点检测方法、电子设备
CN114185429B (zh) * 2021-11-11 2024-03-26 杭州易现先进科技有限公司 手势关键点定位或姿态估计的方法、电子装置和存储介质
CN114186632B (zh) * 2021-12-10 2023-04-18 北京百度网讯科技有限公司 关键点检测模型的训练方法、装置、设备、存储介质
CN114330433B (zh) * 2021-12-24 2023-05-05 南京理工大学 基于虚拟惯性测量信号生成模型的动作识别方法及系统
CN116453204B (zh) * 2022-01-05 2024-08-13 腾讯科技(深圳)有限公司 动作识别方法和装置、存储介质及电子设备
CN114882168B (zh) * 2022-04-08 2023-04-18 清华大学 一种基于视觉的触觉传感器的数字孪生方法及装置
CN115167673A (zh) * 2022-07-06 2022-10-11 中科传媒科技有限责任公司 虚拟手势同步的实现方法、装置、设备及存储介质
CN114973424A (zh) * 2022-08-01 2022-08-30 深圳市海清视讯科技有限公司 特征提取模型训练、手部动作识别方法、装置及电子设备
US20240193866A1 (en) * 2022-12-09 2024-06-13 Yannick VERDIE Methods and systems for 3d hand pose estimation from rgb images
CN116704427B (zh) * 2023-04-19 2024-01-26 广东建设职业技术学院 一种基于3d cnn循环施工过程监测方法
CN116148311B (zh) * 2023-04-24 2023-06-27 苏州太湖雪丝绸股份有限公司 一种纺织品接触凉感性能检测装置及其检测方法
CN116820251B (zh) * 2023-08-28 2023-11-07 中数元宇数字科技(上海)有限公司 一种手势轨迹交互方法、智能眼镜及存储介质
CN117420917B (zh) * 2023-12-19 2024-03-08 烟台大学 基于手部骨架的虚拟现实控制方法、系统、设备及介质
CN117807782B (zh) * 2023-12-29 2024-06-07 南京仁高隆软件科技有限公司 一种实现三维仿真模型的方法
CN117523645B (zh) * 2024-01-08 2024-03-22 深圳市宗匠科技有限公司 一种人脸关键点检测方法、装置、电子设备及存储介质
CN117908678B (zh) * 2024-01-19 2024-07-16 广州维启通讯科技有限公司 一种耳机及其充电盒显示屏的手势识别控制系统
CN118196910B (zh) * 2024-05-17 2024-07-26 江西求是高等研究院 一种手势交互方法、系统、计算机及存储介质
CN118379441B (zh) * 2024-06-27 2024-08-23 江西财经大学 面向真实场景的实时3d手部网格重建方法与系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017191576A (ja) * 2016-04-15 2017-10-19 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6147678A (en) * 1998-12-09 2000-11-14 Lucent Technologies Inc. Video hand image-three-dimensional computer interface with multiple degrees of freedom
TW201322058A (zh) * 2011-11-16 2013-06-01 Chunghwa Picture Tubes Ltd 手勢辨識系統及方法
EP2980728A1 (en) * 2014-08-01 2016-02-03 Imersivo, S.L. Procedure for identifying a hand gesture
US10078780B2 (en) * 2015-03-27 2018-09-18 Intel Corporation Gesture recognition mechanism
US10157309B2 (en) * 2016-01-14 2018-12-18 Nvidia Corporation Online detection and classification of dynamic gestures with recurrent convolutional neural networks
CN105787439B (zh) * 2016-02-04 2019-04-05 广州新节奏智能科技股份有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
KR101925907B1 (ko) * 2016-06-03 2019-02-26 (주)싸이언테크 신경망 생성 모델을 이용한 객체 움직임 패턴 학습장치 및 그 방법
US10916001B2 (en) * 2016-11-28 2021-02-09 Adobe Inc. Facilitating sketch to painting transformations
CN108133220A (zh) * 2016-11-30 2018-06-08 北京市商汤科技开发有限公司 模型训练、关键点定位及图像处理方法、系统及电子设备
CN108230232B (zh) 2016-12-21 2021-02-09 腾讯科技(深圳)有限公司 一种图像处理的方法以及相关装置
CN107168527B (zh) * 2017-04-25 2019-10-18 华南理工大学 基于区域卷积神经网络的第一视角手势识别与交互方法
CN107808143B (zh) * 2017-11-10 2021-06-01 西安电子科技大学 基于计算机视觉的动态手势识别方法
CN108229318A (zh) * 2017-11-28 2018-06-29 北京市商汤科技开发有限公司 手势识别和手势识别网络的训练方法及装置、设备、介质
CN108229324B (zh) * 2017-11-30 2021-01-26 北京市商汤科技开发有限公司 手势追踪方法和装置、电子设备、计算机存储介质
CN108256431B (zh) * 2017-12-20 2020-09-25 中车工业研究院有限公司 一种手部位置标识方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017191576A (ja) * 2016-04-15 2017-10-19 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FRANZISKA MUELLER ET AL.: "GANerated Hands for Real-Time 3D Hand Tracking from Monocular RGB", ARXIV, JPN6022000246, 4 December 2017 (2017-12-04), US, pages 1 - 13, ISSN: 0004680368 *
JUN-YAN ZHU ET AL., UNPAIRED IMAGE-TO-IMAGE TRANSLATION USING CYCLE-CONSISTENT ADVERSARIAL NETWORKS, JPN6022032708, 30 May 2017 (2017-05-30), US, pages 1 - 18, ISSN: 0004844362 *

Also Published As

Publication number Publication date
EP3742332B1 (en) 2023-06-28
CN110163048A (zh) 2019-08-23
US20200387698A1 (en) 2020-12-10
EP3742332A4 (en) 2021-08-18
WO2020010979A1 (zh) 2020-01-16
CN110163048B (zh) 2023-06-02
EP3742332A1 (en) 2020-11-25
JP7130057B2 (ja) 2022-09-02
US11989350B2 (en) 2024-05-21

Similar Documents

Publication Publication Date Title
JP7130057B2 (ja) 手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラム
CN109978989B (zh) 三维人脸模型生成方法、装置、计算机设备及存储介质
CN110348543B (zh) 眼底图像识别方法、装置、计算机设备及存储介质
CN110135336B (zh) 行人生成模型的训练方法、装置及存储介质
CN111091132B (zh) 基于人工智能的图像识别方法、装置、计算机设备及介质
US20220309836A1 (en) Ai-based face recognition method and apparatus, device, and medium
WO2020224479A1 (zh) 目标的位置获取方法、装置、计算机设备及存储介质
CN108594997A (zh) 手势骨架构建方法、装置、设备及存储介质
CN111476783B (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
EP4345777A1 (en) Living body detection method and apparatus, and training method and apparatus for living body detection system
CN112749613B (zh) 视频数据处理方法、装置、计算机设备及存储介质
CN112036331A (zh) 活体检测模型的训练方法、装置、设备及存储介质
CN114332530A (zh) 图像分类方法、装置、计算机设备及存储介质
CN111860485A (zh) 图像识别模型的训练方法、图像的识别方法、装置、设备
CN111192262A (zh) 基于人工智能的产品缺陷分类方法、装置、设备及介质
CN113705302A (zh) 图像生成模型的训练方法、装置、计算机设备及存储介质
CN113516143A (zh) 文本图像匹配方法、装置、计算机设备及存储介质
CN113821658A (zh) 对编码器进行训练的方法、装置、设备及存储介质
CN113763931B (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN113516723A (zh) 人脸图片加密方法、装置、计算机设备及存储介质
CN112528760A (zh) 图像处理方法、装置、计算机设备及介质
CN115578494B (zh) 中间帧的生成方法、装置、设备及存储介质
CN111753813A (zh) 图像处理方法、装置、设备及存储介质
CN115206305B (zh) 语义文本的生成方法、装置、电子设备及存储介质
CN111310701B (zh) 手势识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220823

R150 Certificate of patent or registration of utility model

Ref document number: 7130057

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150