JP2022503426A - 人体検出方法、装置、コンピュータ機器及び記憶媒体 - Google Patents

人体検出方法、装置、コンピュータ機器及び記憶媒体 Download PDF

Info

Publication number
JP2022503426A
JP2022503426A JP2020572391A JP2020572391A JP2022503426A JP 2022503426 A JP2022503426 A JP 2022503426A JP 2020572391 A JP2020572391 A JP 2020572391A JP 2020572391 A JP2020572391 A JP 2020572391A JP 2022503426 A JP2022503426 A JP 2022503426A
Authority
JP
Japan
Prior art keywords
contour
feature matrix
feature
skeleton
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020572391A
Other languages
English (en)
Other versions
JP7101829B2 (ja
Inventor
段浩▲東▼
▲劉▼文▲韜▼
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2022503426A publication Critical patent/JP2022503426A/ja
Application granted granted Critical
Publication of JP7101829B2 publication Critical patent/JP7101829B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/033Recognition of patterns in medical or anatomical images of skeletal patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2022503426000001
本願は、人体検出方法、装置、コンピュータ機器及び記憶媒体を提供する。該方法は、検出対象画像を取得することと、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することと、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成することと、を含む。本願の実施例は、検出対象画像から、人体骨格構造を示すための骨格キーポイントの位置情報、人体輪郭を示すための輪郭キーポイントの位置情報を決定し、骨格キーポイントの位置情報、輪郭キーポイントの位置情報に基づいて、人体検出結果を生成し、表現精細度の向上と、演算データ量と、を両立させることができる。

Description

本願は、画像処理技術分野に関し、具体的には、人体検出方法、装置、コンピュータ機器並びに記憶媒体に関する。
ニューラルネットワークが画像、映像、音声、テキストなどの分野に適用されることに伴い、ユーザによりニューラルネットワークに基づいた様々なモデルの精度に求められる要求がますます高くなる。ニューラルネットワークの重要な適用シーンとして、画像において人体検出を行うことであり、人体検出の精細度及び演算データ量に対する要求が高い。
本願の実施例の目的は、人体検出方法、装置、コンピュータ機器並びに記憶媒体を提供することである。
第1態様によれば、本願の実施例は、人体検出方法を提供する。前記方法は、検出対象画像を取得することと、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することと、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成することと、を含む。
本願の実施例は、検出対象画像から、人体骨格構造を示すための骨格キーポイントの位置情報、人体輪郭を示すための輪郭キーポイントの位置情報を決定し、骨格キーポイントの位置情報、輪郭キーポイントの位置情報に基づいて、人体検出結果を生成し、表現精細度の向上と、演算データ量と、を両立させることができる。
また、本願の実施形態において、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を利用して、人体検出結果を得るため、人体を表すための情報は、より豊富で、画像編集、人体体型調整などのような、より広くシーンに適用する。
任意選択的な実施形態において、前記輪郭キーポイントは、主輪郭キーポイント及び補助輪郭キーポイントを含み、ここで、2つの隣接する前記主輪郭キーポイントの間に、少なくとも1つの補助輪郭キーポイントが存在する。
該実施形態において、主輪郭キーポイントの位置情報及び補助輪郭キーポイントの位置情報により、人体輪郭を表すことで、人体輪郭の識別の精度を一層高くし、情報量をより豊富にする。
任意選択的な実施形態において、前記検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、前記検出対象画像に基づいて、前記主輪郭キーポイントの位置情報を決定することと、前記主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定することと、決定された前記人体輪郭情報に基づいて、複数の前記補助輪郭キーポイントの位置情報を決定することと、を含む。
該実施形態において、主輪郭キーポイントの位置情報、及び補助輪郭キーポイントの位置情報をより正確に位置決めすることができる。
任意選択的な実施形態において、前記人体検出結果は、骨格キーポイントマーク及び輪郭キーポイントマークが付加された検出対象画像、前記骨格キーポイントの位置情報及び前記輪郭キーポイントの位置情報を含むデータ群のうちの1つ又は複数を含む。
該実施形態において、骨格キーポイントマーク及び輪郭キーポイントマークを含む検出対象画像は、より直感的な視覚的イメージを人々に与えることができる。骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を含むデータ群は、後続の処理をより容易にする。
任意選択的な実施形態において、該方法は、前記人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集及び人体画像の貼り付けのうちの1つ又は複数を実行することを更に含む。
該実施形態において、表現精細度がより高くて演算データ量がより少ない人体検出結果に基づいて、より高い精度及びより速い速度でより多くの操作を実現させることができる。
任意選択的な実施形態において、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことと、特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定することと、を含む。
該実施形態において、検出対象画像に対して特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、それによって、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を得ることができる。該方法で得られた人体検出結果によれば、より少ないデータ量で人体を表すことができるだけでなく、人体を表すための人体の骨格特徴及び輪郭特徴を抽出することもでき、表現精細度の向上も両立させる。
任意選択的な実施形態において、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことは、前記検出対象画像に基づいて、少なくとも1回の特徴抽出を行い、特徴抽出を行うたびに得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことであって、複数回の特徴抽出を行う場合、i回目の特徴融合の特徴融合結果に基づいてi+1回目の特徴抽出を行い、iは正整数である、ことを含み、特徴融合結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定することを含む。
該実施形態において、検出対象画像に対して少なくとも1回の特徴抽出を行い、特徴抽出を行うたびに得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことで、位置関連関係を有する骨格特徴点及び輪郭特徴点を相互補正することができる。最終的に得られた骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報に、より高い精度を持たせることができる。
任意選択的な実施形態において、前記検出対象画像に基づいて、少なくとも1回の特徴抽出を行うことは、1回目の特徴抽出において、事前訓練された第1特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出することと、i+1回の特徴抽出において、事前訓練された第2特徴抽出ネットワークを用いて、i回目の特徴融合の特徴融合結果から、前記第1ターゲット骨格特徴行列、及び前記第1ターゲット輪郭特徴行列を抽出することと、を含み、第1特徴抽出ネットワークのネットワークパラメータは、第2特徴抽出ネットワークのネットワークパラメータと異なり、且つ特徴抽出のたびに用いられる第2特徴抽出ネットワークのネットワークパラメータは異なる。
該実施例において、骨格特徴と輪郭特徴に対して少なくとも1回の抽出及び少なくとも1回の融合を行うことで、最終的に得られた骨格キーポイントの位置情報及び輪郭キーポイントの位置情報は、より高い精度を有する。
任意選択的な実施形態において、抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことは、事前訓練された特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることであって、前記第2ターゲット骨格特徴行列は、三次元骨格特徴行列であり、該三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、前記二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が、対応する骨格キーポイントに属する確率を表し、前記第2ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、該三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、前記二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表し、特徴融合のたびに用いられる特徴融合ニューラルネットワークのネットワークパラメータは異なる、ことを含む。
該実施形態において、事前訓練された特徴融合ネットワークに基づいて骨格特徴及び輪郭特徴を融合することで、より良好な特徴融合結果を得ることができる。最終的に得られた骨格キーポイントの位置情報及び輪郭キーポイントの位置情報に、より高い精度を持たせることができる。
任意選択的な実施形態において、最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定することは、最終回の特徴融合で得られた第2ターゲット骨格特徴行列に基づいて、前記骨格キーポイントの位置情報を決定することと、最終回の特徴融合で得られた第2ターゲット輪郭特徴行列に基づいて、前記輪郭キーポイントの位置情報を決定することと、を含む。
該実施形態において、少なくとも1回の特徴抽出及び特徴融合により、最終的に得られた骨格キーポイントの位置情報及び輪郭キーポイントの位置情報に、より高い精度を持たせる。
任意選択的な実施形態において、前記第1特徴抽出ネットワークは、共通特徴抽出ネットワーク、第1骨格特徴抽出ネットワーク及び第1輪郭特徴抽出ネットワークを含み、第1特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出することは、前記共通特徴抽出ネットワークを用いて、前記検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得ることと、前記第1骨格特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第1骨格特徴行列を得て、前記第1骨格特徴抽出ネットワークにおける第1ターゲット畳み込み層から、第2骨格特徴行列を取得し、前記第1骨格特徴行列及び前記第2骨格特徴行列に基づいて、前記第1ターゲット骨格特徴行列を得ることであって、前記第1ターゲット畳み込み層は、前記第1骨格特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層である、ことと、前記第1輪郭特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第1輪郭特徴行列を得て、前記第1輪郭特徴抽出ネットワークにおける第2ターゲット畳み込み層から、第2輪郭特徴行列を取得し、前記第1輪郭特徴行列及び前記第2輪郭特徴行列に基づいて、前記第1ターゲット輪郭特徴行列を得ることであって、前記第2ターゲット畳み込み層は、前記第1輪郭特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層である、ことと、を含む。
該実施形態において、共通特徴抽出ネットワークを用いて、骨格特徴及び輪郭特徴を抽出し、検出対象画像における、骨格特徴及び輪郭特徴以下のほかの特徴を除去した後、第1骨格特徴抽出ネットワークを用いて、骨格特徴を意図的に抽出し、第1輪郭特徴抽出ネットワークを用いて、輪郭特徴を意図的に抽出する。従って、必要な演算量がより少ない。
任意選択的な実施形態において、第1骨格特徴行列及び前記第2骨格特徴行列に基づいて、前記第1ターゲット骨格特徴行列を得ることは、前記第1骨格特徴行列及び前記第2骨格特徴行列に対して連結処理を行い、第1連結骨格特徴行列を得ることと、前記第1連結骨格特徴行列を次元変換処理し、前記第1ターゲット骨格特徴行列を得ることと、を含み、前記第1輪郭特徴行列及び前記第2輪郭特徴行列に基づいて、前記第1ターゲット輪郭特徴行列を得ることは、前記第1輪郭特徴行列及び前記第2輪郭特徴行列に対して連結処理を行い、第1連結輪郭特徴行列を得ることと、前記第1連結輪郭特徴行列を次元変換処理し、前記ターゲット輪郭特徴行列を得ることと、を含み、前記第1ターゲット骨格特徴行列の次元は、前記第1ターゲット輪郭特徴行列の次元と同じであり、且つ前記第1ターゲット骨格特徴行列と前記第1ターゲット輪郭特徴行列は、同一の次元における次元数が同じである。
該実施形態において、第1骨格特徴行列及び前記第2骨格特徴行列に対して連結処理を行うことで、第1ターゲット骨格特徴行列に、より豊富な骨格特徴情報を持たせる。それと同時に、第1輪郭特徴行列及び前記第2輪郭特徴行列に対して連結処理を行い、第1ターゲット輪郭特徴行列に、より豊富な骨格特徴情報を持たせる。後続の特徴融合過程において、より高い精度で、骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を抽出することができる。
任意選択的な実施形態において、前記特徴融合ニューラルネットワークは、第1畳み込みニューラルネットワーク、第2畳み込みニューラルネットワーク、第1変換ニューラルネットワーク及び第2変換ニューラルネットワークを含み、特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることは、前記第1畳み込みニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列に対して畳み込み処理を行い、第1中間骨格特徴行列を得て、前記第2畳み込みニューラルネットワークを用いて、前記第1ターゲット輪郭特徴行列に対して畳み込み処理を行い、第1中間輪郭特徴行列を得ることと、前記第1中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、第1連結特徴行列を得て、前記第1変換ニューラルネットワークを用いて、前記第1連結特徴行列に対して次元変換を行い、前記第2ターゲット骨格特徴行列を得ることと、前記第1中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第2連結特徴行列を得て、前記第2変換ニューラルネットワークを用いて、前記第2連結特徴行列に対して次元変換を行い、前記第2ターゲット輪郭特徴行列を得ることと、を含む。
該実施形態において、前記第1中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、連結処理結果に基づいて、第2ターゲット骨格特徴行列を得ることで、骨格特徴及び輪郭特徴を融合し、輪郭特徴を用いて、抽出された骨格特徴を補正することを実現させる。また、前記第1中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、連結処理結果に基づいて、第2ターゲット輪郭特徴行列を得ることで、骨格特徴及び輪郭特徴を融合し、骨格特徴を用いて、抽出された輪郭特徴を補正することを実現させる。更に、より高い精度で、骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報を抽出することができる。
任意選択的な実施形態において、前記特徴融合ニューラルネットワークは、第1定向畳み込みニューラルネットワーク、第2定向畳み込みニューラルネットワーク、第3畳み込みニューラルネットワーク、第4畳み込みニューラルネットワーク、第3変換ニューラルネットワーク、及び第4変換ニューラルネットワークを含み、特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることは、前記第1定向畳み込みニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列に対して、定向畳み込み処理を行い、第1定向骨格特徴行列を得て、第3畳み込みニューラルネットワークを用いて、前記第1定向骨格特徴行列に対して畳み込み処理を行い、第2中間骨格特徴行列を得ることと、前記第2定向畳み込みニューラルネットワークを用いて、前記第1ターゲット輪郭特徴行列に対して、定向畳み込み処理を行い、第1定向輪郭特徴行列を得て、第4畳み込みニューラルネットワークを用いて、前記第1定向輪郭特徴に対して、畳み込み処理を行い、第2中間輪郭特徴行列を得ることと、前記第2中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、第3連結特徴行列を得て、第3変換ニューラルネットワークを用いて、前記第3連結特徴行列に対して次元変換を行い、前記第2ターゲット骨格特徴行列を得ることと、前記第2中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第4連結特徴行列を得て、第4変換ニューラルネットワークを用いて、前記第4連結特徴行列に対して次元変換を行い、前記第2ターゲット輪郭特徴行列を得ることと、を含む。
該実施形態において、定向畳み込みの方式により、特徴を融合処理することで、より高い精度で、骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を抽出することができる。
任意選択的な実施形態において、前記特徴融合ニューラルネットワークは、変位推定ニューラルネットワーク、第5変換ニューラルネットワークを含み、特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることは、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第5連結特徴行列を得ることと、前記第5連結特徴行列を前記変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの1つのキーポイントがもう1つのキーポイントまでに移動する変位情報を得て、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとし、該現在のキーポイントのペアであるもう1つのキーポイントに対応する三次元特徴行列から、前記ペアであるもう1つのキーポイントに対応する二次元特徴行列を得ることと、前記ペアであるもう1つのキーポイントから前記現在のキーポイントまでの変位情報に基づいて、前記ペアであるもう1つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応する変位特徴行列を得ることと、各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と、該骨格キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を前記第5変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第2ターゲット骨格特徴行列を生成することと、各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と、該輪郭キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を前記第5変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第2ターゲット輪郭特徴行列を生成することと、を含む。
該実施形態において、骨格キーポイント及び輪郭キーポイントに対して変位変換を行うことで特徴融合を実現させる。従って、より高い精度で、骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を抽出することができる。
任意選択的な実施形態において、前記人体検出方法は、人体検出モデルにより実現され、前記人体検出モデルは、前記第1特徴抽出ネットワーク及び/又は前記特徴融合ニューラルネットワークを含み、前記人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、前記サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報、及び人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされている。
該実施形態において、該訓練方法で得られた人体検出モデルは、より高い検出精度を持ち、該人体検出モデルによれば、表現精細度と演算データ量を両立させる人体検出結果を得ることができる。
第2態様によれば、本願の実施例は、人体検出装置を更に提供する。前記装置は、検出対象画像を取得するように構成される取得モジュールと、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成される検出モジュールと、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成するように構成される生成モジュールと、を備える。
第3態様によれば、本願の実施例は、コンピュータ機器を更に提供する。前記コンピュータ機器は、プロセッサと、非一時的記憶媒体と、バスと、を備え、前記非一時的記憶媒体に、前記プロセッサによる実行可能な機器可読命令が記憶されており、コンピュータ機器が運転される場合、前記プロセッサと前記記憶媒体とは、バスを介して通信し、前記機器可読命令が前記プロセッサにより実行される場合、上記第1態様又は第1態様におけるいずれか1つの可能な実施形態における工程を実行する。
第4態様によれば、本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される場合、上記第1態様又は第1態様におけるいずれか1つの可能な実施形態における工程を実行する。
本願の実施例は、検出対象画像から、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定し、骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報に基づいて、人体検出結果を生成する。表現精細度の向上と演算データ量を両立させる。
本願の上記目的、特徴及び利点を明確かつ分かりやすくするために、以下、好適な実施例を挙げて、添付図面を参照しながら、以下のように、詳しく説明する。
本願の実施例による人体検出方法を示すフローチャートである。 本願の実施例による輪郭キーポイント及び骨格キーポイントの位置の例を示す。 本願の実施例による主輪郭キーポイント及び補助輪郭キーポイントの位置の例を示す。 本願の実施例によるもう1つの主輪郭キーポイント及び補助輪郭キーポイントの位置の例を示す。 本願の実施例によるもう1つの主輪郭キーポイント及び補助輪郭キーポイントの位置の例を示す。 本願の実施例による第1特徴抽出ネットワークの構造を示す概略図である。 本願の実施例による特徴抽出方法を示すフローチャートである。 本願の実施例による特徴融合ネットワークの構造を示す概略図である。 本願の実施例による特徴融合方法を示すフローチャートである。 本願の実施例によるもう1つの特徴融合ネットワークの構造を示す概略図である。 本願の実施例によるもう1つの特徴融合方法を示すフローチャートである。 本願の実施例による散乱畳み込み演算子を用いて反復更新を行う過程を示す概略図である。 本願の実施例による集約畳み込み演算子を用いて反復更新を行う過程を示す概略図である。 本願の実施例によるもう1つの特徴融合ネットワークの構造を示す概略図である。 本願の実施例によるもう1つの特徴融合方法を示すフローチャートである。 本願の実施例による骨格キーポイント及び輪郭キーポイントの例を示す。 本願の実施例による二次元特徴行列における要素に対する変位変換の具体的な例を示す。 本願の実施例による第2特徴抽出ネットワークの構造を示す概略図である。 本願の実施例による人体検出装置を示す概略図である。 本願の実施例によるコンピュータ機器を示す概略図である。
本願の実施例の技術的解決手段をより明確に説明するために、以下、実施例に必要な図面を簡単に説明する。下記図面は、説明のみの目的で本願の幾つかの実施形態を図示しており、本願を制限するものではないことが理解されるべきである。当業者は、創造的労働を行わない前提で、これらの図面に基づいてその他の関連する図面を得ることもできる。図面において、同一又は類似した符号は、同一の要素又は均等な要素を表す。1つの符号が1つの図面において定義されていると、後続の図面において、これに対して定義及び説明を行う必要がない。
本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、本願の実施例における具体的な技術的解決手段をを明瞭かつ完全に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本出願の一部の実施例である。一般的には、図面に説明されて示されている本願の実施例のユニットは、多岐にわたる異なる構成で配置及び設計することができる。従って、図面を参照しながら提供される本願の実施例の下記詳細な説明は、特許請求されている本願の範囲を限定するものではなく、本願の実施例を示すためのものに過ぎない。本願の実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本願の保護の範囲に含まれる。
検討によれば、人体検出を行う時に、一般的には、骨格キーポイント検出法及びセマンティックセグメンテーション法という2つの方式がある。
骨格キーポイント検出法について、該方法において、ニューラルネットワークモデルにより、画像から、人体の骨格キーポイントを抽出し、骨格キーポイントに基づいて、対応する人体検出結果を得る。該人体検出方法において、簡略な人体表現方法を用いるため、データ量がより少ない。従って、該方法で得られた人体検出結果に基づいて他の後続処理を行う場合、必要な演算量も少ない。例えば、挙動検出、人体姿勢に基づいたマンマシンインタラクションなどのような人体姿勢、動作認識などの分野に広く適用される。しかし、該方法は、人体の輪郭情報を抽出できないため、得られた人体検出結果の表現精細度が低い。
セマンティックセグメンテーション法について、該方法において、セマンティックセグメンテーションモデルにより、画像における各画素点が人体に属する確率を識別し、画像における各画素点が人体に属する確率に基づいて、人体検出結果を得ることができるが、該人体検出方法によれば、人体の輪郭情報を完全に得ることができるが、人体認識結果に含まれる演算データ量が大きい。
従って、表現精細度と演算データ量を両立させることができる早急に解決しなければならない課題である。
上記検討によれば、本願は、人体検出方法、装置、コンピュータ機器及び記憶媒体を提供し、検出対象画像に対して特徴抽出を行い、人体の骨格特徴及び輪郭特徴を得て、抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、それによって、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を得ることができる。該方法で得られた人体検出結果は、データ量がより少なく、人体の骨格特徴及び輪郭特徴を反映すると共に、表現精細度の向上も実現させる。
また、本願の実施例において、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を用いて、人体検出結果を得るため、人体を表す情報がより豊富であり、適用シーンがより広い。
従来の人体検出方式における欠点に対して、繰り返した実践及び鋭意検討を行う必要がある。従って、既存の課題のマイニング及び本願で提供される解決手段は、いずれも本願の範囲内に含まれる。
以下、本願の実施例による人体検出方法を詳しく説明する。該人体検出方法は、例えば、コンピュータのような、データ処理能力を有するいかなる装置に適用可能である。
図1は、本願の実施例による人体検出方法を示すフローチャートである。ここで、
S101において、検出対象画像を取得する。
S102において、検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定する。
S103において、骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報に基づいて、人体検出結果を生成する。
以下、上記S101~S103についてそれぞれ説明する。
I:上記S101において、検出対象画像は、例えば、ターゲット位置に取り付けられたカメラにより撮られた検出対象画像、ほかのコンピュータ機器から送信された検出対象画像、ローカルデータベースから読み出された事前記憶した検出対象画像等であってもよい。検出対象画像には、人体画像が含まれてもよく、人体画像が含まれなくてもよい。検出対象画像に人体画像が含まれる場合、本願の実施例で提供される人体検出方法により、最終的な人体検出結果を得ることができる。検出対象画像に人体画像が含まれない場合、得られた人体検出結果は、例えば、殻である。
II:上記S102において、図2aに示すように、骨格キーポイントは、人体の骨格特徴を表すために用いられる。該骨格特徴は、人体の関節部位の特徴を含む。関節は、例えば、肘関節、手首関節、肩関節、頸関節、股関節、膝関節、足首関節等である。例示的には、人体の頭部に骨格キーポイントを設けてもよい。
輪郭キーポイントは、人体の輪郭特徴を表すために用いられる。それは、図2aに示すように、主輪郭キーポイントを含んでもよく、又は図2b~図2dに示すように、主輪郭キーポイント及び補助輪郭キーポイントを含んでもよい。ここで、図2b~図2dは、図2aにおける枠内の部位の部分図である。
ここで、主輪郭キーポイントは、人体関節部位輪郭を示すための輪郭キーポイントであり、図2aに示すように、例えば、肘関節の輪郭、手首関節の輪郭、肩関節の輪郭、頸関節の輪郭、股関節の輪郭、膝関節の輪郭、足首関節の輪郭などが挙げられる。それは、一般的には、対応する関節部位の骨格キーポイントに対応する。
補助輪郭キーポイントは、人体関節部位間の輪郭を示すための輪郭キーポイントである。2つの隣接する主輪郭キーポイント間の補助輪郭キーポイントは、少なくとも1つがある。例えば、図2bに示す例において、2つの主輪郭キーポイント間の補助輪郭キーポイントは、1つである。図2cに示す例において、2つの主輪郭キーポイント間の補助輪郭キーポイントは、2つがある。図2dに示す例において、2つの主輪郭キーポイント間の補助輪郭キーポイントは、3つがある。
上記図面及び記述的説明に係る骨格キーポイント及び輪郭キーポイントは、本願を理解しやすくするための例だけである。実際の適用において、実際のシーンに応じて骨格キーポイント及び輪郭キーポイントの数及び位置を適当に調整することができる。本願は、これを限定するものではない。
輪郭キーポイントが主輪郭キーポイント及び補助輪郭キーポイントを含む場合について、下記方式で、検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定することができる。
検出対象画像に基づいて、主輪郭キーポイントの位置情報を決定し、主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定し、決定された人体輪郭情報に基づいて、複数の補助輪郭キーポイントの位置情報を決定する。
輪郭キーポイントが主輪郭キーポイントを含む場合、検出対象画像に基づいて、主輪郭キーポイントの位置情報を直接的に決定すればよい。
本願の実施例は、検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定する具体的な方法を提供する。
検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、特徴融合結果に基づいて、骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報を決定する。
検出対象画像に基づいて、骨格特徴及び輪郭特徴を抽出する時に、下記A又はBのうちのいずれか1つを用いてもよいが、これらに限定されない。
Aにおいて、検出対象画像に対して、一回の特徴抽出を行い、該特徴抽出で得られた骨格特徴及び輪郭特徴に対して特徴融合を行う。
Bにおいて、検出対象画像に対して、複数回の特徴抽出を行い、毎回の特徴抽出を行った後、該特徴抽出で得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、最終回の特徴融合の特徴融合結果に基づいて、骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報を決定する。
以下、まずAを具体的に説明する。
Aの場合、該特徴融合の特徴融合結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報及び人体輪郭を示すための輪郭キーポイントの位置情報を決定する。
以下、a1及びa2において、特徴抽出過程及び特徴融合過程をそれぞれ説明する。
a1:特徴抽出過程:
事前訓練された第1特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出することができる。
具体的には、図3に示すように、本願の実施例は、第1特徴抽出ネットワークの構造を示す概略図を提供する。第1特徴抽出ネットワークは、共通特徴抽出ネットワーク、第1骨格特徴抽出ネットワーク及び第1輪郭特徴抽出ネットワークを含む。
図4に示すように、本願の実施例は、図3で提供される第1特徴抽出ネットワークにより、検出対象画像から、第1ターゲット骨格特徴行列及び第1ターゲット輪郭特徴行列を抽出する具体的な過程を更に提供する。それは、下記ステップを含む。
S401において、共通特徴抽出ネットワークを用いて、検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得る。
具体的な実施において、検出対象画像は、画像行列として表すことが可能である。検出対象画像は、例えば、グレースケール画像のような単一色チャネル画像である場合、二次元画像行列として表れることが可能である。二次元画像行列における各要素は、検出対象画像の画素点に一対一に対応する。二次元画像行列における各要素の値は、各要素に対応する画素点の画素値である。検出対象画像は、例えば、RGB形式の画像のような多色チャネル画像である場合、三次元画像行列として表れることが可能である。三次元画像行列において、異なる色(例えば、R、G、B)チャネルに一対一に対応する3つの二次元画像行列が含まれる。いずれか1つの二次元画像行列における各要素の値は、対応する色チャネルでの、各要素に対応する画素点の画素値である。
共通特徴抽出ネットワークは、少なくとも1つの畳み込み層を含む。検出対象画像の画像行列を共通特徴抽出ネットワークに入力した後、共通特徴抽出ネットワークを用いて検出対象画像の画像行列に対して畳み込み処理を行い、検出対象画像における特徴を抽出する。この場合において、抽出された特徴は、骨格特徴を含むだけでなく、輪郭特徴も含む。
S402において、第1骨格特徴抽出ネットワークを用いて、基礎特徴行列に対して畳み込み処理を行い、第1骨格特徴行列を得て、前記第1骨格特徴抽出ネットワークにおける第1ターゲット畳み込み層から、第2骨格特徴行列を取得し、第1骨格特徴行列及び第2骨格特徴行列に基づいて、第1ターゲット骨格特徴行列を得て、第1ターゲット畳み込み層は、第1骨格特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層である。
具体的な実施において、第1骨格特徴抽出ネットワークは、複数の畳み込み層を含む。複数の畳み込み層は、順に接続され、下位層の畳み込み層の入力は、上位層の畳み込み層の出力である。このような構造を有する第1骨格特徴抽出ネットワークは、基礎特徴行列に対して複数回の畳み込み処理を行い、最後の畳み込み層から、第1骨格特徴行列を得ることができる。ここで、第1骨格特徴行列は、三次元特徴行列であり、該三次元特徴行列において、複数の二次元特徴行列が含まれ、且つ、各二次元特徴行列は、事前決定された複数の骨格キーポイントに一対一に対応する。1つの骨格キーポイントに対応する二次元特徴行列における要素の値は、該要素に対応する画素点が該骨格キーポイントに属する確率を表し、1つの要素に対応する画素点は、一般的には複数である。
また、複数の畳み込み層により、基礎特徴行列に対して複数回の畳み込み処理を行うことで、基礎特徴行列から、人体の骨格特徴を抽出できるが、畳み込み回数の増加に伴い、検出対象画像におけるいくつかの情報が損失される。これらの情報には、人体の骨格特徴に関わる情報が含まれる可能性がある。検出対象画像における損失された情報が多すぎると、最終的に得られた、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列は、十分に正確でないことがある。従って、本願の実施例において、また、第1骨格特徴抽出ネットワークの第1ターゲット畳み込み層から、第2骨格特徴行列を取得し、第1骨格特徴行列及び第2骨格特徴行列に基づいて、第1ターゲット骨格特徴行列を得る。
ここで、第1ターゲット畳み込み層は、第1骨格特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層である。図3の例において、第1骨格特徴抽出ネットワークにおける最後から二番目の畳み込み層は、第1ターゲット畳み込み層として選ばれる。
例えば、下記方式で、第1骨格特徴行列及び第2骨格特徴行列に基づいて、第1ターゲット骨格特徴行列を得ることができる。
第1骨格特徴行列及び第2骨格特徴行列に対して連結処理を行い、第1連結骨格特徴行列を得て、第1連結骨格特徴行列を次元変換処理し、第1ターゲット骨格特徴行列を得る。
ここで、第1連結骨格特徴行列に対して次元変換処理を行う場合、それを次元変換ニューラルネットワークに入力し、該次元変換ニューラルネットワークを用いて、第1連結骨格特徴行列に対して少なくとも1回の畳み込み処理を行い、第1ターゲット骨格特徴行列を得る。
ここで、次元変換ニューラルネットワークは、第1骨格特徴行列及び第2骨格特徴行列における特徴信息を融合し、それによって、得られた第1ターゲット骨格特徴行列に、より豊富な情報を包含させることができる。
S403において、第1輪郭特徴抽出ネットワークを用いて、基礎特徴行列に対して畳み込み処理を行い、第1輪郭特徴行列を得て、第1輪郭特徴抽出ネットワークにおける第2ターゲット畳み込み層から、第2輪郭特徴行列を取得し、第1輪郭特徴行列及び第2輪郭特徴行列に基づいて、第1ターゲット輪郭特徴行列を得て、第2ターゲット畳み込み層は、第1輪郭特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層である。図3の例において、第1輪郭特徴抽出ネットワークにおける最後から二番目の畳み込み層は、第2ターゲット畳み込み層として選ばれる。
具体的な実施において、第1輪郭特徴抽出ネットワークも複数の畳み込み層を含む。複数の畳み込み層は、順に接続され、下位層の畳み込み層の入力は、上位層の畳み込み層の出力である。このような構造を有する第1輪郭特徴抽出ネットワークは、基礎特徴行列に対して複数回の畳み込み処理を行い、最後の畳み込み層から、第1輪郭特徴行列を得ることができる。ここで、第1輪郭特徴行列は、三次元特徴行列である。該三次元特徴行列において、複数の二次元特徴行列が含まれ、且つ、各二次元特徴行列は、事前決定された複数の輪郭キーポイントに一対一に対応する。1つの輪郭キーポイントに対応する二次元特徴行列における要素の値は、該要素に対応する画素点が該輪郭キーポイントに属する確率を表し、1つの要素に対応する画素点は、一般的には複数である。
ここで、輪郭キーポイントの数は、一般的には、骨格キーポイントの数と異なる。従って、得られた第1輪郭特徴行列に含まれる二次元特徴行列の数は、第1骨格特徴行列に含まれる二次元特徴行列の数と異なってもよいことに留意されたい。
例えば、骨格キーポイントの数が14個であり、輪郭キーポイントの数が25個である場合、第1輪郭特徴行列に含まれる二次元特徴行列の数は、25個であり、第1骨格特徴行列に含まれる二次元特徴行列の数は、14個である。
また、第1ターゲット輪郭特徴行列にもより豊富な情報を包含させるために、上記S402と類似した方式で、第1輪郭特徴抽出ネットワークにおける第2ターゲット畳み込み層から第2輪郭特徴行列を取得し、続いて、第1輪郭特徴行列及び第2輪郭特徴行列に基づいて、第1ターゲット輪郭特徴行列を得ることができる。
ここで、第1輪郭特徴行列及び第2輪郭特徴行列に基づいて、第1ターゲット輪郭特徴行列を得る方式は、例えば、
第1輪郭特徴行列及び第2輪郭特徴行列に対して連結処理を行い、第1連結輪郭特徴行列を得て、第1連結輪郭特徴行列に対して次元変換処理を行い、第1ターゲット輪郭特徴行列を得ることを含む。
上記S402及びS403において、第1ターゲット骨格特徴行列の次元は、第1ターゲット輪郭特徴行列の次元と同じであり、且つ同一の次元での、第1ターゲット骨格特徴行列と第1ターゲット輪郭特徴行列の次元数は同じであり、それによって、後続で第1ターゲット骨格特徴行列と第1ターゲット輪郭特徴行列に基づいて特徴融合処理を行うことを容易にすることに留意されたい。
例えば、第1ターゲット骨格特徴行列の次元が3であり、且つ各次元の次元数は、それぞれ64、32及び14である場合、該第1ターゲット骨格特徴行列の次元数は、64*32*14として表れてもよく、第1ターゲット輪郭特徴行列の次元数も64*32*14として表れてもよい。
また、もう1つの実施例において、下記方式で、第1ターゲット骨格特徴行列及び第1ターゲット輪郭特徴行列を得ることもできる。
共通特徴抽出ネットワークを用いて、検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得て、
第1骨格特徴抽出ネットワークを用いて、基礎特徴行列に対して畳み込み処理を行い、第1骨格特徴行列を得て、第1骨格特徴行列に対して次元変換処理を行い、第1ターゲット骨格特徴行列を得て、
第1輪郭特徴抽出ネットワークを用いて、基礎特徴行列に対して畳み込み処理を行い、第1輪郭特徴行列を得て、第1輪郭特徴行列に対して次元変換処理を行い、第1ターゲット輪郭特徴行列を得る。
該方式において、高い精度で、人体の骨格特徴及び輪郭特徴を検出対象画像から抽出することもできる。
また、本願の実施例で提供される第1特徴抽出ネットワークは、事前訓練されたものである。
ここで、本願の実施例で提供される人体検出方法は、人体検出モデルにより実現され、人体検出モデルは、第1特徴抽出ネットワーク及び/又は特徴融合ニューラルネットワークを含み、
人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報、及び人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされている。
具体的には、人体検出モデルに第1特徴抽出ネットワークが含まれる場合について、第1特徴抽出ネットワークは、単独で訓練されてもよく、特徴融合ニューラルネットワークと共に共同訓練されてもよく、単独訓練と共同訓練を組み合わせてもよい。
訓練により第1特徴抽出ネットワークを得る過程は、下記(1)及び(2)を含むが、これらに限定されない。
(1)第1特徴抽出ネットワークに対して単独訓練を行うことは、例えば、以下を含む。
ステップ1.1において、複数枚のサンプル画像、及び各サンプル画像のラベル付きデータを取得し、ラベル付きデータは、人体骨格構造を示すための骨格キーポイントの実際の位置情報、及び人体輪郭を示すための輪郭キーポイントの実際の位置情報を含む。
ステップ1.2において、複数枚のサンプル画像を第1基礎特徴抽出ネットワークに入力し、第1サンプルターゲット骨格特徴行列及び第1サンプルターゲット輪郭特徴行列を得る。
ステップ1.3において、第1サンプルターゲット骨格特徴行列に基づいて、骨格キーポイントの第1予測位置情報を決定し、第1サンプルターゲット輪郭特徴行列に基づいて、輪郭キーポイントの第1予測位置情報を決定する。
ステップ1.4において、骨格キーポイントの実際の位置情報及び骨格キーポイントの第1予測位置情報に基づいて、第1損失を決定し、輪郭キーポイントの実際の位置情報及び輪郭キーポイントの第1予測位置情報に基づいて、第2損失を決定する。
ステップ1.5において、第1損失及び第2損失に基づいて、第1基礎特徴抽出ネットワークに対して今回の訓練を行う。
第1基礎特徴抽出ネットワークに対して複数回の訓練を行うことで、第1特徴抽出ネットワークを得る。
図3に示すように、第1損失は、図3におけるLS1であり、第2損失は、図3におけるLC1である。第1損失及び第2損失に基づいて、第1基礎特徴抽出ネットワークの訓練を行い、精度の高い第1特徴抽出ネットワークを得る。
(2)第1特徴抽出ネットワーク及び特徴融合ニューラルネットワークを共同訓練することは、例えば、以下を含む。
ステップ2.1において、複数枚のサンプル画像及び各サンプル画像のラベル付きデータを得て、ラベル付きデータは、人体骨格構造を示すための骨格キーポイントの実際の位置情報及び人体輪郭を示すための輪郭キーポイントの実際の位置情報を含む。
ステップ2.2において、複数枚のサンプル画像を第1基礎特徴抽出ネットワークに入力し、第1サンプルターゲット骨格特徴行列及び第1サンプルターゲット輪郭特徴行列を得る。
ステップ2.3において、基礎特徴融合ニューラルネットワークを用いて、第1サンプルターゲット骨格特徴行列及び第1サンプルターゲット輪郭特徴行列に対して特徴融合を行い、第2サンプルターゲット骨格特徴行列及び第2サンプルターゲット輪郭特徴行列を得る。
ステップ2.4において、第2サンプルターゲット骨格特徴行列に基づいて、骨格キーポイントの第2予測位置情報を決定し、第2サンプルターゲット輪郭特徴行列に基づいて、輪郭キーポイントの第2予測位置情報を決定する。
ステップ2.5において、骨格キーポイントの実際の位置情報及び骨格キーポイントの第2予測位置情報に基づいて、第3損失を決定し、輪郭キーポイントの実際の位置情報及び輪郭キーポイントの第2予測位置情報に基づいて、第4損失を決定する。
ステップ2.6において、第3損失及び第4損失に基づいて、第1基礎特徴抽出ネットワーク及び基礎特徴融合ニューラルネットワークに対して、今回の訓練を行う。
第1基礎畳み込みニューラルネットワーク及び基礎特徴融合ニューラルネットワークに対して複数回の訓練を行うことで、第1特徴抽出ネットワーク及び特徴融合ニューラルネットワークを得る。
(3)単独訓練と共同訓練を組み合わせて第1特徴抽出ネットワークを得る過程において、上記(1)及び(2)におけるプロセスにより同期して訓練を行うことができる。
又は、まず、(1)におけるプロセスにより、第1特徴抽出ネットワークを事前訓練し、事前訓練された第1特徴抽出ネットワークと特徴融合ニューラルネットワークに対して、上記(2)における共同訓練を行うこともできる。
第1特徴抽出ネットワークに対して単独訓練と共同訓練を行う場合に用いられる画像は、同じであっても異なってもよいことに留意されたい。
第1特徴抽出ネットワーク及び特徴融合ニューラルネットワークを共同訓練する前に、まず、特徴融合ニューラルネットワークを事前訓練し、事前訓練された特徴融合ニューラルネットワークを第1特徴抽出ネットワークと共に共同訓練することもできる。
特徴融合ニューラルネットワークに対して単独訓練を行う詳細な過程は、下記a2に示す実施例に関する説明を参照することができる。
a2:特徴融合過程:
人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列及び人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を得た後、第1ターゲット骨格特徴行列及び第1ターゲット輪郭特徴行列に基づいて、特徴融合処理を行うことができる。
具体的には、検出対象画像に基づいて、骨格特徴及び輪郭特徴を抽出する過程において、用いられる基礎行列が同一であるが、第1骨格特徴抽出ネットワークは、基礎特徴行列から骨格特徴を抽出し、それに対して、第1輪郭特徴抽出ネットワークは、基礎特徴行列から輪郭特徴を抽出する。2つの過程は相互独立して存在する。しかしながら、同一の人体は、輪郭特徴と骨格特徴が、相互関連付けられている。輪郭特徴と骨格特徴を融合させる目的は、骨格特徴と輪郭特徴との相互作用関係を利用することである。例えば、輪郭特徴に基づいて、最終的に抽出された骨格キーポイントの位置情報を修正し、骨格特徴に基づいて、最終的に抽出された輪郭キーポイントの位置情報を修正することで、更に、より正確な骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を得て、精度のより高い人体検出結果を得る。
本願の実施例は、抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行うための具体的な方法を提供する。前記方法は、事前訓練された特徴融合ニューラルネットワークを用いて、第1ターゲット骨格特徴行列及び第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることを含む。
ここで、第2ターゲット骨格特徴行列は、三次元骨格特徴行列であり、該三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が対応する骨格キーポイント(即ち、該二次元骨格特徴行列に対応する骨格キーポイント)に属する確率を表す。第2ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、該三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表す。
本願の実施例で提供される特徴融合ニューラルネットワークは、単独訓練されてもよく、第1特徴抽出ネットワークと共に共同訓練されてもよく、単独訓練と共同訓練を組み合わせてもよい。
特徴融合ニューラルネットワークと第1特徴抽出ネットワークを共同訓練する過程は、上記(2)を参照することができる。ここで、詳細な説明を省略する。
構造の異なる特徴融合ニューラルネットワークに対して単独訓練を行う場合、用いられる訓練方法も異なる。構造の異なる特徴融合ニューラルネットワークの訓練方法は、下記M1~M3を参照することができる。
骨格特徴及び輪郭特徴に対して特徴融合を行う過程は、下記M1~M3のうちの少なくとも1つを含んでもよく、これらに限定されない。
M1:
図5に示すように、本願の実施例は、特徴融合ニューラルネットワークの具体的な構造を提供する。該構造は、第1畳み込みニューラルネットワーク、第2畳み込みニューラルネットワーク、第1変換ニューラルネットワーク、及び第2変換ニューラルネットワークを含む。
図6に示すように、本願の実施例は、図5で提供される特徴融合ニューラルネットワークに基づいて、第1ターゲット骨格特徴行列及び第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るための具体的な方法を更に提供する。前記方法は、下記ステップを含む。
S601において、第1畳み込みニューラルネットワークを用いて、第1ターゲット骨格特徴行列に対して畳み込み処理を行い、第1中間骨格特徴行列を得る。S603を実行する。
ここで、第1畳み込みニューラルネットワークは、少なくとも1つの畳み込み層を含む。第1畳み込みニューラルネットワークは、複数層を含む場合、複数の畳み込み層は、順次接続される。該層の畳み込み層の入力は、上位層の畳み込み層の出力である。第1ターゲット骨格特徴行列を第1畳み込みニューラルネットワークに入力し、各畳み込み層を用いて、第1ターゲット骨格特徴行列に対して畳み込み処理を行い、第1中間骨格特徴行列を得る。
該過程は、骨格特徴を第1ターゲット骨格特徴行列から更に抽出するためのものである。
S602において、第2畳み込みニューラルネットワークを用いて、第1ターゲット輪郭特徴行列に対して畳み込み処理を行い、第1中間輪郭特徴行列を得る。S604を実行する。
ここで、該処理過程は、上記S601と同様であり、ここで、詳細な説明を省略する。
S601とS602の実行には、順序がないことに留意されたい。同期して実行してもよく、非同期で実行してもよい。
S603において、第1中間輪郭特徴行列と第1ターゲット骨格特徴行列に対して連結処理を行い、第1連結特徴行列を得て、第1変換ニューラルネットワークを用いて、第1連結特徴行列に対して次元変換を行い、第2ターゲット骨格特徴行列を得る。
ここで、第1中間輪郭特徴行列と第1ターゲット骨格特徴行列に対して連結処理を行い、第1連結特徴行列を得る。得られた第1連結特徴行列に、輪郭特徴が含まれるだけでなく、骨格特徴も含まれる。
第1変換ニューラルネットワークを用いて、第1連結行列に対して更に次元変換を行うことは、実際に、第1変換ニューラルネットワークを用いて、再び、第1連結特徴行列から骨格特徴を抽出することである。第1連結特徴行列を得る過程において、検出対象画像における骨格特徴及び輪郭特徴以外の他の特徴が除去されており、骨格特徴及び輪郭特徴のみが含まれるため、第1連結特徴行列に基づいて得られた第2ターゲット骨格特徴行列に含まれる骨格特徴は、輪郭特徴による影響を受けており、それによって骨格特徴と輪郭特徴を関連付けることができ、骨格特徴と輪郭特徴の融合を実現させることができる。
S604において、第1中間骨格特徴行列と第1ターゲット輪郭特徴行列に対して連結処理を行い、第2連結特徴行列を得て、第2変換ニューラルネットワークを用いて、第2連結特徴行列に対して次元変換を行い、第2ターゲット輪郭特徴行列を得る。
ここで、第1中間骨格特徴行列と第1ターゲット輪郭特徴行列に対して連結処理を行い、第2連結特徴行列を得る過程は、上記S602における第1連結特徴行列を得る過程と同様であり、ここで、詳細な説明を省略する。
同様に、第2ターゲット輪郭特徴行列に含まれる輪郭特徴は、骨格特徴による影響を受けており、それによって骨格特徴と輪郭特徴を関連付け、骨格特徴と輪郭特徴の融合を実現させる。
もう1つの実施例において、下記方式で、特徴融合ニューラルネットワークを単独訓練することができる。
ステップ3.1において、複数枚のサンプル画像の第1サンプルターゲット骨格特徴行列及び第1サンプルターゲット輪郭特徴行列を取得する。
取得方式は、上記実施例における第1ターゲット骨格特徴行列、第1ターゲット輪郭特徴行列を取得する方式と同様であり、ここで、詳細な説明を省略する。第1特徴抽出ネットワークと共に共同訓練を行う場合に取得してもよく、事前訓練された第1特徴抽出ネットワークにより取得してもよい。
ステップ3.2において、第1基礎畳み込みニューラルネットワークを用いて、第1サンプルターゲット骨格特徴行列に対して畳み込み処理を行い、第1サンプル中間骨格特徴行列を得る。
ステップ3.3において、第2基礎畳み込みニューラルネットワークを用いて、第1サンプルターゲット輪郭特徴行列に対して畳み込み処理を行い、第1サンプル中間輪郭特徴行列を得る。
ステップ3.4において、第1サンプル中間輪郭特徴行列と第1サンプルターゲット骨格特徴行列に対して連結処理を行い、第1サンプル連結特徴行列を得て、第1基礎変換ニューラルネットワークを用いて、第1サンプル連結特徴行列に対して次元変換を行い、第2サンプルターゲット骨格特徴行列を得る。
ステップ3.5において、第1サンプル中間骨格特徴行列と第1サンプルターゲット輪郭特徴行列に対して連結処理を行い、第2サンプル連結特徴行列を得て、第2基礎変換ニューラルネットワークを用いて、第2サンプル連結特徴行列に対して、次元変換を行い、第2サンプルターゲット輪郭特徴行列を得る。
ステップ3.6において、第2サンプルターゲット骨格特徴行列に基づいて、骨格キーポイントの第3予測位置情報を決定し、第2サンプルターゲット輪郭特徴行列に基づいて、輪郭キーポイントの第3予測位置情報を決定する。
ステップ3.7において、骨格キーポイントの実際の位置情報及び骨格キーポイントの第3予測位置情報に基づいて、第5損失を決定し、輪郭キーポイントの実際の位置情報及び輪郭キーポイントの第3予測位置情報に基づいて、第6損失を決定する。
ステップ3.8において、第5損失及び第6損失に基づいて、第1基礎畳み込みニューラルネットワーク、第2基礎畳み込みニューラルネットワーク、第1基礎変換ニューラルネットワーク、及び第2基礎変換ニューラルネットワークに対して今回の訓練を行う。
第1基礎畳み込みニューラルネットワーク、第2基礎畳み込みニューラルネットワーク、第1基礎変換ニューラルネットワーク、及び第2基礎変換ニューラルネットワークに対して複数回の訓練を行うことで、特徴融合ニューラルネットワークを得る。
ここで、第5損失は、図5におけるLS2であり、第6損失は、図5におけるLC2である。
M2:
図7に示すように、本願の実施例で提供されるもう1つの特徴融合ニューラルネットワークの具体的な構造は、第1定向畳み込みニューラルネットワーク、第2定向畳み込みニューラルネットワーク、第3畳み込みニューラルネットワーク、第4畳み込みニューラルネットワーク、第3変換ニューラルネットワーク、及び第4変換ニューラルネットワークを含む。
図8に示すように、本願の実施例は、図7で提供される特徴融合ニューラルネットワークに基づいて、第1ターゲット骨格特徴行列及び第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るための具体的な方法を更に提供する。前記方法は、下記ステップを含む。
S801において、第1定向畳み込みニューラルネットワークを用いて、第1ターゲット骨格特徴行列に対して定向畳み込み処理を行い、第1定向骨格特徴行列を得る。第3畳み込みニューラルネットワークを用いて、第1定向骨格特徴行列に対して畳み込み処理を行い、第2中間骨格特徴行列を得る。S804を実行する。
S802において、第2定向畳み込みニューラルネットワークを用いて、第1ターゲット輪郭特徴行列に対して定向畳み込み処理を行い、第1定向輪郭特徴行列を得る。第4畳み込みニューラルネットワークを用いて、第1定向輪郭特徴行列に対して畳み込み処理を行い、第2中間輪郭特徴行列を得る。S803を実行する。
S803において、第2中間輪郭特徴行列と第1ターゲット骨格特徴行列に対して連結処理を行い、第3連結特徴行列を得て、第3変換ニューラルネットワークを用いて、第3連結特徴行列に対して次元変換を行い、第2ターゲット骨格特徴行列を得る。
S804において、第2中間骨格特徴行列と第1ターゲット輪郭特徴行列に対して連結処理を行い、第4連結特徴行列を得て、第4変換ニューラルネットワークを用いて、第4連結特徴行列に対して次元変換を行い、第2ターゲット輪郭特徴行列を得る。
具体的に実施する場合、骨格特徴と輪郭特徴に対して特徴融合を行う過程において、骨格キーポイントは、一般的に、人体の骨格に集中しており、輪郭キーポイントは、人体の輪郭に集中しており、つまり、骨格の周囲に分布する。従って、骨格特徴及び輪郭特徴に対してそれぞれ局所的な空間変換を行う必要がある。例えば、骨格特徴を輪郭特徴の輪郭特徴行列における位置に変換し、輪郭特徴を骨格特徴の骨格特徴行列における位置に変換することで、骨格特徴及び輪郭特徴をより好適に抽出し、骨格特徴及び輪郭特徴の融合を実現させる。
該目的を実現させるために、本願の実施例において、まず、第1定向畳み込みニューラルネットワークを用いて、第1ターゲット骨格特徴行列に対して定向畳み込み処理を行う。該定向畳み込みは、特徴面において骨格特徴の定向空間変換を効果的に実現させることができる。続いて、第3畳み込みニューラルネットワークを用いて、得られた第1定向骨格特徴行列に対して畳み込み処理を行い、第2中間骨格特徴行列を得る。この場合、第1定向畳み込み層により骨格特徴に対して定向空間変換を行ったため、骨格特徴は、実際に、輪郭特徴方向へ移動した。続いて、第2中間骨格特徴行列と第1ターゲット輪郭特徴行列に対して連結処理を行い、第4連結特徴行列を得る。第4連結特徴行列は、輪郭特徴を含むと共に、定向空間変換が行われた骨格特徴を更に含む。続いて、第4変換ニューラルネットワークを用いて、第4連結特徴行列に対して次元変換を行い、つまり、第4連結特徴行列から、再び輪郭特徴を抽出する。このような方式で得られた第2ターゲット輪郭特徴行列は、骨格特徴による影響を受けており、骨格特徴と輪郭特徴との融合を実現させる。
同様に、本願の実施例において、まず、第2定向畳み込みニューラルネットワークを用いて、第1ターゲット輪郭特徴行列に対して定向畳み込み処理を行う。該定向畳み込みは、特徴面において輪郭特徴の定向空間変換を効果的に実現させることができる。続いて、第4畳み込みニューラルネットワークを用いて、得られた第1定向輪郭特徴行列に対して畳み込み処理を行い、第2中間輪郭特徴行列を得る。この場合、第2定向畳み込み層により輪郭特徴に対して定向空間変換を行ったため、輪郭特徴は、実際に、骨格特徴方向へ移動した。続いて、第2中間輪郭特徴行列と第1ターゲット骨格特徴行列に対して連結処理を行い、第3連結特徴行列を得る。第3連結特徴行列は、骨格特徴を含むと共に、定向空間変換が行われた輪郭特徴を更に含む。続いて、第3変換ニューラルネットワークを用いて、第3連結特徴行列に対して次元変換を行い、つまり、第3連結特徴行列から、再び骨格特徴を抽出する。このような方式で得られた第2ターゲット骨格特徴行列は、輪郭特徴による影響を受けており、骨格特徴と輪郭特徴との融合を実現させる。
具体的には、定向畳み込みは、複数回の反復畳み込みステップからなる。効果的な定向畳み込みは下記要求を満たす。
(1)毎回の反復畳み込みのステップにおいて、特徴行列における一組の要素の要素値のみを更新する。
(2)最終回の反復畳み込みのステップを行った後、全ての要素の要素値は、一回のみ更新されるべきである。
第1ターゲット骨格特徴行列に対して定向畳み込みを行うことを例として、定向畳み込み過程を実現させるために、要素の更新順序を制御するための特徴関数シーケンス
Figure 2022503426000002
を定義することができる。ここで、関数Fの入力は、第1ターゲット骨格特徴行列における各要素の位置であり、関数Fの出力は、k回目の反復における要素を更新するかどうかを表す。該出力は、1又は0であってもよい。1は、更新を表し、0は、更新しないことを表す。具体的には、k回目の反復過程において、F=1の領域における要素の要素値のみを更新し、他の領域における要素の要素値をそのまま維持する。i回目の反復の更新は、
Figure 2022503426000003
で表されてもよい。
ここで、T(X)=Xであり、Xは、定向畳み込みの入力を表し、即ち、第1ターゲット骨格特徴行列である。W及びbはそれぞれ複数回の反復過程における共通重み及び偏差を表す。
骨格特徴と輪郭特徴の融合を実現させるために、一対の対称な定向畳み込み演算子を設定してもよい。つまり、上記特徴関数シーケンス
Figure 2022503426000004
は、それぞれ、散乱畳み込み演算子
Figure 2022503426000005
及び集約畳み込み演算子
Figure 2022503426000006
である。ここで、散乱畳み込み演算子は、内から外へ特徴行列における要素を順次更新する。集約畳み込み演算子は、外から内へ特徴行列における要素を順次更新する。
第1定向畳み込みニューラルネットワークを用いて、第1ターゲット骨格特徴行列に対して定向畳み込み処理を行う場合、骨格特徴元素を該要素周囲の位置(輪郭特徴に更に関わる位置)に定向空間変換する必要があるため、散乱畳み込み演算子
Figure 2022503426000007
を用いる。第2定向畳み込みニューラルネットワークを用いて、第1ターゲット輪郭特徴行列に対して定向畳み込み処理を行う場合、輪郭特徴元素を輪郭特徴行列の中間位置(骨格特徴に更に関わる位置)に定向空間変換する必要があるため、集約畳み込み演算子
Figure 2022503426000008
を用いる。
具体的には、第1定向畳み込みニューラルネットワークにより、第1ターゲット骨格特徴行列に対して定向畳み込み処理を行う過程は以下のとおりである。
第1ターゲット骨格特徴行列を複数のサブ行列に分ける。各サブ行列は、1つのグリッドと呼ばれる。ここで、第1ターゲット骨格特徴が三次元行列である場合、3つの次元の次元数は、それぞれm、n、sである。従って、第1ターゲット骨格特徴行列の次元数は、m*n*sで表される。グリッドのサイズが5である場合、各グリッドの次元数はいずれも5*5*sで表される。
続いて、各グリッドに対して、散乱畳み込み演算子
Figure 2022503426000009
を用いて複数回の反復畳み込みを行い、ターゲットサブ行列を得る。図9aに示すように、散乱畳み込み演算子
Figure 2022503426000010
を用いて、グリッドサイズが5であるサブ行列における要素の要素値に対して2回の反復更新を行う過程を提供する。ここで、図9aにおけるaは、初期サブ行列を表し、bは、一回の反復を行った後に得られたサブ行列を表し、cは、二回の反復を行った後に得られたサブ行列を表し、つまり、ターゲットサブ行列を表す。
各グリッドに対応するターゲットサブ行列を連結し、第1定向骨格特徴行列を得る。
同様に、第2定向畳み込みニューラルネットワークにより、第1ターゲット輪郭特徴行列に対して定向畳み込み処理を行う過程は以下のとおりである。
第1ターゲット輪郭特徴行列を複数のサブ行列に分ける。各サブ行列は、1つのグリッドと呼ばれる。ここで、第1ターゲット輪郭特徴行列は三次元行列である場合、3つの次元の次元数は、それぞれm、n、sである。その場合、第1ターゲット輪郭特徴行列の次元数は、m*n*sで表される。グリッドのサイズが5である場合、各グリッドの次元数はいずれも5*5*sで表される。
続いて、各グリッドに対して、集約畳み込み演算子
Figure 2022503426000011
を用いて複数回の反復畳み込みを行い、ターゲットサブ行列を得る。
図9bに示すように、集約畳み込み演算子
Figure 2022503426000012
を用いて、グリッドサイズが5であるサブ行列における要素の要素値に対して2回の反復更新を行う過程を提供する。ここで、図9bにおけるaは、初期サブ行列を表し、bは、一回の反復を行った後に得られたサブ行列を表し、cは、二回の反復を行った後に得られたサブ行列を表し、つまり、ターゲットサブ行列を表す。
各グリッドに対応するターゲットサブ行列を連結し、第1定向輪郭特徴行列を得る。
ここで、各サブ行列の反復畳み込みを並行して実行することができることに留意されたい。
図9a及び図9bにおける例は、散乱畳み込み演算子
Figure 2022503426000013
及び集約畳み込み演算子
Figure 2022503426000014
を用いてサブ行列における要素の要素値を反復更新する例だけである。
もう1つの実施例において、下記方式で、特徴融合ニューラルネットワークを単独訓練することができる。
ステップ4.1において、複数枚のサンプル画像の第1サンプルターゲット骨格特徴行列及び第1サンプルターゲット輪郭特徴行列を取得する。
取得方式は、上記実施例における第1ターゲット骨格特徴行列、第1ターゲット輪郭特徴行列の取得方式と同様であり、ここで詳細な説明を省略する。第1特徴抽出ネットワークと共に共同訓練する場合に取得してもよく、事前訓練された第1特徴抽出ネットワークにより取得してもよい。
ステップ4.2において、第1基礎定向畳み込みニューラルネットワークを用いて、第1サンプルターゲット骨格特徴行列に対して定向畳み込み処理を行い、第1サンプル定向骨格特徴行列を得て、第1サンプル定向骨格特徴行列及び輪郭キーポイントの実際の位置情報を用いて、第7損失を得る。第7損失に基づいて、第1基礎定向畳み込みニューラルネットワークに対して今回の訓練を行う。
ここで、第7損失は、図7におけるLC3である。
ここで、第1基礎定向畳み込みニューラルネットワークを用いて、第1サンプルターゲット骨格特徴行列に対して定向畳み込み処理を行う。つまり、第1サンプルターゲット骨格特徴行列に対して定向空間変換を行う。この場合、得られた第1サンプル定向骨格特徴行列で表されるキーポイントの位置情報を輪郭キーポイントの位置情報と可能な限り一致させる必要がある。従って、第1サンプル定向骨格特徴行列及び輪郭キーポイントの実際の位置情報に基づいて、第7損失を得る。第7損失を用いて、第1基礎定向畳み込みニューラルネットワークに対する訓練を行う。
ステップ4.3において、第2基礎定向畳み込みニューラルネットワークを用いて、第1サンプルターゲット輪郭特徴行列に対して定向畳み込み処理を行い、第1サンプル定向輪郭特徴行列を得て、第1サンプル定向輪郭特徴行列及び骨格キーポイントの実際の位置情報を用いて、第8損失を得る。第8損失に基づいて、第2基礎定向畳み込みニューラルネットワークに対して今回の訓練を行う。
ここで、第8損失は、図7におけるLS3である。
ステップ4.4において、第4基礎畳み込みニューラルネットワークを用いて、第1サンプル定向輪郭特徴行列に対して畳み込み処理を行い、第2サンプル中間輪郭特徴行列を得て、得られた第2サンプル中間輪郭特徴行列と第1サンプルターゲット骨格特徴行列に対して連結処理を行い、第3サンプル連結特徴行列を得て、第3基礎変換ニューラルネットワークを用いて、第3サンプル連結特徴行列に対して次元変換を行い、第2サンプルターゲット骨格特徴行列を得る。
ステップ4.5において、第2サンプルターゲット骨格特徴行列に基づいて、骨格キーポイントの第4予測位置情報を決定し、骨格キーポイントの実際の位置情報及び骨格キーポイントの第4予測位置情報に基づいて、第9損失を決定する。
ここで、第9損失は、図7におけるLS4である。
ステップ4.6において、第3基礎畳み込みニューラルネットワークを用いて、第1サンプル定向骨格特徴行列に対して畳み込み処理を行い、第2サンプル中間骨格特徴行列を得て、得られた第2サンプル中間骨格特徴行列と第1サンプルターゲット輪郭特徴行列に対して連結処理を行い、第4サンプル連結特徴行列を得て、第4基礎変換ニューラルネットワークを用いて、第4サンプル連結特徴行列に対して次元変換を行い、第2サンプルターゲット輪郭特徴行列を得る。
ステップ4.7において、第2サンプルターゲット輪郭特徴行列に基づいて、輪郭キーポイントの第4予測位置情報を決定し、輪郭キーポイントの実際の位置情報及び輪郭キーポイントの第4予測位置情報に基づいて、第10損失を決定する。
ここで、第10損失は、図7におけるLC4である。
ステップ4.8において、第9損失及び第10損失に基づいて、第3基礎畳み込みニューラルネットワーク、第4基礎畳み込みニューラルネットワーク、第3基礎変換ニューラルネットワーク、及び第4基礎変換ニューラルネットワークに対して今回の訓練を行う。
第1基礎定向畳み込みニューラルネットワーク、第2基礎定向畳み込みニューラルネットワーク、第3基礎畳み込みニューラルネットワーク、第4基礎畳み込みニューラルネットワーク、第3基礎変換ニューラルネットワーク、及び第4基礎変換ニューラルネットワークに対して複数回の訓練を行うことで、訓練された特徴融合ニューラルネットワークを得る。
M3:
図10に示すように、本願の実施例で提供されるもう1つの特徴融合ニューラルネットワークの具体的な構造は、変位推定ニューラルネットワーク、第5変換ニューラルネットワークを含む・
図11に示すように、本願の実施例は、図10で提供される特徴融合ニューラルネットワークに基づいて、第1ターゲット骨格特徴行列及び第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るための具体的な方法を更に提供する。前記方法は、下記ステップを含む。
S1101において、第1ターゲット骨格特徴行列と第1ターゲット輪郭特徴行列に対して連結処理を行い、第5連結特徴行列を得る。
S1102において、第5連結特徴行列を変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの1つのキーポイントがもう1つのキーポイントまでに移動する変位情報を得て、ここで、各キーポイントペアのうちの2つのキーポイントの位置は、隣接し、該2つのキーポイントは、1つの骨格キーポイント及び1つの輪郭キーポイントを含むか、又は2つの骨格キーポイントを含むか、又は2つの輪郭キーポイントを含む。
具体的な実施において、人体のために、複数の骨格キーポイント及び複数の輪郭キーポイントを事前決定する。図12に示すように、人体のために事前決定された複数の骨格キーポイント及び輪郭キーポイントの例を提供する。該例において、骨格キーポイントは、14個であり、図12における大きなドットによりそれぞれ、頭頂、頸、両肩、両肘、両手首、両股、両膝、及び両足首を表す。輪郭キーポイントは、26個であり、図12における小さなドットで表される。人体の頭頂を示す骨格キーポイント以外、他の各骨格キーポイントは、2つの輪郭キーポイントに対応する。ここで、両股の骨格キーポイントは、同一の輪郭キーポイントに対応する。
位置が隣接する2つのキーポイントは、1つのキーポイントペアを構成する。図12に示すように、線分により直接的に接続した2つのキーポイントは、1つのキーポイントペアを構成する。つまり、キーポイントペアは、(骨格キーポイント、骨格キーポイント)、(輪郭キーポイント、輪郭キーポイント)、又は(骨格キーポイント、輪郭キーポイント)から構成される可能性がある。
変位推定ニューラルネットワークは、複数の畳み込み層を含む。複数の畳み込み層は、順次接続され、第5連結特徴行列における骨格特徴及び輪郭特徴に対して特徴学習を行い、各キーポイントペアのうちの1つのキーポイントがもう1つのキーポイントまでに移動する変位情報を得るために用いられる。各キーポイントに対応する変位情報は2組である。
例えば、キーポイントペアが(P、Q)であり、P及びQはそれぞれ1つのキーポイントを表すと、該キーポイントペアの変位情報は、PからQまでに移動する変位情報、及びQからPまでに移動する変位情報を含む。
各組の変位情報は、いずれも移動方向及び移動距離を含む。
S1103において、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとして、現在のキーポイントのペアであるもう1つのキーポイントに対応する三次元特徴行列から、ペアであるもう1つのキーポイントに対応する二次元特徴行列を取得し、ペアであるもう1つのキーポイントは、骨格キーポイントである場合、該骨格キーポイントに対応する三次元特徴行列は、第1骨格特徴行列であり、ペアであるもう1つのキーポイントは、輪郭キーポイントである場合、該輪郭キーポイントに対応する三次元特徴行列は、第1輪郭特徴行列である。
S1104において、ペアであるもう1つのキーポイントから現在のキーポイントまでの変位情報に基づいて、ペアであるもう1つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応する変位特徴行列を得る。
ここで、依然としてキーポイントペア(P、Q)を例として、まず、Pを現在のキーポイントとして、Qに対応する三次元特徴行列から、Qに対応する二次元特徴行列を取得する。
ここで、Qが骨格キーポイントである場合、Qに対応する三次元特徴行列は、第1骨格特徴行列(上記S402を参照する)である。Qが輪郭キーポイントである場合、Qに対応する三次元特徴行列は、第1輪郭特徴行列(上記S403を参照する)である。
ここで、Qが骨格キーポイントである場合、第1骨格特徴行列をQの三次元特徴行列として、第1骨格特徴行列から、Qの二次元特徴行列を得る。第1骨格特徴行列に骨格特徴のみが含まれるため、後続の処理過程で学習された骨格特徴に、更なる指向性を持たせる。同様に、Qが輪郭キーポイントである場合、第1輪郭特徴行列をQの三次元特徴行列として、第1輪郭特徴行列から、Qの二次元特徴行列を得る。第1輪郭特徴行列に輪郭特徴のみが含まれるため、後続の処理過程で学習された輪郭特徴に、更なる指向性を持たせる。
Qの二次元特徴行列を得た後、QからPまでに移動する変位情報に基づいて、Qの二次元特徴行列における要素に対して位置変換を行い、Pに対応する変位特徴行列を得る。
例えば、図13に示すように、QからPまでに移動する変位情報は、(2,3)である。ここで、2は、第1次元で移動した距離が2であることを表す。3は、第2次元で移動した距離が3であることを表す。従って、Qの二次元特徴行列は、図13におけるaに示すとおりである。Qの二次元特徴行列における要素に対して位置変換を行った後に得られたPに対応する変位特徴行列は、図13におけるbに示すとおりである。ここで、数字により変位情報を相対的に表す。実際の実施において、具体的な解決手段を参照しながら、変位情報を理解すべきである。例えば、変位情報「2」は、2つの要素、2つのセルなどを指してもよい。
続いて、Qを現在のキーポイントとして、Pに対応する三次元特徴行列から、Pに対応する二次元特徴行列を取得する。続いて、PからQまでに移動する変位情報に基づいて、Pの二次元特徴行列における要素に対して位置変換を行い、Qに対応する変位特徴行列Qを得る。
これにより、各骨格キーポイントに対応する変位特徴行列及び各輪郭キーポイントに対応する変位特徴行列を得ることができる。
ここで、各骨格キーポイントは、複数のキーポイントとそれぞれペアリングされる可能性があるため、得られた各骨格キーポイントの変位特徴行列も複数である可能性があり、各輪郭キーポイントは、複数のキーポイントとそれぞれペアリングされる可能性があるため、得られた各輪郭キーポイントの変位特徴行列も複数である可能性があることに留意されたい。また、異なる輪郭キーポイントに対応する変位特徴行列の数も異なる可能性があり、異なる骨格キーポイントに対応する変位特徴行列の数も異なる可能性がある。
S1105において、各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と該骨格キーポイントに対応する各変位特徴行列に対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を第5変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、第2ターゲット骨格特徴行列を生成する。
S1106において、各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と該輪郭キーポイントに対応する各変位特徴行列に対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を第5変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、第2ターゲット輪郭特徴行列を生成する。
例えば、Pが骨格キーポイントであり、且つPに対応する二次元特徴行列がP’であり、Pが3つのキーポイントペアに位置すると、上記過程により、Pの3つの変位特徴行列を得て、それぞれP1’、P2’、及びP3’である。P’、P1’、P2’及びP3’を連結し、Pの連結二次元特徴行列を得る。この場合、Pの3つの変位特徴行列のうち、骨格キーポイントに対応する二次元特徴行列における要素を位置変換することで得られた変位特徴行列があるだけでなく、輪郭キーポイントに対応する二次元特徴行列における要素を位置変換することで得られた変位特徴行列もある。従って、P’、P1’、P2’及びP3’を連結し、位置がPの位置に隣接する各キーポイントの特徴を融合させる。また、第5変換ニューラルネットワークを用いて、Pの連結二次元特徴行列に対して畳み込み処理を行うことで、得られたPのターゲット二次元特徴行列に、骨格特徴を包含させるだけでなく、輪郭特徴も包含させ、骨格特徴と輪郭特徴の融合を実現させる。
同様に、Pが輪郭キーポイントである場合にも、上記過程により、骨格特徴と輪郭特徴の融合を実現させることもできる。
もう1つの実施例において、下記方式で特徴融合ニューラルネットワークを単独訓練することができる。
ステップ5.1において、複数枚のサンプル画像の第1サンプルターゲット骨格特徴行列及び第1サンプルターゲット輪郭特徴行列を取得する。
取得方式は、上記実施例における第1ターゲット骨格特徴行列、第1ターゲット輪郭特徴行列を取得する方式と同様であり、ここで、詳細な説明を省略する。第1特徴抽出ネットワークと共に共同訓練を行う場合に取得してもよく、事前訓練された第1特徴抽出ネットワークにより取得してもよい。
ステップ5.2において、第1サンプルターゲット骨格特徴行列と第1サンプルターゲット輪郭特徴行列に対して連結処理を行い、第5サンプル連結特徴行列を得る。
ステップ5.3において、第5サンプル連結特徴行列を基礎変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの1つのキーポイントがもう1つのキーポイントまでに移動する予測変位情報を得て、各キーポイントペアのうちの2つのキーポイントの位置は隣接し、該2つのキーポイントは、1つの骨格キーポイント及び1つの輪郭キーポイントを含むか、又は2つの骨格キーポイントを含むか、又は2つの輪郭キーポイントを含む。
ステップ5.4において、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとして、該現在のキーポイントのペアであるもう1つのキーポイントに対応するサンプル三次元特徴行列から、ペアであるもう1つのキーポイントに対応するサンプル二次元特徴行列を取得する。
ステップ5.5において、ペアであるもう1つのキーポイントから現在のキーポイントまでの予測変位情報に基づいて、ペアであるもう1つのキーポイントに対応するサンプル二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応するサンプル変位特徴行列を得る。
ステップ5.6において、現在のキーポイントに対応するサンプル変位特徴行列及び現在のキーポイントに対応するサンプル二次元特徴行列に基づいて、変位損失を決定する。
ステップ5.7において、変位損失に基づいて、変位推定ニューラルネットワークに対して今回の訓練を行う。
ステップ5.8において、各骨格キーポイントについて、該骨格キーポイントに対応するサンプル二次元特徴行列と該骨格キーポイントに対応する各サンプル変位特徴行列に対して連結処理を行い、該骨格キーポイントのサンプル連結二次元特徴行列を得て、該骨格キーポイントのサンプル連結二次元特徴行列を第5基礎変換ニューラルネットワークに入力し、該骨格キーポイントに対応するサンプルターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するサンプルターゲット二次元特徴行列に基づいて、第2サンプルターゲット骨格特徴行列を生成する。
ステップ5.9において、各輪郭キーポイントについて、該輪郭キーポイントに対応するサンプル二次元特徴行列と該輪郭キーポイントに対応する各サンプル変位特徴行列に対して連結処理を行い、該輪郭キーポイントのサンプル連結二次元特徴行列を得て、該輪郭キーポイントのサンプル連結二次元特徴行列を第5基礎変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するサンプルターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するサンプルターゲット二次元特徴行列に基づいて、第2サンプルターゲット輪郭特徴行列を生成する。
ステップ5.10において、第2サンプルターゲット骨格特徴行列、第2サンプルターゲット輪郭特徴行列、骨格キーポイントの実際の位置情報及び輪郭キーポイントの実際の位置情報に基づいて、変換損失を決定する。例えば、第2サンプルターゲット骨格特徴行列に基づいて、骨格キーポイントの予測位置情報を決定し、第2サンプルターゲット輪郭特徴行列に基づいて、輪郭キーポイントの予測位置情報を決定することができる。骨格キーポイントの予測位置情報、実際の位置情報及び輪郭キーポイントの予測位置情報、実際の位置情報に基づいて、変換損失を決定する。
ステップ5.11において、変換損失に基づいて、第5基礎変換ニューラルネットワークに対して今回の訓練を行う。
ステップ5.12において、基礎変位推定ニューラルネットワーク、第5基礎変換ニューラルネットワークに対して複数回の訓練を行うことで、特徴融合ニューラルネットワークを得る。
Bにおいて、検出対象画像に対して、複数回の特徴抽出を行い、毎回の特徴抽出を行った後、該特徴抽出で得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、最終回の特徴融合の特徴融合結果に基づいて、骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報を決定する。
複数回の特徴抽出を行う場合、i回目の特徴融合の特徴融合結果に基づいて、i+1回目の特徴抽出を行い、iは、正整数である。
Bにおいて、1回目の特徴抽出を行う過程は、上記Aにおける検出対象画像に対して骨格特徴及び輪郭特徴を抽出する過程と一致し、ここで、詳細な説明を省略する。
Bにおいて、1回目の特徴抽出以外の他の特徴抽出を行う具体的な過程は以下のとおりである。
第2特徴抽出ネットワークを用いて、前回の特徴融合の特徴融合結果から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出する。
ここで、第1特徴抽出ネットワークのネットワークパラメータは、第2特徴抽出ネットワークのネットワークパラメータと異なり、且つ異なる特徴抽出に用いられる第2特徴抽出ネットワークのネットワークパラメータは異なる。
ここで、第1特徴抽出ネットワーク及び第2特徴抽出ネットワークはいずれも複数の畳み込み層を含む。第1特徴抽出ネットワーク及び第2特徴抽出ネットワークのネットワークパラメータは、例えば、畳み込み層の数、各畳み込み層に用いられる畳み込みカーネルのサイズ、各畳み込み層に用いられる畳み込みカーネルの数などを含むが、これらに限定されない。
図14に示すように、本願の実施例は、第2特徴抽出ネットワークの構造を示す概略図を提供する。第2特徴抽出ネットワークは、第2骨格特徴抽出ネットワーク、及び第2輪郭特徴抽出ネットワークを含む。
該第2特徴抽出ネットワークを用いて今回の特徴提取を行うための前回の特徴融合の特徴融合結果は、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を含む。第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るための具体的な過程は、上記Aを参照することができ、ここで詳細な説明を省略する。
該第2特徴抽出ネットワークを用いて、前回の特徴融合の特徴融合結果から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出するための具体的な過程は例えば以下のとおりである。
第2骨格特徴抽出ネットワークを用いて、前回の特徴融合で得られた第2ターゲット骨格特徴行列に対して畳み込み処理を行い、第3骨格特徴行列を得て、第2骨格特徴抽出ネットワークにおける第3ターゲット畳み込み層から、第4骨格特徴行列を得て、第3骨格特徴行列及び第4骨格特徴行列に基づいて、第5ターゲット骨格特徴行列を得る。ここで、第3ターゲット畳み込み層は、第2骨格特徴抽出ネットワークにおける最後の一つの畳み込み層以外のいずれか1つの畳み込み層である。
第2輪郭特徴抽出ネットワークを用いて、前回の特徴融合で得られた第2ターゲット輪郭特徴行列に対して畳み込み処理を行い、第3輪郭特徴行列を得て、第2輪郭特徴抽出ネットワークにおける第4ターゲット畳み込み層から、第4輪郭特徴行列を得て、第3輪郭特徴行列及び第4輪郭特徴行列に基づいて、第6ターゲット輪郭特徴行列を得る。第4ターゲット畳み込み層は、第2輪郭特徴抽出ネットワークにおける最後の一つの畳み込み層以外のいずれか1つの畳み込み層である。
具体的な処理方式は、上記Aにおける第1骨格特徴抽出ネットワークを用いて検出対象画像から第1ターゲット骨格特徴行列及び第1ターゲット輪郭特徴行列を抽出する具体的な過程と同様であり、ここで詳細な説明を省略する。
上記実施例において、上記IIにおける骨格キーポイント及び輪郭キーポイントの位置情報を決定する方式を説明した。
IIIにおいて、上記IIに基づいて骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を得た後、各骨格キーポイントの位置及び輪郭キーポイントの位置を検出対象画像から決定することができる。続いて、人体検出結果を生成することができる。
人体検出結果は、骨格キーポイントマーク及び輪郭キーポイントマークを含む検出対象画像、骨格キーポイントの位置情報及び輪郭キーポイントの位置情報を含むデータ群のうちの1つ又は複数を含む。
続いて、人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集及び人体画像の貼り付けのうちの1つ又は複数を実行することもできる。
ここで、動作認識は、例えば、殴り合い、ランニングなどのような現在の動作を認識することを指す。人体姿勢認識は、例えば、伏倒、指定した動作を行っているかどうかなどのような人体の現在の姿勢を認識することを指す。人体輪郭調整は、例えば、人体の体型、身長などを調整するを指す。人体画像編集は、例えば、人体画像に対して拡大縮小、回転、トリミングなどを行うことを指す。人体画像の貼り付けは、例えば、画像Aにおける人体を検出した後、対応する人体画像を画像Bに貼り付けることを指す。
本願の実施例は、検出対象画像から、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定し、骨格キーポイントの位置情報、及び輪郭キーポイントの位置情報に基づいて、人体検出結果を生成する。表現精細度の向上と演算データ量を両立させる。
また、本願の実施形態において、人体骨格構造を示すための骨格キーポイントの位置情報及び人体輪郭を示すための輪郭キーポイントの位置情報を用いて人体検出結果を得るため、人体を表すための情報はより豊富であり、適用シーンは、より広く、例えば、画像編集、人体体型調整などに適用可能である。
同一の技術的思想によれば、本願の実施例は、人体検出方法に対応する人体検出装置を更に提供する。本願の実施例における装置による課題を解決するための原理は、本願の実施例における上記人体検出方法と類似するため、装置の実施は、方法の実施を参照することができ、重複の説明を省略する。
図15は、本願の実施例による人体検出装置を示す概略図である。前記装置は、取得モジュール151、検出モジュール152及び生成モジュール153を含み、取得モジュール151は、検出対象画像を取得するように構成され、検出モジュール152は、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成され、生成モジュール153は、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成するように構成される。
可能な実施形態において、前記輪郭キーポイントは、主輪郭キーポイント及び補助輪郭キーポイントを含み、ここで、2つの隣接する前記主輪郭キーポイントの間に、少なくとも1つの補助輪郭キーポイントが存在する。
可能な実施形態において、前記検出モジュール152は、前記検出対象画像に基づいて、前記主輪郭キーポイントの位置情報を決定し、前記主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定し、決定された前記人体輪郭情報に基づいて、複数の前記補助輪郭キーポイントの位置情報を決定するという方式で、前記検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成される。
可能な実施形態において、前記人体検出結果は、骨格キーポイントマーク及び輪郭キーポイントマークが付加された検出対象画像、前記骨格キーポイントの位置情報及び前記輪郭キーポイントの位置情報を含むデータ群のうちの1つ又は複数を含む。
可能な実施形態において、該人体検出装置は、前記人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集及び人体画像の貼り付けのうちの1つ又は複数を実行するように構成される実行モジュール154を更に備える。
可能な実施形態において、前記検出モジュール152は、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定するという方式で、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成される。
可能な実施形態において、前記検出モジュール152は、前記検出対象画像に基づいて、少なくとも1回の特徴抽出を行い、特徴抽出を行うたびに得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、複数回の特徴抽出を行う場合、i回目の特徴融合の特徴融合結果に基づいてi+1回目の特徴抽出を行い、iは正整数であるという方式で、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うように構成され、前記検出モジュール152は、最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定するという方式で、特徴融合結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成される。
可能な実施形態において、前記検出モジュール152は、1回目の特徴抽出において、事前訓練された第1特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出し、i+1回の特徴抽出において、事前訓練された第2特徴抽出ネットワークを用いて、i回目の特徴融合の特徴融合結果から、前記第1ターゲット骨格特徴行列、及び前記第1ターゲット輪郭特徴行列を抽出するという方式で、前記検出対象画像に基づいて、少なくとも1回の特徴抽出を行うように構成され、第1特徴抽出ネットワークのネットワークパラメータは、第2特徴抽出ネットワークのネットワークパラメータと異なり、且つ特徴抽出のたびに用いられる第2特徴抽出ネットワークのネットワークパラメータは異なる。
考えられる実現形態において、前記検出モジュール152は、事前訓練された特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るという方式で、抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行うように構成され、前記第2ターゲット骨格特徴行列は、三次元骨格特徴行列であり、該三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、前記二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が、対応する骨格キーポイントに属する確率を表し、前記第2ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、該三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、前記二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表し、特徴融合のたびに用いられる特徴融合ニューラルネットワークのネットワークパラメータは異なる。
考えられる実現形態において、前記検出モジュール152は、最終回の特徴融合で得られた第2ターゲット骨格特徴行列に基づいて、前記骨格キーポイントの位置情報を決定し、最終回の特徴融合で得られた第2ターゲット輪郭特徴行列に基づいて、前記輪郭キーポイントの位置情報を決定するという方式で、最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定するように構成される。
考えられる実現形態において、第1特徴抽出ネットワークは、共通特徴抽出ネットワーク、第1骨格特徴抽出ネットワーク及び第1輪郭特徴抽出ネットワークを含み、前記検出モジュール152は、前記共通特徴抽出ネットワークを用いて、前記検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得ることと、前記第1骨格特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第1骨格特徴行列を得て、前記第1骨格特徴抽出ネットワークにおける第1ターゲット畳み込み層から、第2骨格特徴行列を取得し、前記第1骨格特徴行列及び前記第2骨格特徴行列に基づいて、前記第1ターゲット骨格特徴行列を得ることであって、前記第1ターゲット畳み込み層は、前記第1骨格特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層である、ことと、前記第1輪郭特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第1輪郭特徴行列を得て、前記第1輪郭特徴抽出ネットワークにおける第2ターゲット畳み込み層から、第2輪郭特徴行列を取得し、前記第1輪郭特徴行列及び前記第2輪郭特徴行列に基づいて、前記第1ターゲット輪郭特徴行列を得ることであって、前記第2ターゲット畳み込み層は、前記第1輪郭特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層である、ことと、を含む方式で、第1特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出するように構成される。
考えられる実現形態において、前記検出モジュール152は、前記第1骨格特徴行列及び前記第2骨格特徴行列に対して連結処理を行い、第1連結骨格特徴行列を得て、前記第1連結骨格特徴行列を次元変換処理し、前記第1ターゲット骨格特徴行列を得るという方式で、前記第1骨格特徴行列及び前記第2骨格特徴行列に基づいて、前記第1ターゲット骨格特徴行列を得るように構成され、前記第1輪郭特徴行列及び前記第2輪郭特徴行列に基づいて、前記第1ターゲット輪郭特徴行列を得ることは、前記第1輪郭特徴行列及び前記第2輪郭特徴行列に対して連結処理を行い、第1連結輪郭特徴行列を得ることと、前記第1連結輪郭特徴行列を次元変換処理し、前記ターゲット輪郭特徴行列を得ることと、を含み、前記第1ターゲット骨格特徴行列の次元は、前記第1ターゲット輪郭特徴行列の次元と同じであり、且つ前記第1ターゲット骨格特徴行列と前記第1ターゲット輪郭特徴行列は、同一の次元における次元数が同じである。
可能な実施形態において、前記特徴融合ニューラルネットワークは、第1畳み込みニューラルネットワーク、第2畳み込みニューラルネットワーク、第1変換ニューラルネットワーク及び第2変換ニューラルネットワークを含み、
前記検出モジュール152は、前記第1畳み込みニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列に対して畳み込み処理を行い、第1中間骨格特徴行列を得て、前記第2畳み込みニューラルネットワークを用いて、前記第1ターゲット輪郭特徴行列に対して畳み込み処理を行い、第1中間輪郭特徴行列を得ることと、前記第1中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、第1連結特徴行列を得て、前記第1変換ニューラルネットワークを用いて、前記第1連結特徴行列に対して次元変換を行い、前記第2ターゲット骨格特徴行列を得ることと、前記第1中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第2連結特徴行列を得て、前記第2変換ニューラルネットワークを用いて、前記第2連結特徴行列に対して次元変換を行い、前記第2ターゲット輪郭特徴行列を得ることと、を含む方式で、特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るように構成される。
可能な実施形態において、前記特徴融合ニューラルネットワークは、第1定向畳み込みニューラルネットワーク、第2定向畳み込みニューラルネットワーク、第3畳み込みニューラルネットワーク、第4畳み込みニューラルネットワーク、第3変換ニューラルネットワーク、及び第4変換ニューラルネットワークを含み、
前記検出モジュール152は、前記第1定向畳み込みニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列に対して、定向畳み込み処理を行い、第1定向骨格特徴行列を得て、第3畳み込みニューラルネットワークを用いて、前記第1定向骨格特徴行列に対して畳み込み処理を行い、第2中間骨格特徴行列を得ることと、前記第2定向畳み込みニューラルネットワークを用いて、前記第1ターゲット輪郭特徴行列に対して、定向畳み込み処理を行い、第1定向輪郭特徴行列を得て、第4畳み込みニューラルネットワークを用いて、前記第1定向輪郭特徴に対して、畳み込み処理を行い、第2中間輪郭特徴行列を得ることと、前記第2中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、第3連結特徴行列を得て、第3変換ニューラルネットワークを用いて、前記第3連結特徴行列に対して次元変換を行い、前記第2ターゲット骨格特徴行列を得ることと、前記第2中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第4連結特徴行列を得て、第4変換ニューラルネットワークを用いて、前記第4連結特徴行列に対して次元変換を行い、前記第2ターゲット輪郭特徴行列を得ることと、を含む方式で、特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るように構成される。
可能な実施形態において、前記特徴融合ニューラルネットワークは、変位推定ニューラルネットワーク、第5変換ニューラルネットワークを含み、
前記検出モジュール152は、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第5連結特徴行列を得ることと、前記第5連結特徴行列を前記変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの1つのキーポイントがもう1つのキーポイントまでに移動する変位情報を得て、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとし、該現在のキーポイントのペアであるもう1つのキーポイントに対応する三次元特徴行列から、前記ペアであるもう1つのキーポイントに対応する二次元特徴行列を得ることと、前記ペアであるもう1つのキーポイントから前記現在のキーポイントまでの変位情報に基づいて、前記ペアであるもう1つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応する変位特徴行列を得ることと、各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と、該骨格キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を前記第5変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第2ターゲット骨格特徴行列を生成することと、各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と、該輪郭キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を前記第5変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第2ターゲット輪郭特徴行列を生成することと、を含む方式で、特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るように構成される。
可能な実施形態において、前記人体検出方法は、人体検出モデルにより実現され、前記人体検出モデルは、前記第1特徴抽出ネットワーク及び/又は前記特徴融合ニューラルネットワークを含み、前記人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、前記サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報、及び人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされている。
装置における各モジュールの処理フロー及び各モジュール間のインタラクションフローは、上記方法実施例における関連説明を参照することができ、ここで、詳細な説明を省略する。
本願の実施例は、コンピュータ機器を更に提供する。図16は、本願の実施例によるコンピュータ機器の構造を示す概略図である。前記コンピュータ機器は、
プロセッサ11と、記憶媒体12と、バス13と、を備え、記憶媒体12は、実行可能な命令を記憶するためのものであり、メモリ121及び外部メモリ122を含み、ここのメモリ121は、内部メモリとも呼ばれ、プロセッサ11における処理データ及びハードディスク等の外部メモリ122と交換されるデータを一時的に記憶するためのものであり、プロセッサ11は、メモリ121を介して外部メモリ122とデータ交換を行う。前記コンピュータ機器100が実行される場合、前記プロセッサ11と前記記憶媒体12は、バス13を介して通信し、前記プロセッサ11に、検出対象画像を取得し、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定し、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成するという命令を実行させる。
本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される場合、上記方法の実施例に記載の人体検出方法のステップを実行する。
本願の実施例で提供される人体検出方法のコンピュータプログラム製品は、プログラムコードを記憶したコンピュータ可読記憶媒体を含む。前記プログラムコードに含まれる命令は、上記方法実施例における前記人体検出方法のステップを実行するために用いられる。具体的には、上記方法実施例を参照することができ、ここで詳細な説明を省略する。
説明上の便宜及び簡素化を図るために、上記説明されたシステム、及び装置の具体的な作動過程は、前記方法の実施例における対応した過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解されるべきである。本発明で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明した該ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。
前記機能はソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本発明の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ設備(パソコン、サーバ、又はネットワーク装置など)に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、Uディスク、リムーバブルハードディスク、読み出し専用メモリ(Read-only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
なお、上記実施例は本願の具体的な実施形態に過ぎず、本願の技術的解決手段を説明するためのものであり、これを限定するものではなく、本願の保護範囲はこれに制限されるものではなく、前記実施例を参照しながら、本願を詳細に説明したが、本技術分野を周知するいかなる当業者であれば、本願で開示された技術範囲内で、前記実施例に記載の技術的解決手段に対して変化または代替を容易に思いつくことができ、又は一部の技術的特徴に対して均等物による置換を行うこともでき、これらの修正、変化又は置換は、対応する技術的解決手段の本質を本願の実施例の技術的解決手段の製品及び範囲を離脱させるものではなく、本願の保護範囲内に含まれるものとすることは、当業者であれば、理解すべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。
第4態様によれば、本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される場合、上記第1態様又は第1態様におけるいずれか1つの可能な実施形態における工程を実行する。
例えば、本願は以下の項目を提供する。
(項目1)
人体検出方法であって、前記方法は、
検出対象画像を取得することと、
前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することと、
前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成することと、を含むことを特徴とする、人体検出方法。
(項目2)
前記輪郭キーポイントは、主輪郭キーポイント及び補助輪郭キーポイントを含み、ここで、2つの隣接する前記主輪郭キーポイントの間に、少なくとも1つの補助輪郭キーポイントが存在することを特徴とする
項目1に記載の人体検出方法。
(項目3)
前記検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、
前記検出対象画像に基づいて、前記主輪郭キーポイントの位置情報を決定することと、
前記主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定することと、
決定された前記人体輪郭情報に基づいて、複数の前記補助輪郭キーポイントの位置情報を決定することと、を含むことを特徴とする
項目2に記載の人体検出方法。
(項目4)
前記人体検出結果は、
骨格キーポイントマーク及び輪郭キーポイントマークが付加された検出対象画像、前記骨格キーポイントの位置情報及び前記輪郭キーポイントの位置情報を含むデータ群のうちの1つ又は複数を含むことを特徴とする
項目1から3のいずれか一項に記載の人体検出方法。
(項目5)
前記方法は、
前記人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集及び人体画像の貼り付けのうちの1つ又は複数を実行することを更に含むことを特徴とする
項目4に記載の人体検出方法。
(項目6)
前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、
前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことと、特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定することと、を含むことを特徴とする
項目1から5のいずれか一項に記載の人体検出方法。
(項目7)
前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことは、
前記検出対象画像に基づいて、少なくとも1回の特徴抽出を行い、特徴抽出を行うたびに得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことであって、複数回の特徴抽出を行う場合、i回目の特徴融合の特徴融合結果に基づいてi+1回目の特徴抽出を行い、iは正整数である、ことを含み、
特徴融合結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、
最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定することを含むことを特徴とする
項目6に記載の人体検出方法。
(項目8)
前記検出対象画像に基づいて、少なくとも1回の特徴抽出を行うことは、
1回目の特徴抽出において、事前訓練された第1特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出することと、
i+1回の特徴抽出において、事前訓練された第2特徴抽出ネットワークを用いて、i回目の特徴融合の特徴融合結果から、前記第1ターゲット骨格特徴行列、及び前記第1ターゲット輪郭特徴行列を抽出することと、を含み、
第1特徴抽出ネットワークのネットワークパラメータは、第2特徴抽出ネットワークのネットワークパラメータと異なり、且つ特徴抽出のたびに用いられる第2特徴抽出ネットワークのネットワークパラメータは異なることを特徴とする
項目7に記載の人体検出方法。
(項目9)
抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことは、
事前訓練された特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることを含み、
前記第2ターゲット骨格特徴行列は、三次元骨格特徴行列であり、該三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、前記二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が、対応する骨格キーポイントに属する確率を表し、
前記第2ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、該三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、前記二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表し、
特徴融合のたびに用いられる特徴融合ニューラルネットワークのネットワークパラメータは異なる、ことを含むことを特徴とする
項目8に記載の人体検出方法。
(項目10)
前記第1特徴抽出ネットワークは、共通特徴抽出ネットワーク、第1骨格特徴抽出ネットワーク及び第1輪郭特徴抽出ネットワークを含み、
第1特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出することは、
前記共通特徴抽出ネットワークを用いて、前記検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得ることと、
前記第1骨格特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第1骨格特徴行列を得て、前記第1骨格特徴抽出ネットワークにおける第1ターゲット畳み込み層から、第2骨格特徴行列を取得し、前記第1骨格特徴行列及び前記第2骨格特徴行列に基づいて、前記第1ターゲット骨格特徴行列を得ることであって、前記第1ターゲット畳み込み層は、前記第1骨格特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層である、ことと、
前記第1輪郭特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第1輪郭特徴行列を得て、前記第1輪郭特徴抽出ネットワークにおける第2ターゲット畳み込み層から、第2輪郭特徴行列を取得し、前記第1輪郭特徴行列及び前記第2輪郭特徴行列に基づいて、前記第1ターゲット輪郭特徴行列を得ることであって、前記第2ターゲット畳み込み層は、前記第1輪郭特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層である、ことと、を含むことを特徴とする
項目8に記載の人体検出方法。
(項目11)
第1骨格特徴行列及び前記第2骨格特徴行列に基づいて、前記第1ターゲット骨格特徴行列を得ることは、
前記第1骨格特徴行列及び前記第2骨格特徴行列に対して連結処理を行い、第1連結骨格特徴行列を得ることと、前記第1連結骨格特徴行列を次元変換処理し、前記第1ターゲット骨格特徴行列を得ることと、を含み、
前記第1輪郭特徴行列及び前記第2輪郭特徴行列に基づいて、前記第1ターゲット輪郭特徴行列を得ることは、
前記第1輪郭特徴行列及び前記第2輪郭特徴行列に対して連結処理を行い、第1連結輪郭特徴行列を得ることと、前記第1連結輪郭特徴行列を次元変換処理し、前記ターゲット輪郭特徴行列を得ることと、を含み、
前記第1ターゲット骨格特徴行列の次元は、前記第1ターゲット輪郭特徴行列の次元と同じであり、且つ前記第1ターゲット骨格特徴行列と前記第1ターゲット輪郭特徴行列は、同一の次元における次元数が同じであることを特徴とする
項目10に記載の人体検出方法。
(項目12)
前記特徴融合ニューラルネットワークは、第1畳み込みニューラルネットワーク、第2畳み込みニューラルネットワーク、第1変換ニューラルネットワーク及び第2変換ニューラルネットワークを含み、
特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることは、
前記第1畳み込みニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列に対して畳み込み処理を行い、第1中間骨格特徴行列を得て、前記第2畳み込みニューラルネットワークを用いて、前記第1ターゲット輪郭特徴行列に対して畳み込み処理を行い、第1中間輪郭特徴行列を得ることと、
前記第1中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、第1連結特徴行列を得て、前記第1変換ニューラルネットワークを用いて、前記第1連結特徴行列に対して次元変換を行い、前記第2ターゲット骨格特徴行列を得ることと、
前記第1中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第2連結特徴行列を得て、前記第2変換ニューラルネットワークを用いて、前記第2連結特徴行列に対して次元変換を行い、前記第2ターゲット輪郭特徴行列を得ることと、を含むことを特徴とする
項目9に記載の人体検出方法。
(項目13)
前記特徴融合ニューラルネットワークは、第1定向畳み込みニューラルネットワーク、第2定向畳み込みニューラルネットワーク、第3畳み込みニューラルネットワーク、第4畳み込みニューラルネットワーク、第3変換ニューラルネットワーク、及び第4変換ニューラルネットワークを含み、
特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることは、
前記第1定向畳み込みニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列に対して、定向畳み込み処理を行い、第1定向骨格特徴行列を得て、第3畳み込みニューラルネットワークを用いて、前記第1定向骨格特徴行列に対して畳み込み処理を行い、第2中間骨格特徴行列を得ることと、
前記第2定向畳み込みニューラルネットワークを用いて、前記第1ターゲット輪郭特徴行列に対して、定向畳み込み処理を行い、第1定向輪郭特徴行列を得て、第4畳み込みニューラルネットワークを用いて、前記第1定向輪郭特徴に対して、畳み込み処理を行い、第2中間輪郭特徴行列を得ることと、
前記第2中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、第3連結特徴行列を得て、第3変換ニューラルネットワークを用いて、前記第3連結特徴行列に対して次元変換を行い、前記第2ターゲット骨格特徴行列を得ることと、
前記第2中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第4連結特徴行列を得て、第4変換ニューラルネットワークを用いて、前記第4連結特徴行列に対して次元変換を行い、前記第2ターゲット輪郭特徴行列を得ることと、を含むことを特徴とする
項目9に記載の人体検出方法。
(項目14)
前記特徴融合ニューラルネットワークは、変位推定ニューラルネットワーク、第5変換ニューラルネットワークを含み、
特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることは、
前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第5連結特徴行列を得ることと、
前記第5連結特徴行列を前記変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの1つのキーポイントがもう1つのキーポイントまでに移動する変位情報を得て、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとし、該現在のキーポイントのペアであるもう1つのキーポイントに対応する三次元特徴行列から、前記ペアであるもう1つのキーポイントに対応する二次元特徴行列を得ることと、
前記ペアであるもう1つのキーポイントから前記現在のキーポイントまでの変位情報に基づいて、前記ペアであるもう1つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応する変位特徴行列を得ることと、
各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と、該骨格キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を前記第5変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第2ターゲット骨格特徴行列を生成することと、
各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と、該輪郭キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を前記第5変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第2ターゲット輪郭特徴行列を生成することと、を含むことを特徴とする
項目9に記載の人体検出方法。
(項目15)
前記人体検出方法は、人体検出モデルにより実現され、前記人体検出モデルは、前記第1特徴抽出ネットワーク及び/又は前記特徴融合ニューラルネットワークを含み、
前記人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、前記サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報、及び人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされていることを特徴とする
項目1から14のいずれか一項に記載の人体検出方法。
(項目16)
人体検出装置であって、前記装置は、
検出対象画像を取得するように構成される取得モジュールと、
前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成される検出モジュールと、
前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成するように構成される生成モジュールと、を備えることを特徴とする、人体検出装置。
(項目17)
前記輪郭キーポイントは、主輪郭キーポイント及び補助輪郭キーポイントを含み、ここで、2つの隣接する前記主輪郭キーポイントの間に、少なくとも1つの補助輪郭キーポイントが存在することを特徴とする
項目16に記載の人体検出装置。
(項目18)
前記検出モジュールは、前記検出対象画像に基づいて、前記主輪郭キーポイントの位置情報を決定し、前記主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定し、決定された前記人体輪郭情報に基づいて、複数の前記補助輪郭キーポイントの位置情報を決定するという方式で、前記検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成されることを特徴とする
項目17に記載の人体検出装置。
(項目19)
前記人体検出結果は、
骨格キーポイントマーク及び輪郭キーポイントマークが付加された検出対象画像、前記骨格キーポイントの位置情報及び前記輪郭キーポイントの位置情報を含むデータ群のうちの1つ又は複数を含むことを特徴とする
項目16から18のいずれか一項に記載の人体検出装置。
(項目20)
前記人体検出装置は、
前記人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集及び人体画像の貼り付けのうちの1つ又は複数を実行するように構成される実行モジュールを更に備えることを特徴とする
項目19に記載の人体検出装置。
(項目21)
前記検出モジュールは、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定するという方式で、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成されることを特徴とする
項目16から項目20のいずれか一項に記載の人体検出装置。
(項目22)
前記検出モジュールは、前記検出対象画像に基づいて、少なくとも1回の特徴抽出を行い、特徴抽出を行うたびに得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、複数回の特徴抽出を行う場合、i回目の特徴融合の特徴融合結果に基づいてi+1回目の特徴抽出を行い、iは正整数であるという方式で、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うように構成され、
前記検出モジュールは、最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定するという方式で、特徴融合結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成されることを特徴とする
項目21に記載の人体検出装置。
(項目23)
前記検出モジュールは、1回目の特徴抽出において、事前訓練された第1特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出し、i+1回の特徴抽出において、事前訓練された第2特徴抽出ネットワークを用いて、i回目の特徴融合の特徴融合結果から、前記第1ターゲット骨格特徴行列、及び前記第1ターゲット輪郭特徴行列を抽出するという方式で、前記検出対象画像に基づいて、少なくとも1回の特徴抽出を行うように構成され、
第1特徴抽出ネットワークのネットワークパラメータは、第2特徴抽出ネットワークのネットワークパラメータと異なり、且つ特徴抽出のたびに用いられる第2特徴抽出ネットワークのネットワークパラメータは異なることを特徴とする
項目22に記載の人体検出装置。
(項目24)
前記検出モジュールは、事前訓練された特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るという方式で、抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行うように構成され、
前記第2ターゲット骨格特徴行列は、三次元骨格特徴行列であり、該三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、前記二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が、対応する骨格キーポイントに属する確率を表し、
前記第2ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、該三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、前記二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表し、
特徴融合のたびに用いられる特徴融合ニューラルネットワークのネットワークパラメータは異なることを特徴とする
項目23に記載の人体検出装置。
(項目25)
第1特徴抽出ネットワークは、共通特徴抽出ネットワーク、第1骨格特徴抽出ネットワーク及び第1輪郭特徴抽出ネットワークを含み、
前記検出モジュールは、
前記共通特徴抽出ネットワークを用いて、前記検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得ることと、
前記第1骨格特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第1骨格特徴行列を得て、前記第1骨格特徴抽出ネットワークにおける第1ターゲット畳み込み層から、第2骨格特徴行列を取得し、前記第1骨格特徴行列及び前記第2骨格特徴行列に基づいて、前記第1ターゲット骨格特徴行列を得ることであって、前記第1ターゲット畳み込み層は、前記第1骨格特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層であることと、
前記第1輪郭特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第1輪郭特徴行列を得て、前記第1輪郭特徴抽出ネットワークにおける第2ターゲット畳み込み層から、第2輪郭特徴行列を取得し、前記第1輪郭特徴行列及び前記第2輪郭特徴行列に基づいて、前記第1ターゲット輪郭特徴行列を得ることであって、前記第2ターゲット畳み込み層は、前記第1輪郭特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層であることと、を実行する、
という方式で、第1特徴抽出ネットワークを用いて、検出対象画像から、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列を抽出するように構成されることを特徴とする
項目23に記載の人体検出装置。
(項目26)
前記検出モジュールは、前記第1骨格特徴行列及び前記第2骨格特徴行列に対して連結処理を行い、第1連結骨格特徴行列を得て、前記第1連結骨格特徴行列を次元変換処理し、前記第1ターゲット骨格特徴行列を得るという方式で、前記第1骨格特徴行列及び前記第2骨格特徴行列に基づいて、前記第1ターゲット骨格特徴行列を得るように構成され、
前記第1輪郭特徴行列及び前記第2輪郭特徴行列に基づいて、前記第1ターゲット輪郭特徴行列を得ることは、
前記第1輪郭特徴行列及び前記第2輪郭特徴行列に対して連結処理を行い、第1連結輪郭特徴行列を得ることと、
前記第1連結輪郭特徴行列を次元変換処理し、前記ターゲット輪郭特徴行列を得ることと、を含み、
前記第1ターゲット骨格特徴行列の次元は、前記第1ターゲット輪郭特徴行列の次元と同じであり、且つ前記第1ターゲット骨格特徴行列と前記第1ターゲット輪郭特徴行列は、同一の次元における次元数が同じであることを特徴とする
項目25に記載の人体検出装置。
(項目27)
前記特徴融合ニューラルネットワークは、第1畳み込みニューラルネットワーク、第2畳み込みニューラルネットワーク、第1変換ニューラルネットワーク及び第2変換ニューラルネットワークを含み、
前記検出モジュールは、
前記第1畳み込みニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列に対して畳み込み処理を行い、第1中間骨格特徴行列を得て、前記第2畳み込みニューラルネットワークを用いて、前記第1ターゲット輪郭特徴行列に対して畳み込み処理を行い、第1中間輪郭特徴行列を得ることと、
前記第1中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、第1連結特徴行列を得て、前記第1変換ニューラルネットワークを用いて、前記第1連結特徴行列に対して次元変換を行い、前記第2ターゲット骨格特徴行列を得ることと、
前記第1中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第2連結特徴行列を得て、前記第2変換ニューラルネットワークを用いて、前記第2連結特徴行列に対して次元変換を行い、前記第2ターゲット輪郭特徴行列を得ることと、を実行する、
という方式で、特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るように構成されることを特徴とする
項目24に記載の人体検出装置。
(項目28)
前記特徴融合ニューラルネットワークは、第1定向畳み込みニューラルネットワーク、第2定向畳み込みニューラルネットワーク、第3畳み込みニューラルネットワーク、第4畳み込みニューラルネットワーク、第3変換ニューラルネットワーク、及び第4変換ニューラルネットワークを含み、
前記検出モジュールは、
前記第1定向畳み込みニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列に対して、定向畳み込み処理を行い、第1定向骨格特徴行列を得て、第3畳み込みニューラルネットワークを用いて、前記第1定向骨格特徴行列に対して畳み込み処理を行い、第2中間骨格特徴行列を得ることと、
前記第2定向畳み込みニューラルネットワークを用いて、前記第1ターゲット輪郭特徴行列に対して、定向畳み込み処理を行い、第1定向輪郭特徴行列を得て、第4畳み込みニューラルネットワークを用いて、前記第1定向輪郭特徴に対して、畳み込み処理を行い、第2中間輪郭特徴行列を得ることと、
前記第2中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、第3連結特徴行列を得て、第3変換ニューラルネットワークを用いて、前記第3連結特徴行列に対して次元変換を行い、前記第2ターゲット骨格特徴行列を得ることと、
前記第2中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第4連結特徴行列を得て、第4変換ニューラルネットワークを用いて、前記第4連結特徴行列に対して次元変換を行い、前記第2ターゲット輪郭特徴行列を得ることと、を実行する、
という方式で、特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るように構成されることを特徴とする
項目24に記載の人体検出装置。
(項目29)
前記特徴融合ニューラルネットワークは、変位推定ニューラルネットワーク、第5変換ニューラルネットワークを含み、
前記検出モジュールは、
前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第5連結特徴行列を得ることと、
前記第5連結特徴行列を前記変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの1つのキーポイントがもう1つのキーポイントまでに移動する変位情報を得て、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとし、該現在のキーポイントのペアであるもう1つのキーポイントに対応する三次元特徴行列から、前記ペアであるもう1つのキーポイントに対応する二次元特徴行列を得ることと、
前記ペアであるもう1つのキーポイントから前記現在のキーポイントまでの変位情報に基づいて、前記ペアであるもう1つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応する変位特徴行列を得ることと、
各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と、該骨格キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を前記第5変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第2ターゲット骨格特徴行列を生成することと、
各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と、該輪郭キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を前記第5変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第2ターゲット輪郭特徴行列を生成することと、を実行する、
という方式で、特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るように構成されることを特徴とする
項目24に記載の人体検出装置。
(項目30)
前記人体検出装置の人体検出機能は、人体検出モデルにより実現され、前記人体検出モデルは、前記第1特徴抽出ネットワーク及び/又は前記特徴融合ニューラルネットワークを含み、
前記人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、前記サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報、及び人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされていることを特徴とする
項目16から29のいずれか一項に記載の人体検出装置。
(項目31)
コンピュータ機器であって、プロセッサと、非一時的記憶媒体と、バスと、を備え、前記非一時的記憶媒体に、前記プロセッサによる実行可能な機器可読命令が記憶されており、コンピュータ機器が実行される場合、前記プロセッサと前記非一時的記憶媒体は、バスを介して通信し、前記機器可読命令は、前記プロセッサにより実行され、項目1から15のいずれか一項に記載の方法のステップを実行することを特徴とする、コンピュータ機器。
(項目32)
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行され、項目1から15のいずれか一項に記載の方法のステップを実行することを特徴とする、コンピュータ可読記憶媒体。

Claims (32)

  1. 人体検出方法であって、前記方法は、
    検出対象画像を取得することと、
    前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することと、
    前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成することと、を含むことを特徴とする、人体検出方法。
  2. 前記輪郭キーポイントは、主輪郭キーポイント及び補助輪郭キーポイントを含み、ここで、2つの隣接する前記主輪郭キーポイントの間に、少なくとも1つの補助輪郭キーポイントが存在することを特徴とする
    請求項1に記載の人体検出方法。
  3. 前記検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、
    前記検出対象画像に基づいて、前記主輪郭キーポイントの位置情報を決定することと、
    前記主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定することと、
    決定された前記人体輪郭情報に基づいて、複数の前記補助輪郭キーポイントの位置情報を決定することと、を含むことを特徴とする
    請求項2に記載の人体検出方法。
  4. 前記人体検出結果は、
    骨格キーポイントマーク及び輪郭キーポイントマークが付加された検出対象画像、前記骨格キーポイントの位置情報及び前記輪郭キーポイントの位置情報を含むデータ群のうちの1つ又は複数を含むことを特徴とする
    請求項1から3のいずれか一項に記載の人体検出方法。
  5. 前記方法は、
    前記人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集及び人体画像の貼り付けのうちの1つ又は複数を実行することを更に含むことを特徴とする
    請求項4に記載の人体検出方法。
  6. 前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、
    前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことと、特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定することと、を含むことを特徴とする
    請求項1から5のいずれか一項に記載の人体検出方法。
  7. 前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことは、
    前記検出対象画像に基づいて、少なくとも1回の特徴抽出を行い、特徴抽出を行うたびに得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことであって、複数回の特徴抽出を行う場合、i回目の特徴融合の特徴融合結果に基づいてi+1回目の特徴抽出を行い、iは正整数である、ことを含み、
    特徴融合結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定することは、
    最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定することを含むことを特徴とする
    請求項6に記載の人体検出方法。
  8. 前記検出対象画像に基づいて、少なくとも1回の特徴抽出を行うことは、
    1回目の特徴抽出において、事前訓練された第1特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出することと、
    i+1回の特徴抽出において、事前訓練された第2特徴抽出ネットワークを用いて、i回目の特徴融合の特徴融合結果から、前記第1ターゲット骨格特徴行列、及び前記第1ターゲット輪郭特徴行列を抽出することと、を含み、
    第1特徴抽出ネットワークのネットワークパラメータは、第2特徴抽出ネットワークのネットワークパラメータと異なり、且つ特徴抽出のたびに用いられる第2特徴抽出ネットワークのネットワークパラメータは異なることを特徴とする
    請求項7に記載の人体検出方法。
  9. 抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行うことは、
    事前訓練された特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることを含み、
    前記第2ターゲット骨格特徴行列は、三次元骨格特徴行列であり、該三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、前記二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が、対応する骨格キーポイントに属する確率を表し、
    前記第2ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、該三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、前記二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表し、
    特徴融合のたびに用いられる特徴融合ニューラルネットワークのネットワークパラメータは異なる、ことを含むことを特徴とする
    請求項8に記載の人体検出方法。
  10. 前記第1特徴抽出ネットワークは、共通特徴抽出ネットワーク、第1骨格特徴抽出ネットワーク及び第1輪郭特徴抽出ネットワークを含み、
    第1特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出することは、
    前記共通特徴抽出ネットワークを用いて、前記検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得ることと、
    前記第1骨格特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第1骨格特徴行列を得て、前記第1骨格特徴抽出ネットワークにおける第1ターゲット畳み込み層から、第2骨格特徴行列を取得し、前記第1骨格特徴行列及び前記第2骨格特徴行列に基づいて、前記第1ターゲット骨格特徴行列を得ることであって、前記第1ターゲット畳み込み層は、前記第1骨格特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層である、ことと、
    前記第1輪郭特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第1輪郭特徴行列を得て、前記第1輪郭特徴抽出ネットワークにおける第2ターゲット畳み込み層から、第2輪郭特徴行列を取得し、前記第1輪郭特徴行列及び前記第2輪郭特徴行列に基づいて、前記第1ターゲット輪郭特徴行列を得ることであって、前記第2ターゲット畳み込み層は、前記第1輪郭特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層である、ことと、を含むことを特徴とする
    請求項8に記載の人体検出方法。
  11. 第1骨格特徴行列及び前記第2骨格特徴行列に基づいて、前記第1ターゲット骨格特徴行列を得ることは、
    前記第1骨格特徴行列及び前記第2骨格特徴行列に対して連結処理を行い、第1連結骨格特徴行列を得ることと、前記第1連結骨格特徴行列を次元変換処理し、前記第1ターゲット骨格特徴行列を得ることと、を含み、
    前記第1輪郭特徴行列及び前記第2輪郭特徴行列に基づいて、前記第1ターゲット輪郭特徴行列を得ることは、
    前記第1輪郭特徴行列及び前記第2輪郭特徴行列に対して連結処理を行い、第1連結輪郭特徴行列を得ることと、前記第1連結輪郭特徴行列を次元変換処理し、前記ターゲット輪郭特徴行列を得ることと、を含み、
    前記第1ターゲット骨格特徴行列の次元は、前記第1ターゲット輪郭特徴行列の次元と同じであり、且つ前記第1ターゲット骨格特徴行列と前記第1ターゲット輪郭特徴行列は、同一の次元における次元数が同じであることを特徴とする
    請求項10に記載の人体検出方法。
  12. 前記特徴融合ニューラルネットワークは、第1畳み込みニューラルネットワーク、第2畳み込みニューラルネットワーク、第1変換ニューラルネットワーク及び第2変換ニューラルネットワークを含み、
    特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることは、
    前記第1畳み込みニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列に対して畳み込み処理を行い、第1中間骨格特徴行列を得て、前記第2畳み込みニューラルネットワークを用いて、前記第1ターゲット輪郭特徴行列に対して畳み込み処理を行い、第1中間輪郭特徴行列を得ることと、
    前記第1中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、第1連結特徴行列を得て、前記第1変換ニューラルネットワークを用いて、前記第1連結特徴行列に対して次元変換を行い、前記第2ターゲット骨格特徴行列を得ることと、
    前記第1中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第2連結特徴行列を得て、前記第2変換ニューラルネットワークを用いて、前記第2連結特徴行列に対して次元変換を行い、前記第2ターゲット輪郭特徴行列を得ることと、を含むことを特徴とする
    請求項9に記載の人体検出方法。
  13. 前記特徴融合ニューラルネットワークは、第1定向畳み込みニューラルネットワーク、第2定向畳み込みニューラルネットワーク、第3畳み込みニューラルネットワーク、第4畳み込みニューラルネットワーク、第3変換ニューラルネットワーク、及び第4変換ニューラルネットワークを含み、
    特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることは、
    前記第1定向畳み込みニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列に対して、定向畳み込み処理を行い、第1定向骨格特徴行列を得て、第3畳み込みニューラルネットワークを用いて、前記第1定向骨格特徴行列に対して畳み込み処理を行い、第2中間骨格特徴行列を得ることと、
    前記第2定向畳み込みニューラルネットワークを用いて、前記第1ターゲット輪郭特徴行列に対して、定向畳み込み処理を行い、第1定向輪郭特徴行列を得て、第4畳み込みニューラルネットワークを用いて、前記第1定向輪郭特徴に対して、畳み込み処理を行い、第2中間輪郭特徴行列を得ることと、
    前記第2中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、第3連結特徴行列を得て、第3変換ニューラルネットワークを用いて、前記第3連結特徴行列に対して次元変換を行い、前記第2ターゲット骨格特徴行列を得ることと、
    前記第2中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第4連結特徴行列を得て、第4変換ニューラルネットワークを用いて、前記第4連結特徴行列に対して次元変換を行い、前記第2ターゲット輪郭特徴行列を得ることと、を含むことを特徴とする
    請求項9に記載の人体検出方法。
  14. 前記特徴融合ニューラルネットワークは、変位推定ニューラルネットワーク、第5変換ニューラルネットワークを含み、
    特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得ることは、
    前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第5連結特徴行列を得ることと、
    前記第5連結特徴行列を前記変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの1つのキーポイントがもう1つのキーポイントまでに移動する変位情報を得て、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとし、該現在のキーポイントのペアであるもう1つのキーポイントに対応する三次元特徴行列から、前記ペアであるもう1つのキーポイントに対応する二次元特徴行列を得ることと、
    前記ペアであるもう1つのキーポイントから前記現在のキーポイントまでの変位情報に基づいて、前記ペアであるもう1つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応する変位特徴行列を得ることと、
    各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と、該骨格キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を前記第5変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第2ターゲット骨格特徴行列を生成することと、
    各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と、該輪郭キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を前記第5変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第2ターゲット輪郭特徴行列を生成することと、を含むことを特徴とする
    請求項9に記載の人体検出方法。
  15. 前記人体検出方法は、人体検出モデルにより実現され、前記人体検出モデルは、前記第1特徴抽出ネットワーク及び/又は前記特徴融合ニューラルネットワークを含み、
    前記人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、前記サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報、及び人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされていることを特徴とする
    請求項1から14のいずれか一項に記載の人体検出方法。
  16. 人体検出装置であって、前記装置は、
    検出対象画像を取得するように構成される取得モジュールと、
    前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成される検出モジュールと、
    前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報に基づいて、人体検出結果を生成するように構成される生成モジュールと、を備えることを特徴とする、人体検出装置。
  17. 前記輪郭キーポイントは、主輪郭キーポイント及び補助輪郭キーポイントを含み、ここで、2つの隣接する前記主輪郭キーポイントの間に、少なくとも1つの補助輪郭キーポイントが存在することを特徴とする
    請求項16に記載の人体検出装置。
  18. 前記検出モジュールは、前記検出対象画像に基づいて、前記主輪郭キーポイントの位置情報を決定し、前記主輪郭キーポイントの位置情報に基づいて、人体輪郭情報を決定し、決定された前記人体輪郭情報に基づいて、複数の前記補助輪郭キーポイントの位置情報を決定するという方式で、前記検出対象画像に基づいて、人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成されることを特徴とする
    請求項17に記載の人体検出装置。
  19. 前記人体検出結果は、
    骨格キーポイントマーク及び輪郭キーポイントマークが付加された検出対象画像、前記骨格キーポイントの位置情報及び前記輪郭キーポイントの位置情報を含むデータ群のうちの1つ又は複数を含むことを特徴とする
    請求項16から18のいずれか一項に記載の人体検出装置。
  20. 前記人体検出装置は、
    前記人体検出結果に基づいて、人体動作認識、人体姿勢検出、人体輪郭調整、人体画像編集及び人体画像の貼り付けのうちの1つ又は複数を実行するように構成される実行モジュールを更に備えることを特徴とする
    請求項19に記載の人体検出装置。
  21. 前記検出モジュールは、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定するという方式で、前記検出対象画像に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成されることを特徴とする
    請求項16から請求項20のいずれか一項に記載の人体検出装置。
  22. 前記検出モジュールは、前記検出対象画像に基づいて、少なくとも1回の特徴抽出を行い、特徴抽出を行うたびに得られた骨格特徴及び輪郭特徴に対して特徴融合を行い、複数回の特徴抽出を行う場合、i回目の特徴融合の特徴融合結果に基づいてi+1回目の特徴抽出を行い、iは正整数であるという方式で、前記検出対象画像に基づいて、特徴抽出を行い、骨格特徴及び輪郭特徴を得て、得られた骨格特徴及び輪郭特徴に対して特徴融合を行うように構成され、
    前記検出モジュールは、最終回の特徴融合の特徴融合結果に基づいて、前記骨格キーポイントの位置情報、及び前記輪郭キーポイントの位置情報を決定するという方式で、特徴融合結果に基づいて、人体骨格構造を示すための骨格キーポイントの位置情報、及び人体輪郭を示すための輪郭キーポイントの位置情報を決定するように構成されることを特徴とする
    請求項21に記載の人体検出装置。
  23. 前記検出モジュールは、1回目の特徴抽出において、事前訓練された第1特徴抽出ネットワークを用いて、検出対象画像から、人体骨格特徴を示すための骨格キーポイントの第1ターゲット骨格特徴行列を抽出し、人体輪郭特徴を示すための輪郭キーポイントの第1ターゲット輪郭特徴行列を抽出し、i+1回の特徴抽出において、事前訓練された第2特徴抽出ネットワークを用いて、i回目の特徴融合の特徴融合結果から、前記第1ターゲット骨格特徴行列、及び前記第1ターゲット輪郭特徴行列を抽出するという方式で、前記検出対象画像に基づいて、少なくとも1回の特徴抽出を行うように構成され、
    第1特徴抽出ネットワークのネットワークパラメータは、第2特徴抽出ネットワークのネットワークパラメータと異なり、且つ特徴抽出のたびに用いられる第2特徴抽出ネットワークのネットワークパラメータは異なることを特徴とする
    請求項22に記載の人体検出装置。
  24. 前記検出モジュールは、事前訓練された特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るという方式で、抽出して得られた骨格特徴及び輪郭特徴に対して特徴融合を行うように構成され、
    前記第2ターゲット骨格特徴行列は、三次元骨格特徴行列であり、該三次元骨格特徴行列は、各骨格キーポイントにそれぞれ対応する二次元骨格特徴行列を含み、前記二次元骨格特徴行列における各要素の値は、該要素に対応する画素点が、対応する骨格キーポイントに属する確率を表し、
    前記第2ターゲット輪郭特徴行列は、三次元輪郭特徴行列であり、該三次元輪郭特徴行列は、各輪郭キーポイントにそれぞれ対応する二次元輪郭特徴行列を含み、前記二次元輪郭特徴行列における各要素の値は、該要素に対応する画素点が、対応する輪郭キーポイントに属する確率を表し、
    特徴融合のたびに用いられる特徴融合ニューラルネットワークのネットワークパラメータは異なることを特徴とする
    請求項23に記載の人体検出装置。
  25. 第1特徴抽出ネットワークは、共通特徴抽出ネットワーク、第1骨格特徴抽出ネットワーク及び第1輪郭特徴抽出ネットワークを含み、
    前記検出モジュールは、
    前記共通特徴抽出ネットワークを用いて、前記検出対象画像に対して畳み込み処理を行い、骨格特徴及び輪郭特徴を含む基礎特徴行列を得ることと、
    前記第1骨格特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第1骨格特徴行列を得て、前記第1骨格特徴抽出ネットワークにおける第1ターゲット畳み込み層から、第2骨格特徴行列を取得し、前記第1骨格特徴行列及び前記第2骨格特徴行列に基づいて、前記第1ターゲット骨格特徴行列を得ることであって、前記第1ターゲット畳み込み層は、前記第1骨格特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層であることと、
    前記第1輪郭特徴抽出ネットワークを用いて、前記基礎特徴行列に対して畳み込み処理を行い、第1輪郭特徴行列を得て、前記第1輪郭特徴抽出ネットワークにおける第2ターゲット畳み込み層から、第2輪郭特徴行列を取得し、前記第1輪郭特徴行列及び前記第2輪郭特徴行列に基づいて、前記第1ターゲット輪郭特徴行列を得ることであって、前記第2ターゲット畳み込み層は、前記第1輪郭特徴抽出ネットワークにおける、最後の1つの畳み込み層以外のいずれか1つの畳み込み層であることと、を実行する、
    という方式で、第1特徴抽出ネットワークを用いて、検出対象画像から、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列を抽出するように構成されることを特徴とする
    請求項23に記載の人体検出装置。
  26. 前記検出モジュールは、前記第1骨格特徴行列及び前記第2骨格特徴行列に対して連結処理を行い、第1連結骨格特徴行列を得て、前記第1連結骨格特徴行列を次元変換処理し、前記第1ターゲット骨格特徴行列を得るという方式で、前記第1骨格特徴行列及び前記第2骨格特徴行列に基づいて、前記第1ターゲット骨格特徴行列を得るように構成され、
    前記第1輪郭特徴行列及び前記第2輪郭特徴行列に基づいて、前記第1ターゲット輪郭特徴行列を得ることは、
    前記第1輪郭特徴行列及び前記第2輪郭特徴行列に対して連結処理を行い、第1連結輪郭特徴行列を得ることと、
    前記第1連結輪郭特徴行列を次元変換処理し、前記ターゲット輪郭特徴行列を得ることと、を含み、
    前記第1ターゲット骨格特徴行列の次元は、前記第1ターゲット輪郭特徴行列の次元と同じであり、且つ前記第1ターゲット骨格特徴行列と前記第1ターゲット輪郭特徴行列は、同一の次元における次元数が同じであることを特徴とする
    請求項25に記載の人体検出装置。
  27. 前記特徴融合ニューラルネットワークは、第1畳み込みニューラルネットワーク、第2畳み込みニューラルネットワーク、第1変換ニューラルネットワーク及び第2変換ニューラルネットワークを含み、
    前記検出モジュールは、
    前記第1畳み込みニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列に対して畳み込み処理を行い、第1中間骨格特徴行列を得て、前記第2畳み込みニューラルネットワークを用いて、前記第1ターゲット輪郭特徴行列に対して畳み込み処理を行い、第1中間輪郭特徴行列を得ることと、
    前記第1中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、第1連結特徴行列を得て、前記第1変換ニューラルネットワークを用いて、前記第1連結特徴行列に対して次元変換を行い、前記第2ターゲット骨格特徴行列を得ることと、
    前記第1中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第2連結特徴行列を得て、前記第2変換ニューラルネットワークを用いて、前記第2連結特徴行列に対して次元変換を行い、前記第2ターゲット輪郭特徴行列を得ることと、を実行する、
    という方式で、特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るように構成されることを特徴とする
    請求項24に記載の人体検出装置。
  28. 前記特徴融合ニューラルネットワークは、第1定向畳み込みニューラルネットワーク、第2定向畳み込みニューラルネットワーク、第3畳み込みニューラルネットワーク、第4畳み込みニューラルネットワーク、第3変換ニューラルネットワーク、及び第4変換ニューラルネットワークを含み、
    前記検出モジュールは、
    前記第1定向畳み込みニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列に対して、定向畳み込み処理を行い、第1定向骨格特徴行列を得て、第3畳み込みニューラルネットワークを用いて、前記第1定向骨格特徴行列に対して畳み込み処理を行い、第2中間骨格特徴行列を得ることと、
    前記第2定向畳み込みニューラルネットワークを用いて、前記第1ターゲット輪郭特徴行列に対して、定向畳み込み処理を行い、第1定向輪郭特徴行列を得て、第4畳み込みニューラルネットワークを用いて、前記第1定向輪郭特徴に対して、畳み込み処理を行い、第2中間輪郭特徴行列を得ることと、
    前記第2中間輪郭特徴行列と前記第1ターゲット骨格特徴行列に対して連結処理を行い、第3連結特徴行列を得て、第3変換ニューラルネットワークを用いて、前記第3連結特徴行列に対して次元変換を行い、前記第2ターゲット骨格特徴行列を得ることと、
    前記第2中間骨格特徴行列と前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第4連結特徴行列を得て、第4変換ニューラルネットワークを用いて、前記第4連結特徴行列に対して次元変換を行い、前記第2ターゲット輪郭特徴行列を得ることと、を実行する、
    という方式で、特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るように構成されることを特徴とする
    請求項24に記載の人体検出装置。
  29. 前記特徴融合ニューラルネットワークは、変位推定ニューラルネットワーク、第5変換ニューラルネットワークを含み、
    前記検出モジュールは、
    前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して連結処理を行い、第5連結特徴行列を得ることと、
    前記第5連結特徴行列を前記変位推定ニューラルネットワークに入力し、事前決定された複数組のキーポイントペアに対して変位推定を行い、各組のキーポイントペアのうちの1つのキーポイントがもう1つのキーポイントまでに移動する変位情報を得て、各組のキーポイントペアのうちの各キーポイントをそれぞれ現在のキーポイントとし、該現在のキーポイントのペアであるもう1つのキーポイントに対応する三次元特徴行列から、前記ペアであるもう1つのキーポイントに対応する二次元特徴行列を得ることと、
    前記ペアであるもう1つのキーポイントから前記現在のキーポイントまでの変位情報に基づいて、前記ペアであるもう1つのキーポイントに対応する二次元特徴行列における要素に対して位置変換を行い、該現在のキーポイントに対応する変位特徴行列を得ることと、
    各骨格キーポイントについて、該骨格キーポイントに対応する二次元特徴行列と、該骨格キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該骨格キーポイントの連結二次元特徴行列を得て、該骨格キーポイントの連結二次元特徴行列を前記第5変換ニューラルネットワークに入力し、該骨格キーポイントに対応するターゲット二次元特徴行列を得て、各骨格キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第2ターゲット骨格特徴行列を生成することと、
    各輪郭キーポイントについて、該輪郭キーポイントに対応する二次元特徴行列と、該輪郭キーポイントに対応する各変位特徴行列とに対して連結処理を行い、該輪郭キーポイントの連結二次元特徴行列を得て、該輪郭キーポイントの連結二次元特徴行列を前記第5変換ニューラルネットワークに入力し、該輪郭キーポイントに対応するターゲット二次元特徴行列を得て、各輪郭キーポイントにそれぞれ対応するターゲット二次元特徴行列に基づいて、前記第2ターゲット輪郭特徴行列を生成することと、を実行する、
    という方式で、特徴融合ニューラルネットワークを用いて、前記第1ターゲット骨格特徴行列及び前記第1ターゲット輪郭特徴行列に対して特徴融合を行い、第2ターゲット骨格特徴行列及び第2ターゲット輪郭特徴行列を得るように構成されることを特徴とする
    請求項24に記載の人体検出装置。
  30. 前記人体検出装置の人体検出機能は、人体検出モデルにより実現され、前記人体検出モデルは、前記第1特徴抽出ネットワーク及び/又は前記特徴融合ニューラルネットワークを含み、
    前記人体検出モデルは、訓練サンプル集合におけるサンプル画像を利用して訓練されたものであり、前記サンプル画像に、人体骨格構造の骨格キーポイントの実際の位置情報、及び人体輪郭の輪郭キーポイントの実際の位置情報がラベル付けされていることを特徴とする
    請求項16から29のいずれか一項に記載の人体検出装置。
  31. コンピュータ機器であって、プロセッサと、非一時的記憶媒体と、バスと、を備え、前記非一時的記憶媒体に、前記プロセッサによる実行可能な機器可読命令が記憶されており、コンピュータ機器が実行される場合、前記プロセッサと前記非一時的記憶媒体は、バスを介して通信し、前記機器可読命令は、前記プロセッサにより実行され、請求項1から15のいずれか一項に記載の方法のステップを実行することを特徴とする、コンピュータ機器。
  32. コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行され、請求項1から15のいずれか一項に記載の方法のステップを実行することを特徴とする、コンピュータ可読記憶媒体。
JP2020572391A 2019-09-27 2020-04-29 人体検出方法、装置、コンピュータ機器及び記憶媒体 Active JP7101829B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910926373.4A CN110705448B (zh) 2019-09-27 2019-09-27 一种人体检测方法及装置
CN201910926373.4 2019-09-27
PCT/CN2020/087826 WO2021057027A1 (zh) 2019-09-27 2020-04-29 人体检测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022503426A true JP2022503426A (ja) 2022-01-12
JP7101829B2 JP7101829B2 (ja) 2022-07-15

Family

ID=69196895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020572391A Active JP7101829B2 (ja) 2019-09-27 2020-04-29 人体検出方法、装置、コンピュータ機器及び記憶媒体

Country Status (9)

Country Link
US (1) US20210174074A1 (ja)
EP (1) EP3828765A4 (ja)
JP (1) JP7101829B2 (ja)
KR (1) KR20210038436A (ja)
CN (1) CN110705448B (ja)
AU (1) AU2020335016A1 (ja)
SG (1) SG11202101794SA (ja)
TW (1) TWI742690B (ja)
WO (1) WO2021057027A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705448B (zh) * 2019-09-27 2023-01-20 北京市商汤科技开发有限公司 一种人体检测方法及装置
CN111291793B (zh) * 2020-01-20 2023-11-14 北京大学口腔医学院 一种网格曲面的元素分类方法、装置及存储介质
CN111476291B (zh) * 2020-04-03 2023-07-25 南京星火技术有限公司 数据处理方法,装置及存储介质
CN111640197A (zh) * 2020-06-09 2020-09-08 上海商汤智能科技有限公司 一种增强现实ar特效控制方法、装置及设备
CN113469221A (zh) * 2021-06-09 2021-10-01 浙江大华技术股份有限公司 身份识别模型的训练方法和身份识别方法以及相关设备
CN113486751B (zh) * 2021-06-29 2023-07-04 西北大学 一种基于图卷积和边缘权重注意力的行人特征提取方法
CN113469018B (zh) * 2021-06-29 2024-02-23 中北大学 基于rgb与三维骨骼的多模态交互行为识别方法
CN113743257B (zh) * 2021-08-20 2024-05-14 江苏大学 一种融合时空特征的施工高空作业失稳状态检测方法
CN113837306B (zh) * 2021-09-29 2024-04-12 南京邮电大学 一种基于人体关键点时空图模型的异常行为检测方法
CN114299288A (zh) * 2021-12-23 2022-04-08 广州方硅信息技术有限公司 图像分割方法、装置、设备和存储介质
CN114519666B (zh) * 2022-02-18 2023-09-19 广州方硅信息技术有限公司 直播图像矫正方法、装置、设备及存储介质
CN115019386B (zh) * 2022-04-15 2024-06-14 北京航空航天大学 基于深度学习的运动辅助训练方法
CN115050101B (zh) * 2022-07-18 2024-03-22 四川大学 一种基于骨骼和轮廓特征融合的步态识别方法
CN115273154B (zh) * 2022-09-26 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于边缘重构的热红外行人检测方法、系统及存储介质
WO2024121900A1 (en) * 2022-12-05 2024-06-13 Nec Corporation Key-point associating apparatus, key-point associating method, and non-transitory computer-readable storage medium
CN115661138B (zh) * 2022-12-13 2023-03-21 北京大学第三医院(北京大学第三临床医学院) 基于dr影像的人体骨骼轮廓检测方法
CN116137074A (zh) * 2023-02-22 2023-05-19 常熟理工学院 电梯轿厢内乘客打斗行为的自动检测方法和系统
CN116434335B (zh) * 2023-03-30 2024-04-30 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN117315791B (zh) * 2023-11-28 2024-02-20 杭州华橙软件技术有限公司 骨骼动作识别方法、设备及存储介质
CN118068318B (zh) * 2024-04-17 2024-06-28 德心智能科技(常州)有限公司 基于毫米波雷达和环境传感器的多模态感知方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164641A (ja) * 2005-12-15 2007-06-28 Nippon Hoso Kyokai <Nhk> 人物オブジェクト判定装置及び人物オブジェクト判定プログラム
JP2014089665A (ja) * 2012-10-31 2014-05-15 Toshiba Corp 画像処理装置、画像処理方法、及び画像処理プログラム
JP2014522058A (ja) * 2012-06-14 2014-08-28 ソフトキネティック ソフトウェア 三次元オブジェクトのモデリング、フィッティング、およびトラッキング
WO2019001481A1 (zh) * 2017-06-28 2019-01-03 北京市商汤科技开发有限公司 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备
CN109242868A (zh) * 2018-09-17 2019-01-18 北京旷视科技有限公司 图像处理方法、装置、电子设备及储存介质
CN109508625A (zh) * 2018-09-07 2019-03-22 咪咕文化科技有限公司 一种情感数据的分析方法及装置
WO2019100888A1 (zh) * 2017-11-23 2019-05-31 北京市商汤科技开发有限公司 目标对象识别方法、装置、存储介质和电子设备
US20190197299A1 (en) * 2017-12-27 2019-06-27 Baidu Online Network Technology (Beijing) Co., Ltd Method and apparatus for detecting body
WO2019141104A1 (zh) * 2018-01-19 2019-07-25 北京市商汤科技开发有限公司 人体轮廓关键点检测方法、图像处理方法、装置及设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010099035A1 (en) * 2009-02-25 2010-09-02 Honda Motor Co., Ltd. Body feature detection and human pose estimation using inner distance shape contexts
CN102831380A (zh) * 2011-06-15 2012-12-19 康佳集团股份有限公司 一种基于深度图像感应的肢体动作识别方法及系统
US8786680B2 (en) * 2011-06-21 2014-07-22 Disney Enterprises, Inc. Motion capture from body mounted cameras
CN103679175B (zh) * 2013-12-13 2017-02-15 电子科技大学 一种基于深度摄像机的快速3d骨骼模型检测方法
CN103955680B (zh) * 2014-05-20 2017-05-31 深圳市赛为智能股份有限公司 基于形状上下文的动作识别方法及装置
CN104537608A (zh) * 2014-12-31 2015-04-22 深圳市中兴移动通信有限公司 一种图像处理的方法及其装置
CN105550678B (zh) * 2016-02-03 2019-01-18 武汉大学 基于全局显著边缘区域的人体动作特征提取方法
CN107705355A (zh) * 2017-09-08 2018-02-16 郭睿 一种基于多张图片的3d人体建模方法及装置
WO2020068104A1 (en) * 2018-09-28 2020-04-02 Hewlett-Packard Development Company, L.P. Generating spatial gradient maps for a person in an image
CN109255783B (zh) * 2018-10-19 2020-09-25 上海摩象网络科技有限公司 一种多人图像上的人体骨骼关键点的位置排布检测方法
CN109902659B (zh) * 2019-03-15 2021-08-20 北京字节跳动网络技术有限公司 用于处理人体图像的方法和装置
CN110084161B (zh) * 2019-04-17 2023-04-18 中山大学 一种人体骨骼关键点的快速检测方法及系统
CN110197117B (zh) * 2019-04-18 2021-07-06 北京奇艺世纪科技有限公司 人体轮廓点提取方法、装置、终端设备及计算机可读存储介质
CN110111418B (zh) * 2019-05-15 2022-02-25 北京市商汤科技开发有限公司 创建脸部模型的方法、装置及电子设备
CN110135375B (zh) * 2019-05-20 2021-06-01 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110705448B (zh) * 2019-09-27 2023-01-20 北京市商汤科技开发有限公司 一种人体检测方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164641A (ja) * 2005-12-15 2007-06-28 Nippon Hoso Kyokai <Nhk> 人物オブジェクト判定装置及び人物オブジェクト判定プログラム
JP2014522058A (ja) * 2012-06-14 2014-08-28 ソフトキネティック ソフトウェア 三次元オブジェクトのモデリング、フィッティング、およびトラッキング
JP2014089665A (ja) * 2012-10-31 2014-05-15 Toshiba Corp 画像処理装置、画像処理方法、及び画像処理プログラム
WO2019001481A1 (zh) * 2017-06-28 2019-01-03 北京市商汤科技开发有限公司 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备
WO2019100888A1 (zh) * 2017-11-23 2019-05-31 北京市商汤科技开发有限公司 目标对象识别方法、装置、存储介质和电子设备
US20190197299A1 (en) * 2017-12-27 2019-06-27 Baidu Online Network Technology (Beijing) Co., Ltd Method and apparatus for detecting body
WO2019141104A1 (zh) * 2018-01-19 2019-07-25 北京市商汤科技开发有限公司 人体轮廓关键点检测方法、图像处理方法、装置及设备
CN109508625A (zh) * 2018-09-07 2019-03-22 咪咕文化科技有限公司 一种情感数据的分析方法及装置
CN109242868A (zh) * 2018-09-17 2019-01-18 北京旷视科技有限公司 图像处理方法、装置、电子设备及储存介质

Also Published As

Publication number Publication date
AU2020335016A1 (en) 2021-04-15
WO2021057027A1 (zh) 2021-04-01
TW202112306A (zh) 2021-04-01
CN110705448A (zh) 2020-01-17
JP7101829B2 (ja) 2022-07-15
EP3828765A1 (en) 2021-06-02
KR20210038436A (ko) 2021-04-07
TWI742690B (zh) 2021-10-11
EP3828765A4 (en) 2021-12-08
CN110705448B (zh) 2023-01-20
US20210174074A1 (en) 2021-06-10
SG11202101794SA (en) 2021-04-29

Similar Documents

Publication Publication Date Title
JP7101829B2 (ja) 人体検出方法、装置、コンピュータ機器及び記憶媒体
Zhang et al. Interacting two-hand 3d pose and shape reconstruction from single color image
CN110532861B (zh) 基于骨架引导多模态融合神经网络的行为识别方法
CN109308459B (zh) 基于手指注意力模型和关键点拓扑模型的手势估计方法
CN100407798C (zh) 三维几何建模系统和方法
KR101711736B1 (ko) 영상에서 동작 인식을 위한 특징점 추출 방법 및 골격 정보를 이용한 사용자 동작 인식 방법
CN109829972B (zh) 一种面向连续帧点云的三维人体标准骨架提取方法
CN109325995B (zh) 基于人手参数模型的低分辨率多视角手部重建方法
Zhang et al. Progressive hard-mining network for monocular depth estimation
CN106780592A (zh) 基于相机运动和图像明暗的Kinect深度重建算法
CN104656893B (zh) 一种信息物理空间的远程交互式操控系统及方法
CN109948441B (zh) 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
CN109657634A (zh) 一种基于深度卷积神经网络的3d手势识别方法及系统
JP2023545189A (ja) 画像処理方法、装置、及び電子機器
JP2022512262A (ja) 画像処理方法及び装置、画像処理機器並びに記憶媒体
Gao et al. Shape controllable virtual try-on for underwear models
CN113592881A (zh) 图片指代性分割方法、装置、计算机设备和存储介质
CN117593178A (zh) 一种基于特征引导的虚拟试衣方法
AU2022241513B2 (en) Transformer-based shape models
CN116704123A (zh) 一种结合图像主体提取技术的三维重建方法
CN113610969B (zh) 一种三维人体模型生成方法、装置、电子设备及存储介质
CN109376593A (zh) 人脸特征点定位方法及系统
WO2023189195A1 (ja) 画像処理装置、画像処理方法、及びプログラム
CN114973396B (zh) 图像处理方法、装置、终端设备及计算机可读存储介质
CN116452742A (zh) 一种航天操作场景的空间布局解析方法及系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201224

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220705

R150 Certificate of patent or registration of utility model

Ref document number: 7101829

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150