JP7042849B2 - 顔特徴点の測位方法及び装置 - Google Patents

顔特徴点の測位方法及び装置 Download PDF

Info

Publication number
JP7042849B2
JP7042849B2 JP2019568632A JP2019568632A JP7042849B2 JP 7042849 B2 JP7042849 B2 JP 7042849B2 JP 2019568632 A JP2019568632 A JP 2019568632A JP 2019568632 A JP2019568632 A JP 2019568632A JP 7042849 B2 JP7042849 B2 JP 7042849B2
Authority
JP
Japan
Prior art keywords
image
fusion
face
feature line
facial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019568632A
Other languages
English (en)
Other versions
JP2020523694A (ja
JP2020523694A5 (ja
Inventor
チェン チエン
ウェンイエン ウー
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2020523694A publication Critical patent/JP2020523694A/ja
Publication of JP2020523694A5 publication Critical patent/JP2020523694A5/ja
Application granted granted Critical
Publication of JP7042849B2 publication Critical patent/JP7042849B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

(関連出願の相互参照)
本願は、2018年4月24日に中国特許局へ提出された、出願番号201810373871.6、出願名称「顔特徴点の測位方法及び装置」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本開示は、コンピュータービジョンの技術分野に関し、特に顔特徴点の測位方法及び装置に関する。
顔特徴点の測位は顔に関連するコンピュータービジョンにおける重要の課題の1つである。顔特徴点の測位のタスクは、顔画像内の複数の顔特徴点の位置を算出することである。例えば、顔画像内の目じり、口元、鼻の先などの顔特徴点の位置を算出する。
顔特徴点の測位の課題は、ディープニューラルネットワークによって解決できる。しかしながら、ディープニューラルネットワークの層の数が増えるにつれて、顔の構造情報の損失が深刻になる。顔画像内の顔がひどく遮られ、大きい角度の側顔または誇張表情の顔であるなどの複雑な場合に、顔特徴点の測位の精度が顕著に低下する。
これを考慮して、本開示は、顔特徴点の測位方法及び装置を提案する。
本開示の一態様によれば、
顔画像に対してエッジ検出を行い、顔特徴線画像を取得することと、
前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得することと、を含む顔特徴点の測位方法を提供する。
可能な実施態様では、前記顔画像と前記顔特徴線画像を融合する前に、
前記顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得することを更に含み、
前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得することは、
前記顔画像と前記最適化された顔特徴線画像とを融合し、顔特徴点の位置情報を取得することを含む。
可能な実施態様では、前記顔画像に対してエッジ検出を行い、顔特徴線画像を取得することは、
前記顔画像の特徴線の特徴を抽出し、特徴線画像を取得することと、
前記特徴線画像を最適化し、前記顔特徴線画像を取得することと、を含む。
可能な実施態様では、前記顔画像の特徴線の特徴を抽出し、特徴線画像を取得することは、
前記顔画像に対して、畳み込み、残差演算、ダウンサンプリング及び残差演算の操作を順次に実行し、前記特徴線画像を取得することを含む。
可能な実施態様では、前記特徴線画像を最適化し、前記顔特徴線画像を取得することは、
前記特徴線画像を少なくとも一つの段階の最適化ネットワークを経させて、前記顔特徴線画像を取得することであって、各段階の前記最適化ネットワークが、残差演算を実現するための砂時計型ネットワーク及び特徴線情報を伝送するための情報伝送層を含むことを含む。
可能な実施態様では、前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得することは、
前記顔画像に対して入力画像融合を行い、第1の融合画像を取得することと、
前記第1の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行い、第2の融合画像を取得することと、
前記第2の融合画像をマッピングし、特徴点の位置ベクトルを取得し、前記位置ベクトルを顔特徴点の位置情報とすることと、を含む。
可能な実施態様では、前記第1の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行う前に、
前記第1の融合画像に対して、畳み込み、ダウンサンプリング及び残差演算を順次に含む最適化処理を行い、最適化された第1の融合画像を取得することを更に含む。
可能な実施態様では、前記顔画像に対して入力画像融合を行い、第1の融合画像を取得することは、
前記顔画像を、個々の事前定義された特徴線画像と画素ごとに乗算し、個々の事前定義された特徴線画像に一対一に対応する複数の境界特徴を取得することと、
複数の前記境界特徴と前記顔画像とを重ね合わせ、第1の融合画像を取得することと、を含む。
可能な実施態様では、前記第1の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行い、第2の融合画像を取得することは、
前記第1の融合画像と前記顔特徴線画像とを重ね合わせ、第3の融合画像を取得することと、
前記第3の融合画像に対して残差演算を行い、前記顔特徴線画像と同じサイズの第4の融合画像を取得することと、
前記第1の融合画像を前記第4の融合画像を画素ごとに乗算し、第5の融合画像を取得することと、
前記第1の融合画像と前記第5の融合画像とを重ね合わせ、前記第2の融合画像を取得することと、を含む。
可能な実施態様では、各段階の前記境界画像融合の間に、各段階の境界融合の結果に対して残差演算を行うことを更に含む。
可能な実施態様では、前記第2の融合画像をマッピングし、特徴点の位置ベクトルを取得することは、
前記第2の融合画像に対して、残差演算及び全結合操作を順次に行い、前記特徴点の位置ベクトルを取得することを含む。
本開示の別の態様によれば、
顔画像に対してエッジ検出を行い、顔特徴線画像を取得するように構成されるエッジ検出モジュールと、
前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得するように構成される融合モジュールと、を含む顔特徴点の測位装置を提供する。
可能な実施態様では、前記装置は、
前記顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得するように構成される判別モジュールを更に含み、
前記融合モジュールは、
前記顔画像と前記最適化された顔特徴線画像とを融合し、顔特徴点の位置情報を取得するように構成される。
可能な実施態様では、前記エッジ検出モジュールは、
前記顔画像の特徴線の特徴を抽出し、特徴線画像を取得するように構成される特徴抽出サブモジュールと、
前記特徴線画像を最適化し、前記顔特徴線画像を取得するように構成される第1の最適化サブモジュールと、を含む。
可能な実施態様では、前記特徴抽出サブモジュールは、
前記顔画像に対して、畳み込み、残差演算、ダウンサンプリング及び残差演算の操作を順次に実行し、前記特徴線画像を取得するように構成される。
可能な実施態様では、前記第1の最適化サブモジュールは、
前記特徴線画像を少なくとも一つの段階の最適化ネットワークを経させて、前記顔特徴線画像を取得するように構成され、各段階の前記最適化ネットワークが、残差演算を実現するための砂時計型ネットワーク及び特徴線情報を伝送するための情報伝送層を含む。
可能な実施態様では、前記融合モジュールは、
前記顔画像に対して入力画像融合を行い、第1の融合画像を取得するように構成される第1の融合サブモジュールと、
前記第1の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行い、第2の融合画像を取得するように構成される第2の融合サブモジュールと、
前記第2の融合画像をマッピングし、特徴点の位置ベクトルを取得し、前記位置ベクトルを顔特徴点の位置情報とするように構成されるマッピングサブモジュールと、を含む。
可能な実施態様では、前記融合モジュールは、
前記第1の融合画像に対して、畳み込み、ダウンサンプリング及び残差演算を順次に含む最適化処理を行い、最適化された第1の融合画像を取得するように構成される第2の最適化サブモジュールを更に含む。
可能な実施態様では、前記第1の融合サブモジュールは、
前記顔画像を、個々の事前定義された特徴線画像と画素ごとに乗算し、個々の事前定義された特徴線画像に一対一に対応する複数の境界特徴を取得するように構成される第1の乗算ユニットと、
複数の前記境界特徴と前記顔画像とを重ね合わせ、第1の融合画像を取得するように構成される第1の重ね合わせユニットと、を含む。
可能な実施態様では、前記第2の融合サブモジュールは、
前記第1の融合画像と前記顔特徴線画像とを重ね合わせ、第3の融合画像を取得するように構成される第2の重ね合わせユニットと、
前記第3の融合画像に対して残差演算を行い、前記顔特徴線画像と同じサイズの第4の融合画像を取得するように構成される残差演算ユニットと、
前記第1の融合画像を前記第4の融合画像を画素ごとに乗算し、第5の融合画像を取得するように構成される第2の乗算ユニットと、
前記第1の融合画像と前記第5の融合画像とを重ね合わせ、前記第2の融合画像を取得するように構成される第3の重ね合わせユニットと、を含む。
可能な実施態様では、前記融合モジュール、
各段階の境界融合の結果に対して残差演算を行うように構成される残差演算サブモジュールを更に含む。
可能な実施態様では、前記マッピングサブモジュールは、
前記第2の融合画像に対して、残差演算及び全結合操作を順次に行い、前記特徴点の位置ベクトルを取得するように構成される。
本開示の別の態様によれば、プロセッサーと、プロセッサーが実行可能なコマンドを記憶するように構成されるメモリとを含み、前記プロセッサーが上記方法を実行するように配置される電子デバイスを提供する。
本開示の別の態様によれば、コンピュータープログラムコマンドが記憶されたコンピューター可読記憶媒体において、プロセッサーによって前記コンピュータープログラムコマンドを実行する時に上記方法を実現するコンピューター可読記憶媒体を提供する。
本開示の各態様の顔特徴点の測位方法及び装置は、顔画像に対してエッジ検出を行い、顔特徴線画像を取得し、顔画像と顔特徴線画像とを融合し、顔特徴点の位置情報を取得し、顔特徴線を利用して顔特徴点を測位することによって、顔特徴点の測位精度を向上させることができ、たとえ顔画像内の顔が遮られ、大きい角度の側顔または誇張表情の顔であるなどの複雑な場合でも、精度良く顔特徴点を測位することができる。
以下の図面を参照して例示的な実施例を詳細に説明することにより、本開示の他の特徴及び態様が明らかになる。
本開示の一実施例による顔特徴点の測位方法を示すフローチャートである。 本開示の一実施例による顔特徴点の測位方法の一例を示すフローチャートである。 本開示の一実施例による顔特徴点の測位方法のステップS11の一例を示すフローチャートである。 本開示の一実施例による顔特徴点の測位方法のステップS12の一例を示すフローチャートである。 本開示の一実施例による顔特徴点の測位方法のステップS121の一例を示すフローチャートである。 本開示の一実施例による顔特徴点の測位方法のステップS122の一例を示すフローチャートである。 本開示の一実施例による顔特徴点の測位装置を示すブロック図である。 本開示の一実施例による顔特徴点の測位装置の一例を示すブロック図である。 例示的な実施例に示す顔特徴点を測位するための装置800を示すブロック図である。 例示的な実施例に示す顔特徴点を測位するための装置1900を示すブロック図である。
本明細書に含まれ明細書の一部を構成する図面は明細書とともに本開示の例示的な実施例、特徴および態様を示し、且つ本開示の原理を解釈するために用いられる。
以下、本開示の各種の例示的な実施例、特徴および態様は、図面を参照して詳細に説明される。図面中の同じ参照番号は、同じまたは類似の機能を有する要素を示す。図面中に実施例の各種態様が示されているが、特に明記しない限り、必ずしも縮尺通りに描かれていない。
ここで専用の「例示的」とは「例、実施例または説明として役立つ」ことを意味する。ここでの「例示的」として説明される任意の実施例は、必ずしも他の実施例よりも良いまたは好ましいと解釈されるべきではない。
なお、本開示をより明らかに説明するために、以下の具体的な実施例では多数の具体的な説明が記載される。当業者は、本開示がいくつかの具体的な説明がなくても同様に実施され得ることを理解すべきである。ある実施例では、本発明の趣旨を強調するために、当業者にとって周知の方法、手段、デバイス及び回路は詳細に説明されない。
図1は本開示の一実施例による顔特徴点の測位方法を示すフローチャートである。図1に示すように、該方法は、ステップS11とステップS12を含む。
ステップS11において、顔画像に対してエッジ検出を行い、顔特徴線画像を取得する。
本実施例では、顔画像は、顔を含む画像であってもよく、または顔画像は顔特徴点を測位する必要がある画像であってもよい。
本開示の実施例は、関連技術のSobel演算子またはCanny演算子等を使用してエッジ検出を行うが、これは本明細書では限定されない。
可能な実施態様では、畳み込みニューラルネットワークによって顔画像に対してエッジ検出を行い、顔特徴線画像を取得する。
ステップS12において、顔画像と顔特徴線画像とを融合し、顔特徴点の位置情報を取得する。
本実施例では、顔特徴線画像から提供されるロバストな顔構造情報に基づいて、顔画像の顔特徴点を精確的に測位することができる。
本実施例では、顔特徴点は、顔輪郭特徴点、眉の特徴点、目の特徴点、鼻の特徴点および唇の特徴点などの1つ又は複数を含み得る。その内に、目の特徴点はまぶたの線の特徴点を含み得、まぶたの線の特徴点は目じりの特徴点を含み得、鼻の特徴点は鼻梁の特徴点を含み得、唇の特徴点は唇の線の特徴点を含み得る。
可能な実施態様では、特徴点予測ネットワークによって顔画像と顔特徴線画像とを融合し、顔特徴点の位置情報を取得する。
本開示の実施例では、顔画像と顔特徴線画像との融合は、顔画像内の情報と顔特徴線画像内の情報とを組み合わせることを示し得る。例えば、顔画像内の画像及び/又は特徴と顔特徴線画像内の画像及び/又は特徴とを何らかの方法で組合わせることを示し得る。
本実施例では、顔画像に対してエッジ検出を行い、顔特徴線画像を取得し、顔画像と顔特徴線画像とを融合し、顔特徴点の位置情報を取得し、顔特徴線を利用して顔特徴点を測位することによって、顔特徴点の測位精度を向上させることができ、たとえ顔画像内の顔が遮られ、大きい角度の側顔または誇張表情の顔であるなどの複雑な場合でも、精度良く顔特徴点を測位することができる。
図2は、本開示の一実施例による顔特徴点の測位方法の一例を示すフローチャートである。図2に示すように、該方法は、ステップS21~ステップS23を含み得る。
ステップS21において、顔画像に対してエッジ検出を行い、顔特徴線画像を取得する。
その内に、ステップS21については、上記ステップS11の説明を参照されたい。
ステップS22において、顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得する。
可能な実施態様では、対抗生成モデルに基づく畳み込みニューラルネットワークによって顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得する。該実施態様では、対抗生成モデル中の判別モデルは顔特徴線画像の有効性を判別するために利用可能であり、即ち、判別モデルは顔特徴線画像が有効かどうかを判別するために利用可能であり、対抗生成モデル中の生成モデルは最適化された顔特徴線画像を生成するために利用可能である。
ステップS23において、顔画像と最適化された顔特徴線画像とを融合し、顔特徴点の位置情報を取得する。
本実施例では、顔特徴線画像の検出結果は、最終の顔特徴点の測位精度に大きな影響を与える。従って、顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得し、顔画像と最適化された顔特徴線画像とを融合し、顔特徴点の位置情報を取得することによって、大幅に顔特徴線画像の品質を向上でき、さらに顔特徴点の測位精度を向上させることができる。
図3は本開示の一実施例による顔特徴点の測位方法のステップS11の一例を示すフローチャートである。図3に示すように、ステップS11は、ステップS111とステップS112を含み得る。
ステップS111において、顔画像に対して特徴線の特徴抽出を行い、特徴線画像を取得する。
本実施例では、特徴線は、顔輪郭特徴線、左眉の特徴線、右眉の特徴線、鼻梁特徴線、左目上まぶた特徴線、左目下まぶた特徴線、右目上まぶた特徴線、右目下まぶた特徴線、上唇の上端特徴線、上唇の下端特徴線、下唇の上端特徴線および下唇の下端特徴線等の1つ又は複数を含み得る。
可能な実施態様では、畳み込みニューラルネットワークによって顔画像に対して特徴線の特徴抽出を行い、特徴線画像を取得する。例えば、ResNet18によって顔画像に対して特徴線の特徴抽出を行い、特徴線画像を取得することができる。
可能な実施態様では、顔画像に対して特徴線の特徴抽出を行い、特徴線画像を取得することは、顔画像に対して、畳み込み、残差演算、ダウンサンプリング及び残差演算の操作を順次に実行し、特徴線画像を取得する。
ステップS112において、特徴線画像を最適化し、顔特徴線画像を取得する。
可能な実施態様では、特徴線画像を最適化し、顔特徴線画像を取得することは、特徴線画像を少なくとも一つの段階の最適化ネットワークを経させて、顔特徴線画像を取得することであって、各段階の最適化ネットワークが、残差演算を実現するための砂時計型ネットワーク及び特徴線情報を伝送するための情報伝送層を含むことを含む。例えば、1段階の最適化ネットワークであれば、特徴線画像に対して、砂時計型ネットワーク及び情報伝送層によって順次に最適化処理を行い、顔特徴線画像を取得する。2段階の最適化ネットワークであれば、特徴線画像に対して、第1の砂時計型ネットワーク、第1の情報伝送層、第2の砂時計型ネットワークおよび第2の情報伝送層によって順次に最適化処理を行い、顔特徴線画像を取得する。他の実施例では、3段階以上の最適化ネットワークであれば、前記と同様にすればよい。
図4は本開示の一実施例による顔特徴点の測位方法のステップS12の一例を示すフローチャートである。図4に示すように、ステップS12は、ステップS121~ステップS123を含み得る。
ステップS121において、顔画像に対して入力画像融合を行い、第1の融合画像を取得する。
本実施例では、第1の融合画像は顔画像内の各特徴線の境界特徴を示す。
ステップS122において、第1の融合画像と顔特徴線画像とに対して少なくとも一つの段階のエッジ画像融合を行い、第2の融合画像を取得する。
ステップS123において、第2の融合画像をマッピングし、特徴点の位置ベクトルを取得し、位置ベクトルを顔特徴点の位置情報とする。
可能な実施態様では、第2の融合画像をマッピングし、特徴点の位置ベクトルを取得することは、第2の融合画像に対して残差演算および全結合操作を順次に行い、特徴点の位置ベクトルを取得することを含む。
可能な実施態様では、第1の融合画像と顔特徴線画像とに対して少なくとも一つの段階のエッジ画像融合を行う前に、第1の融合画像に対して、畳み込み、ダウンサンプリング及び残差演算を順次に含む最適化処理を行い、最適化された第1の融合画像を取得することを更に含む。
可能な実施態様では、各段階の境界画像融合の間に、各段階の境界融合の結果に対して残差演算を行うことを更に含む。
図5は本開示の一実施例による顔特徴点の測位方法のステップS121の一例を示すフローチャートである。図5に示すように、ステップS121は、ステップS1211およびステップS1212を含み得る。
ステップS1211において、顔画像を、個々の事前定義された特徴線画像と画素ごとに乗算し、個々の事前定義された特徴線画像に一対一に対応する複数の境界特徴を取得する。
ステップS1212において、複数の境界特徴と顔画像とを重ね合わせ、第1の融合画像を取得する。
可能な実施態様では、式1によって第1の融合画像
Figure 0007042849000001
を取得することができる。
Figure 0007042849000002
式1
ただし、
Figure 0007042849000003
は顔画像を表し、
Figure 0007042849000004

Figure 0007042849000005
番目の事前定義された特徴線画像を表し、
Figure 0007042849000006
は事前定義された特徴線画像の個数を表す。
Figure 0007042849000007

Figure 0007042849000008

Figure 0007042849000009
と画素ごとに乗算することを表し、
Figure 0007042849000010
は重ね合わせ操作を表す。
該実施態様は、顔画像を、個々の事前定義された特徴線画像と画素ごとに乗算し、個々の事前定義された特徴線画像に一対一に対応する複数の境界特徴を取得し、複数の境界特徴と顔画像重ね合わせ、第1の融合画像を取得することによって、第1の融合画像では顔画像内の構造的に豊かな部分及び特徴部分だけが強調され、顔画像内の背景部分と構造的に豊かではない部分が無視され、第1の融合画像を後続のネットワークの入力とする有効性を大幅に向上させることができる。該実施態様は、更に元の顔画像も考慮するため、顔画像内の価値ある情報を利用して後続の特徴点を予測することができる。
可能な実施態様では、該方法は、トレーニング画像セットのいずれか1つのトレーニング画像について、トレーニング画像内に顔特徴点をマークし、トレーニング画像内の顔特徴点を補間してトレーニング画像内の顔特徴線情報を取得することと、トレーニング画像セットの各トレーニング画像、及び各トレーニング画像内の顔特徴線情報により、事前定義された特徴線画像を取得するための畳み込みニューラルネットワークをトレーニングすることと、を更に含む。該実施態様では、トレーニング画像セットは、複数のトレーニング画像を含み得、各トレーニング画像内にそれぞれ106個の顔特徴点をマークすることができる。該実施態様では、トレーニング画像内の隣接する顔特徴点間を補間して曲線を得、補間して得られた曲線を該トレーニング画像内の顔特徴線とする。該実施態様は、トレーニング画像セットのいずれか1つのトレーニング画像について、トレーニング画像内に顔特徴点をマークし、トレーニング画像内の顔特徴点を補間してトレーニング画像内の顔特徴線情報を取得し、そしてトレーニング画像セットの各トレーニング画像、及び各トレーニング画像内の顔特徴線情報により、事前定義された特徴線画像を取得するための畳み込みニューラルネットワークをトレーニングすることによって、マークされた顔特徴点を補間し顔特徴線を監視して事前定義された特徴線画像を取得するための畳み込みニューラルネットワークをトレーニングする。
図6は、本開示の一実施例による顔特徴点の測位方法のステップS122の一例を示すフローチャートである。図6に示すように、ステップS122は、ステップS1221~ステップS1224を含み得る。
ステップS1221において、第1の融合画像と顔特徴線画像とを重ね合わせ、第3の融合画像を取得する。
ステップS1222において、第3の融合画像に対して残差演算を行い、顔特徴線画像と同じサイズの第4の融合画像を取得する。
ステップS1223において、第1の融合画像を第4の融合画像と画素ごとに乗算し、第5の融合画像を取得する。
ステップS1224において、第1の融合画像と第5の融合画像とを重ね合わせ、第2の融合画像を取得する。
可能な実施態様では、式2によって第2の融合画像
Figure 0007042849000011
を取得することができる。
Figure 0007042849000012
式2
ただし、
Figure 0007042849000013
は第1の融合画像を表し、
Figure 0007042849000014
は顔特徴線画像を表し、
Figure 0007042849000015
は第1の融合画像と顔特徴線画像とを重ね合わせることを表し、
Figure 0007042849000016
は第3の融合画像を表す。
Figure 0007042849000017
は第3の融合画像に対して残差演算を行うことを表し、
Figure 0007042849000018
は第4の融合画像を表す。本実施例では、顔特徴線画像
Figure 0007042849000019
のチャンネル数は、事前定義された特徴線の数に応じて决定されるので、変換構造
Figure 0007042849000020
によって顔特徴線画像
Figure 0007042849000021
と第1の融合画像
Figure 0007042849000022
のチャンネル数と同じにする必要がある。その内に、変換構造
Figure 0007042849000023
に砂時計型ネットワークを採用することができる。
Figure 0007042849000024
は第1の融合画像
Figure 0007042849000025
を第4の融合画像
Figure 0007042849000026
と画素ごとに乗算することを表し、
Figure 0007042849000027
は第5の融合画像を表す。
Figure 0007042849000028
は第1の融合画像
Figure 0007042849000029
と第5の融合画像
Figure 0007042849000030
とを重ね合わせることを表す。
可能な実施態様では、該方法は、トレーニング画像セットの各トレーニング画像と各トレーニング画像内の顔特徴線情報とを特徴点予測ネットワークへの入力として、各トレーニング画像内の顔特徴点の位置情報を特徴点予測ネットワークからの出力とし、特徴点予測ネットワークをトレーニングすることを更に含む。その内に、それぞれのトレーニング画像内の顔特徴点の数はすべて106個であり得る。該実施態様は、トレーニング画像セットの各トレーニング画像と各トレーニング画像内の顔特徴線情報を特徴点予測ネットワークへの入力とし、各トレーニング画像内の顔特徴点の位置情報を特徴点予測ネットワークからの出力とし、特徴点予測ネットワークをトレーニングすることによって、顔特徴線情報を融合し、顔画像内の顔特徴点を利用して監視・トレーニングを行う。トレーニングして得られた特徴点予測ネットワークは、顔特徴線情報を融合したので、より精度高い顔特徴点の測位結果を得る。
図7は、本開示の一実施例による顔特徴点の測位装置を示すブロック図である。図7に示すように、該装置は、顔画像に対してエッジ検出を行い、顔特徴線画像を取得するように構成されるエッジ検出モジュール71と、顔画像と顔特徴線画像とを融合し、顔特徴点の位置情報を取得するように構成される融合モジュール72と、を含む。
図8は、本開示の一実施例による顔特徴点の測位装置の一例を示すブロック図である。図8において以下のように示す。
可能な実施態様では、該装置は、顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得するように構成される判別モジュール73を更に含み、融合モジュール72は、顔画像と最適化された顔特徴線画像とを融合し、顔特徴点の位置情報を取得するように構成される。
可能な実施態様では、エッジ検出モジュール71は、顔画像に対して特徴線の特徴抽出を行い、特徴線画像を取得するように構成される特徴抽出サブモジュール711と、特徴線画像を最適化し、顔特徴線画像を取得するように構成される第1の最適化サブモジュール712と、を含む。
可能な実施態様では、特徴抽出サブモジュール711は、顔画像に対して畳み込み、残差演算、ダウンサンプリング及び残差演算の操作を実行し、特徴線画像を取得するように構成される。
可能な実施態様では、第1の最適化サブモジュール712は、特徴線画像を、残差演算を実現するための砂時計型ネットワーク及び特徴線情報を伝送するための情報伝送層を含む少なくとも一つの段階の最適化ネットワークを経させて、顔特徴線画像を取得するように構成される。
可能な実施態様では、融合モジュール72は、顔画像に対して入力画像融合を行い、第1の融合画像を取得するように構成される第1の融合サブモジュール721と、第1の融合画像と顔特徴線画像とに対して、少なくとも一つの段階のエッジ画像融合、第2の融合画像を取得するように構成される第2の融合サブモジュール722と、第2の融合画像をマッピングし、特徴点の位置ベクトルを取得し、位置ベクトルを顔特徴点の位置情報とするように構成されるマッピングサブモジュール723と、を含む。
可能な実施態様では、融合モジュール72は、第1の融合画像に対して、畳み込み、ダウンサンプリング及び残差演算を順次に含む最適化処理を行い、最適化された第1の融合画像を取得するように構成される第2の最適化サブモジュール724を更に含む。
可能な実施態様では、第1の融合サブモジュール721は、顔画像を、個々の事前定義された特徴線画像と画素ごとに乗算し、個々の事前定義された特徴線画像に一対一に対応する複数の境界特徴を取得するように構成される第1の乗算ユニットと、複数の境界特徴と顔画像を重ね合わせ、第1の融合画像を取得するように構成される第1の重ね合わせユニットと、を含む。
可能な実施態様では、第2の融合サブモジュール722は、第1の融合画像と顔特徴線画像とを重ね合わせ、第3の融合画像を取得するように構成される第2の重ね合わせユニットと、第3の融合画像に対して残差演算を行い、顔特徴線画像と同じサイズの第4の融合画像を取得するように構成される残差演算ユニットと、第1の融合画像を第4の融合画像と画素ごとに乗算し、第5の融合画像を取得するように構成される第2の乗算ユニットと、第1の融合画像と第5の融合画像とを重ね合わせ、第2の融合画像を取得するように構成される第3の重ね合わせユニットと、を含む。
可能な実施態様では、融合モジュール72は、各段階の境界融合の結果に対して残差演算を行うように構成される残差演算サブモジュール725を更に含む。
可能な実施態様では、マッピングサブモジュール723は、第2の融合画像に対して、残差演算および全結合操作を順次に行い、特徴点の位置ベクトルを取得するように構成される。
本実施例は、顔画像に対してエッジ検出を行い、顔特徴線画像を取得し、顔画像と顔特徴線画像とを融合し、顔特徴点の位置情報を取得することによって、顔特徴線を利用して顔特徴点を測位して、顔特徴点の測位精度を向上させることができ、たとえ顔画像内の顔が遮られ、大きい角度の側顔または誇張表情の顔であるなどの複雑な場合でも、精度良く顔特徴点を測位することができる。
図9は例示的な実施例に示す顔特徴点を測位するための装置800を示すブロック図である。例えば、装置800は、携帯電話、コンピューター、デジタル放送端末、メッセージ受送信機器、ゲームコントロールプラットフォーム、タブレット機器、医療機器、フィットネス機器、PDA等であり得る。
図9を参照して、装置800は、処理部802、メモリ804、電源部806、マルチメディア部808、オーディオ部810、入力/出力(I/O)のインタフェース812、センサー部814、及び通信部816のうちの1つまたは複数を含み得る。
処理部802は、通常装置800の全体操作、例えば表示、電話通信、データ通信、カメラ操作および記録操作に関連する操作を制御する。処理部802は、上記の方法の全部または一部のステップを実現するために、コマンドを実行する1つまたは複数のプロセッサー820を含む。また、処理部802は、処理部802と他の部分間の交換のために1つまたは複数のモジュールを含む。例えば、処理部802は、マルチメディア部808と処理部802間の交換のためにマルチメディアモジュールを含み得る。
メモリ804は装置800での操作をサポートするために様々なタイプのデータを記憶するように構成される。そのようなデータの例には、装置800上で操作する任意のアプリケーションプログラムまたは方法のコマンド、連絡先データ、電話帳データ、メッセージ、写真、ビデオなどが含まれる。メモリ804は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの任意タイプの揮発性または不揮発性記憶装置またはそれらの組合わせで実現され得る。
電源部806は、装置800の各種のコンポーネントに電力を提供する。電源部806は、電源管理システム、1つまたは複数の電源、および装置800の電力生成、管理及び分配することに関連するコンポーネントを含み得る。
マルチメディア部808は、前記装置800とユーザの間の出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは、液晶ディスプレイー(LCD)及びタッチパネル(TP)を含み得る。スクリーンはタッチパネルを含む場合に、スクリーンはタッチスクリーンとして実現され、ユーザからの入力信号を受信する。タッチパネルには、タッチ、スライド、タッチパネル上のジェスチャーを検知する1つまたは複数のタッチセンサーを含む。前記タッチセンサーは、タッチまたはスライド動作の境界だけでなく、前記タッチまたはスライド操作に関連する継続時間及び圧力も検知することができる。いくつかの実施例では、マルチメディア部808は、フロントカメラ及び/又はリアカメラを含む。装置800が操作モード、例えば撮影モードまたはビデオモードである時に、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。それぞれのフロントカメラ及びリアカメラは、固定光学レンズシステムであっても良く、または焦点距離と光学ズーム機能を有しても良い。
オーディオ部810は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオ部810は、装置800が操作モード、例えば通話モード、録音モード、音声認識モードである時に、外部のオーディオ信号を受信するように構成されるマイク(MIC)を含む。受信したオーディオ信号は、さらにメモリ804に記憶され、または通信部816を介して送信されてもよい。いくつかの実施例では、オーディオ部810は、オーディオ信号を出力するためのスピーカを更に含む。
I/Oインタフェース812は、処理部802と、キーボード、クリックホイール、ボタンなどの周辺インタフェースモジュールとの間のインタフェースを提供する。これらのボタンには、ホームページボタン、音量ボタン、スタートボタン、ロックボタンを含むが、それらに限定されない。
センサー部814は、装置800に様々な態様の状態評価を提供するための1つまたは複数のセンサーを含む。例えば、センサー部814は、装置800のオン/オフ状態、コンポーネントの相対的な測位を検出でき、前記コンポーネントは例えば装置800のディスプレイー及びキーパッドであり、センサー部814は、装置800または装置800の1つのコンポーネントの位置の変化、ユーザと装置800との接触の有無、装置800の方位または加速/減速、及び装置800の温度変化も検出することができる。センサー部814は、物理的接触なしに近くの物体の存在を検出するように構成される接近センサーを含む。センサー部814は、撮像用途で使用するための例えばCMOSまたはCCD画像センサーなどの光センサーを含み得る。いくつかの実施例では、該センサー部814は、加速度センサー、ジャイロセンサー、磁気センサー、圧力センサーまたは温度センサーも含み得る。
通信部816は、装置800と他の機器との間の有線または無線通信を促進するように構成される。装置800は、WiFi、2Gまたは3G、またはそれらの組合わせなどの通信規格に基づく無線ネットワークにアクセルすることができる。1つの例示的な実施例では、通信部816は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。1つの例示的な実施例では、前記通信部816は、短距離通信を容易にするための近距離通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術、および他の技術に基づいて実現され得る。
例示的な実施例では、装置800は、上記方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサー(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサーまたは他の電子部品によって実現され得る。
例示的な実施例では、上記の方法を実行するために装置800のプロセッサー820によって実行可能なコンピュータープログラムコマンドを含むメモリ804などの不揮発性コンピューター可読記憶媒体を更に提供する。
図10は、例示的な実施例に示す顔特徴点を測位するための装置1900を示すブロック図である。例えば、装置1900は、サーバとして提供され得る。図10を参照して、装置1900は、1つまたは複数のプロセッサーを更に含む処理部1922と、処理部1922によって実行可能なコマンド、例えばアプリケーションプログラムを記憶するメモリ1932に代表されるメモリリソースと、を含む。メモリ1932に記憶されたアプリケーションプログラムは、それぞれのコマンドセットに対応する1つ以上のモジュールを含み得る。また、処理部1922は、上記の方法を実行するためにコマンドを実行するように構成される。
装置1900は、装置1900の電源管理を実行するように構成される電源部1926と、装置1900をネットワークに接続させるように構成される有線または無線ネットワークインタフェース1950と、入出力(I/O)インタフェース1958と、を含み得る。装置1900は、Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMなどのメモリ1932に記憶されたオペレーティングシステムに基づいて動作する。
例示的な実施例では、上記の方法を実行するために装置1900の処理部1922によって実行可能なコンピュータープログラムコマンドが記憶されたメモリ1932などの不揮発性コンピューター可読記憶媒体を提供する。
本開示は、システム、方法、及び/又はコンピュータープログラム製品であり得る。コンピュータープログラム製品は、プロセッサーに本開示の各態様を実行させるコンピューター可読プログラムコマンドが記憶されたコンピューター可読記憶媒体を含み得る。
コンピューター可読記憶媒体は、コマンド実行機器によって使用されるコマンドを保持および記憶できる有形の機器でありえる。コンピューター可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置またはこれらの任意の適切な組合わせであり得る。コンピューター可読記憶媒体のさらなる具体的な例(非網羅的なリスト)には、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)、メモリスティック、フロッピーディスク、機械式エンコードデバイス、例えばコマンドが記憶されたホールカードまたは溝の隆起構造、及び上記の任意の適切な組合わせを含む。ここで使用されるコンピューター可読記憶媒体は、例えば電波または他の自由に伝播する電磁波、導波管または他の伝送媒体(例えば、光ファイバーケーブルを通る光パルス)、またはワイヤを伝播する電磁波などの過渡信号自体として解釈されるべきではない。
ここで説明するコンピューター可読プログラムコマンドは、コンピューター可読記憶媒体から各計算/処理デバイスにダウンロードするか、またはインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワークなどのネットワークを介して外部コンピューターまたは外部記憶装置にダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光ファイバー伝送、ワイヤレス伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピューター、および/またはエッジサーバーを含む。それぞれの計算/処理デバイス中のネットワークアダプターカードまたはネットワークインタフェースは、ネットワークからコンピューター可読プログラムコマンドを受信し、該コンピューター可読プログラムコマンドを伝送し、各計算/処理デバイス中のコンピューター可読記憶媒体に記憶する。
本開示の操作を実行するためのコンピュータープログラムコマンドは、アセンブリコマンド、コマンドセット構造(ISA)コマンド、機器コマンド、機器関連コマンド、マイクロコード、ファームウェアコマンド、状態設定データ、または1つ又は複数のプログラミング言語の任意の組合わせでプログラムされたソースコードまたはオブジェクトコードを含み得、前記プログラミング言語は、Smalltalk、C++などのオブジェクト指向のプログラミング言語、「C」言語などの通常の手続き型プログラミング言語または類似のプログラミング言語を含み得る。コンピューター可読プログラムコマンドは、ユーザのコンピューター上で完全に実行され、ユーザのコンピューター上で一部実行され、単独のソフトウェアパッケージとして実行され、ユーザのコンピューター上で一部実行され遠隔コンピューター上で一部実行され、または完全に遠隔コンピューターまたはサーバ上で実行され得る。遠隔コンピューターの場合に、遠隔コンピューターは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)などの任意種類のネットワークを介してユーザのコンピューターに接続され、または、外部コンピューター(例えばインターネットサービスプロバイダーを使用してインターネットに接続される)に接続される。いくつかの実施例では、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路は、コンピューター可読プログラムコマンドの状態情報を利用してカスタマイズされ得、該電子回路は、コンピューター可読プログラムコマンドを実行することによって本開示の各態様を実現することができる。
本開示の態様は、本開示の実施例の方法、装置(システム)およびコンピュータープログラム製品のフローチャート及び/又はブロック図を参照して説明された。フローチャート及び/又はブロック図のそれぞれのブロック及びフローチャート及び/又はブロック図中の各ブロックの組合わせは、全てコンピューター可読プログラムコマンドによって実現できることが理解されるべきである。
これらのコンピューター可読プログラムコマンドは、汎用コンピューター、専用コンピューターまたは他のプログラマブルデータ処理装置のプロセッサーに提供され、マシーンを生成し、コンピューターまたは他のプログラマブルデータ処理装置のプロセッサーによってこれらのコマンドを実行する時に、フローチャート及び/又はブロック図中の1つまたは複数のブロック中の指定の機能/動作を実現する装置を実現できる。これらのコンピューター可読プログラムコマンドをコンピューター可読記憶媒体に記憶して、これらのコマンドによってコンピューター、プログラマブルデータ処理装置及び/又は他の機器に特定の方式で動作させるようにして、コマンドが記憶されたコンピューター可読媒体は、フローチャート及び/又はブロック図中の1つまたは複数のブロック中の指定の機能/動作の各態様を実現するコマンドを含む製品とする。
コンピューター可読プログラムコマンドをコンピューター、他のプログラマブルデータ処理装置、または他の機器上にロードして、コンピューター、他のプログラマブルデータ処理装置または他の機器上に一連の操作ステップを実行することによって、コンピューターの実現過程を生成し、コンピューター、他のプログラマブルデータ処理装置、または他の機器上に実行されたコマンドによって、フローチャート及び/又はブロック図中の1つまたは複数のブロック中の指定の機能/動作を実現する。
図面中のフローチャート及びブロック図は、本開示の複数の実施例のシステム、方法及びコンピュータープログラム製品の実現可能な体系構造、機能及び操作を示している。これに関して、フローチャートまたはブロック図中のそれぞれのブロックは、1つまたは複数の指定の論理機能を実現するための実行可能コマンドを含むモジュール、プログラムセグメントまたはコマンドの一部を表す。いくつかの代替の実施例では、ブロックに記載されている機能は図面に示されているものと異なる順序で発生する場合もある。例えば、2つの連続のブロックは実質的に並行して実行され得、関連する機能に応じて、逆の順序で実行される場合もある。また、ブロック図及び/又はフローチャート中のそれぞれのブロック、及びブロック図及び/又はフローチャート中のブロックの組合わせは、指定の機能または動作を実行するための専用のハードウェアベースのシステムによって実現され得、または、専用ハードウェアとコンピューターコマンドとの組合わせによって実現されえることに注意すべきである。
以上、本開示の各実施例を説明したが、上記の説明は例示であり、限定ではなく、開示の各実施例に限定されない。説明した各実施例の範囲および精神を逸脱しない限り、多くの修正及び変更が当業者には明らかであろう。本明細書で使用される用語の選択は、各実施例の原理、実際の応用または市場での技術の改善を最も好適に解釈し、または当業者に本明細書で開示された各実施例を容易に理解させることを意図している。

Claims (13)

  1. 顔画像に対してエッジ検出を行い、顔特徴線画像を取得することと、
    前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得することと、を含み、
    前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得することは、
    前記顔画像に対して入力画像融合を行い、第1の融合画像を取得することと、
    前記第1の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行い、第2の融合画像を取得することと、
    前記第2の融合画像をマッピングし、特徴点の位置ベクトルを取得し、前記位置ベクトルを顔特徴点の位置情報とすることと、を含むことを特徴とする、
    顔特徴点の測位方法。
  2. 前記顔画像と前記顔特徴線画像を融合する前に、
    前記顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得することを更に含み、
    前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得することは、
    前記顔画像と前記最適化された顔特徴線画像とを融合し、顔特徴点の位置情報を取得することを含むことを特徴とする請求項1に記載の方法。
  3. 前記顔画像に対してエッジ検出を行い、顔特徴線画像を取得することは、
    前記顔画像の特徴線の特徴を抽出し、特徴線画像を取得することと、
    前記特徴線画像を最適化し、前記顔特徴線画像を取得することと、を含むことを特徴とする請求項1に記載の方法。
  4. 前記顔画像の特徴線の特徴を抽出し、特徴線画像を取得することは、
    前記顔画像に対して、畳み込み、残差演算、ダウンサンプリング及び残差演算の操作を順次に実行し、前記特徴線画像を取得することを含むことを特徴とする請求項3に記載の方法。
  5. 前記特徴線画像を最適化し、前記顔特徴線画像を取得することは、
    前記特徴線画像を少なくとも一つの段階の最適化ネットワークを経させて、前記顔特徴線画像を取得することであって、各段階の前記最適化ネットワークが、残差演算を実現するための砂時計型ネットワーク及び特徴線情報を伝送するための情報伝送層を含むことを含むことを特徴とする請求項3に記載の方法。
  6. 前記第1の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行う前に、
    前記第1の融合画像に対して、畳み込み、ダウンサンプリング及び残差演算を順次に含む最適化処理を行い、最適化された第1の融合画像を取得することを更に含むことを特徴とする請求項に記載の方法。
  7. 前記顔画像に対して入力画像融合を行い、第1の融合画像を取得することは、
    前記顔画像を、個々の事前定義された特徴線画像と画素ごとに乗算し、個々の事前定義された特徴線画像に一対一に対応する複数の境界特徴を取得することと、
    複数の前記境界特徴と前記顔画像とを重ね合わせ、第1の融合画像を取得することと、を含むことを特徴とする請求項に記載の方法。
  8. 前記第1の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行い、第2の融合画像を取得することは、
    前記第1の融合画像と前記顔特徴線画像とを重ね合わせ、第3の融合画像を取得することと、
    前記第3の融合画像に対して残差演算を行い、前記顔特徴線画像と同じサイズの第4の融合画像を取得することと、
    前記第1の融合画像を前記第4の融合画像を画素ごとに乗算し、第5の融合画像を取得することと、
    前記第1の融合画像と前記第5の融合画像とを重ね合わせ、前記第2の融合画像を取得することと、を含むことを特徴とする請求項に記載の方法。
  9. 各段階の前記エッジ画像融合の間に、各段階の境界融合の結果に対して残差演算を行うことを更に含むことを特徴とする請求項に記載の方法。
  10. 前記第2の融合画像をマッピングし、特徴点の位置ベクトルを取得することは、
    前記第2の融合画像に対して、残差演算及び全結合操作を順次に行い、前記特徴点の位置ベクトルを取得することを含むことを特徴とする請求項に記載の方法。
  11. 請求項1~10のいずれか1項に記載の顔特徴点の測位方法を実行するように構成されることを特徴とする顔特徴点の測位装置。
  12. プロセッサーと、
    プロセッサーが実行可能なコマンドを記憶するように構成されるメモリと、を含み、
    前記プロセッサーが請求項1~10のいずれか1項に記載の方法を実行するように配置される電子デバイス。
  13. コンピュータープログラムコマンドが記憶されたコンピューター可読記憶媒体であって、
    プロセッサーによって前記コンピュータープログラムコマンドを実行する時に請求項1~10のいずれか1項に記載の方法を実現するコンピューター可読記憶媒体。
JP2019568632A 2018-04-24 2018-11-21 顔特徴点の測位方法及び装置 Active JP7042849B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810373871.6 2018-04-24
CN201810373871.6A CN108596093B (zh) 2018-04-24 2018-04-24 人脸特征点的定位方法及装置
PCT/CN2018/116779 WO2019205605A1 (zh) 2018-04-24 2018-11-21 人脸特征点的定位方法及装置

Publications (3)

Publication Number Publication Date
JP2020523694A JP2020523694A (ja) 2020-08-06
JP2020523694A5 JP2020523694A5 (ja) 2020-09-17
JP7042849B2 true JP7042849B2 (ja) 2022-03-28

Family

ID=63614398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019568632A Active JP7042849B2 (ja) 2018-04-24 2018-11-21 顔特徴点の測位方法及び装置

Country Status (7)

Country Link
US (1) US11314965B2 (ja)
JP (1) JP7042849B2 (ja)
KR (1) KR102334279B1 (ja)
CN (1) CN108596093B (ja)
MY (1) MY201922A (ja)
SG (1) SG11201912428TA (ja)
WO (1) WO2019205605A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596093B (zh) 2018-04-24 2021-12-03 北京市商汤科技开发有限公司 人脸特征点的定位方法及装置
CN109285182A (zh) * 2018-09-29 2019-01-29 北京三快在线科技有限公司 模型生成方法、装置、电子设备和计算机可读存储介质
CN109522910B (zh) * 2018-12-25 2020-12-11 浙江商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN109461188B (zh) * 2019-01-30 2019-04-26 南京邮电大学 一种二维x射线头影测量图像解剖特征点自动定位方法
CN111553865B (zh) * 2020-04-30 2023-08-22 深圳市商汤科技有限公司 图像修复方法及装置、电子设备和存储介质
CN115564837B (zh) * 2022-11-17 2023-04-18 歌尔股份有限公司 一种视觉定位方法、装置和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146356A (ja) 2006-12-11 2008-06-26 Nissan Motor Co Ltd 視線方向推定装置及び視線方向推定方法
JP2009265774A (ja) 2008-04-22 2009-11-12 Canon Inc 情報処理装置及び情報処理方法
US20160283780A1 (en) 2015-03-25 2016-09-29 Alibaba Group Holding Limited Positioning feature points of human face edge

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4217664B2 (ja) * 2004-06-28 2009-02-04 キヤノン株式会社 画像処理方法、画像処理装置
US8620038B2 (en) * 2006-05-05 2013-12-31 Parham Aarabi Method, system and computer program product for automatic and semi-automatic modification of digital images of faces
JP5202037B2 (ja) 2008-02-29 2013-06-05 キヤノン株式会社 特徴点位置決定方法及び装置
CN103679158B (zh) * 2013-12-31 2017-06-16 北京天诚盛业科技有限公司 人脸认证方法和装置
US10198624B2 (en) * 2016-02-18 2019-02-05 Pinscreen, Inc. Segmentation-guided real-time facial performance capture
KR101785661B1 (ko) * 2016-12-06 2017-10-17 인천대학교 산학협력단 회색 값 분산을 이용한 얼굴 윤곽 인식방법 및 그 장치
WO2018144537A1 (en) * 2017-01-31 2018-08-09 The Regents Of The University Of California Machine learning based driver assistance
CN106951840A (zh) * 2017-03-09 2017-07-14 北京工业大学 一种人脸特征点检测方法
CN107832741A (zh) * 2017-11-28 2018-03-23 北京小米移动软件有限公司 人脸特征点定位的方法、装置及计算机可读存储介质
CN108596093B (zh) * 2018-04-24 2021-12-03 北京市商汤科技开发有限公司 人脸特征点的定位方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146356A (ja) 2006-12-11 2008-06-26 Nissan Motor Co Ltd 視線方向推定装置及び視線方向推定方法
JP2009265774A (ja) 2008-04-22 2009-11-12 Canon Inc 情報処理装置及び情報処理方法
US20160283780A1 (en) 2015-03-25 2016-09-29 Alibaba Group Holding Limited Positioning feature points of human face edge

Also Published As

Publication number Publication date
CN108596093B (zh) 2021-12-03
KR20200010397A (ko) 2020-01-30
JP2020523694A (ja) 2020-08-06
SG11201912428TA (en) 2020-01-30
KR102334279B1 (ko) 2021-12-02
MY201922A (en) 2024-03-23
WO2019205605A1 (zh) 2019-10-31
CN108596093A (zh) 2018-09-28
US20200125833A1 (en) 2020-04-23
US11314965B2 (en) 2022-04-26

Similar Documents

Publication Publication Date Title
JP7042849B2 (ja) 顔特徴点の測位方法及び装置
US20210326587A1 (en) Human face and hand association detecting method and a device, and storage medium
JP7262659B2 (ja) 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体
US10930010B2 (en) Method and apparatus for detecting living body, system, electronic device, and storage medium
CN108764069B (zh) 活体检测方法及装置
CN109257645B (zh) 视频封面生成方法及装置
CN107692997B (zh) 心率检测方法及装置
CN110503689B (zh) 位姿预测方法、模型训练方法及装置
KR20210047336A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
JP2021519051A (ja) ビデオ修復方法および装置、電子機器、ならびに記憶媒体
EP3147819A1 (en) Method and device for fingerprint image alignment
EP3038345A1 (en) Auto-focusing method and auto-focusing device
US11455836B2 (en) Dynamic motion detection method and apparatus, and storage medium
CN111104920A (zh) 视频处理方法及装置、电子设备和存储介质
EP3528245A1 (en) User identification method and apparatus based on acoustic features
EP2990905A1 (en) Method and device for displaying image
JP7387002B2 (ja) 測位方法、装置、電子機器、記憶媒体、プログラム及び製品
CN110989884A (zh) 图像定位的操作显示方法及装置、电子设备和存储介质
CN111325786B (zh) 图像处理方法及装置、电子设备和存储介质
AU2020309091B2 (en) Image processing method and apparatus, electronic device, and storage medium
CN110333903B (zh) 页面加载时长的确定方法及装置
CN114550261A (zh) 人脸识别方法及装置、电子设备和存储介质
KR102374400B1 (ko) 이미지 처리 방법 및 장치, 전자 기기와 저장 매체
CN114333185A (zh) 支付方法及装置、电子设备和存储介质
CN110969569A (zh) 试镜视频的生成方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191212

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220118

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220118

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220127

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220315

R150 Certificate of patent or registration of utility model

Ref document number: 7042849

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150