JP7038829B2 - 顔部認識方法及び装置、電子機器並びに記憶媒体 - Google Patents

顔部認識方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP7038829B2
JP7038829B2 JP2020533112A JP2020533112A JP7038829B2 JP 7038829 B2 JP7038829 B2 JP 7038829B2 JP 2020533112 A JP2020533112 A JP 2020533112A JP 2020533112 A JP2020533112 A JP 2020533112A JP 7038829 B2 JP7038829 B2 JP 7038829B2
Authority
JP
Japan
Prior art keywords
features
attention
clustering
attribute
face recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020533112A
Other languages
English (en)
Other versions
JP2021514497A5 (ja
JP2021514497A (ja
Inventor
▲陳▼▲鄭▼豪
徐静
▲趙▼瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2021514497A publication Critical patent/JP2021514497A/ja
Publication of JP2021514497A5 publication Critical patent/JP2021514497A5/ja
Application granted granted Critical
Publication of JP7038829B2 publication Critical patent/JP7038829B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Description

(関連出願の相互参照)
本願は、出願番号が201910107458.Xで、出願日が2019年2月2日である中国特許出願に基づいて提出され、且つこの中国特許出願の優先権を主張し、その開示の全てが参照によって本開示に組み込まれる。
本開示は、コンピュータ技術に関するが、コンピュータ分野に限定されるものでなく、特に、顔部認識方法及び装置、電子機器並びに記憶媒体に関する。
顔部属性の予測は、幅広い用途があり、例えば、セキュリティ監視分野では非常に重要な部分となっている。人の性別、年齢、危険物を持っているか否か、及び他の属性を効果的に予測することは、顔部属性の予測の用途において非常に重要な役割を果たす。属性を正確に予測することによって、顔部認識の正確率を更に高めることができ、顔部認識は様々な適用場合に広く利用されることが可能になる。
本開示は、顔部認識の技術的解決手段を提供する。
本開示の一態様によれば、ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのN個の属性特徴を得るステップであって、Nが1より大きい整数であるステップと、注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのN個の注意特徴を得るステップと、前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得るステップであって、Mが正整数であり且つM<Nであるステップと、前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップと、を含む顔部認識方法を提供する。
可能な一実施形態では、前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得るステップは、前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング集合を得るステップであって、各注意特徴はM個のクラスタリング集合のうちの1つのクラスタリング集合に対応するステップと、各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、M個のクラスタリング注意特徴を得るステップと、を含む。
可能な一実施形態では、前記方法は、前記N個の属性特徴と前記N個の注意特徴をそれぞれ乗算して、強化後のN個の属性特徴を得るステップを更に含み、
前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップは、前記M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップを含む。
可能な一実施形態では、前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップは、前記M個のクラスタリング注意特徴に基づいて前記N個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るステップを含む。
可能な一実施形態では、前記M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップは、強化後のN個の属性特徴と前記N個の属性特徴の少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む。
可能な一実施形態では、前記M個のクラスタリング注意特徴に基づいて前記N個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップは、前記N個の属性特徴と前記N個の属性特徴の少なくとも一部の前記属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む。
可能な一実施形態では、前記方法は、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記N個の注意特徴に対してクラスタリング処理を行うためのクラスタリングネットワークと、を含むニューラルネットワークによって実現される。
可能な一実施形態では、前記方法は、前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するステップを更に含む。
可能な一実施形態では、前記クラスタリング処理は、スペクトラルクラスタリングを含み、前記M個のクラスタリング注意特徴はそれぞれ前記M個のクラスタリング集合のクラスタ中心である。
本開示の別の態様によれば、ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのN個の属性特徴を得るためのものであって、Nが1より大きい整数である属性抽出モジュールと、注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのN個の注意特徴を得るための注意抽出モジュールと、前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得るためのものであって、Mが正整数であり且つM<Nであるクラスタリングモジュールと、前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するための結果決定モジュールと、を含む顔部認識装置を提供する。
可能な一実施形態では、前記クラスタリングモジュールは、前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング集合を得るためのクラスタリングサブモジュールであって、各注意特徴はM個のクラスタリング集合のうちの1つのクラスタリング集合に対応するクラスタリングサブモジュールと、各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、M個のクラスタリング注意特徴を得るための特徴決定サブモジュールと、を含む。
可能な一実施形態では、前記装置は、前記N個の属性特徴と前記N個の注意特徴をそれぞれ乗算して、強化後のN個の属性特徴を得るための属性強化モジュールを更に含み、前記結果決定モジュールは、
前記M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るための第1補正サブモジュールを含む。
可能な一実施形態では、前記結果決定モジュールは、前記M個のクラスタリング注意特徴に基づいて前記N個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るための第2補正サブモジュールを含む。
可能な一実施形態では、前記第1補正サブモジュールは、強化後のN個の属性特徴と前記N個の属性特徴の少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第1乗算サブモジュールを含む。
可能な一実施形態では、前記第2補正サブモジュールは、前記N個の属性特徴とN個の属性特徴の少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第2乗算サブモジュールを含む。
可能な一実施形態では、前記装置は、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記N個の注意特徴に対してクラスタリング処理を行うためのクラスタリングネットワークと、を含むニューラルネットワークによって実現される。
可能な一実施形態では、前記装置は、前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するためのパラメータ調整モジュールを更に含む。
可能な一実施形態では、前記クラスタリング処理は、スペクトラルクラスタリングを含み、前記M個のクラスタリング注意特徴はそれぞれ前記M個のクラスタリング集合のクラスタ中心である。
本開示の別の態様によれば、プロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサが上記方法を実行するように構成される電子機器を提供する。
本開示の別の態様によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記方法を実現するコンピュータ読取可能記憶媒体を提供する。
本開示の更に別の態様によれば、プロセッサにより実行されると、上記方法を実現するコンピュータプログラム製品を提供する。
本開示の実施例では、被処理画像に対してそれぞれ属性特徴抽出及び注意特徴抽出を行って複数の属性特徴及び注意特徴を得、注意特徴をクラスタリングしてクラスタリング注意特徴を得、複数の属性特徴及びクラスタリング注意特徴に基づいて顔部認識結果を決定することができ、マルチ注意メカニズムによって注意特徴を抽出し、且つクラスタリングによって類似的な注意特徴を集約することによって、異なる局所特徴を最適化し、顔部属性の認識効果を高める。
例えば、本願は以下の項目を提供する。
(項目1)
ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのN個の属性特徴を得るステップであって、Nが1より大きい整数であるステップと、
注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのN個の注意特徴を得るステップと、
前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得るステップであって、Mが正整数であり且つM<Nであるステップと、
前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップと、を含む顔部認識方法。
(項目2)
前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得るステップは、
前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング集合を得るステップであって、各注意特徴はM個のクラスタリング集合のうちの1つのクラスタリング集合に対応するステップと、
各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、M個のクラスタリング注意特徴を得るステップと、を含む項目1に記載の方法。
(項目3)
前記N個の属性特徴と前記N個の注意特徴をそれぞれ乗算して、強化後のN個の属性特徴を得るステップを更に含み、
前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップは、
前記M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップを含む項目1又は2に記載の方法。
(項目4)
前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップは、
前記M個のクラスタリング注意特徴に基づいて前記N個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るステップを含む項目1又は2に記載の方法。
(項目5)
前記M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップは、
強化後のN個の属性特徴と前記N個の属性特徴のうち少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む項目3に記載の方法。
(項目6)
前記M個のクラスタリング注意特徴に基づいて前記N個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップは、
前記N個の属性特徴と前記N個の属性特徴のうち少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む項目4に記載の方法。
(項目7)
前記方法はニューラルネットワークによって実現され、前記ニューラルネットワークは、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記N個の注意特徴に対してクラスタリング処理を行うためのクラスタリングネットワークと、を含む項目1~6のいずれか一項に記載の方法。
(項目8)
前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するステップを更に含む項目7に記載の方法。
(項目9)
前記クラスタリング処理は、スペクトラルクラスタリングを含み、前記M個のクラスタリング注意特徴はそれぞれ前記M個のクラスタリング集合のクラスタ中心である項目1~8のいずれか一項に記載の方法。
(項目10)
ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのN個の属性特徴を得るための属性抽出モジュールであって、Nが1より大きい整数である属性抽出モジュールと、
注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのN個の注意特徴を得るための注意抽出モジュールと、
前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得るためのクラスタリングモジュールであって、Mが正整数であり且つM<Nであるクラスタリングモジュールと、
前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するための結果決定モジュールと、を含む顔部認識装置。
(項目11)
前記クラスタリングモジュールは、
前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング集合を得るためのクラスタリングサブモジュールためのクラスタリングサブモジュールであって、各注意特徴はM個のクラスタリング集合のうちの1つのクラスタリング集合に対応するクラスタリングサブモジュールと、
各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、M個のクラスタリング注意特徴を得るための特徴決定サブモジュールと、を含む項目10に記載の装置。
(項目12)
前記N個の属性特徴と前記N個の注意特徴をそれぞれ乗算して、強化後のN個の属性特徴を得るための属性強化モジュールを更に含み、
前記結果決定モジュールは、
前記M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るための第1補正サブモジュールを含む項目10又は11に記載の装置。
(項目13)
前記結果決定モジュールは、
前記M個のクラスタリング注意特徴に基づいて前記N個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るための第2補正サブモジュールを含む項目10又は11に記載の装置。
(項目14)
前記第1補正サブモジュールは、
強化後のN個の属性特徴と各前記属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第1乗算サブモジュールを含む項目12に記載の装置。
(項目15)
前記第2補正サブモジュールは、
前記N個の属性特徴と各前記属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第2乗算サブモジュールを含む項目13に記載の装置。
(項目16)
前記装置はニューラルネットワークによって実現され、前記ニューラルネットワークは、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記N個の注意特徴に対してクラスタリング処理を行うためのものクラスタリングネットワークと、を含む項目10~15のいずれか一項に記載の装置。
(項目17)
前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するためのパラメータ調整モジュールを更に含む項目16に記載の装置。
(項目18)
前記クラスタリング処理は、スペクトラルクラスタリングを含み、前記M個のクラスタリング注意特徴はそれぞれ前記M個のクラスタリング集合のクラスタ中心である項目10~17のいずれか一項に記載の装置。
(項目19)
プロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、
前記プロセッサが項目1~9のいずれか一項に記載の方法を実行するように構成される電子機器。
(項目20)
コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に項目1~9のいずれか一項に記載の方法を実現するコンピュータ読取可能記憶媒体。
(項目21)
プロセッサにより実行されると、項目1~9のいずれか一項に記載の方法を実現するコンピュータプログラム製品。
本開示の実施例に係る顔部認識方法のフローチャートを示す。 本開示の実施例に係る顔部認識方法の適用例の模式図を示す。 本開示に基づく最適化の前後の唇部注意特徴の比較図を示す。 本開示の実施例に係る顔部認識装置のブロック図を示す。 本開示の実施例に係る電子機器のブロック図を示す。 本開示の実施例に係る電子機器のブロック図を示す。
ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するために用いられる。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も他の実施例より優れたものと理解すべきではない。
本明細書の用語の「及び/又は」は、関連対象の関連関係を記述するためのものに過ぎず、3種の関係が存在可能であることを示し、例えば、A及び/又はBは、Aが単独して存在し、AとBが同時に存在し、Bが単独して存在するという3種の場合を示してもよい。また、本明細書の用語の「少なくとも1種」は多種のうちのいずれか1種又は多種のうちの少なくとも2種の任意の組合を示し、例えば、A、B、Cのうちの少なくとも1種を含むということは、A、B及びCから構成される集合から選択されるいずれか1つ又は複数の要素を含むことを示してもよい。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。
図1は本開示の実施例に係る顔部認識方法100のフローチャートを示す。この顔部認識方法100は、以下のステップを含む。ステップ102において、ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのN個の属性特徴を得、Nが1より大きい整数である。ステップ104において、注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのN個の注意特徴を得る。ステップ106において、前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得、Mが正整数であり且つM<Nである。ステップ108において、前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定する。
本願の実施例で提供される方法は、様々な画像処理装置に適用することができ、画像処理装置は、ステップ102、ステップ104、ステップ106及びステップ108を実行することよって、画像のターゲットオブジェクトの顔部の認識、例えば、顔認識等を行うことができる。この画像処理装置は、例えば、住宅区域の出入り口、学校、工場区域、住所等、監視等を必要とする様々なところに取り付けられるセキュリティ装置であってよい。
ある実施例では、前記画像処理装置は、更に、セキュリティ分野以外のところに適用することもでき、例えば、この画像処理装置は、顔部認識によって検札を行うチケット関連装置であってよい。更に例えば、この画像処理装置は、支払うか否か等を顔部認識結果によって決定する支払装置であってよい。
要するに、本願の顔部認識方法は、顔部認識を行って顔部認識結果を取得することを必要とする様々な場所に適用可能である。
本開示の実施例によれば、被処理画像に対してそれぞれ属性特徴抽出及び注意特徴抽出を行って複数の属性特徴及び注意特徴を得、注意特徴をクラスタリングしてクラスタリング注意特徴を得、複数の属性特徴及びクラスタリング注意特徴に基づいて顔部認識結果を決定することができ、マルチ注意メカニズムによって注意特徴を抽出し、且つクラスタリングによって類似的な注意特徴を集約することによって、異なる局所特徴を最適化し、顔部属性の認識効果を高める。
顔部認識(例えば、顔認識)の過程で、異なるタスクに必要とされるのは、顔部全体の特徴ではなく、顔部の局所特徴のみであることがある。例えば、人が眼鏡をかけているか否かを予測するには、単独した目部情報しか要らないことがあり、余計な情報が結果に干渉を与える可能性がある。従って、注意特徴を加えることで予測の精度を高めることができる。
本開示の実施例では、前記注意特徴は、指定された、抽出する必要がある特徴であってよく、前記属性特徴の中の1つ又は複数のものであってよい。
前記属性特徴はターゲットオブジェクトの全体特徴及び/又は局所特徴であってよい。例えば、前記全体特徴は、ターゲットオブジェクトの顔部の全体特徴を含むが、それに限定されなく、前記局所特徴は顔部におけるある局所の特徴、例えば、目の特徴、唇部特徴等であってよい。
顔部属性(例えば、人の性別、年齢、アクセサリー等の複数の顔部関連属性)を認識する時に、多属性共同認識及び特徴共有が可能である。単独の属性については、注意メカニズム(Attention Mechanism)を加えることによって、重要な特徴(例えば、耳、口、鼻等)をより好ましく学習させ、つまり局所特徴を強調可能にして、全体属性特徴をより好ましく学習させることができる。
可能な一実施形態では、ステップ102においてターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのN個の属性特徴を得るようにしてよい。ここで、ターゲットオブジェクトは、例えば、画像中の人物等であってよく、被処理画像は、例えば、ターゲットオブジェクトを含む顔画像であってよい。例えば、畳み込みニューラルネットワークCNNをベースネットワーク(Base Net)として被処理画像に対して特徴抽出を行って顔部特徴マップを得、更に例えばマルチタスク畳み込みニューラルネットワーク(Multi-Task Convolution Neural Net:MTCNN)によって、得られた顔部特徴マップに対して属性特徴抽出を行って、ターゲットオブジェクトのN個の属性特徴を得るようにしてよい。ここで、マルチタスク畳み込みニューラルネットワークとしては、VGG16、残差ネットワーク等の異なる種類のネットワークを用いてよく、本開示はマルチタスク畳み込みニューラルネットワークのネットワーク種類を制限しない。
可能な一実施形態では、ステップ104において注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのN個の注意特徴を得るようにしてよい。例えば、ベースネットワークによって被処理画像に対して特徴抽出を行って顔部特徴マップを得て特徴共有を実現し、更に、複数の単独注意ネットワーク(Individual Attention Network:IAN)によって前記顔部特徴マップに対して注意特徴抽出を行うようにしてよい。複数の単独注意ネットワークのうちのそれぞれのネットワークは1つの単独した注意点に対して訓練され、例えばそれぞれ人の眼鏡、唇部等に対して訓練されることを説明する必要がある。複数の単独注意ネットワーク(IAN)としては、簡単な畳み込みニューラルネットワークを用いてもよく、又は関連技術の注意メカニズム、例えば残差注意(residual attention)等を用いてもよく、本開示は複数の単独注意ネットワークのネットワーク種類を制限しない。
可能な一実施形態では、ステップ106において前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得るようにしてよい。
例を挙げると、眼鏡、鼻等のような一部の顔部特徴は好ましく学習可能である。それらに対して、イヤリング、眉等の細粒度特徴は学習しにくい。従って、クラスタリング方式によって全ての注意特徴のうちの類似な部分を集約し且つ最適化し、特に学習効果が好ましくない一部の最初注意特徴を補正することができる。
可能な一実施形態では、ステップ106は、
前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング集合を得るステップであって、各注意特徴はM個のクラスタリング集合のうちの1つのクラスタリング集合に対応するステップと、
各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、M個のクラスタリング注意特徴を得るステップと、を含んでよい。
例を挙げると、N個の注意特徴をM個の種類(M<N)にクラスタリングしてよく、クラスタリング処理を行った後、それぞれの注意特徴がそれぞれM個の種類のうちの1つの種類に対応する。クラスタリングした後、M個のクラスタリング集合が得られた。各クラスタリング集合のクラスタリング注意特徴をそれぞれ抽出して、M個のクラスタリング注意特徴を得ることができる。そのようにして、M個のクラスタリング注意特徴をN個の注意特徴の代表とし、更にN個の属性特徴及びM個のクラスタリング注意特徴に基づいてターゲットオブジェクトの顔部認識結果を決定するようにしてよい。
可能な一実施形態では、クラスタリング処理はスペクトラルクラスタリングであってよく、M個のクラスタリング注意特徴は前記M個のクラスタリング集合のうちのそれぞれのクラスタリング集合のクラスタ中心となる。M個のクラスタリング集合からクラスタ中心を取り出す方法は多数ある。一実施形態では、各クラスタリング集合においてすべての値の平均値を取ってクラスタ中心を得てよい。別の実施形態では、予め設定された訓練集合で訓練し、学習させて各注意特徴の対応する重みを得、クラスタリング集合中の各注意特徴に対して加重平均を行うことによって、このクラスタリング集合のクラスタ中心を得るようにしてよい。本開示はクラスタリングの具体的な方式を制限しない。
このような形態によれば、学習しやすい注意特徴を用いて他の学習しにくい注意特徴を支援してよく、関連する注意特徴の相互支援によって注意メカニズムの効果を高める。
可能な一実施形態では、ステップ108において前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するようにしてよい。ターゲットオブジェクトの顔部認識結果を決定するために、得られたN個の属性特徴及びM個のクラスタリング注意特徴について乗算等の方式によって総合的に考慮してもよく、他の方式によって更に処理してもよい。
可能な一実施形態では、ステップ108は、
前記M個のクラスタリング注意特徴に基づいて前記N個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るステップを含んでよい。つまり、M個のクラスタリング注意特徴を用いてN個の属性特徴をそれぞれ直接補正してよい。
可能な一実施形態では、M個のクラスタリング注意特徴に基づいてN個の属性特徴を補正するステップは、N個の属性特徴と前記N個の属性特徴のうち少なくとも一部の属性特徴に対応するクラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む。
このような形態によれば、顔部認識結果をより好適に単独の注意特徴に注目させることができる。本実施例におけるN個の属性特徴のうちの少なくとも一部の属性特徴は、N個の属性特徴のうちの各属性特徴及びN個より少ない属性特徴を含む。
可能な一実施形態では、前記方法は、前記N個の属性特徴と前記N個の注意特徴をそれぞれ乗算して、強化後のN個の属性特徴を得るステップを更に含んでよく、
ステップ108は、前記M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップを含んでよい。
例を挙げると、先にN個の注意特徴とN個の属性特徴をそれぞれ乗算して、強化後のN個の属性特徴を得るようにしてよく、それによって強調される必要がある属性特徴が強化される。更に、M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴をそれぞれ補正して、ターゲットオブジェクトの顔部認識結果を得る。
具体的な一実施形態では、M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴を補正するステップは、強化後のN個の属性特徴と前記N個の属性特徴のうち少なくとも一部の属性特徴に対応するクラスタリング注意特徴をそれぞれ乗算して、顔部認識結果を得るステップを含んでよい。
このような形態によれば、注意特徴を更に強調して、顔部認識の効果を高めることができる。
図2は本開示の実施例に係る顔部認識方法の適用例の模式図を示す。方法200は顔部認識方法100の適用例である。図2に示すように、方法200において、ベースネットワークによって被処理画像に対して特徴抽出を行って顔部特徴マップを得、顔部特徴マップに対して属性特徴抽出を行ってN個の属性特徴202を得、顔部特徴マップに対して注意特徴抽出を行ってN個の注意特徴204を得、N個の注意特徴204に対してクラスタリング処理を行ってM個のクラスタリング集合を得るようにしてよい。このN個の注意特徴のうちのそれぞれの注意特徴がM個のクラスタリング集合のうちの1つのクラスタリング集合に対応し、また、各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定してM個のクラスタリング注意特徴を得てよい。
顔部認識方法200の変形例において、N個の注意特徴204で得られたM個のクラスタリング注意特徴に基づいてN個の属性特徴202を直接補正して(S208)、ターゲットオブジェクトの顔部認識結果を決定することができる。そのようにして、IANクラスタリングのガイドによってターゲットオブジェクトの顔部認識結果を補正し、学習しやすい注意特徴によって学習しにくい注意特徴を最適化することができる。
顔部認識方法200の変形例において、例えば、図2における破線矢印S206に示すように、更にN個の注意特徴204とN個の属性特徴202をそれぞれ乗算して、強化後のN個の属性特徴を得るようにしてよい。更に、M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴をそれぞれ補正して、ターゲットオブジェクトの顔部認識結果を得る。そのようにして、注意特徴を更に強調し、学習しやすい注意特徴によって学習しにくい注意特徴を最適化することができる。
顔部認識方法200の上記変形例によれば、関連属性の相互支援によって注意メカニズムを高めることができる。
可能な一実施形態では、前記方法は、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記N個の注意特徴に対してクラスタリング処理を行うためのクラスタリングネットワークと、を含むニューラルネットワークによって実現されてよい。
マルチタスク畳み込みネットワーク(MTCNN)は、被処理画像(顔部特徴マップ)に対して属性特徴202の抽出を行うためのものである。具体的に使用されるマルチタスク畳み込みネットワークとしては、異なるシーンに応じて、VGG16、残差ネットワーク(Residual Network)等のような異なるサイズのネットワークを用いてよい。
複数の単独注意ネットワーク(IAN)は被処理画像(顔部特徴マップ)に対して注意特徴204の抽出を行うためのものである。複数の単独注意ネットワークのうちのそれぞれのネットワークは1つの単独した注意点に対して訓練され、例えば、それぞれ人の眼鏡、唇部等に対して訓練されることを説明する必要がある。IANについては、簡単な畳み込みニューラルネットワークを用いて学習してもよく、又は、例えば残差注意(residual attention)等の注意メカニズムを用いてもよい。
クラスタリングネットワークは、N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得るためのものである。本開示は、クラスタリングネットワークのネットワーク種類を制限しない。
可能な一実施形態では、前記方法は、前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するステップを更に含む。
上記各ニューラルネットワークは、予め設定した訓練集合に基づいて訓練されてもよい。本発明で用いられる各ネットワークにおいて、組合タスクを用いて最適化することになり、組合過程で人工を必要とするプロセスが要らなくてもよく、最適化全体を自己学習によって実現する。
前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するようにしてよく、それによってニューラルネットワークの逆伝播で単独注意ネットワークを最適化する。
具体的な一実施形態では、MTCNNを基礎的なマルチタスク属性学習ネットワークとして、顔部特徴マップのN個の属性(attribute)を同時に訓練し、N個の属性特徴202を得るようにしてよい。MTCNNで得られたN個の属性特徴202は、特徴テンソルであり、(N,C,W,H)で示してよい。(N,C,W,H)の数値は具体的なニューラルネットワークに依存する。ここで、N、C、W、Hはいずれも自然数であり、Nは特徴テンソルの個数を示し、Cは得られた特徴マップの数量を示し、チャンネル数とも呼ばれ、一般的に3より遥かに大きく、Wは特徴マップの幅を示し、Hは特徴マップの長さを示す。つまり、N個の属性特徴202は、N個の属性特徴(C,W,H)、即ちN個の属性特徴テンソル(チャンネル数,幅,長さ)で示してよい。その後でN個の属性特徴202を用いて顔部認識結果とするN個の顔部属性を予測することができる。
具体的な一実施形態では、例えば、IANを用いて顔部特徴マップからのN個の属性を訓練し、注意マップ(attention map)を用いてN個の属性を学習して、N個の注意特徴204を得るようにしてよい。それぞれの注意特徴が1つの二次元注意特徴マップ(Mask)に対応するので、得られた注意特徴204の特徴テンソルAは(N,1,W,H)で示してよく、即ち、ここのチャンネル数が1である。従って、N個の注意特徴204はN個の特徴テンソルA(W,H)、即ちN個の特徴テンソルA(幅,長さ)で示してよい。
具体的な一実施形態では、図2の破線矢印S206に示すように、N個の注意特徴テンソルA(幅,長さ)とN個の属性特徴テンソルに対して乗算処理を行って、N個の属性特徴テンソル中の関連特徴を強調するようにしてよい。
具体的な一実施形態では、N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング集合を得、それらはC,…,Cで示してよい。ここで、M個のクラスタリング集合のそれぞれから取り出されたクラスタ中心は、1番目のクラスタリング注意特徴(Ax1,y1),…,M番目のクラスタリング注意特徴(Axm,Aym)で示してよい。上記M個のクラスタリング注意特徴は(M,1,W,H)、即ちM個の二次元テンソルX_(幅,長さ),…,X_(幅,長さ)で示してよい。N個の注意特徴Aの補正で得られたN個の属性特徴テンソルF(チャンネル数,幅,長さ)について、それぞれに対応するクラスタリングのクラスタ中心を決定し、次にM個の二次元テンソルX中の対応クラスタ中心を用いてN個の属性特徴Fに対して最後の補正を行う。このM個のテンソルXが前のIANの出力に由来するものであるので、このような学習によって、IANを同時に最適化することもでき、更に複数の注意特徴を同時に用いてN個の属性特徴Fを補正することができる。
具体的な一例において、N個の属性特徴F(チャンネル数,幅,長さ)に同時にM個のクラスタリング済みのテンソルX_をかけるように補正し、ここで、mは[1,M]範囲内の自然数である。それによって乗算後のテンソルFX(M,チャンネル数,幅,長さ)が得られる。乗算後のテンソルFX(M,チャンネル数,幅,長さ)を(M×チャンネル数,幅,長さ)に展開し、最後にこの展開結果によって特徴を予測して、最終的な顔部認識結果を得る。
上記方法によれば、マルチタスクでの注意特徴の顔部認識効果を全体的に高めることができる。図3は本開示に基づく最適化の前後の唇部注意特徴の比較図を示す。図3の上半分に示すように、最適化前の唇部注意特徴マップに多くのノイズがある。図3の下半分に示すように、本開示の通り最適化した後、唇部注意特徴が唇部により好ましく集中可能になり、ノイズが一定の程度で減少した。
本開示の実施例に係る顔部認識方法は、顔属性の訓練及び予測の時に、注意特徴を自動的に最適化し、訓練モデルの強度を高めることによって、予測の精度を高め、更に顔における細粒度属性、例えば、帽子、ネックレス、イヤホン等の有無をより好ましく予測することができる。本開示の実施例は、セキュリティ監視等の分野に用いて顔属性認識を行って、顔属性認識率を高めて、認識効果を高めることができる。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。
また、本開示は顔部認識装置、電子機器、コンピュータ読取可能記憶媒体、プログラムを更に提供し、それらはいずれも本開示で提供されるいずれか1種の部認識方法を実現することに利用可能であり、対応する技術的解決手段及び説明については方法部分の対応の記載を参照してもよく、ここで詳細な説明を省略する。
具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならなく、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。
図4は本開示の実施例に係る顔部認識装置のブロック図を示し、図4に示すように、前記装置は、
ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのN個の属性特徴を得るためのものであって、Nが1より大きい整数である属性抽出モジュール41と、
注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのN個の注意特徴を得るための注意抽出モジュール42と、
前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得るためのクラスタリングモジュール43であって、Mが正整数であり且つM<Nであるクラスタリングモジュール43と、
前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するための結果決定モジュール44と、を含む。
可能な一実施形態では、前記クラスタリングモジュールは、前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング集合を得るためのクラスタリングサブモジュールであって、各注意特徴はM個のクラスタリング集合のうちの1つのクラスタリング集合に対応するクラスタリングサブモジュールを含み、特徴決定サブモジュールは、各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、M個のクラスタリング注意特徴を得るために用いられる。
可能な一実施形態では、前記装置は、前記N個の属性特徴と前記N個の注意特徴をそれぞれ乗算して、強化後のN個の属性特徴を得るための属性強化モジュールを更に含み、前記結果決定モジュールは、
前記M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るための第1補正サブモジュールを含む。
可能な一実施形態では、前記結果決定モジュールは、前記M個のクラスタリング注意特徴に基づいて前記N個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るための第2補正サブモジュールを含む。
可能な一実施形態では、前記第1補正サブモジュールは、強化後のN個の属性特徴と各前記属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第1乗算サブモジュールを含む。
可能な一実施形態では、前記第2補正サブモジュールは、前記N個の属性特徴と各前記属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第2乗算サブモジュールを含む。
可能な一実施形態では、前記装置は、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記N個の注意特徴に対してクラスタリング処理を行うためのクラスタリングネットワークと、を含むニューラルネットワークによって実現される。
可能な一実施形態では、前記装置は、前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するためのパラメータ調整モジュールを更に含む。
可能な一実施形態では、前記クラスタリング処理は、スペクトラルクラスタリングを含み、前記M個のクラスタリング注意特徴はそれぞれ前記M個のクラスタリング集合のクラスタ中心である。
いくつかの実施例では、本開示の実施例で提供された装置に備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してもよく、簡単化するために、ここで重複説明は割愛する。
本開示の実施例は、更に、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記方法を実現するコンピュータ読取可能記憶媒体を提供する。コンピュータ読取可能記憶媒体は、不揮発性コンピュータ読取可能記憶媒体であってよい。
本開示の実施例は、更に、プロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサが上記方法を実行するように構成される電子機器を提供する。
電子機器は、端末、サーバ又は他の形態のデバイスとして提供されてよい。
本開示の実施例は、更に、プロセッサにより実行されると、上記方法を実現するコンピュータプログラム製品を提供する。
図5は本開示の実施例に係る電子機器800のブロック図を示す。例えば、装置800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってよい。
図5を参照すると、電子機器800は処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサコンポーネント814、および通信コンポーネント816の一つ以上を含むことができる。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを完了するために、一つ以上のプロセッサ820を含んで命令を実行することができる。また、処理コンポーネント802は、他のコンポーネントとの対話のために、一つ以上のモジュールを含むことができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808との対話のために、マルチメディアモジュールを含むことができる。
メモリ804は電子機器800での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器800において運用するためのあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ(LCD)およびタッチパネル(TP)を含むことができる。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチ画面として実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または後面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラおよび後面カメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク(MIC)を含む。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含むことができるが、これらに限定されない。
センサコンポーネント814は電子機器800に各面での状態評価を提供するための一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、コンポーネントの相対的位置決め、例えば前記コンポーネントが電子機器800の表示装置およびキーパッドであることを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように構成された近接センサを含む。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含むことができる。
通信コンポーネント816は電子機器800と他の機器との間の有線または無線通信を実現するように配置される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールでは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は電子機器800のプロセッサ820によって実行して上記方法を完了することができる。
図6は本開示の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900はサーバとして提供できる。図6を参照すると、電子機器1900は、さらに一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されたアプリケーションプログラムはそれぞれが1グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント1922は命令を実行し、それによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成された電源コンポーネント1926、電子機器1900をネットワークにアクセスするように構成された有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含むことができる。電子機器1900はメモリ1932に記憶されたオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、Linux(登録商標)、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は電子機器1900の処理コンポーネント1922によって実行して上記方法を完了することができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各態様を実現させるためのコンピュータ読み取り可能プログラム命令がロードされているコンピュータ読み取り可能記憶媒体を含むことができる。
コンピュータ読み取り可能記憶媒体は命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例(非包括的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピー(登録商標)ディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含むことができる。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能記憶媒体に記憶する。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのターゲットオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。
なお、ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明しが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ読み取り可能プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する手段を創出する。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ読み取り可能記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各態様を実現する命令を含む製品を備える。
コンピュータ読み取り可能プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

Claims (13)

  1. ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのN個の属性特徴を得るステップであって、Nが1より大きい整数であるステップと、
    注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのN個の注意特徴を得るステップであって、前記注意特徴は、指定された、抽出する必要がある特徴であり、前記注意特徴は前記属性特徴に属する、ステップと、
    前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得るステップであって、Mが正整数であり且つM<Nであるステップと、
    前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップと、を含む顔部認識方法。
  2. 前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得るステップは、
    前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング集合を得るステップであって、各注意特徴はM個のクラスタリング集合のうちの1つのクラスタリング集合に対応するステップと、
    各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、M個のクラスタリング注意特徴を得るステップと、を含む請求項1に記載の方法。
  3. 前記N個の属性特徴と前記N個の注意特徴をそれぞれ乗算して、強化後のN個の属性特徴を得るステップを更に含み、
    前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップは、
    前記M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップを含む請求項1又は2に記載の方法。
  4. 前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップは、
    前記M個のクラスタリング注意特徴に基づいて前記N個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るステップを含む請求項1又は2に記載の方法。
  5. 前記M個のクラスタリング注意特徴に基づいて強化後のN個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップは、
    強化後のN個の属性特徴と前記N個の属性特徴のうち少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む請求項3に記載の方法。
  6. 前記M個のクラスタリング注意特徴に基づいて前記N個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップは、
    前記N個の属性特徴と前記N個の属性特徴のうち少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む請求項4に記載の方法。
  7. 前記方法はニューラルネットワークによって実現され、前記ニューラルネットワークは、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記N個の注意特徴に対してクラスタリング処理を行うためのクラスタリングネットワークと、を含む請求項1~6のいずれか一項に記載の方法。
  8. 前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するステップを更に含む請求項7に記載の方法。
  9. 前記クラスタリング処理は、スペクトラルクラスタリングを含み、前記M個のクラスタリング注意特徴はそれぞれ前記M個のクラスタリング集合のクラスタ中心である請求項1~8のいずれか一項に記載の方法。
  10. ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのN個の属性特徴を得るための属性抽出モジュールであって、Nが1より大きい整数である属性抽出モジュールと、
    注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのN個の注意特徴を得るための注意抽出モジュールであって、前記注意特徴は、指定された、抽出する必要がある特徴であり、前記注意特徴は前記属性特徴に属する、注意抽出モジュールと、
    前記N個の注意特徴に対してクラスタリング処理を行って、M個のクラスタリング注意特徴を得るためのクラスタリングモジュールであって、Mが正整数であり且つM<Nであるクラスタリングモジュールと、
    前記N個の属性特徴及び前記M個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するための結果決定モジュールと、を含む顔部認識装置。
  11. プロセッサと、
    プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、
    前記プロセッサが請求項1~9のいずれか一項に記載の方法を実行するように構成される電子機器。
  12. コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に請求項1~9のいずれか一項に記載の方法を実現するコンピュータ読取可能記憶媒体。
  13. プロセッサに、請求項1~9のいずれか一項に記載の方法を実行させるコンピュータプログラム。
JP2020533112A 2019-02-02 2019-08-15 顔部認識方法及び装置、電子機器並びに記憶媒体 Active JP7038829B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910107458.X 2019-02-02
CN201910107458.XA CN109800737B (zh) 2019-02-02 2019-02-02 面部识别方法及装置、电子设备和存储介质
PCT/CN2019/100859 WO2020155606A1 (zh) 2019-02-02 2019-08-15 面部识别方法及装置、电子设备和存储介质

Publications (3)

Publication Number Publication Date
JP2021514497A JP2021514497A (ja) 2021-06-10
JP2021514497A5 JP2021514497A5 (ja) 2021-12-23
JP7038829B2 true JP7038829B2 (ja) 2022-03-18

Family

ID=66561887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020533112A Active JP7038829B2 (ja) 2019-02-02 2019-08-15 顔部認識方法及び装置、電子機器並びに記憶媒体

Country Status (7)

Country Link
US (1) US11455830B2 (ja)
JP (1) JP7038829B2 (ja)
KR (1) KR102390580B1 (ja)
CN (1) CN109800737B (ja)
SG (1) SG11202006192YA (ja)
TW (1) TWI717923B (ja)
WO (1) WO2020155606A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800737B (zh) 2019-02-02 2021-06-25 深圳市商汤科技有限公司 面部识别方法及装置、电子设备和存储介质
CN110210572B (zh) * 2019-06-10 2023-02-07 腾讯科技(深圳)有限公司 图像分类方法、装置、存储介质及设备
CN110458052B (zh) * 2019-07-25 2023-04-07 Oppo广东移动通信有限公司 基于增强现实的目标对象识别方法、装置、设备、介质
CN111339813B (zh) * 2019-09-30 2022-09-27 深圳市商汤科技有限公司 人脸属性识别方法、装置、电子设备和存储介质
CN111950643B (zh) * 2020-08-18 2022-06-28 创新奇智(上海)科技有限公司 图像分类模型训练方法、图像分类方法及对应装置
CN112580694B (zh) * 2020-12-01 2024-04-19 中国船舶重工集团公司第七0九研究所 基于联合注意力机制的小样本图像目标识别方法及系统
CN112560756A (zh) * 2020-12-24 2021-03-26 北京嘀嘀无限科技发展有限公司 识别人脸的方法、装置、电子设备和存储介质
CN112733652B (zh) * 2020-12-31 2024-04-19 深圳赛安特技术服务有限公司 图像目标识别方法、装置、计算机设备及可读存储介质
CN113049084B (zh) * 2021-03-16 2022-05-06 电子科技大学 一种基于注意力机制的Resnet的分布式光纤传感信号识别方法
CN113052175B (zh) * 2021-03-26 2024-03-29 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及可读存储介质
CN113177533B (zh) * 2021-05-28 2022-09-06 济南博观智能科技有限公司 一种人脸识别方法、装置及电子设备
CN113553905B (zh) * 2021-06-16 2024-04-26 北京百度网讯科技有限公司 图像识别方法、装置及系统
CN113392263A (zh) * 2021-06-24 2021-09-14 上海商汤科技开发有限公司 一种数据标注方法及装置、电子设备和存储介质
CN113470827A (zh) * 2021-06-30 2021-10-01 上海商汤智能科技有限公司 分类方法及装置、电子设备和存储介质
CN113688729B (zh) * 2021-08-24 2023-04-07 上海商汤科技开发有限公司 一种行为识别方法及装置、电子设备和存储介质
CN114495294A (zh) * 2021-12-03 2022-05-13 华中科技大学鄂州工业技术研究院 一种地铁闸机无感支付方法、装置及存储介质
KR102458179B1 (ko) 2022-06-20 2022-10-24 주식회사 한국공간데이터 얼굴 속성을 이용한 얼굴 인식 방법 및 얼굴 인식 장치
CN117437684B (zh) * 2023-12-14 2024-04-16 深圳须弥云图空间科技有限公司 一种基于修正注意力的图像识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003346151A (ja) 2002-05-29 2003-12-05 Fuji Photo Film Co Ltd 画像認識方法および装置並びにプログラム
CN106845421A (zh) 2017-01-22 2017-06-13 北京飞搜科技有限公司 基于多区域特征与度量学习的人脸特征识别方法及系统
JP2017157138A (ja) 2016-03-04 2017-09-07 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013003635A (ja) * 2011-06-13 2013-01-07 Sony Corp 情報処理装置、情報処理方法及びプログラム
TWI528331B (zh) * 2014-10-06 2016-04-01 由田新技股份有限公司 注意力偵測裝置、方法、電腦可讀取紀錄媒體、及其電腦程式產品
CN105096420A (zh) * 2015-07-31 2015-11-25 北京旷视科技有限公司 门禁系统以及用于其的数据处理方法
CN105678304B (zh) * 2015-12-30 2020-04-10 浙江宇视科技有限公司 一种车标识别方法及装置
US10831827B2 (en) * 2016-04-01 2020-11-10 International Business Machines Corporation Automatic extraction of user mobility behaviors and interaction preferences using spatio-temporal data
CN106611421B (zh) * 2016-12-30 2019-06-21 西安电子科技大学 基于特征学习和素描线段约束的sar图像分割方法
CN108229674B (zh) * 2017-02-21 2021-03-02 北京市商汤科技开发有限公司 聚类用神经网络的训练方法和装置、聚类方法和装置
CN107909059A (zh) * 2017-11-30 2018-04-13 中南大学 一种面向复杂城市场景中协同仿生视觉的交通标志牌检测与识别方法
CN108875521A (zh) * 2017-12-20 2018-11-23 北京旷视科技有限公司 人脸检测方法、装置、系统和存储介质
CN108960331A (zh) * 2018-07-10 2018-12-07 重庆邮电大学 一种基于行人图像特征聚类的行人再识别方法
CN109255369B (zh) * 2018-08-09 2020-10-16 杭州易现先进科技有限公司 利用神经网络识别图片的方法及装置、介质和计算设备
CN109145867B (zh) * 2018-09-07 2021-08-10 北京旷视科技有限公司 人体姿态估计方法、装置、系统、电子设备、存储介质
CN109800737B (zh) * 2019-02-02 2021-06-25 深圳市商汤科技有限公司 面部识别方法及装置、电子设备和存储介质
US11256960B2 (en) * 2020-04-15 2022-02-22 Adobe Inc. Panoptic segmentation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003346151A (ja) 2002-05-29 2003-12-05 Fuji Photo Film Co Ltd 画像認識方法および装置並びにプログラム
JP2017157138A (ja) 2016-03-04 2017-09-07 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
CN106845421A (zh) 2017-01-22 2017-06-13 北京飞搜科技有限公司 基于多区域特征与度量学习的人脸特征识别方法及系统

Also Published As

Publication number Publication date
TW202030638A (zh) 2020-08-16
CN109800737B (zh) 2021-06-25
TWI717923B (zh) 2021-02-01
US20200320281A1 (en) 2020-10-08
KR20200096565A (ko) 2020-08-12
US11455830B2 (en) 2022-09-27
SG11202006192YA (en) 2020-11-27
KR102390580B1 (ko) 2022-04-26
CN109800737A (zh) 2019-05-24
WO2020155606A1 (zh) 2020-08-06
JP2021514497A (ja) 2021-06-10

Similar Documents

Publication Publication Date Title
JP7038829B2 (ja) 顔部認識方法及び装置、電子機器並びに記憶媒体
WO2019184471A1 (zh) 图像标签确定方法、装置及终端
TWI747325B (zh) 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介
CN110909815B (zh) 神经网络训练、图像处理方法、装置及电子设备
TW202105199A (zh) 資料更新方法、電子設備和儲存介質
JP7152598B2 (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN110598504B (zh) 图像识别方法及装置、电子设备和存储介质
JP7165818B2 (ja) ニューラルネットワークのトレーニング方法及び装置並びに画像生成方法及び装置
CN109981787B (zh) 用于展示信息的方法和装置
CN110458218B (zh) 图像分类方法及装置、分类网络训练方法及装置
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
CN109165738B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN111241887B (zh) 目标对象关键点识别方法及装置、电子设备和存储介质
JP2021518956A (ja) 画像処理方法及び装置、電子機器並びにコンピュータ可読記憶媒体
CN109858614B (zh) 神经网络训练方法及装置、电子设备和存储介质
JP7074877B2 (ja) ネットワーク最適化方法及び装置、画像処理方法及び装置、記憶媒体及びコンピュータプログラム
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN109920016B (zh) 图像生成方法及装置、电子设备和存储介质
JP2022516452A (ja) データ処理方法および装置、電子機器ならびに記憶媒体
CN110121106A (zh) 视频播放方法及装置
CN109977860A (zh) 图像处理方法及装置、电子设备和存储介质
WO2023185671A1 (zh) 风格图像生成方法、装置、设备及介质
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN109903252B (zh) 图像处理方法及装置、电子设备和存储介质
CN112259122A (zh) 音频类型识别方法、装置及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210901

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20211110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220308

R150 Certificate of patent or registration of utility model

Ref document number: 7038829

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150