JP2021514497A

JP2021514497A - 顔部認識方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2021514497A
Application number: JP2020533112A
Authority: JP
Inventors: ▲陳▼▲鄭▼豪; 徐静; ▲趙▼瑞
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-02-02
Filing date: 2019-08-15
Publication date: 2021-06-10
Anticipated expiration: 2039-08-15
Also published as: US11455830B2; TWI717923B; JP7038829B2; WO2020155606A1; SG11202006192YA; CN109800737B; KR102390580B1; US20200320281A1; CN109800737A; KR20200096565A; TW202030638A

Abstract

本開示は、顔部認識方法及び装置、電子機器並びに記憶媒体に関する。この方法は、ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのＮ個の属性特徴を得るステップであって、Ｎが１より大きい整数であるステップと、注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのＮ個の注意特徴を得るステップと、前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るステップであって、Ｍが正整数であり且つＭ＜Ｎであるステップと、前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップと、を含む。

Description

（関連出願の相互参照）
本願は、出願番号が２０１９１０１０７４５８．Ｘで、出願日が２０１９年２月２日である中国特許出願に基づいて提出され、且つこの中国特許出願の優先権を主張し、その開示の全てが参照によって本開示に組み込まれる。

本開示は、コンピュータ技術に関するが、コンピュータ分野に限定されるものでなく、特に、顔部認識方法及び装置、電子機器並びに記憶媒体に関する。

顔部属性の予測は、幅広い用途があり、例えば、セキュリティ監視分野では非常に重要な部分となっている。人の性別、年齢、危険物を持っているか否か、及び他の属性を効果的に予測することは、顔部属性の予測の用途において非常に重要な役割を果たす。属性を正確に予測することによって、顔部認識の正確率を更に高めることができ、顔部認識は様々な適用場合に広く利用されることが可能になる。

本開示は、顔部認識の技術的解決手段を提供する。

本開示の一態様によれば、ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのＮ個の属性特徴を得るステップであって、Ｎが１より大きい整数であるステップと、注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのＮ個の注意特徴を得るステップと、前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るステップであって、Ｍが正整数であり且つＭ＜Ｎであるステップと、前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップと、を含む顔部認識方法を提供する。

可能な一実施形態では、前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るステップは、前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング集合を得るステップであって、各注意特徴はＭ個のクラスタリング集合のうちの１つのクラスタリング集合に対応するステップと、各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、Ｍ個のクラスタリング注意特徴を得るステップと、を含む。

可能な一実施形態では、前記方法は、前記Ｎ個の属性特徴と前記Ｎ個の注意特徴をそれぞれ乗算して、強化後のＮ個の属性特徴を得るステップを更に含み、
前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップは、前記Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップを含む。

可能な一実施形態では、前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップは、前記Ｍ個のクラスタリング注意特徴に基づいて前記Ｎ個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るステップを含む。

可能な一実施形態では、前記Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップは、強化後のＮ個の属性特徴と前記Ｎ個の属性特徴の少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む。

可能な一実施形態では、前記Ｍ個のクラスタリング注意特徴に基づいて前記Ｎ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップは、前記Ｎ個の属性特徴と前記Ｎ個の属性特徴の少なくとも一部の前記属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む。

可能な一実施形態では、前記方法は、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記Ｎ個の注意特徴に対してクラスタリング処理を行うためのクラスタリングネットワークと、を含むニューラルネットワークによって実現される。

可能な一実施形態では、前記方法は、前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するステップを更に含む。

可能な一実施形態では、前記クラスタリング処理は、スペクトラルクラスタリングを含み、前記Ｍ個のクラスタリング注意特徴はそれぞれ前記Ｍ個のクラスタリング集合のクラスタ中心である。

本開示の別の態様によれば、ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのＮ個の属性特徴を得るためのものであって、Ｎが１より大きい整数である属性抽出モジュールと、注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのＮ個の注意特徴を得るための注意抽出モジュールと、前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るためのものであって、Ｍが正整数であり且つＭ＜Ｎであるクラスタリングモジュールと、前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するための結果決定モジュールと、を含む顔部認識装置を提供する。

可能な一実施形態では、前記クラスタリングモジュールは、前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング集合を得るためのクラスタリングサブモジュールであって、各注意特徴はＭ個のクラスタリング集合のうちの１つのクラスタリング集合に対応するクラスタリングサブモジュールと、各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、Ｍ個のクラスタリング注意特徴を得るための特徴決定サブモジュールと、を含む。

可能な一実施形態では、前記装置は、前記Ｎ個の属性特徴と前記Ｎ個の注意特徴をそれぞれ乗算して、強化後のＮ個の属性特徴を得るための属性強化モジュールを更に含み、前記結果決定モジュールは、
前記Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るための第１補正サブモジュールを含む。

可能な一実施形態では、前記結果決定モジュールは、前記Ｍ個のクラスタリング注意特徴に基づいて前記Ｎ個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るための第２補正サブモジュールを含む。

可能な一実施形態では、前記第１補正サブモジュールは、強化後のＮ個の属性特徴と前記Ｎ個の属性特徴の少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第１乗算サブモジュールを含む。

可能な一実施形態では、前記第２補正サブモジュールは、前記Ｎ個の属性特徴とＮ個の属性特徴の少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第２乗算サブモジュールを含む。

可能な一実施形態では、前記装置は、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記Ｎ個の注意特徴に対してクラスタリング処理を行うためのクラスタリングネットワークと、を含むニューラルネットワークによって実現される。

可能な一実施形態では、前記装置は、前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するためのパラメータ調整モジュールを更に含む。

本開示の別の態様によれば、プロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサが上記方法を実行するように構成される電子機器を提供する。

本開示の別の態様によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記方法を実現するコンピュータ読取可能記憶媒体を提供する。

本開示の更に別の態様によれば、プロセッサにより実行されると、上記方法を実現するコンピュータプログラム製品を提供する。

本開示の実施例では、被処理画像に対してそれぞれ属性特徴抽出及び注意特徴抽出を行って複数の属性特徴及び注意特徴を得、注意特徴をクラスタリングしてクラスタリング注意特徴を得、複数の属性特徴及びクラスタリング注意特徴に基づいて顔部認識結果を決定することができ、マルチ注意メカニズムによって注意特徴を抽出し、且つクラスタリングによって類似的な注意特徴を集約することによって、異なる局所特徴を最適化し、顔部属性の認識効果を高める。

本開示の実施例に係る顔部認識方法のフローチャートを示す。本開示の実施例に係る顔部認識方法の適用例の模式図を示す。本開示に基づく最適化の前後の唇部注意特徴の比較図を示す。本開示の実施例に係る顔部認識装置のブロック図を示す。本開示の実施例に係る電子機器のブロック図を示す。本開示の実施例に係る電子機器のブロック図を示す。

ここの図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するために用いられる。

以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。

ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も他の実施例より優れたものと理解すべきではない。

本明細書の用語の「及び／又は」は、関連対象の関連関係を記述するためのものに過ぎず、３種の関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａが単独して存在し、ＡとＢが同時に存在し、Ｂが単独して存在するという３種の場合を示してもよい。また、本明細書の用語の「少なくとも１種」は多種のうちのいずれか１種又は多種のうちの少なくとも２種の任意の組合を示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１種を含むということは、Ａ、Ｂ及びＣから構成される集合から選択されるいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。

図１は本開示の実施例に係る顔部認識方法１００のフローチャートを示す。この顔部認識方法１００は、以下のステップを含む。ステップ１０２において、ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのＮ個の属性特徴を得、Ｎが１より大きい整数である。ステップ１０４において、注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのＮ個の注意特徴を得る。ステップ１０６において、前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得、Ｍが正整数であり且つＭ＜Ｎである。ステップ１０８において、前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定する。

本願の実施例で提供される方法は、様々な画像処理装置に適用することができ、画像処理装置は、ステップ１０２、ステップ１０４、ステップ１０６及びステップ１０８を実行することよって、画像のターゲットオブジェクトの顔部の認識、例えば、顔認識等を行うことができる。この画像処理装置は、例えば、住宅区域の出入り口、学校、工場区域、住所等、監視等を必要とする様々なところに取り付けられるセキュリティ装置であってよい。

ある実施例では、前記画像処理装置は、更に、セキュリティ分野以外のところに適用することもでき、例えば、この画像処理装置は、顔部認識によって検札を行うチケット関連装置であってよい。更に例えば、この画像処理装置は、支払うか否か等を顔部認識結果によって決定する支払装置であってよい。

要するに、本願の顔部認識方法は、顔部認識を行って顔部認識結果を取得することを必要とする様々な場所に適用可能である。

本開示の実施例によれば、被処理画像に対してそれぞれ属性特徴抽出及び注意特徴抽出を行って複数の属性特徴及び注意特徴を得、注意特徴をクラスタリングしてクラスタリング注意特徴を得、複数の属性特徴及びクラスタリング注意特徴に基づいて顔部認識結果を決定することができ、マルチ注意メカニズムによって注意特徴を抽出し、且つクラスタリングによって類似的な注意特徴を集約することによって、異なる局所特徴を最適化し、顔部属性の認識効果を高める。

顔部認識（例えば、顔認識）の過程で、異なるタスクに必要とされるのは、顔部全体の特徴ではなく、顔部の局所特徴のみであることがある。例えば、人が眼鏡をかけているか否かを予測するには、単独した目部情報しか要らないことがあり、余計な情報が結果に干渉を与える可能性がある。従って、注意特徴を加えることで予測の精度を高めることができる。

本開示の実施例では、前記注意特徴は、指定の通り抽出される特徴であってよく、前記属性特徴の中の１つ又は複数のものであってよい。

前記属性特徴はターゲットオブジェクトの全体特徴及び／又は局所特徴であってよい。例えば、前記全体特徴は、ターゲットオブジェクトの顔部の全体特徴を含むが、それに限定されなく、前記局所特徴は顔部におけるある局所の特徴、例えば、目の特徴、唇部特徴等であってよい。

顔部属性（例えば、人の性別、年齢、アクセサリー等の複数の顔部関連属性）を認識する時に、多属性共同認識及び特徴共有が可能である。単独の属性については、注意メカニズム（ＡｔｔｅｎｔｉｏｎＭｅｃｈａｎｉｓｍ）を加えることによって、重要な特徴（例えば、耳、口、鼻等）をより好ましく学習させ、つまり局所特徴を強調可能にして、全体属性特徴をより好ましく学習させることができる。

可能な一実施形態では、ステップ１０２においてターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのＮ個の属性特徴を得るようにしてよい。ここで、ターゲットオブジェクトは、例えば、画像中の人物等であってよく、被処理画像は、例えば、ターゲットオブジェクトを含む顔画像であってよい。例えば、畳み込みニューラルネットワークＣＮＮをベースネットワーク（ＢａｓｅＮｅｔ）として被処理画像に対して特徴抽出を行って顔部特徴マップを得、更に例えばマルチタスク畳み込みニューラルネットワーク（Ｍｕｌｔｉ−ＴａｓｋＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔ：ＭＴＣＮＮ）によって、得られた顔部特徴マップに対して属性特徴抽出を行って、ターゲットオブジェクトのＮ個の属性特徴を得るようにしてよい。ここで、マルチタスク畳み込みニューラルネットワークとしては、ＶＧＧ１６、残差ネットワーク等の異なる種類のネットワークを用いてよく、本開示はマルチタスク畳み込みニューラルネットワークのネットワーク種類を制限しない。

可能な一実施形態では、ステップ１０４において注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのＮ個の注意特徴を得るようにしてよい。例えば、ベースネットワークによって被処理画像に対して特徴抽出を行って顔部特徴マップを得て特徴共有を実現し、更に、複数の単独注意ネットワーク（ＩｎｄｉｖｉｄｕａｌＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋ：ＩＡＮ）によって前記顔部特徴マップに対して注意特徴抽出を行うようにしてよい。複数の単独注意ネットワークのうちのそれぞれのネットワークは１つの単独した注意点に対して訓練され、例えばそれぞれ人の眼鏡、唇部等に対して訓練されることを説明する必要がある。複数の単独注意ネットワーク（ＩＡＮ）としては、簡単な畳み込みニューラルネットワークを用いてもよく、又は関連技術の注意メカニズム、例えば残差注意（ｒｅｓｉｄｕａｌａｔｔｅｎｔｉｏｎ）等を用いてもよく、本開示は複数の単独注意ネットワークのネットワーク種類を制限しない。

可能な一実施形態では、ステップ１０６において前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るようにしてよい。

例を挙げると、眼鏡、鼻等のような一部の顔部特徴は好ましく学習可能である。それらに対して、イヤリング、眉等の細粒度特徴は学習しにくい。従って、クラスタリング方式によって全ての注意特徴のうちの類似な部分を集約し且つ最適化し、特に学習効果が好ましくない一部の最初注意特徴を補正することができる。

可能な一実施形態では、ステップ１０６は、
前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング集合を得るステップであって、各注意特徴はＭ個のクラスタリング集合のうちの１つのクラスタリング集合に対応するステップと、
各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、Ｍ個のクラスタリング注意特徴を得るステップと、を含んでよい。

例を挙げると、Ｎ個の注意特徴をＭ個の種類（Ｍ＜Ｎ）にクラスタリングしてよく、クラスタリング処理を行った後、それぞれの注意特徴がそれぞれＭ個の種類のうちの１つの種類に対応する。クラスタリングした後、Ｍ個のクラスタリング集合が得られた。各クラスタリング集合のクラスタリング注意特徴をそれぞれ抽出して、Ｍ個のクラスタリング注意特徴を得ることができる。そのようにして、Ｍ個のクラスタリング注意特徴をＮ個の注意特徴の代表とし、更にＮ個の属性特徴及びＭ個のクラスタリング注意特徴に基づいてターゲットオブジェクトの顔部認識結果を決定するようにしてよい。

可能な一実施形態では、クラスタリング処理はスペクトラルクラスタリングであってよく、Ｍ個のクラスタリング注意特徴は前記Ｍ個のクラスタリング集合のうちのそれぞれのクラスタリング集合のクラスタ中心となる。Ｍ個のクラスタリング集合からクラスタ中心を取り出す方法は多数ある。一実施形態では、各クラスタリング集合においてすべての値の平均値を取ってクラスタ中心を得てよい。別の実施形態では、予め設定された訓練集合で訓練し、学習させて各注意特徴の対応する重みを得、クラスタリング集合中の各注意特徴に対して加重平均を行うことによって、このクラスタリング集合のクラスタ中心を得るようにしてよい。本開示はクラスタリングの具体的な方式を制限しない。

このような形態によれば、学習しやすい注意特徴を用いて他の学習しにくい注意特徴を支援してよく、関連する注意特徴の相互支援によって注意メカニズムの効果を高める。

可能な一実施形態では、ステップ１０８において前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するようにしてよい。ターゲットオブジェクトの顔部認識結果を決定するために、得られたＮ個の属性特徴及びＭ個のクラスタリング注意特徴について乗算等の方式によって総合的に考慮してもよく、他の方式によって更に処理してもよい。

可能な一実施形態では、ステップ１０８は、
前記Ｍ個のクラスタリング注意特徴に基づいて前記Ｎ個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るステップを含んでよい。つまり、Ｍ個のクラスタリング注意特徴を用いてＮ個の属性特徴をそれぞれ直接補正してよい。

可能な一実施形態では、Ｍ個のクラスタリング注意特徴に基づいてＮ個の属性特徴を補正するステップは、Ｎ個の属性特徴と前記Ｎ個の属性特徴のうち少なくとも一部の属性特徴に対応するクラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む。

このような形態によれば、顔部認識結果をより好適に単独の注意特徴に注目させることができる。本実施例におけるＮ個の属性特徴のうちの少なくとも一部の属性特徴は、Ｎ個の属性特徴のうちの各属性特徴及びＮ個より少ない属性特徴を含む。

可能な一実施形態では、前記方法は、前記Ｎ個の属性特徴と前記Ｎ個の注意特徴をそれぞれ乗算して、強化後のＮ個の属性特徴を得るステップを更に含んでよく、
ステップ１０８は、前記Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップを含んでよい。

例を挙げると、先にＮ個の注意特徴とＮ個の属性特徴をそれぞれ乗算して、強化後のＮ個の属性特徴を得るようにしてよく、それによって強調される必要がある属性特徴が強化される。更に、Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴をそれぞれ補正して、ターゲットオブジェクトの顔部認識結果を得る。

具体的な一実施形態では、Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴を補正するステップは、強化後のＮ個の属性特徴と前記Ｎ個の属性特徴のうち少なくとも一部の属性特徴に対応するクラスタリング注意特徴をそれぞれ乗算して、顔部認識結果を得るステップを含んでよい。

このような形態によれば、注意特徴を更に強調して、顔部認識の効果を高めることができる。

図２は本開示の実施例に係る顔部認識方法の適用例の模式図を示す。方法２００は顔部認識方法１００の適用例である。図２に示すように、方法２００において、ベースネットワークによって被処理画像に対して特徴抽出を行って顔部特徴マップを得、顔部特徴マップに対して属性特徴抽出を行ってＮ個の属性特徴２０２を得、顔部特徴マップに対して注意特徴抽出を行ってＮ個の注意特徴２０４を得、Ｎ個の注意特徴２０４に対してクラスタリング処理を行ってＭ個のクラスタリング集合を得るようにしてよい。このＮ個の注意特徴のうちのそれぞれの注意特徴がＭ個のクラスタリング集合のうちの１つのクラスタリング集合に対応し、また、各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定してＭ個のクラスタリング注意特徴を得てよい。

顔部認識方法２００の変形例において、Ｎ個の注意特徴２０４で得られたＭ個のクラスタリング注意特徴に基づいてＮ個の属性特徴２０２を直接補正して（Ｓ２０８）、ターゲットオブジェクトの顔部認識結果を決定することができる。そのようにして、ＩＡＮクラスタリングのガイドによってターゲットオブジェクトの顔部認識結果を補正し、学習しやすい注意特徴によって学習しにくい注意特徴を最適化することができる。

顔部認識方法２００の変形例において、例えば、図２における破線矢印Ｓ２０６に示すように、更にＮ個の注意特徴２０４とＮ個の属性特徴２０２をそれぞれ乗算して、強化後のＮ個の属性特徴を得るようにしてよい。更に、Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴をそれぞれ補正して、ターゲットオブジェクトの顔部認識結果を得る。そのようにして、注意特徴を更に強調し、学習しやすい注意特徴によって学習しにくい注意特徴を最適化することができる。

顔部認識方法２００の上記変形例によれば、関連属性の相互支援によって注意メカニズムを高めることができる。

可能な一実施形態では、前記方法は、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記Ｎ個の注意特徴に対してクラスタリング処理を行うためのクラスタリングネットワークと、を含むニューラルネットワークによって実現されてよい。

マルチタスク畳み込みネットワーク（ＭＴＣＮＮ）は、被処理画像（顔部特徴マップ）に対して属性特徴２０２の抽出を行うためのものである。具体的に使用されるマルチタスク畳み込みネットワークとしては、異なるシーンに応じて、ＶＧＧ１６、残差ネットワーク（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ）等のような異なるサイズのネットワークを用いてよい。

複数の単独注意ネットワーク（ＩＡＮ）は被処理画像（顔部特徴マップ）に対して注意特徴２０４の抽出を行うためのものである。複数の単独注意ネットワークのうちのそれぞれのネットワークは１つの単独した注意点に対して訓練され、例えば、それぞれ人の眼鏡、唇部等に対して訓練されることを説明する必要がある。ＩＡＮについては、簡単な畳み込みニューラルネットワークを用いて学習してもよく、又は、例えば残差注意（ｒｅｓｉｄｕａｌａｔｔｅｎｔｉｏｎ）等の注意メカニズムを用いてもよい。

クラスタリングネットワークは、Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るためのものである。本開示は、クラスタリングネットワークのネットワーク種類を制限しない。

上記各ニューラルネットワークは、予め設定した訓練集合に基づいて訓練されてもよい。本発明で用いられる各ネットワークにおいて、組合タスクを用いて最適化することになり、組合過程で人工を必要とするプロセスが要らなくてもよく、最適化全体を自己学習によって実現する。

前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するようにしてよく、それによってニューラルネットワークの逆伝播で単独注意ネットワークを最適化する。

具体的な一実施形態では、ＭＴＣＮＮを基礎的なマルチタスク属性学習ネットワークとして、顔部特徴マップのＮ個の属性（ａｔｔｒｉｂｕｔｅ）を同時に訓練し、Ｎ個の属性特徴２０２を得るようにしてよい。ＭＴＣＮＮで得られたＮ個の属性特徴２０２は、特徴テンソルであり、（Ｎ，Ｃ，Ｗ，Ｈ）で示してよい。（Ｎ，Ｃ，Ｗ，Ｈ）の数値は具体的なニューラルネットワークに依存する。ここで、Ｎ、Ｃ、Ｗ、Ｈはいずれも自然数であり、Ｎは特徴テンソルの個数を示し、Ｃは得られた特徴マップの数量を示し、チャンネル数とも呼ばれ、一般的に３より遥かに大きく、Ｗは特徴マップの幅を示し、Ｈは特徴マップの長さを示す。つまり、Ｎ個の属性特徴２０２は、Ｎ個の属性特徴（Ｃ，Ｗ，Ｈ）、即ちＮ個の属性特徴テンソル（チャンネル数，幅，長さ）で示してよい。その後でＮ個の属性特徴２０２を用いて顔部認識結果とするＮ個の顔部属性を予測することができる。

具体的な一実施形態では、例えば、ＩＡＮを用いて顔部特徴マップからのＮ個の属性を訓練し、注意マップ（ａｔｔｅｎｔｉｏｎｍａｐ）を用いてＮ個の属性を学習して、Ｎ個の注意特徴２０４を得るようにしてよい。それぞれの注意特徴が１つの二次元注意特徴マップ（Ｍａｓｋ）に対応するので、得られた注意特徴２０４の特徴テンソルＡは（Ｎ，１，Ｗ，Ｈ）で示してよく、即ち、ここのチャンネル数が１である。従って、Ｎ個の注意特徴２０４はＮ個の特徴テンソルＡ（Ｗ，Ｈ）、即ちＮ個の特徴テンソルＡ（幅，長さ）で示してよい。

具体的な一実施形態では、図２の破線矢印Ｓ２０６に示すように、Ｎ個の注意特徴テンソルＡ（幅，長さ）とＮ個の属性特徴テンソルに対して乗算処理を行って、Ｎ個の属性特徴テンソル中の関連特徴を強調するようにしてよい。

具体的な一実施形態では、Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング集合を得、それらはＣ_１，…，Ｃ_Ｍで示してよい。ここで、Ｍ個のクラスタリング集合のそれぞれから取り出されたクラスタ中心は、１番目のクラスタリング注意特徴（Ａ_ｘ１，Ａ_ｙ１），…，Ｍ番目のクラスタリング注意特徴（Ａ_ｘｍ，Ａ_ｙｍ）で示してよい。上記Ｍ個のクラスタリング注意特徴は（Ｍ，１，Ｗ，Ｈ）、即ちＭ個の二次元テンソルＸ＿_１（幅，長さ），…，Ｘ＿_Ｍ（幅，長さ）で示してよい。Ｎ個の注意特徴Ａの補正で得られたＮ個の属性特徴テンソルＦ（チャンネル数，幅，長さ）について、それぞれに対応するクラスタリングのクラスタ中心を決定し、次にＭ個の二次元テンソルＸ中の対応クラスタ中心を用いてＮ個の属性特徴Ｆに対して最後の補正を行う。このＭ個のテンソルＸが前のＩＡＮの出力に由来するものであるので、このような学習によって、ＩＡＮを同時に最適化することもでき、更に複数の注意特徴を同時に用いてＮ個の属性特徴Ｆを補正することができる。

具体的な一例において、Ｎ個の属性特徴Ｆ（チャンネル数，幅，長さ）に同時にＭ個のクラスタリング済みのテンソルＸ＿_ｍをかけるように補正し、ここで、ｍは［１，Ｍ］範囲内の自然数である。それによって乗算後のテンソルＦＸ（Ｍ，チャンネル数，幅，長さ）が得られる。乗算後のテンソルＦＸ（Ｍ，チャンネル数，幅，長さ）を（Ｍ×チャンネル数，幅，長さ）に展開し、最後にこの展開結果によって特徴を予測して、最終的な顔部認識結果を得る。

上記方法によれば、マルチタスクでの注意特徴の顔部認識効果を全体的に高めることができる。図３は本開示に基づく最適化の前後の唇部注意特徴の比較図を示す。図３の上半分に示すように、最適化前の唇部注意特徴マップに多くのノイズがある。図３の下半分に示すように、本開示の通り最適化した後、唇部注意特徴が唇部により好ましく集中可能になり、ノイズが一定の程度で減少した。

本開示の実施例に係る顔部認識方法は、顔属性の訓練及び予測の時に、注意特徴を自動的に最適化し、訓練モデルの強度を高めることによって、予測の精度を高め、更に顔における細粒度属性、例えば、帽子、ネックレス、イヤホン等の有無をより好ましく予測することができる。本開示の実施例は、セキュリティ監視等の分野に用いて顔属性認識を行って、顔属性認識率を高めて、認識効果を高めることができる。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。

また、本開示は顔部認識装置、電子機器、コンピュータ読取可能記憶媒体、プログラムを更に提供し、それらはいずれも本開示で提供されるいずれか１種の部認識方法を実現することに利用可能であり、対応する技術的解決手段及び説明については方法部分の対応の記載を参照してもよく、ここで詳細な説明を省略する。

具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならなく、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。

図４は本開示の実施例に係る顔部認識装置のブロック図を示し、図４に示すように、前記装置は、
ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのＮ個の属性特徴を得るためのものであって、Ｎが１より大きい整数である属性抽出モジュール４１と、
注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのＮ個の注意特徴を得るための注意抽出モジュール４２と、
前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るためのクラスタリングモジュール４３であって、Ｍが正整数であり且つＭ＜Ｎであるクラスタリングモジュール４３と、
前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するための結果決定モジュール４４と、を含む。

可能な一実施形態では、前記クラスタリングモジュールは、前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング集合を得るためのクラスタリングサブモジュールであって、各注意特徴はＭ個のクラスタリング集合のうちの１つのクラスタリング集合に対応するクラスタリングサブモジュールを含み、特徴決定サブモジュールは、各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、Ｍ個のクラスタリング注意特徴を得るために用いられる。

可能な一実施形態では、前記第１補正サブモジュールは、強化後のＮ個の属性特徴と各前記属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第１乗算サブモジュールを含む。

可能な一実施形態では、前記第２補正サブモジュールは、前記Ｎ個の属性特徴と各前記属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第２乗算サブモジュールを含む。

いくつかの実施例では、本開示の実施例で提供された装置に備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してもよく、簡単化するために、ここで重複説明は割愛する。

本開示の実施例は、更に、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記方法を実現するコンピュータ読取可能記憶媒体を提供する。コンピュータ読取可能記憶媒体は、不揮発性コンピュータ読取可能記憶媒体であってよい。

本開示の実施例は、更に、プロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサが上記方法を実行するように構成される電子機器を提供する。

電子機器は、端末、サーバ又は他の形態のデバイスとして提供されてよい。

本開示の実施例は、更に、プロセッサにより実行されると、上記方法を実現するコンピュータプログラム製品を提供する。

図５は本開示の実施例に係る電子機器８００のブロック図を示す。例えば、装置８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってよい。

図５を参照すると、電子機器８００は処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インタフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６の一つ以上を含むことができる。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法の全てまたは一部のステップを完了するために、一つ以上のプロセッサ８２０を含んで命令を実行することができる。また、処理コンポーネント８０２は、他のコンポーネントとの対話のために、一つ以上のモジュールを含むことができる。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８との対話のために、マルチメディアモジュールを含むことができる。

メモリ８０４は電子機器８００での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器８００において運用するためのあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インタフェースを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含むことができる。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチ画面として実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラおよび／または後面カメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび／または後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラおよび後面カメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、電子機器８００が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク（ＭＩＣ）を含む。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインタフェース８１２は処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含むことができるが、これらに限定されない。

センサコンポーネント８１４は電子機器８００に各面での状態評価を提供するための一つ以上のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、コンポーネントの相対的位置決め、例えば前記コンポーネントが電子機器８００の表示装置およびキーパッドであることを検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように構成された近接センサを含む。センサコンポーネント８１４はさらに、ＣＭＯＳまたはＣＣＤイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含むことができる。

通信コンポーネント８１６は電子機器８００と他の機器との間の有線または無線通信を実現するように配置される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールでは無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術および他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は電子機器８００のプロセッサ８２０によって実行して上記方法を完了することができる。

図６は本開示の実施例に係る電子機器１９００のブロック図を示す。例えば、電子機器１９００はサーバとして提供できる。図６を参照すると、電子機器１９００は、さらに一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されたアプリケーションプログラムはそれぞれが１グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント１９２２は命令を実行し、それによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成された電源コンポーネント１９２６、電子機器１９００をネットワークにアクセスするように構成された有線または無線ネットワークインタフェース１９５０、および入出力（Ｉ／Ｏ）インタフェース１９５８を含むことができる。電子機器１９００はメモリ１９３２に記憶されたオペレーティングシステム、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は電子機器１９００の処理コンポーネント１９２２によって実行して上記方法を完了することができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各態様を実現させるためのコンピュータ読み取り可能プログラム命令がロードされているコンピュータ読み取り可能記憶媒体を含むことができる。

コンピュータ読み取り可能記憶媒体は命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例（非包括的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピー（登録商標）ディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含むことができる。各計算／処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算／処理機器内のコンピュータ読み取り可能記憶媒体に記憶する。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのターゲットオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。

なお、ここで本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明しが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ読み取り可能プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する手段を創出する。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ読み取り可能記憶媒体は、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各態様を実現する命令を含む製品を備える。

コンピュータ読み取り可能プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャートおよびブロック図は本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

本開示の実施例では、被処理画像に対してそれぞれ属性特徴抽出及び注意特徴抽出を行って複数の属性特徴及び注意特徴を得、注意特徴をクラスタリングしてクラスタリング注意特徴を得、複数の属性特徴及びクラスタリング注意特徴に基づいて顔部認識結果を決定することができ、マルチ注意メカニズムによって注意特徴を抽出し、且つクラスタリングによって類似的な注意特徴を集約することによって、異なる局所特徴を最適化し、顔部属性の認識効果を高める。
例えば、本願は以下の項目を提供する。
（項目１）
ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのＮ個の属性特徴を得るステップであって、Ｎが１より大きい整数であるステップと、
注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのＮ個の注意特徴を得るステップと、
前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るステップであって、Ｍが正整数であり且つＭ＜Ｎであるステップと、
前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップと、を含む顔部認識方法。
（項目２）
前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るステップは、
前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング集合を得るステップであって、各注意特徴はＭ個のクラスタリング集合のうちの１つのクラスタリング集合に対応するステップと、
各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、Ｍ個のクラスタリング注意特徴を得るステップと、を含む項目１に記載の方法。
（項目３）
前記Ｎ個の属性特徴と前記Ｎ個の注意特徴をそれぞれ乗算して、強化後のＮ個の属性特徴を得るステップを更に含み、
前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップは、
前記Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップを含む項目１又は２に記載の方法。
（項目４）
前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップは、
前記Ｍ個のクラスタリング注意特徴に基づいて前記Ｎ個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るステップを含む項目１又は２に記載の方法。
（項目５）
前記Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップは、
強化後のＮ個の属性特徴と前記Ｎ個の属性特徴のうち少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む項目３に記載の方法。
（項目６）
前記Ｍ個のクラスタリング注意特徴に基づいて前記Ｎ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップは、
前記Ｎ個の属性特徴と前記Ｎ個の属性特徴のうち少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む項目４に記載の方法。
（項目７）
前記方法はニューラルネットワークによって実現され、前記ニューラルネットワークは、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記Ｎ個の注意特徴に対してクラスタリング処理を行うためのクラスタリングネットワークと、を含む項目１〜６のいずれか一項に記載の方法。
（項目８）
前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するステップを更に含む項目７に記載の方法。
（項目９）
前記クラスタリング処理は、スペクトラルクラスタリングを含み、前記Ｍ個のクラスタリング注意特徴はそれぞれ前記Ｍ個のクラスタリング集合のクラスタ中心である項目１〜８のいずれか一項に記載の方法。
（項目１０）
ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのＮ個の属性特徴を得るための属性抽出モジュールであって、Ｎが１より大きい整数である属性抽出モジュールと、
注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのＮ個の注意特徴を得るための注意抽出モジュールと、
前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るためのクラスタリングモジュールであって、Ｍが正整数であり且つＭ＜Ｎであるクラスタリングモジュールと、
前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するための結果決定モジュールと、を含む顔部認識装置。
（項目１１）
前記クラスタリングモジュールは、
前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング集合を得るためのクラスタリングサブモジュールためのクラスタリングサブモジュールであって、各注意特徴はＭ個のクラスタリング集合のうちの１つのクラスタリング集合に対応するクラスタリングサブモジュールと、
各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、Ｍ個のクラスタリング注意特徴を得るための特徴決定サブモジュールと、を含む項目１０に記載の装置。
（項目１２）
前記Ｎ個の属性特徴と前記Ｎ個の注意特徴をそれぞれ乗算して、強化後のＮ個の属性特徴を得るための属性強化モジュールを更に含み、
前記結果決定モジュールは、
前記Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るための第１補正サブモジュールを含む項目１０又は１１に記載の装置。
（項目１３）
前記結果決定モジュールは、
前記Ｍ個のクラスタリング注意特徴に基づいて前記Ｎ個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るための第２補正サブモジュールを含む項目１０又は１１に記載の装置。
（項目１４）
前記第１補正サブモジュールは、
強化後のＮ個の属性特徴と各前記属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第１乗算サブモジュールを含む項目１２に記載の装置。
（項目１５）
前記第２補正サブモジュールは、
前記Ｎ個の属性特徴と各前記属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第２乗算サブモジュールを含む項目１３に記載の装置。
（項目１６）
前記装置はニューラルネットワークによって実現され、前記ニューラルネットワークは、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記Ｎ個の注意特徴に対してクラスタリング処理を行うためのものクラスタリングネットワークと、を含む項目１０〜１５のいずれか一項に記載の装置。
（項目１７）
前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するためのパラメータ調整モジュールを更に含む項目１６に記載の装置。
（項目１８）
前記クラスタリング処理は、スペクトラルクラスタリングを含み、前記Ｍ個のクラスタリング注意特徴はそれぞれ前記Ｍ個のクラスタリング集合のクラスタ中心である項目１０〜１７のいずれか一項に記載の装置。
（項目１９）
プロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、
前記プロセッサが項目１〜９のいずれか一項に記載の方法を実行するように構成される電子機器。
（項目２０）
コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に項目１〜９のいずれか一項に記載の方法を実現するコンピュータ読取可能記憶媒体。
（項目２１）
プロセッサにより実行されると、項目１〜９のいずれか一項に記載の方法を実現するコンピュータプログラム製品。

Claims

ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのＮ個の属性特徴を得るステップであって、Ｎが１より大きい整数であるステップと、
注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのＮ個の注意特徴を得るステップと、
前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るステップであって、Ｍが正整数であり且つＭ＜Ｎであるステップと、
前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップと、を含む顔部認識方法。
前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るステップは、
前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング集合を得るステップであって、各注意特徴はＭ個のクラスタリング集合のうちの１つのクラスタリング集合に対応するステップと、
各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、Ｍ個のクラスタリング注意特徴を得るステップと、を含む請求項１に記載の方法。
前記Ｎ個の属性特徴と前記Ｎ個の注意特徴をそれぞれ乗算して、強化後のＮ個の属性特徴を得るステップを更に含み、
前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップは、
前記Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップを含む請求項１又は２に記載の方法。
前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するステップは、
前記Ｍ個のクラスタリング注意特徴に基づいて前記Ｎ個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るステップを含む請求項１又は２に記載の方法。
前記Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップは、
強化後のＮ個の属性特徴と前記Ｎ個の属性特徴のうち少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む請求項３に記載の方法。
前記Ｍ個のクラスタリング注意特徴に基づいて前記Ｎ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るステップは、
前記Ｎ個の属性特徴と前記Ｎ個の属性特徴のうち少なくとも一部の属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るステップを含む請求項４に記載の方法。
前記方法はニューラルネットワークによって実現され、前記ニューラルネットワークは、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記Ｎ個の注意特徴に対してクラスタリング処理を行うためのクラスタリングネットワークと、を含む請求項１〜６のいずれか一項に記載の方法。
前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するステップを更に含む請求項７に記載の方法。
前記クラスタリング処理は、スペクトラルクラスタリングを含み、前記Ｍ個のクラスタリング注意特徴はそれぞれ前記Ｍ個のクラスタリング集合のクラスタ中心である請求項１〜８のいずれか一項に記載の方法。
ターゲットオブジェクトを含む被処理画像に対して属性特徴抽出を行って、前記ターゲットオブジェクトのＮ個の属性特徴を得るための属性抽出モジュールであって、Ｎが１より大きい整数である属性抽出モジュールと、
注意メカニズムに基づいて前記被処理画像に対して注意特徴抽出を行って、前記ターゲットオブジェクトのＮ個の注意特徴を得るための注意抽出モジュールと、
前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング注意特徴を得るためのクラスタリングモジュールであって、Ｍが正整数であり且つＭ＜Ｎであるクラスタリングモジュールと、
前記Ｎ個の属性特徴及び前記Ｍ個のクラスタリング注意特徴に基づいて、前記ターゲットオブジェクトの顔部認識結果を決定するための結果決定モジュールと、を含む顔部認識装置。
前記クラスタリングモジュールは、
前記Ｎ個の注意特徴に対してクラスタリング処理を行って、Ｍ個のクラスタリング集合を得るためのクラスタリングサブモジュールためのクラスタリングサブモジュールであって、各注意特徴はＭ個のクラスタリング集合のうちの１つのクラスタリング集合に対応するクラスタリングサブモジュールと、
各クラスタリング集合のクラスタリング注意特徴をそれぞれ決定して、Ｍ個のクラスタリング注意特徴を得るための特徴決定サブモジュールと、を含む請求項１０に記載の装置。
前記Ｎ個の属性特徴と前記Ｎ個の注意特徴をそれぞれ乗算して、強化後のＮ個の属性特徴を得るための属性強化モジュールを更に含み、
前記結果決定モジュールは、
前記Ｍ個のクラスタリング注意特徴に基づいて強化後のＮ個の属性特徴をそれぞれ補正して、前記ターゲットオブジェクトの顔部認識結果を得るための第１補正サブモジュールを含む請求項１０又は１１に記載の装置。
前記結果決定モジュールは、
前記Ｍ個のクラスタリング注意特徴に基づいて前記Ｎ個の属性特徴をそれぞれ補正して、前記顔部認識結果を得るための第２補正サブモジュールを含む請求項１０又は１１に記載の装置。
前記第１補正サブモジュールは、
強化後のＮ個の属性特徴と各前記属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第１乗算サブモジュールを含む請求項１２に記載の装置。
前記第２補正サブモジュールは、
前記Ｎ個の属性特徴と各前記属性特徴に対応する前記クラスタリング注意特徴をそれぞれ乗算して、前記顔部認識結果を得るための第２乗算サブモジュールを含む請求項１３に記載の装置。
前記装置はニューラルネットワークによって実現され、前記ニューラルネットワークは、前記被処理画像に対して属性特徴抽出を行うためのマルチタスク畳み込みネットワークと、前記被処理画像に対して注意特徴抽出を行うための複数の単独注意ネットワークと、前記Ｎ個の注意特徴に対してクラスタリング処理を行うためのものクラスタリングネットワークと、を含む請求項１０〜１５のいずれか一項に記載の装置。
前記ニューラルネットワークを訓練する過程で、前記クラスタリングネットワークのネットワーク損失に基づいて、複数の単独注意ネットワークのネットワークパラメータを調整するためのパラメータ調整モジュールを更に含む請求項１６に記載の装置。
前記クラスタリング処理は、スペクトラルクラスタリングを含み、前記Ｍ個のクラスタリング注意特徴はそれぞれ前記Ｍ個のクラスタリング集合のクラスタ中心である請求項１０〜１７のいずれか一項に記載の装置。
プロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、
前記プロセッサが請求項１〜９のいずれか一項に記載の方法を実行するように構成される電子機器。
コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に請求項１〜９のいずれか一項に記載の方法を実現するコンピュータ読取可能記憶媒体。
プロセッサにより実行されると、請求項１〜９のいずれか一項に記載の方法を実現するコンピュータプログラム製品。