JP7042849B2

JP7042849B2 - 顔特徴点の測位方法及び装置

Info

Publication number: JP7042849B2
Application number: JP2019568632A
Authority: JP
Inventors: チェンチエン; ウェンイエンウー
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2018-04-24
Filing date: 2018-11-21
Publication date: 2022-03-28
Anticipated expiration: 2038-11-21
Also published as: CN108596093B; KR20200010397A; JP2020523694A; SG11201912428TA; KR102334279B1; MY201922A; WO2019205605A1; CN108596093A; US20200125833A1; US11314965B2

Description

（関連出願の相互参照）
本願は、２０１８年４月２４日に中国特許局へ提出された、出願番号２０１８１０３７３８７１．６、出願名称「顔特徴点の測位方法及び装置」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本開示は、コンピュータービジョンの技術分野に関し、特に顔特徴点の測位方法及び装置に関する。

顔特徴点の測位は顔に関連するコンピュータービジョンにおける重要の課題の１つである。顔特徴点の測位のタスクは、顔画像内の複数の顔特徴点の位置を算出することである。例えば、顔画像内の目じり、口元、鼻の先などの顔特徴点の位置を算出する。

顔特徴点の測位の課題は、ディープニューラルネットワークによって解決できる。しかしながら、ディープニューラルネットワークの層の数が増えるにつれて、顔の構造情報の損失が深刻になる。顔画像内の顔がひどく遮られ、大きい角度の側顔または誇張表情の顔であるなどの複雑な場合に、顔特徴点の測位の精度が顕著に低下する。

これを考慮して、本開示は、顔特徴点の測位方法及び装置を提案する。

本開示の一態様によれば、
顔画像に対してエッジ検出を行い、顔特徴線画像を取得することと、
前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得することと、を含む顔特徴点の測位方法を提供する。

可能な実施態様では、前記顔画像と前記顔特徴線画像を融合する前に、
前記顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得することを更に含み、
前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得することは、
前記顔画像と前記最適化された顔特徴線画像とを融合し、顔特徴点の位置情報を取得することを含む。

可能な実施態様では、前記顔画像に対してエッジ検出を行い、顔特徴線画像を取得することは、
前記顔画像の特徴線の特徴を抽出し、特徴線画像を取得することと、
前記特徴線画像を最適化し、前記顔特徴線画像を取得することと、を含む。

可能な実施態様では、前記顔画像の特徴線の特徴を抽出し、特徴線画像を取得することは、
前記顔画像に対して、畳み込み、残差演算、ダウンサンプリング及び残差演算の操作を順次に実行し、前記特徴線画像を取得することを含む。

可能な実施態様では、前記特徴線画像を最適化し、前記顔特徴線画像を取得することは、
前記特徴線画像を少なくとも一つの段階の最適化ネットワークを経させて、前記顔特徴線画像を取得することであって、各段階の前記最適化ネットワークが、残差演算を実現するための砂時計型ネットワーク及び特徴線情報を伝送するための情報伝送層を含むことを含む。

可能な実施態様では、前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得することは、
前記顔画像に対して入力画像融合を行い、第１の融合画像を取得することと、
前記第１の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行い、第２の融合画像を取得することと、
前記第２の融合画像をマッピングし、特徴点の位置ベクトルを取得し、前記位置ベクトルを顔特徴点の位置情報とすることと、を含む。

可能な実施態様では、前記第１の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行う前に、
前記第１の融合画像に対して、畳み込み、ダウンサンプリング及び残差演算を順次に含む最適化処理を行い、最適化された第１の融合画像を取得することを更に含む。

可能な実施態様では、前記顔画像に対して入力画像融合を行い、第１の融合画像を取得することは、
前記顔画像を、個々の事前定義された特徴線画像と画素ごとに乗算し、個々の事前定義された特徴線画像に一対一に対応する複数の境界特徴を取得することと、
複数の前記境界特徴と前記顔画像とを重ね合わせ、第１の融合画像を取得することと、を含む。

可能な実施態様では、前記第１の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行い、第２の融合画像を取得することは、
前記第１の融合画像と前記顔特徴線画像とを重ね合わせ、第３の融合画像を取得することと、
前記第３の融合画像に対して残差演算を行い、前記顔特徴線画像と同じサイズの第４の融合画像を取得することと、
前記第１の融合画像を前記第４の融合画像を画素ごとに乗算し、第５の融合画像を取得することと、
前記第１の融合画像と前記第５の融合画像とを重ね合わせ、前記第２の融合画像を取得することと、を含む。

可能な実施態様では、各段階の前記境界画像融合の間に、各段階の境界融合の結果に対して残差演算を行うことを更に含む。

可能な実施態様では、前記第２の融合画像をマッピングし、特徴点の位置ベクトルを取得することは、
前記第２の融合画像に対して、残差演算及び全結合操作を順次に行い、前記特徴点の位置ベクトルを取得することを含む。

本開示の別の態様によれば、
顔画像に対してエッジ検出を行い、顔特徴線画像を取得するように構成されるエッジ検出モジュールと、
前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得するように構成される融合モジュールと、を含む顔特徴点の測位装置を提供する。

可能な実施態様では、前記装置は、
前記顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得するように構成される判別モジュールを更に含み、
前記融合モジュールは、
前記顔画像と前記最適化された顔特徴線画像とを融合し、顔特徴点の位置情報を取得するように構成される。

可能な実施態様では、前記エッジ検出モジュールは、
前記顔画像の特徴線の特徴を抽出し、特徴線画像を取得するように構成される特徴抽出サブモジュールと、
前記特徴線画像を最適化し、前記顔特徴線画像を取得するように構成される第１の最適化サブモジュールと、を含む。

可能な実施態様では、前記特徴抽出サブモジュールは、
前記顔画像に対して、畳み込み、残差演算、ダウンサンプリング及び残差演算の操作を順次に実行し、前記特徴線画像を取得するように構成される。

可能な実施態様では、前記第１の最適化サブモジュールは、
前記特徴線画像を少なくとも一つの段階の最適化ネットワークを経させて、前記顔特徴線画像を取得するように構成され、各段階の前記最適化ネットワークが、残差演算を実現するための砂時計型ネットワーク及び特徴線情報を伝送するための情報伝送層を含む。

可能な実施態様では、前記融合モジュールは、
前記顔画像に対して入力画像融合を行い、第１の融合画像を取得するように構成される第１の融合サブモジュールと、
前記第１の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行い、第２の融合画像を取得するように構成される第２の融合サブモジュールと、
前記第２の融合画像をマッピングし、特徴点の位置ベクトルを取得し、前記位置ベクトルを顔特徴点の位置情報とするように構成されるマッピングサブモジュールと、を含む。

可能な実施態様では、前記融合モジュールは、
前記第１の融合画像に対して、畳み込み、ダウンサンプリング及び残差演算を順次に含む最適化処理を行い、最適化された第１の融合画像を取得するように構成される第２の最適化サブモジュールを更に含む。

可能な実施態様では、前記第１の融合サブモジュールは、
前記顔画像を、個々の事前定義された特徴線画像と画素ごとに乗算し、個々の事前定義された特徴線画像に一対一に対応する複数の境界特徴を取得するように構成される第１の乗算ユニットと、
複数の前記境界特徴と前記顔画像とを重ね合わせ、第１の融合画像を取得するように構成される第１の重ね合わせユニットと、を含む。

可能な実施態様では、前記第２の融合サブモジュールは、
前記第１の融合画像と前記顔特徴線画像とを重ね合わせ、第３の融合画像を取得するように構成される第２の重ね合わせユニットと、
前記第３の融合画像に対して残差演算を行い、前記顔特徴線画像と同じサイズの第４の融合画像を取得するように構成される残差演算ユニットと、
前記第１の融合画像を前記第４の融合画像を画素ごとに乗算し、第５の融合画像を取得するように構成される第２の乗算ユニットと、
前記第１の融合画像と前記第５の融合画像とを重ね合わせ、前記第２の融合画像を取得するように構成される第３の重ね合わせユニットと、を含む。

可能な実施態様では、前記融合モジュール、
各段階の境界融合の結果に対して残差演算を行うように構成される残差演算サブモジュールを更に含む。

可能な実施態様では、前記マッピングサブモジュールは、
前記第２の融合画像に対して、残差演算及び全結合操作を順次に行い、前記特徴点の位置ベクトルを取得するように構成される。

本開示の別の態様によれば、プロセッサーと、プロセッサーが実行可能なコマンドを記憶するように構成されるメモリとを含み、前記プロセッサーが上記方法を実行するように配置される電子デバイスを提供する。

本開示の別の態様によれば、コンピュータープログラムコマンドが記憶されたコンピューター可読記憶媒体において、プロセッサーによって前記コンピュータープログラムコマンドを実行する時に上記方法を実現するコンピューター可読記憶媒体を提供する。

本開示の各態様の顔特徴点の測位方法及び装置は、顔画像に対してエッジ検出を行い、顔特徴線画像を取得し、顔画像と顔特徴線画像とを融合し、顔特徴点の位置情報を取得し、顔特徴線を利用して顔特徴点を測位することによって、顔特徴点の測位精度を向上させることができ、たとえ顔画像内の顔が遮られ、大きい角度の側顔または誇張表情の顔であるなどの複雑な場合でも、精度良く顔特徴点を測位することができる。

以下の図面を参照して例示的な実施例を詳細に説明することにより、本開示の他の特徴及び態様が明らかになる。

本開示の一実施例による顔特徴点の測位方法を示すフローチャートである。本開示の一実施例による顔特徴点の測位方法の一例を示すフローチャートである。本開示の一実施例による顔特徴点の測位方法のステップＳ１１の一例を示すフローチャートである。本開示の一実施例による顔特徴点の測位方法のステップＳ１２の一例を示すフローチャートである。本開示の一実施例による顔特徴点の測位方法のステップＳ１２１の一例を示すフローチャートである。本開示の一実施例による顔特徴点の測位方法のステップＳ１２２の一例を示すフローチャートである。本開示の一実施例による顔特徴点の測位装置を示すブロック図である。本開示の一実施例による顔特徴点の測位装置の一例を示すブロック図である。例示的な実施例に示す顔特徴点を測位するための装置８００を示すブロック図である。例示的な実施例に示す顔特徴点を測位するための装置１９００を示すブロック図である。

本明細書に含まれ明細書の一部を構成する図面は明細書とともに本開示の例示的な実施例、特徴および態様を示し、且つ本開示の原理を解釈するために用いられる。

以下、本開示の各種の例示的な実施例、特徴および態様は、図面を参照して詳細に説明される。図面中の同じ参照番号は、同じまたは類似の機能を有する要素を示す。図面中に実施例の各種態様が示されているが、特に明記しない限り、必ずしも縮尺通りに描かれていない。

ここで専用の「例示的」とは「例、実施例または説明として役立つ」ことを意味する。ここでの「例示的」として説明される任意の実施例は、必ずしも他の実施例よりも良いまたは好ましいと解釈されるべきではない。

なお、本開示をより明らかに説明するために、以下の具体的な実施例では多数の具体的な説明が記載される。当業者は、本開示がいくつかの具体的な説明がなくても同様に実施され得ることを理解すべきである。ある実施例では、本発明の趣旨を強調するために、当業者にとって周知の方法、手段、デバイス及び回路は詳細に説明されない。

図１は本開示の一実施例による顔特徴点の測位方法を示すフローチャートである。図１に示すように、該方法は、ステップＳ１１とステップＳ１２を含む。

ステップＳ１１において、顔画像に対してエッジ検出を行い、顔特徴線画像を取得する。

本実施例では、顔画像は、顔を含む画像であってもよく、または顔画像は顔特徴点を測位する必要がある画像であってもよい。

本開示の実施例は、関連技術のＳｏｂｅｌ演算子またはＣａｎｎｙ演算子等を使用してエッジ検出を行うが、これは本明細書では限定されない。

可能な実施態様では、畳み込みニューラルネットワークによって顔画像に対してエッジ検出を行い、顔特徴線画像を取得する。

ステップＳ１２において、顔画像と顔特徴線画像とを融合し、顔特徴点の位置情報を取得する。

本実施例では、顔特徴線画像から提供されるロバストな顔構造情報に基づいて、顔画像の顔特徴点を精確的に測位することができる。

本実施例では、顔特徴点は、顔輪郭特徴点、眉の特徴点、目の特徴点、鼻の特徴点および唇の特徴点などの１つ又は複数を含み得る。その内に、目の特徴点はまぶたの線の特徴点を含み得、まぶたの線の特徴点は目じりの特徴点を含み得、鼻の特徴点は鼻梁の特徴点を含み得、唇の特徴点は唇の線の特徴点を含み得る。

可能な実施態様では、特徴点予測ネットワークによって顔画像と顔特徴線画像とを融合し、顔特徴点の位置情報を取得する。

本開示の実施例では、顔画像と顔特徴線画像との融合は、顔画像内の情報と顔特徴線画像内の情報とを組み合わせることを示し得る。例えば、顔画像内の画像及び／又は特徴と顔特徴線画像内の画像及び／又は特徴とを何らかの方法で組合わせることを示し得る。

本実施例では、顔画像に対してエッジ検出を行い、顔特徴線画像を取得し、顔画像と顔特徴線画像とを融合し、顔特徴点の位置情報を取得し、顔特徴線を利用して顔特徴点を測位することによって、顔特徴点の測位精度を向上させることができ、たとえ顔画像内の顔が遮られ、大きい角度の側顔または誇張表情の顔であるなどの複雑な場合でも、精度良く顔特徴点を測位することができる。

図２は、本開示の一実施例による顔特徴点の測位方法の一例を示すフローチャートである。図２に示すように、該方法は、ステップＳ２１～ステップＳ２３を含み得る。

ステップＳ２１において、顔画像に対してエッジ検出を行い、顔特徴線画像を取得する。

その内に、ステップＳ２１については、上記ステップＳ１１の説明を参照されたい。

ステップＳ２２において、顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得する。

可能な実施態様では、対抗生成モデルに基づく畳み込みニューラルネットワークによって顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得する。該実施態様では、対抗生成モデル中の判別モデルは顔特徴線画像の有効性を判別するために利用可能であり、即ち、判別モデルは顔特徴線画像が有効かどうかを判別するために利用可能であり、対抗生成モデル中の生成モデルは最適化された顔特徴線画像を生成するために利用可能である。

ステップＳ２３において、顔画像と最適化された顔特徴線画像とを融合し、顔特徴点の位置情報を取得する。

本実施例では、顔特徴線画像の検出結果は、最終の顔特徴点の測位精度に大きな影響を与える。従って、顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得し、顔画像と最適化された顔特徴線画像とを融合し、顔特徴点の位置情報を取得することによって、大幅に顔特徴線画像の品質を向上でき、さらに顔特徴点の測位精度を向上させることができる。

図３は本開示の一実施例による顔特徴点の測位方法のステップＳ１１の一例を示すフローチャートである。図３に示すように、ステップＳ１１は、ステップＳ１１１とステップＳ１１２を含み得る。

ステップＳ１１１において、顔画像に対して特徴線の特徴抽出を行い、特徴線画像を取得する。

本実施例では、特徴線は、顔輪郭特徴線、左眉の特徴線、右眉の特徴線、鼻梁特徴線、左目上まぶた特徴線、左目下まぶた特徴線、右目上まぶた特徴線、右目下まぶた特徴線、上唇の上端特徴線、上唇の下端特徴線、下唇の上端特徴線および下唇の下端特徴線等の１つ又は複数を含み得る。

可能な実施態様では、畳み込みニューラルネットワークによって顔画像に対して特徴線の特徴抽出を行い、特徴線画像を取得する。例えば、ＲｅｓＮｅｔ１８によって顔画像に対して特徴線の特徴抽出を行い、特徴線画像を取得することができる。

可能な実施態様では、顔画像に対して特徴線の特徴抽出を行い、特徴線画像を取得することは、顔画像に対して、畳み込み、残差演算、ダウンサンプリング及び残差演算の操作を順次に実行し、特徴線画像を取得する。

ステップＳ１１２において、特徴線画像を最適化し、顔特徴線画像を取得する。

可能な実施態様では、特徴線画像を最適化し、顔特徴線画像を取得することは、特徴線画像を少なくとも一つの段階の最適化ネットワークを経させて、顔特徴線画像を取得することであって、各段階の最適化ネットワークが、残差演算を実現するための砂時計型ネットワーク及び特徴線情報を伝送するための情報伝送層を含むことを含む。例えば、１段階の最適化ネットワークであれば、特徴線画像に対して、砂時計型ネットワーク及び情報伝送層によって順次に最適化処理を行い、顔特徴線画像を取得する。２段階の最適化ネットワークであれば、特徴線画像に対して、第１の砂時計型ネットワーク、第１の情報伝送層、第２の砂時計型ネットワークおよび第２の情報伝送層によって順次に最適化処理を行い、顔特徴線画像を取得する。他の実施例では、３段階以上の最適化ネットワークであれば、前記と同様にすればよい。

図４は本開示の一実施例による顔特徴点の測位方法のステップＳ１２の一例を示すフローチャートである。図４に示すように、ステップＳ１２は、ステップＳ１２１～ステップＳ１２３を含み得る。

ステップＳ１２１において、顔画像に対して入力画像融合を行い、第１の融合画像を取得する。

本実施例では、第１の融合画像は顔画像内の各特徴線の境界特徴を示す。

ステップＳ１２２において、第１の融合画像と顔特徴線画像とに対して少なくとも一つの段階のエッジ画像融合を行い、第２の融合画像を取得する。

ステップＳ１２３において、第２の融合画像をマッピングし、特徴点の位置ベクトルを取得し、位置ベクトルを顔特徴点の位置情報とする。

可能な実施態様では、第２の融合画像をマッピングし、特徴点の位置ベクトルを取得することは、第２の融合画像に対して残差演算および全結合操作を順次に行い、特徴点の位置ベクトルを取得することを含む。

可能な実施態様では、第１の融合画像と顔特徴線画像とに対して少なくとも一つの段階のエッジ画像融合を行う前に、第１の融合画像に対して、畳み込み、ダウンサンプリング及び残差演算を順次に含む最適化処理を行い、最適化された第１の融合画像を取得することを更に含む。

可能な実施態様では、各段階の境界画像融合の間に、各段階の境界融合の結果に対して残差演算を行うことを更に含む。

図５は本開示の一実施例による顔特徴点の測位方法のステップＳ１２１の一例を示すフローチャートである。図５に示すように、ステップＳ１２１は、ステップＳ１２１１およびステップＳ１２１２を含み得る。

ステップＳ１２１１において、顔画像を、個々の事前定義された特徴線画像と画素ごとに乗算し、個々の事前定義された特徴線画像に一対一に対応する複数の境界特徴を取得する。

ステップＳ１２１２において、複数の境界特徴と顔画像とを重ね合わせ、第１の融合画像を取得する。

可能な実施態様では、式１によって第１の融合画像

を取得することができる。

式１
ただし、

は顔画像を表し、

は

番目の事前定義された特徴線画像を表し、

は事前定義された特徴線画像の個数を表す。

は

を

と画素ごとに乗算することを表し、

は重ね合わせ操作を表す。

該実施態様は、顔画像を、個々の事前定義された特徴線画像と画素ごとに乗算し、個々の事前定義された特徴線画像に一対一に対応する複数の境界特徴を取得し、複数の境界特徴と顔画像重ね合わせ、第１の融合画像を取得することによって、第１の融合画像では顔画像内の構造的に豊かな部分及び特徴部分だけが強調され、顔画像内の背景部分と構造的に豊かではない部分が無視され、第１の融合画像を後続のネットワークの入力とする有効性を大幅に向上させることができる。該実施態様は、更に元の顔画像も考慮するため、顔画像内の価値ある情報を利用して後続の特徴点を予測することができる。

可能な実施態様では、該方法は、トレーニング画像セットのいずれか１つのトレーニング画像について、トレーニング画像内に顔特徴点をマークし、トレーニング画像内の顔特徴点を補間してトレーニング画像内の顔特徴線情報を取得することと、トレーニング画像セットの各トレーニング画像、及び各トレーニング画像内の顔特徴線情報により、事前定義された特徴線画像を取得するための畳み込みニューラルネットワークをトレーニングすることと、を更に含む。該実施態様では、トレーニング画像セットは、複数のトレーニング画像を含み得、各トレーニング画像内にそれぞれ１０６個の顔特徴点をマークすることができる。該実施態様では、トレーニング画像内の隣接する顔特徴点間を補間して曲線を得、補間して得られた曲線を該トレーニング画像内の顔特徴線とする。該実施態様は、トレーニング画像セットのいずれか１つのトレーニング画像について、トレーニング画像内に顔特徴点をマークし、トレーニング画像内の顔特徴点を補間してトレーニング画像内の顔特徴線情報を取得し、そしてトレーニング画像セットの各トレーニング画像、及び各トレーニング画像内の顔特徴線情報により、事前定義された特徴線画像を取得するための畳み込みニューラルネットワークをトレーニングすることによって、マークされた顔特徴点を補間し顔特徴線を監視して事前定義された特徴線画像を取得するための畳み込みニューラルネットワークをトレーニングする。

図６は、本開示の一実施例による顔特徴点の測位方法のステップＳ１２２の一例を示すフローチャートである。図６に示すように、ステップＳ１２２は、ステップＳ１２２１～ステップＳ１２２４を含み得る。

ステップＳ１２２１において、第１の融合画像と顔特徴線画像とを重ね合わせ、第３の融合画像を取得する。

ステップＳ１２２２において、第３の融合画像に対して残差演算を行い、顔特徴線画像と同じサイズの第４の融合画像を取得する。

ステップＳ１２２３において、第１の融合画像を第４の融合画像と画素ごとに乗算し、第５の融合画像を取得する。

ステップＳ１２２４において、第１の融合画像と第５の融合画像とを重ね合わせ、第２の融合画像を取得する。

可能な実施態様では、式２によって第２の融合画像

を取得することができる。

式２
ただし、

は第１の融合画像を表し、

は顔特徴線画像を表し、

は第１の融合画像と顔特徴線画像とを重ね合わせることを表し、

は第３の融合画像を表す。

は第３の融合画像に対して残差演算を行うことを表し、

は第４の融合画像を表す。本実施例では、顔特徴線画像

のチャンネル数は、事前定義された特徴線の数に応じて决定されるので、変換構造

によって顔特徴線画像

と第１の融合画像

のチャンネル数と同じにする必要がある。その内に、変換構造

に砂時計型ネットワークを採用することができる。

は第１の融合画像

を第４の融合画像

と画素ごとに乗算することを表し、

は第５の融合画像を表す。

は第１の融合画像

と第５の融合画像

とを重ね合わせることを表す。

可能な実施態様では、該方法は、トレーニング画像セットの各トレーニング画像と各トレーニング画像内の顔特徴線情報とを特徴点予測ネットワークへの入力として、各トレーニング画像内の顔特徴点の位置情報を特徴点予測ネットワークからの出力とし、特徴点予測ネットワークをトレーニングすることを更に含む。その内に、それぞれのトレーニング画像内の顔特徴点の数はすべて１０６個であり得る。該実施態様は、トレーニング画像セットの各トレーニング画像と各トレーニング画像内の顔特徴線情報を特徴点予測ネットワークへの入力とし、各トレーニング画像内の顔特徴点の位置情報を特徴点予測ネットワークからの出力とし、特徴点予測ネットワークをトレーニングすることによって、顔特徴線情報を融合し、顔画像内の顔特徴点を利用して監視・トレーニングを行う。トレーニングして得られた特徴点予測ネットワークは、顔特徴線情報を融合したので、より精度高い顔特徴点の測位結果を得る。

図７は、本開示の一実施例による顔特徴点の測位装置を示すブロック図である。図７に示すように、該装置は、顔画像に対してエッジ検出を行い、顔特徴線画像を取得するように構成されるエッジ検出モジュール７１と、顔画像と顔特徴線画像とを融合し、顔特徴点の位置情報を取得するように構成される融合モジュール７２と、を含む。

図８は、本開示の一実施例による顔特徴点の測位装置の一例を示すブロック図である。図８において以下のように示す。

可能な実施態様では、該装置は、顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得するように構成される判別モジュール７３を更に含み、融合モジュール７２は、顔画像と最適化された顔特徴線画像とを融合し、顔特徴点の位置情報を取得するように構成される。

可能な実施態様では、エッジ検出モジュール７１は、顔画像に対して特徴線の特徴抽出を行い、特徴線画像を取得するように構成される特徴抽出サブモジュール７１１と、特徴線画像を最適化し、顔特徴線画像を取得するように構成される第１の最適化サブモジュール７１２と、を含む。

可能な実施態様では、特徴抽出サブモジュール７１１は、顔画像に対して畳み込み、残差演算、ダウンサンプリング及び残差演算の操作を実行し、特徴線画像を取得するように構成される。

可能な実施態様では、第１の最適化サブモジュール７１２は、特徴線画像を、残差演算を実現するための砂時計型ネットワーク及び特徴線情報を伝送するための情報伝送層を含む少なくとも一つの段階の最適化ネットワークを経させて、顔特徴線画像を取得するように構成される。

可能な実施態様では、融合モジュール７２は、顔画像に対して入力画像融合を行い、第１の融合画像を取得するように構成される第１の融合サブモジュール７２１と、第１の融合画像と顔特徴線画像とに対して、少なくとも一つの段階のエッジ画像融合、第２の融合画像を取得するように構成される第２の融合サブモジュール７２２と、第２の融合画像をマッピングし、特徴点の位置ベクトルを取得し、位置ベクトルを顔特徴点の位置情報とするように構成されるマッピングサブモジュール７２３と、を含む。

可能な実施態様では、融合モジュール７２は、第１の融合画像に対して、畳み込み、ダウンサンプリング及び残差演算を順次に含む最適化処理を行い、最適化された第１の融合画像を取得するように構成される第２の最適化サブモジュール７２４を更に含む。

可能な実施態様では、第１の融合サブモジュール７２１は、顔画像を、個々の事前定義された特徴線画像と画素ごとに乗算し、個々の事前定義された特徴線画像に一対一に対応する複数の境界特徴を取得するように構成される第１の乗算ユニットと、複数の境界特徴と顔画像を重ね合わせ、第１の融合画像を取得するように構成される第１の重ね合わせユニットと、を含む。

可能な実施態様では、第２の融合サブモジュール７２２は、第１の融合画像と顔特徴線画像とを重ね合わせ、第３の融合画像を取得するように構成される第２の重ね合わせユニットと、第３の融合画像に対して残差演算を行い、顔特徴線画像と同じサイズの第４の融合画像を取得するように構成される残差演算ユニットと、第１の融合画像を第４の融合画像と画素ごとに乗算し、第５の融合画像を取得するように構成される第２の乗算ユニットと、第１の融合画像と第５の融合画像とを重ね合わせ、第２の融合画像を取得するように構成される第３の重ね合わせユニットと、を含む。

可能な実施態様では、融合モジュール７２は、各段階の境界融合の結果に対して残差演算を行うように構成される残差演算サブモジュール７２５を更に含む。

可能な実施態様では、マッピングサブモジュール７２３は、第２の融合画像に対して、残差演算および全結合操作を順次に行い、特徴点の位置ベクトルを取得するように構成される。

本実施例は、顔画像に対してエッジ検出を行い、顔特徴線画像を取得し、顔画像と顔特徴線画像とを融合し、顔特徴点の位置情報を取得することによって、顔特徴線を利用して顔特徴点を測位して、顔特徴点の測位精度を向上させることができ、たとえ顔画像内の顔が遮られ、大きい角度の側顔または誇張表情の顔であるなどの複雑な場合でも、精度良く顔特徴点を測位することができる。

図９は例示的な実施例に示す顔特徴点を測位するための装置８００を示すブロック図である。例えば、装置８００は、携帯電話、コンピューター、デジタル放送端末、メッセージ受送信機器、ゲームコントロールプラットフォーム、タブレット機器、医療機器、フィットネス機器、ＰＤＡ等であり得る。

図９を参照して、装置８００は、処理部８０２、メモリ８０４、電源部８０６、マルチメディア部８０８、オーディオ部８１０、入力／出力（Ｉ／Ｏ）のインタフェース８１２、センサー部８１４、及び通信部８１６のうちの１つまたは複数を含み得る。

処理部８０２は、通常装置８００の全体操作、例えば表示、電話通信、データ通信、カメラ操作および記録操作に関連する操作を制御する。処理部８０２は、上記の方法の全部または一部のステップを実現するために、コマンドを実行する１つまたは複数のプロセッサー８２０を含む。また、処理部８０２は、処理部８０２と他の部分間の交換のために１つまたは複数のモジュールを含む。例えば、処理部８０２は、マルチメディア部８０８と処理部８０２間の交換のためにマルチメディアモジュールを含み得る。

メモリ８０４は装置８００での操作をサポートするために様々なタイプのデータを記憶するように構成される。そのようなデータの例には、装置８００上で操作する任意のアプリケーションプログラムまたは方法のコマンド、連絡先データ、電話帳データ、メッセージ、写真、ビデオなどが含まれる。メモリ８０４は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的に消去可能なプログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの任意タイプの揮発性または不揮発性記憶装置またはそれらの組合わせで実現され得る。

電源部８０６は、装置８００の各種のコンポーネントに電力を提供する。電源部８０６は、電源管理システム、１つまたは複数の電源、および装置８００の電力生成、管理及び分配することに関連するコンポーネントを含み得る。

マルチメディア部８０８は、前記装置８００とユーザの間の出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは、液晶ディスプレイー（ＬＣＤ）及びタッチパネル（ＴＰ）を含み得る。スクリーンはタッチパネルを含む場合に、スクリーンはタッチスクリーンとして実現され、ユーザからの入力信号を受信する。タッチパネルには、タッチ、スライド、タッチパネル上のジェスチャーを検知する１つまたは複数のタッチセンサーを含む。前記タッチセンサーは、タッチまたはスライド動作の境界だけでなく、前記タッチまたはスライド操作に関連する継続時間及び圧力も検知することができる。いくつかの実施例では、マルチメディア部８０８は、フロントカメラ及び／又はリアカメラを含む。装置８００が操作モード、例えば撮影モードまたはビデオモードである時に、フロントカメラ及び／又はリアカメラは外部からのマルチメディアデータを受信することができる。それぞれのフロントカメラ及びリアカメラは、固定光学レンズシステムであっても良く、または焦点距離と光学ズーム機能を有しても良い。

オーディオ部８１０は、オーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオ部８１０は、装置８００が操作モード、例えば通話モード、録音モード、音声認識モードである時に、外部のオーディオ信号を受信するように構成されるマイク（ＭＩＣ）を含む。受信したオーディオ信号は、さらにメモリ８０４に記憶され、または通信部８１６を介して送信されてもよい。いくつかの実施例では、オーディオ部８１０は、オーディオ信号を出力するためのスピーカを更に含む。

Ｉ／Ｏインタフェース８１２は、処理部８０２と、キーボード、クリックホイール、ボタンなどの周辺インタフェースモジュールとの間のインタフェースを提供する。これらのボタンには、ホームページボタン、音量ボタン、スタートボタン、ロックボタンを含むが、それらに限定されない。

センサー部８１４は、装置８００に様々な態様の状態評価を提供するための１つまたは複数のセンサーを含む。例えば、センサー部８１４は、装置８００のオン／オフ状態、コンポーネントの相対的な測位を検出でき、前記コンポーネントは例えば装置８００のディスプレイー及びキーパッドであり、センサー部８１４は、装置８００または装置８００の１つのコンポーネントの位置の変化、ユーザと装置８００との接触の有無、装置８００の方位または加速／減速、及び装置８００の温度変化も検出することができる。センサー部８１４は、物理的接触なしに近くの物体の存在を検出するように構成される接近センサーを含む。センサー部８１４は、撮像用途で使用するための例えばＣＭＯＳまたはＣＣＤ画像センサーなどの光センサーを含み得る。いくつかの実施例では、該センサー部８１４は、加速度センサー、ジャイロセンサー、磁気センサー、圧力センサーまたは温度センサーも含み得る。

通信部８１６は、装置８００と他の機器との間の有線または無線通信を促進するように構成される。装置８００は、ＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組合わせなどの通信規格に基づく無線ネットワークにアクセルすることができる。１つの例示的な実施例では、通信部８１６は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。１つの例示的な実施例では、前記通信部８１６は、短距離通信を容易にするための近距離通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術、および他の技術に基づいて実現され得る。

例示的な実施例では、装置８００は、上記方法を実行するために、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサー（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサーまたは他の電子部品によって実現され得る。

例示的な実施例では、上記の方法を実行するために装置８００のプロセッサー８２０によって実行可能なコンピュータープログラムコマンドを含むメモリ８０４などの不揮発性コンピューター可読記憶媒体を更に提供する。

図１０は、例示的な実施例に示す顔特徴点を測位するための装置１９００を示すブロック図である。例えば、装置１９００は、サーバとして提供され得る。図１０を参照して、装置１９００は、１つまたは複数のプロセッサーを更に含む処理部１９２２と、処理部１９２２によって実行可能なコマンド、例えばアプリケーションプログラムを記憶するメモリ１９３２に代表されるメモリリソースと、を含む。メモリ１９３２に記憶されたアプリケーションプログラムは、それぞれのコマンドセットに対応する１つ以上のモジュールを含み得る。また、処理部１９２２は、上記の方法を実行するためにコマンドを実行するように構成される。

装置１９００は、装置１９００の電源管理を実行するように構成される電源部１９２６と、装置１９００をネットワークに接続させるように構成される有線または無線ネットワークインタフェース１９５０と、入出力（Ｉ／Ｏ）インタフェース１９５８と、を含み得る。装置１９００は、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭなどのメモリ１９３２に記憶されたオペレーティングシステムに基づいて動作する。

例示的な実施例では、上記の方法を実行するために装置１９００の処理部１９２２によって実行可能なコンピュータープログラムコマンドが記憶されたメモリ１９３２などの不揮発性コンピューター可読記憶媒体を提供する。

本開示は、システム、方法、及び／又はコンピュータープログラム製品であり得る。コンピュータープログラム製品は、プロセッサーに本開示の各態様を実行させるコンピューター可読プログラムコマンドが記憶されたコンピューター可読記憶媒体を含み得る。

コンピューター可読記憶媒体は、コマンド実行機器によって使用されるコマンドを保持および記憶できる有形の機器でありえる。コンピューター可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置またはこれらの任意の適切な組合わせであり得る。コンピューター可読記憶媒体のさらなる具体的な例（非網羅的なリスト）には、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、機械式エンコードデバイス、例えばコマンドが記憶されたホールカードまたは溝の隆起構造、及び上記の任意の適切な組合わせを含む。ここで使用されるコンピューター可読記憶媒体は、例えば電波または他の自由に伝播する電磁波、導波管または他の伝送媒体（例えば、光ファイバーケーブルを通る光パルス）、またはワイヤを伝播する電磁波などの過渡信号自体として解釈されるべきではない。

ここで説明するコンピューター可読プログラムコマンドは、コンピューター可読記憶媒体から各計算／処理デバイスにダウンロードするか、またはインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワークなどのネットワークを介して外部コンピューターまたは外部記憶装置にダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光ファイバー伝送、ワイヤレス伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピューター、および／またはエッジサーバーを含む。それぞれの計算／処理デバイス中のネットワークアダプターカードまたはネットワークインタフェースは、ネットワークからコンピューター可読プログラムコマンドを受信し、該コンピューター可読プログラムコマンドを伝送し、各計算／処理デバイス中のコンピューター可読記憶媒体に記憶する。

本開示の操作を実行するためのコンピュータープログラムコマンドは、アセンブリコマンド、コマンドセット構造（ＩＳＡ）コマンド、機器コマンド、機器関連コマンド、マイクロコード、ファームウェアコマンド、状態設定データ、または１つ又は複数のプログラミング言語の任意の組合わせでプログラムされたソースコードまたはオブジェクトコードを含み得、前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向のプログラミング言語、「Ｃ」言語などの通常の手続き型プログラミング言語または類似のプログラミング言語を含み得る。コンピューター可読プログラムコマンドは、ユーザのコンピューター上で完全に実行され、ユーザのコンピューター上で一部実行され、単独のソフトウェアパッケージとして実行され、ユーザのコンピューター上で一部実行され遠隔コンピューター上で一部実行され、または完全に遠隔コンピューターまたはサーバ上で実行され得る。遠隔コンピューターの場合に、遠隔コンピューターは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）などの任意種類のネットワークを介してユーザのコンピューターに接続され、または、外部コンピューター（例えばインターネットサービスプロバイダーを使用してインターネットに接続される）に接続される。いくつかの実施例では、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路は、コンピューター可読プログラムコマンドの状態情報を利用してカスタマイズされ得、該電子回路は、コンピューター可読プログラムコマンドを実行することによって本開示の各態様を実現することができる。

本開示の態様は、本開示の実施例の方法、装置（システム）およびコンピュータープログラム製品のフローチャート及び／又はブロック図を参照して説明された。フローチャート及び／又はブロック図のそれぞれのブロック及びフローチャート及び／又はブロック図中の各ブロックの組合わせは、全てコンピューター可読プログラムコマンドによって実現できることが理解されるべきである。

これらのコンピューター可読プログラムコマンドは、汎用コンピューター、専用コンピューターまたは他のプログラマブルデータ処理装置のプロセッサーに提供され、マシーンを生成し、コンピューターまたは他のプログラマブルデータ処理装置のプロセッサーによってこれらのコマンドを実行する時に、フローチャート及び／又はブロック図中の１つまたは複数のブロック中の指定の機能／動作を実現する装置を実現できる。これらのコンピューター可読プログラムコマンドをコンピューター可読記憶媒体に記憶して、これらのコマンドによってコンピューター、プログラマブルデータ処理装置及び／又は他の機器に特定の方式で動作させるようにして、コマンドが記憶されたコンピューター可読媒体は、フローチャート及び／又はブロック図中の１つまたは複数のブロック中の指定の機能／動作の各態様を実現するコマンドを含む製品とする。

コンピューター可読プログラムコマンドをコンピューター、他のプログラマブルデータ処理装置、または他の機器上にロードして、コンピューター、他のプログラマブルデータ処理装置または他の機器上に一連の操作ステップを実行することによって、コンピューターの実現過程を生成し、コンピューター、他のプログラマブルデータ処理装置、または他の機器上に実行されたコマンドによって、フローチャート及び／又はブロック図中の１つまたは複数のブロック中の指定の機能／動作を実現する。

図面中のフローチャート及びブロック図は、本開示の複数の実施例のシステム、方法及びコンピュータープログラム製品の実現可能な体系構造、機能及び操作を示している。これに関して、フローチャートまたはブロック図中のそれぞれのブロックは、１つまたは複数の指定の論理機能を実現するための実行可能コマンドを含むモジュール、プログラムセグメントまたはコマンドの一部を表す。いくつかの代替の実施例では、ブロックに記載されている機能は図面に示されているものと異なる順序で発生する場合もある。例えば、２つの連続のブロックは実質的に並行して実行され得、関連する機能に応じて、逆の順序で実行される場合もある。また、ブロック図及び／又はフローチャート中のそれぞれのブロック、及びブロック図及び／又はフローチャート中のブロックの組合わせは、指定の機能または動作を実行するための専用のハードウェアベースのシステムによって実現され得、または、専用ハードウェアとコンピューターコマンドとの組合わせによって実現されえることに注意すべきである。

以上、本開示の各実施例を説明したが、上記の説明は例示であり、限定ではなく、開示の各実施例に限定されない。説明した各実施例の範囲および精神を逸脱しない限り、多くの修正及び変更が当業者には明らかであろう。本明細書で使用される用語の選択は、各実施例の原理、実際の応用または市場での技術の改善を最も好適に解釈し、または当業者に本明細書で開示された各実施例を容易に理解させることを意図している。

Claims

顔画像に対してエッジ検出を行い、顔特徴線画像を取得することと、
前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得することと、を含み、
前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得することは、
前記顔画像に対して入力画像融合を行い、第１の融合画像を取得することと、
前記第１の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行い、第２の融合画像を取得することと、
前記第２の融合画像をマッピングし、特徴点の位置ベクトルを取得し、前記位置ベクトルを顔特徴点の位置情報とすることと、を含むことを特徴とする、
顔特徴点の測位方法。
前記顔画像と前記顔特徴線画像を融合する前に、
前記顔特徴線画像に対して有効性判別を行い、最適化された顔特徴線画像を取得することを更に含み、
前記顔画像と前記顔特徴線画像とを融合し、顔特徴点の位置情報を取得することは、
前記顔画像と前記最適化された顔特徴線画像とを融合し、顔特徴点の位置情報を取得することを含むことを特徴とする請求項１に記載の方法。
前記顔画像に対してエッジ検出を行い、顔特徴線画像を取得することは、
前記顔画像の特徴線の特徴を抽出し、特徴線画像を取得することと、
前記特徴線画像を最適化し、前記顔特徴線画像を取得することと、を含むことを特徴とする請求項１に記載の方法。
前記顔画像の特徴線の特徴を抽出し、特徴線画像を取得することは、
前記顔画像に対して、畳み込み、残差演算、ダウンサンプリング及び残差演算の操作を順次に実行し、前記特徴線画像を取得することを含むことを特徴とする請求項３に記載の方法。
前記特徴線画像を最適化し、前記顔特徴線画像を取得することは、
前記特徴線画像を少なくとも一つの段階の最適化ネットワークを経させて、前記顔特徴線画像を取得することであって、各段階の前記最適化ネットワークが、残差演算を実現するための砂時計型ネットワーク及び特徴線情報を伝送するための情報伝送層を含むことを含むことを特徴とする請求項３に記載の方法。
前記第１の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行う前に、
前記第１の融合画像に対して、畳み込み、ダウンサンプリング及び残差演算を順次に含む最適化処理を行い、最適化された第１の融合画像を取得することを更に含むことを特徴とする請求項１に記載の方法。
前記顔画像に対して入力画像融合を行い、第１の融合画像を取得することは、
前記顔画像を、個々の事前定義された特徴線画像と画素ごとに乗算し、個々の事前定義された特徴線画像に一対一に対応する複数の境界特徴を取得することと、
複数の前記境界特徴と前記顔画像とを重ね合わせ、第１の融合画像を取得することと、を含むことを特徴とする請求項１に記載の方法。
前記第１の融合画像と前記顔特徴線画像に対して少なくとも一つの段階のエッジ画像融合を行い、第２の融合画像を取得することは、
前記第１の融合画像と前記顔特徴線画像とを重ね合わせ、第３の融合画像を取得することと、
前記第３の融合画像に対して残差演算を行い、前記顔特徴線画像と同じサイズの第４の融合画像を取得することと、
前記第１の融合画像を前記第４の融合画像を画素ごとに乗算し、第５の融合画像を取得することと、
前記第１の融合画像と前記第５の融合画像とを重ね合わせ、前記第２の融合画像を取得することと、を含むことを特徴とする請求項１に記載の方法。
各段階の前記エッジ画像融合の間に、各段階の境界融合の結果に対して残差演算を行うことを更に含むことを特徴とする請求項１に記載の方法。
前記第２の融合画像をマッピングし、特徴点の位置ベクトルを取得することは、
前記第２の融合画像に対して、残差演算及び全結合操作を順次に行い、前記特徴点の位置ベクトルを取得することを含むことを特徴とする請求項１に記載の方法。
請求項１～１０のいずれか１項に記載の顔特徴点の測位方法を実行するように構成されることを特徴とする顔特徴点の測位装置。
プロセッサーと、
プロセッサーが実行可能なコマンドを記憶するように構成されるメモリと、を含み、
前記プロセッサーが請求項１～１０のいずれか１項に記載の方法を実行するように配置される電子デバイス。
コンピュータープログラムコマンドが記憶されたコンピューター可読記憶媒体であって、
プロセッサーによって前記コンピュータープログラムコマンドを実行する時に請求項１～１０のいずれか１項に記載の方法を実現するコンピューター可読記憶媒体。