JP7454105B2 - 顔画像品質評価方法及び装置、コンピュータ機器並びにコンピュータプログラム - Google Patents

顔画像品質評価方法及び装置、コンピュータ機器並びにコンピュータプログラム Download PDF

Info

Publication number
JP7454105B2
JP7454105B2 JP2023516051A JP2023516051A JP7454105B2 JP 7454105 B2 JP7454105 B2 JP 7454105B2 JP 2023516051 A JP2023516051 A JP 2023516051A JP 2023516051 A JP2023516051 A JP 2023516051A JP 7454105 B2 JP7454105 B2 JP 7454105B2
Authority
JP
Japan
Prior art keywords
image
face image
quality evaluation
facial
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023516051A
Other languages
English (en)
Other versions
JP2023547028A (ja
Inventor
チェン,シンユー
ジャン,ルイシン
オウ,フージャオ
ホアン,ユーグー
リー,シャオシン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2023547028A publication Critical patent/JP2023547028A/ja
Application granted granted Critical
Publication of JP7454105B2 publication Critical patent/JP7454105B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Description

本願は2020年11月11日にて中国特許庁に出願された、出願番号が202011255554.8、発明の名称が「顔画像品質評価方法及び装置、コンピュータ機器並びに記憶媒体」である中国特許出願に基づく優先権を主張し、その内容の全ては参照により本願に組み込まれる。
本願の実施例は、画像処理の技術分野に関し、特に、顔画像品質評価方法及び装置、コンピュータ機器並びに記憶媒体に関する。
顔認識は、社会でますます広く応用されていき、顔認識に用いる画質は、顔認識の精度に影響を与えるため、顔画像品質評価は、顔認識の実際の実現中に非常に重要な役割を果たしている。
関連技術において、顔画像品質評価モデルにより顔画像の品質評価を実現し、顔画像評価モデルの訓練中に、通常、訓練サンプルの品質ラベリングを人手に頼って行うことで、顔画像品質評価モデルを訓練する目的を達成する。
しかしながら、上記構成では、顔画像品質の標準を客観的に定量化することが困難であるため、人手でラベリングされた画質は十分に正確ではなく、その結果、画質ラベリングの精度は高くない。
本願の実施例は、顔画像品質評価方法及び装置、コンピュータ機器並びに記憶媒体を提供する。
一側面では、コンピュータ機器によって実行される顔画像品質評価方法であって、
対象顔画像を取得するステップと、
前記対象顔画像の類似度分布距離を決定するステップであって、前記類似度分布距離は、前記対象顔画像が対応する同一人物類似度分布と前記対象顔画像が対応する非同一人物類似度分布との間の分布距離を含み、前記同一人物類似度分布は、前記対象顔画像と、前記対象顔画像と同じ人物アイデンティティを持つ顔画像である第1のタイプの画像との間の類似度分布を示し、前記非同一人物類似度分布は、前記対象顔画像と、前記対象顔画像とは異なる人物アイデンティティを持つ顔画像である第2のタイプの画像との間の類似度分布を示す、ステップと、
前記対象顔画像の類似度分布距離に基づいて、前記対象顔画像の画質を決定するステップと、
を含む顔画像品質評価方法が提供される。
別の側面では、コンピュータ機器によって実行される顔画像品質評価方法であって、
少なくとも2つの人物アイデンティティがそれぞれ対応する顔画像セットを含むサンプル画像を取得するステップであって、前記顔画像セットには少なくとも2つの顔画像が含まれる、ステップと、
前記サンプル画像と、前記サンプル画像の人物アイデンティティとに基づいて、前記サンプル画像の類似度分布距離を決定するステップであって、前記サンプル画像の類似度分布距離は、前記サンプル画像が対応する同一人物類似度分布と前記サンプル画像が対応する非同一人物類似度分布との間の分布距離を含み、前記サンプル画像が対応する同一人物類似度分布は、前記サンプル画像と、前記サンプル画像と同じ人物アイデンティティを持つ顔画像である第1のタイプの画像との間の類似度分布を示し、前記非同一人物類似度分布は、前記サンプル画像と、前記サンプル画像とは異なる人物アイデンティティを持つ顔画像である第2のタイプの画像との間の類似度分布を示す、ステップと、
前記サンプル画像と、前記サンプル画像の類似度分布距離とにより、訓練対象となる品質評価モデルを訓練し、訓練済みの品質評価モデルを得て訓練するステップであって、前記訓練済みの品質評価モデルは、入力された対象顔画像を処理し、前記対象顔画像の品質評価に用いる前記対象顔画像の類似度分布距離を出力するために用いられる、ステップと、を含む。
さらなる側面では、コンピュータ機器に備えられる顔画像品質評価装置であって、
対象顔画像を取得するための第1の顔画像取得モジュールと、
前記対象顔画像の類似度分布距離を決定する第1の類似度分布距離取得モジュールであって、前記類似度分布距離は、前記対象顔画像が対応する同一人物類似度分布と前記対象顔画像が対応する非同一人物類似度分布との間の分布距離を含み、前記同一人物類似度分布は、前記対象顔画像と、前記対象顔画像と同じ人物アイデンティティを持つ顔画像である第1のタイプの画像との間の類似度分布を示し、前記非同一人物類似度分布は、前記対象顔画像と、前記対象顔画像とは異なる人物アイデンティティを持つ顔画像である第2のタイプの画像との間の類似度分布を示す、第1の類似度分布距離取得モジュールと、
前記対象顔画像の類似度分布距離に基づいて、前記対象顔画像の画質を決定する画質取得モジュールと、
を備える顔画像品質評価装置が提供される。
さらなる側面では、コンピュータ機器に備えられる顔画像品質評価装置であって、
少なくとも2つの人物アイデンティティがそれぞれ対応する顔画像セットを含むサンプル画像を取得する第2の顔画像取得モジュールであって、前記顔画像セットには少なくとも2つの顔画像が含まれる、第2の顔画像取得モジュールと、
各前記サンプル画像と、前記サンプル画像の人物アイデンティティとに基づいて、前記サンプル画像の類似度分布距離を決定する第2の類似度分布距離取得モジュールであって、前記サンプル画像の類似度分布距離は、前記サンプル画像が対応する同一人物類似度分布と前記サンプル画像が対応する非同一人物類似度分布との間の分布距離を含み、前記サンプル画像が対応する同一人物類似度分布は、前記サンプル画像と、前記サンプル画像と同じ人物アイデンティティを持つ顔画像である第1のタイプの画像との間の類似度分布を示し、前記非同一人物類似度分布は、前記サンプル画像と、前記サンプル画像とは異なる人物アイデンティティを持つ顔画像である第2のタイプの画像との間の類似度分布を示す、第2の類似度分布距離取得モジュールと、
前記サンプル画像と、前記サンプル画像の類似度分布距離とにより、訓練対象となる品質評価モデルを訓練し、訓練済みの品質評価モデルを得る訓練モジュールであって、前記訓練済みの品質評価モデルは、入力された対象顔画像を処理し、前記対象顔画像の品質評価に用いる前記対象顔画像の類似度分布距離を出力するために用いられる、訓練モジュールと、
を備える顔画像品質評価装置が提供される。
さらなる側面では、プロセッサと、メモリとを備え、前記メモリには、上述した様々な選択可能な実施形態による顔画像品質評価方法を実現するために前記プロセッサによってロードされ実行される少なくとも1つの命令、プログラムの少なくとも1つのセグメント、コードセット又は命令セットが記憶されている、コンピュータ機器が提供される。
さらなる側面では、上述した様々な選択可能な実施形態による顔画像品質評価方法のステップを実現するためにプロセッサによってロードされ実行される少なくとも1つのコンピュータ読み取り可能な命令が記憶されている、1つ又は複数のコンピュータ読み取り可能な記憶媒体が提供される。
さらなる側面では、コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータ読み取り可能な命令を含むコンピュータプログラム製品又はコンピュータプログラムが提供される。コンピュータ機器のプロセッサは、コンピュータ読み取り可能な記憶媒体からコンピュータ読み取り可能な命令を読み取り、プロセッサは、このコンピュータ機器が上述した様々な選択可能な実施形態による顔画像品質評価方法のステップを実行するように、このコンピュータ読み取り可能な命令を実行する。
本願の1つ又は複数の実施例の詳細は、以下の図面及び説明で示される。本願の他の特徴、目的及び利点は、明細書、図面及び特許請求の範囲から明らかになるであろう。
本願の実施例の構成をより明りょうに説明するために、以下、実施例の説明に必要な図面を簡単に紹介する。以下で説明される図面は、本願の実施例の一部に過ぎず、当業者であれば、創造的な労働なしにこれらの図面に基づいて他の図面を得ることもできるのは、明らかである。
本願の1つの例示的な実施例による顔画像品質評価方法で使用されるシステム構成図を示している。 本願の1つの例示的な実施例による顔画像品質評価方法のフローチャートを示している。 本願の1つの例示的な実施例に示す同一人物類似度分布と非同一人物類似度分布の概略図を示している。 本願の1つの例示的な実施例に示す品質評価モデル訓練及び顔画像品質評価のブロック図を示している。 本願の1つの例示的な実施例による顔画像品質評価方法のフローチャートを示している。 本願の1つの例示的な実施例による品質評価モデル訓練及び顔画像品質評価方法のフローチャートを示している。 本願の1つの例示的な実施例による顔画像の類似度分布距離の取得の概略図を示している。 本願の1つの例示的な実施例に示す異なる分布距離のエラー対拒否曲線の概略図を示している。 本願の1つの例示的な実施例に示す異なる画質の顔画像が対応する同一人物類似度及び非同一人物類似度の概略図を示している。 本願の1つの例示的な実施例に示す類似度分布距離-顔画像品質評価方法のブロック図を示している。 本願の1つの例示的な実施例による、異なる訓練方法に基づく訓練により得られた品質評価モデルのエラー対拒否曲線の概略図を示している。 本願の1つの例示的な実施例による、異なる分布状況に基づく訓練により得られた品質評価モデルのエラー対拒否曲線の概略図を示している。 本願の1つの例示的な実施例による、異なる応用シーンにおける異なる方法に基づく訓練により得られた品質評価モデルの品質評価結果の曲線の概略図を示している。 本願の1つの例示的な実施例による顔画像品質評価装置のブロック図を示している。 本願の1つの例示的な実施例による顔画像品質評価装置のブロック図を示している。 本願の1つの例示的な実施例によるコンピュータ機器の構成ブロック図を示している。 本願の1つの例示的な実施例に示すコンピュータ機器の構成ブロック図を示している。
ここで、例示的な実施例を詳細に説明し、その例を図面に示す。以下で図面に関して説明する場合、特に断りがない限り、異なる図面における同じ数字は、同じ又は類似の要素を表す。以下の例示的な実施例で説明される実施形態は、本願と一致するすべての実施形態を表すわけではない。むしろ、これらは、添付の特許請求の範囲に詳述された、本願のいくつかの側面と一致する装置及び方法の一例にすぎない。
以下、理解しやすくするために、本願に言及される名詞について説明する。
1)人工知能(Artificial Intelligence、AI)
人工知能は、デジタルコンピュータ又はデジタルコンピュータによって制御されるマシンを利用して、人間の知能をシミュレート、延伸、及び拡張し、環境を感知し、知識を獲得し、その知識を使って最良の結果を得るための理論、方法、技術、及び応用システムである。言い換えると、人工知能は、知能の本質を理解し、人間の知能と同じように反応できる新しい種類のインテリジェントマシンを生み出そうとするコンピュータサイエンスの総合的な技術である。人工知能は、各種のインテリジェントマシンの設計原理や実現方法を研究し、マシンが知覚、推論及び意思決定の能力を持つようにするものである。
人工知能技術は、ハードウェア面とソフトウェア面の両方で、幅広い分野をカバーする総合的な学問である。人工知能の基盤技術は、一般、センサ、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理技術、操作・対話システム、メカトロニクスなどの技術を含む。人工知能のソフトウェア技術には、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術、及び機械学習・深層学習などの大きな分類がある。本願に示す画像収集コンポーネントを含む表示デバイスは、主に、コンピュータビジョン技術及び機械学習・深層学習などの方向に関連している。
2)コンピュータビジョン技術(Computer Vision、CV)
コンピュータビジョンは、マシンが「見える」ようにする方法を研究する科学であり、より具体的には、人間の目の代わりにカメラやコンピュータを使って対象物に対して認識、追跡、及び測定などのマシンビジョンを行い、さらに、コンピュータ処理によって人間の目で観察したり、機器で検査するために送信したりするのに適した画像になるようにグラフィックス処理を行う科学である。科学の1つであるコンピュータビジョンは、画像又は多次元データから情報を取得可能な人工知能システムを構築するために、関連する理論及び技術を研究するものである。コンピュータビジョン技術は、通常、画像処理、画像認識、画像意味理解、画像検索、OCR(Optical Character Recognition:光学文字認識)、ビデオ処理、ビデオ意味理解、ビデオコンテンツ/行動認識、3次元物体再構築、3D(Three Dimensions:三次元)技術、バーチャルリアリティ、拡張現実、同時位置決め地図作成などの技術を含み、さらに、顔認識や指紋認識などの一般的なバイオメトリック技術などを含む。
3)顔認識(Face Recognition)
顔認識とは、人の顔の特徴情報に基づいてアイデンティティ認識を行うバイオメトリック技術の一種である。
顔認識は、ビデオカメラ又はカメラを使用して顔を含む画像又はビデオストリームを収集し、画像内で顔を自動的に検出し追跡し、さらに、検出された顔画像に対して一連の関連アプリケーション操作を実行する。技術的には、画像収集、特徴の位置決定、アイデンティティの確認と検索などを含む。
4)教師なし学習
教師なし学習は機械学習の訓練方法であり、本質的には統計的手段であり、ラベル付けられていないデータからいくつかの潜在的な構造を発見できる訓練方式である。教師なし学習は、主に、次の特徴がある。1、教師なし学習には明確な目標がない。2、教師なし学習ではデータにラベルを付ける必要はない。3、教師なし学習では効果を定量化できない。
教師なし学習は、主に、主成分分析(Principal Component Analysis、PCA)、混合ガウスモデル、多様体学習アルゴリズム(Isomap)などを含む。
図1は、本願の1つの例示的な実施例による顔画像品質評価方法で使用されるシステム構成図を示しており、図1に示すように、このシステムは、サーバ110と、端末120とを備える。
上記サーバ110は、独立した物理サーバであってもよいし、複数の物理サーバから構成されるサーバクラスタ又は分散システムであってもよく、さらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、CDN(Content Delivery Network:コンテンツ配信ネットワーク)、及びビッグデータと人工知能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。
上記端末120は、顔認識機能を備えたスマートフォン、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータ、有人レジデバイス、セルフレジデバイス等であってもよいが、これらに限定されるものではない。
上記システムには、1つ又は複数のサーバ110と、複数の端末120とが含まれる。本願の実施例では、サーバ110及び端末120の数について制限はない。
端末及びサーバは、通信ネットワークを介して接続されている。一実施例では、通信ネットワークは、有線ネットワーク又は無線ネットワークである。
一実施例では、上述した無線ネットワーク又は有線ネットワークは、標準的な通信技術及び/又はプロトコルを使用する。ネットワークは、通常、インターネットであるが、ローカルエリアネットワーク(Local Area Network、LAN)、メトロポリタンエリアネットワーク(Metropolitan Area Network、MAN)、ワイドエリアネットワーク(Wide Area Network、WAN)、モバイル、有線又は無線ネットワーク、プライベートネットワーク、又は仮想プライベートネットワークの任意の組み合わせを含むがこれらに限られない任意のネットワークであってもよい。いくつかの実施例では、ハイパーテキストマークアップ言語(Hyper Text Mark-up Language、HTML)、拡張可能マークアップ言語(Extensible Markup Language、XML)などを含む技術及び/又はフォーマットを使用して、ネットワークを介して交換されるデータを表す。さらに、セキュアソケットレイヤー(Secure Socket Layer、SSL)、トランスポートレイヤーセキュリティ(Transport Layer Security、TLS)、バーチャルプライベートネットワーク(Virtual Private Network、VPN)、インターネットプロトコルセキュリティ(Internet Protocol Security、IPsec)などの一般的な暗号化技術を使用して、すべて又は一部のリンクを暗号化することができる。別の実施例では、カスタマイズされた及び/又は専用のデータ通信技術を使用して、上記データ通信技術を置換又は補足することもできる。本願では、これについて制限はない。
図2は、本願の1つの例示的な実施例による顔画像品質評価方法のフローチャートを示しており、この方法は、端末又はサーバとして実現し得るコンピュータ機器によって実行され、この端末又はサーバは、図1に示すような端末又はサーバであってもよい。図2に示すように、この顔画像品質評価方法は、以下のステップ210~ステップ230を含む。
ステップ210では、対象顔画像を取得する。
一実施例では、この対象顔画像は、顔認識に用いる顔画像である。
この方法がサーバによって実行される場合を例として、一実施例では、端末は、画像収集デバイスによって対象顔画像を収集し、この対象顔画像をサーバに送信する。これに応じて、サーバは、端末から送信される対象顔画像を取得する。この画像収集デバイスは、カメラ又はカメラコンポーネントであってもよい。
ステップ220では、対象顔画像の類似度分布距離を決定する。この類似度分布距離は、対象顔画像が対応する同一人物類似度分布と対象顔画像が対応する非同一人物類似度分布との間の分布距離を含む。同一人物類似度分布は、対象顔画像と、対象顔画像と同じ人物アイデンティティを持つ顔画像である第1のタイプの画像との間の類似度分布を示す。この非同一人物類似度分布は、対象顔画像と、対象顔画像とは異なる人物アイデンティティを持つ顔画像である第2のタイプの画像との間の類似度分布を示す。
概略的には、この同一人物類似度分布は、対象顔画像と、対象顔画像と同じ人物アイデンティティを持つ顔画像である第1のタイプの画像との間の類似度分布を示し、つまり、この対象顔画像と第1のタイプの画像とは同じ人物の顔画像である。この非同一人物類似度分布は、対象顔画像と、対象顔画像とは異なる人物アイデンティティを持つ顔画像である第2のタイプの画像との間の類似度分布を示し、つまり、この対象顔画像と第2のタイプの画像とは異なる人物の顔画像である。
第1のタイプの画像と対象顔画像とは同じ人物アイデンティティを持つ顔画像であり、第2のタイプの画像と対象顔画像とは異なる人物アイデンティティを持つ顔画像であるため、対象顔画像の画質が高い前提では、第1のタイプの画像との類似度は、通常、高く、第2のタイプの画像との類似度は、通常、低い。図3は、本願の1つの例示的な実施例に示す同一人物類似度分布と非同一人物類似度分布の概略図を示しており、図3に示すように、対象顔画像の画質が高い前提では、曲線310は、対象顔画像が対応する同一人物類似度分布を表し、曲線320は、対象顔画像が対応する非同一人物類似度分布を表す。
一実施例では、対象顔画像の同一人物類似度分布と非同一人物類似度分布を、教師なし学習法を用いて取得する。
ステップ230では、対象顔画像の類似度分布距離に基づいて、対象顔画像の画質を決定する。
一実施例では、上記対象顔画像の画質は、対象顔画像の顔認識を行うか否かを決定するために用いられる。
一実施例では、対象顔画像の画質が高いほど、取得された同一人物類似度が高く、非同一人物類似度が低いほど、同一人物類似度分布と非同一人物類似度分布との間の距離が大きくなるため、対象顔画像の類似度分布距離に基づいて、対象顔画像の画質を決定することができる。
以上をまとめると、本願の実施例による顔画像品質評価方法では、対象顔画像の同一人物類似度分布と非同一人物類似度分布との間の分布距離に基づいて、対象顔画像の画質を決定することにより、画質の自動取得を実現するとともに、同一人物類似度と非同一人物類似度の両面から画質を総合的に決定することにより、顔認識シーンに適用される画質の取得精度を向上させる。
本願の実施例に記載の構成では、対象顔画像の同一人物類似度分布と非同一人物類似度分布との間の分布距離に応じて、対象顔画像の画質を取得することにより、画質の自動取得を実現し、画質の取得精度を向上させる。上記構成の応用シーンは、以下の2つを含むが、これらに限定されるものではない。
1、顔に優先順位を付けるシーン。
顔画像に優先順位を付けることにより、1つの軌跡又は1つのファイルから最も画質の高い画像をアイデンティティ代表として選んで顔認識を行うことができ、このようにして、冗長な情報を除去し、帯域幅の負荷を軽減することができるだけでなく、情報利用の最大化を保証し、情報損失を減らすことができる。例えば、ビデオ資料の画像に基づいて容疑者を追跡する過程では、ビデオ資料に容疑者の顔画像が複数枚連続して存在することが多く、複数枚の容疑者の顔画像から、本願に記載の顔画像品質評価方法により、最も画質の高いものを取得して顔認識を行うことができるため、全ての画像に対して顔認識を行うことによるリソースの浪費を回避しつつ、顔認識の精度を保証することができる。
2、顔フィルタリングシーン。
例えば、顔認証決済などの金融シーンでは、認識アルゴリズムの指標への要求が非常に高いため、安全性を確保する前提で、低品質の画像を事前にブロックしておく必要があることが多く、このとき、顔画像品質評価方法により現在の顔画像の画質を取得し、顔画像品質評価方法による評価結果に基づいて現在の画像が顔認識に適しているか否かを判断する必要があり、認識失敗又は誤認識のリスクを事前に回避する。
本願に係る構成は、品質評価モデル訓練段階と、顔画像品質評価段階とを含む。図4は、1つの例示的な実施例に示す品質評価モデル訓練及び顔画像品質評価のブロック図である。図4に示すように、品質評価モデル訓練段階では、品質評価モデル訓練デバイス410は、予め設定された訓練サンプル(サンプル画像と、サンプル画像に基づいて自動的に生成されたサンプル画像の仮ラベル、すなわちサンプル画像の類似度分布距離とを含む)により、品質評価モデルを得る。顔画像品質評価段階では、顔画像品質評価デバイス420は、この品質評価モデルに基づいて、入力された対象顔画像の品質評価を行い、対象顔画像の画質を取得する。
上記品質評価モデル訓練デバイス410及び顔画像品質評価デバイス420は、コンピュータ機器であってもよい。例えば、このコンピュータ機器は、パーソナルコンピュータ、サーバなどの据え置き型コンピュータ機器であってもよく、又は、このコンピュータ機器は、タブレット型コンピュータ、電子書籍リーダーなどの携帯型コンピュータ機器であってもよい。
一実施例では、上記品質評価モデル訓練デバイス410と顔画像品質評価デバイス420とは同一のデバイスであってもよく、又は、品質評価モデル訓練デバイス410と顔画像品質評価デバイス420とは異なるデバイスであってもよい。そして、品質評価モデル訓練デバイス410と顔画像品質評価デバイス420とが異なるデバイスである場合、品質評価モデル訓練デバイス410と顔画像品質評価デバイス420とは同じタイプのデバイスであってもよく、例えば、品質評価モデル訓練デバイス410と顔画像品質評価デバイス420とが共にサーバであってもよい。又は、品質評価モデル訓練デバイス410と顔画像品質評価デバイス420とは異なるタイプのデバイスであってもよく、例えば、顔画像品質評価デバイス420はパーソナルコンピュータ又は端末であってもよく、品質評価モデル訓練デバイス410はサーバなどであってもよい。本願の実施例では、品質評価モデル訓練デバイス410及び顔画像品質評価デバイス420の具体的なタイプについて限定しない。
図5は、本願の1つの例示的な実施例による顔画像品質評価方法のフローチャートを示しており、この方法は、端末又はサーバとして実現し得るコンピュータ機器によって実行されることができ、この端末又はサーバは、図1に示すような端末又はサーバであってもよい。図5に示すように、この品質評価モデル訓練方法は、以下のステップ510~ステップ530を含む。
ステップ510では、サンプル画像を取得し、このサンプル画像は、少なくとも2つの人物アイデンティティがそれぞれ対応する顔画像セットを含み、この顔画像セットには少なくとも2つの顔画像が含まれる。
ステップ520では、サンプル画像と、サンプル画像の人物アイデンティティとに基づいて、サンプル画像の類似度分布距離を決定する。このサンプル画像の類似度分布距離は、サンプル画像が対応する同一人物類似度分布とサンプル画像が対応する非同一人物類似度分布との間の分布距離を含む。サンプル画像が対応する同一人物類似度分布は、サンプル画像と、サンプル画像と同じ人物アイデンティティを持つ顔画像である第1のタイプの画像との間の類似度分布を示す。この非同一人物類似度分布は、サンプル画像と、サンプル画像とは異なる人物アイデンティティを持つ顔画像である第2のタイプの画像との間の類似度分布を示す。
ステップ530では、サンプル画像と、サンプル画像の類似度分布距離とにより、訓練対象となる品質評価モデルを訓練し、訓練済みの品質評価モデルを得る。この訓練済みの品質評価モデルは、入力された対象顔画像を処理し、対象顔画像の品質評価に用いる対象顔画像の類似度分布距離を出力するために用いられる。
以上をまとめると、本願の実施例による顔画像品質評価方法では、サンプル画像と、サンプル画像の同一人物類似度分布及び非同一人物類似度分布に基づいて算出されたサンプル画像の類似度分布距離とに基づいて、品質評価モデルを訓練することにより、画像サンプルの類似度分布距離の自動取得を実現し、画質ラベリングのコストを低減し、画質ラベリングの精度を向上させる。
図6は、本願の1つの例示的な実施例による品質評価モデル訓練及び顔画像品質評価方法のフローチャートを示しており、この方法は、端末又はサーバとして実現し得るコンピュータ機器によって実行され、この端末又はサーバは、図1に示すような端末又はサーバであってもよい。図6に示すように、この顔画像品質評価方法は、以下のステップを含む。
ステップ610では、各顔画像を取得し、各顔画像は、少なくとも2つの人物アイデンティティがそれぞれ対応する顔画像セットを含み、この顔画像セットには少なくとも2つの顔画像が含まれる。
つまり、該各顔画像には、同じ人物アイデンティティを持つ顔画像が含まれていれば、異なる人物アイデンティティを持つ顔画像も含まれており、同じ人物アイデンティティを持つ顔画像の数は、少なくとも2つであり、異なる人物アイデンティティを持つ顔画像の数は、少なくとも2つである。異なる人物アイデンティティを持つ人物がそれぞれ対応する少なくとも2つの顔画像を、各顔画像として取得する。一実施例では、各人物が対応する顔画像セットにおいて、他の人物の顔画像セットと区別するために、各人物の顔画像ごとに、その人物のアイデンティティ情報識別子が対応している。
ステップ620では、各顔画像と、各顔画像の人物アイデンティティとに基づいて、各顔画像の類似度分布距離をそれぞれ決定する。
一実施例では、上記ステップは、
各顔画像の特徴抽出を行い、各顔画像の画像特徴を得て、
各顔画像の画像特徴に基づいて、各顔画像同士の間の類似度を決定し、
各顔画像同士の間の類似度と、各顔画像の人物アイデンティティとに基づいて、各顔画像の類似度分布距離を取得する、ように実現される。
一実施例では、顔認識モデルにおける特徴抽出部により各顔画像を処理し、各顔画像の画像特徴を得る。
一実施例では、顔画像の画像特徴は、顔画像の見かけ特徴を含み、この見かけ特徴は、肌の色、しわ、毛髪、目、鼻、眉、口、及び耳などの顔特徴を含む。
一実施例では、顔画像に複数の顔が含まれることがあり、この場合、顔認識モデルが各顔画像の特徴抽出を行い、各顔画像の画像特徴を取得するステップの前に、さらに、
顔画像内の有効顔を取得するステップであって、この有効顔とは、顔画像内の顔特徴が認識可能な顔、又は顔画像内で占有領域の面積が予め設定された閾値に達した顔であるステップを含む。
一実施例では、各顔画像同士の間の類似度と、各顔画像の人物アイデンティティとに基づいて、各顔画像の類似度分布距離を取得するステップは、
第1の顔画像と他の画像のうちの同じ人物アイデンティティの顔画像との間の第1の類似度セットを取得するステップであって、この第1の顔画像は、各顔画像のうちのいずれか1つであり、他の画像は、各顔画像のうちの、第1の顔画像以外の顔画像であり、同じ人物アイデンティティの顔画像は、他の画像のうちの、第1の顔画像と同じ人物アイデンティティを持つ顔画像である、ステップと、
第1の顔画像と他の画像のうちの異なる人物アイデンティティの顔画像との間の第2の類似度セットを取得するステップであって、異なる人物アイデンティティの顔画像は、他の画像のうちの、第1の顔画像とは異なる人物アイデンティティを持つ顔画像である、ステップと、
第1の類似度セット及び第2の類似度セットに基づいて、第1の顔画像の類似度分布距離を決定するステップと、を含む。
一実施例では、コンピュータ機器は、取得された各顔画像に基づいて、各顔画像同士の間の類似度を算出する。

が、それぞれ、顔画像セット及び品質評価モデルに対応する埋め込み特徴セットを表すとすると、同じ人物アイデンティティを持つ2つのサンプル

は、正ペア(クラス内)をなし、その対応するラベルは、

で表される。逆に、異なる人物アイデンティティを持つ2つのサンプルは、負ペア(クラス間)をなし、その対応するラベルは、

である。このため、それぞれの顔画像

について、

をそれぞれ、正ペアと負ペアの類似度セットとすることができる。例えば、コンピュータ機器は、第1の人物アイデンティティを持つ顔画像A、顔画像B及び顔画像C(すなわち、顔画像A、顔画像B及び顔画像Cが、第1の顔画像セットを構成する)と、第2の人物アイデンティティを持つ顔画像D、顔画像E及び顔画像F(すなわち、顔画像D、顔画像E及び顔画像Fが、第2の顔画像セットを構成する)を取得する。第2の人物アイデンティティを持つ顔画像は、異なる人物アイデンティティを持つ顔画像であってもよく、この場合、顔画像B及び顔画像Cは、それぞれ、顔画像Aに対して正ペアをなし、顔画像D、顔画像E及び顔画像Fは、それぞれ、顔画像Aと負ペアをなす。概略的には、図7は、本願の1つの例示的な実施例による顔画像の類似度分布距離の取得の概略図を示している。図7に示すように、顔画像A、顔画像B及び顔画像Cは、第1の顔画像セット710を構成し、顔画像D、顔画像E及び顔画像Fは、第2の顔画像セット720を構成する。顔画像Aを対象顔画像とする場合を例として、顔画像Aと顔画像B、顔画像C、顔画像D、顔画像E及び顔画像Fとの間の類似度をそれぞれ算出し、その後、各顔画像が対応する人物アイデンティティに基づいて、算出された類似度を統計し、類似度分布を取得する。図7に示すように、類似度分布730は、顔画像Aとアイデンティティ情報が同じである顔画像の類似度統計値を表し、類似度分布740は、顔画像Aとはアイデンティティ情報が異なる顔画像の類似度統計値を表す。類似度分布730と類似度分布740における対応する2点間の類似度分布距離をそれぞれ取得し、本願の実施例では、類似度分布730と類似度分布740における最高点間の距離750を類似度分布距離として取得する。
なお、上述した第2の人物アイデンティティを持つ顔画像とは、顔画像Aとは異なる人物アイデンティティを持つ顔画像を指し、すなわち、第2の人物アイデンティティは少なくとも1人の人物に対応することができ、上述した実施例は、第2の人物アイデンティティが1人の人物に対応することを例に示しただけであり、本願の第2の人物アイデンティティが対応する人物の数について制限はない。
一実施例では、類似度分布距離は、最大平均不一致距離(Maximum Mean Discrepancy、MMD)、最短ユークリッド距離(Minimum Euclidean Distance、MED)、平均距離(Mean Average Distance、MAD)、メジアン距離(Medium Distance、MID)、ワッサースタイン距離(Wasserstein Distance、WD)のうちの少なくとも1つを含む。
本願の実施例では、Wasserstein distanceが採用される。本願では、異なる分布距離の顔認識への利便性を算出する。図8は、本願の1つの例示的な実施例に示す異なる分布距離のEVRC曲線(The Error Versus Reject Curve:エラー対拒否曲線)の概略図を示しており、EVRC曲線は、非同一人物が誤って通過する割合(False Match Rate、FMR)、すなわち誤合致率を固定することで、異なるパーセントの低品質のサンプルを捨てた場合の同一人物が通過しない割合(False No-Match Rate、FNMR)、すなわち誤非合致率を算出したものであり、EVRC曲線の下降が急峻であるほど、この分布距離の顔認識への利便性が良くなる。
図8に示すように、テストセットResNet101-MS1M(ResNet101 trained on MS1M)、FMR=1e-2では、曲線810は、MMDに対応するEVRC曲線を表し、曲線820は、MEDに対応するEVRC曲線を表し、曲線830は、MADに対応するEVRC曲線を表し、曲線840は、MIDに対応するEVRC曲線を表し、曲線850は、WDに対応するEVRC曲線を表す。図8から分かるように、WDに対応するEVRC曲線の下降率が高いほど、下降が最も急峻であることから、WDは、他の分布距離に比べて、非同一人物が誤って通過する割合が同じであり、かつ異なるパーセントの低品質のサンプルを捨てた場合、同一人物が通過しない割合が低いため、WDの顔認識への利便性が良いことが示唆され、本願では、WDを用いて同一人物類似度分布と非同一人物類似度分布との間の分布距離を算出することで、より優れた算出効果を得ることができる。
WDを用いて同一人物類似度分布と非同一人物類似度分布との間の分布距離を算出することは、以下のように実現される。
ここで、

は、それぞれサンプルxの同一人物類似度セットと非同一人物類似度セットを表し、

は、

の結合確率密度であり、

は、分布距離の算出を表し、

は、分布距離を算出する展開式であり、

は、平均値を求める関数であり、infは、2つの分布におけるすべての要素をトラバースすることである。
ステップ630では、各顔画像をサンプル画像とし、各顔画像の類似度分布距離をサンプル画像の類似度分布距離とする。
つまり、各顔画像をサンプル画像とし、各顔画像の類似度分布距離をサンプル画像の類似度分布距離ラベルとする。
ステップ640では、サンプル画像と、サンプル画像の類似度分布距離ラベルとに基づいて、品質評価モデルを訓練する。
上記ステップは、サンプル画像を品質評価モデルに入力し、品質評価モデルから出力される予測分布距離を得て、
サンプル画像の類似度分布距離及び予測分布距離を損失関数に入力し、損失関数値を得て、
損失関数値に基づいて、品質評価モデルのパラメータ更新を行う、ように実現される。
サンプル画像に基づく品質評価モデルの出力結果(すなわち、予測分布距離)がサンプル画像の類似度分布距離ラベルに類似する場合にのみ、品質評価モデルの適用時に対象顔画像に対する品質評価の精度を保証することができるため、品質評価モデルの訓練中に何回も訓練を行い、品質評価モデルが収束するまで品質評価モデルにおける各パラメータを更新する必要がある。
一実施例では、損失関数は、
平均二乗誤差損失関数(Mean Squared Error、MSE)、平均絶対誤差損失関数(Mean Absolute Error、MAE)、及び回帰損失関数のうちの少なくとも1つを含む。
この回帰損失関数は、Huber Loss(フーバー損失関数)であってもよく、この関数は次のように表される。
ここで、

は、入力画像、すなわちサンプル画像を表し、

は、生成された仮ラベルを表し、

は、品質モデルが入力画像に基づいて予測した類似度分布距離を表し、

は、実験で1に設定された位置パラメータである。
ステップ650では、対象顔画像を取得する。
一実施例では、サーバが取得した対象顔画像は、端末のカメラに基づいてリアルタイムに収集した顔画像であるため、人物が所在している環境、端末のカメラの揺れ、端末のカメラの画素の影響などにより、この顔画像の画質が異なる場合があり、画質は、顔画像の鮮明度、顔画像における顔領域の割合、顔画像が遮蔽されている割合などで表現することができる。
ステップ660では、対象顔画像を訓練済みの品質評価モデルに入力し、訓練済みの品質評価モデルから出力される対象顔画像の類似度分布距離を得る。
訓練済みの品質評価モデルは、サンプル画像と、サンプル画像の類似度分布距離とにより訓練されたものである。
一実施例では、上記訓練済みの品質評価モデルは、サンプル画像の類似分布距離に基づいて予め訓練されておいた品質評価モデルである。品質評価モデルの使用中に、対象顔画像を訓練済みの品質評価モデルに入力するだけで、訓練済みの品質評価モデルの対応する出力結果、すなわち対象顔画像の類似度分布距離を得ることができる。
一実施例では、この訓練済みの品質評価モデルは、端末に展開されてもよく、又は、この訓練済みの品質評価モデルは、サーバに展開されてもよい。
1つの可能な実施形態では、サンプル画像及びサンプル画像の類似度分布距離は、対象顔画像を品質評価モデルに入力し、品質評価モデルから出力される対象顔画像の類似度分布を得る前に取得される。サンプル画像及びサンプル画像の類似度分布を取得する過程は、以下のように実現される。
ステップ670では、対象顔画像の類似度分布距離に基づいて、対象顔画像の画質を決定する。
一実施例では、顔画像の画質の違いに基づいて、同一人物類似度及び非同一人物類似度は、1)同一人物類似度が高く、非同一人物類似度が高く、2)同一人物類似度が低く、非同一人物類似度が低い、3)同一人物類似度が高く、非同一人物類似度が低い、4)同一人物類似度が低く、非同一人物類似度が高い、という4つの状況があり得る。一般的には、顔画像の画質が高いほど、その顔画像から算出される同一人物類似度は高く、非同一人物類似度は低くなる。図9は、本願の1つの例示的な実施例に示す異なる画質の顔画像が対応する同一人物類似度及び非同一人物類似度の概略図を示しており、図9中の(a)部分は状況1)に対応し、図9中の(b)部分は状況2)に対応し、図9中の(c)部分は状況3)に対応し、図9中の(d)部分は状況4)に対応している。図9に示すように、上記4つの状況では、状況3)に対応する画質が最も高いため、同一人物類似度分布と非同一人物類似度分布との間の分布間隔が最も大きくなり、一方、状況2)に対応する画質が最も低いため、同一人物類似度分布と非同一人物類似度分布との間の分布間隔が最も小さくなり、状況1)と状況4)の画質は状況2)と状況3)との間にある。このため、同一人物類似度分布と非同一人物類似度分布との分布間隔から、顔画像の画質を決定することができる。
一実施例では、顔画像の画質を決定するために、コンピュータ機器には画質閾値が予め設定されている。対象顔画像の画質が予め設定された画質閾値よりも大きい場合、対象顔画像を顔認識モデルに入力し、対象顔画像の人物アイデンティティを得る。
一実施例では、対象顔画像の画質が予め設定された画質閾値よりも小さい場合、端末の表示インターフェースに基づいて提示情報をユーザにフィードバックし、この提示情報は、ユーザに位置調整を行うよう促す、又は位置調整をどのように行うかを提示する、又は顔認識の失敗を知らせるなどの情報を含むことができる。
以上をまとめると、本願の実施例による顔画像品質評価方法では、サンプル画像の同一人物類似度分布及び非同一人物類似度分布に基づいて算出されたサンプル画像の類似度分布距離に基づいて、訓練対象となる品質評価モデルを訓練し、訓練済みの品質評価モデルを用いて対象顔画像の画質を決定することにより、画質の自動取得を実現するとともに、同一人物類似度と非同一人物類似度の両面から画質を総合的に決定することにより、画質の取得精度を向上させる。
同時に、品質評価モデルの訓練を行う過程において、画像サンプルの類似度分布距離を自動的に取得することを実現するため、画質ラベリングのコストを低減し、画質ラベリングの精度を向上させる。
概略的には、WDを用いて同一人物類似度分布と非同一人物類似度分布との間の分布距離を算出する公式の導出過程について紹介する。

は、それぞれ、正ペアと負ペアがそれぞれ対応する類似度セットであり、

は、類似度が閾値εよりも小さい

のサブセットを表し、

は、類似度がεよりも大きい

のサブセットを表すと仮定する。上記の場合、FMRとFNMRはそれぞれ、以下のように定義されることができる。
ここで、

は、設定された基数を表し、仮に、

は、χのサブセットのうちの、σ(%)の最低品質の顔画像が含まれないものであるとし、σは、未考慮画像の比率(Ratio of Unconsidered Images、UIR)を表す。EVRCは、固定した

で、UIR(σ)と

との間の関係を測定する。上記過程において、固定したFMRを得るために、閾値

は、

の変化に伴って変化する必要がある。EVRCの指標から分かるように、標準的な品質ラベルを持つサンプル画像セットを用いてテストを行うと、認識システムのEVRCが急速に下降し、言い換えれば、サンプルxをサンプル画像セットから削除すると、FNMRが急峻に下降すれば、サンプルxの品質が低くなることが示唆される。このため、固定したFMRについて、サンプルxがある場合とサンプルxがない場合のFNMRの差を取得し、FNMRの差をサンプルxの品質スコア(

で表す)とすることができる。
ここで、

は、xを含まないχのサブセットであり、

はそれぞれ、

の閾値を表す。
客観的には、xの標準的な品質ラベルは、FMRとは関係なく、その真の品質スコアを表すべきであるが、しかし、式(3)から分かるように、FMRを固定する前提において、1つの経験的な品質スコアしか得られない。実際には、式(1)から分かるように、

が与えられた場合、閾値によっては異なるFMRが生成される。さらに、式(2)から分かるように、FNMRは、与えられた

の閾値によって決定されるため、閾値εを変更すると、大量のサンプル画像の経験的な品質スコアが生成される。このことから、以下の結論が得られる。
1)FMRが0から1になると、閾値εは1から-1になる。
2)すべてのサンプル

について、ε0

と等しくないが、しかし、極めて高い確率で等しいか、又は上記の場合にはほぼ等しい。
3)EVRCの指標のうち、FMRが固定されると、閾値εが固定され、閾値εからFNRMを決定することができる。
以上の結論から、1)

、2)すべての固定したFMR

について

となる、と仮定することができるため、式(3)は以下のように簡略化されることができる。
理論的には、

に対するFMRの期待値をサンプルxの標準的な品質スコアとして取得することができ、そして、以下のことが得られる。
式(2)から式(5)に基づいて、以下のことが得られる。

と定義すると、与えられたデータセットχについて、

はいずれもサンプルxとは無関係であるため、式(6)は以下のように簡略化されることができる。
ここで、

は、

から

へのマッピング関数であり、図9は、式(7)の内容を正確に反映することができ、高品質の顔画像は、図9中の(c)部分のように、正ペアの類似度分布(同一人物類似度分布)と負ペアの類似度分布(非同一人物類似度分布)との間の分布間隔が大きい。逆に、低品質の顔画像は、図9中の(b)部分のように、正ペアの類似度分布(同一人物類似度分布)と負ペアの類似度分布(非同一人物類似度分布)との間の分布間隔が小さく、また、品質の良い顔画像は、図9中の(a)部分と(c)部分のように、正ペアの類似度分布(同一人物類似度分布)と負ペアの類似度分布(非同一人物類似度分布)とが重ならない。
以上の分析に基づいて、SDD(Similarity Distribution Distance:類似度分布距離)を真の品質スコアとしてモデル化することができ、次のように表される。
国際バイオメトリクス品質規格ISO/IEC 29794-1:2016(ISO/IEC 2016)によれば、顔の品質スコアは[0,100]の範囲内にあるべきである。100と0は、それぞれ最高と最低の品質スコアを表すため、サンプルxの品質スコアは次のようになる。
ここで、

である。
一実施例では、サイズnの顔画像セットについて、類似性のペアが全体のデータセットに含まれる場合、各サンプルの正ペア数と負ペア数はnであり、この場合、SDDの時間複雑度は、

である。顔画像セットが大きすぎると、非常に高い計算量をもたらすことになるので、計算の複雑さを低減するために、m個のペアをランダムに選択することができ、ここで、mは偶数に設定され、かつ

であり、これにより、m/2個の正ペアとm/2個の負ペアが得られ、次に、

に基づく計算をK回行って、式(9)を次のように変換する。
ここで、

はそれぞれ、m個のペアのうちの正ペア及び負ペアをサンプリングして得られた類似度である。式(9)における時間複雑度を

と記し、各画像サンプルについて、m及びKを定数とすると、式(10)の計算複雑度は

となる。そこで、品質評価モデルに基づいて、類似度分布距離が

になる場合の時間複雑度を生成する。



の無雑音推定であり、かつ各サンプルに雑音変数kが導入されていると仮定すると、式(10)は次のように書き換えることができる。
ここで、εは、



との差であると読み替えてもよい。式(10)で使用するm個のペアは、すべてのn個のペアからランダムに独立してサンプリングすることにより取得されたものであり、確率論(Papoulis and Pillai 2002)により、

が得られるので、式(10)は式(9)の不偏推定である。
本願に示す顔画像品質評価方法は、品質仮ラベル生成と品質訓練との2つの部分を含むため、この顔画像品質評価方法は、SDD-FIQA(Similarity Distribution Distance-Face Image Quality Assessment:類似度分布距離-顔画像品質評価)方法と呼ぶことができる。図10は、本願の1つの例示的な実施例に示すSDD-FIQA方法のブロック図を示しており、図10に示すように、品質評価モデルの訓練中に、まず、異なる人物アイデンティティに対応する顔画像1010を顔認識モデル1020に入力し、各人物アイデンティティに少なくとも2つの顔画像が対応している。顔認識モデル1020は、その特徴抽出部により各顔画像の画像特徴抽出を行い、各顔画像の画像特徴を得る。顔認識モデル1020は、抽出された各顔の画像特徴を仮ラベル生成モジュール1030にインポートする。仮ラベル生成モジュール1030は、各顔画像の画像特徴に基づいて、各顔画像同士の間の類似度を算出し、各顔画像が対応するアイデンティティ情報に基づいて、各顔画像が対応する同一人物類似度分布と非同一人物類似度分布とを得て、各顔画像が対応する同一人物類似度分布と非同一人物類似度分布との間のWasserstein距離を、各顔画像1010がそれぞれ対応する仮ラベル(すなわち、類似度距離)として取得する。同時に、異なる人物アイデンティティに対応する顔画像1010を、回帰ネットワークモデルとして実現可能な品質評価モデル1040に入力し、異なる人物アイデンティティの顔画像1010に基づく品質評価モデル1040の類似度距離予測結果を得る。各顔画像1010の類似度距離予測結果と各顔画像1010がそれぞれ対応する仮ラベルに基づいてHuber Loss(フーバー損失関数)に入力し、損失関数値を算出し、この損失関数値に基づいて品質評価モデルのパラメータ更新を行う。
図10は、さらに、適用中のこの品質評価モデルのブロック図を示しており、図10に示すように、品質評価モデルの適用中に、品質評価を必要とする対象顔画像を品質評価モデル1040に入力するだけで、対応する品質評価結果を得ることができ、この品質評価結果は、対象顔画像が対応する同一人物類似度分布と非同一人物類似度分布との間の距離である、対象顔画像のスコアとして表される。
一実施例では、本願による、SDD-FIQA方法に基づく訓練により得られた訓練済みの品質評価モデルの精度を検証するために、本願による、SDD-FIQA方法に基づく訓練により得られた訓練済みの品質評価モデルと、従来技術における方法に基づく訓練により得られた品質評価モデルとを比較した。図11は、本願の1つの例示的な実施例による、異なる訓練方法に基づく訓練により得られた品質評価モデルのEVRC曲線の概略図を示しており、図11に示すように、LFW(Labeled Faces in the Wild:顔照合データセット)とAdience(顔データセット)の両面から比較した。図11から分かるように、SDD-FIQA方法に基づく訓練により得られた訓練済みの品質評価モデルは、異なるFMR及び異なるテストセットでは、表現がいずれも従来技術における他の方法よりも優れている。
上記EVRCグラフでは、2つの曲線が非常に近い場合、どっちがより良いかを決定しにくいため、SDD-FIQA方法に基づく訓練により得られた品質評価モデルと従来技術における方法に基づく訓練により得られた品質評価モデルとの比較結果を定量化するために、本願では、面積計算係数(ACC)を導入してEVRC結果を定量化する。概略的には、ACCの計算式は次の通りである。
ここで、f(σ)は、σにおけるFNMRを表し、a及びbはそれぞれ、UIRの上限及び下限を表し、本願の実施例では、UIRの上限及び下限をそれぞれ0及び0.95とする。
上記の式に基づいて、図11に示す曲線を座標軸との積分値に変換すると、表1、表2及び表3の形式が得られる。表1、表2及び表3に示すように、数値に基づく比較は、本願による、SDD-FIQA方法に基づく訓練により得られた品質評価モデルの、従来技術における他の訓練方法に基づく訓練により得られた品質評価モデルと比べた場合の精度をより直接的に体現することができる。
表1は、図11中の図(a)及び図(d)に対応し、異なる訓練方法に基づく訓練により得られた品質評価モデルをテストセットResNet50-MS1M(ResNet50 trained on MS1M)で評価した結果を示している。表2は、図11中の図(b)及び図(e)に対応し、異なる訓練方法に基づく訓練により得られた品質評価モデルをテストセットResNet101-MS1M(ResNet101 trained on MS1M)で評価した結果を示している。表3は、図11中の図(c)及び図(f)に対応し、異なる訓練方法に基づく訓練により得られた品質評価モデルをテストセットResNet101-CASIA(ResNet101 trained on CASIA)で評価した結果を示している。


これに加えて、本願による、SDD-FIQA方法に基づく訓練により得られた品質評価モデルの精度を検証するために、本願による、SDD-FIQA方法に基づく訓練により得られた品質評価モデルと、片側分布のみを考慮した訓練により得られた品質評価モデルとを比較した。片側分布のみを考慮した場合は、同一人物分布のみを考慮した場合と非同一人物分布のみを考慮した場合との2種類がある。図12は、本願の1つの例示的な実施例による、異なる分布状況に基づく訓練により得られた品質評価モデルのEVRC曲線の概略図を示しており、図12に示すように、テストセットResNet50-MS1M、FMR=1e-2では、曲線1210は、非同一人物分布のみを考慮した場合に得られた品質評価モデルのEVRC曲線に対応し、曲線1220は、同一人物分布のみを考慮した場合に得られた品質評価モデルのEVRC曲線に対応し、曲線1230は、本願における同一人物分布と非同一人物分布との両方を考慮した場合に得られた品質評価モデルのEVRC曲線に対応する。3つの曲線を比較すると、片側分布のみを考慮した場合に訓練により得られた品質評価モデルの効果は、同一人物分布と非同一人物分布との両方を考慮した場合に得られた品質評価モデルの効果よりも遥かに悪いことが分かる。これにより、本願による方法の合理性が証明された。
さらに、本願による、SDD-FIQA方法に基づく訓練により得られた品質評価モデルの、異なる属性を有する人物画像上での精度をさらに検証するために、本願による、SDD-FIQA方法に基づく訓練により得られた品質評価モデルと、SER-FIQ(Face Image Quality-Stochastic Embedding Robustness:顔画像品質評価)方法に基づく訓練により得られた品質評価モデルとを異なる応用シーンに適用し、両者の品質評価結果を比較した。図13は、本願の1つの例示的な実施例による、異なる応用シーンにおける異なる方法に基づく訓練により得られた品質評価モデルの品質評価結果の曲線の概略図を示している。図13に示すように、それぞれ年齢、性別及び肌の色の3つの属性のシーンで両者の品質評価結果を比較した。図13中の図(a)、図(b)及び図(c)は、SER-FIQ方法に基づく訓練により得られた品質評価モデルの、年齢、性別及び肌の色の3つの属性のシーンでの品質評価結果に対応し、図13中の図(d)、図(e)及び図(f)は、SDD-FIQA方法に基づく訓練により得られた品質評価モデルの、年齢、性別及び肌の色の3つの属性のシーンでの品質評価結果に対応する。図13に示すように、SER-FIQ方法に基づく訓練により得られた品質評価モデルに比べて、本願による、SDD-FIQA方法に基づく訓練により得られた品質評価モデルは、異なる属性での品質評価スコアの分布がより一致しており、これにより、本願による、SDD-FIQA方法に基づく訓練により得られた品質評価モデルの不偏性が証明された。
以上をまとめると、本願の実施例による顔画像品質評価方法では、サンプル画像の同一人物類似度分布及び非同一人物類似度分布に基づいて算出されたサンプル画像の類似度分布距離に基づいて、訓練対象となる品質評価モデルを訓練し、訓練済みの品質評価モデルを用いて対象顔画像の画質を決定することにより、画質の自動取得を実現するとともに、同一人物類似度と非同一人物類似度の両面から画質を総合的に決定することにより、画質の取得精度を向上させる。
同時に、品質評価モデルの訓練を行う過程において、画像サンプルの類似度分布距離を自動的に取得することを実現するため、画質ラベリングのコストを低減し、画質ラベリングの精度を向上させる。
上述した各実施例のフローチャートにおける各ステップは順番に示されているが、しかし、これらのステップは必ずしも順番に実行されるとは限らないことが理解されるであろう。本明細書で特に明記しない限り、これらのステップの実行には厳密な順序制限はなく、これらのステップは他の順序で実行されてもよい。そして、上述した各実施例におけるステップの少なくとも一部は、複数のサブステップ又は複数の段階を含むことができ、これらのサブステップ又は段階は、必ずしも同一時間に実行される必要はなく、異なる時間に実行されてもよく、これらのサブステップ又は段階の実行順序は、必ずしも順次実行される必要はなく、他のステップ或いは他のステップのサブステップ又は段階の少なくとも一部と交互に又は択一的に実行されてもよい。
図14は、本願の1つの例示的な実施例による顔画像品質評価装置のブロック図を示しており、この装置は、端末又はサーバとして実現し得るコンピュータ機器に適用され、この端末又はサーバは、図1に示すような端末又はサーバであってもよい。図14に示すように、この顔画像品質評価装置は、第1の顔画像取得モジュール1410と、第1の類似度分布距離取得モジュール1420と、画質取得モジュール1430と、を備える。
第1の顔画像取得モジュール1410は、対象顔画像を取得する。
第1の類似度分布距離取得モジュール1420は、対象顔画像の類似度分布距離を決定する。類似度分布距離は、対象顔画像が対応する同一人物類似度分布と対象顔画像が対応する非同一人物類似度分布との間の分布距離を含む。同一人物類似度分布は、対象顔画像と、対象顔画像と同じ人物アイデンティティを持つ顔画像である第1のタイプの画像との間の類似度分布を示し、非同一人物類似度分布は、対象顔画像と、対象顔画像とは異なる人物アイデンティティを持つ顔画像である第2のタイプの画像との間の類似度分布を示す。
画質取得モジュール1430は、対象顔画像の類似度分布距離に基づいて、対象顔画像の画質を決定する。
一実施例では、第1の類似度分布距離取得モジュール1420は、対象顔画像を訓練済みの品質評価モデルに入力し、訓練済みの品質評価モデルから出力される対象顔画像の類似度分布距離を得る。訓練済みの品質評価モデルは、サンプル画像と、サンプル画像の類似度分布距離により訓練されたものである。
一実施例では、顔画像取得モジュール1410は、さらに、各顔画像を取得し、各顔画像は、少なくとも2つの人物アイデンティティがそれぞれ対応する顔画像セットを含み、顔画像セットには少なくとも2つの顔画像が含まれる。また、各顔画像と、各顔画像の人物アイデンティティとに基づいて、各顔画像の類似度分布距離をそれぞれ決定し、各顔画像をサンプル画像とし、各顔画像の類似度分布距離をサンプル画像の類似度分布距離とする。
一実施例では、顔画像取得モジュール1410は、さらに、各顔画像の特徴抽出を行い、各顔画像の画像特徴を得て、各顔画像の画像特徴に基づいて、各顔画像同士の間の類似度を決定する。類似度分布距離取得サブモジュールは、前記各顔画像同士の間の類似度と、前記各顔画像の人物アイデンティティとに基づいて、前記各顔画像の類似度分布距離を取得する。
一実施例では、第1の顔画像取得モジュール1410は、さらに、第1の顔画像と他の画像のうちの同じ人物アイデンティティの顔画像との間の第1の類似度セットを取得し、第1の顔画像は、各顔画像のうちのいずれか1つであり、他の画像は、各顔画像のうちの、第1の顔画像以外の顔画像であり、同じ人物アイデンティティの顔画像は、他の画像のうちの、前記第1の顔画像と同じ人物アイデンティティを持つ顔画像である。また、第1の顔画像と他の画像のうちの異なる人物アイデンティティの顔画像との間の第2の類似度セットを取得し、異なる人物アイデンティティの顔画像は、他の画像のうちの、前記第1の顔画像とは異なる人物アイデンティティを持つ顔画像である。さらに、第1の類似度セット及び第2の類似度セットに基づいて、第1の顔画像の類似度分布距離を決定する。
一実施例では、第1の顔画像取得モジュール1410は、さらに、顔認識モデルにおける特徴抽出部により各顔画像を処理し、各顔画像の画像特徴を得る。
一実施例では、第1の顔画像取得モジュール1410は、さらに、前記対象顔画像の画質が予め設定された画質閾値よりも大きい場合、前記対象顔画像を顔認識モデルに入力し、対象顔画像の人物アイデンティティを得る。
一実施例では、第1の顔画像取得モジュール1410は、さらに、サンプル画像を訓練対象となる品質評価モデルに入力し、訓練対象となる品質評価モデルから出力されるサンプル画像の予測分布距離を得て、サンプル画像の類似度分布距離及び予測分布距離を損失関数に入力し、損失関数値を得て、損失関数値に基づいて、訓練対象となる品質評価モデルのパラメータ更新を行い、訓練済みの品質評価モデルを得る。
一実施例では、損失関数は、平均二乗誤差損失関数、平均絶対誤差損失関数、及び回帰損失関数のうちの少なくとも1つを含む。
一実施例では、類似度分布距離は、最大平均不一致距離、最短ユークリッド距離、平均距離、メジアン距離、ワッサースタイン距離のうちの少なくとも1つを含む。
以上をまとめると、本願の実施例による顔画像品質評価装置は、コンピュータ機器に適用され、対象顔画像の同一人物類似度分布と非同一人物類似度分布との間の分布距離に基づいて、対象顔画像の画質を決定することができ、これにより、画質の自動取得を実現するとともに、同一人物類似度と非同一人物類似度の両面から画質を総合的に決定することにより、画質の取得精度を向上させる。
図15は、本願の1つの例示的な実施例による顔画像品質評価装置のブロック図を示しており、この装置は、端末又はサーバとして実現し得るコンピュータ機器に適用され、この端末又はサーバは、図1に示すような端末又はサーバであってもよい。図15に示すように、この顔画像品質評価装置は、第2の顔画像取得モジュール1510と、第2の類似度分布距離取得モジュール1520と、訓練モジュール1530と、を備える。
第2の顔画像取得モジュール1510は、サンプル画像を取得する。サンプル画像は、少なくとも2つの人物アイデンティティがそれぞれ対応する顔画像セットを含み、顔画像セットには少なくとも2つの顔画像が含まれる。
第2の類似度分布距離取得モジュール1520は、各サンプル画像と、サンプル画像の人物アイデンティティとに基づいて、サンプル画像の類似度分布距離を決定する。サンプル画像の類似度分布距離は、サンプル画像が対応する同一人物類似度分布とサンプル画像が対応する非同一人物類似度分布との間の分布距離を含む。サンプル画像が対応する同一人物類似度分布は、サンプル画像と、サンプル画像と同じ人物アイデンティティを持つ顔画像である第1のタイプの画像との間の類似度分布を示し、サンプル画像が対応する非同一人物類似度分布は、サンプル画像と、サンプル画像とは異なる人物アイデンティティを持つ顔画像である第2のタイプの画像との間の類似度分布を示す。
訓練モジュール1530は、前記サンプル画像と、前記サンプル画像の類似度分布距離とにより、訓練対象となる品質評価モデルを訓練し、訓練済みの品質評価モデルを得る。訓練済みの品質評価モデルは、入力された対象顔画像を処理し、対象顔画像の品質評価に用いる対象顔画像の類似度分布距離を出力するために用いられる。
以上をまとめると、本願の実施例による顔画像品質評価方法では、サンプル画像と、サンプル画像の同一人物類似度分布及び非同一人物類似度分布に基づいて算出されたサンプル画像の類似度分布距離とに基づいて、品質評価モデルを訓練し、訓練済みの品質評価モデルを用いて対象顔画像の画質を決定することにより、画質の自動取得を実現するとともに、同一人物類似度と非同一人物類似度の両面から画質を総合的に決定することにより、画質の取得精度を向上させる。
同時に、品質評価モデルの訓練を行う過程において、画像サンプルの類似度分布距離を自動的に取得することを実現するため、画質ラベリングのコストを低減し、画質ラベリングの精度を向上させる。
図16は、本願の1つの例示的な実施例によるコンピュータ機器1600の構成ブロック図を示している。このコンピュータ機器1600は、上述した顔品質評価デバイス及び/又は品質評価モデル訓練デバイス、例えば、スマートフォン、タブレット型コンピュータ、ノート型コンピュータ、又はデスクトップ型コンピュータとして実現することができる。コンピュータ機器1600は、ユーザ機器、携帯型端末、ラップトップ型端末、デスクトップ型端末などと呼ばれることもある。
通常、コンピュータ機器1600は、プロセッサ1601及びメモリ1602を備える。
プロセッサ1601は、例えば、4コアプロセッサ、16コアプロセッサなど、1つ又は複数の処理コアを含んでもよい。プロセッサ1601は、DSP(Digital Signal Processing:デジタル信号処理)、FPGA(Field-Programmable Gate Array:フィールドプログラマブルゲートアレイ)、PLA(Programmable Logic Array:プログラマブルロジックアレイ)のうちの少なくとも1つのハードウェアの形で実現されてもよい。プロセッサ1601は、ホストプロセッサとコプロセッサとを含んでもよく、ホストプロセッサは、ウェイクアップ状態下でのデータを処理するためのプロセッサであり、CPU(Central Processing Unit:中央処理装置)とも呼ばれる。コプロセッサは、待機状態下でのデータを処理するための低消費電力プロセッサである。いくつかの実施例では、プロセッサ1601には、表示パネルで表示される必要のある内容のレンダリング及び描画を担うGPU(Graphics Processing Unit:グラフィックスプロセッシングユニット)が集積されている。いくつかの実施例では、プロセッサ1601は、機械学習に関連する計算操作を処理するためのAI(Artificial Intelligence:人工知能)プロセッサをさらに含んでもよい。
メモリ1602は、非一時的であり得る1つ又は複数のコンピュータ読み取り可能な記憶媒体を含むことができる。メモリ1602は、高速ランダムアクセスメモリ及び不揮発性メモリ、例えば、1つ又は複数の磁気ディスク記憶装置、フラッシュメモリ装置をさらに含んでもよい。いくつかの実施例では、メモリ1602における非一時的なコンピュータ読み取り可能な記憶媒体は、プロセッサ1601によって実行されることで本願における方法実施例による顔画像品質評価方法を実現する少なくとも1つの命令を記憶する。
いくつかの実施例では、コンピュータ機器1600は、周辺機器インターフェース1603及び少なくとも1つの周辺機器をさらに含んでもよい。プロセッサ1601、メモリ1602及び周辺機器インターフェース1603は、バス又は信号線を介して接続してもよい。各周辺機器は、バス、信号線又は回路基板を介して周辺機器インターフェース1603と接続してもよい。具体的には、周辺機器は、無線周波数回路1604、表示パネル1605、カメラコンポーネント1606、オーディオ回路1607、測位アセンブリ1608及び電源1609のうちの少なくとも1種を含む。
周辺機器インターフェース1603は、I/O(Input/Output:入力/出力)に関連する少なくとも1つの周辺機器をプロセッサ1601及びメモリ1602に接続するために使用されてもよい。いくつかの実施例では、プロセッサ1601、メモリ1602、及び周辺機器インターフェース1603は、同一のチップ又は回路基板に集積されている。いくつかの他の実施例では、プロセッサ1601、メモリ1602、及び周辺機器インターフェース1603のうちの任意の1つ又は2つは、単独したチップ又は回路基板で実現されてもよく、本実施例ではこれについて限定しない。
いくつかの実施例では、コンピュータ機器1600は、1つ又は複数のセンサ1610をさらに含む。該1つ又は複数のセンサ1610は、加速度センサ1611、ジャイロセンサ1612、圧力センサ1613、指紋センサ1614、光学センサ1615及び近接センサ1616を含むが、これらに限定されるものではない。
当業者であれば、図16に示す構造は、コンピュータ機器1600を限定するものではなく、示されるものよりも多い又は少ないアセンブリを含むか、或いは、一部のアセンブリを組み合わせるか、或いは、異なるアセンブリを用いて構成することができることを理解するであろう。
図17は、本願の1つの例示的な実施例に示すコンピュータ機器1700の構成ブロック図を示している。このコンピュータ機器は、本願の上述した構成における顔品質評価デバイス及び/又は品質評価モデル訓練デバイスとして実現することができる。前記コンピュータ機器1700は、中央処理装置(Central Processing Unit、CPU)1701と、ランダムアクセスメモリ(Random Access Memory、RAM)1702及びリードオンリーメモリ(Read-Only Memory、ROM)1703を含むシステムメモリ1704と、システムメモリ1704と中央処理装置1701とを接続するシステムバス1705と、を備える。前記コンピュータ機器1700は、コンピュータ内の各素子間での情報伝送を支援する基本入力/出力システム(Input/Outputシステム、I/Oシステム)1706と、オペレーティングシステム1713、アプリケーションプログラム1714及び他のプログラムモジュール1715を記憶するための大容量記憶デバイス1707とをさらに備える。
前記基本入力/出力システム1706は、情報を表示するためのディスプレイ1708と、ユーザが情報を入力するための、マウス、キーボードのような入力デバイス1709とを備える。前記ディスプレイ1708及び入力デバイス1709は、いずれも、システムバス1705に接続される入力/出力コントローラ1710を介して中央処理装置1701に接続される。前記基本入力/出力システム1706は、キーボード、マウス、又は電子スタイラス等、複数の他のデバイスからの入力を受信し処理するための入力/出力コントローラ1710をさらに備えてもよい。これに類似して、入力/出力コントローラ1710は、表示パネル、プリンタ又は他のタイプの出力デバイスへの出力をさらに提供する。
前記大容量記憶デバイス1707は、システムバス1705に接続される大容量記憶コントローラ(図示せず)を介して中央処理装置1701に接続される。前記大容量記憶デバイス1707及びその関連するコンピュータ読み取り可能な媒体は、コンピュータ機器1700に不揮発性記憶を提供する。つまり、前記大容量記憶デバイス1707は、ハードディスク又はコンパクトディスクリードオンリーメモリ(Compact Disc Read-Only Memory、CD-ROM)ドライバのようなコンピュータ読み取り可能な媒体(図示せず)を備えてもよい。
一般性を失うことなく、前記コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体及び通信媒体を備えることができる。コンピュータ記憶媒体は、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール又は他のデータのような情報を記憶する如何なる方法又は技術で実現される揮発性及び不揮発性、リムーバブル及びノンリムーバブルメディアを含む。コンピュータ記憶媒体は、RAM、ROM、消去可能プログラマブルリードオンリーメモリ(Erasable Programmable Read Only Memory、EPROM)EPROM、電気的消去可能プログラマブルリードオンリーメモリ(Electrically-Erasable Programmable Read-Only Memory、EEPROM)、フラッシュメモリ又は他のソリッドステート記憶技術、CD-ROM、デジタル多目的ディスク(Digital Versatile Disc、DVD)又は他の光学記憶、テープカセット、テープ、磁気ディスク記憶又は他の磁気記憶装置を含む。もちろん、前記コンピュータ記憶媒体は上述したいくつかに限られないと当業者が分かっている。上述したシステムメモリ1704及び大容量記憶デバイス1707はメモリと総称されることができる。
本公開の様々な実施例によれば、前記コンピュータ機器1700は、インターネットのようなネットワークを介してネットワーク上のリモートコンピュータに接続されて実行されてもよい。つまり、コンピュータ機器1700は、前記システムバス1705に接続されるネットワークインターフェースユニット1711を介してネットワーク1712に接続されるか、或いは、ネットワークインターフェースユニット1711を用いて他のタイプのネットワーク又はリモートコンピュータシステム(図示せず)に接続されてもよい。
前記メモリは、少なくとも1つの命令、プログラムの少なくとも1つのセグメント、コードセット又は命令セットをさらに含み、前記少なくとも1つの命令、プログラムの少なくとも1つのセグメント、コードセット又は命令セットが、メモリに記憶されており、中央処理装置1701は、該少なくとも1つの命令、プログラムの少なくとも1つのセグメント、コードセット又は命令セットを実行することで、上述した各実施例に示す顔画像品質評価方法におけるステップの全部又は一部を実現する。
1つの例示的な実施例では、少なくとも1つのコンピュータ読み取り可能な命令が記憶された1つ又は複数のコンピュータ読み取り可能な記憶媒体がさらに提供され、前記コンピュータ読み取り可能な命令は、図2、図5又は図6のいずれか1つの実施例に示す方法のステップの全部又は一部を実現するようにプロセッサによってロードされ実行される。例えば、非一時的なコンピュータ読み取り可能な記憶媒体は、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク、及び光データ記憶デバイスなどであってもよい。
1つの例示的な実施例では、コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータ読み取り可能な命令を含むコンピュータプログラム製品又はコンピュータプログラムがさらに提供される。コンピュータ機器のプロセッサは、コンピュータ読み取り可能な記憶媒体からこのコンピュータ読み取り可能な命令を読み取り、プロセッサは、このコンピュータ機器が上述した図2、図5又は図6のいずれか1つの実施例に示す方法のステップの全部又は一部を実行するように、このコンピュータ読み取り可能な命令を実行する。
当業者は、明細書を検討し、ここに開示された発明を実施した後に、本願の他の実施形態を容易に想到するであろう。本願は、本願の一般的原理に従うとともに、本願に開示されていない本分野における公知常識又は一般的な技術的手段を含む、如何なる変形、用途又は適応的な変更をカバーすることを意図している。明細書及び実施例は例示的なものとしてのみ扱われ、本願の真の範囲及び精神は以下の請求項に準じる。
本願は、以上で説明され、図面に示された正確な構造に限定されるものではなく、その範囲から逸脱することなく、様々な修正及び変更が可能であることが理解されるであろう。本願の範囲は、添付の請求項のみによって制限される。

Claims (14)

  1. コンピュータ機器によって実行される顔画像品質評価方法であって、
    対象顔画像を取得するステップと、
    前記対象顔画像の類似度分布距離を決定するステップであって、前記類似度分布距離は、前記対象顔画像が対応する同一人物類似度分布と前記対象顔画像が対応する非同一人物類似度分布との間の分布距離を含み、前記同一人物類似度分布は、前記対象顔画像と、前記対象顔画像と同じ人物アイデンティティを持つ顔画像である第1のタイプの画像との間の類似度分布を示し、前記非同一人物類似度分布は、前記対象顔画像と、前記対象顔画像とは異なる人物アイデンティティを持つ顔画像である第2のタイプの画像との間の類似度分布を示す、ステップと、
    前記対象顔画像の類似度分布距離に基づいて、前記対象顔画像の画質を決定するステップと、
    を含むことを特徴とする顔画像品質評価方法。
  2. 前記対象顔画像の類似度分布距離を決定する前記ステップは、
    前記対象顔画像を訓練済みの品質評価モデルに入力し、前記訓練済みの品質評価モデルから出力される前記対象顔画像の類似度分布距離を得るステップを含み、
    前記訓練済みの品質評価モデルは、サンプル画像と、前記サンプル画像の類似度分布距離とにより訓練されたものである、ことを特徴とする請求項1に記載の方法。
  3. 前記対象顔画像を訓練済みの品質評価モデルに入力し、前記訓練済みの品質評価モデルから出力される前記対象顔画像の類似度分布距離を得る前記ステップの前に、
    少なくとも2つの人物アイデンティティがそれぞれ対応する顔画像セットを含む各顔画像を取得するステップであって、前記顔画像セットには少なくとも2つの顔画像が含まれるステップと、
    前記各顔画像と、前記各顔画像の人物アイデンティティとに基づいて、前記各顔画像の類似度分布距離をそれぞれ決定するステップと、
    前記各顔画像を前記サンプル画像とし、前記各顔画像の類似度分布距離を前記サンプル画像の類似度分布距離とするステップと、をさらに含む、ことを特徴とする請求項2に記載の方法。
  4. 前記各顔画像と、前記各顔画像の人物アイデンティティとに基づいて、前記各顔画像の類似度分布距離をそれぞれ決定する前記ステップは、
    前記各顔画像の特徴抽出を行い、前記各顔画像の画像特徴を得るステップと、
    前記各顔画像の画像特徴に基づいて、前記各顔画像同士の間の類似度を決定するステップと、
    前記各顔画像同士の間の類似度と、前記各顔画像の人物アイデンティティとに基づいて、前記各顔画像の類似度分布距離を取得するステップと、を含む、ことを特徴とする請求項3に記載の方法。
  5. 前記各顔画像同士の間の類似度と、前記各顔画像の人物アイデンティティとに基づいて、前記各顔画像の類似度分布距離を取得する前記ステップは、
    第1の顔画像と他の画像のうちの同じ人物アイデンティティの顔画像との間の第1の類似度セットを取得するステップであって、前記第1の顔画像は、前記各顔画像のうちのいずれか1つであり、前記他の画像は、前記各顔画像のうちの、前記第1の顔画像以外の顔画像であり、前記同じ人物アイデンティティの顔画像は、前記他の画像のうちの、前記第1の顔画像と同じ人物アイデンティティを持つ顔画像である、ステップと、
    前記第1の顔画像と前記他の画像のうちの異なる人物アイデンティティの顔画像との間の第2の類似度セットを取得するステップであって、前記異なる人物アイデンティティの顔画像は、他の画像のうちの、第1の顔画像とは異なる人物アイデンティティを持つ顔画像である、ステップと、
    前記第1の類似度セット及び前記第2の類似度セットに基づいて、前記第1の顔画像の類似度分布距離を決定するステップと、を含む、ことを特徴とする請求項4に記載の方法。
  6. 前記各顔画像の特徴抽出を行い、前記各顔画像の画像特徴を得る前記ステップは、
    顔認識モデルにおける特徴抽出部により前記各顔画像を処理し、前記各顔画像の画像特徴を得るステップを含む、ことを特徴とする請求項4に記載の方法。
  7. 前記対象顔画像の画質が予め設定された画質閾値よりも大きい場合、前記対象顔画像を顔認識モデルに入力し、前記対象顔画像の人物アイデンティティを得るステップをさらに含む、ことを特徴とする請求項1に記載の方法。
  8. 前記対象顔画像を訓練済みの品質評価モデルに入力し、前記訓練済みの品質評価モデルから出力される前記対象顔画像の類似度分布距離を得る前記ステップの前に、
    前記サンプル画像を訓練対象となる品質評価モデルに入力し、前記訓練対象となる品質評価モデルから出力される前記サンプル画像の予測分布距離を得るステップと、
    前記サンプル画像の類似度分布距離及び前記予測分布距離を損失関数に入力し、損失関数値を得るステップと、
    前記損失関数値に基づいて、前記訓練対象となる品質評価モデルのパラメータ更新を行い、訓練済みの品質評価モデルを得るステップと、をさらに含む、ことを特徴とする請求項2に記載の方法。
  9. 前記損失関数は、
    平均二乗誤差損失関数、平均絶対誤差損失関数、及び回帰損失関数のうちの少なくとも1つを含む、ことを特徴とする請求項8に記載の方法。
  10. 前記類似度分布距離は、
    最大平均不一致距離、最短ユークリッド距離、平均距離、メジアン距離、ワッサースタイン距離のうちの少なくとも1つを含む、ことを特徴とする請求項1から9のいずれか一項に記載の方法。
  11. コンピュータ機器によって実行される顔画像品質評価方法であって、
    少なくとも2つの人物アイデンティティがそれぞれ対応する顔画像セットを含むサンプル画像を取得するステップであって、前記顔画像セットには少なくとも2つの顔画像が含まれる、ステップと、
    前記サンプル画像と、前記サンプル画像の人物アイデンティティとに基づいて、前記サンプル画像の類似度分布距離を決定するステップであって、前記サンプル画像の類似度分布距離は、前記サンプル画像が対応する同一人物類似度分布と前記サンプル画像が対応する非同一人物類似度分布との間の分布距離を含み、前記サンプル画像が対応する同一人物類似度分布は、前記サンプル画像と、前記サンプル画像と同じ人物アイデンティティを持つ顔画像である第1のタイプの画像との間の類似度分布を示し、前記サンプル画像が対応する非同一人物類似度分布は、前記サンプル画像と、前記サンプル画像とは異なる人物アイデンティティを持つ顔画像である第2のタイプの画像との間の類似度分布を示す、ステップと、
    前記サンプル画像と、前記サンプル画像の類似度分布距離とにより、訓練対象となる品質評価モデルを訓練し、訓練済みの品質評価モデルを得るステップであって、前記訓練済みの品質評価モデルは、入力された対象顔画像を処理し、前記対象顔画像の品質評価に用いる前記対象顔画像の類似度分布距離を出力するために用いられる、ステップと、
    を含むことを特徴とする顔画像品質評価方法。
  12. コンピュータ機器に備えられる顔画像品質評価装置であって、
    請求項1から11のいずれか一項に記載の顔画像品質評価方法を実行するように構成されたプロセッサ、
    を備えることを特徴とする顔画像品質評価装置。
  13. プロセッサと、メモリとを備え、前記メモリには、請求項1から11のいずれか一項に記載の顔画像品質評価方法のステップを実現するために前記プロセッサによってロードされ実行される少なくとも1つの命令、プログラムの少なくとも1つのセグメント、コードセット又は命令セットが記憶されている、ことを特徴とするコンピュータ機器。
  14. コンピュータ読み取り可能な命令を含むコンピュータプログラムであって、前記コンピュータ読み取り可能な命令は、プロセッサによって実行されると、請求項1から11のいずれか一項に記載の方法のステップを前記プロセッサに実行させる、ことを特徴とするコンピュータプログラム。
JP2023516051A 2020-11-11 2021-10-12 顔画像品質評価方法及び装置、コンピュータ機器並びにコンピュータプログラム Active JP7454105B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011255554.8A CN112381782B (zh) 2020-11-11 2020-11-11 人脸图像质量评估方法、装置、计算机设备及存储介质
CN202011255554.8 2020-11-11
PCT/CN2021/123252 WO2022100337A1 (zh) 2020-11-11 2021-10-12 人脸图像质量评估方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
JP2023547028A JP2023547028A (ja) 2023-11-09
JP7454105B2 true JP7454105B2 (ja) 2024-03-21

Family

ID=74582805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023516051A Active JP7454105B2 (ja) 2020-11-11 2021-10-12 顔画像品質評価方法及び装置、コンピュータ機器並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US20230087657A1 (ja)
EP (1) EP4246431A4 (ja)
JP (1) JP7454105B2 (ja)
CN (1) CN112381782B (ja)
WO (1) WO2022100337A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381782B (zh) * 2020-11-11 2022-09-09 腾讯科技(深圳)有限公司 人脸图像质量评估方法、装置、计算机设备及存储介质
WO2022192992A1 (en) * 2021-03-18 2022-09-22 Digital Domain Virtual Human (Us), Inc. Methods and systems for markerless facial motion capture
CN113139462A (zh) * 2021-04-23 2021-07-20 杭州魔点科技有限公司 无监督的人脸图像质量评估方法、电子设备和存储介质
CN113505700A (zh) * 2021-07-12 2021-10-15 北京字跳网络技术有限公司 一种图像处理方法、装置、设备及存储介质
CN113706502B (zh) * 2021-08-26 2023-09-05 重庆紫光华山智安科技有限公司 一种人脸图像质量评估方法及装置
CN115171198B (zh) * 2022-09-02 2022-11-25 腾讯科技(深圳)有限公司 模型质量评估方法、装置、设备及存储介质
CN115953819B (zh) * 2022-12-28 2023-08-15 中国科学院自动化研究所 人脸识别模型的训练方法、装置、设备和存储介质
CN115830351B (zh) * 2023-02-15 2023-04-28 杭州盐光文化艺术传播有限公司 图像处理方法、设备以及存储介质
CN117275076B (zh) * 2023-11-16 2024-02-27 厦门瑞为信息技术有限公司 基于特征的人脸质量评估模型的构建方法及应用

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014505952A (ja) 2011-02-18 2014-03-06 ナショナル・アイシーティ・オーストラリア・リミテッド 画像品質の評価

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7327891B2 (en) * 2001-07-17 2008-02-05 Yesvideo, Inc. Automatic selection of a visual image or images from a collection of visual images, based on an evaluation of the quality of the visual images
KR102290392B1 (ko) * 2014-12-02 2021-08-17 삼성전자주식회사 얼굴 등록 방법 및 장치, 얼굴 인식 방법 및 장치
CN108269254B (zh) * 2018-01-17 2020-12-01 百度在线网络技术(北京)有限公司 图像质量评估方法和装置
CN108805048B (zh) * 2018-05-25 2020-01-31 腾讯科技(深圳)有限公司 一种人脸识别模型的调整方法、装置和存储介质
CN110866471A (zh) * 2019-10-31 2020-03-06 Oppo广东移动通信有限公司 人脸图像质量评价方法及装置、计算机可读介质、通信终端
CN110838119B (zh) * 2019-11-15 2022-03-04 珠海全志科技股份有限公司 人脸图像质量评估方法、计算机装置及计算机可读存储介质
CN111061890B (zh) * 2019-12-09 2023-04-07 腾讯云计算(北京)有限责任公司 一种标注信息验证的方法、类别确定的方法及装置
CN111242097B (zh) * 2020-02-27 2023-04-18 腾讯科技(深圳)有限公司 一种人脸识别方法、装置、计算机可读介质及电子设备
CN111582150B (zh) * 2020-05-07 2023-09-05 江苏日颖慧眼智能设备有限公司 一种人脸质量评估的方法、装置和计算机存储介质
CN111582404B (zh) * 2020-05-25 2024-03-26 腾讯科技(深圳)有限公司 内容分类方法、装置及可读存储介质
CN112381782B (zh) * 2020-11-11 2022-09-09 腾讯科技(深圳)有限公司 人脸图像质量评估方法、装置、计算机设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014505952A (ja) 2011-02-18 2014-03-06 ナショナル・アイシーティ・オーストラリア・リミテッド 画像品質の評価

Also Published As

Publication number Publication date
CN112381782A (zh) 2021-02-19
EP4246431A1 (en) 2023-09-20
WO2022100337A1 (zh) 2022-05-19
CN112381782B (zh) 2022-09-09
US20230087657A1 (en) 2023-03-23
EP4246431A4 (en) 2024-04-24
JP2023547028A (ja) 2023-11-09

Similar Documents

Publication Publication Date Title
JP7454105B2 (ja) 顔画像品質評価方法及び装置、コンピュータ機器並びにコンピュータプログラム
CN109359548B (zh) 多人脸识别监控方法及装置、电子设备及存储介质
CN108875833B (zh) 神经网络的训练方法、人脸识别方法及装置
Anwarul et al. A comprehensive review on face recognition methods and factors affecting facial recognition accuracy
US10776470B2 (en) Verifying identity based on facial dynamics
US20220172518A1 (en) Image recognition method and apparatus, computer-readable storage medium, and electronic device
Li et al. Visual tracking via incremental log-euclidean riemannian subspace learning
Ng et al. A review of facial gender recognition
CN106557723B (zh) 一种带交互式活体检测的人脸身份认证系统及其方法
WO2017101267A1 (zh) 人脸活体的鉴别方法、终端、服务器和存储介质
Abd El Meguid et al. Fully automated recognition of spontaneous facial expressions in videos using random forest classifiers
US9633044B2 (en) Apparatus and method for recognizing image, and method for generating morphable face images from original image
CN106778450B (zh) 一种面部识别方法和装置
US11126827B2 (en) Method and system for image identification
EP3975039A1 (en) Masked face recognition
KR102054058B1 (ko) 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템
US10360441B2 (en) Image processing method and apparatus
JP5879188B2 (ja) 顔表情解析装置および顔表情解析プログラム
Torrisi et al. Selecting discriminative CLBP patterns for age estimation
Mirabet-Herranz et al. New insights on weight estimation from face images
US20160180147A1 (en) Automatic detection of face and thereby localize the eye region for iris recognition
Mostafa et al. Rejecting pseudo-faces using the likelihood of facial features and skin
Cornejo et al. Emotion recognition based on occluded facial expressions
Goudelis et al. Automated facial pose extraction from video sequences based on mutual information
Saraçbaşı Face Recognition Using Facial Dynamics of Emotional Expressions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230508

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240308

R150 Certificate of patent or registration of utility model

Ref document number: 7454105

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150