JP2022114443A - 情報処理装置、情報処理方法及び顔画像分類装置 - Google Patents

情報処理装置、情報処理方法及び顔画像分類装置 Download PDF

Info

Publication number
JP2022114443A
JP2022114443A JP2021211564A JP2021211564A JP2022114443A JP 2022114443 A JP2022114443 A JP 2022114443A JP 2021211564 A JP2021211564 A JP 2021211564A JP 2021211564 A JP2021211564 A JP 2021211564A JP 2022114443 A JP2022114443 A JP 2022114443A
Authority
JP
Japan
Prior art keywords
image
face
unit
input
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021211564A
Other languages
English (en)
Inventor
ジャン・モン
Meng Zhang
リィウ・ルゥジエ
Rujie Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2022114443A publication Critical patent/JP2022114443A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】情報処理装置、情報処理方法及び顔画像分類装置を提供する。【解決手段】該情報処理装置は、対象により部分的に遮蔽された部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを作成する顔テンプレート作成ユニットと、元の顔画像及び該顔テンプレート作成ユニットにより作成された部分遮蔽顔テンプレートに基づいて合成画像を取得する合成画像取得ユニットと、該合成画像又は該元の顔画像及び該合成画像を使用して分類モデルを訓練し、訓練された分類モデルを取得するモデル訓練ユニットと、を含み、該元の顔画像は、該対象により遮蔽されていない顔画像である。【選択図】図1

Description

本開示は、情報処理の分野に関し、具体的には、情報処理装置、情報処理方法及び顔画像分類装置に関する。
近年、顔画像の認識技術は幅広く応用されている。しかし、顔が眼鏡やマスクなどの対象により部分的に遮蔽されている場合、取得された顔画像の一部の顔情報が失われ、認識結果が不正確になる可能性がある。従って、対象により部分的に遮蔽されている部分遮蔽顔画像の認識正確度を向上させる必要がある。
以下は、本開示の態様を基本的に理解させるために、本開示の簡単な概要を説明する。なお、この簡単な概要は、本開示を網羅的な概要ではなく、本開示のポイント又は重要な部分を意図的に特定するものではなく、本開示の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
本開示は、上記の問題を鑑み、少なくとも対象により部分的に遮蔽された部分遮蔽顔画像の認識正確度を向上させることができる情報処理装置、情報処理方法及び顔画像分類装置を提供することを目的とする。
本開示の1つの態様では、対象により部分的に遮蔽された部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを作成する顔テンプレート作成ユニットと、元の顔画像及び前記顔テンプレート作成ユニットにより作成された部分遮蔽顔テンプレートに基づいて合成画像を取得する合成画像取得ユニットと、前記合成画像又は前記元の顔画像及び前記合成画像を使用して分類モデルを訓練し、訓練された分類モデルを取得するモデル訓練ユニットと、を含み、前記元の顔画像は、前記対象により遮蔽されていない顔画像である、情報処理装置を提供する。
本開示のもう1つの態様では、上記の情報処理装置により得られた訓練された分類モデルを使用して入力顔画像を分類する装置であって、前記訓練された分類モデルを使用して前記入力顔画像の特徴を抽出する第1の特徴抽出ユニットと、前記第1の特徴抽出ユニットにより抽出された前記入力顔画像の特徴に基づいて前記入力顔画像を分類する分類ユニットと、を含む、装置を提供する。
本開示のさらにもう1つの態様では、対象により部分的に遮蔽された部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを作成する顔テンプレート作成ステップと、元の顔画像及び前記顔テンプレート作成ステップにより作成された部分遮蔽顔テンプレートに基づいて合成画像を取得する合成画像取得ステップと、前記合成画像又は前記元の顔画像及び前記合成画像を使用して分類モデルを訓練し、訓練された分類モデルを取得するモデル訓練ステップと、を含み、前記元の顔画像は、前記対象により遮蔽されていない顔画像である、情報処理方法を提供する。
本開示の他の態様では、上記の本開示の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクト、並びに上記の本開示の方法を実現するためのコンピュータプログラムコードが記録されているコンピュータ読み取り可能な記憶媒体をさらに提供する。
以下は、本開示の実施例の他の態様を説明し、特に本開示の好ましい実施例を詳細に説明するが、本開示はこれらの実施例に限定されない。
本開示の原理及び利点を理解させるために、図面を参照しながら本開示の各実施例を説明する。全ての図面において、同一又は類似の符号で同一又は類似の構成部を示している。ここで説明される図面は、好ましい実施例を例示するためのものであり、全ての可能な実施例ではなく、本開示の範囲を限定するものではない。
本開示の実施例に係る情報処理装置の機能的構成の例を示すブロック図である。 本開示の実施例に係る情報処理装置の1つの具体的な態様のアーキテクチャの例を示すブロック図である。 本開示の実施例に係る顔テンプレート作成ユニット102及び合成画像取得ユニット104により実行される処理の例を示す概略図である。 従来技術で使用される対象画像の例を示す図である。 本開示の実施例に係る顔テンプレート作成ユニット102により実行される処理の例を示す図である。 従来技術を使用して取得された合成画像の例を示す図である。 本開示の実施例に係る情報処理装置100を使用して取得された合成画像の例を示す図である。 本開示の実施例に係るモデル訓練ユニット106の機能的構成の例を示すブロック図である。 本開示の実施例に係るモデル訓練ユニット106の1つの具体的な態様のアーキテクチャの例を示す図である。 本開示の実施例に係る情報処理装置100により取得された分類モデルの分類正確度の例を示す図である。 本開示の一実施例に係る訓練された分類モデルを使用して入力顔画像を分類する装置の機能的構成の例を示すブロック図である。 本開示の一実施例に係る装置800の分類正確度の例を示す図である。 本開示の実施例に係る情報処理方法の流れの例を示すフローチャートである。 本開示の実施例に係る訓練された分類モデルを使用する分類方法の流れの例を示すフローチャートである。 本開示の実施例に適用可能なパーソナルコンピュータの例示的な構成を示すブロック図である。
以下、図面を参照しながら本開示の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。
なお、本開示を明確にするために、図面には本開示に密に関連する装置の構成要件又は処理のステップのみが示され、本開示と関係のない細部が省略されている。
以下は、図面を参照しながら、本開示の実施例を詳細に説明する。
まず、図1及び図2を参照しながら本開示の実施例に係る情報処理装置100の実施例を説明する。図1は、本開示の実施例に係る情報処理装置100の機能的構成の例を示すブロック図である。図2は、本開示の実施例に係る情報処理装置100の1つの具体的な態様のアーキテクチャの例を示すブロック図である。
図1及び図2に示すように、本開示の実施例に係る情報処理装置100は、顔テンプレート作成ユニット102、合成画像取得ユニット104、及びモデル訓練ユニット106を含んでもよい。
顔テンプレート作成ユニット102は、対象により部分的に遮蔽された部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを作成してもよい。一例として、対象は、マスク、眼鏡、ベール、帽子、スカーフなどであってもよいが、対象はこれらに限定されない。図2に示す例では、対象はマスクである。例えば、部分遮蔽顔画像の例であるマスク付きの顔画像は、インターネットからダウンロードされてもよい。説明の便宜上、以下は、主に対象がマスクであることを一例にして本開示の技術を説明するが、当業者により理解できるように、本開示の技術は他の対象の態様に適用されてもよい。
合成画像取得ユニット104は、元の顔画像(以下は、「元の訓練画像」とも称される)及び顔テンプレート作成ユニット102により作成された部分遮蔽顔テンプレートに基づいて合成画像を取得してもよい。元の顔画像は、対象により遮蔽されていない顔画像である。例えば、合成画像取得ユニット104は、部分遮蔽顔テンプレートを使用して、元の訓練画像セットの元の訓練画像の一部又は全部について合成画像を作成し、合成訓練画像セットを取得してもよい。元の訓練画像セットと合成訓練画像セットとのセットは、「拡張訓練画像セット」とも称される。元の訓練画像の一部について合成画像を作成する場合、合成画像取得ユニット104は、元の訓練画像セットから上記の元の訓練画像の一部をランダムに選択し、或いは所定のルールに従って上記の元の訓練画像の一部を選択してもよい。
例えば、顔テンプレート作成ユニット102は、合成画像を取得しようとする元の顔画像ごとに、対象により部分的に遮蔽された部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを作成してもよく、合成画像取得ユニット104は、該元の顔画像及び部分遮蔽顔テンプレートに基づいて対応する合成画像を作成してもよい。
また、例えば、顔テンプレート作成ユニット102は、対象により部分的に遮蔽された部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを事前に作成し、作成された部分遮蔽顔テンプレートを適切なメモリに記憶してもよい。顔テンプレート作成ユニット102をこのように構成することで、合成画像を取得しようとする元の顔画像ごとに部分遮蔽顔テンプレートを作成する必要がないため、処理時間を節約することができる。例えば、この場合では、合成画像取得ユニット104は、合成画像を取得しようとする元の顔画像ごとに、該元の顔画像及び記憶された部分遮蔽顔テンプレートに基づいて、対応する合成画像を作成してもよい。
モデル訓練ユニット106は、合成画像(即ち、合成訓練画像セット)を使用して分類モデルを訓練し、訓練された分類モデルを取得してもよい。これによって、少なくとも訓練された分類モデルによる部分遮蔽顔画像の分類正確度を向上させることができる。また、モデル訓練ユニット106は、合成画像及び元の画像(即ち、拡張訓練画像セット)を使用して分類モデルを訓練し、訓練された分類モデルを取得してもよい。これによって、訓練された分類モデルにより、対象により遮蔽されていない顔画像及び部分的に遮蔽された顔画像の両方が良好な分類正確度を有することを確保することができる。
例えば、分類モデルは、任意の適切な分類モデル、例えば、畳み込みニューラルネットワークモデルなどの深層学習ネットワークモデルであってもよい。
一例として、分類モデルは、元の画像を使用して初期分類モデル(例えば、畳み込みニューラルネットワークモデル)を事前訓練することによって得られた事前訓練された分類モデルであってもよい。また、分類モデルは、初期分類モデルであってもよい。
例えば、本開示の実施例では、顔テンプレート作成ユニット102は、複数のタイプの対象のそれぞれのタイプの対象について、該タイプの対象により部分的に遮蔽された部分遮蔽顔画像に基づいて、該タイプの対象の部分遮蔽顔テンプレートを作成してもよい。図2に示すように、合成画像取得ユニット104は、合成画像を取得しようとする元の顔画像について、該元の顔画像及び顔テンプレート作成ユニット102により作成された複数のタイプの対象についての複数の部分遮蔽顔テンプレートの一部又は全部に基づいて、対応する合成画像を作成してもよい。例えば、合成画像取得ユニット104は、合成画像を取得しようとする元の顔画像ごとに、応用シナリオに応じて、顔テンプレート作成ユニット102により作成された複数のタイプの対象についての複数の部分遮蔽顔テンプレートから1つ以上の部分遮蔽顔テンプレートを選択し、選択された1つ以上の部分遮蔽顔テンプレート及び該元の顔画像に基づいて対応する合成画像を作成してもよい。
分類モデルによる部分遮蔽顔画像の認識正確度を向上させるために、1つの方法は、部分遮蔽顔画像を含む訓練画像セットを使用して分類モデルを訓練することである。しかし、このような訓練画像セットの収集は、特に複数のタイプの対象が含まれている場合、時間と労力がかかる。上述したように、本開示の実施例に係る情報処理装置100は、部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを作成し、元の顔画像及び作成された部分遮蔽顔テンプレートに基づいて合成画像を取得してもよい。従って、対象のタイプごとに、該タイプの対象により遮蔽された部分遮蔽顔画像を取得し、該部分遮蔽顔画像に基づいて作成された部分遮蔽顔テンプレート及び元の訓練画像を使用して合成訓練画像セット(即ち、部分遮蔽顔画像訓練セット)を取得するだけで済む。これによって、部分遮蔽顔画像訓練セットを取得する時間とコストを節約することができる。
また、本開示の実施例に係る情報処理装置100は、元の顔画像及び作成された部分遮蔽顔テンプレートに基づいて合成画像を取得することで、対象画像と元の顔画像とを単純に重ね合わせて合成画像を取得する場合に比べて、より正確で自然な合成画像を得ることができるため、訓練された分類モデルによる部分遮蔽顔画像の分類正確度を向上させることができる。例えば、部分的に遮蔽された正面顔画像に基づいて部分遮蔽顔テンプレートを作成することで、合成された画像の正確度及び自然さをさらに向上させることができるため、訓練された分類モデルによる部分遮蔽顔画像の分類正確度をさらに向上させることができる。
例えば、本開示の実施例では、顔テンプレート作成ユニット102は、部分遮蔽顔テンプレートを作成する際に、部分遮蔽顔画像に対して顔検出及びキーポイント検出を行い、顔検出結果及びキーポイント検出結果に基づいて、部分遮蔽顔画像における顔領域及び対象領域を分割し、顔検出結果、キーポイント検出結果及び分割結果に基づいて部分遮蔽顔テンプレートを作成してもよい。例えば、顔テンプレート作成ユニット102は、様々な適切な顔検出及びキーポイント検出方法(例えばDlib)を使用して、部分遮蔽顔画像に対して顔検出及びキーポイント検出を行ってもよい。また、例えば、顔テンプレート作成ユニット102は、手動でラベル付けすることなく、部分遮蔽顔画像における顔領域及び対象領域を自動的に分割してもよい。例えばGrabCutなどの画像分割技術を使用して、顔領域及び対象領域を分割してもよい。
一例として、顔テンプレート作成ユニット102は、不規則三角形網技術を使用して、顔検出結果、キーポイント検出結果及び分割結果に基づいて部分遮蔽顔テンプレートを作成してもよい。これによって、作成された部分遮蔽顔テンプレートに基づいて取得された合成画像の正確度と自然さをさらに向上させることができるため、訓練された分類モデルによる部分遮蔽顔画像の分類正確度をさらに向上させることができる。
例えば、顔テンプレート作成ユニット102は、不規則三角形網技術を使用して、顔検出結果、キーポイント検出結果及び分割結果に基づいて、変形モデル(deformation model)を部分遮蔽顔テンプレートとして作成してもよい。
例えば、本開示の実施例では、合成画像取得ユニット104は、元の顔画像と部分遮蔽顔テンプレートとの間の幾何学的関係、例えば元の顔画像のサイズ及び顔の姿勢と部分遮蔽顔テンプレートのサイズ及び顔の姿勢との関係に基づいて、部分遮蔽顔テンプレートをレンダリングし、レンダリングされた顔画像を取得し、レンダリングされた顔画像と元の顔画像とを融合し、融合画像を合成画像として取得してもよい。上記のレンダリング操作は、元の顔画像と部分遮蔽顔テンプレートとの間の幾何学的関係を考慮しているため、レンダリングされた顔画像が元の顔画像と類似のサイズ及び顔の姿勢などを有し、取得された合成画像の正確度及び自然さをさらに向上させることができるため、訓練された分類モデルによる部分遮蔽顔画像の分類正確度をさらに向上させることができる。
一例として、合成画像取得ユニット104は、部分遮蔽顔テンプレートをレンダリングし、元の顔画像と部分遮蔽顔テンプレートとの間の幾何学的関係を考慮しているレンダリングされた顔画像を取得する際に、元の画像におけるキーポイント及び部分遮蔽顔テンプレートに基づいて、元の画像について不規則三角形網を構築し、不規則三角形網における各三角形部分について、アフィン変換技術を使用して部分遮蔽顔テンプレートの対応する位置の座標を元の画像の対応する位置の座標に変換してもよい。
図3は、本開示の実施例に係る顔テンプレート作成ユニット102及び合成画像取得ユニット104により実行される処理の例を示す概略図である。図3に示す前処理とは、元の訓練画像及びマスク付きの顔画像に対して実行される顔検出処理、キーポイント検出処理、分割処理などを意味する。図3に示すように、レンダリングされた顔画像(即ち、図3の上部の3番目の画像)は、元の顔画像と類似のサイズ及び顔の姿勢を有する。
例えば、本開示の実施例では、合成画像取得ユニット104は、融合画像における対象領域と顔領域との間の境界が平滑になり、対象領域と顔領域との間の輝度差が所定閾値よりも小さくなるように、レンダリングされた顔画像と元の顔画像とを融合して得られた融合画像に対して後処理を行ってもよい。これによって、後処理された融合画像(即ち、合成画像)は、より正確でより自然になるため、訓練された分類モデルによる部分遮蔽顔画像の分類正確度をさらに向上させることができる。
例えば、合成画像取得ユニット104は、融合画像内の対象領域と顔領域との間の境界を平滑にするように、アルファマット(alpha matting)技術を採用して融合画像に対して後処理を行ってもよい。また、例えば、合成画像取得ユニット104は、対象領域と顔領域との輝度差が所定閾値よりも小さくなるように、部分遮蔽顔テンプレートを取得するための部分遮蔽顔画像の部分領域(例えば左半部分領域)及び元の顔画像における対応する領域に対してヒストグラム均等化を行ってグレースケールマッピング関数を取得し、取得されたグレースケールマッピング関数を融合画像における対象領域に適用してもよい。
図4C及び図4Dは、従来技術及び本開示の実施例に係る情報処理装置100を使用して取得された合成画像の例をそれぞれ示す図である。図4Cにおけるb’及びd’、並びに図4Dのb’及びd’に示すように、合成画像を取得するためにマスクと元の顔画像とを単純に重ね合わせる従来技術と比較して、本開示の実施例に係る情報処理装置100により取得された合成画像は、より自然でより正確であり、合成画像内のマスク領域と他の領域との間の輝度差が小さい。また、元の顔画像の顔の姿勢が大きい場合でも、本開示の実施例に係る情報処理装置100は、図4Dにおけるa’及びc’に示すように、正確で自然な合成画像を得ることができる。一方、元の顔画像の顔の姿勢が大きい場合、図4Cにおけるa’及びc’に示すように、マスクと元の顔画像とを単純に重ね合わせて得られる合成画像は、あまり自然ではない。
また、図4Aに示すように、従来技術は、例えばマスクなどの対象のキーポイントを手動でラベル付けする必要がある。一方、図4Bに示すように、本開示の実施例に係る情報処理装置100は、手動でラベル付けする必要がない。従って、本開示の実施例に係る情報処理装置100は、手動操作及び処理時間を節約することができる。
次に、図5及び図6を参照しながら、本開示の実施例に係る情報処理装置100に含まれるモデル訓練ユニット106の1つの具体的な態様を説明する。図5は、本開示の実施例に係るモデル訓練ユニット106の機能的構成の例を示すブロック図である。図6は、畳み込みニューラルネットワークモデルを分類モデルとして採用する場合の本開示の実施例に係るモデル訓練ユニット106の1つの具体的な態様のアーキテクチャの例を示す図である。
図5及び図6に示すように、本開示の実施例に係るモデル訓練ユニット106は、特徴抽出サブユニット1062、寄与度計算サブユニット1064、特徴調整サブユニット1066、及び訓練サブユニット1068を含んでもよい。
特徴抽出サブユニット1062は、分類モデルの特徴抽出層を使用して入力画像の特徴を抽出してもよい。入力画像は、拡張訓練画像セット又は合成訓練画像セットから取得されてもよい。図6に示すように、分類モデルの特徴抽出層は、畳み込みニューラルネットワークモデルの1つ以上の畳み込み層Cを含んでもよい。なお、分類モデルの特徴抽出層は、図6に示す例に限定されず、当業者は、実際の必要性に応じて対応する特徴抽出層を設定してもよく、ここでその説明を省略する。
寄与度計算サブユニット1064は、分類モデルの寄与度計算層を使用して、入力画像の特徴に含まれる各成分の入力画像の分類結果に対する寄与度を計算するしてもよい。入力画像の特徴に含まれる各成分とは、入力画像の特徴を表す行列(例えば、特徴マップ)に含まれる各成分を意味する。例えば、寄与度は、入力画像の分類結果に対する各成分の影響の程度、例えば、プラスの影響の程度を表してもよい。例えば、特定の成分について、入力画像の分類結果に対する該成分のプラスの影響が大きいほど、或いは該成分により入力画像を正しく分類する確率が高いほど、該成分の寄与度が大きくなる。
図6に示すように、畳み込みニューラルネットワークモデルを分類モデルとして採用する場合、寄与度計算層は、畳み込みニューラルネットワークモデルの1つ以上の畳み込み層Cを含んでもよい。例えば、通常の畳み込みニューラルネットワークモデルに分岐(例えば1つ以上の畳み込み層)を寄与度計算層として追加してもよい。寄与度計算層に含まれる畳み込み層の数は、特徴抽出層に含まれる畳み込み層の数と同一であってもよい。なお、分類モデルの寄与度計算層は、図6に示す例に限定されず、当業者は、実際のニーズに応じて対応する寄与度計算層を設定してもよく、ここでその説明を省略する。
特徴調整サブユニット1066は、寄与度計算サブユニット1064により計算された、入力画像の特徴に含まれる各成分の寄与度に基づいて、特徴抽出サブユニット1062により抽出された入力画像の特徴を調整し、入力画像の調整された特徴を取得してもよい。例えば、入力画像の調整された特徴Fcは、以下の式(1)に従って取得されてもよい。
Figure 2022114443000002
式(1)において、Fは、特徴抽出サブユニット1062により抽出された入力画像の特徴を表し、Cは、寄与度計算サブユニット1064により計算された入力画像の特徴に含まれる各成分の寄与度を表す空間寄与度行列である。ここで、FとCとは、同一の幅、高さ及びチャネル数を有する。また、空間寄与度行列Cの各要素の値は、sigmoid(シグモイド)関数を介して区間[0、1]にマッピングされる。
訓練サブユニット1068は、特徴調整サブユニット1066により取得された入力画像の調整された特徴を使用して、分類モデルの損失関数に基づいて分類モデルを訓練し、訓練された分類モデルを取得してもよい。
なお、当業者が理解できるように、図6に示される異なる畳み込み層及び全結合層の構造パラメータは異なってもよい。
上述したように、本開示の上記の実施例に係るモデル訓練ユニット106は、入力画像の分類結果に対する入力画像の特徴に含まれる各成分の寄与度を計算し、計算された寄与度に基づいて入力画像の特徴を調整し、入力画像の調整された特徴に基づいて入力画像をグループ分けしてもよい。分類モデルの特徴抽出層を用いて抽出された入力画像の特徴に基づいて単純な分類を行う場合と比較して、本開示の上記の実施例に係るモデル訓練ユニット106は、入力画像の特徴に含まれる各成分の入力画像の分類結果に対する寄与度を考慮した上で入力画像を分類することができるため、分類正確度をさらに向上させることができる。
図7は、本開示の実施例に係る情報処理装置100により取得された分類モデルの分類正確度の例を示す図である。図7において、baselineは、拡張訓練画像セットを採用し、上記の図5及び図6を参照して説明された寄与度計算サブユニット1064及び特徴調整サブユニット1066を含まないモデル訓練ユニット106を使用して得られた分類モデルを表し、A-MaskNetは、拡張訓練画像セットを採用し、寄与度計算サブユニット1064及び特徴調整サブユニット1066を含むモデル訓練ユニット106を使用して得られた分類モデルを表す。ここで、採用された拡張訓練画像セットは、本開示の情報処理装置100を使用してCox訓練画像セット内の訓練画像について合成画像をランダムに作成することによって得られる。また、Wo/Woとは、ID画像(分類結果が既知のラベル付き画像)と分類すべき画像(例えばリアルタイムで取り込まれた画像)の両方がマスクなしの顔画像であるシナリオを表し、Wo/Wは、ID画像がマスクなしの顔画像であり、分類すべき画像がマスク付きの顔画像であるシナリオを表し、W/Wは、ID画像及び分類すべき画像の両方がマスク付きの顔画像であるシナリオを表す。図7から分かるように、Wo/Wo、Wo/W、W/Wの3つのシナリオでは、分類モデルA-MaskNetの分類正確度は、分類モデルbaselineの分類正確度と比較して、さらに向上している。特にWo/W及びW/Wの2つのシナリオでは、分類モデルA-MaskNetの分類正確度は、分類モデルbaselineの分類正確度と比較して、それぞれ約1.2%及び1.1%向上している。
実験的分析により、寄与度計算処理を導入して得られた入力画像の特徴は、分類のためにより区別しやすい画像領域により集中する。例えば、マスク付きの顔の画像の場合、取得された特徴は目の領域により集中する。
例えば、図5に示すように、モデル訓練ユニット106は、特徴融合サブユニット1070をさらに含んでもよい。特徴融合サブユニット1070は、特徴調整サブユニット1066により取得された入力画像の複数の調整された特徴を融合し、融合された特徴を取得してもよい。この場合、図6に示すように、訓練サブユニット1068は、特徴融合サブユニット1070により取得された入力画像の融合後の特徴を使用して、分類モデルについての損失関数に基づいて分類モデルを訓練し、訓練された分類モデルを取得してもよい。
例えば、図6に示すように、畳み込みニューラルネットワークモデルを分類モデルとして採用する場合、特徴融合サブユニット1070は、1つ以上の全結合層FCを含んでもよい。
以上は、本開示の実施例に係る情報処理装置100を説明しており、本開示は、本開示の実施例に係る情報処理装置100により得られた訓練された分類モデルを使用して入力顔画像を分類する装置800をさらに提供する。以下は、図8を参照しながら、本開示の実施例に係る情報処理装置100により得られた訓練された分類モデルを使用して入力顔画像を分類する装置800を説明する。
図8は、本開示の一実施例に係る訓練された分類モデルを使用して入力顔画像を分類する装置800の機能的構成の例を示すブロック図である。図8に示すように、本開示の実施例に係る装置800は、第1の特徴抽出ユニット802及び分類ユニット804を含んでもよい。
第1の特徴抽出ユニット802は、訓練された分類モデルを使用して入力顔画像の特徴を抽出してもよい。例えば、入力顔画像は、部分的に遮蔽された顔画像又は遮蔽されていない顔画像であってもよい。
分類ユニット804は、第1の特徴抽出ユニット802により抽出された入力顔画像の特徴に基づいて入力顔画像を分類してもよい。
上述したように、本開示の実施例に係る装置800は、本開示の実施例に係る情報処理装置100により得られた訓練された分類モデルを用いて抽出された入力顔画像の特徴に基づいて、入力顔画像を分類することで、少なくとも部分遮蔽顔画像の分類正確度を向上させることができる。
例えば、本開示の実施例では、第1の特徴抽出ユニット802は、第2の特徴抽出サブユニット、第2の寄与度計算サブユニット、及び第2の特徴調整サブユニット(図示せず)を含んでもよい。
第2の特徴抽出サブユニットは、訓練された分類モデルの特徴抽出層を使用して入力画像の特徴を抽出してもよい。例えば、第2の特徴抽出サブユニットの具体的な構成は、図5及び図6を参照して上記で説明された特徴抽出サブユニット1062の具体的な構成と同様であってもよいため、ここでその説明を省略する。
第2の寄与度計算サブユニットは、訓練された分類モデルの寄与度計算層を使用して、入力顔画像の特徴に含まれる各成分の入力画像の分類結果に対する寄与度を計算してもよい。例えば、第2の寄与度計算サブユニットの具体的な構成は、図5及び図6を参照して上記で説明された寄与度計算サブユニット1064の具体的な構成と同様であってもよいため、ここでその説明を省略する。
第2の特徴調整サブユニットは、第2の寄与度計算サブユニットにより計算された、入力画像の特徴に含まれる各成分の寄与度に基づいて、第2の特徴抽出サブユニットにより抽出された入力顔画像の特徴を調整し、入力顔画像の調整された特徴を取得してもよい。この場合、分類ユニット804は、第2の特徴調整サブユニットにより取得された入力顔画像の調整された特徴に基づいて入力顔画像を分類することができるため、分類正確度をさらに向上させることができる。
例えば、本開示の実施例では、図8に示すように、装置800は、対象検出ユニット806及び第2の合成画像取得ユニット810をさらに含んでもよい。
対象検出ユニット806は、入力顔画像が対象により遮蔽されているか否かを検出してもよい。
第2の合成画像取得ユニット810は、入力顔画像が対象により遮蔽されていると対象検出ユニット806により検出された場合、装置800に記憶された分類結果が既知であるターゲット画像、及び対象検出ユニット806により検出された対象に対応する部分遮蔽顔テンプレートに基づいて、合成ターゲット画像を取得してもよい。この場合、第1の特徴抽出ユニット802は、訓練された分類モデルを使用して合成ターゲット画像の特徴を抽出してもよい。分類ユニット804は、第1の特徴抽出ユニット802により抽出された入力顔画像の特徴及び合成ターゲット画像の特徴に基づいて入力顔画像を分類してもよい。これによって、分類正確度をさらに向上させることができる。
例えば、1:1の認証の場合、ターゲット画像は、分類すべき入力顔画像に対応するID画像であってもよい。また、例えば、1:N(N>1)の認証の場合、ターゲット画像は、装置800に記憶された全てのID画像であってもよい。
例えば、本開示の実施例では、図8に示すように、装置800は、第2の顔テンプレート作成ユニット808をさらに含んでもよい。第2の顔テンプレート作成ユニット808は、入力顔画像が対象により遮蔽されていると対象検出ユニット806により検出された場合、入力顔画像に基づいて部分遮蔽顔テンプレートを作成してもよい。第2の顔テンプレート作成ユニット808の具体的な構成は、図1及び図2を参照して上記で説明された顔テンプレート作成ユニット102の具体的な構成と同様であってもよいため、ここでその説明を省略する。この場合、第2の合成画像取得ユニット810は、装置800に記憶された分類結果が既知であるターゲット画像、及び第2の顔テンプレート作成ユニット808により作成された部分遮蔽顔テンプレートに基づいて、合成ターゲット画像を取得してもよい。第2の合成画像取得ユニット810は、入力顔画像に基づいて作成された部分遮蔽顔テンプレートを用いて合成画像を取得するため、取得された合成画像における対象は、入力顔画像における対象と一致するため、分類正確度をさらに向上させることができる。
図9は、本開示の一実施例に係る装置800の分類正確度の例を示す図である。図9において、シナリオ1は、装置800に対象検出ユニット806、第2の顔テンプレート作成ユニット808及び第2の合成画像取得ユニット810が含まれないシナリオを表し、シナリオ2は、装置800に対象検出ユニット806、第2の顔テンプレート作成ユニット808及び第2の合成画像取得ユニット810が含まれるシナリオを表す。また、図9における分類正確度は、ID画像がマスクなしの顔画像であり、分類すべき画像がマスク付きの顔画像(即ち、Wo/W)である場合に得られる。
図9から分かるように、対象検出ユニット806、第2の顔テンプレート作成ユニット808及び第2の合成画像取得ユニット810の導入により、分類モデルA-MaskNet及びbaselineの分類正確度は何れもさらに向上する。
例えば、本開示の実施例では、図8に示すように、装置800は、ターゲット画像選択ユニット812をさらに含んでもよい。ターゲット画像選択ユニット812は、複数のターゲット画像がある場合(例えば、1:N(N>1)の認証の場合)、分類ユニット804による入力顔画像の初期分類結果に基づいて複数のターゲット画像から所定の数のターゲット画像を選択してもよい。この場合、ターゲット画像選択ユニット812により選択された所定の数のターゲット画像のみについて、第2の合成画像取得ユニット810により対応する合成ターゲット画像を取得してもよい。分類ユニット804は、第1の特徴抽出ユニット802により抽出された入力顔画像の特徴及び所定の数のターゲット画像の合成ターゲット画像の特徴に基づいて、入力顔画像を分類してもよい。
該初期分類結果は、第1の特徴抽出ユニット802により抽出された入力顔画像の特徴及び該複数のターゲット画像の特徴に基づいて入力顔画像を分類することによって得られてもよい。
例えば、ターゲット画像選択ユニット812は、初期分類結果に基づいて、複数のターゲット画像から、入力顔画像と同一のターゲット対象(例えば、人)に関連する可能性が最も高い所定の数のターゲット画像を選択してもよい。
上述したように、複数のターゲット画像が存在する場合、本開示の実施例に係る装置800は、初期分類結果に基づいて所定の数のターゲット画像を選択し、選択された所定の数のターゲット画像の合成画像に基づいて入力顔画像を分類してもよい。全てのターゲット画像の合成画像に基づいて入力顔画像を分類する場合と比較して、処理量をさらに低減させて分類速度をさらに向上させることができる。
以上は本開示の実施例に係る情報処理装置100を説明しているが、本開示は、上記の情報処理装置の実施例に対応する情報処理方法の実施例をさらに提供する。
図10は、本開示の実施例に係る情報処理方法1000の流れの例を示すフローチャートである。図10に示すように、本開示の実施例に係る情報処理方法1000は、開始ステップS1002から開始し、終了ステップS1010に終了してもよい。情報処理方法1000は、顔テンプレート作成ステップS1004、合成画像取得ステップS1006、及びモデル訓練ステップS1008を含んでもよい。
顔テンプレート作成ステップS1004において、対象により部分的に遮蔽された部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを作成してもよい。一例として、対象は、マスク、眼鏡、ベール、帽子、スカーフなどであってもよいが、対象はこれらに限定されない。例えば、顔テンプレート作成ステップS1004は、上述した顔テンプレート作成ユニット102により実施されてもよく、その詳細は上記の顔テンプレート作成ユニット102の説明を参照してもよく、ここでその説明を省略する。
合成画像取得ステップS1006において、元の顔画像及び顔テンプレート作成ステップS1004により作成された部分遮蔽顔テンプレートに基づいて合成画像を取得してもよい。元の顔画像は、対象により遮蔽されていない顔画像である。例えば、合成画像取得ステップS1006は、上述した合成画像取得ユニット104により実施されてもよく、その詳細は上記の合成画像取得ユニット104の説明を参照してもよく、ここでその説明を省略する。
モデル訓練ユニットS1008において、合成画像(即ち、合成訓練画像セット)を使用して分類モデルを訓練し、訓練された分類モデルを取得してもよい。これによって、少なくとも訓練された分類モデルによる部分遮蔽顔画像の分類正確度を向上させることができる。また、モデル訓練ステップS1008において、合成画像及び元の画像(即ち、拡張訓練画像セット)を使用して分類モデルを訓練し、訓練された分類モデルを取得してもよい。これによって、訓練された分類モデルにより、対象により遮蔽されていない顔画像及び部分的に遮蔽された顔画像の両方が良好な分類正確度を有することを確保することができる。例えば、モデル訓練ステップS1008は、上述したモデル訓練ユニット106により実施されてもよく、その詳細は上記のモデル訓練ユニット106の説明を参照してもよく、ここでその説明を省略する。
一例として、分類モデルは、元の画像を使用して初期分類モデル(例えば、畳み込みニューラルネットワークモデル)を事前訓練することによって得られた事前訓練された分類モデルであってもよい。また、分類モデルは、初期分類モデルであってもよい。
例えば、本開示の実施例では、顔テンプレート作成ステップS1004において、複数のタイプの対象のそれぞれのタイプの対象について、該タイプの対象により部分的に遮蔽された部分遮蔽顔画像に基づいて、該タイプの対象の部分遮蔽顔テンプレートを作成してもよい。この場合、合成画像取得ステップS1006において、合成画像を取得しようとする元の顔画像について、該元の顔画像及び顔テンプレート作成ステップS1004により作成された複数のタイプの対象についての複数の部分遮蔽顔テンプレートの一部又は全部に基づいて、対応する合成画像を作成してもよい。
上述したように、本開示の実施例に係る情報処理装置100と同様に、本開示の実施例に係る情報処理方法1000は、部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを作成し、元の顔画像及び作成された部分遮蔽顔テンプレートに基づいて合成画像を取得してもよい。従って、対象のタイプごとに、該タイプの対象により遮蔽された部分遮蔽顔画像を取得し、該部分遮蔽顔画像に基づいて作成された部分遮蔽顔テンプレート及び元の訓練画像を使用して合成訓練画像セット(即ち、部分遮蔽顔画像訓練セット)を取得するだけで済む。これによって、部分遮蔽顔画像訓練セットを取得する時間とコストを節約することができる。
また、本開示の実施例に係る情報処理方法1000は、元の顔画像及び作成された部分遮蔽顔テンプレートに基づいて合成画像を取得することで、対象画像と元の顔画像とを単純に重ね合わせて合成画像を取得する場合に比べて、より正確で自然な合成画像を得ることができるため、訓練された分類モデルによる部分遮蔽顔画像の分類正確度を向上させることができる。例えば、部分的に遮蔽された正面顔画像に基づいて部分遮蔽顔テンプレートを作成することで、合成された画像の正確度及び自然さをさらに向上させることができるため、訓練された分類モデルによる部分遮蔽顔画像の分類正確度をさらに向上させることができる。
例えば、本開示の実施例では、顔テンプレート作成ステップS1004において、部分遮蔽顔テンプレートを作成する際に、部分遮蔽顔画像に対して顔検出及びキーポイント検出を行い、顔検出結果及びキーポイント検出結果に基づいて、部分遮蔽顔画像における顔領域及び対象領域を分割し、顔検出結果、キーポイント検出結果及び分割結果に基づいて部分遮蔽顔テンプレートを作成してもよい。
一例として、顔テンプレート作成ステップS1004において、不規則三角形網技術を使用して、顔検出結果、キーポイント検出結果及び分割結果に基づいて部分遮蔽顔テンプレートを作成してもよい。これによって、作成された部分遮蔽顔テンプレートに基づいて取得された合成画像の正確度と自然さをさらに向上させることができるため、訓練された分類モデルによる部分遮蔽顔画像の分類正確度をさらに向上させることができる。
例えば、本開示の実施例では、合成画像取得ステップS1006において、元の顔画像と部分遮蔽顔テンプレートとの間の幾何学的関係、例えば元の顔画像のサイズ及び顔の姿勢と部分遮蔽顔テンプレートのサイズ及び顔の姿勢との関係に基づいて、部分遮蔽顔テンプレートをレンダリングし、レンダリングされた顔画像を取得し、レンダリングされた顔画像と元の顔画像とを融合し、融合画像を合成画像として取得してもよい。上記のレンダリング操作は、元の顔画像と部分遮蔽顔テンプレートとの間の幾何学的関係を考慮しているため、レンダリングされた顔画像が元の顔画像と類似のサイズ及び顔の姿勢などを有し、取得された合成画像の正確度及び自然さをさらに向上させることができるため、訓練された分類モデルによる部分遮蔽顔画像の分類正確度をさらに向上させることができる。
一例として、合成画像取得ステップS1006において、部分遮蔽顔テンプレートをレンダリングし、元の顔画像と部分遮蔽顔テンプレートとの間の幾何学的関係を考慮しているレンダリングされた顔画像を取得する際に、元の画像におけるキーポイント及び部分遮蔽顔テンプレートに基づいて、元の画像について不規則三角形網を構築し、不規則三角形網における各三角形部分について、アフィン変換技術を使用して部分遮蔽顔テンプレートの対応する位置の座標を元の画像の対応する位置の座標に変換してもよい。
例えば、本開示の実施例では、合成画像取得ステップS1006において、融合画像における対象領域と顔領域との間の境界が平滑になり、対象領域と顔領域との間の輝度差が所定閾値よりも小さくなるように、レンダリングされた顔画像と元の顔画像とを融合して得られた融合画像に対して後処理を行ってもよい。これによって、後処理された融合画像(即ち、合成画像)は、より正確でより自然になるため、訓練された分類モデルによる部分遮蔽顔画像の分類正確度をさらに向上させることができる。
例えば、本開示の実施例では、モデル訓練ステップS1008は、特徴抽出サブステップ、寄与度計算サブステップ、特徴調整サブステップ、及び訓練サブステップ(図示せず)を含んでもよい。
特徴抽出サブステップにおいて、分類モデルの特徴抽出層を使用して入力画像の特徴を抽出してもよい。入力画像は、拡張訓練画像セット又は合成訓練画像セットから取得されてもよい。例えば、特徴抽出サブステップは、上述した特徴抽出サブユニット1062により実施されてもよく、その詳細は上記の特徴抽出サブユニット1062の説明を参照してもよく、ここでその説明を省略する。
寄与度計算サブステップにおいて、分類モデルの寄与度計算層を使用して、入力画像の特徴に含まれる各成分の入力画像の分類結果に対する寄与度を計算するしてもよい。例えば、寄与度計算サブステップは、上述した寄与度計算サブユニット1064により実施されてもよく、その詳細は上記の寄与度計算サブユニット1064の説明を参照してもよく、ここでその説明を省略する。
特徴調整サブステップにおいて、寄与度計算サブステップにより計算された、入力画像の特徴に含まれる各成分の寄与度に基づいて、特徴抽出サブステップにより抽出された入力画像の特徴を調整し、入力画像の調整された特徴を取得してもよい。例えば、特徴調整サブステップは、上述した特徴調整サブユニット1066により実施されてもよく、その詳細は上記の特徴調整サブユニット1066の説明を参照してもよく、ここでその説明を省略する。
訓練サブステップにおいて、特徴調整サブステップにより取得された入力画像の調整された特徴を使用して、分類モデルの損失関数に基づいて分類モデルを訓練し、訓練された分類モデルを取得してもよい。例えば、訓練サブステップは、上述した訓練サブユニット1068により実施されてもよく、その詳細は上記の訓練サブユニット1068の説明を参照してもよく、ここでその説明を省略する。
上述したように、本開示の上記の実施例に係るモデル訓練ステップS1008において、入力画像の分類結果に対する入力画像の特徴に含まれる各成分の寄与度を計算し、計算された寄与度に基づいて入力画像の特徴を調整し、入力画像の調整された特徴に基づいて入力画像をグループ分けしてもよい。分類モデルの特徴抽出層を用いて抽出された入力画像の特徴に基づいて単純な分類を行う場合と比較して、本開示の上記の実施例に係るモデル訓練ステップS1008において、入力画像の特徴に含まれる各成分の入力画像の分類結果に対する寄与度を考慮した上で入力画像を分類することができるため、分類正確度をさらに向上させることができる。
以上は、本開示の実施例に係る情報処理方法1000を説明しており、本開示は、本開示の実施例に係る情報処理方法1000により得られた訓練された分類モデルを使用して入力顔画像を分類する方法1100をさらに提供する。以下は、図11を参照しながら、本開示の実施例に係る訓練された分類モデルを使用して入力顔画像を分類する方法1100を説明する。
図11は、本開示の実施例に係る訓練された分類モデルを使用する分類方法の流れの例を示すフローチャートである。図11に示すように、本開示の実施例に係る方法1100は、開始ステップS1102から開始し、終了ステップS1116において終了してもよい。本開示の実施例に係る方法1100は、第1の特徴抽出ステップS1104及び分類ステップS1114を含んでもよい。
第1の特徴抽出ステップS1104において、訓練された分類モデルを使用して入力顔画像の特徴を抽出してもよい。例えば、入力顔画像は、部分的に遮蔽された顔画像又は遮蔽されていない顔画像であってもよい。例えば、第1の特徴抽出ステップS1104は、上述した第1の特徴抽出ユニット802により実施されてもよく、その詳細は上記の第1の特徴抽出ユニット802の説明を参照してもよく、ここでその説明を省略する。
分類ステップS1114において、第1の特徴抽出ステップS1104により抽出された入力顔画像の特徴に基づいて入力顔画像を分類してもよい。
上述したように、本開示の実施例に係る方法1100は、本開示の実施例に係る情報処理方法1000により得られた訓練された分類モデルを用いて抽出された入力顔画像の特徴に基づいて、入力顔画像を分類することで、少なくとも部分遮蔽顔画像の分類正確度を向上させることができる。
例えば、本開示の実施例では、図11に示すように、方法1100は、対象検出ステップS1106、第2の合成画像取得ステップS1108、及び第2の合成画像取得ステップS1112をさらに含んでもよい。
対象検出ユニットS1106において、入力顔画像が対象により遮蔽されているか否かを検出してもよい。例えば、対象検出ステップS1106は、上述した対象検出ユニット806により実施されてもよく、その詳細は上記の対象検出ユニット806の説明を参照してもよく、ここでその説明を省略する。
対象検出ステップS1106において入力顔画像が対象により遮蔽されていると検出された場合(S1106:YES)、処理は第2の顔テンプレート作成ステップS1108に進めてもよい。第2の顔テンプレート作成ステップS1108において、入力顔画像に基づいて部分遮蔽顔テンプレートを作成してもよい。例えば、第2の顔テンプレート作成ステップS1108は、上述した第2の顔テンプレート作成ユニット808により実施されてもよく、その詳細は上記の第2の顔テンプレート作成ユニット808の説明を参照してもよく、ここでその説明を省略する。
一方、対象検出ステップS1106において入力顔画像が対象により遮蔽されていると検出されていない場合(S1106:NO)、処理は分類ステップS1114に進めてもよい。
第2の合成画像取得ステップS1112において、記憶された分類結果が既知であるターゲット画像、及び第2の顔テンプレート作成ステップS1108において作成された部分遮蔽顔テンプレートに基づいて、合成ターゲット画像を取得してもよい。この場合、分類ステップS1114において、入力顔画像の特徴及び合成ターゲット画像の特徴に基づいて入力顔画像を分類してもよい。第2の合成画像取得ステップS1112において、入力顔画像に基づいて作成された部分遮蔽顔テンプレートを用いて合成画像を取得するため、取得された合成画像における対象は、入力顔画像における対象と一致するため、分類正確度をさらに向上させることができる。
例えば、本開示の実施例では、複数のターゲット画像がある場合(例えば、1:N(N>1)の認証の場合)、図11に示すように、方法1100は、ターゲット画像選択ステップS1110をさらに含んでもよい。ターゲット画像選択ステップS1110において、入力顔画像の初期分類結果に基づいて複数のターゲット画像から所定の数のターゲット画像を選択してもよい。この場合、第2の合成画像取得ステップS1112において、ターゲット画像選択ステップS1110において選択された所定の数のターゲット画像のみについて、対応する合成ターゲット画像を取得してもよい。また、分類ステップS1114において、入力顔画像の特徴及び所定の数のターゲット画像の合成ターゲット画像の特徴に基づいて、入力顔画像を分類してもよい。
該初期分類結果は、第1の特徴抽出ステップS1104において抽出された入力顔画像の特徴及び該複数のターゲット画像の特徴に基づいて入力顔画像を分類することによって得られてもよい。
上述したように、複数のターゲット画像が存在する場合、初期分類結果に基づいて所定の数のターゲット画像を選択し、選択された所定の数のターゲット画像の合成画像に基づいて入力顔画像を分類してもよい。全てのターゲット画像の合成画像に基づいて入力顔画像を分類する場合と比較して、処理量をさらに低減させて分類速度をさらに向上させることができる。
なお、以上は本開示の実施例に係る情報処理装置及び情報処理方法の機能的構成及び動作を説明しているが、該機能的構成及び動作は単なる例示的なものであり、本開示を限定するものではない。当業者は、本開示の原理に従って上記実施例を修正してもよく、例えば各実施例における機能的モジュールを追加、削除又は組み合わせてもよく、これらの修正は本開示の範囲に含まれるものである。
また、ここの装置の実施例は上記方法の実施例に対応するため、装置の実施例に詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
また、本開示は記憶媒体及びプログラムプロダクトをさらに提供する。本開示の実施例に係る記憶媒体及びプログラムプロダクトにおける機器が実行可能な命令は上記方法を実行してもよく、ここで詳細に説明されていない内容は、上記方法の実施例の対応説明を参照してもよく、ここでその説明を省略する。
それに応じて、本開示は、機器が実行可能な命令を含むプログラムプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。
なお、上記処理及び装置はソフトウェア及び/又はファームウェアにより実現されてもよい。ソフトウェア及び/又はファームウェアにより実施されている場合、記憶媒体又はネットワークから専用のハードウェア構成を有するコンピュータ、例えば図12示されている汎用パーソナルコンピュータ700に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。
図12において、中央処理部(CPU)701は、読み出し専用メモリ(ROM)702に記憶されているプログラム、又は記憶部708からランダムアクセスメモリ(RAM)703にロードされたプログラムにより各種の処理を実行する。RAM703には、必要に応じて、CPU701が各種の処理を実行するに必要なデータが記憶されている。
CPU701、ROM702、及びRAM703は、バス704を介して互いに接続されている。入力/出力インターフェース705もバス704に接続されている。
入力部706(キーボード、マウスなどを含む)、出力部707(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部708(例えばハードディスクなどを含む)、通信部709(例えばネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース705に接続されている。通信部709は、ネットワーク、例えばインターネットを介して通信処理を実行する。
必要に応じて、ドライバ710は、入力/出力インターフェース705に接続されてもよい。取り外し可能な媒体711は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライバ710にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部708にインストールされている。
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体711を介してソフトウェアを構成するプログラムをインストールする。
なお、これらの記憶媒体は、図12に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体711に限定されない。取り外し可能な媒体711は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク-読み出し専用メモリ(CD-ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM702、記憶部708に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
以上は図面を参照しながら本開示の好ましい実施例を説明しているが、上記実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本開示に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本開示の保護範囲に含まれるものである。
例えば、上記実施例の1つのユニットに含まれる機能は別々の装置により実現されてもよい。また、上記実施例の複数のユニットにより実現される複数の機能は別々の装置によりそれぞれ実現されてもよい。さらに、以上の機能の1つは複数のユニットにより実現されてもよい。なお、これらの構成は本開示の範囲内のものである。
また、本開示の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本開示の技術的な範囲を限定するものではない。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
対象により部分的に遮蔽された部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを作成する顔テンプレート作成ユニットと、
元の顔画像及び前記顔テンプレート作成ユニットにより作成された部分遮蔽顔テンプレートに基づいて合成画像を取得する合成画像取得ユニットと、
前記合成画像又は前記元の顔画像及び前記合成画像を使用して分類モデルを訓練し、訓練された分類モデルを取得するモデル訓練ユニットと、を含み、
前記元の顔画像は、前記対象により遮蔽されていない顔画像である、情報処理装置。
(付記2)
前記顔テンプレート作成ユニットは、複数のタイプの対象のそれぞれのタイプの対象について、該タイプの対象により部分的に遮蔽された部分遮蔽顔画像に基づいて、該タイプの対象の部分遮蔽顔テンプレートを作成し、
前記合成画像取得ユニットは、対応する元の顔画像について、該元の顔画像及び前記顔テンプレート作成ユニットにより作成された複数のタイプの対象についての複数の部分遮蔽顔テンプレートの一部又は全部に基づいて、対応する合成画像を作成する、付記1に記載の情報処理装置。
(付記3)
前記顔テンプレート作成ユニットは、部分遮蔽顔テンプレートを作成する際に、
前記部分遮蔽顔画像に対して顔検出及びキーポイント検出を行い、
顔検出結果及びキーポイント検出結果に基づいて、前記部分遮蔽顔画像における顔領域及び対象領域を分割し、
前記顔検出結果、前記キーポイント検出結果及び分割結果に基づいて前記部分遮蔽顔テンプレートを作成する、付記1に記載の情報処理装置。
(付記4)
前記顔テンプレート作成ユニットは、不規則三角形網技術を使用して、前記顔検出結果、前記キーポイント検出結果及び前記分割結果に基づいて前記部分遮蔽顔テンプレートを作成する、付記3に記載の情報処理装置。
(付記5)
前記合成画像取得ユニットは、前記合成画像を取得する際に、
前記元の顔画像と前記部分遮蔽顔テンプレートとの間の幾何学的関係に基づいて前記部分遮蔽顔テンプレートをレンダリングし、レンダリングされた顔画像を取得し、
前記レンダリングされた顔画像と前記元の顔画像とを融合し、融合画像を前記合成画像として取得する、付記4に記載の情報処理装置。
(付記6)
前記合成画像取得ユニットは、前記融合画像における対象領域と顔領域との間の境界が平滑になり、前記対象領域と前記顔領域との間の輝度差が所定閾値よりも小さくなるように、前記融合画像に対して後処理を行う、付記5に記載の情報処理装置。
(付記7)
前記合成画像取得ユニットは、前記部分遮蔽顔テンプレートをレンダリングし、前記レンダリングされた顔画像を取得する際に、
前記元の画像におけるキーポイント及び前記部分遮蔽顔テンプレートに基づいて、前記元の画像について不規則三角形網を構築し、
前記不規則三角形網における各三角形部分について、アフィン変換技術を使用して前記部分遮蔽顔テンプレートの対応する位置の座標を前記元の画像の対応する位置の座標に変換する、付記5に記載の情報処理装置。
(付記8)
前記モデル訓練ユニットは、
前記分類モデルの特徴抽出層を使用して入力画像の特徴を抽出する特徴抽出サブユニットであって、前記入力画像は、前記元の画像及び前記合成画像のうちの少なくとも1つである、特徴抽出サブユニットと、
前記分類モデルの寄与度計算層を使用して、前記入力画像の特徴に含まれる各成分の前記入力画像の分類結果に対する寄与度を計算する寄与度計算サブユニットと、
前記寄与度計算サブユニットにより計算された、前記入力画像の特徴に含まれる各成分の寄与度に基づいて、前記特徴抽出サブユニットにより抽出された前記入力画像の特徴を調整し、前記入力画像の調整された特徴を取得する特徴調整サブユニットと、
前記特徴調整サブユニットにより取得された前記入力画像の調整された特徴を使用して、前記分類モデルの損失関数に基づいて前記分類モデルを訓練し、訓練された分類モデルを取得する訓練サブユニットと、を含む、付記1に記載の情報処理装置。
(付記9)
前記分類モデルは、前記元の画像を使用して初期分類モデルを事前訓練することによって得られた事前訓練された分類モデルである、付記1に記載の情報処理装置。
(付記10)
前記対象はマスク又は眼鏡である、付記1乃至9の何れかに記載の情報処理装置。
(付記11)
付記1乃至10の何れかに記載の情報処理装置により得られた訓練された分類モデルを使用して入力顔画像を分類する装置であって、
前記訓練された分類モデルを使用して前記入力顔画像の特徴を抽出する第1の特徴抽出ユニットと、
前記第1の特徴抽出ユニットにより抽出された前記入力顔画像の特徴に基づいて前記入力顔画像を分類する分類ユニットと、を含む、装置。
(付記12)
前記入力顔画像が対象により遮蔽されているか否かを検出する対象検出ユニットと、
前記入力顔画像が対象により遮蔽されていると前記対象検出ユニットにより検出された場合、前記装置に記憶された分類結果が既知であるターゲット画像、及び前記対象検出ユニットにより検出された対象に対応する部分遮蔽顔テンプレートに基づいて、合成ターゲット画像を取得する第2の合成画像取得ユニットと、をさらに含み、
前記第1の特徴抽出ユニットは、前記訓練された分類モデルを使用して前記合成ターゲット画像の特徴を抽出し、
前記分類ユニットは、前記第1の特徴抽出ユニットにより抽出された前記入力顔画像の特徴及び前記合成ターゲット画像の特徴に基づいて前記入力顔画像を分類する、付記11に記載の装置。
(付記13)
前記入力顔画像が対象により遮蔽されていると前記対象検出ユニットにより検出された場合、前記入力顔画像に基づいて部分遮蔽顔テンプレートを作成する第2の顔テンプレート作成ユニット、をさらに含み、
前記第2の合成画像取得ユニットは、前記入力顔画像が対象により遮蔽されていると前記対象検出ユニットにより検出された場合、前記装置に記憶された分類結果が既知であるターゲット画像、及び前記第2の顔テンプレート作成ユニットにより作成された前記部分遮蔽顔テンプレートに基づいて、合成ターゲット画像を取得する、付記12に記載の装置。
(付記14)
前記装置に複数のターゲット画像が記憶されている場合、前記分類ユニットによる前記入力顔画像の初期分類結果に基づいて前記複数のターゲット画像から所定の数のターゲット画像を選択するターゲット画像選択ユニット、をさらに含み、
前記第1の特徴抽出ユニットは、前記訓練された分類モデルを使用して前記複数のターゲット画像の特徴を抽出し、
前記初期分類結果は、前記第1の特徴抽出ユニットにより抽出された前記入力顔画像の特徴及び前記複数のターゲット画像の特徴に基づいて前記入力顔画像を分類することによって得られ、
前記ターゲット画像選択ユニットにより選択された前記所定の数のターゲット画像のみについて、前記第2の合成画像取得ユニットにより対応する合成ターゲット画像を取得し、
前記分類ユニットは、前記第1の特徴抽出ユニットにより抽出された前記入力顔画像の特徴及び前記所定の数のターゲット画像の合成ターゲット画像の特徴に基づいて、前記入力顔画像を分類する、付記13に記載の装置。
(付記15)
対象により部分的に遮蔽された部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを作成する顔テンプレート作成ステップと、
元の顔画像及び前記顔テンプレート作成ステップにより作成された部分遮蔽顔テンプレートに基づいて合成画像を取得する合成画像取得ステップと、
前記合成画像又は前記元の顔画像及び前記合成画像を使用して分類モデルを訓練し、訓練された分類モデルを取得するモデル訓練ステップと、を含み、
前記元の顔画像は、前記対象により遮蔽されていない顔画像である、情報処理方法。
(付記16)
前記顔テンプレート作成ステップにおいて、複数のタイプの対象のそれぞれのタイプの対象について、該タイプの対象により部分的に遮蔽された部分遮蔽顔画像に基づいて、該タイプの対象の部分遮蔽顔テンプレートを作成し、
前記合成画像取得ステップにおいて、対応する元の顔画像について、該元の顔画像及び前記顔テンプレート作成ステップにより作成された複数のタイプの対象についての複数の部分遮蔽顔テンプレートの一部又は全部に基づいて、対応する合成画像を作成する、付記15に記載の情報処理方法。
(付記17)
前記顔テンプレート作成ステップにおいて、部分遮蔽顔テンプレートを作成する際に、
前記部分遮蔽顔画像に対して顔検出及びキーポイント検出を行い、
顔検出結果及びキーポイント検出結果に基づいて、前記部分遮蔽顔画像における顔領域及び対象領域を分割し、
不規則三角形網技術を使用して、前記顔検出結果、前記キーポイント検出結果及び分割結果に基づいて前記部分遮蔽顔テンプレートを作成する、付記15に記載の情報処理方法。
(付記18)
前記合成画像取得ステップにおいて、前記合成画像を取得する際に、
前記元の顔画像と前記部分遮蔽顔テンプレートとの間の幾何学的関係に基づいて前記部分遮蔽顔テンプレートをレンダリングし、レンダリングされた顔画像を取得し、
前記レンダリングされた顔画像と前記元の顔画像とを融合し、融合画像を前記合成画像として取得する、付記17に記載の情報処理方法。
(付記19)
前記合成画像取得ステップにおいて、前記部分遮蔽顔テンプレートをレンダリングし、前記レンダリングされた顔画像を取得する際に、
前記元の画像におけるキーポイント及び前記部分遮蔽顔テンプレートに基づいて、前記元の画像について不規則三角形網を構築し、
前記不規則三角形網における各三角形部分について、アフィン変換技術を使用して前記部分遮蔽顔テンプレートの対応する位置の座標を前記元の画像の対応する位置の座標に変換する、付記18に記載の情報処理方法。
(付記20)
プログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令がコンピュータにより実行される際に、付記14乃至19の何れかに記載の情報処理方法を実行させる、記憶媒体。

Claims (10)

  1. 対象により部分的に遮蔽された部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを作成する顔テンプレート作成ユニットと、
    元の顔画像及び前記顔テンプレート作成ユニットにより作成された部分遮蔽顔テンプレートに基づいて合成画像を取得する合成画像取得ユニットと、
    前記合成画像又は前記元の顔画像及び前記合成画像を使用して分類モデルを訓練し、訓練された分類モデルを取得するモデル訓練ユニットと、を含み、
    前記元の顔画像は、前記対象により遮蔽されていない顔画像である、情報処理装置。
  2. 前記顔テンプレート作成ユニットは、複数のタイプの対象のそれぞれのタイプの対象について、該タイプの対象により部分的に遮蔽された部分遮蔽顔画像に基づいて、該タイプの対象の部分遮蔽顔テンプレートを作成し、
    前記合成画像取得ユニットは、対応する元の顔画像について、該元の顔画像及び前記顔テンプレート作成ユニットにより作成された複数のタイプの対象についての複数の部分遮蔽顔テンプレートの一部又は全部に基づいて、対応する合成画像を作成する、請求項1に記載の情報処理装置。
  3. 前記顔テンプレート作成ユニットは、部分遮蔽顔テンプレートを作成する際に、
    前記部分遮蔽顔画像に対して顔検出及びキーポイント検出を行い、
    顔検出結果及びキーポイント検出結果に基づいて、前記部分遮蔽顔画像における顔領域及び対象領域を分割し、
    不規則三角形網技術を使用して、前記顔検出結果、前記キーポイント検出結果及び分割結果に基づいて前記部分遮蔽顔テンプレートを作成する、請求項1に記載の情報処理装置。
  4. 前記合成画像取得ユニットは、前記合成画像を取得する際に、
    前記元の顔画像と前記部分遮蔽顔テンプレートとの間の幾何学的関係に基づいて前記部分遮蔽顔テンプレートをレンダリングし、レンダリングされた顔画像を取得し、
    前記レンダリングされた顔画像と前記元の顔画像とを融合し、融合画像を前記合成画像として取得する、請求項3に記載の情報処理装置。
  5. 前記合成画像取得ユニットは、前記部分遮蔽顔テンプレートをレンダリングし、前記レンダリングされた顔画像を取得する際に、
    前記元の画像におけるキーポイント及び前記部分遮蔽顔テンプレートに基づいて、前記元の画像について不規則三角形網を構築し、
    前記不規則三角形網における各三角形部分について、アフィン変換技術を使用して前記部分遮蔽顔テンプレートの対応する位置の座標を前記元の画像の対応する位置の座標に変換する、請求項4に記載の情報処理装置。
  6. 前記モデル訓練ユニットは、
    前記分類モデルの特徴抽出層を使用して入力画像の特徴を抽出する特徴抽出サブユニットであって、前記入力画像は、前記元の画像及び前記合成画像のうちの少なくとも1つである、特徴抽出サブユニットと、
    前記分類モデルの寄与度計算層を使用して、前記入力画像の特徴に含まれる各成分の前記入力画像の分類結果に対する寄与度を計算する寄与度計算サブユニットと、
    前記寄与度計算サブユニットにより計算された、前記入力画像の特徴に含まれる各成分の寄与度に基づいて、前記特徴抽出サブユニットにより抽出された前記入力画像の特徴を調整し、前記入力画像の調整された特徴を取得する特徴調整サブユニットと、
    前記特徴調整サブユニットにより取得された前記入力画像の調整された特徴を使用して、前記分類モデルの損失関数に基づいて前記分類モデルを訓練し、訓練された分類モデルを取得する訓練サブユニットと、を含む、請求項1に記載の情報処理装置。
  7. 前記対象はマスク又は眼鏡である、請求項1乃至6の何れかに記載の情報処理装置。
  8. 請求項1乃至7の何れかに記載の情報処理装置により得られた訓練された分類モデルを使用して入力顔画像を分類する装置であって、
    前記訓練された分類モデルを使用して前記入力顔画像の特徴を抽出する第1の特徴抽出ユニットと、
    前記第1の特徴抽出ユニットにより抽出された前記入力顔画像の特徴に基づいて前記入力顔画像を分類する分類ユニットと、を含む、装置。
  9. 前記入力顔画像が対象により遮蔽されているか否かを検出する対象検出ユニットと、
    前記入力顔画像が対象により遮蔽されていると前記対象検出ユニットにより検出された場合、前記入力顔画像に基づいて部分遮蔽顔テンプレートを作成する第2の顔テンプレート作成ユニットと、
    前記入力顔画像が対象により遮蔽されていると前記対象検出ユニットにより検出された場合、前記装置に記憶された分類結果が既知であるターゲット画像、及び前記第2の顔テンプレート作成ユニットにより作成された前記部分遮蔽顔テンプレートに基づいて、合成ターゲット画像を取得する第2の合成画像取得ユニットと、をさらに含み、
    前記第1の特徴抽出ユニットは、前記訓練された分類モデルを使用して前記合成ターゲット画像の特徴を抽出し、
    前記分類ユニットは、前記第1の特徴抽出ユニットにより抽出された前記入力顔画像の特徴及び前記合成ターゲット画像の特徴に基づいて前記入力顔画像を分類する、請求項8に記載の装置。
  10. 対象により部分的に遮蔽された部分遮蔽顔画像に基づいて部分遮蔽顔テンプレートを作成する顔テンプレート作成ステップと、
    元の顔画像及び前記顔テンプレート作成ステップにより作成された部分遮蔽顔テンプレートに基づいて合成画像を取得する合成画像取得ステップと、
    前記合成画像又は前記元の顔画像及び前記合成画像を使用して分類モデルを訓練し、訓練された分類モデルを取得するモデル訓練ステップと、を含み、
    前記元の顔画像は、前記対象により遮蔽されていない顔画像である、情報処理方法。
JP2021211564A 2021-01-26 2021-12-24 情報処理装置、情報処理方法及び顔画像分類装置 Pending JP2022114443A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110105159.XA CN114898415A (zh) 2021-01-26 2021-01-26 信息处理装置、信息处理方法和面部图像分类装置
CN202110105159.X 2021-01-26

Publications (1)

Publication Number Publication Date
JP2022114443A true JP2022114443A (ja) 2022-08-05

Family

ID=82658623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021211564A Pending JP2022114443A (ja) 2021-01-26 2021-12-24 情報処理装置、情報処理方法及び顔画像分類装置

Country Status (2)

Country Link
JP (1) JP2022114443A (ja)
CN (1) CN114898415A (ja)

Also Published As

Publication number Publication date
CN114898415A (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN109359538B (zh) 卷积神经网络的训练方法、手势识别方法、装置及设备
Quan et al. Image inpainting with local and global refinement
US20210174072A1 (en) Microexpression-based image recognition method and apparatus, and related device
US9734613B2 (en) Apparatus and method for generating facial composite image, recording medium for performing the method
WO2017193906A1 (zh) 一种图像处理方法及处理系统
CN103279936A (zh) 基于画像的人脸伪照片自动合成及修正方法
JP2009251893A (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
JP6929322B2 (ja) データ拡張システム、データ拡張方法、及びプログラム
US11282257B2 (en) Pose selection and animation of characters using video data and training techniques
CN111402181A (zh) 图像融合方法、装置及计算机可读存储介质
US10803677B2 (en) Method and system of automated facial morphing for eyebrow hair and face color detection
Mosayyebi et al. Gender recognition in masked facial images using EfficientNet and transfer learning approach
JP2015094973A (ja) 画像処理装置、画像処理方法、画像処理プログラム、及び記録媒体
US11361467B2 (en) Pose selection and animation of characters using video data and training techniques
US11715197B2 (en) Image segmentation method and device
Purps et al. Reconstructing facial expressions of hmd users for avatars in vr
CN113012030A (zh) 图像拼接方法、装置及设备
Patel et al. Deepfake video detection using neural networks
JP2022114443A (ja) 情報処理装置、情報処理方法及び顔画像分類装置
CN116152926A (zh) 基于视觉和骨架信息融合的手语识别方法、装置及系统
CN112801045B (zh) 一种文本区域检测方法、电子设备及计算机存储介质
CN113887468A (zh) 一种三阶段网络框架的单视角人-物交互的识别方法
KR102069073B1 (ko) 의약품 분류 장치, 이를 이용한 의약품 분류 방법 및 의약품 분류를 위한 학습 방법, 이를 수행하기 위한 기록매체
Goenetxea Imaz et al. Efficient multi-task based facial landmark and gesture detection in monocular images
Liu et al. Prediction with Visual Evidence: Sketch Classification Explanation via Stroke-Level Attributions