JP7119907B2

JP7119907B2 - 顔認識モデルの訓練方法及び訓練装置

Info

Publication number: JP7119907B2
Application number: JP2018203648A
Authority: JP
Inventors: ジャン・モン; リィウ・ルゥジエ; 俊孫
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-11-03
Filing date: 2018-10-30
Publication date: 2022-08-17
Anticipated expiration: 2038-10-30
Also published as: DE102018218767A1; CN109753850A; US20190138854A1; JP2019087242A; US10769499B2; CN109753850B

Description

本発明は、一般的に情報処理の技術分野に関し、具体的には、実際のシーンの眼鏡着用の割合と一致する訓練データを用いて顔認識モデルを訓練できる顔認識モデルの訓練方法及び訓練装置に関する。

近年、情報技術の発展に伴い、顔認識に基づくシステム及びアプリケーションが益々多くなっている。これは、大量の訓練データ及び畳み込みニューラルネットワーク（ＣＮＮ）が役に立ったからである。しかし、眼鏡を着用する顔の画像に対する顔認識は大きな課題である。その主な原因は、顔認識モデルを訓練するための眼鏡着用の顔画像が不足することである。現在、オープンな顔データベースとして、例えばＷｅｂＦａｃｅやＭＳ－Ｃｅｌｅｂ－１Ｍ等のデータベースがある。しかし、これらのデータベースが主に有名人の画像データであり、通常有名人が眼鏡を着用する場合は少ないため、これらのデータベースにおける眼鏡着用の割合は一般の大衆の眼鏡着用の割合よりも低い。また、有名人がサングラスを着用する場合は多く、一般の大衆が近視眼鏡を着用することとは異なる。大量の眼鏡着用の顔のデータを収集するには、明らかに手間やリソースがかかる。

上記の問題点を解決するために、本発明は、訓練画像における眼鏡着用の割合が実際のシーンにおける眼鏡着用の割合に一致し、顔認識モデルの訓練に適するように、眼鏡着用の画像を生成する方法を提案している。

従って、本発明は、実際のシーンの眼鏡着用の割合と一致する訓練データを用いて顔認識モデルを訓練する顔認識モデルの訓練方法及び訓練装置を提供することを目的とする。

以下は、本発明の態様を基本的に理解させるために、本発明の簡単な概要を説明する。なお、この簡単な概要は、本発明を網羅的な概要ではなく、本発明のポイント又は重要な部分を意図的に特定するものではなく、本発明の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。

本発明は、実際のシーンの眼鏡着用の割合と一致する訓練データを用いて顔認識モデルを訓練する顔認識モデルの訓練方法及び訓練装置を提供することを目的とする。

上記目的を達成するために、本発明の１つの態様では、実際のシーンから取得された、顔を含む画像からなる第１実際シーンデータから目の隈及びサングラスを除去し、第２実際シーンデータを取得するステップと、第２実際シーンデータにおける眼鏡着用の割合の統計を取るステップと、顔を含む画像からなる元の訓練データを眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分するステップであって、元の訓練データにおける眼鏡着用の割合は第２実際シーンデータにおける眼鏡着用の割合よりも低い、ステップと、眼鏡データ及び第２訓練データに基づいて、眼鏡着用の第３訓練データを生成するステップと、第３訓練データ及び元の訓練データに基づいて、第２実際シーンデータにおける眼鏡着用の割合に等しい眼鏡着用の割合を有する第４訓練データを生成するステップと、第４訓練データに基づいて、顔認識モデルを訓練するステップと、を含む、顔認識モデルの訓練方法を提供する。

本発明のもう１つの態様では、実際のシーンから取得された、顔を含む画像からなる第１実際シーンデータから目の隈及びサングラスを除去し、第２実際シーンデータを取得する除去手段と、第２実際シーンデータにおける眼鏡着用の割合の統計を取る統計手段と、顔を含む画像からなる元の訓練データを眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分する区分手段であって、元の訓練データにおける眼鏡着用の割合は第２実際シーンデータにおける眼鏡着用の割合よりも低い、区分手段と、眼鏡データ及び第２訓練データに基づいて、眼鏡着用の第３訓練データを生成する眼鏡付加手段と、第３訓練データ及び元の訓練データに基づいて、第２実際シーンデータにおける眼鏡着用の割合に等しい眼鏡着用の割合を有する第４訓練データを生成する割合調整手段と、第４訓練データに基づいて、顔認識モデルを訓練するモデル訓練手段と、を含む、顔認識モデルの訓練装置を提供する。

本発明のもう１つの態様では、機器が読み取り可能なプログラムコードを含む記憶媒体であって、前記プログラムコードが情報処理装置により実行される場合、前記情報処理装置に本発明の上記方法を実行させる、記憶媒体をさらに提供する。

また、本発明のもう１つの態様では、機器が実行可能な命令を含むプログラムプロダクトであって、前記命令が情報処理装置により実行される場合、前記情報処理装置に本発明の上記方法を実行させる、プログラムプロダクトをさらに提供する。

以下は、本発明の上記及び他の目的、特徴及び利点を理解させるために、図面を参照しながら本発明の実施例を説明する。図面における構成部は単なる本発明の原理を示すためのものである。図面において、同一又は類似の符号で同一又は類似の技術的特徴又は構成部を示している。
本発明の実施例に係る顔認識モデルの訓練方法を示すフローチャートである。眼鏡着用の有無に基づいて元の訓練データにおける顔を含む画像を区分する方法を示すフローチャートである。眼鏡着用の第３訓練データの生成方法を示す図である。目を小さくする結合方法を示す図である。本発明の実施例に係る顔認識モデルの訓練装置の構成を示すブロック図である。本発明の実施例に係る方法及び装置を実施可能なコンピュータの例示的な構成を示すブロック図である。

以下は図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。

なお、本発明を明確にするために、図面には本発明の実施例に密に関連する装置の構成及び／又は処理のステップのみが示され、本発明と関係のない細部が省略されている。また、本発明の１つの図面又は１つの実施形態に説明されている要素及び特徴と１つ又は複数の他の図面又は実施形態に示されている要素及び特徴とを組み合わせてもよい。

以下は、図１を参照しながら本発明の実施例に係る顔認識モデルの訓練方法の流れを説明する。

図１は本発明の実施例に係る顔認識モデルの訓練方法を示すフローチャートである。図１に示すように、該方法は以下のステップを含む。実際のシーンから取得された、顔を含む画像からなる第１実際シーンデータから目の隈及びサングラスを除去し、第２実際シーンデータを取得する（ステップＳ１）。第２実際シーンデータにおける眼鏡着用の割合の統計を取る（ステップＳ２）。顔を含む画像からなる元の訓練データを眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分し、ここで、元の訓練データにおける眼鏡着用の割合は第２実際シーンデータにおける眼鏡着用の割合よりも低い（ステップＳ３）。眼鏡データ及び第２訓練データに基づいて、眼鏡着用の第３訓練データを生成する（ステップＳ４）。第３訓練データ及び元の訓練データに基づいて、第２実際シーンデータにおける眼鏡着用の割合に等しい眼鏡着用の割合を有する第４訓練データを生成する（ステップＳ５）。第４訓練データに基づいて、顔認識モデルを訓練する（ステップＳ６）。

顔認識モデルの訓練は、顔モデルの認識精度、正確性に大きな影響を与える。また、顔認識モデルの訓練は、主に訓練データに依存する。上述したように、既存の顔認識モデルを用いて眼鏡着用の顔画像を認識し難い主な原因は、大量の眼鏡着用の訓練データが欠けていることである。実際には、異なる実際の応用シーンでは、眼鏡着用の割合が異なる。例えば、各会社のタイムレコーダは主に特定の会社の社員に適用され、各会社の眼鏡着用の人の割合が異なり、小学校、大学及び病院の眼鏡着用の人の割合も異なる。各実際の応用シーンについて、実際のシーンにおける眼鏡着用の割合と同一の眼鏡着用の割合を有する訓練データを用いて顔認識モデルを訓練し、該実際のシーンにおける該顔認識モデルの認識の正確率を向上させるものは求めている。

従って、まず、具体的な応用の実際のシーンにおける眼鏡着用の割合を知ることが必要である。

具体的な応用の実際のシーンから顔を含む画像を取得し、第１実際シーンデータを構成する。

画像データが眼鏡着用のものであるかを直接判断するという一般的な方法と異なって、本発明は判断の正確性を向上させるために前処理を行う。

目の隈及びサングラスが眼鏡着用の有無の判断に対して強い干渉効果を有するため、ステップＳ１において、第１実際シーンデータから目の隈及びサングラスを除去し、第２実際シーンデータを取得する。第２実際シーンデータを用いる眼鏡着用の有無の判断はより正確である。

ステップＳ２において、第２実際シーンデータにおける眼鏡着用の割合の統計を取る。

例えば、訓練された分類器又は畳み込みニューラルネットワークを用いて、第２実際シーンデータにおける顔を含む画像が眼鏡着用のものであるか否かを判断し、統計を取り、第２実際シーンデータにおける眼鏡着用の割合を、具体的な応用の実際のシーンにおける眼鏡着用の割合として取得してもよい。これは、本発明の眼鏡着用の割合の調整の目標である。分類器又は畳み込みニューラルネットワークの訓練データは、例えば眼鏡着用有無のラベルが付けられている、顔を含む画像により構成されたラベル付き訓練データである。

ステップＳ３において、顔を含む画像からなる元の訓練データを、眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分する。ここで、元の訓練データにおける眼鏡着用の割合は第２実際シーンデータにおける眼鏡着用の割合よりも低い。

元の訓練データは、例えばインターネットから取得され、上述したように、例えばＷｅｂＦａｃｅやＭＳ－Ｃｅｌｅｂ－１Ｍデータベースから取得されてもよいし、人間により手動で取得されてもよい。元の訓練データにおける眼鏡着用の割合は常に第２実際シーンデータにおける眼鏡着用の割合よりも低いため、元の訓練データにおける眼鏡着用の割合を第２実際シーンデータにおける眼鏡着用の割合と同一の割合に調整するように、眼鏡着用の画像の数を増加させる必要がある。

まず、元の訓練データを眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分し、そして、第２訓練データに眼鏡を付加することで眼鏡着用のデータ量を増加させる。元の訓練データにおける顔を含む画像が眼鏡着用のものであるか否かを正確に判断するために、図２に示すように、ステップＳ２１において、元の訓練データにおける顔の位置を検出する。顔検出は顔認識の基礎であり、従来技術を用いてステップＳ２１を実現してもよい。

ステップＳ２２において、元の訓練データにおける顔を標準の顔に合わせる（例えば位置合わせする）。標準の顔は顔の標準テンプレートであり、標準の顔における目、口元の位置は固定されている。ステップＳ２１において検出された顔を標準の顔に合わせることで、眼鏡着用の有無の判断の正確率を向上させることができる。合わせの技術は画像処理領域の既存技術である。

ステップＳ２３において、訓練された畳み込みニューラルネットワーク又は分類器（例えば上記ステップＳ２において用いられる畳み込みニューラルネットワーク又は分類器）を用いて、合わせられた元の訓練データにおける顔が眼鏡を着用しているか否かを判断し、元の訓練データを眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分する。

顔の位置を検出し、且つ標準の顔に合わせることで、元の訓練データにおける画像が眼鏡着用の有無の判断の正確率を向上させることができる。

以下は、眼鏡着用のデータ量を増加させる必要があり、増加の基礎は眼鏡非着用の第２訓練データである。

ステップＳ４において、眼鏡データ及び第２訓練データに基づいて、眼鏡着用の第３訓練データを生成する。

眼鏡データは、予め準備されたデータであり、フラットレンズ眼鏡、近視眼鏡、遠視眼鏡、サングラス等の各タイプの眼鏡、及び異なるフレームやレンズの形状、フレームの太さ、レンズの色等を含む。眼鏡データは、各タイプの眼鏡の特徴点情報、眼鏡画像、レンズ情報を含む。特徴点情報は、眼鏡の形状構造を示すものであり、眼鏡画像は、眼鏡を付加する時に重ね合わせられる内容であり、レンズ情報は、レンズとフレームとの境界を示すものである。分割アルゴリズムにより既存の眼鏡を眼鏡フレームと眼鏡レンズとに分割し、レンズ情報を取得することができる。

図３に示すように、眼鏡着用の第３訓練データの生成方法は下記のステップＳ３１～Ｓ３４を含む。既存の眼鏡タイプから眼鏡タイプをランダムに選択する（ステップＳ３１）。選択された眼鏡タイプに対応する眼鏡画像をランダムに変更する（ステップＳ３２）。第２訓練データにおける目の近傍の特徴点情報を認識する（ステップＳ３３）。ランダムに変更された眼鏡画像に対応する特徴点情報及び認識された目の近傍の特徴点情報に基づいて、アフィン変換により、第２訓練データにおける顔を含む画像とランダムに変更された眼鏡画像とを結合し、第３訓練データを取得する（ステップＳ３４）。

ステップＳ３１において、既存の眼鏡タイプから眼鏡タイプをランダムに選択する。即ち、例えば近視眼鏡、フレームやレンズの形状、フレームの太さ、レンズの色等のあるタイプの眼鏡データを選択し、対応する特徴点情報は眼鏡の形状構造を示すものであり、結合に用いられ、対応する眼鏡画像は、フレームやレンズの形状、フレームの太さ、レンズの色等を示すものであり、レンズ情報はレンズとフレームとの境界を示すものであり、後続の近視眼鏡に対する拡大／縮小処理に用いられる。

ステップＳ３２において、選択された眼鏡タイプに対応する眼鏡画像をランダムに変更する。

データベースにおける既存の眼鏡タイプに含まれるデータ量は限られている。しかし、眼鏡データの各方面の順列及び組み合わせは多様である。従って、選択された眼鏡タイプに対応する眼鏡画像をランダムに変更することで、顔認識モジュールをより好適に訓練するための眼鏡の種類を増加させることができる。

具体的には、眼鏡画像における眼鏡フレームを置き換えてもよく、眼鏡フレームは既存のタイプの眼鏡フレームに限定され、特定の形状、太さ、色等を含む。また、眼鏡フレームの太さをランダムに変更してもよく、即ち所定の合理的な範囲内で眼鏡フレームの太さを太くし、或いは細くしてもよい。また、眼鏡フレームの形状をランダムに変更してもよく、即ち既存の眼鏡フレームの太さ、色を維持したまま、その形状のみを変更する。また、眼鏡レンズの色をランダムに変更してもよい。色は、データベースにおける既存の眼鏡レンズの色に限定されず、人間の目が認識できる各種の色であってもよい。

ステップＳ３３において、第２訓練データにおける目の近傍の特徴点情報を認識する。顔特徴点検出アルゴリズム（ＦａｃｉａｌｌａｎｄｍａｒｋＤｅｔｅｃｔｉｏｎＡｌｇｏｒｉｔｈｍ）は６８個の顔特徴点を検出できる。目の近傍の約９個の特徴点のデータを用いて、眼鏡を適切な場所に付加することができる。

ステップＳ３４において、ランダムに変更された眼鏡画像に対応する特徴点情報及び認識された目の近傍の特徴点情報に基づいて、アフィン変換により、第２訓練データにおける顔を含む画像とランダムに変更された眼鏡画像とを結合し、第３訓練データを取得する。

眼鏡画像の特徴点情報及び目の近傍の特徴点情報を用いて、第２訓練データの顔画像とランダムに選択され、且つランダムに変更された眼鏡画像とを結合することができ、眼鏡付加の効果を実現できる。アフィン変換は、当業者にとって周知の技術であり、ここでその説明を省略する。

特に、選択された眼鏡が近視眼鏡である場合、近視眼鏡が凹レンズであることを考慮すれば、目が小さく見えるため、以下の特別の処理を用いて、第２訓練データにおける顔画像内の目の大きさを縮小する。

具体的には、図４に示すように、まず、ステップＳ４１において、ランダムに変更された眼鏡画像に対応する特徴点情報、レンズ情報及び認識された目の近傍の特徴点情報に基づいて、アフィン変換により、認識された目の周辺の結合領域及びレンズ領域を決定する。結合領域は、眼鏡画像と結合するための領域であり、レンズ領域は、眼鏡画像におけるレンズの所在する領域と結合するための領域、即ち結合領域におけるレンズに対応する領域である。

ステップＳ４２において、第２訓練データにおける顔画像から、目の周辺の、レンズ領域よりも大きい元の画像を抽出し、この部分の元の画像をレンズ領域と同一のサイズに拡大／縮小し、拡大／縮小の結果とランダムに変更された眼鏡画像とを重ね合わせる。重ね合わせ結果は、貼り付けデータと称される。

ステップＳ４３において、第２訓練データにおける顔画像内の結合領域における元のデータを貼り付けデータに置き換える。

貼り付けデータにおける元の画像の部分は目を含み、且つ第２訓練データにおける顔画像内の元のデータよりも小さくなるため、目が小さく見える効果を達成できる。

このように、ステップＳ４において、眼鏡着用の第３訓練データを生成した。眼鏡着用の第３訓練データを用いることで、最終的に得られた訓練データにおける眼鏡着用の割合が実際の応用シーンにおける眼鏡着用の割合に一致するように、元の訓練データにおける眼鏡着用の割合を高くすることができる。

ステップＳ５において、第３訓練データ及び元の訓練データに基づいて、第２実際シーンデータにおける眼鏡着用の割合に等しい眼鏡着用の割合を有する第４訓練データを生成する。

例えば、追加された第４訓練データにおける眼鏡着用の割合が第２実際シーンデータにおける眼鏡着用の割合に等しくなるまで、第３訓練データから適切な量のデータを選択し、元の訓練データに追加してもよい。

本発明の方法により得られた第４訓練データにおける眼鏡着用の割合は実際の応用シーンにおける眼鏡着用の割合に一致し、眼鏡の種類は豊富である。

ステップＳ６において、第４訓練データに基づいて、顔認識モデルを訓練する。

第４訓練データにおける眼鏡着用の割合は実際の応用シーンにおける眼鏡着用の割合に非常に一致するため、顔認識モデルの訓練効果は良く、訓練された顔認識モデルの認識の正確率は高い。

以下は、図５を参照しながら本発明の実施例に係る顔認識モデルの訓練装置を説明する。

図５は本発明の実施例に係る顔認識モデルの訓練装置の構成を示すブロック図である。図５に示すように、本発明の実施例に係る顔認識モデルの訓練装置５００は、除去部５１、統計部５２、区分部５３、眼鏡付加部５４、割合調整部５５及びモデル訓練部５６を含む。除去部５１は、実際のシーンから取得された、顔を含む画像からなる第１実際シーンデータから目の隈及びサングラスを除去し、第２実際シーンデータを取得する。統計部５２は、第２実際シーンデータにおける眼鏡着用の割合の統計を取る。区分部５３は、顔を含む画像からなる元の訓練データを眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分する。ここで、元の訓練データにおける眼鏡着用の割合は第２実際シーンデータにおける眼鏡着用の割合よりも低い。眼鏡付加部５４は、眼鏡データ及び第２訓練データに基づいて、眼鏡着用の第３訓練データを生成する。割合調整部５５は、第３訓練データ及び元の訓練データに基づいて、第２実際シーンデータにおける眼鏡着用の割合に等しい眼鏡着用の割合を有する第４訓練データを生成する。モデル訓練部５６は、第４訓練データに基づいて、顔認識モデルを訓練する。

１つの実施例では、区分部５３は、元の訓練データにおける顔の位置を検出する検出部と、元の訓練データにおける顔を標準の顔に合わせる合わせ部と、合わせられた元の訓練データにおける顔が眼鏡を着用しているか否かを判断し、元の訓練データを第１訓練データと第２訓練データとに区分する深層畳み込みニューラルネットワーク又は分類器と、を含む。

１つの実施例では、眼鏡データは、各タイプの眼鏡の特徴点情報、眼鏡画像、レンズ情報を含み、特徴点情報は、眼鏡の形状構造を示すものであり、レンズ情報は、レンズとフレームとの境界を示すものである。

１つの実施例では、眼鏡付加部５４は、既存の眼鏡タイプから眼鏡タイプをランダムに選択するタイプ選択部と、選択された眼鏡タイプに対応する眼鏡画像をランダムに変更する画像変更部と、第２訓練データにおける目の近傍の特徴点情報を認識する認識部と、ランダムに変更された眼鏡画像に対応する特徴点情報及び認識された目の近傍の特徴点情報に基づいて、アフィン変換により、第２訓練データにおける顔を含む画像とランダムに変更された眼鏡画像とを結合し、第３訓練データを取得する結合部と、を含む。

１つの実施例では、画像変更部は、既存のタイプの眼鏡フレームをランダムに選択し、眼鏡画像における眼鏡フレームを置き換えること、眼鏡フレームの太さをランダムに変更すること、眼鏡フレームの形状をランダムに変更すること、及び眼鏡レンズの色をランダムに変更することのうち少なくとも１つを行う。

１つの実施例では、選択された眼鏡タイプが近視眼鏡である場合、結合部は、ランダムに変更された眼鏡画像に対応する特徴点情報、レンズ情報及び認識された目の近傍の特徴点情報に基づいて、アフィン変換により、認識された目の周辺の結合領域及びレンズ領域を決定し、第２訓練データにおける顔を含む画像における目の周辺の、レンズ領域よりも大きい領域を画像から抽出し、レンズ領域と同一のサイズに拡大／縮小し、拡大／縮小の結果とランダムに変更された眼鏡画像とを重ね合わせ、貼り付けデータを取得し、結合領域における元のデータを貼り付けデータに置き換える。

１つの実施例では、元の訓練データはインターネットから取得され、或いは人間により手動で取得される。

本発明の顔認識モデルの訓練装置５００における各部の処理は上述した方法における各ステップの処理と類似するため、説明の便宜上、ここでこれらの処理の詳細な説明を省略する。

なお、上記装置における各構成部、ユニットはソフトウェア、ファームウェア、ハードウェア又はこれらの組み合わせにより構成されてもよい。構成に用いられる具体的な手段及び方法は当業者にとって周知であるため、ここでその説明を省略する。ソフトウェア又はファームウェアにより実施されている場合、記憶媒体又はネットワークから専用のハードウェア構成を有するコンピュータ（例えば図６示されている汎用コンピュータ６００）に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。

図６は本発明の実施例に係る方法及び装置を実施可能なコンピュータの例示的な構成を示すブロック図である。

図６において、中央処理部（即ちＣＰＵ）６０１は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されているプログラム、又は記憶部６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムにより各種の処理を実行する。ＲＡＭ６０３には、必要に応じて、ＣＰＵ６０１が各種の処理を実行するに必要なデータが記憶されている。ＣＰＵ６０１、ＲＯＭ６０２、及びＲＡＭ６０３は、バス６０４を介して互いに接続されている。入力／出力インターフェース６０５もバス６０４に接続されている。

入力部６０６（キーボード、マウスなどを含む）、出力部６０７（ディスプレイ、例えばブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、及びスピーカなどを含む）、記憶部６０８（例えばハードディスクなどを含む）、通信部６０９（例えばネットワークのインタフェースカード、例えばＬＡＮカード、モデムなどを含む）は、入力／出力インターフェース６０５に接続されている。通信部６０９は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライブ部６１０は、入力／出力インターフェース６０５に接続されてもよい。取り外し可能な媒体６１１は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部６１０にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部６０８にインストールされている。

ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体６１１を介してソフトウェアを構成するプログラムをインストールする。

なお、これらの記憶媒体は、図６に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体６１１に限定されない。取り外し可能な媒体６１１は、例えば磁気ディスク（フロッピーディスク（登録商標）を含む）、光ディスク（光ディスク－読み出し専用メモリ（ＣＤ－ＲＯＭ）、及びデジタル多目的ディスク（ＤＶＤ）を含む）、光磁気ディスク（ミニディスク（ＭＤ）（登録商標））及び半導体メモリを含む。或いは、記憶媒体は、ＲＯＭ６０２、記憶部６０８に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。

本発明は、機器が読み取り可能な命令コードを記憶したプログラムプロダクトをさらに提供する。該命令コードが機器により読み取られ、実行される際に、上記本発明の実施例に係る方法を実行できる。

それに応じて、本発明は、機器が読み取り可能な命令コードを記憶したプログラムプロダクトが記録されている記憶媒体をさらに提供する。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。

上記本発明の具体的な実施例の説明では、１つの実施形態における説明及び／又は特徴は同一又は類似の方式で他の１つ又は複数の実施形態において用いられてもよいし、他の実施形態における特徴と組み合わせてもよいし、他の実施形態における特徴を置き換えてもよい。

なお、用語「含む」又は「有する」は本明細書において特徴、要素、ステップ又は構成の存在を意味し、他の特徴、要素、ステップ又は構成の存在又は付加を排除することではない。

また、本発明の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本発明の技術的な範囲を限定するものではない。

以上は図面を参照しながら本発明の好ましい実施例を説明しているが、上記実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本発明に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本発明の保護範囲に含まれるものである。

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
実際のシーンから取得された、顔を含む画像からなる第１実際シーンデータから目の隈及びサングラスを除去し、第２実際シーンデータを取得するステップと、
第２実際シーンデータにおける眼鏡着用の割合の統計を取るステップと、
顔を含む画像からなる元の訓練データを眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分するステップであって、元の訓練データにおける眼鏡着用の割合は第２実際シーンデータにおける眼鏡着用の割合よりも低い、ステップと、
眼鏡データ及び第２訓練データに基づいて、眼鏡着用の第３訓練データを生成するステップと、
第３訓練データ及び元の訓練データに基づいて、第２実際シーンデータにおける眼鏡着用の割合に等しい眼鏡着用の割合を有する第４訓練データを生成するステップと、
第４訓練データに基づいて、顔認識モデルを訓練するステップと、を含む、顔認識モデルの訓練方法。
（付記２）
前記元の訓練データを第１訓練データと第２訓練データとに区分するステップは、
元の訓練データにおける顔の位置を検出するステップと、
元の訓練データにおける顔を標準の顔に合わせるステップと、
深層畳み込みニューラルネットワーク又は分類器を用いて、合わせられた元の訓練データにおける顔が眼鏡を着用しているか否かを判断し、元の訓練データを第１訓練データと第２訓練データとに区分するステップと、を含む、付記１に記載の顔認識モデルの訓練方法。
（付記３）
眼鏡データは、各タイプの眼鏡の特徴点情報、眼鏡画像、レンズ情報を含み、
特徴点情報は、眼鏡の形状構造を示すものであり、
レンズ情報は、レンズとフレームとの境界を示すものである、付記１に記載の顔認識モデルの訓練方法。
（付記４）
前記眼鏡データ及び第２訓練データに基づいて眼鏡着用の第３訓練データを生成するステップは、
既存の眼鏡タイプから眼鏡タイプをランダムに選択するステップと、
選択された眼鏡タイプに対応する眼鏡画像をランダムに変更するステップと、
第２訓練データにおける目の近傍の特徴点情報を認識するステップと、
ランダムに変更された眼鏡画像に対応する特徴点情報及び認識された目の近傍の特徴点情報に基づいて、アフィン変換により、第２訓練データにおける顔を含む画像とランダムに変更された眼鏡画像とを結合し、第３訓練データを取得するステップと、を含む、付記３に記載の顔認識モデルの訓練方法。
（付記５）
前記選択された眼鏡タイプに対応する眼鏡画像をランダムに変更するステップは、
既存のタイプの眼鏡フレームをランダムに選択し、眼鏡画像における眼鏡フレームを置き換えること、
眼鏡フレームの太さをランダムに変更すること、
眼鏡フレームの形状をランダムに変更すること、及び
眼鏡レンズの色をランダムに変更することのうち少なくとも１つを含む、付記４に記載の顔認識モデルの訓練方法。
（付記６）
前記選択された眼鏡タイプが近視眼鏡である場合、前記第２訓練データにおける顔を含む画像とランダムに変更された眼鏡画像とを結合するステップは、
ランダムに変更された眼鏡画像に対応する特徴点情報、レンズ情報及び認識された目の近傍の特徴点情報に基づいて、アフィン変換により、認識された目の周辺の結合領域及びレンズ領域を決定するステップと、
第２訓練データにおける顔を含む画像における目の周辺の、レンズ領域よりも大きい領域を画像から抽出し、レンズ領域と同一のサイズに拡大／縮小し、拡大／縮小の結果とランダムに変更された眼鏡画像とを重ね合わせ、貼り付けデータを取得するステップと、
結合領域における元のデータを貼り付けデータに置き換えるステップと、を含む、付記４に記載の顔認識モデルの訓練方法。
（付記７）
元の訓練データはインターネットから取得され、或いは人間により手動で取得される、付記１に記載の顔認識モデルの訓練方法。
（付記８）
実際のシーンから取得された、顔を含む画像からなる第１実際シーンデータから目の隈及びサングラスを除去し、第２実際シーンデータを取得する除去手段と、
第２実際シーンデータにおける眼鏡着用の割合の統計を取る統計手段と、
顔を含む画像からなる元の訓練データを眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分する区分手段であって、元の訓練データにおける眼鏡着用の割合は第２実際シーンデータにおける眼鏡着用の割合よりも低い、区分手段と、
眼鏡データ及び第２訓練データに基づいて、眼鏡着用の第３訓練データを生成する眼鏡付加手段と、
第３訓練データ及び元の訓練データに基づいて、第２実際シーンデータにおける眼鏡着用の割合に等しい眼鏡着用の割合を有する第４訓練データを生成する割合調整手段と、
第４訓練データに基づいて、顔認識モデルを訓練するモデル訓練手段と、を含む、顔認識モデルの訓練装置。
（付記９）
前記区分手段は、
元の訓練データにおける顔の位置を検出する検出手段と、
元の訓練データにおける顔を標準の顔に合わせる合わせ手段と、
合わせられた元の訓練データにおける顔が眼鏡を着用しているか否かを判断し、元の訓練データを第１訓練データと第２訓練データとに区分する深層畳み込みニューラルネットワーク又は分類器と、を含む、付記８に記載の顔認識モデルの訓練装置。
（付記１０）
眼鏡データは、各タイプの眼鏡の特徴点情報、眼鏡画像、レンズ情報を含み、
特徴点情報は、眼鏡の形状構造を示すものであり、
レンズ情報は、レンズとフレームとの境界を示すものである、付記８に記載の顔認識モデルの訓練装置。
（付記１１）
前記眼鏡付加手段は、
既存の眼鏡タイプから眼鏡タイプをランダムに選択するタイプ選択手段と、
選択された眼鏡タイプに対応する眼鏡画像をランダムに変更する画像変更手段と、
第２訓練データにおける目の近傍の特徴点情報を認識する認識手段と、
ランダムに変更された眼鏡画像に対応する特徴点情報及び認識された目の近傍の特徴点情報に基づいて、アフィン変換により、第２訓練データにおける顔を含む画像とランダムに変更された眼鏡画像とを結合し、第３訓練データを取得する結合手段と、を含む、付記１０に記載の顔認識モデルの訓練装置。
（付記１２）
前記画像変更手段は、
既存のタイプの眼鏡フレームをランダムに選択し、眼鏡画像における眼鏡フレームを置き換えること、
眼鏡フレームの太さをランダムに変更すること、
眼鏡フレームの形状をランダムに変更すること、及び
眼鏡レンズの色をランダムに変更することのうち少なくとも１つを行う、付記１１に記載の顔認識モデルの訓練装置。
（付記１３）
前記選択された眼鏡タイプが近視眼鏡である場合、前記結合手段は、
ランダムに変更された眼鏡画像に対応する特徴点情報、レンズ情報及び認識された目の近傍の特徴点情報に基づいて、アフィン変換により、認識された目の周辺の結合領域及びレンズ領域を決定し、
第２訓練データにおける顔を含む画像における目の周辺の、レンズ領域よりも大きい領域を画像から抽出し、レンズ領域と同一のサイズに拡大／縮小し、拡大／縮小の結果とランダムに変更された眼鏡画像とを重ね合わせ、貼り付けデータを取得し、
結合領域における元のデータを貼り付けデータに置き換える、付記１１に記載の顔認識モデルの訓練装置。
（付記１４）
元の訓練データはインターネットから取得され、或いは人間により手動で取得される、付記８に記載の顔認識モデルの訓練装置。
（付記１５）
プログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、前記プログラムが情報処理装置により実行された場合、前記情報処理装置に、
実際のシーンから取得された、顔を含む画像からなる第１実際シーンデータから目の隈及びサングラスを除去し、第２実際シーンデータを取得するステップと、
第２実際シーンデータにおける眼鏡着用の割合の統計を取るステップと、
顔を含む画像からなる元の訓練データを眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分するステップであって、元の訓練データにおける眼鏡着用の割合は第２実際シーンデータにおける眼鏡着用の割合よりも低い、ステップと、
眼鏡データ及び第２訓練データに基づいて、眼鏡着用の第３訓練データを生成するステップと、
第３訓練データ及び元の訓練データに基づいて、第２実際シーンデータにおける眼鏡着用の割合に等しい眼鏡着用の割合を有する第４訓練データを生成するステップと、
第４訓練データに基づいて、顔認識モデルを訓練するステップと、を実行させる、コンピュータ読み取り可能な記憶媒体。

Claims

実際のシーンから取得された、顔を含む画像からなる第１実際シーンデータから目の隈及びサングラスを除去し、第２実際シーンデータを取得するステップと、
第２実際シーンデータにおける眼鏡着用の割合の統計を取るステップと、
顔を含む画像からなる元の訓練データを眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分するステップであって、元の訓練データにおける眼鏡着用の割合は第２実際シーンデータにおける眼鏡着用の割合よりも低い、ステップと、
眼鏡データ及び第２訓練データに基づいて、眼鏡着用の第３訓練データを生成するステップと、
第３訓練データ及び元の訓練データに基づいて、第２実際シーンデータにおける眼鏡着用の割合に等しい眼鏡着用の割合を有する第４訓練データを生成するステップと、
第４訓練データに基づいて、顔認識モデルを訓練するステップと、を含む、顔認識モデルの訓練方法。
前記元の訓練データを第１訓練データと第２訓練データとに区分するステップは、
元の訓練データにおける顔の位置を検出するステップと、
元の訓練データにおける顔を標準の顔に合わせるステップと、
深層畳み込みニューラルネットワーク又は分類器を用いて、合わせられた元の訓練データにおける顔が眼鏡を着用しているか否かを判断し、元の訓練データを第１訓練データと第２訓練データとに区分するステップと、を含む、請求項１に記載の顔認識モデルの訓練方法。
眼鏡データは、各タイプの眼鏡の特徴点情報、眼鏡画像、レンズ情報を含み、
特徴点情報は、眼鏡の形状構造を示すものであり、
レンズ情報は、レンズとフレームとの境界を示すものである、請求項１に記載の顔認識モデルの訓練方法。
前記眼鏡データ及び第２訓練データに基づいて眼鏡着用の第３訓練データを生成するステップは、
既存の眼鏡タイプから眼鏡タイプをランダムに選択するステップと、
選択された眼鏡タイプに対応する眼鏡画像をランダムに変更するステップと、
第２訓練データにおける目の近傍の特徴点情報を認識するステップと、
ランダムに変更された眼鏡画像に対応する特徴点情報及び認識された目の近傍の特徴点情報に基づいて、アフィン変換により、第２訓練データにおける顔を含む画像とランダムに変更された眼鏡画像とを結合し、第３訓練データを取得するステップと、を含む、請求項３に記載の顔認識モデルの訓練方法。
前記選択された眼鏡タイプに対応する眼鏡画像をランダムに変更するステップは、
既存のタイプの眼鏡フレームをランダムに選択し、眼鏡画像における眼鏡フレームを置き換えること、
眼鏡フレームの太さをランダムに変更すること、
眼鏡フレームの形状をランダムに変更すること、及び
眼鏡レンズの色をランダムに変更することのうち少なくとも１つを含む、請求項４に記載の顔認識モデルの訓練方法。
前記選択された眼鏡タイプが近視眼鏡である場合、前記第２訓練データにおける顔を含む画像とランダムに変更された眼鏡画像とを結合するステップは、
ランダムに変更された眼鏡画像に対応する特徴点情報、レンズ情報及び認識された目の近傍の特徴点情報に基づいて、アフィン変換により、認識された目の周辺の結合領域及びレンズ領域を決定するステップと、
第２訓練データにおける顔を含む画像における目の周辺の、レンズ領域よりも大きい領域を画像から抽出し、レンズ領域と同一のサイズに拡大／縮小し、拡大／縮小の結果とランダムに変更された眼鏡画像とを重ね合わせ、貼り付けデータを取得するステップと、
結合領域における元のデータを貼り付けデータに置き換えるステップと、を含む、請求項４に記載の顔認識モデルの訓練方法。
元の訓練データはインターネットから取得され、或いは人間により手動で取得される、請求項１に記載の顔認識モデルの訓練方法。
実際のシーンから取得された、顔を含む画像からなる第１実際シーンデータから目の隈及びサングラスを除去し、第２実際シーンデータを取得する除去手段と、
第２実際シーンデータにおける眼鏡着用の割合の統計を取る統計手段と、
顔を含む画像からなる元の訓練データを眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分する区分手段であって、元の訓練データにおける眼鏡着用の割合は第２実際シーンデータにおける眼鏡着用の割合よりも低い、区分手段と、
眼鏡データ及び第２訓練データに基づいて、眼鏡着用の第３訓練データを生成する眼鏡付加手段と、
第３訓練データ及び元の訓練データに基づいて、第２実際シーンデータにおける眼鏡着用の割合に等しい眼鏡着用の割合を有する第４訓練データを生成する割合調整手段と、
第４訓練データに基づいて、顔認識モデルを訓練するモデル訓練手段と、を含む、顔認識モデルの訓練装置。
前記区分手段は、
元の訓練データにおける顔の位置を検出する検出手段と、
元の訓練データにおける顔を標準の顔に合わせる合わせ手段と、
合わせられた元の訓練データにおける顔が眼鏡を着用しているか否かを判断し、元の訓練データを第１訓練データと第２訓練データとに区分する深層畳み込みニューラルネットワーク又は分類器と、を含む、請求項８に記載の顔認識モデルの訓練装置。
プログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、前記プログラムが情報処理装置により実行された場合、前記情報処理装置に、
実際のシーンから取得された、顔を含む画像からなる第１実際シーンデータから目の隈及びサングラスを除去し、第２実際シーンデータを取得するステップと、
第２実際シーンデータにおける眼鏡着用の割合の統計を取るステップと、
顔を含む画像からなる元の訓練データを眼鏡着用の第１訓練データと眼鏡非着用の第２訓練データとに区分するステップであって、元の訓練データにおける眼鏡着用の割合は第２実際シーンデータにおける眼鏡着用の割合よりも低い、ステップと、
眼鏡データ及び第２訓練データに基づいて、眼鏡着用の第３訓練データを生成するステップと、
第３訓練データ及び元の訓練データに基づいて、第２実際シーンデータにおける眼鏡着用の割合に等しい眼鏡着用の割合を有する第４訓練データを生成するステップと、
第４訓練データに基づいて、顔認識モデルを訓練するステップと、を実行させる、コンピュータ読み取り可能な記憶媒体。