JP7311544B2

JP7311544B2 - 情報処理方法及び情報処理装置

Info

Publication number: JP7311544B2
Application number: JP2021030696A
Authority: JP
Inventors: チャオビンリー
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-03-23
Filing date: 2021-02-26
Publication date: 2023-07-19
Anticipated expiration: 2041-02-26
Also published as: CN113435226A; CN113435226B; KR20210118739A; JP2021149961A; KR102599977B1; US20210295015A1; EP3885980A1

Description

本発明の実施例は、コンピュータ技術の分野に関し、具体的にはインターネット技術の分野に関し、特に情報処理方法及び情報処理装置に関する。

顔検出（ＦａｃｅＤｅｔｅｃｔｉｏｎ）とは、任意の与えられた画像に対して、その中に顔が含まれているかどうかを確定するために、またはその中に含まれる顔の位置を確定するために、あるポリシーを用いて検索することを指す。

ディープニューラルネットワークを使用して画像の顔検出を実現することは、現在の顔検出の主流の方法である。ディープニューラルネットワークの重要な特徴の１つは、データ駆動であり、即ち、訓練に使われる大量のサンプルがあれば、ディープニューラルネットワークの検出効果が良い。

本発明の実施例は、情報処理方法及び情報処理装置を提案する。

第１の側面において、本発明の実施例は、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得し、ここで、顔画像に含まれる顔にはマスクを着用しないことと、マスク画像を取得し、且つキーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成し、ここで、マスク画像は、マスク画像セットに属し、マスク画像セットには、少なくとも１種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なることと、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここで、ディープニューラルネットワークは、顔を検出するために使用されることと、を含む情報処理方法に関する。

いくつかの実施例において、方法は、ターゲット顔画像を取得し、且つマスク画像セットからターゲットマスク画像を取得することと、ターゲットマスク画像を、ターゲット顔画像における顔以外の領域に結合することにより、結合結果を得ることと、結合結果を、ディープニューラルネットワークを訓練するための別のサンプルと確定することと、をさらに含む。

いくつかの実施例において、ディープニューラルネットワークの訓練ステップは、顔画像サンプルを取得し、顔画像サンプルを訓練待ちのディープニューラルネットワークに入力することと、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することにより、第１の予測結果を得ることと、第１の予測結果、顔画像サンプルがマスク着用顔を含むかどうかの参照結果、およびプリセット損失関数に基づいて、第１の予測結果に対応する損失値を確定することと、損失値に基づいて、訓練待ちのディープニューラルネットワークを訓練することにより、訓練された後のディープニューラルネットワークを得ることと、を含む。

いくつかの実施例において、訓練ステップは、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルに含まれる顔の位置を予測することにより、第２の予測結果を得ることをさらに含み、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することは、訓練待ちのディープニューラルネットワークを用いて、位置におけるオブジェクトがマスクを着用した顔であるかどうかを予測することにより、第１の予測結果を得ることを含む。

いくつかの実施例において、マスク着用顔画像を生成することの後、マスク着用顔画像に含まれるマスクの位置を調整することにより、調整された後のマスク着用顔画像を得て、ここで、マスクの位置は、縦位置を含むことをさらに含む。

いくつかの実施例において、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することは、マスク画像における指定点と顔のキーポイントの座標との間の第１のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新することにより、更新された後のマスク画像のサイズを取得された顔画像における顔のサイズに合致させ、ここで、第１のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含むことと、更新された後のマスク画像を顔画像に結合することにより、更新された後のマスク画像の少なくとも２つの指定点のうちの各指定点を、顔画像における当該指定点に対応するキーポイントに重ね合わせて、マスク着用顔を含むマスク着用顔画像を生成することと、を含む。

いくつかの実施例において、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することは、マスク画像における指定点と顔のキーポイントの座標との間の第２のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新し、更新された後のマスク画像を顔画像に結合することにより、第２のマスク着用顔画像を生成し、ここで、第２のマスク着用顔画像と第１のマスク着用顔画像において、マスク着用顔のマスクの位置には違いがあり、マスクの位置は縦位置を含むことを含む。

第２の側面において、本発明の実施例は、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得するように配置され、ここで、顔画像に含まれる顔にはマスクを着用しない取得ユニットと、マスク画像を取得し、且つキーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成するように配置され、ここで、マスク画像は、マスク画像セットに属し、マスク画像セットには、少なくとも１種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なる結合ユニットと、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定するように配置され、ここで、ディープニューラルネットワークは、顔を検出するために使用される確定ユニットと、を含む情報処理装置に関する。

いくつかの実施例において、装置は、ターゲット顔画像を取得し、且つマスク画像セットからターゲットマスク画像を取得するように配置されたターゲット取得ユニットと、ターゲットマスク画像を、ターゲット顔画像における顔以外の領域に結合することにより、結合結果を得るように配置されたターゲット結合ユニットと、結合結果を、ディープニューラルネットワークを訓練するための別のサンプルと確定するように配置されたサンプル確定ユニットと、をさらに含む。

いくつかの実施例において、訓練ステップは、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルに含まれる顔の位置を予測することにより、第２の予測結果を得ることをさらに含み、訓練待ちのディープューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することは、訓練待ちのディープニューラルネットワークを用いて、位置におけるオブジェクトがマスクを着用した顔であるかどうかを予測することにより、第１の予測結果を得ることを含む。

いくつかの実施例において、装置は、マスク着用顔画像を生成することの後、マスク着用顔画像に含まれるマスクの位置を調整することにより、調整された後のマスク着用顔画像を得るように配置され、ここで、マスクの位置は、縦位置を含む調整ユニットをさらに含む。

いくつかの実施例において、結合ユニットは、さらに、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することを以下のように実行するように配置され、即ち、マスク画像における指定点と顔のキーポイントの座標との間の第１のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新することにより、更新された後のマスク画像のサイズを取得された顔画像における顔のサイズに合致させ、ここで、第１のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含み、更新された後のマスク画像を顔画像に結合することにより、更新された後のマスク画像の少なくとも２つの指定点のうちの各指定点を、顔画像における当該指定点に対応するキーポイントに重ね合わせて、マスク着用顔を含むマスク着用顔画像を生成する。

いくつかの実施例において、結合ユニットは、さらに、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することを以下のように実行するように配置され、即ち、マスク画像における指定点と顔のキーポイントの座標との間の第２のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新し、更新された後のマスク画像を顔画像に結合することにより、第２のマスク着用顔画像を生成し、ここで、第２のマスク着用顔画像と第１のマスク着用顔画像において、マスク着用顔のマスクの位置には違いがあり、マスクの位置は縦位置を含む。

第３の側面において、本発明の実施例は、１つ以上のプロセッサと１つ以上のプログラムを記憶するための記憶装置とを含み、１つ以上のプログラムが１つ以上のプロセッサによって実行されるとき、情報処理方法のいずれかの実施例に記載の方法を１つ以上のプロセッサに実現させる電子機器に関する。

第４の側面において、本発明の実施例は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、当該コンピュータプログラムがプロセッサによって実行されるとき、情報処理方法のいずれかの実施例に記載の方法を実現するコンピュータ可読記憶媒体に関する。

第５の側面において、本発明の実施例は、コンピュータプログラムであって、当該コンピュータプログラムがプロセッサによって実行されると、情報処理方法のいずれかの実施例に記載の方法を実現するコンピュータプログラムに関する。

本発明の実施例による情報処理方法では、まず、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得し、ここで、顔画像に含まれる顔はマスクを着用しない。この後、マスク画像を取得し、且つキーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成し、ここで、マスク画像は、マスク画像セットに属し、マスク画像セットには、少なくとも１種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なる。最後に、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここで、ディープニューラルネットワークは、顔を検出するために使用される。本発明の実施例は、マスク画像セットにおける各種類のマスクを利用して、マスク着用顔サンプルを豊富に生成することにより、訓練によってマスク着用顔を正確に検出することができるディープニューラルネットワークを得ることに役立ち、ディープニューラルネットワークの汎化能力を向上させることができる。

本発明のその他の特徴、目的および利点をより明確にするために、以下の図面を参照してなされた非限定的な実施例の詳細な説明を参照する。
本発明のいくつかの実施例が適用可能な例示的なシステムアーキテクチャ図である。本発明による情報処理方法の一実施例のフローチャートである。本発明による情報処理方法の一応用シーンを示す概略図である。本発明による情報処理方法の別の実施例のフローチャートである。本発明による情報処理装置の一実施例の概略構成図である。本発明のいくつかの実施例を実現するために適用される電子機器のコンピュータシステムの概略構成図である。

以下、図面及び実施例を参照して本発明についてより詳細に説明する。ここで説明された具体的な実施例は、関連する発明を説明するためだけのものであり、この発明を制限するものではないことを理解できる。なお、説明を容易にするために、図面には関連する発明に関連する部分のみを示している。

なお、矛盾しない場合には、本発明の実施例及び実施例における特徴が互いに組み合わせることができる。以下、図面を参照して、実施例に合わせて本発明を詳細に説明する。

図１には、本発明が適用され得る、情報処理方法又は情報処理装置の実施例の例示的なシステムアーキテクチャ１００が示されている。

図１に示すように、システムアーキテクチャ１００は、端末機器１０１、１０２、１０３、ネットワーク１０４およびサーバー１０５を含むことができる。ネットワーク１０４は、端末機器１０１、１０２、１０３とサーバー１０５との間に通信リンクの媒体を提供するために使用される。ネットワーク１０４は、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。

ユーザは、端末機器１０１、１０２、１０３を使用してネットワーク１０４を介してサーバー１０５とインタラクティブすることにより、メッセージなどを送受信することができる。端末機器１０１、１０２、１０３には、例えば動画系アプリケーション、ライブ配信アプリケーション、即時通信ツール、メールクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションがインストールされることができる。

ここでの端末機器１０１、１０２、１０３は、ハードウェアでもソフトウェアでもよい。端末機器１０１、１０２、１０３がハードウェアである場合、ディスプレイを有する様々な電子機器であってもよく、スマートフォン、タブレット、電子書籍リーダー、ラップトップパソコン、デスクトップコンピュータなどを含むがこれらに限定されない。端末機器１０１、１０２、１０３がソフトウェアである場合、上記に挙げられた電子機器にインストールされることができる。それは、複数のソフトウェアまたはソフトウェアモジュール（例えば分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール）として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。

サーバー１０５は、様々なサービスを提供するサーバーであってもよく、例えば、端末機器１０１、１０２、１０３に対しサポートを提供するバックグラウンドサーバーである。バックグラウンドサーバーは、受信された顔画像などのデータに対し解析などの処理を行い、処理結果（例えばマスク着用顔画像）を端末機器にフィードバックすることができる。

なお、本発明の実施例による情報処理方法は、サーバー１０５または端末機器１０１、１０２、１０３によって実行されてもよく、これに対応して、情報処理装置は、サーバー１０５または端末機器１０１、１０２、１０３に配置されてもよい。

図１の端末機器、ネットワーク、およびサーバーの数は単なる例示であることを理解すべきである。必要に応じて、任意の数の端末機器、ネットワーク、およびサーバーを備えることができる。

続けて図２を参照すると、本発明による情報処理方法の一実施例のフロー２００が示されている。当該情報処理方法は、以下のステップを含む。

ステップ２０１において、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得し、ここで、顔画像に含まれる顔にはマスクを着用しない。

本実施例において、情報処理方法の実行主体（例えば図１に示されたサーバーまたは端末機器）は、顔画像を取得し、且つ当該顔画像における顔のキーポイントの座標を取得することができる。具体的には、上記実行主体は、ローカルまたは他の電子機器から上記顔画像を取得することができる。上記実行主体は、ローカルまたは他の電子機器から上記キーポイントの座標を直接に取得することができ、または上記実行主体は、上記顔画像に対しキーポイント検出を行うことができ、これによって、キーポイントの座標を取得することができる。上記顔画像における顔にはマスクを着用しない。

ステップ２０２において、マスク画像を取得し、且つキーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成し、ここで、マスク画像は、マスク画像セットに属し、マスク画像セットには、少なくとも１種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なる。

本実施例において、上記実行主体は、マスク画像を取得することもでき、且つ上記実行主体は、取得されたキーポイントの座標に基づいて、取得されたマスク画像を顔画像に結合し、結合によって得られた画像をマスク着用顔画像とすることができる。マスク着用顔画像にはマスク着用顔が存在し、即ちマスク着用された箇所の顔が遮蔽され、このようにして、顔画像における少なくとも１つの顔が局所的に遮蔽され、当該顔の全体像が現れない。

マスク画像は、マスク画像セットにおける画像である。当該マスク画像セットには、異なる種類のマスク画像を含むことができ、実践において、上記実行主体は、マスク画像セットからマスク画像をランダムに取得してもよいし、プリセット順序で取得してもよい。

実践において、上記実行主体は、様々な方式でキーポイントの座標に基づいて、マスク画像を顔画像に結合することができる。例を挙げると、上記実行主体は、上唇の中央の２つのキーポイントの連続線の中点をマスク画像の中心点が結合しようとする点として、マスク画像を顔画像にマッピングすることができる。

具体的には、上記実行主体は、マッピング方式でマスク画像を顔画像に結合することができるだけでなく、他の様々な方式を用いることができる。例えば、上記実行本体は、遮蔽、置き換え(マスク画像で顔画像の局所的画像を置き換え) を用いてもよく、またはマスク画像を顔画像の上に置いてもよい。

マスク画像は、顔画像における顔だけに結合することができ、このようにして得られたマスク着用顔画像におけるマスクは、元の顔の領域、即ち顔の検出矩形枠（ｂｏｕｎｄｉｎｇｂｏｘ）内にある。また、マスク画像は、顔だけでなく、顔の周囲の画像領域に結合することができ、このようにして得られたマスク着用顔画像におけるマスクの局所（例えばマスクの左、右、および/または下のエッジ）は、元の顔の領域以外にある。

ステップ２０３において、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここで、ディープニューラルネットワークは、顔を検出するために使用される。

本実施例において、上記実行主体は、生成されたマスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここでのディープニューラルネットワークは、顔（例えばマスクを着用した顔、マスクを着用していない顔）を検出するためのディープニューラルネットワークである。具体的には、当該ディープニューラルネットワークは、例えば畳み込みニューラルネットワーク、生成対抗ネットワークまたは残差ニューラルネットワークなどの顔を検出するために使用できる任意のディープニューラルネットワークである。

実践において、上記実行主体または他の電子装置は、マスク着用顔画像をサンプルとして、上記ディープニューラルネットワークを訓練することにより、訓練された後のディープニューラルネットワークを得ることができる。実際の訓練過程で用いられたサンプルには、一定の割合のマスク着用顔画像（割合が小さい）と一定の割合のマスクを着用していない顔を含む画像（割合が大きい）が含まれ、これにより、ディープニューラルネットワークが、顔だけでなく、マスクを着用した顔も正確に検出できるようになる。

本発明の上記実施例による方法は、マスク画像セットにおける各種類のマスクを利用して、マスク着用顔サンプルを豊富に生成することにより、訓練によってマスク着用顔を正確に検出することができるディープニューラルネットワークを得ることに役立ち、ディープニューラルネットワークの汎化能力を向上させることができる。

本実施例のいくつかの選択可能な実施形態において、上記方法は、ターゲット顔画像を取得し、且つマスク画像セットからターゲットマスク画像を取得することと、ターゲットマスク画像を、ターゲット顔画像における顔以外の領域に結合することにより、結合結果を得ることと、結合結果を、ディープニューラルネットワークを訓練するための別のサンプルと確定することと、をさらに含む。

これらの選択可能な実施形態において、上記実行主体は、ターゲット顔画像及びターゲットマスク画像を取得し、ターゲットマスク画像を、ターゲット顔画像における顔の領域以外の領域に結合することにより、結合結果を得ることができる。ここでのターゲット顔画像に含まれる顔には、マスクを着用していてもよいし、マスクを着用していなくてもよい。

これらの実現形態は、顔に着用されていないマスクを顔画像に追加することで、サンプル情報を豊かにすることができ、訓練された後のディープニューラルネットワークが、顔に着用されていないマスクをマスクを着用した顔と認識することを回避し、ひいてはディープニューラルネットワークの検出精度を向上させる。

本実施例のいくつかの選択可能な実施形態において、ディープニューラルネットワークの訓練ステップは、顔画像サンプルを取得し、顔画像サンプルを訓練待ちのディープニューラルネットワークに入力することと、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することにより、第１の予測結果を得ることと、第１の予測結果、顔画像サンプルがマスク着用顔を含むかどうかの参照結果、およびプリセット損失関数に基づいて、第１の予測結果に対応する損失値を確定することと、損失値に基づいて、訓練待ちのディープニューラルネットワークを訓練することにより、訓練された後のディープニューラルネットワークを得ることと、を含む。

これらの選択可能な実施形態において、上記実行主体は、訓練待ちのディープニューラルネットワークを用いて、取得された顔画像サンプルがマスク着用顔を含むかどうかを予測することができる。予測の結果、すなわち、第１の予測結果は、イエスかノーかの２つの結果を含んでもよいし、イエスと予測した確率を指してもよい。参照結果は、顔画像サンプルに対し予めマークされた実際のデータである。

上記実行主体または他の電子装置は、参照結果および第１の予測結果をプリセット損失関数に入力することにより、上記損失値を得ることができる。上記実行主体は、様々な方式で上記損失値に基づいて、訓練を行う。例えば、上記実行主体は、当該損失値を総損失値とし、当該損失値を使用して逆伝播することにより、訓練を行うことができる。また、上記実行本体は、当該損失値と他の損失値との和を総損失値として逆伝播することもできる。ここでの他の損失値は、例えば、顔の位置を検出する損失値を含むことができる。顔の位置は、矩形枠の頂点座標および／または幅、高さ（または長さ、幅）で表されることができる。例えば、顔の位置は、矩形枠の幅、高さ、および当該矩形枠の中点または左上角の頂点であってもよい。

これらの実現形態は、顔画像サンプルがマスク着用顔を含むかどうかに関する損失値を増加させることにより、マスク着用顔とマスクを着用しない顔との違いをディープニューラルネットワークにより良く学習させることができる。

これらの実施形態のいくつかの選択可能な応用シーンにおいて、上記訓練ステップは、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルに含まれる顔の位置を予測することにより、第２の予測結果を得ることをさらに含むことができ、これらの実施形態における訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することは、訓練待ちのディープニューラルネットワークを用いて、位置におけるオブジェクトがマスクを着用した顔であるかどうかを予測することにより、第１の予測結果を得ることを含むことができる。

これらの選択可能な応用シーンにおいて、上記実行主体は、顔画像サンプルにおける顔の位置、すなわち上記矩形枠の位置を予測することもでき、予測された位置は、第２の予測結果である。上記実行主体または他の電子装置は、第２の予測結果に含まれる位置におけるオブジェクトがマスク着用顔であるかどうかを予測することにより、第１の予測結果を得ることができる。

また、訓練ステップは、訓練待ちのディープニューラルネットワークを用いて、位置におけるオブジェクトが顔であるかどうかを予測することにより、第３の予測結果を得ることをさらに含むことができる。即ち、上記実行主体または他の電子装置は、当該位置、即ち矩形枠におけるオブジェクトが顔であるかどうか、予測された分類結果（イエスまたはノー）を予測することもできる。ここでの分類結果は、イエスかノーかのみを含んでもよいし、イエスと予測した確率を指してもよい。

実践において、上記実行主体または他の電子装置は、各予測結果及び当該予測結果に対応する参照結果に基づいて、当該予測結果の損失値を確定する。この後、各損失値を加算することにより、ディープニューラルネットワークを訓練するための総損失値が得られる。

これらの応用シーンにおいて、より正確な第１の予測結果を得るために、予測された位置においてオブジェクトがマスクを着用した顔であるかどうかを確定することにより、確定された損失値の正確さを高め、ひいては訓練された後のディープニューラルネットワークの精度を向上させることができる。

本実施例のいくつかの選択可能な実施形態において、ステップ２０２の後、上記方法は、マスク着用顔画像に含まれるマスクの位置を調整することにより、調整された後のマスク着用顔画像を得て、ここで、マスクの位置は、縦位置を含むことをさらに含むことができる。

これらの選択可能な実施形態において、上記実行主体は、マスク着用顔画像におけるマスクの位置を調整し、且つ調整された後のマスク着用顔画像を、ディープニューラルネットワークを訓練するサンプルとすることができる。調整されたマスクの位置は、横位置および/または縦位置を含むことができ、例えば、ここでの調整は、上方調整または下方調整を含むことができる。

これらの実施形態は、マスク着用顔画像を多様に生成することにより、異なる人がマスクを着用している実際の画像をよりリアルに模倣することができ、訓練に使用されるサンプルを充実させるだけでなく、訓練された後のディープニューラルネットワークのリコール率と検出精度を向上させることができる。

続けて図３を参照すると、図３は、本実施例による情報処理方法の応用シーンを示す概略図である。図３の応用シーンにおいて、実行主体３０１は、顔画像３０２を取得し、且つ顔画像３０２に含まれる顔のキーポイントの座標３０３を取得することができ、ここで、顔画像に含まれる顔にはマスクを着用しない。実行主体３０１は、マスク画像３０４を取得し、且つキーポイントの座標３０３に基づいて、マスク画像３０４を顔画像３０２に結合することにより、マスク着用顔を含むマスク着用顔画像３０５を生成し、ここで、マスク画像３０４は、マスク画像セットに属し、マスク画像セットには、少なくとも１種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なり、例えば、２種類のマスク画像は、それぞれ、灰色の活性炭マスクと白色のｎ９５マスクを含むことができる。マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここで、ディープニューラルネットワークは、顔を検出するために使用される。

さらに図４を参照して、情報処理方法の別の実施例のフロー４００が示されている。当該情報処理方法のフロー４００は、以下のステップを含む。

ステップ４０１において、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得し、ここで、顔画像に含まれる顔にはマスクを着用しない。

ステップ４０２において、マスク画像を取得し、マスク画像における指定点と顔のキーポイントの座標との間の第１のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新することにより、更新された後のマスク画像のサイズを取得された顔画像における顔のサイズに合致させ、ここで、第１のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含む。

本実施例において、上記実行主体は、マスク画像を取得することもでき、且つ上記実行主体は、プリセットされた対応関係（第１のプリセット対応関係）及び取得されたキーポイントの座標に基づいて、取得されたマスク画像のサイズを更新することができる。ここでのサイズは、幅および／または高さを指してもよいし、形状などを指してもよい。第１のプリセット対応関係、すなわちプリセットされたマッピング関係について、結合する際にマスク画像のサイズを顔画像における顔に合致させるように、マスク画像のサイズを更新した後、マスク画像の形状が更新前よりも変更できるようになる。例えば、顔画像における顔は広く、マスク画像はより広い幅の画像に更新されることができる。

ここでの更新された後のマスク画像のサイズは、取得された顔画像における顔のサイズに合致し、このようにして更新された後の顔画像をマスク画像に結合することによって得られたマスク着用顔画像において、顔に対するマスクの相対的なサイズが、適切である（例えば相対的なサイズがプリセット値の範囲内である）。

実践において、検出によって得られたキーポイントは、顔エッジのキーポイントを含むことができる。第１のプリセット対応関係に含まれるこれらの顔エッジのキーポイントの座標は、検出された顔エッジのキーポイントの座標のすべてまたは部分であってもよい。

上記指定点は、マスク画像において設定された任意の点、例えば、中心点またはマスクエッジの近くの点であってもよい。具体的には、マスクエッジの近くの点は、マスクエッジおよび／またはマスクエッジの周り（エッジとの距離がプリセット閾値より小さい）の点を含むことができる。

ステップ４０３において、更新された後のマスク画像を顔画像に結合することにより、更新された後のマスク画像の少なくとも２つの指定点のうちの各指定点を、顔画像における当該指定点に対応するキーポイントに重ね合わせて、マスク着用顔を含む第１のマスク着用顔画像を生成する。

本実施例において、上記実行主体は、更新された後のマスク画像を顔画像に結合することができ、画像間の結合を行う場合、マスク画像における指定点が、当該指定点に対応するキーポイントに重なり、ここでのキーポイントは、上記顔画像における、上記第１のプリセット対応関係におけるキーポイントである。

本実施例のいくつかの選択可能な実施形態において、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することは、マスク画像における指定点と顔のキーポイントの座標との間の第２のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新し、更新された後のマスク画像を顔画像に結合することにより、第２のマスク着用顔画像を生成し、ここで、第２のプリセット対応関係に対応する更新された後のマスク画像のサイズは、取得された顔画像における顔のサイズに合致し、第２のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含み、第２のマスク着用顔画像と第１のマスク着用顔画像において、マスク着用顔のマスクの位置には違いがあり、マスクの位置は縦位置を含むことを含むことができる。

これらの選択可能な実施形態において、上記実行主体は、第２のプリセット対応関係に基づいて、第２のマスク着用顔画像を生成することもできる。第１のマスク着用顔画像と第２のマスク着用顔画像の両方には、マスク着用顔が含まれる。これらの２つの対応関係を利用して生成されたマスク着用顔画像におけるマスクの位置（例えば、縦位置および/または横位置）には違いがある。

更新された後のマスク画像を顔画像に結合した後、更新された後のマスク画像の少なくとも２つの指定点のうちの各指定点が、顔画像における当該指定点に対応するキーポイントにも重ね合わせる。

これらの実施形態は、異なる対応関係を利用して、マスクの位置が異なるマスク着用顔画像を生成し、現実の生活の中で、ある人がマスクを高い位置に着用することを好み、ある人がその逆を好むことをシミュレートできる。このようにすると、訓練に使用されるサンプルを充実させるだけでなく、訓練された後のディープニューラルネットワークのリコール率と検出精度を向上させることができる。

ステップ４０４において、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここで、ディープニューラルネットワークは、顔を検出するために使用される。

本実施例において、上記実行主体は、生成されたマスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここでのディープニューラルネットワークは、顔を検出するためのディープニューラルネットワークである。

本実施例は、第１のプリセット対応関係を利用して、マスク画像のサイズを更新することにより、マスク画像を顔画像における顔により合致させ、得られたマスク着用顔画像をよりリアルにすることができる。ちなみに、マスク画像は、画像の結合の後に、元の顔画像における顔の局部の代わりに適切な位置で表示されることができる。

さらに図５を参照して、上記の各図に示された方法の実現として、本発明は情報処理装置の一実施例を提供し、当該装置の実施例は、図２に示す方法実施例に対応し、以下に記載される特徴に加えて、当該装置の実施例は、図２に示す方法実施例と同じまたは対応する特徴または効果を含むことができる。当該装置は、具体的に様々な電子機器に適用できる。

図５に示すように、本実施例に係る情報処理装置５００は、取得ユニット５０１と、結合ユニット５０２と、確定ユニット５０３とを含む。ここで、取得ユニット５０１は、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得するように配置され、ここで、顔画像に含まれる顔にはマスクを着用しない。結合ユニット５０２は、マスク画像を取得し、且つキーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成するように配置され、ここで、マスク画像は、マスク画像セットに属し、マスク画像セットには、少なくとも１種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なる。確定ユニット５０３は、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定するように配置され、ここで、ディープニューラルネットワークは、顔を検出するために使用される。

本実施例において、情報処理装置５００の取得ユニット５０１、結合ユニット５０２及び確定ユニット５０３の具体的な処理およびそれによる技術的効果について、図２の対応する実施例におけるステップ２０１、ステップ２０２、およびステップ２０３の関連説明をそれぞれ参照することができ、ここでは説明を省略する。

本実施例のいくつかの選択可能な実施形態において、装置は、ターゲット顔画像を取得し、且つマスク画像セットからターゲットマスク画像を取得するように配置されたターゲット取得ユニットと、ターゲットマスク画像を、ターゲット顔画像における顔以外の領域に結合することにより、結合結果を得るように配置されたターゲット結合ユニットと、結合結果を、ディープニューラルネットワークを訓練するための別のサンプルと確定するように配置されたサンプル確定ユニットと、をさらに含む。

本実施例のいくつかの選択可能な実施形態において、訓練ステップは、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルに含まれる顔の位置を予測することにより、第２の予測結果を得ることをさらに含み、訓練待ちのディープューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することは、訓練待ちのディープニューラルネットワークを用いて、位置におけるオブジェクトがマスクを着用した顔であるかどうかを予測することにより、第１の予測結果を得ることを含む。

本実施例のいくつかの選択可能な実施形態において、装置は、マスク着用顔画像を生成することの後、マスク着用顔画像に含まれるマスクの位置を調整することにより、調整された後のマスク着用顔画像を得るように配置され、ここで、マスクの位置は、縦位置を含む調整ユニットをさらに含む。

本実施例のいくつかの選択可能な実施形態において、結合ユニットは、さらに、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することを以下のように実行するように配置され、即ち、マスク画像における指定点と顔のキーポイントの座標との間の第１のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新することにより、更新された後のマスク画像のサイズを取得された顔画像における顔のサイズに合致させ、ここで、第１のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含み、更新された後のマスク画像を顔画像に結合することにより、更新された後のマスク画像の少なくとも２つの指定点のうちの各指定点を、顔画像における当該指定点に対応するキーポイントに重ね合わせて、マスク着用顔を含むマスク着用顔画像を生成する。

本実施例のいくつかの選択可能な実施形態において、結合ユニットは、さらに、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することを以下のように実行するように配置され、即ち、マスク画像における指定点と顔のキーポイントの座標との間の第２のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新し、更新された後のマスク画像を顔画像に結合することにより、第２のマスク着用顔画像を生成し、ここで、第２のマスク着用顔画像と第１のマスク着用顔画像において、マスク着用顔のマスクの位置には違いがあり、マスクの位置は縦位置を含む。

図６に示すように、電子機器６００は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されているプログラムまたは記憶部６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムに従って各種の適切な動作と処理を行うことができる処理装置（例えば中央処理装置、グラフィックスプロセッサなど）６０１を含むことができる。ＲＡＭ６０３には、電子機器６００の操作に必要な様々なプログラムとデータが記憶されている。処理装置６０１、ＲＯＭ６０２、およびＲＡＭ６０３は、バス６０４によって相互に接続されている。入力/出力(Ｉ/Ｏ)インターフェース６０５もバス６０４に接続されている。

通常、Ｉ/Ｏインターフェース６０５には、例えばタッチスクリーン、タッチパネル、キーボード、マウス、カメラ、マイク、加速度計、ジャイロなどを含む入力装置６０６と、例えば液晶ディスプレイ（ＬＣＤ）、スピーカー、振動器などを含む出力装置６０７と、例えば磁気テープ、ハードディスクなどを含む記憶装置６０８と、通信装置６０９とが接続されている。通信装置６０９は、データを交換するために電子機器６００が他の機器と無線通信または有線通信することを許可できる。図６は、様々な装置を有する電子機器６００を示しているが、図示されたすべての装置を実施または備えることが要求されないことを理解されたい。代わりに、より多くまたはより少ない装置を実施または備えることができる。図６に示した各ブロックは、１つの装置を表してもよく、必要に応じて複数の装置を表してもよい。

特に、本開示の実施例によると、上記のフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアのプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置７０９を介してネットワークからダウンロードされてインストールされ、または記憶装置７０８からインストールされ、またはＲＯＭ７０２からインストールされることができる。このコンピュータプログラムが処理装置７０１によって実行されるときに、本開示の実施例の方法で限定された上記の機能を実行する。なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、あるいはコンピュータ可読記憶媒体、または上記の両方の任意の組合せであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、あるいは半導体のシステム、装置またはデバイス、あるいは上記の任意の組合せであってもよいが、これらに限らない。コンピュータ可読記憶媒体のより具体的な例には、１本以上のワイヤによる電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、または上記の任意の組み合わせが含まれるが、これらに限らない。本開示の実施例では、コンピュータ可読記憶媒体は、プログラムを含むかまたは記憶する任意の有形の媒体であることができ、このプログラムは、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されることができる。本開示の実施例では、コンピュータが読み取り可能な信号媒体は、コンピュータが読み取り可能なプログラムコードを担持した、ベースバンド内でまたは搬送波の一部として伝播されるデータ信号を含んでもよい。このような伝播されたデータ信号は、多種の形式を採用でき、電磁気信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限らない。コンピュータが読み取り可能な信号媒体は、コンピュータ可読記憶媒体以外のいかなるコンピュータ可読媒体であってもよく、このコンピュータ可読信号媒体は、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されるためのプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体で伝送されることができ、ワイヤ、光ファイバケーブル、ＲＦ（無線周波数）など、または上記の任意の適切な組み合わせを含むが、これらに限らない。

図の中のフローチャートおよびブロック図には、本発明の様々な実施例によるシステム、方法とコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および操作が示されている。この点で、フローチャート又はブロック図の各ブロックは、１つのモジュール、プログラミングのセグメント、またはコードの一部を代表でき、当該モジュール、プログラミングのセグメント、またはコードの一部は、所定のロジック機能を実現するための１つ以上の実行可能指令を含む。また、いくつかの代替の実施例では、ブロックに示されている機能は、図面に示された順序と異なる順序で発生してもよいことに留意されたい。例えば、連続して示す２つのブロックは実際に並行して実行されてもよく、それらは係る機能に応じて時に逆の順序で実行されてもよい。ブロック図および／またはフローチャートの各ブロック、およびブロック図および／またはフローチャートのブロックの組み合わせは、特定の機能または操作を実行する専用のハードウェアによるシステムによって実現されてもよく、または専用ハードウェアとコンピュータ指令の組み合わせによって実現されてもよいことにも留意されたい。

本発明の実施例に係るユニットは、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明されたユニットは、プロセッサに設置されてもよく、例えば、「取得ユニットと、結合ユニットと、確定ユニットとを含むプロセッサである」と記載してもよい。ここで、これらのユニットの名は、ある場合にはそのユニット自体を限定しなくて、例えば、取得ユニットを「顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得するユニット」と記載してもよい。

別の側面として、本発明は、コンピュータ可読媒体をさらに提供し、当該コンピュータ可読媒体は、上記実施例で説明された装置に含まれてもよく、個別に存在し当該装置に組み込まれなくてもよい。上記のコンピュータ可読媒体は、１つ以上のプログラムを担持し、上記の１つ以上のプログラムが当該装置によって実行されたとき、当該装置は、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得し、ここで、顔画像に含まれる顔にはマスクを着用しなく、マスク画像を取得し、且つキーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成し、ここで、マスク画像は、マスク画像セットに属し、マスク画像セットには、少なくとも１種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なり、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここで、ディープニューラルネットワークは、顔を検出するために使用される。

上記の説明は、本発明の好ましい実施例および応用された技術の原理の説明にすぎない。本発明の実施例に係る発明の範囲が、上記の技術的特徴を組み合わせて得られた技術案に限定されず、同時に上記の発明の概念から逸脱しない場合に、上記の技術的特徴またはこれと同等の技術的特徴を任意に組み合わせて得られた他の技術案を含むべきであることを当業者は理解すべきである。例えば、上記の特徴が本発明において開示されているもの（しかしこれに限らず）と類似した機能を有する技術的特徴と相互に入れ替わって形成された技術案が挙げられる。

Claims

顔画像を取得し、且つ前記顔画像に含まれる顔のキーポイントの座標を取得するステップであって、前記顔画像に含まれる顔にはマスクを着用しない、ステップと、
マスク画像を取得し、且つ前記キーポイントの座標に基づいて、前記マスク画像を前記顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成するステップであって、前記マスク画像は、マスク画像セットに属し、前記マスク画像セットには、少なくとも１種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なる、ステップと、
前記マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定するステップであって、前記ディープニューラルネットワークは、顔を検出するために使用される、ステップと、
ターゲット顔画像を取得し、且つ前記マスク画像セットからターゲットマスク画像を取得するステップと、
前記ターゲットマスク画像を、前記ターゲット顔画像における顔以外の領域に結合することにより、結合結果を得るステップと、
前記結合結果を、前記ディープニューラルネットワークを訓練するための別のサンプルと確定するステップと、
を含み、
前記キーポイントの座標に基づいて、前記マスク画像を前記顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成するステップは、
前記マスク画像における指定点と顔のキーポイントの座標との間の第１のプリセット対応関係、および取得されたキーポイントの座標に基づいて、前記マスク画像のサイズを更新することにより、更新された後のマスク画像のサイズを取得された顔画像における顔のサイズに合致させ、ここで、前記第１のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含むことと、
更新された後のマスク画像を前記顔画像に結合することにより、更新された後のマスク画像の少なくとも２つの指定点のうちの各指定点を、前記顔画像における当該指定点に対応するキーポイントに重ね合わせて、マスク着用顔を含む第１のマスク着用顔画像を生成することと、
前記マスク画像における指定点と顔のキーポイントの座標との間の第２のプリセット対応関係、および取得されたキーポイントの座標に基づいて、前記マスク画像のサイズを更新し、更新された後のマスク画像を前記顔画像に結合することにより、第２のマスク着用顔画像を生成し、ここで、前記第２のマスク着用顔画像と前記第１のマスク着用顔画像において、マスク着用顔のマスクの位置には違いがあり、前記マスクの位置は縦位置を含むこと
を含む、情報処理方法。
前記ディープニューラルネットワークを訓練する訓練ステップを含み、
前記訓練ステップは、
顔画像サンプルを取得し、前記顔画像サンプルを訓練待ちのディープニューラルネットワークに入力することと、
前記訓練待ちのディープニューラルネットワークを用いて、前記顔画像サンプルがマスク着用顔を含むかどうかを予測することにより、第１の予測結果を得ることと、
前記第１の予測結果、前記顔画像サンプルがマスク着用顔を含むかどうかの参照結果、およびプリセット損失関数に基づいて、前記第１の予測結果に対応する損失値を確定することと、
前記損失値に基づいて、前記訓練待ちのディープニューラルネットワークを訓練することにより、訓練された後のディープニューラルネットワークを得ることと、
を含む、
請求項１に記載の方法。
前記訓練ステップは、
前記訓練待ちのディープニューラルネットワークを用いて、前記顔画像サンプルに含まれる顔の位置を予測することにより、第２の予測結果を得ることをさらに含み、
前記訓練待ちのディープニューラルネットワークを用いて、前記顔画像サンプルがマスク着用顔を含むかどうかを予測することは、
前記訓練待ちのディープニューラルネットワークを用いて、前記位置におけるオブジェクトがマスクを着用した顔であるかどうかを予測することにより、前記第１の予測結果を得ることを含む、
請求項２に記載の方法。
前記マスク着用顔画像を生成するステップの後、
前記マスク着用顔画像に含まれるマスクの位置を調整することにより、調整された後のマスク着用顔画像を得るステップであって、前記マスクの位置は、縦位置を含むステップをさらに含む、
請求項１に記載の方法。
顔画像を取得し、且つ前記顔画像に含まれる顔のキーポイントの座標を取得するように配置され、ここで、前記顔画像に含まれる顔にはマスクを着用しない取得ユニットと、
マスク画像を取得し、且つ前記キーポイントの座標に基づいて、前記マスク画像を前記顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成するように配置され、ここで、前記マスク画像は、マスク画像セットに属し、前記マスク画像セットには、少なくとも１種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なる結合ユニットと、
前記マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定するように配置され、ここで、前記ディープニューラルネットワークは、顔を検出するために使用される確定ユニットと、
ターゲット顔画像を取得し、且つ前記マスク画像セットからターゲットマスク画像を取得するように配置されたターゲット取得ユニットと、
前記ターゲットマスク画像を、前記ターゲット顔画像における顔以外の領域に結合することにより、結合結果を得るように配置されたターゲット結合ユニットと、
前記結合結果を、前記ディープニューラルネットワークを訓練するための別のサンプルと確定するように配置されたサンプル確定ユニットと、
を含み、
前記結合ユニットは、さらに、前記キーポイントの座標に基づいて、前記マスク画像を前記顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することを以下のように実行するように配置され、
即ち、前記マスク画像における指定点と顔のキーポイントの座標との間の第１のプリセット対応関係、および取得されたキーポイントの座標に基づいて、前記マスク画像のサイズを更新することにより、更新された後のマスク画像のサイズを取得された顔画像における顔のサイズに合致させ、ここで、前記第１のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含み、
更新された後のマスク画像を前記顔画像に結合することにより、更新された後のマスク画像の少なくとも２つの指定点のうちの各指定点を、前記顔画像における当該指定点に対応するキーポイントに重ね合わせて、マスク着用顔を含む第１のマスク着用顔画像を生成し、
前記マスク画像における指定点と顔のキーポイントの座標との間の第２のプリセット対応関係、および取得されたキーポイントの座標に基づいて、前記マスク画像のサイズを更新し、更新された後のマスク画像を前記顔画像に結合することにより、第２のマスク着用顔画像を生成し、ここで、前記第２のマスク着用顔画像と前記第１のマスク着用顔画像において、マスク着用顔のマスクの位置には違いがあり、前記マスクの位置は縦位置を含む、
情報処理装置。
前記ディープニューラルネットワークを訓練する訓練ステップを実行するように構成される訓練ユニットを更に含み、前記訓練ステップは、
顔画像サンプルを取得し、前記顔画像サンプルを訓練待ちのディープニューラルネットワークに入力することと、
前記訓練待ちのディープニューラルネットワークを用いて、前記顔画像サンプルがマスク着用顔を含むかどうかを予測することにより、第１の予測結果を得ることと、
前記第１の予測結果、前記顔画像サンプルがマスク着用顔を含むかどうかの参照結果、およびプリセット損失関数に基づいて、前記第１の予測結果に対応する損失値を確定することと、
前記損失値に基づいて、前記訓練待ちのディープニューラルネットワークを訓練することにより、訓練された後のディープニューラルネットワークを得ることと、
を含む、
請求項５に記載の装置。
前記訓練ステップは、
前記訓練待ちのディープニューラルネットワークを用いて、前記顔画像サンプルに含まれる顔の位置を予測することにより、第２の予測結果を得ることをさらに含み、
前記訓練待ちのディープューラルネットワークを用いて、前記顔画像サンプルがマスク着用顔を含むかどうかを予測することは、
前記訓練待ちのディープニューラルネットワークを用いて、前記位置におけるオブジェクトがマスクを着用した顔であるかどうかを予測することにより、前記第１の予測結果を得ることを含む、
請求項６に記載の装置。
前記マスク着用顔画像を生成することの後、前記マスク着用顔画像に含まれるマスクの位置を調整することにより、調整された後のマスク着用顔画像を得るように配置され、ここで、前記マスクの位置は、縦位置を含む調整ユニットをさらに含む、
請求項５に記載の装置。
１つ以上のプロセッサと、
１つ以上のプログラムを記憶するための記憶装置と、
を含み、
前記１つ以上のプログラムが前記１つ以上のプロセッサによって実行されるとき、請求項１から４のいずれか１項に記載の方法を前記１つ以上のプロセッサに実現させる、
電子機器。
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されるとき、請求項１から４のいずれか１項に記載の方法を実現する、
コンピュータ可読記憶媒体。
コンピュータプログラムであって、
プロセッサによって実行されるとき、請求項１から４のいずれか１項に記載の方法を実現する、コンピュータプログラム。