JP7311544B2 - 情報処理方法及び情報処理装置 - Google Patents

情報処理方法及び情報処理装置 Download PDF

Info

Publication number
JP7311544B2
JP7311544B2 JP2021030696A JP2021030696A JP7311544B2 JP 7311544 B2 JP7311544 B2 JP 7311544B2 JP 2021030696 A JP2021030696 A JP 2021030696A JP 2021030696 A JP2021030696 A JP 2021030696A JP 7311544 B2 JP7311544 B2 JP 7311544B2
Authority
JP
Japan
Prior art keywords
mask
image
face
wearing
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021030696A
Other languages
English (en)
Other versions
JP2021149961A (ja
Inventor
チャオビン リー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021149961A publication Critical patent/JP2021149961A/ja
Application granted granted Critical
Publication of JP7311544B2 publication Critical patent/JP7311544B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Description

本発明の実施例は、コンピュータ技術の分野に関し、具体的にはインターネット技術の分野に関し、特に情報処理方法及び情報処理装置に関する。
顔検出(Face Detection)とは、任意の与えられた画像に対して、その中に顔が含まれているかどうかを確定するために、またはその中に含まれる顔の位置を確定するために、あるポリシーを用いて検索することを指す。
ディープニューラルネットワークを使用して画像の顔検出を実現することは、現在の顔検出の主流の方法である。ディープニューラルネットワークの重要な特徴の1つは、データ駆動であり、即ち、訓練に使われる大量のサンプルがあれば、ディープニューラルネットワークの検出効果が良い。
本発明の実施例は、情報処理方法及び情報処理装置を提案する。
第1の側面において、本発明の実施例は、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得し、ここで、顔画像に含まれる顔にはマスクを着用しないことと、マスク画像を取得し、且つキーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成し、ここで、マスク画像は、マスク画像セットに属し、マスク画像セットには、少なくとも1種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なることと、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここで、ディープニューラルネットワークは、顔を検出するために使用されることと、を含む情報処理方法に関する。
いくつかの実施例において、方法は、ターゲット顔画像を取得し、且つマスク画像セットからターゲットマスク画像を取得することと、ターゲットマスク画像を、ターゲット顔画像における顔以外の領域に結合することにより、結合結果を得ることと、結合結果を、ディープニューラルネットワークを訓練するための別のサンプルと確定することと、をさらに含む。
いくつかの実施例において、ディープニューラルネットワークの訓練ステップは、顔画像サンプルを取得し、顔画像サンプルを訓練待ちのディープニューラルネットワークに入力することと、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することにより、第1の予測結果を得ることと、第1の予測結果、顔画像サンプルがマスク着用顔を含むかどうかの参照結果、およびプリセット損失関数に基づいて、第1の予測結果に対応する損失値を確定することと、損失値に基づいて、訓練待ちのディープニューラルネットワークを訓練することにより、訓練された後のディープニューラルネットワークを得ることと、を含む。
いくつかの実施例において、訓練ステップは、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルに含まれる顔の位置を予測することにより、第2の予測結果を得ることをさらに含み、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することは、訓練待ちのディープニューラルネットワークを用いて、位置におけるオブジェクトがマスクを着用した顔であるかどうかを予測することにより、第1の予測結果を得ることを含む。
いくつかの実施例において、マスク着用顔画像を生成することの後、マスク着用顔画像に含まれるマスクの位置を調整することにより、調整された後のマスク着用顔画像を得て、ここで、マスクの位置は、縦位置を含むことをさらに含む。
いくつかの実施例において、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することは、マスク画像における指定点と顔のキーポイントの座標との間の第1のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新することにより、更新された後のマスク画像のサイズを取得された顔画像における顔のサイズに合致させ、ここで、第1のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含むことと、更新された後のマスク画像を顔画像に結合することにより、更新された後のマスク画像の少なくとも2つの指定点のうちの各指定点を、顔画像における当該指定点に対応するキーポイントに重ね合わせて、マスク着用顔を含むマスク着用顔画像を生成することと、を含む。
いくつかの実施例において、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することは、マスク画像における指定点と顔のキーポイントの座標との間の第2のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新し、更新された後のマスク画像を顔画像に結合することにより、第2のマスク着用顔画像を生成し、ここで、第2のマスク着用顔画像と第1のマスク着用顔画像において、マスク着用顔のマスクの位置には違いがあり、マスクの位置は縦位置を含むことを含む。
第2の側面において、本発明の実施例は、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得するように配置され、ここで、顔画像に含まれる顔にはマスクを着用しない取得ユニットと、マスク画像を取得し、且つキーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成するように配置され、ここで、マスク画像は、マスク画像セットに属し、マスク画像セットには、少なくとも1種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なる結合ユニットと、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定するように配置され、ここで、ディープニューラルネットワークは、顔を検出するために使用される確定ユニットと、を含む情報処理装置に関する。
いくつかの実施例において、装置は、ターゲット顔画像を取得し、且つマスク画像セットからターゲットマスク画像を取得するように配置されたターゲット取得ユニットと、ターゲットマスク画像を、ターゲット顔画像における顔以外の領域に結合することにより、結合結果を得るように配置されたターゲット結合ユニットと、結合結果を、ディープニューラルネットワークを訓練するための別のサンプルと確定するように配置されたサンプル確定ユニットと、をさらに含む。
いくつかの実施例において、ディープニューラルネットワークの訓練ステップは、顔画像サンプルを取得し、顔画像サンプルを訓練待ちのディープニューラルネットワークに入力することと、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することにより、第1の予測結果を得ることと、第1の予測結果、顔画像サンプルがマスク着用顔を含むかどうかの参照結果、およびプリセット損失関数に基づいて、第1の予測結果に対応する損失値を確定することと、損失値に基づいて、訓練待ちのディープニューラルネットワークを訓練することにより、訓練された後のディープニューラルネットワークを得ることと、を含む。
いくつかの実施例において、訓練ステップは、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルに含まれる顔の位置を予測することにより、第2の予測結果を得ることをさらに含み、訓練待ちのディープューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することは、訓練待ちのディープニューラルネットワークを用いて、位置におけるオブジェクトがマスクを着用した顔であるかどうかを予測することにより、第1の予測結果を得ることを含む。
いくつかの実施例において、装置は、マスク着用顔画像を生成することの後、マスク着用顔画像に含まれるマスクの位置を調整することにより、調整された後のマスク着用顔画像を得るように配置され、ここで、マスクの位置は、縦位置を含む調整ユニットをさらに含む。
いくつかの実施例において、結合ユニットは、さらに、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することを以下のように実行するように配置され、即ち、マスク画像における指定点と顔のキーポイントの座標との間の第1のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新することにより、更新された後のマスク画像のサイズを取得された顔画像における顔のサイズに合致させ、ここで、第1のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含み、更新された後のマスク画像を顔画像に結合することにより、更新された後のマスク画像の少なくとも2つの指定点のうちの各指定点を、顔画像における当該指定点に対応するキーポイントに重ね合わせて、マスク着用顔を含むマスク着用顔画像を生成する。
いくつかの実施例において、結合ユニットは、さらに、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することを以下のように実行するように配置され、即ち、マスク画像における指定点と顔のキーポイントの座標との間の第2のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新し、更新された後のマスク画像を顔画像に結合することにより、第2のマスク着用顔画像を生成し、ここで、第2のマスク着用顔画像と第1のマスク着用顔画像において、マスク着用顔のマスクの位置には違いがあり、マスクの位置は縦位置を含む。
第3の側面において、本発明の実施例は、1つ以上のプロセッサと1つ以上のプログラムを記憶するための記憶装置とを含み、1つ以上のプログラムが1つ以上のプロセッサによって実行されるとき、情報処理方法のいずれかの実施例に記載の方法を1つ以上のプロセッサに実現させる電子機器に関する。
第4の側面において、本発明の実施例は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、当該コンピュータプログラムがプロセッサによって実行されるとき、情報処理方法のいずれかの実施例に記載の方法を実現するコンピュータ可読記憶媒体に関する。
第5の側面において、本発明の実施例は、コンピュータプログラムであって、当該コンピュータプログラムがプロセッサによって実行されると、情報処理方法のいずれかの実施例に記載の方法を実現するコンピュータプログラムに関する。
本発明の実施例による情報処理方法では、まず、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得し、ここで、顔画像に含まれる顔はマスクを着用しない。この後、マスク画像を取得し、且つキーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成し、ここで、マスク画像は、マスク画像セットに属し、マスク画像セットには、少なくとも1種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なる。最後に、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここで、ディープニューラルネットワークは、顔を検出するために使用される。本発明の実施例は、マスク画像セットにおける各種類のマスクを利用して、マスク着用顔サンプルを豊富に生成することにより、訓練によってマスク着用顔を正確に検出することができるディープニューラルネットワークを得ることに役立ち、ディープニューラルネットワークの汎化能力を向上させることができる。
本発明のその他の特徴、目的および利点をより明確にするために、以下の図面を参照してなされた非限定的な実施例の詳細な説明を参照する。
本発明のいくつかの実施例が適用可能な例示的なシステムアーキテクチャ図である。 本発明による情報処理方法の一実施例のフローチャートである。 本発明による情報処理方法の一応用シーンを示す概略図である。 本発明による情報処理方法の別の実施例のフローチャートである。 本発明による情報処理装置の一実施例の概略構成図である。 本発明のいくつかの実施例を実現するために適用される電子機器のコンピュータシステムの概略構成図である。
以下、図面及び実施例を参照して本発明についてより詳細に説明する。ここで説明された具体的な実施例は、関連する発明を説明するためだけのものであり、この発明を制限するものではないことを理解できる。なお、説明を容易にするために、図面には関連する発明に関連する部分のみを示している。
なお、矛盾しない場合には、本発明の実施例及び実施例における特徴が互いに組み合わせることができる。以下、図面を参照して、実施例に合わせて本発明を詳細に説明する。
図1には、本発明が適用され得る、情報処理方法又は情報処理装置の実施例の例示的なシステムアーキテクチャ100が示されている。
図1に示すように、システムアーキテクチャ100は、端末機器101、102、103、ネットワーク104およびサーバー105を含むことができる。ネットワーク104は、端末機器101、102、103とサーバー105との間に通信リンクの媒体を提供するために使用される。ネットワーク104は、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。
ユーザは、端末機器101、102、103を使用してネットワーク104を介してサーバー105とインタラクティブすることにより、メッセージなどを送受信することができる。端末機器101、102、103には、例えば動画系アプリケーション、ライブ配信アプリケーション、即時通信ツール、メールクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションがインストールされることができる。
ここでの端末機器101、102、103は、ハードウェアでもソフトウェアでもよい。端末機器101、102、103がハードウェアである場合、ディスプレイを有する様々な電子機器であってもよく、スマートフォン、タブレット、電子書籍リーダー、ラップトップパソコン、デスクトップコンピュータなどを含むがこれらに限定されない。端末機器101、102、103がソフトウェアである場合、上記に挙げられた電子機器にインストールされることができる。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール)として実現されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定しない。
サーバー105は、様々なサービスを提供するサーバーであってもよく、例えば、端末機器101、102、103に対しサポートを提供するバックグラウンドサーバーである。バックグラウンドサーバーは、受信された顔画像などのデータに対し解析などの処理を行い、処理結果(例えばマスク着用顔画像)を端末機器にフィードバックすることができる。
なお、本発明の実施例による情報処理方法は、サーバー105または端末機器101、102、103によって実行されてもよく、これに対応して、情報処理装置は、サーバー105または端末機器101、102、103に配置されてもよい。
図1の端末機器、ネットワーク、およびサーバーの数は単なる例示であることを理解すべきである。必要に応じて、任意の数の端末機器、ネットワーク、およびサーバーを備えることができる。
続けて図2を参照すると、本発明による情報処理方法の一実施例のフロー200が示されている。当該情報処理方法は、以下のステップを含む。
ステップ201において、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得し、ここで、顔画像に含まれる顔にはマスクを着用しない。
本実施例において、情報処理方法の実行主体(例えば図1に示されたサーバーまたは端末機器)は、顔画像を取得し、且つ当該顔画像における顔のキーポイントの座標を取得することができる。具体的には、上記実行主体は、ローカルまたは他の電子機器から上記顔画像を取得することができる。上記実行主体は、ローカルまたは他の電子機器から上記キーポイントの座標を直接に取得することができ、または上記実行主体は、上記顔画像に対しキーポイント検出を行うことができ、これによって、キーポイントの座標を取得することができる。上記顔画像における顔にはマスクを着用しない。
ステップ202において、マスク画像を取得し、且つキーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成し、ここで、マスク画像は、マスク画像セットに属し、マスク画像セットには、少なくとも1種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なる。
本実施例において、上記実行主体は、マスク画像を取得することもでき、且つ上記実行主体は、取得されたキーポイントの座標に基づいて、取得されたマスク画像を顔画像に結合し、結合によって得られた画像をマスク着用顔画像とすることができる。マスク着用顔画像にはマスク着用顔が存在し、即ちマスク着用された箇所の顔が遮蔽され、このようにして、顔画像における少なくとも1つの顔が局所的に遮蔽され、当該顔の全体像が現れない。
マスク画像は、マスク画像セットにおける画像である。当該マスク画像セットには、異なる種類のマスク画像を含むことができ、実践において、上記実行主体は、マスク画像セットからマスク画像をランダムに取得してもよいし、プリセット順序で取得してもよい。
実践において、上記実行主体は、様々な方式でキーポイントの座標に基づいて、マスク画像を顔画像に結合することができる。例を挙げると、上記実行主体は、上唇の中央の2つのキーポイントの連続線の中点をマスク画像の中心点が結合しようとする点として、マスク画像を顔画像にマッピングすることができる。
具体的には、上記実行主体は、マッピング方式でマスク画像を顔画像に結合することができるだけでなく、他の様々な方式を用いることができる。例えば、上記実行本体は、遮蔽、置き換え(マスク画像で顔画像の局所的画像を置き換え) を用いてもよく、またはマスク画像を顔画像の上に置いてもよい。
マスク画像は、顔画像における顔だけに結合することができ、このようにして得られたマスク着用顔画像におけるマスクは、元の顔の領域、即ち顔の検出矩形枠(bounding box)内にある。また、マスク画像は、顔だけでなく、顔の周囲の画像領域に結合することができ、このようにして得られたマスク着用顔画像におけるマスクの局所(例えばマスクの左、右、および/または下のエッジ)は、元の顔の領域以外にある。
ステップ203において、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここで、ディープニューラルネットワークは、顔を検出するために使用される。
本実施例において、上記実行主体は、生成されたマスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここでのディープニューラルネットワークは、顔(例えばマスクを着用した顔、マスクを着用していない顔)を検出するためのディープニューラルネットワークである。具体的には、当該ディープニューラルネットワークは、例えば畳み込みニューラルネットワーク、生成対抗ネットワークまたは残差ニューラルネットワークなどの顔を検出するために使用できる任意のディープニューラルネットワークである。
実践において、上記実行主体または他の電子装置は、マスク着用顔画像をサンプルとして、上記ディープニューラルネットワークを訓練することにより、訓練された後のディープニューラルネットワークを得ることができる。実際の訓練過程で用いられたサンプルには、一定の割合のマスク着用顔画像(割合が小さい)と一定の割合のマスクを着用していない顔を含む画像(割合が大きい)が含まれ、これにより、ディープニューラルネットワークが、顔だけでなく、マスクを着用した顔も正確に検出できるようになる。
本発明の上記実施例による方法は、マスク画像セットにおける各種類のマスクを利用して、マスク着用顔サンプルを豊富に生成することにより、訓練によってマスク着用顔を正確に検出することができるディープニューラルネットワークを得ることに役立ち、ディープニューラルネットワークの汎化能力を向上させることができる。
本実施例のいくつかの選択可能な実施形態において、上記方法は、ターゲット顔画像を取得し、且つマスク画像セットからターゲットマスク画像を取得することと、ターゲットマスク画像を、ターゲット顔画像における顔以外の領域に結合することにより、結合結果を得ることと、結合結果を、ディープニューラルネットワークを訓練するための別のサンプルと確定することと、をさらに含む。
これらの選択可能な実施形態において、上記実行主体は、ターゲット顔画像及びターゲットマスク画像を取得し、ターゲットマスク画像を、ターゲット顔画像における顔の領域以外の領域に結合することにより、結合結果を得ることができる。ここでのターゲット顔画像に含まれる顔には、マスクを着用していてもよいし、マスクを着用していなくてもよい。
これらの実現形態は、顔に着用されていないマスクを顔画像に追加することで、サンプル情報を豊かにすることができ、訓練された後のディープニューラルネットワークが、顔に着用されていないマスクをマスクを着用した顔と認識することを回避し、ひいてはディープニューラルネットワークの検出精度を向上させる。
本実施例のいくつかの選択可能な実施形態において、ディープニューラルネットワークの訓練ステップは、顔画像サンプルを取得し、顔画像サンプルを訓練待ちのディープニューラルネットワークに入力することと、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することにより、第1の予測結果を得ることと、第1の予測結果、顔画像サンプルがマスク着用顔を含むかどうかの参照結果、およびプリセット損失関数に基づいて、第1の予測結果に対応する損失値を確定することと、損失値に基づいて、訓練待ちのディープニューラルネットワークを訓練することにより、訓練された後のディープニューラルネットワークを得ることと、を含む。
これらの選択可能な実施形態において、上記実行主体は、訓練待ちのディープニューラルネットワークを用いて、取得された顔画像サンプルがマスク着用顔を含むかどうかを予測することができる。予測の結果、すなわち、第1の予測結果は、イエスかノーかの2つの結果を含んでもよいし、イエスと予測した確率を指してもよい。参照結果は、顔画像サンプルに対し予めマークされた実際のデータである。
上記実行主体または他の電子装置は、参照結果および第1の予測結果をプリセット損失関数に入力することにより、上記損失値を得ることができる。上記実行主体は、様々な方式で上記損失値に基づいて、訓練を行う。例えば、上記実行主体は、当該損失値を総損失値とし、当該損失値を使用して逆伝播することにより、訓練を行うことができる。また、上記実行本体は、当該損失値と他の損失値との和を総損失値として逆伝播することもできる。ここでの他の損失値は、例えば、顔の位置を検出する損失値を含むことができる。顔の位置は、矩形枠の頂点座標および/または幅、高さ(または長さ、幅)で表されることができる。例えば、顔の位置は、矩形枠の幅、高さ、および当該矩形枠の中点または左上角の頂点であってもよい。
これらの実現形態は、顔画像サンプルがマスク着用顔を含むかどうかに関する損失値を増加させることにより、マスク着用顔とマスクを着用しない顔との違いをディープニューラルネットワークにより良く学習させることができる。
これらの実施形態のいくつかの選択可能な応用シーンにおいて、上記訓練ステップは、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルに含まれる顔の位置を予測することにより、第2の予測結果を得ることをさらに含むことができ、これらの実施形態における訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することは、訓練待ちのディープニューラルネットワークを用いて、位置におけるオブジェクトがマスクを着用した顔であるかどうかを予測することにより、第1の予測結果を得ることを含むことができる。
これらの選択可能な応用シーンにおいて、上記実行主体は、顔画像サンプルにおける顔の位置、すなわち上記矩形枠の位置を予測することもでき、予測された位置は、第2の予測結果である。上記実行主体または他の電子装置は、第2の予測結果に含まれる位置におけるオブジェクトがマスク着用顔であるかどうかを予測することにより、第1の予測結果を得ることができる。
また、訓練ステップは、訓練待ちのディープニューラルネットワークを用いて、位置におけるオブジェクトが顔であるかどうかを予測することにより、第3の予測結果を得ることをさらに含むことができる。即ち、上記実行主体または他の電子装置は、当該位置、即ち矩形枠におけるオブジェクトが顔であるかどうか、予測された分類結果(イエスまたはノー)を予測することもできる。ここでの分類結果は、イエスかノーかのみを含んでもよいし、イエスと予測した確率を指してもよい。
実践において、上記実行主体または他の電子装置は、各予測結果及び当該予測結果に対応する参照結果に基づいて、当該予測結果の損失値を確定する。この後、各損失値を加算することにより、ディープニューラルネットワークを訓練するための総損失値が得られる。
これらの応用シーンにおいて、より正確な第1の予測結果を得るために、予測された位置においてオブジェクトがマスクを着用した顔であるかどうかを確定することにより、確定された損失値の正確さを高め、ひいては訓練された後のディープニューラルネットワークの精度を向上させることができる。
本実施例のいくつかの選択可能な実施形態において、ステップ202の後、上記方法は、マスク着用顔画像に含まれるマスクの位置を調整することにより、調整された後のマスク着用顔画像を得て、ここで、マスクの位置は、縦位置を含むことをさらに含むことができる。
これらの選択可能な実施形態において、上記実行主体は、マスク着用顔画像におけるマスクの位置を調整し、且つ調整された後のマスク着用顔画像を、ディープニューラルネットワークを訓練するサンプルとすることができる。調整されたマスクの位置は、横位置および/または縦位置を含むことができ、例えば、ここでの調整は、上方調整または下方調整を含むことができる。
これらの実施形態は、マスク着用顔画像を多様に生成することにより、異なる人がマスクを着用している実際の画像をよりリアルに模倣することができ、訓練に使用されるサンプルを充実させるだけでなく、訓練された後のディープニューラルネットワークのリコール率と検出精度を向上させることができる。
続けて図3を参照すると、図3は、本実施例による情報処理方法の応用シーンを示す概略図である。図3の応用シーンにおいて、実行主体301は、顔画像302を取得し、且つ顔画像302に含まれる顔のキーポイントの座標303を取得することができ、ここで、顔画像に含まれる顔にはマスクを着用しない。実行主体301は、マスク画像304を取得し、且つキーポイントの座標303に基づいて、マスク画像304を顔画像302に結合することにより、マスク着用顔を含むマスク着用顔画像305を生成し、ここで、マスク画像304は、マスク画像セットに属し、マスク画像セットには、少なくとも1種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なり、例えば、2種類のマスク画像は、それぞれ、灰色の活性炭マスクと白色のn95マスクを含むことができる。マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここで、ディープニューラルネットワークは、顔を検出するために使用される。
さらに図4を参照して、情報処理方法の別の実施例のフロー400が示されている。当該情報処理方法のフロー400は、以下のステップを含む。
ステップ401において、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得し、ここで、顔画像に含まれる顔にはマスクを着用しない。
本実施例において、情報処理方法の実行主体(例えば図1に示されたサーバーまたは端末機器)は、顔画像を取得し、且つ当該顔画像における顔のキーポイントの座標を取得することができる。具体的には、上記実行主体は、ローカルまたは他の電子機器から上記顔画像を取得することができる。上記実行主体は、ローカルまたは他の電子機器から上記キーポイントの座標を直接に取得することができ、または上記実行主体は、上記顔画像に対しキーポイント検出を行うことができ、これによって、キーポイントの座標を取得することができる。上記顔画像における顔にはマスクを着用しない。
ステップ402において、マスク画像を取得し、マスク画像における指定点と顔のキーポイントの座標との間の第1のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新することにより、更新された後のマスク画像のサイズを取得された顔画像における顔のサイズに合致させ、ここで、第1のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含む。
本実施例において、上記実行主体は、マスク画像を取得することもでき、且つ上記実行主体は、プリセットされた対応関係(第1のプリセット対応関係)及び取得されたキーポイントの座標に基づいて、取得されたマスク画像のサイズを更新することができる。ここでのサイズは、幅および/または高さを指してもよいし、形状などを指してもよい。第1のプリセット対応関係、すなわちプリセットされたマッピング関係について、結合する際にマスク画像のサイズを顔画像における顔に合致させるように、マスク画像のサイズを更新した後、マスク画像の形状が更新前よりも変更できるようになる。例えば、顔画像における顔は広く、マスク画像はより広い幅の画像に更新されることができる。
ここでの更新された後のマスク画像のサイズは、取得された顔画像における顔のサイズに合致し、このようにして更新された後の顔画像をマスク画像に結合することによって得られたマスク着用顔画像において、顔に対するマスクの相対的なサイズが、適切である(例えば相対的なサイズがプリセット値の範囲内である)。
実践において、検出によって得られたキーポイントは、顔エッジのキーポイントを含むことができる。第1のプリセット対応関係に含まれるこれらの顔エッジのキーポイントの座標は、検出された顔エッジのキーポイントの座標のすべてまたは部分であってもよい。
上記指定点は、マスク画像において設定された任意の点、例えば、中心点またはマスクエッジの近くの点であってもよい。具体的には、マスクエッジの近くの点は、マスクエッジおよび/またはマスクエッジの周り(エッジとの距離がプリセット閾値より小さい)の点を含むことができる。
ステップ403において、更新された後のマスク画像を顔画像に結合することにより、更新された後のマスク画像の少なくとも2つの指定点のうちの各指定点を、顔画像における当該指定点に対応するキーポイントに重ね合わせて、マスク着用顔を含む第1のマスク着用顔画像を生成する。
本実施例において、上記実行主体は、更新された後のマスク画像を顔画像に結合することができ、画像間の結合を行う場合、マスク画像における指定点が、当該指定点に対応するキーポイントに重なり、ここでのキーポイントは、上記顔画像における、上記第1のプリセット対応関係におけるキーポイントである。
本実施例のいくつかの選択可能な実施形態において、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することは、マスク画像における指定点と顔のキーポイントの座標との間の第2のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新し、更新された後のマスク画像を顔画像に結合することにより、第2のマスク着用顔画像を生成し、ここで、第2のプリセット対応関係に対応する更新された後のマスク画像のサイズは、取得された顔画像における顔のサイズに合致し、第2のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含み、第2のマスク着用顔画像と第1のマスク着用顔画像において、マスク着用顔のマスクの位置には違いがあり、マスクの位置は縦位置を含むことを含むことができる。
これらの選択可能な実施形態において、上記実行主体は、第2のプリセット対応関係に基づいて、第2のマスク着用顔画像を生成することもできる。第1のマスク着用顔画像と第2のマスク着用顔画像の両方には、マスク着用顔が含まれる。これらの2つの対応関係を利用して生成されたマスク着用顔画像におけるマスクの位置(例えば、縦位置および/または横位置)には違いがある。
更新された後のマスク画像を顔画像に結合した後、更新された後のマスク画像の少なくとも2つの指定点のうちの各指定点が、顔画像における当該指定点に対応するキーポイントにも重ね合わせる。
これらの実施形態は、異なる対応関係を利用して、マスクの位置が異なるマスク着用顔画像を生成し、現実の生活の中で、ある人がマスクを高い位置に着用することを好み、ある人がその逆を好むことをシミュレートできる。このようにすると、訓練に使用されるサンプルを充実させるだけでなく、訓練された後のディープニューラルネットワークのリコール率と検出精度を向上させることができる。
ステップ404において、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここで、ディープニューラルネットワークは、顔を検出するために使用される。
本実施例において、上記実行主体は、生成されたマスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここでのディープニューラルネットワークは、顔を検出するためのディープニューラルネットワークである。
本実施例は、第1のプリセット対応関係を利用して、マスク画像のサイズを更新することにより、マスク画像を顔画像における顔により合致させ、得られたマスク着用顔画像をよりリアルにすることができる。ちなみに、マスク画像は、画像の結合の後に、元の顔画像における顔の局部の代わりに適切な位置で表示されることができる。
さらに図5を参照して、上記の各図に示された方法の実現として、本発明は情報処理装置の一実施例を提供し、当該装置の実施例は、図2に示す方法実施例に対応し、以下に記載される特徴に加えて、当該装置の実施例は、図2に示す方法実施例と同じまたは対応する特徴または効果を含むことができる。当該装置は、具体的に様々な電子機器に適用できる。
図5に示すように、本実施例に係る情報処理装置500は、取得ユニット501と、結合ユニット502と、確定ユニット503とを含む。ここで、取得ユニット501は、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得するように配置され、ここで、顔画像に含まれる顔にはマスクを着用しない。結合ユニット502は、マスク画像を取得し、且つキーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成するように配置され、ここで、マスク画像は、マスク画像セットに属し、マスク画像セットには、少なくとも1種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なる。確定ユニット503は、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定するように配置され、ここで、ディープニューラルネットワークは、顔を検出するために使用される。
本実施例において、情報処理装置500の取得ユニット501、結合ユニット502及び確定ユニット503の具体的な処理およびそれによる技術的効果について、図2の対応する実施例におけるステップ201、ステップ202、およびステップ203の関連説明をそれぞれ参照することができ、ここでは説明を省略する。
本実施例のいくつかの選択可能な実施形態において、装置は、ターゲット顔画像を取得し、且つマスク画像セットからターゲットマスク画像を取得するように配置されたターゲット取得ユニットと、ターゲットマスク画像を、ターゲット顔画像における顔以外の領域に結合することにより、結合結果を得るように配置されたターゲット結合ユニットと、結合結果を、ディープニューラルネットワークを訓練するための別のサンプルと確定するように配置されたサンプル確定ユニットと、をさらに含む。
本実施例のいくつかの選択可能な実施形態において、ディープニューラルネットワークの訓練ステップは、顔画像サンプルを取得し、顔画像サンプルを訓練待ちのディープニューラルネットワークに入力することと、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することにより、第1の予測結果を得ることと、第1の予測結果、顔画像サンプルがマスク着用顔を含むかどうかの参照結果、およびプリセット損失関数に基づいて、第1の予測結果に対応する損失値を確定することと、損失値に基づいて、訓練待ちのディープニューラルネットワークを訓練することにより、訓練された後のディープニューラルネットワークを得ることと、を含む。
本実施例のいくつかの選択可能な実施形態において、訓練ステップは、訓練待ちのディープニューラルネットワークを用いて、顔画像サンプルに含まれる顔の位置を予測することにより、第2の予測結果を得ることをさらに含み、訓練待ちのディープューラルネットワークを用いて、顔画像サンプルがマスク着用顔を含むかどうかを予測することは、訓練待ちのディープニューラルネットワークを用いて、位置におけるオブジェクトがマスクを着用した顔であるかどうかを予測することにより、第1の予測結果を得ることを含む。
本実施例のいくつかの選択可能な実施形態において、装置は、マスク着用顔画像を生成することの後、マスク着用顔画像に含まれるマスクの位置を調整することにより、調整された後のマスク着用顔画像を得るように配置され、ここで、マスクの位置は、縦位置を含む調整ユニットをさらに含む。
本実施例のいくつかの選択可能な実施形態において、結合ユニットは、さらに、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することを以下のように実行するように配置され、即ち、マスク画像における指定点と顔のキーポイントの座標との間の第1のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新することにより、更新された後のマスク画像のサイズを取得された顔画像における顔のサイズに合致させ、ここで、第1のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含み、更新された後のマスク画像を顔画像に結合することにより、更新された後のマスク画像の少なくとも2つの指定点のうちの各指定点を、顔画像における当該指定点に対応するキーポイントに重ね合わせて、マスク着用顔を含むマスク着用顔画像を生成する。
本実施例のいくつかの選択可能な実施形態において、結合ユニットは、さらに、キーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することを以下のように実行するように配置され、即ち、マスク画像における指定点と顔のキーポイントの座標との間の第2のプリセット対応関係、および取得されたキーポイントの座標に基づいて、マスク画像のサイズを更新し、更新された後のマスク画像を顔画像に結合することにより、第2のマスク着用顔画像を生成し、ここで、第2のマスク着用顔画像と第1のマスク着用顔画像において、マスク着用顔のマスクの位置には違いがあり、マスクの位置は縦位置を含む。
図6に示すように、電子機器600は、読み出し専用メモリ(ROM)602に記憶されているプログラムまたは記憶部608からランダムアクセスメモリ(RAM)603にロードされたプログラムに従って各種の適切な動作と処理を行うことができる処理装置(例えば中央処理装置、グラフィックスプロセッサなど)601を含むことができる。RAM603には、電子機器600の操作に必要な様々なプログラムとデータが記憶されている。処理装置601、ROM602、およびRAM603は、バス604によって相互に接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
通常、I/Oインターフェース605には、例えばタッチスクリーン、タッチパネル、キーボード、マウス、カメラ、マイク、加速度計、ジャイロなどを含む入力装置606と、例えば液晶ディスプレイ(LCD)、スピーカー、振動器などを含む出力装置607と、例えば磁気テープ、ハードディスクなどを含む記憶装置608と、通信装置609とが接続されている。通信装置609は、データを交換するために電子機器600が他の機器と無線通信または有線通信することを許可できる。図6は、様々な装置を有する電子機器600を示しているが、図示されたすべての装置を実施または備えることが要求されないことを理解されたい。代わりに、より多くまたはより少ない装置を実施または備えることができる。図6に示した各ブロックは、1つの装置を表してもよく、必要に応じて複数の装置を表してもよい。
特に、本開示の実施例によると、上記のフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアのプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置709を介してネットワークからダウンロードされてインストールされ、または記憶装置708からインストールされ、またはROM702からインストールされることができる。このコンピュータプログラムが処理装置701によって実行されるときに、本開示の実施例の方法で限定された上記の機能を実行する。なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、あるいはコンピュータ可読記憶媒体、または上記の両方の任意の組合せであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、あるいは半導体のシステム、装置またはデバイス、あるいは上記の任意の組合せであってもよいが、これらに限らない。コンピュータ可読記憶媒体のより具体的な例には、1本以上のワイヤによる電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、または上記の任意の組み合わせが含まれるが、これらに限らない。本開示の実施例では、コンピュータ可読記憶媒体は、プログラムを含むかまたは記憶する任意の有形の媒体であることができ、このプログラムは、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されることができる。本開示の実施例では、コンピュータが読み取り可能な信号媒体は、コンピュータが読み取り可能なプログラムコードを担持した、ベースバンド内でまたは搬送波の一部として伝播されるデータ信号を含んでもよい。このような伝播されたデータ信号は、多種の形式を採用でき、電磁気信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限らない。コンピュータが読み取り可能な信号媒体は、コンピュータ可読記憶媒体以外のいかなるコンピュータ可読媒体であってもよく、このコンピュータ可読信号媒体は、指令実行システム、装置またはデバイスによって使用され、またはそれらと組み合わせて使用されるためのプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体で伝送されることができ、ワイヤ、光ファイバケーブル、RF(無線周波数)など、または上記の任意の適切な組み合わせを含むが、これらに限らない。
図の中のフローチャートおよびブロック図には、本発明の様々な実施例によるシステム、方法とコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および操作が示されている。この点で、フローチャート又はブロック図の各ブロックは、1つのモジュール、プログラミングのセグメント、またはコードの一部を代表でき、当該モジュール、プログラミングのセグメント、またはコードの一部は、所定のロジック機能を実現するための1つ以上の実行可能指令を含む。また、いくつかの代替の実施例では、ブロックに示されている機能は、図面に示された順序と異なる順序で発生してもよいことに留意されたい。例えば、連続して示す2つのブロックは実際に並行して実行されてもよく、それらは係る機能に応じて時に逆の順序で実行されてもよい。ブロック図および/またはフローチャートの各ブロック、およびブロック図および/またはフローチャートのブロックの組み合わせは、特定の機能または操作を実行する専用のハードウェアによるシステムによって実現されてもよく、または専用ハードウェアとコンピュータ指令の組み合わせによって実現されてもよいことにも留意されたい。
本発明の実施例に係るユニットは、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明されたユニットは、プロセッサに設置されてもよく、例えば、「取得ユニットと、結合ユニットと、確定ユニットとを含むプロセッサである」と記載してもよい。ここで、これらのユニットの名は、ある場合にはそのユニット自体を限定しなくて、例えば、取得ユニットを「顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得するユニット」と記載してもよい。
別の側面として、本発明は、コンピュータ可読媒体をさらに提供し、当該コンピュータ可読媒体は、上記実施例で説明された装置に含まれてもよく、個別に存在し当該装置に組み込まれなくてもよい。上記のコンピュータ可読媒体は、1つ以上のプログラムを担持し、上記の1つ以上のプログラムが当該装置によって実行されたとき、当該装置は、顔画像を取得し、且つ顔画像に含まれる顔のキーポイントの座標を取得し、ここで、顔画像に含まれる顔にはマスクを着用しなく、マスク画像を取得し、且つキーポイントの座標に基づいて、マスク画像を顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成し、ここで、マスク画像は、マスク画像セットに属し、マスク画像セットには、少なくとも1種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なり、マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定し、ここで、ディープニューラルネットワークは、顔を検出するために使用される。
上記の説明は、本発明の好ましい実施例および応用された技術の原理の説明にすぎない。本発明の実施例に係る発明の範囲が、上記の技術的特徴を組み合わせて得られた技術案に限定されず、同時に上記の発明の概念から逸脱しない場合に、上記の技術的特徴またはこれと同等の技術的特徴を任意に組み合わせて得られた他の技術案を含むべきであることを当業者は理解すべきである。例えば、上記の特徴が本発明において開示されているもの(しかしこれに限らず)と類似した機能を有する技術的特徴と相互に入れ替わって形成された技術案が挙げられる。

Claims (11)

  1. 顔画像を取得し、且つ前記顔画像に含まれる顔のキーポイントの座標を取得するステップであって、前記顔画像に含まれる顔にはマスクを着用しない、ステップと、
    マスク画像を取得し、且つ前記キーポイントの座標に基づいて、前記マスク画像を前記顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成するステップであって、前記マスク画像は、マスク画像セットに属し、前記マスク画像セットには、少なくとも1種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なる、ステップと、
    前記マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定するステップであって、前記ディープニューラルネットワークは、顔を検出するために使用される、ステップと、
    ターゲット顔画像を取得し、且つ前記マスク画像セットからターゲットマスク画像を取得するステップと、
    前記ターゲットマスク画像を、前記ターゲット顔画像における顔以外の領域に結合することにより、結合結果を得るステップと、
    前記結合結果を、前記ディープニューラルネットワークを訓練するための別のサンプルと確定するステップと、
    を含み、
    前記キーポイントの座標に基づいて、前記マスク画像を前記顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成するステップは、
    前記マスク画像における指定点と顔のキーポイントの座標との間の第1のプリセット対応関係、および取得されたキーポイントの座標に基づいて、前記マスク画像のサイズを更新することにより、更新された後のマスク画像のサイズを取得された顔画像における顔のサイズに合致させ、ここで、前記第1のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含むことと、
    更新された後のマスク画像を前記顔画像に結合することにより、更新された後のマスク画像の少なくとも2つの指定点のうちの各指定点を、前記顔画像における当該指定点に対応するキーポイントに重ね合わせて、マスク着用顔を含む第1のマスク着用顔画像を生成することと、
    前記マスク画像における指定点と顔のキーポイントの座標との間の第2のプリセット対応関係、および取得されたキーポイントの座標に基づいて、前記マスク画像のサイズを更新し、更新された後のマスク画像を前記顔画像に結合することにより、第2のマスク着用顔画像を生成し、ここで、前記第2のマスク着用顔画像と前記第1のマスク着用顔画像において、マスク着用顔のマスクの位置には違いがあり、前記マスクの位置は縦位置を含むこと
    を含む、情報処理方法。
  2. 前記ディープニューラルネットワークを訓練する訓練ステップを含み、
    前記訓練ステップは、
    顔画像サンプルを取得し、前記顔画像サンプルを訓練待ちのディープニューラルネットワークに入力することと、
    前記訓練待ちのディープニューラルネットワークを用いて、前記顔画像サンプルがマスク着用顔を含むかどうかを予測することにより、第1の予測結果を得ることと、
    前記第1の予測結果、前記顔画像サンプルがマスク着用顔を含むかどうかの参照結果、およびプリセット損失関数に基づいて、前記第1の予測結果に対応する損失値を確定することと、
    前記損失値に基づいて、前記訓練待ちのディープニューラルネットワークを訓練することにより、訓練された後のディープニューラルネットワークを得ることと、
    を含む、
    請求項1に記載の方法。
  3. 前記訓練ステップは、
    前記訓練待ちのディープニューラルネットワークを用いて、前記顔画像サンプルに含まれる顔の位置を予測することにより、第2の予測結果を得ることをさらに含み、
    前記訓練待ちのディープニューラルネットワークを用いて、前記顔画像サンプルがマスク着用顔を含むかどうかを予測することは、
    前記訓練待ちのディープニューラルネットワークを用いて、前記位置におけるオブジェクトがマスクを着用した顔であるかどうかを予測することにより、前記第1の予測結果を得ることを含む、
    請求項2に記載の方法。
  4. 前記マスク着用顔画像を生成するステップの後、
    前記マスク着用顔画像に含まれるマスクの位置を調整することにより、調整された後のマスク着用顔画像を得るステップであって、前記マスクの位置は、縦位置を含むステップをさらに含む、
    請求項1に記載の方法。
  5. 顔画像を取得し、且つ前記顔画像に含まれる顔のキーポイントの座標を取得するように配置され、ここで、前記顔画像に含まれる顔にはマスクを着用しない取得ユニットと、
    マスク画像を取得し、且つ前記キーポイントの座標に基づいて、前記マスク画像を前記顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成するように配置され、ここで、前記マスク画像は、マスク画像セットに属し、前記マスク画像セットには、少なくとも1種類のマスク画像が含まれ、異なる種類のマスク画像に含まれるマスクは異なる結合ユニットと、
    前記マスク着用顔画像を、ディープニューラルネットワークを訓練するためのサンプルと確定するように配置され、ここで、前記ディープニューラルネットワークは、顔を検出するために使用される確定ユニットと、
    ターゲット顔画像を取得し、且つ前記マスク画像セットからターゲットマスク画像を取得するように配置されたターゲット取得ユニットと、
    前記ターゲットマスク画像を、前記ターゲット顔画像における顔以外の領域に結合することにより、結合結果を得るように配置されたターゲット結合ユニットと、
    前記結合結果を、前記ディープニューラルネットワークを訓練するための別のサンプルと確定するように配置されたサンプル確定ユニットと、
    を含み、
    前記結合ユニットは、さらに、前記キーポイントの座標に基づいて、前記マスク画像を前記顔画像に結合することにより、マスク着用顔を含むマスク着用顔画像を生成することを以下のように実行するように配置され、
    即ち、前記マスク画像における指定点と顔のキーポイントの座標との間の第1のプリセット対応関係、および取得されたキーポイントの座標に基づいて、前記マスク画像のサイズを更新することにより、更新された後のマスク画像のサイズを取得された顔画像における顔のサイズに合致させ、ここで、前記第1のプリセット対応関係においてキーポイントの座標は、顔エッジのキーポイントの座標を含み、
    更新された後のマスク画像を前記顔画像に結合することにより、更新された後のマスク画像の少なくとも2つの指定点のうちの各指定点を、前記顔画像における当該指定点に対応するキーポイントに重ね合わせて、マスク着用顔を含む第1のマスク着用顔画像を生成し、
    前記マスク画像における指定点と顔のキーポイントの座標との間の第2のプリセット対応関係、および取得されたキーポイントの座標に基づいて、前記マスク画像のサイズを更新し、更新された後のマスク画像を前記顔画像に結合することにより、第2のマスク着用顔画像を生成し、ここで、前記第2のマスク着用顔画像と前記第1のマスク着用顔画像において、マスク着用顔のマスクの位置には違いがあり、前記マスクの位置は縦位置を含む、
    情報処理装置。
  6. 前記ディープニューラルネットワークを訓練する訓練ステップを実行するように構成される訓練ユニットを更に含み、前記訓練ステップは、
    顔画像サンプルを取得し、前記顔画像サンプルを訓練待ちのディープニューラルネットワークに入力することと、
    前記訓練待ちのディープニューラルネットワークを用いて、前記顔画像サンプルがマスク着用顔を含むかどうかを予測することにより、第1の予測結果を得ることと、
    前記第1の予測結果、前記顔画像サンプルがマスク着用顔を含むかどうかの参照結果、およびプリセット損失関数に基づいて、前記第1の予測結果に対応する損失値を確定することと、
    前記損失値に基づいて、前記訓練待ちのディープニューラルネットワークを訓練することにより、訓練された後のディープニューラルネットワークを得ることと、
    を含む、
    請求項に記載の装置。
  7. 前記訓練ステップは、
    前記訓練待ちのディープニューラルネットワークを用いて、前記顔画像サンプルに含まれる顔の位置を予測することにより、第2の予測結果を得ることをさらに含み、
    前記訓練待ちのディープューラルネットワークを用いて、前記顔画像サンプルがマスク着用顔を含むかどうかを予測することは、
    前記訓練待ちのディープニューラルネットワークを用いて、前記位置におけるオブジェクトがマスクを着用した顔であるかどうかを予測することにより、前記第1の予測結果を得ることを含む、
    請求項に記載の装置。
  8. 前記マスク着用顔画像を生成することの後、前記マスク着用顔画像に含まれるマスクの位置を調整することにより、調整された後のマスク着用顔画像を得るように配置され、ここで、前記マスクの位置は、縦位置を含む調整ユニットをさらに含む、
    請求項に記載の装置。
  9. 1つ以上のプロセッサと、
    1つ以上のプログラムを記憶するための記憶装置と、
    を含み、
    前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行されるとき、請求項1からのいずれか1項に記載の方法を前記1つ以上のプロセッサに実現させる、
    電子機器。
  10. コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されるとき、請求項1からのいずれか1項に記載の方法を実現する、
    コンピュータ可読記憶媒体。
  11. コンピュータプログラムであって、
    プロセッサによって実行されるとき、請求項1からのいずれか1項に記載の方法を実現する、コンピュータプログラム。
JP2021030696A 2020-03-23 2021-02-26 情報処理方法及び情報処理装置 Active JP7311544B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010205909.6 2020-03-23
CN202010205909.6A CN113435226B (zh) 2020-03-23 2020-03-23 信息处理方法和装置

Publications (2)

Publication Number Publication Date
JP2021149961A JP2021149961A (ja) 2021-09-27
JP7311544B2 true JP7311544B2 (ja) 2023-07-19

Family

ID=74797848

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021030696A Active JP7311544B2 (ja) 2020-03-23 2021-02-26 情報処理方法及び情報処理装置

Country Status (5)

Country Link
US (1) US20210295015A1 (ja)
EP (1) EP3885980A1 (ja)
JP (1) JP7311544B2 (ja)
KR (1) KR102599977B1 (ja)
CN (1) CN113435226B (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11710346B2 (en) * 2020-05-28 2023-07-25 Nec Corporation Facial recognition for masked individuals
CN112001872B (zh) * 2020-08-26 2021-09-14 北京字节跳动网络技术有限公司 信息显示方法、设备及存储介质
WO2023223377A1 (ja) * 2022-05-16 2023-11-23 日本電気株式会社 情報処理装置、情報処理方法、及び記録媒体
KR20240045830A (ko) * 2022-09-30 2024-04-08 주식회사 슈프리마에이아이 피인식 대상자의 특성 정보를 예측하는 방법 및 장치, 피인식 대상자의 특성 정보를 예측하는 신경망을 학습하는 방법 및 장치
CN116665263A (zh) * 2022-11-03 2023-08-29 浙江宇视科技有限公司 口罩佩戴检测方法、装置和电子设备
CN115620209A (zh) * 2022-11-15 2023-01-17 北京梦天门科技股份有限公司 公共卫生视频监管结果的生成方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003055826A (ja) 2001-08-17 2003-02-26 Minolta Co Ltd サーバおよび仮想試着用データ管理方法
JP2018005357A (ja) 2016-06-29 2018-01-11 株式会社東芝 情報処理装置および情報処理方法
JP2018005520A (ja) 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
WO2018168042A1 (ja) 2017-03-14 2018-09-20 オムロン株式会社 画像解析装置、画像解析方法、及び画像解析プログラム
WO2018180550A1 (ja) 2017-03-30 2018-10-04 富士フイルム株式会社 画像処理装置及び画像処理方法
JP2019102081A (ja) 2017-12-05 2019-06-24 富士通株式会社 データ処理装置及びデータ処理方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932458B (zh) * 2017-05-24 2020-09-11 恒睿(重庆)人工智能技术研究院有限公司 恢复眼镜遮挡区域的人脸重建方法及装置
CN107609481B (zh) * 2017-08-14 2020-11-20 百度在线网络技术(北京)有限公司 为人脸识别生成训练数据的方法、装置和计算机存储介质
CN107590482A (zh) * 2017-09-29 2018-01-16 百度在线网络技术(北京)有限公司 信息生成方法和装置
CN107808129B (zh) * 2017-10-17 2021-04-16 南京理工大学 一种基于单个卷积神经网络的面部多特征点定位方法
CN109753850B (zh) * 2017-11-03 2022-10-25 富士通株式会社 面部识别模型的训练方法和训练设备
CN108427941B (zh) * 2018-04-08 2020-06-02 百度在线网络技术(北京)有限公司 用于生成人脸检测模型的方法、人脸检测方法和装置
CN110399764A (zh) * 2018-04-24 2019-11-01 华为技术有限公司 人脸识别方法、装置及计算机可读介质
CN108319943B (zh) * 2018-04-25 2021-10-12 北京优创新港科技股份有限公司 一种提高戴眼镜条件下人脸识别模型性能的方法
US10304193B1 (en) * 2018-08-17 2019-05-28 12 Sigma Technologies Image segmentation and object detection using fully convolutional neural network
CN109558864B (zh) * 2019-01-16 2021-07-30 苏州科达科技股份有限公司 人脸关键点检测方法、装置及存储介质
CN109871802A (zh) * 2019-02-15 2019-06-11 深圳和而泰数据资源与云技术有限公司 图像检测方法及图像检测装置
CN112669197A (zh) * 2019-10-16 2021-04-16 顺丰科技有限公司 图像处理方法、装置、移动终端及存储介质
CN110852942B (zh) * 2019-11-19 2020-12-18 腾讯科技(深圳)有限公司 一种模型训练的方法、媒体信息合成的方法及装置
CN112927343B (zh) * 2019-12-05 2023-09-05 杭州海康威视数字技术股份有限公司 一种图像生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003055826A (ja) 2001-08-17 2003-02-26 Minolta Co Ltd サーバおよび仮想試着用データ管理方法
JP2018005357A (ja) 2016-06-29 2018-01-11 株式会社東芝 情報処理装置および情報処理方法
JP2018005520A (ja) 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
WO2018168042A1 (ja) 2017-03-14 2018-09-20 オムロン株式会社 画像解析装置、画像解析方法、及び画像解析プログラム
WO2018180550A1 (ja) 2017-03-30 2018-10-04 富士フイルム株式会社 画像処理装置及び画像処理方法
JP2019102081A (ja) 2017-12-05 2019-06-24 富士通株式会社 データ処理装置及びデータ処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
小泉,歯医者さんの院内感染症対策,[online],2020年02月03日,https://komaidc.jp/vldeon/
愛知・名古屋の調剤薬局 マイタウン薬局 春日井店,マスク 間違った使い方していませんか??,[online],2020年02月08日,https://mytown-p.com/blog/kasugai/マスク%E3%80%80間違った使い方していませんか??/

Also Published As

Publication number Publication date
CN113435226A (zh) 2021-09-24
CN113435226B (zh) 2022-09-16
KR20210118739A (ko) 2021-10-01
JP2021149961A (ja) 2021-09-27
KR102599977B1 (ko) 2023-11-08
US20210295015A1 (en) 2021-09-23
EP3885980A1 (en) 2021-09-29

Similar Documents

Publication Publication Date Title
JP7311544B2 (ja) 情報処理方法及び情報処理装置
CN109858445B (zh) 用于生成模型的方法和装置
US20200250889A1 (en) Augmented reality system
CN111476871B (zh) 用于生成视频的方法和装置
CN112424769A (zh) 用于地理位置预测的系统和方法
US10860841B2 (en) Facial expression image processing method and apparatus
US11715223B2 (en) Active image depth prediction
CN110059623B (zh) 用于生成信息的方法和装置
CN111739035A (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN111523413B (zh) 生成人脸图像的方法和装置
US11675178B2 (en) Virtual slide stage (VSS) method for viewing whole slide images
CN110544272A (zh) 脸部跟踪方法、装置、计算机设备及存储介质
CN109325429A (zh) 一种关联特征数据的方法、装置、存储介质及终端
CN110751149A (zh) 目标对象标注方法、装置、计算机设备和存储介质
CN110298850B (zh) 眼底图像的分割方法和装置
CN115205925A (zh) 表情系数确定方法、装置、电子设备及存储介质
CN111310595B (zh) 用于生成信息的方法和装置
TW202219822A (zh) 字元檢測方法、電子設備及電腦可讀儲存介質
CN109816791B (zh) 用于生成信息的方法和装置
US20230306602A1 (en) Information generation method and apparatus, electronic device, and computer readable medium
CN110942033B (zh) 用于推送信息的方法、装置、电子设备和计算机介质
CN114445320A (zh) 图像分割质量的评测方法、装置、电子设备和存储介质
CN112560702A (zh) 用户兴趣画像生成方法、装置、电子设备及介质
CN114898282A (zh) 图像处理方法及装置
CN117676076A (zh) 一种基于路面摄像头实时视频画面跟踪的方法及其系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230706

R150 Certificate of patent or registration of utility model

Ref document number: 7311544

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150