JP2023541125A - 情報表示方法、装置及び記憶媒体 - Google Patents

情報表示方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP2023541125A
JP2023541125A JP2023513472A JP2023513472A JP2023541125A JP 2023541125 A JP2023541125 A JP 2023541125A JP 2023513472 A JP2023513472 A JP 2023513472A JP 2023513472 A JP2023513472 A JP 2023513472A JP 2023541125 A JP2023541125 A JP 2023541125A
Authority
JP
Japan
Prior art keywords
image
mask
image screen
face
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023513472A
Other languages
English (en)
Other versions
JP7421010B2 (ja
Inventor
イェ,チュンメイ
ファン,ジャビン
ワン,イートン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2023541125A publication Critical patent/JP2023541125A/ja
Application granted granted Critical
Publication of JP7421010B2 publication Critical patent/JP7421010B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Studio Circuits (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

情報表示方法、装置及び記憶媒体であって、この方法は、ビデオにおける第1のオブジェクトを含む第1の画像画面を取得するステップ(101)と、第1の画像画面内に第2のオブジェクトが存在するか否かを決定するステップ(102)と、第1の画像画面内に第2のオブジェクトが存在し、且つ第2のオブジェクトと第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、第1の画像画面内の第2のオブジェクトが位置する領域に第1の素材を重ね合わせるステップ(103)と、を含む。上記方法は、画像画面から第2のオブジェクトが検出された場合、第2のオブジェクトが位置する領域に任意の素材を重ね合わせることを可能にし、第1のオブジェクトと第2のオブジェクトが予め設定された位置関係を満たすとき、一部の特殊効果を使用できないか、又は情報を表現できないという問題を回避する。【選択図】図1

Description

本開示の実施例は、コンピュータ及びネットワーク通信の技術分野に関し、特に、情報表示方法、装置及び記憶媒体に関する。
新型コロナウイルスの急速な拡散に伴い、大流行は、世界中のユーザの生活、社会活動、及び仕事に何らかの影響を及ぼし、例えば、ユーザは、ソーシャルディスタンスを保つことができない場合、マスクを着用する必要がある。マスクは、現在世界中のユーザが使用しているものになっている。
現在、端末装置上のアプリケーション(Application、APPと略称する)、例えば、ショートビデオAPPは、ユーザの顔を認識し、ユーザに仮想マスクを着用することにより、面白みのあるインタラクティブな体験を実現することができる。しかし、現在のAPPは、ユーザが公共交通機関に乗る、屋内の公共スペースにいるなど、ユーザが特別なシーンにいる場合、マスクを着用する必要があるとき、インタラクティブな遊び方に欠けるため、ユーザの使用体験が良くない。
本開示の実施例は、マスクの着用後、ユーザが顔特殊効果を使用できなかったり情報を表現できなかったりするという問題を解決するために、ユーザの使用体験を向上させる情報表示方法、装置及び記憶媒体を提供する。
第1の態様において、本開示の実施例は、
ビデオにおける第1のオブジェクトを含む第1の画像画面を取得するステップと、
前記第1の画像画面内に第2のオブジェクトが存在するか否かを決定するステップと、
前記第1の画像画面内に前記第2のオブジェクトが存在し、且つ前記第2のオブジェクトと前記第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせるステップと、を含む情報表示方法を提供する。
第2の態様において、本開示の実施例は、
ビデオにおける第1のオブジェクトを含む第1の画像画面を取得するための取得モジュールと、
前記第1の画像画面内に第2のオブジェクトが存在するか否かを決定するための処理モジュールと、
前記第1の画像画面内に前記第2のオブジェクトが存在し、且つ前記第2のオブジェクトと前記第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせるための表示モジュールと、を含む情報表示装置を提供する。
第3の態様において、本開示の実施例は、
少なくとも1つのプロセッサとメモリを含み、
前記メモリはコンピュータ実行命令を記憶し、
前記少なくとも1つのプロセッサは前記メモリに記憶されたコンピュータ実行命令を実行することで、前記少なくとも1つのプロセッサは第1の態様及び第1の態様の様々な可能な設計に記載の情報表示方法を実行する電子機器を提供する。
第4の態様において、本開示の実施例は、コンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行するとき、第1の態様及び第1の態様の様々な可能な設計に記載の情報表示方法を実現するコンピュータ可読記憶媒体を提供する。
第5の態様において、本開示の実施例は、コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサによって実行されるとき、第1の態様及び第1の態様の様々な可能な設計に記載の情報表示方法を実現するコンピュータプログラム製品を提供する。
第6の態様において、本開示の実施例は、プロセッサによって実行されるとき、第1の態様及び第1の態様の様々な可能な設計に記載の情報表示方法を実現するコンピュータプログラムをさらに提供する。
本開示の実施例は、情報表示方法、装置及び記憶媒体を提供し、この方法は、ビデオにおける第1のオブジェクトを含む第1の画像画面を取得するステップと、第1の画像画面内に第2のオブジェクトが存在するか否かを決定するステップと、第1の画像画面内に第2のオブジェクトが存在し、且つ第2のオブジェクトと第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、第1の画像画面内の第2のオブジェクトが位置する領域に第1の素材を重ね合わせるステップと、を含む。上記方法は、画像画面から第2のオブジェクトが検出された場合、第2のオブジェクトが位置する領域に任意の素材を重ね合わせることを可能にし、第1のオブジェクトと第2のオブジェクトが予め設定された位置関係を満たすとき、一部の特殊効果を使用できないか、又は情報を表現できないという問題を回避する。
以下、本開示の実施例又は従来技術の技術的解決手段をより明確に説明するために、実施例又は従来技術の説明に使用する添付図面を簡単に説明し、以下に説明する図面は、本開示のいくつかの実施例に過ぎず、当業者であれば、創造的努力なしにこれらの図面から他の図面を導き出すこともできることは明らかである。
本開示の実施例に係る情報表示方法のフローチャートである。 本開示の実施例に係る情報表示方法のフローチャートである。 本開示の実施例に係るマスク認識モデルの内部構造の概略図である。 本開示の実施例に係る画像画面の処理方法の概略図である。 本開示の実施例に係る画像画面の処理方法の概略図である。 本開示の実施例に係る画像画面の処理方法の概略図である。 本開示の実施例に係る画像画面の処理方法の概略図である。 本開示の実施例に係るインタフェースの変化を示す概略図である。 本開示の実施例に係るマスク認識モデルトレーニングのフローチャートである。 本開示の実施例に係るマスクのキーポイントをラベリングする概略図である。 本開示の実施例に係るマスクを含む元画像及びイメージマスクの概略図である。 本開示の実施例に係るインタフェースの変化を示す概略図である。 本開示の実施例に係る情報表示方法のフローチャートである。 本開示の実施例に係るインタフェースの概略図である。 本開示の実施例に係るインタフェースの変化を示す概略図である。 本開示の実施例に係る情報表示装置の構造を示すブロック図である。 本開示の実施例に係る電子機器のハードウェア構造概略図である。
本開示の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本開示の実施例における図面を参照しながら、本開示の実施例における技術的解決手段を明確かつ完全に説明するが、明らかに、説明された実施例は、本開示の実施例の全てではなく、単に実施例の一部である。本開示の実施例に基づいて、当業者が創造的努力なしに得た全ての他の実施例は、いずれも本開示の保護範囲に属している。
新型コロナウイルスによる世界的な大流行の常態化の状況で、マスクは、世界中のユーザの日常生活、社会活動及び仕事でよく使用されるものになっている。ユーザは、大流行の爆発前に、端末装置上のアプリケーションを使用して、写真撮影、ビデオチャット又はライブ配信を行う際に、自身の感情、表情、状態などを直観的に表現することができる。しかし、世界的な大流行の常態化に伴い、公共交通機関に乗る、屋内の公共スペースにいるなど、ユーザが特別なシーンにいる場合、ユーザがマスクを着用して、顔を隠す必要があるが、このとき、ユーザは、アプリケーションにおけるいくつかの顔特殊効果を使用することができず、また、自身の感情、表情、状態などを直観的に表現することもできない。本開示の実施例は、上記問題を解決するために、情報表示方法を提供する。
本開示の実施例は、情報表示方法を提供し、顔を含む画像画面を取得することにより、画像画面内の顔領域に対して画像分析を行い、画像画面内の顔にマスクを着用しているか否かを決定し、画像画面内の顔にマスクを着用していないと決定した場合、マスクを着用するようにユーザに提示し、ユーザが着用しているマスクに、ステッカー、文字、表情などを表示するプリセット情報又はユーザのカスタマイズ情報を表示させることによって、ユーザがマスクを着用した状態で感情、表情、状態などを表現することができ、ユーザの使用体験を向上させることができる。
実際の応用シーンは、ユーザの顔にマスクを着用したシーンだけでなく、ユーザの目にサングラスを着用したこと、ユーザの頭に帽子を着用したことなどを含むことができるが、これに対して本開示の実施例はいかなる制限を行わない。より広い応用シーンに対して、本開示の実施例は、情報表示方法をさらに提供し、ビデオにおける第1のオブジェクトを含む画像画面を取得し、画像画面内に第2のオブジェクトが存在するか否かを決定し、画像画面内に第2のオブジェクトが存在し、且つ第2のオブジェクトと第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、画像画面内の第2のオブジェクトが位置する領域にステッカー、文字、表情などを表示するプリセット情報又はカスタマイズ情報を重ね合わせ、第1のオブジェクトと第2のオブジェクトが予め設定された位置関係を満たすとき、一部の特殊効果を使用できないか、又は情報を表現できないという問題を回避する。
なお、本開示の実施例に係る情報表示方法は、ビデオチャット、写真撮影及びライブ配信などのシーンに適用することができ、もちろん、人物の顔の画像を収集する必要がある他のシーンにも適用することができ、これに対して本開示の実施例はいかなる制限を行わない。
次に、具体的な実施例を参照しながら本開示の技術的解決手段を詳しく説明する。以下のいくつかの具体的な実施例を組み合わせてもよく、同じ又は同様の概念又はプロセスについては、いくつかの実施例では詳細な説明を省略する可能性もある。
例示的に、図1は、本開示の実施例に係る情報表示方法のフローチャートである。本実施例の方法は、端末装置又はサーバに適用することができ、図1に示すように、この情報表示方法は、ステップ101~ステップ103を含む。
ステップ101において、ビデオにおける第1のオブジェクトを含む第1の画像画面を取得する。
ステップ102において、第1の画像画面内に第2のオブジェクトが存在するか否かを決定する。
本実施例では、第1のオブジェクトは人物の顔、頭、手などの任意の身体部位であってもよく、第2のオブジェクトは、身体部位との間で予め設定された位置関係を満たす任意の物体であってもよい。例示的に、第1のオブジェクトは人物の顔であり、第2のオブジェクトはマスク、サングラス、帽子などの物体であってもよい。
本開示の一実施例において、第2のオブジェクトの認識モデルにより、第1の画像画面内に第2のオブジェクトが存在するか否かを決定することができる。この認識モデルは、任意の深層学習モデル又は軽量機械学習モデルを用いてもよい。異なる第2のオブジェクトは異なる認識モデルに対応し、具体例は後述の実施例を参照されたい。
ステップ103において、第1の画像画面内に第2のオブジェクトが存在し、且つ第2のオブジェクトと第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、第1の画像画面内の第2のオブジェクトが位置する領域に第1の素材を重ね合わせる。
本実施例では、第2のオブジェクトと第1のオブジェクトが予め設定された位置関係を満たすことは、以下のいくつかの形態を含む。
第1のオブジェクトは顔であり、第2のオブジェクトはマスクであり、予め設定された位置関係を満たすことは、具体的には、顔にマスクが着用されていることである。第1のオブジェクトは顔であり、第2のオブジェクトはサングラスであり、予め設定された位置関係を満たすことは、具体的には、人の顔にサングラスが着用されていることであってもよい。第1のオブジェクトは手であり、第2のオブジェクトは手袋であり、予め設定された位置関係を満たすことは、具体的には、人物の手に手袋が着用されていることであってもよい。上記の例は、単に例として、第1のオブジェクトと第2のオブジェクトとの他の位置関係は、いずれも本開示の実施例の保護範囲に属する。
任意選択で、いくつかの実施例において、第1の画像画面内の第2のオブジェクトが位置する領域に第1の素材を重ね合わせた後、方法はさらに、第1の画像画面に続く第2の画像画面内に第2のオブジェクトが存在しないと決定した場合、第1の素材を除去し、第2の画像画面に、第1素材とは異なる第2の素材を重ね合わせるステップを含む。
任意選択で、いくつかの実施例において、第1の画像画面内の第2のオブジェクトが位置する領域に第1の素材を重ね合わせた後、方法はさらに、第1の画像画面に表示されている第1の素材に対するユーザの切替操作を取得するステップと、切替操作に応答して第1の素材を除去し、第1の画像画面に続く第2の画像画面に、第1の素材とは異なる第3の素材を重ね合わせるステップと、を含む。
任意選択で、切替操作は、ジェスチャー操作、顔動作、頭部動作、音声制御、インタフェースの素材選択領域の選択操作、インタフェースのテキスト入力領域の入力操作のいずれかを含む。
任意選択で、第3の素材は、ユーザがインタフェースのテキスト入力領域に入力したテキスト情報又は表情である。
上記の説明からわかるように、本実施例に係る情報表示方法は、ビデオにおける第1のオブジェクトを含む第1の画像画面を取得するステップと、第1の画像画面内に第2のオブジェクトが存在するか否かを決定するステップと、第1の画像画面内に第2のオブジェクトが存在し、且つ第2のオブジェクトと第2の第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、第1の画像画面内の第2のオブジェクトが位置する領域に第1の素材を重ね合わせるステップと、を含む。上記方法は、画像画面から第2のオブジェクトが検出された場合、第2のオブジェクトが位置する領域に任意の素材を重ね合わせることを可能にし、第1のオブジェクトと第2のオブジェクトが予め設定された位置関係を満たすとき、一部の特殊効果を使用できないか、又は情報を表現できないという問題を回避する。
以下、第1のオブジェクトが顔であり、第2のオブジェクトがマスクである場合を例として、本開示の実施例が提供する情報表示方式について詳細に説明する。このシーンにおいて、第2のオブジェクトと第1のオブジェクトが予め設定された位置関係を満たすことは、具体的には、顔にマスクが着用されていることを指す。
例示的に、図2は、本開示の実施例に係る情報表示方法のフローチャートである。本実施例の方法は、端末装置又はサーバに適用することができ、図2に示すように、この情報表示方法は、ステップ201~ステップ204を含む。
ステップ201において、ビデオにおける顔を含む第1の画像画面を取得する。
具体的には、端末装置のカメラが収集した、顔を含む第1の画像画面を取得し、画面において顔にマスクが着用されている可能性があり、マスクが着用されていない可能性もある。
ステップ202において、第1の画像画面内の顔にマスクが着用されているか否かを決定する。
本開示の一実施例において、第1の画像画面内の顔にマスクが着用されているか否かを決定するステップは、第1の画像画面における顔を含む対象画像を取得するステップと、対象画像をマスク認識モデルに入力し、認識結果を得るステップであって、認識結果は顔にマスクが着用されているか否かを示すために用いられるステップと、を含む。予めトレーニングされたマスク認識モデルを用いることにより、第1の画像画面における顔に対するマスク着用の有無の認識効率及び精度を向上させることができる。
なお、上記対象画像は、第1の画像画面そのものであってもよいし、第1の画像画面に前処理を行った後の顔領域の画像であってもよく、具体的な前処理過程は後の実施例を参照し、ここではこれ以上説明しない。
本開示の一実施例において、マスク認識モデルは、VGG、ResNet、GoogleNet、MobileNet、ShuffleNetなどの深層学習モデルを使用することができ、モデルによって計算量が異なるため、これに対して本実施例はいかなる制限を行わない。
本発明の一実施例において、マスク認識モデルは、移動端末での画像処理の要求を満たすために、軽量機械学習モデルを用いることができ、即ち、計算量が少なく、計算効率が高く、簡単なモデルを移動端末に配置することができる。
任意選択で、本実施例のマスク認識モデルはMobileNetとShuffleNetなどの軽量機械学習モデルを用いることができ、このモデルの内部構造は図3に示すように、モデルの内部構造は、チャンネルシャッフル(shuffle channel)モジュール、チャンネルスライス(slice)モジュール、1×1畳み込みモジュール(pointwise convolution)、3×3畳み込みモジュール(depth-wise convolution)、1×1畳み込みモジュール(point-wise convolution)、チャンネルマージ(concat)モジュールを含み、1×1畳み込みモジュールと3×3畳み込みモジュールとの間、及び1×1畳み込みモジュールとチャンネルマージモジュールとの間はいずれもBN(Batch Normalization)とReLUを含むことができる。BNは統計データ分布特性の線形変換であり、ReLUは、単純で効率的な非線形活性化関数である。
上記モデルの基本的な考え方は、計算量を減らすために、伝統的な畳み込みをdepth-wise convolution及びpoint-wise convolutionという分離可能な畳み込みに変更することである。shuffle channelは、モデルの表現力を向上させるために用いられる。また、逆残差Inverted Residualsを用いることでdepth-wise convolutionの特徴抽出能力を向上させることができる。なお、図3に示されるマスク認識モデルの内部のモジュール接続図は、一例に過ぎず、応用要求に応じてモデルの内部構造を調整することができ、これに対して本実施例はいかなる制限を行わない。
本開示の一実施例において、上記対象画像は第1の画像画面そのものであり得る場合、ステップ202は、具体的には、第1の画像画面をマスク認識モデルに入力し、認識結果を得るステップを含む。
例示的に、図4aは、本開示の実施例に係る画像画面の処理方法の概略図である。図4aに示すように、第1の画像画面をマスク認識モデルに入力し、マスク認識モデルの画像分析を通じて、第1の画像画面の認識結果を出力する。認識結果は第1の画像画面内の顔にマスクが着用されているか否かを示すために用いられる。
例として、認識結果は、第1の画像画面内の顔にマスクが着用されているか否かを示すためのラベルを含み、例えば、数値範囲が0~1であるラベル値である。具体的に、ラベル値が0であり、第1の画像画面内の顔にマスクが着用されていないことを示し、ラベル値が1であり、第1の画像画面内の顔にマスクが着用されていることを示す。ラベル値が1に近いほど、第1の画像画面内の顔にマスクが着用されている確率が高いことを表すことを理解すべきである。
別の例として、認識結果は、第1の画像画面内の顔にマスクが着用されていることを示すラベルと、第1の画像画面内の顔に着用されているマスクの位置情報とを含む。
任意選択で、認識結果におけるマスクの位置情報は、マスクのキーポイント情報、マスクのイメージマスク(mask)情報の少なくとも1つを含む。
マスクのキーポイント情報は、正規化されたマスクキーポイントの座標値で表されてもよいし、ヒートマップ(heatmap)の形態で表されてもよく、これに対して本実施例はいかなる制限を行わない。
例示的に、モデルは正規化されたマスクキーポイントのxy座標、例えば(0.25,0.5)を直接出力し、マスクにキーポイントがN個ある場合には、N×2の行列を出力する。
例示的に、モデルはマスクのキーポイントのヒートマップを出力し、キーポイントのそれぞれは、1枚のヒートマップに対応し、ヒートマップとモデルの入力マップとは同じ大きさであり、ヒートマップ上の各ピクセルの数値範囲は0~1であり、ヒートマップ上の数値が最大のピクセル位置は、マスクのキーポイント位置を表す。
マスクのイメージマスク情報は、2値マップであってもよく、上記モデルが出力したイメージマスクマップとモデルの入力マップとは同じ大きさであり、例えば、モデルの入力マップは128×128解像度マップであり、モデルの出力は128×128のイメージマスクマップを含み、イメージマスクマップ上の各ピクセルの数値範囲も、各ピクセルがマスクに当たる確率を表す0~1である。
本開示の一実施例において、上記対象画像は、第1の画像画面を前処理した後の顔領域の画像であってもよく、第1の画像画面における顔を含む対象画像を取得するステップは、第1の画像画面を第1の顔認識モデルに入力し、第1の画像画面における顔領域の第1の画像を得て、第1の画像を対象画像とするステップを含むことができる。
第1の顔認識モデルによって得られた第1の画像は、正面顔、横顔、顔の左右の傾き、横顔の上下の傾きの顔画像など、異なる角度の顔画像を含むことに注意されたい。
例示的に、図4bは、本開示の実施例に係る画像画面の処理方法の概略図であり、図4bに示すように、最初に、第1の画像画面を第1の顔認識モデルに入力し、第1の画像画面における顔領域の画像を得て、次に、第1の画像画面における顔領域の画像をマスク認識モデルに入力し、マスク認識モデルの画像分析を通じて、マスク認識結果を出力する。認識結果は、上記の例と同様であるので、ここでは説明を省略する。上記第1の顔認識モデルは、画像中の人物の顔及び人物の顔の画像中の位置を認識するために用いられ、第1の顔認識モデルは、上記の深層学習モデル又は軽量機械学習モデルのいずれかを使用することができ、これに対して本実施例はいかなる制限を行わない。
上記の説明からわかるように、第1の例(図4aに示されている例)と比較して、上記第2の例(図4bに示されている例)は、第1の画像画面中の人物に顔認識を追加し、顔画像をマスク認識モデルに入力して、マスク認識モデルの計算量を大幅に削減できるとともに、マスク検出の速度及び精度を向上させる。
本開示の一実施例において、上記対象画像は、第1の画像画面を前処理した後の顔領域の画像であってもよく、第1の画像画面における顔を含む対象画像を取得するステップは、第1の画像画面を第2の顔認識モデルに入力し、第1の画像画面における顔領域の第1の画像及び顔領域のキーポイント情報を得るステップと、キーポイント情報に基づいて第1の画像を回転処理して第2の画像を得て、第2の画像を対象画像とするステップと、を含むことができる。
第2の顔認識モデルを通じて、第1の画像画面における顔領域の第1の画像を得ることに加えて、第1の画像のキーポイント情報、即ち、顔の領域の要点部位の位置情報、例えば、顔の両眼、鼻、眉毛、口などの部分の座標位置をさらに含む。第2の画像は、正面顔又は横顔の標準的な顔の画像であり得る。例示的に、第1の画像において人物の顔が左に傾いている場合、回転処理を経て、補正された人物の正面顔画像を得ることができる。第1の画像が人物の横顔画像であり且つ顔が上方に傾いている場合、回転処理を経て、方向が補正された人物の横顔画像を得ることができる。
例示的に、図4cは、本開示の実施例に係る画像画面の処理方法の概略図であり、図4cに示すように、最初に、第1の画像画面を第2の顔認識モデルに入力して、第1の画像画面における顔領域の画像及び顔領域のキーポイント情報を得て、次に、キーポイント情報に基づいて第1の画像画面における顔画像を回転して、標準的な顔画像を得て、さらに、標準的な顔画像をマスク認識モデルに入力し、マスク認識モデルの画像分析を通じて、マスク認識結果を出力する。認識結果は、上記の例と同様であるので、ここでは説明を省略する。上記第2の顔認識モデルは、画像中の人物の顔及び人物の顔の要点部位の位置を認識するために用いられ、第2の顔認識モデルは、上記の深層学習モデル又は軽量機械学習モデルのいずれかを使用することができ、これに対して本実施例はいかなる制限を行わない。
任意選択で、図4dを参照し、可能な実現形態において、上記第2の顔認識モデルは、第1の顔認識モデル及び顔キーポイント検出モデルを含む。図4dに示されるように、最初に、第1の画像画面を第1の顔認識モデルに入力して、第1の画像画面における顔領域の画像を得て、次に、第1の画像画面における顔領域の画像を顔キーポイント検出モデルに入力して、顔の要点部位の位置情報を得て、次に、顔の要点部位の位置情報に基づいて顔領域の画像を回転して、標準的な顔画像を得て、さらに、標準的な顔画像をマスク認識モデルに入力し、マスク認識モデルの画像分析を通じて、マスク認識結果を出力する。
標準的な顔画像に対するマスク認識難易度が他のポーズにおけるマスク認識難易度よりも低いことがわかる。
上記の説明からわかるように、上記前の2つの例(図4aに示されている例又は図4bに示されている例)と比較して、上記後の2つの例(図4cに示されている例又は図4dに示されている例)は、顔画像に要点部位の学習を増加し、後続のマスク認識モデルの認識難易度を低減し、マスク認識モデルの計算量を削減し、マスク検出の速度及び精度を向上させる。
任意選択で、いくつかの実施例では、画像をマスク認識モデル、顔認識モデル、又は顔キーポイント検出モデルに入力する前に、入力される画像を前処理することもできる。前処理には、入力画像が様々なモデルの入力要件を満たすことを確保するように、画像に対するトリミング、スケーリング、及び回転などが含まれる。
本実施例では、顔にマスクが着用されていないと決定した場合、ステップ203を実行し、顔にマスクが着用されていると決定した場合、ステップ204を実行する。
ステップ203において、マスクを着用するようにユーザに提示するための提示情報を第1の画像画面に表示する。
本実施例では、第1の画像画面における任意の位置に提示情報を表示することができ、例えば、第1の画像画面の上部、中央、及び下部などの位置に提示情報を表示することができる。提示情報の目的は、ユーザにマスクを着用させるためであり、提示情報の具体的な形式に対して、本実施例はいかなる制限を行わない。例示的に、提示情報は、「マスクを着用してください」、「マスクを着用し、効果を確認してください」などのテキストによる提示情報であってもよく、また、音声による提示情報であってもよい。
ステップ204において、第1の画像画面の顔領域に第1の素材を重ね合わせる。
本実施例では、第1の素材は、予め設定された素材であってもよく、ユーザによりカスタマイズされた素材であってもよく、これに対して本実施例はいかなる制限を行わない。なお、予め設定された素材は、地域による文化の違いや、人々による好みなどを考慮して設定することができる。
本実施例が提供する素材のフォーマットには、写真、ビデオ、動画、及びテキストなどのフォーマットが含まれるが、これらに限定されない。本実施例が提供する素材は、2D素材及び3D素材を含み、動的素材であってもよいし、静的素材であってもよく、これに対して本実施例はいかなる制限を行わない。
例示的に、図5は、本開示の実施例に係るインタフェースの変化を示す概略図であり、図5に示すように、現在の画像画面においてユーザの顔にマスクが着用されていないことが検出された場合、現在の画像画面の任意の位置に「マスクを着用してください」という提示情報を重ね合わせることができる。例えば、図5に示すように、現在の画像画面の中央位置に「マスクを着用してください」という提示情報を重ね合わせる。続く画像画面において、ユーザの顔にマスクが着用されていることが検出された場合、図5に示すステッカーのように、ユーザが着用しているマスク領域に素材を重ね合わせて表示することができる。一例として、図5に示すインタフェースの下方には、素材選択領域、テキスト入力領域などを含むメニュー領域をさらに含むことができ、詳細については後に説明される実施例を参照し、ここではこれ以上説明しない。
上記の説明からわかるように、本実施例に係る情報表示方法は、ビデオにおける顔を含む第1の画像画面を取得し、第1の画像画面の顔にマスクを着用しているか否かを決定し、顔にマスクが着用されていないと決定した場合、第1の画像画面に、マスクを着用するようにユーザに提示するための提示情報を表示する。顔にマスクが着用されていると決定した場合、第1の画像画面の顔領域に第1の素材を重ね合わせる。本実施例は、ユーザがカメラを使用して撮影するときにマスクを着用するようにユーザに提示することができ、ユーザがマスクを着用した後、ユーザが着用したマスクに予め設定された素材又はユーザによりカスタマイズされた素材を重ね合わせることにより、ユーザがマスクを着用した後、顔特殊効果を使用できなかったり情報を表現できなかったりするという問題を回避し、ユーザの使用体験を向上させる。
上記の実施例によりわかるように、画像画面における顔にマスクを着用しているか否かを認識する効率及び精度を改善するために、予めトレーニングされたマスク認識モデルを使用して、画像を処理及び分析することができ、以下、マスク認識モデルのトレーニングプロセスについて詳しく説明する。
例示的に、図6は、本開示の実施例に係るマスク認識モデルトレーニングのフローチャートである。本実施例のトレーニング方法は、端末装置又はサーバに適用することができ、図6に示すように、モデルトレーニング方法は、ステップ301~ステップ303を含む。
ステップ301において、初期マスク認識モデルを構築する。初期マスク認識モデルは、任意の深層学習モデル又は軽量機械学習モデルを採用することができる。
ステップ302において、ネガポジ画像サンプル及びネガポジ画像サンプルのラベリング結果を取得する。ポジティブ画像サンプルに含まれる顔にマスクが着用され、ネガティブ画像サンプルに含まれる顔にマスクが着用されていない。ラベリング結果は、画像サンプルの顔にマスクが着用されているか否かを示すためのラベル及びマスクの位置情報を含む。
本実施例では、ポジティブ画像サンプルとは、様々な撮影条件でマスクを着用した人物の写真を意味し、ネガティブ画像サンプルとは、様々な撮影条件でマスクを着用していない人物の写真を意味する。具体的には、本実施例で収集されたポジティブ画像サンプルには、水平視、上面視、底面視などの異なる撮影角度のマスク着用人物の写真が含まれ、正面顔、半横顔、横顔などの異なる顔姿勢の写真も含まれ、室内の黄色光、白色光、屋外の日光、影などの異なる照光条件の写真も含まれ、サージカルマスク、N95マスク、綿布マスクなどの異なるタイプのマスクの写真も含まれ、方形マスク、円形マスクなどの異なる形状のマスクの写真も含まれ、マスク着用人物の様々なシーンを十分に収集する。
上記の画像サンプルのラベリング作業は、ラベリングチームで行われてもよいし、写真認識方法を用いて大まかなラベリングを行ってから、手動で修正してもよいし、写真を分類して、分類された画像サンプルを一括してラベリングしてもよい。以上のラベリング作業は、独立して用いるか又は組み合わせて使用することができる。マスクを着用している人物の写真には、主にマスクの複数のキーポイントをラベリングし、例えばマスクの水平中心線上の複数のキーポイントとマスクの垂直中心線上の複数のキーポイントをラベリングし、具体的には図7を参照されたい。
一例として、画像サンプル中の顔にマスクを着用するか否かを示すラベルは、具体的には、画像サンプル中の顔にマスクを着用していないことを示す0と、画像サンプル中の顔にマスクを着用していることを示す1とを含むラベル値であってもよい。
上記ラベリング結果におけるマスクの位置情報は、マスクのキーポイント情報、マスクのイメージマスク情報の少なくとも1つを含む。一例として、手動でラベリングされたキーポイントは、マスクの水平中心線上の複数のキーポイント、及びマスクの垂直中心線上の複数のキーポイントを含むことができる。マスクのイメージマスク情報とは、画像サンプル中のマスクの2値化画像を意味し、画像中のマスクの位置情報を示すために用いることができ、具体的には図8を参照されたい。
ステップ303において、ネガポジ画像サンプルをマスク認識モデルの入力とし、ネガポジ画像サンプルのラベリング結果をマスク認識モデルの出力とすることにより、初期マスク認識モデルをトレーニングして、マスク認識モデルを得る。
任意選択で、マスク認識モデルは、adamオプティマイザを用いて、学習率(例えば0.01)、重みのペナルティ値(例えば1e-5)を設定し、学習率が低下する傾向はmulti-step曲線を用いて、batch_size(例えば96)を設定することにより、トレーニング済みのマスク認識モデルを得ることができる。
上記の説明からわかるように、本実施例に係るマスク認識モデルのトレーニング過程は、異なる撮影角度、顔姿勢、照光条件、マスクスタイルなどの各種の撮影条件をカバーすべき大量の画像サンプルを取得する必要がある。手動でラベリングすることによりモデルトレーニングを行い、認識効果の高いモデルがトレーニングされる。
上述した図2の実施例に基づいて、マスクが着用されたユーザの個性化需要に対して、ユーザは、マスクが着用された場合には、マスクに表示される第1の素材をカスタマイズすることができることに加えて、マスクが着用されていない場合には、マスクに表示される第2の素材の個性化設定をさらに増加することができる。
本開示の一実施例において、第1の画像画面の顔領域に第1の素材を重ね合わせた後、情報表示方法は、第1の画像画面に続く第2の画像画面内の顔にマスクを着用していないと決定した場合に、第1の素材を除去し、第2の画像画面において第1の素材とは異なる第2の素材を重ね合わせることをさらに含むことができる。
第2の素材は、ユーザがカスタマイズした素材であってもよいし、サーバがデフォルトの素材であってもよい。任意選択で、第2の素材は、第2の画像画面の任意の位置に重ね合わせることができ、例示的に、第2の素材は、第2の画像画面内の人物の顔領域、頭部領域、背景領域などの位置に重ね合わせることができる。第2の素材の素材フォーマット及び具体的な表現形式は、上記実施例のステップ204の記載と同様であり、具体的には上記を参照することができ、ここではその説明を省略する。もちろん、第2の素材は、例えば、ユーザがカスタマイズしたメイクアップ特殊効果、痩せ顔特殊効果などの他の特殊効果として理解されてもよい。
例示的に、図9は、本開示の実施例に係るインタフェースの変化を示す概略図であり、図9に示すように、ユーザが左側の画像中のマスクを外して全顔を表示した場合には、マスク認識モデルは、現在の画像(右側の画像)のユーザの顔にマスクを着用していないことを検出し、左側の画像に表示されている模様ステッカーを除去して、現在の画像のユーザの顔領域に新たな素材を重ね合わせ、例えば、図9に示すユーザの両眼の下方の領域に星ステッカーを重ね合わせることができる。重ね合わせた新たな素材は上記の第2の素材である。
上記の説明からわかるように、ユーザは、マスク着用時にマスクに表示される第1の素材をカスタマイズすることができ、さらに、マスクの未着用時に画面に表示される第2の素材をカスタマイズすることができ、上記の例によりユーザのマスク着用の面白みのある遊び方を実現し、ユーザの使用体験を向上させることができる。
本開示の実施例では、上述した図2の実施例に基づいて、異なるユーザの個性化需要を満たすために、現在のマスク領域の素材に対するユーザの切替操作を増やし、面白みのある遊び方を増やし、ユーザの使用体験を向上させることができる。
図10は、本開示の実施例に係る情報表示方法のフローチャートである。図10に示すように、情報表示方法は、図2の実施例のステップ204の後、即ち、第1の画像画面の顔領域に第1の素材を重ね合わせた後に、ステップ205~ステップ206をさらに含んでもよい。
ステップ205において、第1の画像画面に表示されている第1の素材に対するユーザの切替操作を取得する。
ステップ206において、切替操作に応答して第1の素材を除去し、第1の画像画面に続く第2の画像画面に第3の素材を重ね合わせる。
第3の素材は、第1の素材とは異なる。第3の素材は、サーバが予め設定した素材であってもよいし、ユーザがカスタマイズした素材であってもよく、これに対して本実施例はいかなる制限を行わない。任意選択で、第3の素材は、第2の画像画面の任意の位置に重ね合わせることができる。第3の素材のフォーマット及び具体的な表現形式は、上記実施例のステップ204の記載と同様であり、具体的には上記を参照することができ、ここではその説明を省略する。もちろん、第3の素材は、例えば、ユーザがカスタマイズしたメイクアップ特殊効果、痩せ顔特殊効果などの他の特殊効果として理解されてもよい。
本実施例では、第1の画像画面に表示されている第1の素材に対するユーザの切替操作は、画面素材の切替をトリガーするために用いられ、切替操作は、以下のいくつかの可能な実現方式を含む。
本開示の一実施例において、第1の画像画面に表示されている第1の素材に対するユーザの切替操作を取得するステップは、第1の画像画面におけるユーザのジェスチャー操作を取得するステップを含み、ジェスチャー操作は、画面素材の切替をトリガーするために用いられる。例示的に、ユーザがマスクを着用する際に、マスクに第1の素材を重ね合わせており、ユーザは、ハートの手真似、勝利の手真似、又は手のひらを広げるなどのジェスチャー操作により、マスク上の素材の切替をトリガーすることができる。本実施例では、ジェスチャー認識技術によりユーザの意図を決定し、ユーザの意図にマッチングする素材を素材ライブラリから検索し、マスク上の素材を切り替える。
上記効果を図るために、任意選択で、第1の画像画面に、ジェスチャー操作を行うようにユーザに提示するための提示情報を表示してもよく、例えば、第1の画像画面中の任意の位置に「ハートの手真似で試みてください」、「手のひらを広げてみてください」などのテキストを表示してもよく、第1の画像画面中の任意の位置に「ハートの手真似」、「手のひら」などのステッカーを表示してもよい。任意選択で、さらに音声を再生してジェスチャー操作を行うようにユーザに提示することもできる。
本開示の一実施例において、第1の画像画面に表示されている第1の素材に対するユーザの切替操作を取得するステップは、第1の画像画面におけるユーザの顔動作を取得するステップを含み、顔動作は、画面素材の切替をトリガーするために用いられる。例示的に、ユーザがマスクを着用する際に、マスクに第1の素材を重ね合わせており、ユーザは、まばたき、眉を引くなどの顔動作によって、マスク上の素材の切替をトリガーすることができる。本実施例では、顔認識技術によりユーザの意図を決定し、ユーザの意図にマッチングする素材を素材ライブラリから検索し、マスク上の素材を切り替える。
本開示の一実施例において、第1の画像画面に表示されている第1の素材に対するユーザの切替操作を取得するステップは、第1の画像画面におけるユーザの頭部動作を取得するステップを含み、頭部動作は、画面素材の切替をトリガーするために用いられる。例示的に、ユーザがマスクを着用する際に、マスクに第1の素材を重ね合わせており、ユーザは、頭を縦に振るか、顔を横に振るなどの頭部動作によって、マスク上の素材の切替をトリガーすることができる。本実施例では、頭部認識技術によりユーザの意図を決定し、ユーザの意図にマッチングする素材を素材ライブラリから検索し、マスク上の素材を切り替える。
本開示の一実施例において、第1の画像画面に表示されている第1の素材に対するユーザの切替操作を取得するステップは、第1の画像画面におけるユーザの音声データを取得するステップを含み、音声データは、画面素材の切替をトリガーするために用いられる。例示的に、ユーザがマスクを着用する際に、マスクに第1の素材を重ね合わせており、ユーザが音声によりマスク上の素材の切替を制御することができ、例えば、ユーザが現在着用しているマスクに図5に示すような模様ステッカーを重ね合わせており、ユーザが音声「笑顔を保持」を入力すると、マスク上の模様ステッカーが笑顔ステッカーに切り替えられる。本実施例では、音声認識技術によりユーザの意図を決定し、ユーザの意図にマッチングする素材を素材ライブラリから検索し、マスク上の素材を切り替える。
本開示の一実施例において、第1の画像画面に表示されている第1の素材に対するユーザの切替操作を取得するステップは、インタフェースの素材選択領域でのユーザの選択操作を取得するステップを含み、選択操作は、画面素材の切替をトリガーするために用いられる。素材選択領域は様々な素材リソースを含み、図11は、本開示の実施例に係るインタフェースの概略図であり、図11に示すように、インタフェース下方の素材選択領域は素材1、2、3、4、5を含み(なお、図面における素材の実際の表示は素材のプレビュー図である)、ユーザのマスクに表示されている現在の素材は素材3であり、ユーザは素材選択領域に他の素材を選択し、現在のマスクの素材3の切替をトリガーすることができる。
本開示の一実施例において、第1の画像画面に表示されている第1の素材に対するユーザの切替操作を取得するステップは、インタフェースのテキスト入力領域でのユーザの入力操作を取得するステップを含み、入力操作は、画面素材の切替をトリガーするために用いられる。例示的に、ユーザがマスクを着用している場合、マスクに第1の素材を重ね合わせており、ユーザはインタフェースのテキスト入力領域にテキスト情報又は表情を入力することにより、マスク上の素材の切替をトリガーすることができる。
任意選択で、第3の素材はユーザがテキスト入力領域に入力したテキスト情報又は表情であってもよい。テキスト情報は数字、アルファベット、記号、文字の少なくとも1つを含む。
例示的に、図12は、本開示の実施例に係るインタフェースの変化を示す概略図であり、図12に示すように、ユーザがマスクを着用している場合、マスクに第1の素材を重ね合わせており、ユーザはインタフェース下方のテキスト入力領域をクリックすることにより、仮想キーボードのポップアップをトリガーすることができ、ユーザは、仮想キーボードにテキスト情報、例えば、英語の単語「smile」を入力し、「確認」をクリックすると、マスク上の模様ステッカーがユーザにより入力されたテキスト「smile」に切り替えられる。
上記の説明からわかるように、ユーザのマスクに素材が重ね合わせられている場合、ユーザはさらに、ジェスチャー操作、顔動作、頭部動作、音声制御、テキスト入力又は素材インタフェースの選択などの予め設定された操作方式で、画面中の人物のマスク素材の切替を実現することができ、上記例はユーザがマスクを着用する面白みのある遊び方を実現し、ユーザ体験を向上させることができる。
上記の実施例の情報表示方法に対応して、図13は、本開示の実施例に係る情報表示装置の構造を示すブロック図である。説明を容易にするために、本開示の実施例に関連する部分のみが示されている。図13に示すように、本実施例に係る情報表示装置400は、取得モジュール401、処理モジュール402及び表示モジュール403を含む。ここで、
取得モジュール401は、ビデオにおける第1のオブジェクトを含む第1の画像画面を取得するために用いられ、
処理モジュール402は、前記第1の画像画面内に第2のオブジェクトが存在するか否かを決定するために用いられ、
表示モジュール403は、前記第1の画像画面内に前記第2のオブジェクトが存在し、且つ前記第2のオブジェクトと前記第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせるために用いられる。
本開示の一実施例において、前記第1のオブジェクトは顔であり、前記第2のオブジェクトはマスクであり、前記予め設定された位置関係は、具体的には、前記顔に前記マスクが着用されていることである。
本開示の一実施例において、取得モジュール401は、具体的には、前記第1の画像画面における前記顔を含む対象画像を取得するために用いられ、
処理モジュール402は、具体的には、前記対象画像をマスク認識モデルに入力し、認識結果を得るために用いられ、前記認識結果は前記顔にマスクが着用されているか否かを示すために用いられ、前記マスク認識モデルは軽量機械学習モデルである。
本開示の一実施例において、前記マスク認識モデルは、チャンネルシャッフルモジュールと、チャンネルスライスモジュールと、2つの1×1畳み込みモジュールと、3×3畳み込みモジュールと、チャンネルマージモジュールと、を含む。
本開示の一実施例において、処理モジュール402は、具体的には、
前記第1の画像画面を第1の顔認識モデルに入力し、前記第1の画像画面における顔領域の第1の画像を得て、前記第1の画像を前記対象画像とするために用いられる。
本開示の一実施例において、処理モジュール402は、具体的には、
前記第1の画像画面を第2の顔認識モデルに入力し、前記第1の画像画面における顔領域の第1の画像及び前記顔領域のキーポイント情報を得て、
前記キーポイント情報に基づいて前記第1の画像を回転処理して第2の画像を得て、前記第2の画像を前記対象画像とするために用いられる。
本開示の一実施例において、取得モジュール401はさらに、
構築された初期マスク認識モデルを取得し、
ネガポジ画像サンプルと前記ネガポジ画像サンプルのラベリング結果を取得するために用いられ、ポジティブ画像サンプルに含まれる顔にマスクが着用され、ネガティブ画像サンプルに含まれる顔にマスクが着用されておらず、前記ラベリング結果は、画像サンプルの顔にマスクが着用されているか否かを示すためのラベル及びマスクの位置情報を含み、
処理モジュール402はさらに、前記ネガポジ画像サンプルを前記マスク認識モデルの入力とし、前記ネガポジ画像サンプルのラベリング結果を前記マスク認識モデルの出力とすることにより、前記初期マスク認識モデルをトレーニングして、前記マスク認識モデルを得るために用いられる。
本開示の一実施例において、表示モジュール403が前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせた後、処理モジュール402が前記第1の画像画面に続く第2の画像画面内に前記第2のオブジェクトが存在しないと決定した場合、表示モジュール403はさらに前記第1の素材を除去し、前記第2の画像画面に、前記第1素材とは異なる第2の素材を重ね合わせるために用いられる。
本開示の一実施例において、表示モジュール403が前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせた後、取得モジュール401はさらに、
前記第1の画像画面に表示されている前記第1の素材に対するユーザの切替操作を取得するために用いられ、
表示モジュール403はさらに、前記切替操作に応答して前記第1の素材を除去し、前記第1の画像画面に続く第2の画像画面に、前記第1の素材とは異なる第3の素材を重ね合わせるために用いられる。
本開示の一実施例において、前記切替操作は、ジェスチャー操作、顔動作、頭部動作、音声制御、インタフェースの素材選択領域の選択操作、インタフェースのテキスト入力領域の入力操作のいずれかを含む。
本開示の一実施例において、前記第3の素材は、ユーザがインタフェースのテキスト入力領域に入力したテキスト情報又は表情である。
本開示の一実施例において、処理モジュール402が前記第1の画像画面内に前記第2のオブジェクトが存在しないと決定した場合、表示モジュール403はさらに、前記第2のオブジェクトを着用するようにユーザに提示するための提示情報を前記第1の画像画面に表示するために用いられる。
本実施例に係る情報表示装置は、上記方法の実施例の技術的解決法を実行するために用いられてもよく、その実現原理と技術的効果は類似であるため、本実施例はここでは詳細な説明を省略する。
図14を参照すると、本開示の実施例を実現するのに適する電子機器500の構造概略図を示し、この電子機器500は、端末装置又はサーバであってもよい。端末装置は、携帯電話、ノートパソコン、デジタル放送受信機、携帯情報端末(Personal Digital Assistant、PDAと略称する)、タブレットPC(Portable Android Device、PADと略称する)、ポータブルメディアプレーヤー(Portable Media Player、PMPと略称する)、車載端末(例えば、車載ナビゲーション端末)などの移動端末及びデジタルTV、デスクトップパソコンなどの固定端末を含んでもよいがこれらに限定されない。図14に示された電子機器は一例に過ぎず、本開示の実施例の機能及び使用範囲を何ら限定するものではない。
図14に示すように、電子機器500は、読み出し専用メモリ(Read Only Memory、ROMと略称する)502に記憶されたプログラム又は記憶装置508からランダムアクセスメモリ(Random Access Memory、RAMと略称する)503にアップロードされたプログラムに基づき、様々な適切な動作や処理を実行することができる処理装置(例えば、中央処理装置、グラフィックプロセッサなど)501を含んでもよい。RAM 503には、電子機器500の操作に必要な様々なプログラムやデータが記憶されている。処理装置501、ROM502及びRAM503はバス504を介して相互に接続される。入力/出力(I/O)インタフェース505は同様にバス504に接続される。
一般的には、I/Oインタフェース505には、タッチパネル、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープなどを含む入力装置506、液晶ディスプレイ(Liquid Crystal Display、LCDと略称する)、スピーカ、バイブレータなどを含む出力装置507、磁気テープ、ハードディスクなどを含む記憶装置508及び通信装置509が接続されてもよい。通信装置509は、データを交換するために、電子機器500が他の装置と無線又は有線通信を行うことを可能にすることができる。図14は様々な装置を有する電子機器500を示しているが、図示した全ての装置を実施又は備えることが要求されていないのを理解されたい。代替的に、より多く又はより少ない装置を実施又は備えてもよい。
特に、本開示の実施例に基づき、上記のフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例は、コンピュータ可読媒体上に担持されたコンピュータプログラムを備えるコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、このコンピュータプログラムは通信装置509を介してネットワークからダウンロードされインストールされたり、記憶装置508からインストールされたり、ROM 502からインストールされたりすることができる。このコンピュータプログラムが処理装置501によって実行されると、本開示の実施例の方法に限定された上記機能を実行する。
本開示の実施例はコンピュータプログラムをさらに含み、このコンピュータプログラムは可読記憶媒体に記憶され、電子機器の1つ又は複数のプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記1つ又は複数のプロセッサが前記コンピュータプログラムを実行すると、前記電子機器は上記実施例のいずれかに提供される解決手段を実行する。
なお、本開示の上記コンピュータ可読媒体は、コンピュータ可読信号媒体、又はコンピュータ可読記憶媒体、又は上記両者の任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置若しくはデバイス、又は以上の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1本又は複数本の導線を有する電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(RОM)、消去可能プログラマブル読み出し専用メモリ(EPRОM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み出し専用メモリ(CD-RОM)、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。本開示では、コンピュータ可読記憶媒体は、プログラムを含むか又は記憶するいずれかの有形媒体であってもよく、このプログラムは命令実行システム、装置又はデバイスに使用されるか又はそれらと組み合わせて使用される。本開示では、コンピュータ可読信号媒体は、ベースバンドで伝播されるか、又は搬送波の一部として伝播されるデータ信号を含んでもよく、コンピュータ可読プログラムコードが担持されている。そのような伝播されたデータ信号は様々な形態をとることができ、電磁気信号、光信号、又は上記のものの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、このコンピュータ可読信号媒体は、命令実行システム、装置、又はデバイスに使用されるか又はそれらと組み合わせて使用されるプログラムを送信、伝播、又は伝送することができる。コンピュータ可読媒体に含まれているプログラムコードは任意の適切な媒体で伝送することができ、この媒体は、電線、光ケーブル、RF(無線周波数)など、又は上記のものの任意の適切な組み合わせを含むが、これらに限定されない。
上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよいし、単独で存在してこの電子機器にインストールされないものであってもよい。
上記コンピュータ可読媒体には1つ又は複数のプログラムが担持され、上記1つ又は複数のプログラムがこの電子機器によって実行されると、この電子機器は上記実施例に示される方法を実行する。
本開示の操作を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語又はこれらの組み合わせで作成することができ、上記プログラミング言語は、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語を含み、「C」言語又は同様のプログラミング言語などの通常の手続き型プログラミング言語をさらに含む。プログラムコードは、ユーザのコンピュータで完全に実行されることも、ユーザのコンピュータで部分的に実行されることも、独立したソフトウェアパッケージとして実行されることも、一部がユーザのコンピュータで実行され、他の一部がリモートコンピュータで実行されることも、又は完全にリモートコンピュータ又はサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(Local Area Network、LANと略称する)又は広域ネットワーク(Wide Area Network、WANと略称する)を含む任意の種類のネットワークを介して、ユーザのコンピュータに接続でき、又は、外部コンピュータに接続できる(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続できる)。
図面におけるフローチャート及びブロック図は、本開示の各実施例のシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能、操作を示す。これに関して、フローチャート又はブロック図の各ブロックはそれぞれ、モジュール、プログラムセグメント、又はコードの一部を表すことができ、このモジュール、プログラムセグメント、又はコードの一部は、指定されたロジック機能を実現するための1つ又は複数の実行可能な命令を含む。また、いくつかの代替としての実施態様において、ブロックにラベリングされている機能は、図面にラベリングされているものと異なる順序で実行できる。例えば、連続して示される2つのブロックは、実際にはほぼ並行して実行でき、これらは逆の順序で実行される場合もあり、関連する機能によって決められる。また、ブロック図及び/又はフローチャートの各ブロック、ブロック図及び/又はフローチャートにおけるブロックの組み合わせは、指定された機能又は操作を実行する、専用の、ハードウェアに基づくシステムによって実現されることができ、専用のハードウェアとコンピュータ命令の組み合わせで実現することもできる。
本開示の実施例に係るユニットは、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。ユニットの名称は、場合によって、このユニット自体への限定を構成せず、例えば、第1の取得ユニットは、「少なくとも2つのインターネットプロトコルアドレスを取得するユニット」として説明されてもよい。
本明細書で、上記の説明された機能は少なくとも部分的に1つ又は複数のハードウェア論理構成要素によって実行される。例えば、非限定的に、使用可能なハードウェア論理構成要素としては、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑プログラム可能な論理デバイス(CPLD)などを含む。
本開示の文脈において、機器可読媒体は有形媒体であってもよく、それは命令実行システム、装置、又はデバイスに使用されるか、又は命令実行システム、装置、又はデバイスと組み合わせて使用されるプログラムを含み又は記憶することができる。機器可読媒体は機器可読信号媒体又は機器可読記憶媒体であり得る。機器可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記のものの任意の適切な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体のより具体例として、1本又は複数本の導線を有する電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み出し専用メモリ(CD-RОM)、光記憶装置、磁気記憶装置、又は上記のものの任意の適切な組み合わせを含む。
第1の態様において、本開示の1つ又は複数の実施例によれば、
ビデオにおける第1のオブジェクトを含む第1の画像画面を取得するステップと、
前記第1の画像画面内に第2のオブジェクトが存在するか否かを決定するステップと、
前記第1の画像画面内に前記第2のオブジェクトが存在し、且つ前記第2のオブジェクトと前記第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせるステップと、を含む情報表示方法を提供する。
本開示の1つ又は複数の実施例によれば、前記第1のオブジェクトは顔であり、前記第2のオブジェクトはマスクであり、前記予め設定された位置関係は、具体的には、前記顔に前記マスクが着用されていることである。
本開示の1つ又は複数の実施例によれば、前記第1の画像画面内に第2のオブジェクトが存在するか否かを決定する前記ステップは、
前記第1の画像画面における前記顔を含む対象画像を取得するステップと、
前記対象画像をマスク認識モデルに入力し、認識結果を得るステップであって、前記認識結果は前記顔にマスクが着用されているか否かを示すために用いられ、前記マスク認識モデルは軽量機械学習モデルであるステップと、を含む。
本開示の1つ又は複数の実施例によれば、前記マスク認識モデルは、チャンネルシャッフルモジュールと、チャンネルスライスモジュールと、2つの1×1畳み込みモジュール、3×3畳み込みモジュールと、チャンネルマージモジュールと、を含む。
本開示の1つ又は複数の実施例によれば、前記第1の画像画面における前記顔を含む対象画像を取得する前記ステップは、
前記第1の画像画面を第1の顔認識モデルに入力し、前記第1の画像画面における顔領域の第1の画像を得て、前記第1の画像を前記対象画像とするステップを含む。
本開示の1つ又は複数の実施例によれば、前記第1の画像画面における前記顔を含む対象画像を取得する前記ステップは、
前記第1の画像画面を第2の顔認識モデルに入力し、前記第1の画像画面における顔領域の第1の画像及び前記顔領域のキーポイント情報を得るステップと、
前記キーポイント情報に基づいて前記第1の画像を回転処理して第2の画像を得て、前記第2の画像を前記対象画像とするステップと、を含む。
本開示の1つ又は複数の実施例によれば、前記マスク認識モデルのトレーニングプロセスは、
初期マスク認識モデルを構築するステップと、
ネガポジ画像サンプルと前記ネガポジ画像サンプルのラベリング結果を取得するステップであって、ポジティブ画像サンプルに含まれる顔にマスクが着用され、ネガティブ画像サンプルに含まれる顔にマスクが着用されておらず、前記ラベリング結果は、画像サンプルの顔にマスクが着用されているか否かを示すためのラベル及びマスクの位置情報を含むステップと、
前記ネガポジ画像サンプルを前記マスク認識モデルの入力とし、前記ネガポジ画像サンプルのラベリング結果を前記マスク認識モデルの出力とすることにより、前記初期マスク認識モデルをトレーニングして、前記マスク認識モデルを得るステップと、を含む。
本開示の1つ又は複数の実施例によれば、前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせた後、前記方法はさらに、
前記第1の画像画面に続く第2の画像画面内に前記第2のオブジェクトが存在しないと決定した場合、前記第1の素材を除去し、前記第2の画像画面に、前記第1素材とは異なる第2の素材を重ね合わせるステップを含む。
本開示の1つ又は複数の実施例によれば、前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせた後、前記方法はさらに、
前記第1の画像画面に表示されている前記第1の素材に対するユーザの切替操作を取得するステップと、
前記切替操作に応答して前記第1の素材を除去し、前記第1の画像画面に続く第2の画像画面に、前記第1の素材とは異なる第3の素材を重ね合わせるステップと、を含む。
本開示の1つ又は複数の実施例によれば、前記切替操作は、ジェスチャー操作、顔動作、頭部動作、音声制御、インタフェースの素材選択領域の選択操作、インタフェースのテキスト入力領域の入力操作のいずれかを含む。
本開示の1つ又は複数の実施例によれば、前記第3の素材は、ユーザがインタフェースのテキスト入力領域に入力したテキスト情報又は表情である。
本開示の1つ又は複数の実施例によれば、前記方法はさらに、
前記第1の画像画面内に前記第2のオブジェクトが存在しないと決定した場合、前記第2のオブジェクトを着用するようにユーザに提示するための提示情報を前記第1の画像画面に表示するステップを含む。
第2の態様において、本開示の1つ又は複数の実施例によれば、
ビデオにおける第1のオブジェクトを含む第1の画像画面を取得するための取得モジュールと、
前記第1の画像画面内に第2のオブジェクトが存在するか否かを決定するための処理モジュールと、
前記第1の画像画面内に前記第2のオブジェクトが存在し、且つ前記第2のオブジェクトと前記第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせるための表示モジュールと、を含む情報表示装置を提供する。
本開示の1つ又は複数の実施例によれば、前記第1のオブジェクトは顔であり、前記第2のオブジェクトはマスクであり、前記予め設定された位置関係は、具体的には、前記顔に前記マスクが着用されていることである。
本開示の1つ又は複数の実施例によれば、取得モジュールは、前記第1の画像画面における前記顔を含む対象画像を取得するために用いられ、
処理モジュールは、具体的には、前記対象画像をマスク認識モデルに入力し、認識結果を得るために用いられ、前記認識結果は前記顔にマスクが着用されているか否かを示すために用いられ、前記マスク認識モデルは軽量機械学習モデルである。
本開示の1つ又は複数の実施例によれば、前記マスク認識モデルは、チャンネルシャッフルモジュールと、チャンネルスライスモジュールと、2つの1×1畳み込みモジュール、3×3畳み込みモジュールと、チャンネルマージモジュールと、を含む。
本開示の1つ又は複数の実施例によれば、処理モジュールは、具体的には、
前記第1の画像画面を第1の顔認識モデルに入力し、前記第1の画像画面における顔領域の第1の画像を得て、前記第1の画像を前記対象画像とするために用いられる。
本開示の1つ又は複数の実施例によれば、処理モジュールは、具体的には、
前記第1の画像画面を第2の顔認識モデルに入力し、前記第1の画像画面における顔領域の第1の画像及び前記顔領域のキーポイント情報を得て、
前記キーポイント情報に基づいて前記第1の画像を回転処理して第2の画像を得て、前記第2の画像を前記対象画像とするために用いられる。
本開示の1つ又は複数の実施例によれば、取得モジュールはさらに、
構築された初期マスク認識モデルを取得し、
ネガポジ画像サンプルと前記ネガポジ画像サンプルのラベリング結果を取得するために用いられ、ポジティブ画像サンプルに含まれる顔にマスクが着用され、ネガティブ画像サンプルに含まれる顔にマスクが着用されておらず、前記ラベリング結果は、画像サンプルの顔にマスクが着用されているか否かを示すためのラベル及びマスクの位置情報を含み、
処理モジュールはさらに、前記ネガポジ画像サンプルを前記マスク認識モデルの入力とし、前記ネガポジ画像サンプルのラベリング結果を前記マスク認識モデルの出力とすることにより、前記初期マスク認識モデルをトレーニングして、前記マスク認識モデルを得るために用いられる。
本開示の1つ又は複数の実施例によれば、表示モジュールが前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせた後、処理モジュールが前記第1の画像画面に続く第2の画像画面内に前記第2のオブジェクトが存在しないと決定した場合、表示モジュールはさらに、前記第1の素材を除去し、前記第2の画像画面に、前記第1素材とは異なる前記第2の素材を重ね合わせるために用いられる。
本開示の1つ又は複数の実施例によれば、表示モジュールが前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせた後、取得モジュールはさらに、
前記第1の画像画面に表示されている前記第1の素材に対するユーザの切替操作を取得するために用いられ、
表示モジュールは、前記切替操作に応答して前記第1の素材を除去し、前記第1の画像画面に続く第2の画像画面に、前記第1の素材とは異なる第3の素材を重ね合わせるために用いられる。
本開示の1つ又は複数の実施例によれば、前記切替操作は、ジェスチャー操作、顔動作、頭部動作、音声制御、インタフェースの素材選択領域の選択操作、インタフェースのテキスト入力領域の入力操作のいずれかを含む。
本開示の1つ又は複数の実施例によれば、前記第3の素材は、ユーザがテキスト入力領域に入力したテキスト情報又は表情である。
本開示の1つ又は複数の実施例によれば、処理モジュールが前記第1の画像画面内に前記第2のオブジェクトが存在しないと決定した場合、表示モジュールはさらに、前記第2のオブジェクトを着用するようにユーザに提示するための提示情報を前記第1の画像画面に表示するために用いられる。
第3の態様において、本開示の1つ又は複数の実施例によれば、電子機器を提供し、少なくとも1つのプロセッサとメモリを含み、
前記メモリはコンピュータ実行命令を記憶し、
前記少なくとも1つのプロセッサは前記メモリに記憶されたコンピュータ実行命令を実行することで、前記少なくとも1つのプロセッサは第1の態様及び第1の態様の様々な可能な設計に記載の情報表示方法を実行する。
第4の態様において、本開示の1つ又は複数の実施例によれば、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体は、コンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行するとき、第1の態様及び第1の態様の様々な可能な設計に記載の情報表示方法を実現する。
第5の態様において、本開示の1つ又は複数の実施例によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムがプロセッサによって実行されるとき、第1の態様及び第1の態様の様々な可能な設計に記載の情報表示方法を実現する。
第6の態様において、本開示の実施例は、コンピュータプログラムをさらに提供し、このコンピュータプログラムは可読記憶媒体に記憶され、電子機器の1つ又は複数のプロセッサは、前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記1つ又は複数のプロセッサは前記コンピュータプログラムを実行し、前記電子機器に、上記の実施例のいずれかによって提供された解決手段を実行させる。
以上の説明は、本開示の好適な実施例及び応用技術の原理の説明に過ぎない。当業者であれば、本開示に係る開示範囲は、上記技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、同時に上記開示の概念から逸脱することなく、上記技術的特徴又はその同等の特徴の任意の組み合わせによって形成される他の技術的解決手段も含まれることを理解すべきである。例えば、上記特徴は、(これに限定されるものではないが)本開示において開示された、類似の機能を有する技術的特徴と置き換えることによって、形成される技術的解決手段である。
また、各操作を特定の順序で示すが、これらの操作が示された特定の順序又は順番で実行するように要求されると理解すべきではない。一定の環境では、マルチタスク及び並列処理が有利な場合がある。同様に、上記の議論にはいくつかの具体的な実行の詳細が含まれているが、これらは本開示の範囲を制限するものとして解釈されるべきではない。また、個別の実施例の文脈に説明されたある特徴を組み合わせて単一の実施例に実現することが可能である。逆に、単一の実施例の文脈に説明された各特徴を、個別に又は任意の適切なサブコンビネーションの形態によって複数の実施例に実現することも可能である。
本主題は、構造的特徴及び/又は方法の論理的動作に固有の言語で説明されてきたが、特許請求の範囲で限定された主題は、必ずしも上記特定の特徴又は動作に限定されないことを理解されたい。逆に、上記特定の特徴及び動作は、特許請求の範囲を実現するための単なる例示的な形態である。
本願は、2020年8月26日に中国国家知識産権局に提出された、出願番号が202010874067.3で、発明の名称が「情報表示方法、装置及び記憶媒体」である中国特許出願の優先権を主張し、その内容の全てが参照によって本願に組み込まれる。
現在、端末装置上のアプリケーション(Application、APPと略称する)、例えば、ショートビデオAPPは、ユーザの顔を認識し、ユーザに仮想マスクを着用することにより、面白みのあるインタラクティブな体験を実現することができる。しかし、現在のAPPは、ユーザが公共交通機関に乗る、屋内の公共スペースにいるなど、ユーザが特別なシーンにいる場合、マスクを着用する必要があるとき、インタラクティブな操作に欠けるため、ユーザの使用体験が良くない。
上記の説明からわかるように、本実施例に係る情報表示方法は、ビデオにおける第1のオブジェクトを含む第1の画像画面を取得するステップと、第1の画像画面内に第2のオブジェクトが存在するか否かを決定するステップと、第1の画像画面内に第2のオブジェクトが存在し、且つ第2のオブジェクトと第1の第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、第1の画像画面内の第2のオブジェクトが位置する領域に第1の素材を重ね合わせるステップと、を含む。上記方法は、画像画面から第2のオブジェクトが検出された場合、第2のオブジェクトが位置する領域に任意の素材を重ね合わせることを可能にし、第1のオブジェクトと第2のオブジェクトが予め設定された位置関係を満たすとき、一部の特殊効果を使用できないか、又は情報を表現できないという問題を回避する。
上記の説明からわかるように、ユーザは、マスク着用時にマスクに表示される第1の素材をカスタマイズすることができ、さらに、マスクの未着用時に画面に表示される第2の素材をカスタマイズすることができ、上記の例によりユーザのマスク着用の面白みのある操作を実現し、ユーザの使用体験を向上させることができる。
本開示の実施例では、上述した図2の実施例に基づいて、異なるユーザの個性化需要を満たすために、現在のマスク領域の素材に対するユーザの切替操作を増やし、面白みのある操作を増やし、ユーザの使用体験を向上させることができる。
上記の説明からわかるように、ユーザのマスクに素材が重ね合わせられている場合、ユーザはさらに、ジェスチャー操作、顔動作、頭部動作、音声制御、テキスト入力又は素材インタフェースの選択などの予め設定された操作方式で、画面中の人物のマスク素材の切替を実現することができ、上記例はユーザがマスクを着用する面白みのある操作を実現し、ユーザ体験を向上させることができる。
本開示の実施例に係るモジュールは、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。モジュールの名称は、場合によって、このモジュール自体への限定を構成せず、例えば、取得モジュールは、「ビデオにおける第1のオブジェクトを含む第1の画像画面を取得するためのモジュール」として説明されてもよい。

Claims (17)

  1. ビデオにおける第1のオブジェクトを含む第1の画像画面を取得するステップと、
    前記第1の画像画面内に第2のオブジェクトが存在するか否かを決定するステップと、
    前記第1の画像画面内に前記第2のオブジェクトが存在し、且つ前記第2のオブジェクトと前記第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせるステップと、を含むことを特徴とする情報表示方法。
  2. 前記第1のオブジェクトは顔であり、前記第2のオブジェクトはマスクであり、前記予め設定された位置関係は、具体的には、前記マスクが前記顔に着用されていることであることを特徴とする請求項1に記載の方法。
  3. 前記第1の画像画面内に第2のオブジェクトが存在するか否かを決定する前記ステップは、
    前記第1の画像画面における前記顔を含む対象画像を取得するステップと、
    前記対象画像をマスク認識モデルに入力し、認識結果を得るステップであって、前記認識結果は前記顔に前記マスクが着用されているか否かを示すために用いられ、前記マスク認識モデルは軽量機械学習モデルであるステップと、を含むことを特徴とする請求項2に記載の方法。
  4. 前記マスク認識モデルは、チャンネルシャッフルモジュールと、チャンネルスライスモジュールと、2つの1×1畳み込みモジュールと、3×3畳み込みモジュールと、チャンネルマージモジュールと、を含むことを特徴とする請求項3に記載の方法。
  5. 前記第1の画像画面における前記顔を含む対象画像を取得する前記ステップは、
    前記第1の画像画面を第1の顔認識モデルに入力し、前記第1の画像画面における顔領域の第1の画像を得て、前記第1の画像を前記対象画像とするステップを含むことを特徴とする請求項3又は4に記載の方法。
  6. 前記第1の画像画面における前記顔を含む対象画像を取得する前記ステップは、
    前記第1の画像画面を第2の顔認識モデルに入力し、前記第1の画像画面における顔領域の第1の画像及び前記顔領域のキーポイント情報を得るステップと、
    前記キーポイント情報に基づいて前記第1の画像を回転処理して第2の画像を得て、前記第2の画像を前記対象画像とするステップと、を含むことを特徴とする請求項3又は4に記載の方法。
  7. 前記マスク認識モデルのトレーニングプロセスは、
    初期マスク認識モデルを構築するステップと、
    ネガポジ画像サンプルと前記ネガポジ画像サンプルのラベリング結果を取得するステップであって、ポジティブ画像サンプルに含まれる顔に前記マスクが着用され、ネガティブ画像サンプルに含まれる顔に前記マスクが着用されておらず、前記ラベリング結果は、画像サンプルの顔に前記マスクが着用されているか否かを示すためのラベル及び前記マスクの位置情報を含むステップと、
    前記ネガポジ画像サンプルを前記マスク認識モデルの入力とし、前記ネガポジ画像サンプルのラベリング結果を前記マスク認識モデルの出力とすることにより、前記初期マスク認識モデルをトレーニングして、前記マスク認識モデルを得るステップと、を含むことを特徴とする請求項3~6のいずれか一項に記載の方法。
  8. 前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせた後、前記方法はさらに、
    前記第1の画像画面に続く第2の画像画面内に前記第2のオブジェクトが存在しないと決定した場合、前記第1の素材を除去し、前記第2の画像画面に、前記第1素材とは異なる第2の素材を重ね合わせるステップを含むことを特徴とする請求項1~7のいずれか一項に記載の方法。
  9. 前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせた後、前記方法はさらに、
    前記第1の画像画面に表示されている前記第1の素材に対するユーザの切替操作を取得するステップと、
    前記切替操作に応答して前記第1の素材を除去し、前記第1の画像画面に続く第2の画像画面に、前記第1の素材とは異なる第3の素材を重ね合わせるステップと、を含むことを特徴とする請求項1~7のいずれか一項に記載の方法。
  10. 前記切替操作は、ジェスチャー操作、顔動作、頭部動作、音声制御、インタフェースの素材選択領域の選択操作、インタフェースのテキスト入力領域の入力操作のいずれかを含むことを特徴とする請求項9に記載の方法。
  11. 前記第3の素材は、ユーザがインタフェースのテキスト入力領域に入力したテキスト情報又は表情であることを特徴とする請求項9又は10に記載の方法。
  12. 前記方法はさらに、
    前記第1の画像画面内に前記第2のオブジェクトが存在しないと決定した場合、前記第2のオブジェクトを着用するようにユーザに提示するための提示情報を前記第1の画像画面に表示するステップを含むことを特徴とする請求項1~11のいずれか一項に記載の方法。
  13. ビデオにおける第1のオブジェクトを含む第1の画像画面を取得するための取得モジュールと、
    前記第1の画像画面内に第2のオブジェクトが存在するか否かを決定するための処理モジュールと、
    前記第1の画像画面内に前記第2のオブジェクトが存在し、且つ前記第2のオブジェクトと前記第1のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第1の画像画面内の前記第2のオブジェクトが位置する領域に第1の素材を重ね合わせるための表示モジュールと、を含むことを特徴とする情報表示装置。
  14. 少なくとも1つのプロセッサとメモリを含み、
    前記メモリはコンピュータ実行命令を記憶し、
    前記少なくとも1つのプロセッサは前記メモリに記憶されたコンピュータ実行命令を実行することで、前記少なくとも1つのプロセッサは請求項1~12のいずれか一項に記載の情報表示方法を実行することを特徴とする電子機器。
  15. コンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行するとき、請求項1~12のいずれか一項に記載の情報表示方法が実現されることを特徴とするコンピュータ可読記憶媒体。
  16. コンピュータプログラムを含むコンピュータプログラム製品であって、
    前記コンピュータプログラムがプロセッサによって実行されるとき、上記請求項1~12のいずれか一項に記載の情報表示方法が実現されることを特徴とするコンピュータプログラム製品。
  17. コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行されるとき、請求項1~12のいずれか一項に記載の情報表示方法が実現されることを特徴とするコンピュータプログラム。
JP2023513472A 2020-08-26 2021-08-26 情報表示方法、装置及び記憶媒体 Active JP7421010B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010874067.3 2020-08-26
CN202010874067.3A CN112001872B (zh) 2020-08-26 2020-08-26 信息显示方法、设备及存储介质
PCT/CN2021/114665 WO2022042624A1 (zh) 2020-08-26 2021-08-26 信息显示方法、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2023541125A true JP2023541125A (ja) 2023-09-28
JP7421010B2 JP7421010B2 (ja) 2024-01-23

Family

ID=73471948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023513472A Active JP7421010B2 (ja) 2020-08-26 2021-08-26 情報表示方法、装置及び記憶媒体

Country Status (9)

Country Link
US (1) US11922721B2 (ja)
EP (1) EP4191517A4 (ja)
JP (1) JP7421010B2 (ja)
KR (1) KR102650900B1 (ja)
CN (1) CN112001872B (ja)
BR (1) BR112023003503A2 (ja)
CA (1) CA3190935A1 (ja)
MX (1) MX2023002311A (ja)
WO (1) WO2022042624A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001872B (zh) 2020-08-26 2021-09-14 北京字节跳动网络技术有限公司 信息显示方法、设备及存储介质
CN112488034A (zh) * 2020-12-14 2021-03-12 上海交通大学 基于轻量化人脸口罩检测模型的视频处理方法
CN113905177B (zh) * 2021-09-29 2024-02-02 北京字跳网络技术有限公司 视频生成方法、装置、设备及存储介质
CN114241521A (zh) * 2021-12-13 2022-03-25 北京华夏电通科技股份有限公司 一种识别庭审视频画面中法台区域的方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171543A (ja) * 2002-11-07 2004-06-17 Matsushita Electric Ind Co Ltd 画像処理方法及びその装置
JP2006228061A (ja) * 2005-02-18 2006-08-31 Fujitsu Ltd 顔追跡プログラムおよび顔追跡方法
JP2010003117A (ja) * 2008-06-20 2010-01-07 Toyota Central R&D Labs Inc 対象物判定装置及びプログラム
JP2017011634A (ja) * 2015-06-26 2017-01-12 キヤノン株式会社 撮像装置およびその制御方法、並びにプログラム
CN109147007A (zh) * 2018-08-01 2019-01-04 Oppo(重庆)智能科技有限公司 贴纸加载方法、装置、终端及计算机可读存储介质
JP2019527410A (ja) * 2016-06-30 2019-09-26 フィッティングボックス 画像又はビデオ内の物体を隠す方法及び関連する拡張現実方法
CN111325129A (zh) * 2020-02-14 2020-06-23 上海商汤智能科技有限公司 交通工具通勤控制方法及装置、电子设备、介质和车辆
CN111507199A (zh) * 2020-03-25 2020-08-07 杭州电子科技大学 一种佩戴口罩行为检测方法及装置

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316888A (ja) 2004-04-30 2005-11-10 Japan Science & Technology Agency 顔認識システム
KR100974165B1 (ko) * 2008-02-15 2010-08-04 한양대학교 산학협력단 비선형 회귀 분석을 이용한 얼굴 표정 합성 시스템 및 방법
US10872535B2 (en) * 2009-07-24 2020-12-22 Tutor Group Limited Facilitating facial recognition, augmented reality, and virtual reality in online teaching groups
US9695981B2 (en) * 2012-04-20 2017-07-04 Honeywell International Inc. Image recognition for personal protective equipment compliance enforcement in work areas
KR20180034557A (ko) 2015-07-23 2018-04-04 미레플리카 테크놀로지, 엘엘씨 2차원 어레이 프로세서의 성능 향상
US10636175B2 (en) * 2016-12-22 2020-04-28 Facebook, Inc. Dynamic mask application
JP6558387B2 (ja) * 2017-03-14 2019-08-14 オムロン株式会社 画像解析装置、画像解析方法、及び画像解析プログラム
JP6558388B2 (ja) * 2017-03-14 2019-08-14 オムロン株式会社 画像処理装置
US10592066B2 (en) * 2017-03-15 2020-03-17 Facebook, Inc. Visual editor for designing augmented-reality effects and configuring rendering parameters
JP6855872B2 (ja) * 2017-03-24 2021-04-07 アイシン精機株式会社 顔認識装置
CN108229278B (zh) * 2017-04-14 2020-11-17 深圳市商汤科技有限公司 人脸图像处理方法、装置和电子设备
CN107292287B (zh) * 2017-07-14 2018-09-21 深圳云天励飞技术有限公司 人脸识别方法、装置、电子设备及存储介质
US20190050710A1 (en) * 2017-08-14 2019-02-14 Midea Group Co., Ltd. Adaptive bit-width reduction for neural networks
CN107622240B (zh) * 2017-09-21 2023-10-13 百度在线网络技术(北京)有限公司 人脸检测方法和装置
WO2019100511A1 (en) * 2017-11-22 2019-05-31 Zhejiang Dahua Technology Co., Ltd. An image processing method and system
US10963681B2 (en) * 2018-01-30 2021-03-30 Alarm.Com Incorporated Face concealment detection
CN110689030A (zh) * 2018-07-04 2020-01-14 佳能株式会社 属性识别装置和方法及存储介质
CN109949237A (zh) * 2019-03-06 2019-06-28 北京市商汤科技开发有限公司 图像处理方法及装置、图像设备及存储介质
CN110189340B (zh) * 2019-06-03 2022-01-21 北京达佳互联信息技术有限公司 图像分割方法、装置、电子设备及存储介质
CN110633677B (zh) * 2019-09-18 2023-05-26 威盛电子股份有限公司 人脸识别的方法及装置
CN110728330A (zh) * 2019-10-23 2020-01-24 腾讯科技(深圳)有限公司 基于人工智能的对象识别方法、装置、设备及存储介质
US20210152751A1 (en) * 2019-11-19 2021-05-20 Tencent Technology (Shenzhen) Company Limited Model training method, media information synthesis method, and related apparatuses
CN111401202A (zh) * 2020-03-11 2020-07-10 西南石油大学 一种基于深度学习的行人口罩佩戴实时检测方法
CN111428604B (zh) * 2020-03-19 2023-06-13 上海东普信息科技有限公司 面部佩戴口罩识别方法、装置、设备及存储介质
CN113435226B (zh) * 2020-03-23 2022-09-16 北京百度网讯科技有限公司 信息处理方法和装置
CN111460962B (zh) * 2020-03-27 2023-05-05 武汉大学 一种口罩人脸识别方法及系统
CN111414887B (zh) * 2020-03-30 2021-01-29 上海高重信息科技有限公司 基于yolov3算法的二次检测口罩人脸识别方法
CN111444869A (zh) * 2020-03-31 2020-07-24 高新兴科技集团股份有限公司 一种口罩佩戴状态识别方法装置和计算机设备
CN111582068B (zh) * 2020-04-22 2023-07-07 北京交通大学 人员口罩佩戴状态检测方法
CN111523473B (zh) * 2020-04-23 2023-09-26 北京百度网讯科技有限公司 口罩佩戴识别方法、装置、设备和可读存储介质
CN111541950B (zh) * 2020-05-07 2023-11-03 腾讯科技(深圳)有限公司 表情的生成方法、装置、电子设备及存储介质
CN111444894A (zh) * 2020-05-08 2020-07-24 礼德滤材科技(苏州)有限责任公司 用于佩戴口罩人群的身份识别方法和系统
CN111582199B (zh) 2020-05-12 2023-05-23 佛山市玖章智能科技有限公司 一种人脸识别模型训练方法和人脸识别方法
US11501573B1 (en) * 2020-06-05 2022-11-15 Amazon Technologies, Inc. Pose-based personal equipment detection
US20220044007A1 (en) * 2020-08-05 2022-02-10 Ahmad Saleh Face mask detection system and method
CN112001872B (zh) * 2020-08-26 2021-09-14 北京字节跳动网络技术有限公司 信息显示方法、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171543A (ja) * 2002-11-07 2004-06-17 Matsushita Electric Ind Co Ltd 画像処理方法及びその装置
JP2006228061A (ja) * 2005-02-18 2006-08-31 Fujitsu Ltd 顔追跡プログラムおよび顔追跡方法
JP2010003117A (ja) * 2008-06-20 2010-01-07 Toyota Central R&D Labs Inc 対象物判定装置及びプログラム
JP2017011634A (ja) * 2015-06-26 2017-01-12 キヤノン株式会社 撮像装置およびその制御方法、並びにプログラム
JP2019527410A (ja) * 2016-06-30 2019-09-26 フィッティングボックス 画像又はビデオ内の物体を隠す方法及び関連する拡張現実方法
CN109147007A (zh) * 2018-08-01 2019-01-04 Oppo(重庆)智能科技有限公司 贴纸加载方法、装置、终端及计算机可读存储介质
CN111325129A (zh) * 2020-02-14 2020-06-23 上海商汤智能科技有限公司 交通工具通勤控制方法及装置、电子设备、介质和车辆
CN111507199A (zh) * 2020-03-25 2020-08-07 杭州电子科技大学 一种佩戴口罩行为检测方法及装置

Also Published As

Publication number Publication date
KR20230051294A (ko) 2023-04-17
EP4191517A4 (en) 2024-02-07
WO2022042624A1 (zh) 2022-03-03
AU2021333957A1 (en) 2023-04-06
US20220392254A1 (en) 2022-12-08
MX2023002311A (es) 2023-05-08
US11922721B2 (en) 2024-03-05
JP7421010B2 (ja) 2024-01-23
CA3190935A1 (en) 2022-03-03
BR112023003503A2 (pt) 2023-05-09
KR102650900B1 (ko) 2024-03-22
EP4191517A1 (en) 2023-06-07
CN112001872A (zh) 2020-11-27
CN112001872B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
JP7421010B2 (ja) 情報表示方法、装置及び記憶媒体
US12020390B2 (en) Virtual content generation
US11676319B2 (en) Augmented reality anthropomorphtzation system
US11217020B2 (en) 3D cutout image modification
US11381756B2 (en) DIY effects image modification
US11263817B1 (en) 3D captions with face tracking
US20240161425A1 (en) 3d captions with semantic graphical elements
CN116194867A (zh) 扩展现实系统的用户界面布局和输入的动态配置
CN112733620A (zh) 信息提示方法、装置、存储介质及电子设备
US11640700B2 (en) Methods and systems for rendering virtual objects in user-defined spatial boundary in extended reality environment
RU2817182C1 (ru) Способ отображения информации, устройство и носитель информации
AU2021333957B2 (en) Information display method and device, and storage medium
CN114303120B (zh) 虚拟键盘
AlKassim et al. Sixth sense technology: Comparisons and future predictions
Bari et al. An Overview of the Emerging Technology: Sixth Sense Technology: A Review
EP2956927A1 (en) Displaying in response to detecting one or more user behaviors one or more second augmentations that are based on one or more registered first augmentations
Shoaei Shirehjini Smartphones as Visual Prosthesis
CN116868152A (zh) 用于在三维环境中呈现化身的界面

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230418

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230418

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240111

R150 Certificate of patent or registration of utility model

Ref document number: 7421010

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150