JP2023541125A

JP2023541125A - 情報表示方法、装置及び記憶媒体

Info

Publication number: JP2023541125A
Application number: JP2023513472A
Authority: JP
Inventors: イェ，チュンメイ; ファン，ジャビン; ワン，イートン
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-08-26
Filing date: 2021-08-26
Publication date: 2023-09-28
Anticipated expiration: 2041-08-26
Also published as: KR20230051294A; EP4191517A4; WO2022042624A1; AU2021333957A1; US20220392254A1; MX2023002311A; US11922721B2; JP7421010B2; CA3190935A1; BR112023003503A2; KR102650900B1; EP4191517A1; CN112001872A; CN112001872B

Abstract

情報表示方法、装置及び記憶媒体であって、この方法は、ビデオにおける第１のオブジェクトを含む第１の画像画面を取得するステップ（１０１）と、第１の画像画面内に第２のオブジェクトが存在するか否かを決定するステップ（１０２）と、第１の画像画面内に第２のオブジェクトが存在し、且つ第２のオブジェクトと第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、第１の画像画面内の第２のオブジェクトが位置する領域に第１の素材を重ね合わせるステップ（１０３）と、を含む。上記方法は、画像画面から第２のオブジェクトが検出された場合、第２のオブジェクトが位置する領域に任意の素材を重ね合わせることを可能にし、第１のオブジェクトと第２のオブジェクトが予め設定された位置関係を満たすとき、一部の特殊効果を使用できないか、又は情報を表現できないという問題を回避する。【選択図】図１

Description

本開示の実施例は、コンピュータ及びネットワーク通信の技術分野に関し、特に、情報表示方法、装置及び記憶媒体に関する。

新型コロナウイルスの急速な拡散に伴い、大流行は、世界中のユーザの生活、社会活動、及び仕事に何らかの影響を及ぼし、例えば、ユーザは、ソーシャルディスタンスを保つことができない場合、マスクを着用する必要がある。マスクは、現在世界中のユーザが使用しているものになっている。

現在、端末装置上のアプリケーション（Ａｐｐｌｉｃａｔｉｏｎ、ＡＰＰと略称する）、例えば、ショートビデオＡＰＰは、ユーザの顔を認識し、ユーザに仮想マスクを着用することにより、面白みのあるインタラクティブな体験を実現することができる。しかし、現在のＡＰＰは、ユーザが公共交通機関に乗る、屋内の公共スペースにいるなど、ユーザが特別なシーンにいる場合、マスクを着用する必要があるとき、インタラクティブな遊び方に欠けるため、ユーザの使用体験が良くない。

本開示の実施例は、マスクの着用後、ユーザが顔特殊効果を使用できなかったり情報を表現できなかったりするという問題を解決するために、ユーザの使用体験を向上させる情報表示方法、装置及び記憶媒体を提供する。

第１の態様において、本開示の実施例は、
ビデオにおける第１のオブジェクトを含む第１の画像画面を取得するステップと、
前記第１の画像画面内に第２のオブジェクトが存在するか否かを決定するステップと、
前記第１の画像画面内に前記第２のオブジェクトが存在し、且つ前記第２のオブジェクトと前記第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせるステップと、を含む情報表示方法を提供する。

第２の態様において、本開示の実施例は、
ビデオにおける第１のオブジェクトを含む第１の画像画面を取得するための取得モジュールと、
前記第１の画像画面内に第２のオブジェクトが存在するか否かを決定するための処理モジュールと、
前記第１の画像画面内に前記第２のオブジェクトが存在し、且つ前記第２のオブジェクトと前記第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせるための表示モジュールと、を含む情報表示装置を提供する。

第３の態様において、本開示の実施例は、
少なくとも１つのプロセッサとメモリを含み、
前記メモリはコンピュータ実行命令を記憶し、
前記少なくとも１つのプロセッサは前記メモリに記憶されたコンピュータ実行命令を実行することで、前記少なくとも１つのプロセッサは第１の態様及び第１の態様の様々な可能な設計に記載の情報表示方法を実行する電子機器を提供する。

第４の態様において、本開示の実施例は、コンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行するとき、第１の態様及び第１の態様の様々な可能な設計に記載の情報表示方法を実現するコンピュータ可読記憶媒体を提供する。

第５の態様において、本開示の実施例は、コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサによって実行されるとき、第１の態様及び第１の態様の様々な可能な設計に記載の情報表示方法を実現するコンピュータプログラム製品を提供する。

第６の態様において、本開示の実施例は、プロセッサによって実行されるとき、第１の態様及び第１の態様の様々な可能な設計に記載の情報表示方法を実現するコンピュータプログラムをさらに提供する。

本開示の実施例は、情報表示方法、装置及び記憶媒体を提供し、この方法は、ビデオにおける第１のオブジェクトを含む第１の画像画面を取得するステップと、第１の画像画面内に第２のオブジェクトが存在するか否かを決定するステップと、第１の画像画面内に第２のオブジェクトが存在し、且つ第２のオブジェクトと第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、第１の画像画面内の第２のオブジェクトが位置する領域に第１の素材を重ね合わせるステップと、を含む。上記方法は、画像画面から第２のオブジェクトが検出された場合、第２のオブジェクトが位置する領域に任意の素材を重ね合わせることを可能にし、第１のオブジェクトと第２のオブジェクトが予め設定された位置関係を満たすとき、一部の特殊効果を使用できないか、又は情報を表現できないという問題を回避する。

以下、本開示の実施例又は従来技術の技術的解決手段をより明確に説明するために、実施例又は従来技術の説明に使用する添付図面を簡単に説明し、以下に説明する図面は、本開示のいくつかの実施例に過ぎず、当業者であれば、創造的努力なしにこれらの図面から他の図面を導き出すこともできることは明らかである。

本開示の実施例に係る情報表示方法のフローチャートである。本開示の実施例に係る情報表示方法のフローチャートである。本開示の実施例に係るマスク認識モデルの内部構造の概略図である。本開示の実施例に係る画像画面の処理方法の概略図である。本開示の実施例に係る画像画面の処理方法の概略図である。本開示の実施例に係る画像画面の処理方法の概略図である。本開示の実施例に係る画像画面の処理方法の概略図である。本開示の実施例に係るインタフェースの変化を示す概略図である。本開示の実施例に係るマスク認識モデルトレーニングのフローチャートである。本開示の実施例に係るマスクのキーポイントをラベリングする概略図である。本開示の実施例に係るマスクを含む元画像及びイメージマスクの概略図である。本開示の実施例に係るインタフェースの変化を示す概略図である。本開示の実施例に係る情報表示方法のフローチャートである。本開示の実施例に係るインタフェースの概略図である。本開示の実施例に係るインタフェースの変化を示す概略図である。本開示の実施例に係る情報表示装置の構造を示すブロック図である。本開示の実施例に係る電子機器のハードウェア構造概略図である。

本開示の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本開示の実施例における図面を参照しながら、本開示の実施例における技術的解決手段を明確かつ完全に説明するが、明らかに、説明された実施例は、本開示の実施例の全てではなく、単に実施例の一部である。本開示の実施例に基づいて、当業者が創造的努力なしに得た全ての他の実施例は、いずれも本開示の保護範囲に属している。

新型コロナウイルスによる世界的な大流行の常態化の状況で、マスクは、世界中のユーザの日常生活、社会活動及び仕事でよく使用されるものになっている。ユーザは、大流行の爆発前に、端末装置上のアプリケーションを使用して、写真撮影、ビデオチャット又はライブ配信を行う際に、自身の感情、表情、状態などを直観的に表現することができる。しかし、世界的な大流行の常態化に伴い、公共交通機関に乗る、屋内の公共スペースにいるなど、ユーザが特別なシーンにいる場合、ユーザがマスクを着用して、顔を隠す必要があるが、このとき、ユーザは、アプリケーションにおけるいくつかの顔特殊効果を使用することができず、また、自身の感情、表情、状態などを直観的に表現することもできない。本開示の実施例は、上記問題を解決するために、情報表示方法を提供する。

本開示の実施例は、情報表示方法を提供し、顔を含む画像画面を取得することにより、画像画面内の顔領域に対して画像分析を行い、画像画面内の顔にマスクを着用しているか否かを決定し、画像画面内の顔にマスクを着用していないと決定した場合、マスクを着用するようにユーザに提示し、ユーザが着用しているマスクに、ステッカー、文字、表情などを表示するプリセット情報又はユーザのカスタマイズ情報を表示させることによって、ユーザがマスクを着用した状態で感情、表情、状態などを表現することができ、ユーザの使用体験を向上させることができる。

実際の応用シーンは、ユーザの顔にマスクを着用したシーンだけでなく、ユーザの目にサングラスを着用したこと、ユーザの頭に帽子を着用したことなどを含むことができるが、これに対して本開示の実施例はいかなる制限を行わない。より広い応用シーンに対して、本開示の実施例は、情報表示方法をさらに提供し、ビデオにおける第１のオブジェクトを含む画像画面を取得し、画像画面内に第２のオブジェクトが存在するか否かを決定し、画像画面内に第２のオブジェクトが存在し、且つ第２のオブジェクトと第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、画像画面内の第２のオブジェクトが位置する領域にステッカー、文字、表情などを表示するプリセット情報又はカスタマイズ情報を重ね合わせ、第１のオブジェクトと第２のオブジェクトが予め設定された位置関係を満たすとき、一部の特殊効果を使用できないか、又は情報を表現できないという問題を回避する。

なお、本開示の実施例に係る情報表示方法は、ビデオチャット、写真撮影及びライブ配信などのシーンに適用することができ、もちろん、人物の顔の画像を収集する必要がある他のシーンにも適用することができ、これに対して本開示の実施例はいかなる制限を行わない。

次に、具体的な実施例を参照しながら本開示の技術的解決手段を詳しく説明する。以下のいくつかの具体的な実施例を組み合わせてもよく、同じ又は同様の概念又はプロセスについては、いくつかの実施例では詳細な説明を省略する可能性もある。

例示的に、図１は、本開示の実施例に係る情報表示方法のフローチャートである。本実施例の方法は、端末装置又はサーバに適用することができ、図１に示すように、この情報表示方法は、ステップ１０１～ステップ１０３を含む。

ステップ１０１において、ビデオにおける第１のオブジェクトを含む第１の画像画面を取得する。

ステップ１０２において、第１の画像画面内に第２のオブジェクトが存在するか否かを決定する。

本実施例では、第１のオブジェクトは人物の顔、頭、手などの任意の身体部位であってもよく、第２のオブジェクトは、身体部位との間で予め設定された位置関係を満たす任意の物体であってもよい。例示的に、第１のオブジェクトは人物の顔であり、第２のオブジェクトはマスク、サングラス、帽子などの物体であってもよい。

本開示の一実施例において、第２のオブジェクトの認識モデルにより、第１の画像画面内に第２のオブジェクトが存在するか否かを決定することができる。この認識モデルは、任意の深層学習モデル又は軽量機械学習モデルを用いてもよい。異なる第２のオブジェクトは異なる認識モデルに対応し、具体例は後述の実施例を参照されたい。

ステップ１０３において、第１の画像画面内に第２のオブジェクトが存在し、且つ第２のオブジェクトと第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、第１の画像画面内の第２のオブジェクトが位置する領域に第１の素材を重ね合わせる。

本実施例では、第２のオブジェクトと第１のオブジェクトが予め設定された位置関係を満たすことは、以下のいくつかの形態を含む。
第１のオブジェクトは顔であり、第２のオブジェクトはマスクであり、予め設定された位置関係を満たすことは、具体的には、顔にマスクが着用されていることである。第１のオブジェクトは顔であり、第２のオブジェクトはサングラスであり、予め設定された位置関係を満たすことは、具体的には、人の顔にサングラスが着用されていることであってもよい。第１のオブジェクトは手であり、第２のオブジェクトは手袋であり、予め設定された位置関係を満たすことは、具体的には、人物の手に手袋が着用されていることであってもよい。上記の例は、単に例として、第１のオブジェクトと第２のオブジェクトとの他の位置関係は、いずれも本開示の実施例の保護範囲に属する。

任意選択で、いくつかの実施例において、第１の画像画面内の第２のオブジェクトが位置する領域に第１の素材を重ね合わせた後、方法はさらに、第１の画像画面に続く第２の画像画面内に第２のオブジェクトが存在しないと決定した場合、第１の素材を除去し、第２の画像画面に、第１素材とは異なる第２の素材を重ね合わせるステップを含む。

任意選択で、いくつかの実施例において、第１の画像画面内の第２のオブジェクトが位置する領域に第１の素材を重ね合わせた後、方法はさらに、第１の画像画面に表示されている第１の素材に対するユーザの切替操作を取得するステップと、切替操作に応答して第１の素材を除去し、第１の画像画面に続く第２の画像画面に、第１の素材とは異なる第３の素材を重ね合わせるステップと、を含む。

任意選択で、切替操作は、ジェスチャー操作、顔動作、頭部動作、音声制御、インタフェースの素材選択領域の選択操作、インタフェースのテキスト入力領域の入力操作のいずれかを含む。

任意選択で、第３の素材は、ユーザがインタフェースのテキスト入力領域に入力したテキスト情報又は表情である。

上記の説明からわかるように、本実施例に係る情報表示方法は、ビデオにおける第１のオブジェクトを含む第１の画像画面を取得するステップと、第１の画像画面内に第２のオブジェクトが存在するか否かを決定するステップと、第１の画像画面内に第２のオブジェクトが存在し、且つ第２のオブジェクトと第２の第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、第１の画像画面内の第２のオブジェクトが位置する領域に第１の素材を重ね合わせるステップと、を含む。上記方法は、画像画面から第２のオブジェクトが検出された場合、第２のオブジェクトが位置する領域に任意の素材を重ね合わせることを可能にし、第１のオブジェクトと第２のオブジェクトが予め設定された位置関係を満たすとき、一部の特殊効果を使用できないか、又は情報を表現できないという問題を回避する。

以下、第１のオブジェクトが顔であり、第２のオブジェクトがマスクである場合を例として、本開示の実施例が提供する情報表示方式について詳細に説明する。このシーンにおいて、第２のオブジェクトと第１のオブジェクトが予め設定された位置関係を満たすことは、具体的には、顔にマスクが着用されていることを指す。

例示的に、図２は、本開示の実施例に係る情報表示方法のフローチャートである。本実施例の方法は、端末装置又はサーバに適用することができ、図２に示すように、この情報表示方法は、ステップ２０１～ステップ２０４を含む。

ステップ２０１において、ビデオにおける顔を含む第１の画像画面を取得する。

具体的には、端末装置のカメラが収集した、顔を含む第１の画像画面を取得し、画面において顔にマスクが着用されている可能性があり、マスクが着用されていない可能性もある。

ステップ２０２において、第１の画像画面内の顔にマスクが着用されているか否かを決定する。

本開示の一実施例において、第１の画像画面内の顔にマスクが着用されているか否かを決定するステップは、第１の画像画面における顔を含む対象画像を取得するステップと、対象画像をマスク認識モデルに入力し、認識結果を得るステップであって、認識結果は顔にマスクが着用されているか否かを示すために用いられるステップと、を含む。予めトレーニングされたマスク認識モデルを用いることにより、第１の画像画面における顔に対するマスク着用の有無の認識効率及び精度を向上させることができる。

なお、上記対象画像は、第１の画像画面そのものであってもよいし、第１の画像画面に前処理を行った後の顔領域の画像であってもよく、具体的な前処理過程は後の実施例を参照し、ここではこれ以上説明しない。

本開示の一実施例において、マスク認識モデルは、ＶＧＧ、ＲｅｓＮｅｔ、ＧｏｏｇｌｅＮｅｔ、ＭｏｂｉｌｅＮｅｔ、ＳｈｕｆｆｌｅＮｅｔなどの深層学習モデルを使用することができ、モデルによって計算量が異なるため、これに対して本実施例はいかなる制限を行わない。

本発明の一実施例において、マスク認識モデルは、移動端末での画像処理の要求を満たすために、軽量機械学習モデルを用いることができ、即ち、計算量が少なく、計算効率が高く、簡単なモデルを移動端末に配置することができる。

任意選択で、本実施例のマスク認識モデルはＭｏｂｉｌｅＮｅｔとＳｈｕｆｆｌｅＮｅｔなどの軽量機械学習モデルを用いることができ、このモデルの内部構造は図３に示すように、モデルの内部構造は、チャンネルシャッフル（ｓｈｕｆｆｌｅｃｈａｎｎｅｌ）モジュール、チャンネルスライス（ｓｌｉｃｅ）モジュール、１×１畳み込みモジュール（ｐｏｉｎｔｗｉｓｅｃｏｎｖｏｌｕｔｉｏｎ）、３×３畳み込みモジュール（ｄｅｐｔｈ－ｗｉｓｅｃｏｎｖｏｌｕｔｉｏｎ）、１×１畳み込みモジュール（ｐｏｉｎｔ－ｗｉｓｅｃｏｎｖｏｌｕｔｉｏｎ）、チャンネルマージ（ｃｏｎｃａｔ）モジュールを含み、１×１畳み込みモジュールと３×３畳み込みモジュールとの間、及び１×１畳み込みモジュールとチャンネルマージモジュールとの間はいずれもＢＮ（ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ）とＲｅＬＵを含むことができる。ＢＮは統計データ分布特性の線形変換であり、ＲｅＬＵは、単純で効率的な非線形活性化関数である。

上記モデルの基本的な考え方は、計算量を減らすために、伝統的な畳み込みをｄｅｐｔｈ－ｗｉｓｅｃｏｎｖｏｌｕｔｉｏｎ及びｐｏｉｎｔ－ｗｉｓｅｃｏｎｖｏｌｕｔｉｏｎという分離可能な畳み込みに変更することである。ｓｈｕｆｆｌｅｃｈａｎｎｅｌは、モデルの表現力を向上させるために用いられる。また、逆残差ＩｎｖｅｒｔｅｄＲｅｓｉｄｕａｌｓを用いることでｄｅｐｔｈ－ｗｉｓｅｃｏｎｖｏｌｕｔｉｏｎの特徴抽出能力を向上させることができる。なお、図３に示されるマスク認識モデルの内部のモジュール接続図は、一例に過ぎず、応用要求に応じてモデルの内部構造を調整することができ、これに対して本実施例はいかなる制限を行わない。

本開示の一実施例において、上記対象画像は第１の画像画面そのものであり得る場合、ステップ２０２は、具体的には、第１の画像画面をマスク認識モデルに入力し、認識結果を得るステップを含む。

例示的に、図４ａは、本開示の実施例に係る画像画面の処理方法の概略図である。図４ａに示すように、第１の画像画面をマスク認識モデルに入力し、マスク認識モデルの画像分析を通じて、第１の画像画面の認識結果を出力する。認識結果は第１の画像画面内の顔にマスクが着用されているか否かを示すために用いられる。

例として、認識結果は、第１の画像画面内の顔にマスクが着用されているか否かを示すためのラベルを含み、例えば、数値範囲が０～１であるラベル値である。具体的に、ラベル値が０であり、第１の画像画面内の顔にマスクが着用されていないことを示し、ラベル値が１であり、第１の画像画面内の顔にマスクが着用されていることを示す。ラベル値が１に近いほど、第１の画像画面内の顔にマスクが着用されている確率が高いことを表すことを理解すべきである。

別の例として、認識結果は、第１の画像画面内の顔にマスクが着用されていることを示すラベルと、第１の画像画面内の顔に着用されているマスクの位置情報とを含む。

任意選択で、認識結果におけるマスクの位置情報は、マスクのキーポイント情報、マスクのイメージマスク（ｍａｓｋ）情報の少なくとも１つを含む。

マスクのキーポイント情報は、正規化されたマスクキーポイントの座標値で表されてもよいし、ヒートマップ（ｈｅａｔｍａｐ）の形態で表されてもよく、これに対して本実施例はいかなる制限を行わない。

例示的に、モデルは正規化されたマスクキーポイントのｘｙ座標、例えば（０．２５，０．５）を直接出力し、マスクにキーポイントがＮ個ある場合には、Ｎ×２の行列を出力する。

例示的に、モデルはマスクのキーポイントのヒートマップを出力し、キーポイントのそれぞれは、１枚のヒートマップに対応し、ヒートマップとモデルの入力マップとは同じ大きさであり、ヒートマップ上の各ピクセルの数値範囲は０～１であり、ヒートマップ上の数値が最大のピクセル位置は、マスクのキーポイント位置を表す。

マスクのイメージマスク情報は、２値マップであってもよく、上記モデルが出力したイメージマスクマップとモデルの入力マップとは同じ大きさであり、例えば、モデルの入力マップは１２８×１２８解像度マップであり、モデルの出力は１２８×１２８のイメージマスクマップを含み、イメージマスクマップ上の各ピクセルの数値範囲も、各ピクセルがマスクに当たる確率を表す０～１である。

本開示の一実施例において、上記対象画像は、第１の画像画面を前処理した後の顔領域の画像であってもよく、第１の画像画面における顔を含む対象画像を取得するステップは、第１の画像画面を第１の顔認識モデルに入力し、第１の画像画面における顔領域の第１の画像を得て、第１の画像を対象画像とするステップを含むことができる。

第１の顔認識モデルによって得られた第１の画像は、正面顔、横顔、顔の左右の傾き、横顔の上下の傾きの顔画像など、異なる角度の顔画像を含むことに注意されたい。

例示的に、図４ｂは、本開示の実施例に係る画像画面の処理方法の概略図であり、図４ｂに示すように、最初に、第１の画像画面を第１の顔認識モデルに入力し、第１の画像画面における顔領域の画像を得て、次に、第１の画像画面における顔領域の画像をマスク認識モデルに入力し、マスク認識モデルの画像分析を通じて、マスク認識結果を出力する。認識結果は、上記の例と同様であるので、ここでは説明を省略する。上記第１の顔認識モデルは、画像中の人物の顔及び人物の顔の画像中の位置を認識するために用いられ、第１の顔認識モデルは、上記の深層学習モデル又は軽量機械学習モデルのいずれかを使用することができ、これに対して本実施例はいかなる制限を行わない。

上記の説明からわかるように、第１の例（図４ａに示されている例）と比較して、上記第２の例（図４ｂに示されている例）は、第１の画像画面中の人物に顔認識を追加し、顔画像をマスク認識モデルに入力して、マスク認識モデルの計算量を大幅に削減できるとともに、マスク検出の速度及び精度を向上させる。

本開示の一実施例において、上記対象画像は、第１の画像画面を前処理した後の顔領域の画像であってもよく、第１の画像画面における顔を含む対象画像を取得するステップは、第１の画像画面を第２の顔認識モデルに入力し、第１の画像画面における顔領域の第１の画像及び顔領域のキーポイント情報を得るステップと、キーポイント情報に基づいて第１の画像を回転処理して第２の画像を得て、第２の画像を対象画像とするステップと、を含むことができる。

第２の顔認識モデルを通じて、第１の画像画面における顔領域の第１の画像を得ることに加えて、第１の画像のキーポイント情報、即ち、顔の領域の要点部位の位置情報、例えば、顔の両眼、鼻、眉毛、口などの部分の座標位置をさらに含む。第２の画像は、正面顔又は横顔の標準的な顔の画像であり得る。例示的に、第１の画像において人物の顔が左に傾いている場合、回転処理を経て、補正された人物の正面顔画像を得ることができる。第１の画像が人物の横顔画像であり且つ顔が上方に傾いている場合、回転処理を経て、方向が補正された人物の横顔画像を得ることができる。

例示的に、図４ｃは、本開示の実施例に係る画像画面の処理方法の概略図であり、図４ｃに示すように、最初に、第１の画像画面を第２の顔認識モデルに入力して、第１の画像画面における顔領域の画像及び顔領域のキーポイント情報を得て、次に、キーポイント情報に基づいて第１の画像画面における顔画像を回転して、標準的な顔画像を得て、さらに、標準的な顔画像をマスク認識モデルに入力し、マスク認識モデルの画像分析を通じて、マスク認識結果を出力する。認識結果は、上記の例と同様であるので、ここでは説明を省略する。上記第２の顔認識モデルは、画像中の人物の顔及び人物の顔の要点部位の位置を認識するために用いられ、第２の顔認識モデルは、上記の深層学習モデル又は軽量機械学習モデルのいずれかを使用することができ、これに対して本実施例はいかなる制限を行わない。

任意選択で、図４ｄを参照し、可能な実現形態において、上記第２の顔認識モデルは、第１の顔認識モデル及び顔キーポイント検出モデルを含む。図４ｄに示されるように、最初に、第１の画像画面を第１の顔認識モデルに入力して、第１の画像画面における顔領域の画像を得て、次に、第１の画像画面における顔領域の画像を顔キーポイント検出モデルに入力して、顔の要点部位の位置情報を得て、次に、顔の要点部位の位置情報に基づいて顔領域の画像を回転して、標準的な顔画像を得て、さらに、標準的な顔画像をマスク認識モデルに入力し、マスク認識モデルの画像分析を通じて、マスク認識結果を出力する。

標準的な顔画像に対するマスク認識難易度が他のポーズにおけるマスク認識難易度よりも低いことがわかる。

上記の説明からわかるように、上記前の２つの例（図４ａに示されている例又は図４ｂに示されている例）と比較して、上記後の２つの例（図４ｃに示されている例又は図４ｄに示されている例）は、顔画像に要点部位の学習を増加し、後続のマスク認識モデルの認識難易度を低減し、マスク認識モデルの計算量を削減し、マスク検出の速度及び精度を向上させる。

任意選択で、いくつかの実施例では、画像をマスク認識モデル、顔認識モデル、又は顔キーポイント検出モデルに入力する前に、入力される画像を前処理することもできる。前処理には、入力画像が様々なモデルの入力要件を満たすことを確保するように、画像に対するトリミング、スケーリング、及び回転などが含まれる。

本実施例では、顔にマスクが着用されていないと決定した場合、ステップ２０３を実行し、顔にマスクが着用されていると決定した場合、ステップ２０４を実行する。

ステップ２０３において、マスクを着用するようにユーザに提示するための提示情報を第１の画像画面に表示する。

本実施例では、第１の画像画面における任意の位置に提示情報を表示することができ、例えば、第１の画像画面の上部、中央、及び下部などの位置に提示情報を表示することができる。提示情報の目的は、ユーザにマスクを着用させるためであり、提示情報の具体的な形式に対して、本実施例はいかなる制限を行わない。例示的に、提示情報は、「マスクを着用してください」、「マスクを着用し、効果を確認してください」などのテキストによる提示情報であってもよく、また、音声による提示情報であってもよい。

ステップ２０４において、第１の画像画面の顔領域に第１の素材を重ね合わせる。

本実施例では、第１の素材は、予め設定された素材であってもよく、ユーザによりカスタマイズされた素材であってもよく、これに対して本実施例はいかなる制限を行わない。なお、予め設定された素材は、地域による文化の違いや、人々による好みなどを考慮して設定することができる。

本実施例が提供する素材のフォーマットには、写真、ビデオ、動画、及びテキストなどのフォーマットが含まれるが、これらに限定されない。本実施例が提供する素材は、２Ｄ素材及び３Ｄ素材を含み、動的素材であってもよいし、静的素材であってもよく、これに対して本実施例はいかなる制限を行わない。

例示的に、図５は、本開示の実施例に係るインタフェースの変化を示す概略図であり、図５に示すように、現在の画像画面においてユーザの顔にマスクが着用されていないことが検出された場合、現在の画像画面の任意の位置に「マスクを着用してください」という提示情報を重ね合わせることができる。例えば、図５に示すように、現在の画像画面の中央位置に「マスクを着用してください」という提示情報を重ね合わせる。続く画像画面において、ユーザの顔にマスクが着用されていることが検出された場合、図５に示すステッカーのように、ユーザが着用しているマスク領域に素材を重ね合わせて表示することができる。一例として、図５に示すインタフェースの下方には、素材選択領域、テキスト入力領域などを含むメニュー領域をさらに含むことができ、詳細については後に説明される実施例を参照し、ここではこれ以上説明しない。

上記の説明からわかるように、本実施例に係る情報表示方法は、ビデオにおける顔を含む第１の画像画面を取得し、第１の画像画面の顔にマスクを着用しているか否かを決定し、顔にマスクが着用されていないと決定した場合、第１の画像画面に、マスクを着用するようにユーザに提示するための提示情報を表示する。顔にマスクが着用されていると決定した場合、第１の画像画面の顔領域に第１の素材を重ね合わせる。本実施例は、ユーザがカメラを使用して撮影するときにマスクを着用するようにユーザに提示することができ、ユーザがマスクを着用した後、ユーザが着用したマスクに予め設定された素材又はユーザによりカスタマイズされた素材を重ね合わせることにより、ユーザがマスクを着用した後、顔特殊効果を使用できなかったり情報を表現できなかったりするという問題を回避し、ユーザの使用体験を向上させる。

上記の実施例によりわかるように、画像画面における顔にマスクを着用しているか否かを認識する効率及び精度を改善するために、予めトレーニングされたマスク認識モデルを使用して、画像を処理及び分析することができ、以下、マスク認識モデルのトレーニングプロセスについて詳しく説明する。

例示的に、図６は、本開示の実施例に係るマスク認識モデルトレーニングのフローチャートである。本実施例のトレーニング方法は、端末装置又はサーバに適用することができ、図６に示すように、モデルトレーニング方法は、ステップ３０１～ステップ３０３を含む。

ステップ３０１において、初期マスク認識モデルを構築する。初期マスク認識モデルは、任意の深層学習モデル又は軽量機械学習モデルを採用することができる。

ステップ３０２において、ネガポジ画像サンプル及びネガポジ画像サンプルのラベリング結果を取得する。ポジティブ画像サンプルに含まれる顔にマスクが着用され、ネガティブ画像サンプルに含まれる顔にマスクが着用されていない。ラベリング結果は、画像サンプルの顔にマスクが着用されているか否かを示すためのラベル及びマスクの位置情報を含む。

本実施例では、ポジティブ画像サンプルとは、様々な撮影条件でマスクを着用した人物の写真を意味し、ネガティブ画像サンプルとは、様々な撮影条件でマスクを着用していない人物の写真を意味する。具体的には、本実施例で収集されたポジティブ画像サンプルには、水平視、上面視、底面視などの異なる撮影角度のマスク着用人物の写真が含まれ、正面顔、半横顔、横顔などの異なる顔姿勢の写真も含まれ、室内の黄色光、白色光、屋外の日光、影などの異なる照光条件の写真も含まれ、サージカルマスク、Ｎ９５マスク、綿布マスクなどの異なるタイプのマスクの写真も含まれ、方形マスク、円形マスクなどの異なる形状のマスクの写真も含まれ、マスク着用人物の様々なシーンを十分に収集する。

上記の画像サンプルのラベリング作業は、ラベリングチームで行われてもよいし、写真認識方法を用いて大まかなラベリングを行ってから、手動で修正してもよいし、写真を分類して、分類された画像サンプルを一括してラベリングしてもよい。以上のラベリング作業は、独立して用いるか又は組み合わせて使用することができる。マスクを着用している人物の写真には、主にマスクの複数のキーポイントをラベリングし、例えばマスクの水平中心線上の複数のキーポイントとマスクの垂直中心線上の複数のキーポイントをラベリングし、具体的には図７を参照されたい。

一例として、画像サンプル中の顔にマスクを着用するか否かを示すラベルは、具体的には、画像サンプル中の顔にマスクを着用していないことを示す０と、画像サンプル中の顔にマスクを着用していることを示す１とを含むラベル値であってもよい。

上記ラベリング結果におけるマスクの位置情報は、マスクのキーポイント情報、マスクのイメージマスク情報の少なくとも１つを含む。一例として、手動でラベリングされたキーポイントは、マスクの水平中心線上の複数のキーポイント、及びマスクの垂直中心線上の複数のキーポイントを含むことができる。マスクのイメージマスク情報とは、画像サンプル中のマスクの２値化画像を意味し、画像中のマスクの位置情報を示すために用いることができ、具体的には図８を参照されたい。

ステップ３０３において、ネガポジ画像サンプルをマスク認識モデルの入力とし、ネガポジ画像サンプルのラベリング結果をマスク認識モデルの出力とすることにより、初期マスク認識モデルをトレーニングして、マスク認識モデルを得る。

任意選択で、マスク認識モデルは、ａｄａｍオプティマイザを用いて、学習率（例えば０．０１）、重みのペナルティ値（例えば１ｅ－５）を設定し、学習率が低下する傾向はｍｕｌｔｉ－ｓｔｅｐ曲線を用いて、ｂａｔｃｈ＿ｓｉｚｅ（例えば９６）を設定することにより、トレーニング済みのマスク認識モデルを得ることができる。

上記の説明からわかるように、本実施例に係るマスク認識モデルのトレーニング過程は、異なる撮影角度、顔姿勢、照光条件、マスクスタイルなどの各種の撮影条件をカバーすべき大量の画像サンプルを取得する必要がある。手動でラベリングすることによりモデルトレーニングを行い、認識効果の高いモデルがトレーニングされる。

上述した図２の実施例に基づいて、マスクが着用されたユーザの個性化需要に対して、ユーザは、マスクが着用された場合には、マスクに表示される第１の素材をカスタマイズすることができることに加えて、マスクが着用されていない場合には、マスクに表示される第２の素材の個性化設定をさらに増加することができる。

本開示の一実施例において、第１の画像画面の顔領域に第１の素材を重ね合わせた後、情報表示方法は、第１の画像画面に続く第２の画像画面内の顔にマスクを着用していないと決定した場合に、第１の素材を除去し、第２の画像画面において第１の素材とは異なる第２の素材を重ね合わせることをさらに含むことができる。

第２の素材は、ユーザがカスタマイズした素材であってもよいし、サーバがデフォルトの素材であってもよい。任意選択で、第２の素材は、第２の画像画面の任意の位置に重ね合わせることができ、例示的に、第２の素材は、第２の画像画面内の人物の顔領域、頭部領域、背景領域などの位置に重ね合わせることができる。第２の素材の素材フォーマット及び具体的な表現形式は、上記実施例のステップ２０４の記載と同様であり、具体的には上記を参照することができ、ここではその説明を省略する。もちろん、第２の素材は、例えば、ユーザがカスタマイズしたメイクアップ特殊効果、痩せ顔特殊効果などの他の特殊効果として理解されてもよい。

例示的に、図９は、本開示の実施例に係るインタフェースの変化を示す概略図であり、図９に示すように、ユーザが左側の画像中のマスクを外して全顔を表示した場合には、マスク認識モデルは、現在の画像（右側の画像）のユーザの顔にマスクを着用していないことを検出し、左側の画像に表示されている模様ステッカーを除去して、現在の画像のユーザの顔領域に新たな素材を重ね合わせ、例えば、図９に示すユーザの両眼の下方の領域に星ステッカーを重ね合わせることができる。重ね合わせた新たな素材は上記の第２の素材である。

上記の説明からわかるように、ユーザは、マスク着用時にマスクに表示される第１の素材をカスタマイズすることができ、さらに、マスクの未着用時に画面に表示される第２の素材をカスタマイズすることができ、上記の例によりユーザのマスク着用の面白みのある遊び方を実現し、ユーザの使用体験を向上させることができる。

本開示の実施例では、上述した図２の実施例に基づいて、異なるユーザの個性化需要を満たすために、現在のマスク領域の素材に対するユーザの切替操作を増やし、面白みのある遊び方を増やし、ユーザの使用体験を向上させることができる。

図１０は、本開示の実施例に係る情報表示方法のフローチャートである。図１０に示すように、情報表示方法は、図２の実施例のステップ２０４の後、即ち、第１の画像画面の顔領域に第１の素材を重ね合わせた後に、ステップ２０５～ステップ２０６をさらに含んでもよい。

ステップ２０５において、第１の画像画面に表示されている第１の素材に対するユーザの切替操作を取得する。

ステップ２０６において、切替操作に応答して第１の素材を除去し、第１の画像画面に続く第２の画像画面に第３の素材を重ね合わせる。

第３の素材は、第１の素材とは異なる。第３の素材は、サーバが予め設定した素材であってもよいし、ユーザがカスタマイズした素材であってもよく、これに対して本実施例はいかなる制限を行わない。任意選択で、第３の素材は、第２の画像画面の任意の位置に重ね合わせることができる。第３の素材のフォーマット及び具体的な表現形式は、上記実施例のステップ２０４の記載と同様であり、具体的には上記を参照することができ、ここではその説明を省略する。もちろん、第３の素材は、例えば、ユーザがカスタマイズしたメイクアップ特殊効果、痩せ顔特殊効果などの他の特殊効果として理解されてもよい。

本実施例では、第１の画像画面に表示されている第１の素材に対するユーザの切替操作は、画面素材の切替をトリガーするために用いられ、切替操作は、以下のいくつかの可能な実現方式を含む。

本開示の一実施例において、第１の画像画面に表示されている第１の素材に対するユーザの切替操作を取得するステップは、第１の画像画面におけるユーザのジェスチャー操作を取得するステップを含み、ジェスチャー操作は、画面素材の切替をトリガーするために用いられる。例示的に、ユーザがマスクを着用する際に、マスクに第１の素材を重ね合わせており、ユーザは、ハートの手真似、勝利の手真似、又は手のひらを広げるなどのジェスチャー操作により、マスク上の素材の切替をトリガーすることができる。本実施例では、ジェスチャー認識技術によりユーザの意図を決定し、ユーザの意図にマッチングする素材を素材ライブラリから検索し、マスク上の素材を切り替える。

上記効果を図るために、任意選択で、第１の画像画面に、ジェスチャー操作を行うようにユーザに提示するための提示情報を表示してもよく、例えば、第１の画像画面中の任意の位置に「ハートの手真似で試みてください」、「手のひらを広げてみてください」などのテキストを表示してもよく、第１の画像画面中の任意の位置に「ハートの手真似」、「手のひら」などのステッカーを表示してもよい。任意選択で、さらに音声を再生してジェスチャー操作を行うようにユーザに提示することもできる。

本開示の一実施例において、第１の画像画面に表示されている第１の素材に対するユーザの切替操作を取得するステップは、第１の画像画面におけるユーザの顔動作を取得するステップを含み、顔動作は、画面素材の切替をトリガーするために用いられる。例示的に、ユーザがマスクを着用する際に、マスクに第１の素材を重ね合わせており、ユーザは、まばたき、眉を引くなどの顔動作によって、マスク上の素材の切替をトリガーすることができる。本実施例では、顔認識技術によりユーザの意図を決定し、ユーザの意図にマッチングする素材を素材ライブラリから検索し、マスク上の素材を切り替える。

本開示の一実施例において、第１の画像画面に表示されている第１の素材に対するユーザの切替操作を取得するステップは、第１の画像画面におけるユーザの頭部動作を取得するステップを含み、頭部動作は、画面素材の切替をトリガーするために用いられる。例示的に、ユーザがマスクを着用する際に、マスクに第１の素材を重ね合わせており、ユーザは、頭を縦に振るか、顔を横に振るなどの頭部動作によって、マスク上の素材の切替をトリガーすることができる。本実施例では、頭部認識技術によりユーザの意図を決定し、ユーザの意図にマッチングする素材を素材ライブラリから検索し、マスク上の素材を切り替える。

本開示の一実施例において、第１の画像画面に表示されている第１の素材に対するユーザの切替操作を取得するステップは、第１の画像画面におけるユーザの音声データを取得するステップを含み、音声データは、画面素材の切替をトリガーするために用いられる。例示的に、ユーザがマスクを着用する際に、マスクに第１の素材を重ね合わせており、ユーザが音声によりマスク上の素材の切替を制御することができ、例えば、ユーザが現在着用しているマスクに図５に示すような模様ステッカーを重ね合わせており、ユーザが音声「笑顔を保持」を入力すると、マスク上の模様ステッカーが笑顔ステッカーに切り替えられる。本実施例では、音声認識技術によりユーザの意図を決定し、ユーザの意図にマッチングする素材を素材ライブラリから検索し、マスク上の素材を切り替える。

本開示の一実施例において、第１の画像画面に表示されている第１の素材に対するユーザの切替操作を取得するステップは、インタフェースの素材選択領域でのユーザの選択操作を取得するステップを含み、選択操作は、画面素材の切替をトリガーするために用いられる。素材選択領域は様々な素材リソースを含み、図１１は、本開示の実施例に係るインタフェースの概略図であり、図１１に示すように、インタフェース下方の素材選択領域は素材１、２、３、４、５を含み（なお、図面における素材の実際の表示は素材のプレビュー図である）、ユーザのマスクに表示されている現在の素材は素材３であり、ユーザは素材選択領域に他の素材を選択し、現在のマスクの素材３の切替をトリガーすることができる。

本開示の一実施例において、第１の画像画面に表示されている第１の素材に対するユーザの切替操作を取得するステップは、インタフェースのテキスト入力領域でのユーザの入力操作を取得するステップを含み、入力操作は、画面素材の切替をトリガーするために用いられる。例示的に、ユーザがマスクを着用している場合、マスクに第１の素材を重ね合わせており、ユーザはインタフェースのテキスト入力領域にテキスト情報又は表情を入力することにより、マスク上の素材の切替をトリガーすることができる。

任意選択で、第３の素材はユーザがテキスト入力領域に入力したテキスト情報又は表情であってもよい。テキスト情報は数字、アルファベット、記号、文字の少なくとも１つを含む。

例示的に、図１２は、本開示の実施例に係るインタフェースの変化を示す概略図であり、図１２に示すように、ユーザがマスクを着用している場合、マスクに第１の素材を重ね合わせており、ユーザはインタフェース下方のテキスト入力領域をクリックすることにより、仮想キーボードのポップアップをトリガーすることができ、ユーザは、仮想キーボードにテキスト情報、例えば、英語の単語「ｓｍｉｌｅ」を入力し、「確認」をクリックすると、マスク上の模様ステッカーがユーザにより入力されたテキスト「ｓｍｉｌｅ」に切り替えられる。

上記の説明からわかるように、ユーザのマスクに素材が重ね合わせられている場合、ユーザはさらに、ジェスチャー操作、顔動作、頭部動作、音声制御、テキスト入力又は素材インタフェースの選択などの予め設定された操作方式で、画面中の人物のマスク素材の切替を実現することができ、上記例はユーザがマスクを着用する面白みのある遊び方を実現し、ユーザ体験を向上させることができる。

上記の実施例の情報表示方法に対応して、図１３は、本開示の実施例に係る情報表示装置の構造を示すブロック図である。説明を容易にするために、本開示の実施例に関連する部分のみが示されている。図１３に示すように、本実施例に係る情報表示装置４００は、取得モジュール４０１、処理モジュール４０２及び表示モジュール４０３を含む。ここで、
取得モジュール４０１は、ビデオにおける第１のオブジェクトを含む第１の画像画面を取得するために用いられ、
処理モジュール４０２は、前記第１の画像画面内に第２のオブジェクトが存在するか否かを決定するために用いられ、
表示モジュール４０３は、前記第１の画像画面内に前記第２のオブジェクトが存在し、且つ前記第２のオブジェクトと前記第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせるために用いられる。

本開示の一実施例において、前記第１のオブジェクトは顔であり、前記第２のオブジェクトはマスクであり、前記予め設定された位置関係は、具体的には、前記顔に前記マスクが着用されていることである。

本開示の一実施例において、取得モジュール４０１は、具体的には、前記第１の画像画面における前記顔を含む対象画像を取得するために用いられ、
処理モジュール４０２は、具体的には、前記対象画像をマスク認識モデルに入力し、認識結果を得るために用いられ、前記認識結果は前記顔にマスクが着用されているか否かを示すために用いられ、前記マスク認識モデルは軽量機械学習モデルである。

本開示の一実施例において、前記マスク認識モデルは、チャンネルシャッフルモジュールと、チャンネルスライスモジュールと、２つの１×１畳み込みモジュールと、３×３畳み込みモジュールと、チャンネルマージモジュールと、を含む。

本開示の一実施例において、処理モジュール４０２は、具体的には、
前記第１の画像画面を第１の顔認識モデルに入力し、前記第１の画像画面における顔領域の第１の画像を得て、前記第１の画像を前記対象画像とするために用いられる。

本開示の一実施例において、処理モジュール４０２は、具体的には、
前記第１の画像画面を第２の顔認識モデルに入力し、前記第１の画像画面における顔領域の第１の画像及び前記顔領域のキーポイント情報を得て、
前記キーポイント情報に基づいて前記第１の画像を回転処理して第２の画像を得て、前記第２の画像を前記対象画像とするために用いられる。

本開示の一実施例において、取得モジュール４０１はさらに、
構築された初期マスク認識モデルを取得し、
ネガポジ画像サンプルと前記ネガポジ画像サンプルのラベリング結果を取得するために用いられ、ポジティブ画像サンプルに含まれる顔にマスクが着用され、ネガティブ画像サンプルに含まれる顔にマスクが着用されておらず、前記ラベリング結果は、画像サンプルの顔にマスクが着用されているか否かを示すためのラベル及びマスクの位置情報を含み、
処理モジュール４０２はさらに、前記ネガポジ画像サンプルを前記マスク認識モデルの入力とし、前記ネガポジ画像サンプルのラベリング結果を前記マスク認識モデルの出力とすることにより、前記初期マスク認識モデルをトレーニングして、前記マスク認識モデルを得るために用いられる。

本開示の一実施例において、表示モジュール４０３が前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせた後、処理モジュール４０２が前記第１の画像画面に続く第２の画像画面内に前記第２のオブジェクトが存在しないと決定した場合、表示モジュール４０３はさらに前記第１の素材を除去し、前記第２の画像画面に、前記第１素材とは異なる第２の素材を重ね合わせるために用いられる。

本開示の一実施例において、表示モジュール４０３が前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせた後、取得モジュール４０１はさらに、
前記第１の画像画面に表示されている前記第１の素材に対するユーザの切替操作を取得するために用いられ、
表示モジュール４０３はさらに、前記切替操作に応答して前記第１の素材を除去し、前記第１の画像画面に続く第２の画像画面に、前記第１の素材とは異なる第３の素材を重ね合わせるために用いられる。

本開示の一実施例において、前記切替操作は、ジェスチャー操作、顔動作、頭部動作、音声制御、インタフェースの素材選択領域の選択操作、インタフェースのテキスト入力領域の入力操作のいずれかを含む。

本開示の一実施例において、前記第３の素材は、ユーザがインタフェースのテキスト入力領域に入力したテキスト情報又は表情である。

本開示の一実施例において、処理モジュール４０２が前記第１の画像画面内に前記第２のオブジェクトが存在しないと決定した場合、表示モジュール４０３はさらに、前記第２のオブジェクトを着用するようにユーザに提示するための提示情報を前記第１の画像画面に表示するために用いられる。

本実施例に係る情報表示装置は、上記方法の実施例の技術的解決法を実行するために用いられてもよく、その実現原理と技術的効果は類似であるため、本実施例はここでは詳細な説明を省略する。

図１４を参照すると、本開示の実施例を実現するのに適する電子機器５００の構造概略図を示し、この電子機器５００は、端末装置又はサーバであってもよい。端末装置は、携帯電話、ノートパソコン、デジタル放送受信機、携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡと略称する）、タブレットＰＣ（ＰｏｒｔａｂｌｅＡｎｄｒｏｉｄＤｅｖｉｃｅ、ＰＡＤと略称する）、ポータブルメディアプレーヤー（ＰｏｒｔａｂｌｅＭｅｄｉａＰｌａｙｅｒ、ＰＭＰと略称する）、車載端末（例えば、車載ナビゲーション端末）などの移動端末及びデジタルＴＶ、デスクトップパソコンなどの固定端末を含んでもよいがこれらに限定されない。図１４に示された電子機器は一例に過ぎず、本開示の実施例の機能及び使用範囲を何ら限定するものではない。

図１４に示すように、電子機器５００は、読み出し専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＲＯＭと略称する）５０２に記憶されたプログラム又は記憶装置５０８からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭと略称する）５０３にアップロードされたプログラムに基づき、様々な適切な動作や処理を実行することができる処理装置（例えば、中央処理装置、グラフィックプロセッサなど）５０１を含んでもよい。ＲＡＭ５０３には、電子機器５００の操作に必要な様々なプログラムやデータが記憶されている。処理装置５０１、ＲＯＭ５０２及びＲＡＭ５０３はバス５０４を介して相互に接続される。入力／出力（Ｉ／Ｏ）インタフェース５０５は同様にバス５０４に接続される。

一般的には、Ｉ／Ｏインタフェース５０５には、タッチパネル、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープなどを含む入力装置５０６、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤと略称する）、スピーカ、バイブレータなどを含む出力装置５０７、磁気テープ、ハードディスクなどを含む記憶装置５０８及び通信装置５０９が接続されてもよい。通信装置５０９は、データを交換するために、電子機器５００が他の装置と無線又は有線通信を行うことを可能にすることができる。図１４は様々な装置を有する電子機器５００を示しているが、図示した全ての装置を実施又は備えることが要求されていないのを理解されたい。代替的に、より多く又はより少ない装置を実施又は備えてもよい。

特に、本開示の実施例に基づき、上記のフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例は、コンピュータ可読媒体上に担持されたコンピュータプログラムを備えるコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、このコンピュータプログラムは通信装置５０９を介してネットワークからダウンロードされインストールされたり、記憶装置５０８からインストールされたり、ＲＯＭ５０２からインストールされたりすることができる。このコンピュータプログラムが処理装置５０１によって実行されると、本開示の実施例の方法に限定された上記機能を実行する。

本開示の実施例はコンピュータプログラムをさらに含み、このコンピュータプログラムは可読記憶媒体に記憶され、電子機器の１つ又は複数のプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記１つ又は複数のプロセッサが前記コンピュータプログラムを実行すると、前記電子機器は上記実施例のいずれかに提供される解決手段を実行する。

なお、本開示の上記コンピュータ可読媒体は、コンピュータ可読信号媒体、又はコンピュータ可読記憶媒体、又は上記両者の任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置若しくはデバイス、又は以上の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１本又は複数本の導線を有する電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲОＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲОＭ又はフラッシュメモリ）、光ファイバ、携帯型コンパクトディスク読み出し専用メモリ（ＣＤ－ＲОＭ）、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。本開示では、コンピュータ可読記憶媒体は、プログラムを含むか又は記憶するいずれかの有形媒体であってもよく、このプログラムは命令実行システム、装置又はデバイスに使用されるか又はそれらと組み合わせて使用される。本開示では、コンピュータ可読信号媒体は、ベースバンドで伝播されるか、又は搬送波の一部として伝播されるデータ信号を含んでもよく、コンピュータ可読プログラムコードが担持されている。そのような伝播されたデータ信号は様々な形態をとることができ、電磁気信号、光信号、又は上記のものの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、このコンピュータ可読信号媒体は、命令実行システム、装置、又はデバイスに使用されるか又はそれらと組み合わせて使用されるプログラムを送信、伝播、又は伝送することができる。コンピュータ可読媒体に含まれているプログラムコードは任意の適切な媒体で伝送することができ、この媒体は、電線、光ケーブル、ＲＦ（無線周波数）など、又は上記のものの任意の適切な組み合わせを含むが、これらに限定されない。

上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよいし、単独で存在してこの電子機器にインストールされないものであってもよい。

上記コンピュータ可読媒体には１つ又は複数のプログラムが担持され、上記１つ又は複数のプログラムがこの電子機器によって実行されると、この電子機器は上記実施例に示される方法を実行する。

本開示の操作を実行するためのコンピュータプログラムコードは、１つ又は複数のプログラミング言語又はこれらの組み合わせで作成することができ、上記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語を含み、「Ｃ」言語又は同様のプログラミング言語などの通常の手続き型プログラミング言語をさらに含む。プログラムコードは、ユーザのコンピュータで完全に実行されることも、ユーザのコンピュータで部分的に実行されることも、独立したソフトウェアパッケージとして実行されることも、一部がユーザのコンピュータで実行され、他の一部がリモートコンピュータで実行されることも、又は完全にリモートコンピュータ又はサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ＬＡＮと略称する）又は広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ＷＡＮと略称する）を含む任意の種類のネットワークを介して、ユーザのコンピュータに接続でき、又は、外部コンピュータに接続できる（例えば、インターネットサービスプロバイダを利用してインターネットを介して接続できる）。

図面におけるフローチャート及びブロック図は、本開示の各実施例のシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能、操作を示す。これに関して、フローチャート又はブロック図の各ブロックはそれぞれ、モジュール、プログラムセグメント、又はコードの一部を表すことができ、このモジュール、プログラムセグメント、又はコードの一部は、指定されたロジック機能を実現するための１つ又は複数の実行可能な命令を含む。また、いくつかの代替としての実施態様において、ブロックにラベリングされている機能は、図面にラベリングされているものと異なる順序で実行できる。例えば、連続して示される２つのブロックは、実際にはほぼ並行して実行でき、これらは逆の順序で実行される場合もあり、関連する機能によって決められる。また、ブロック図及び／又はフローチャートの各ブロック、ブロック図及び／又はフローチャートにおけるブロックの組み合わせは、指定された機能又は操作を実行する、専用の、ハードウェアに基づくシステムによって実現されることができ、専用のハードウェアとコンピュータ命令の組み合わせで実現することもできる。

本開示の実施例に係るユニットは、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。ユニットの名称は、場合によって、このユニット自体への限定を構成せず、例えば、第１の取得ユニットは、「少なくとも２つのインターネットプロトコルアドレスを取得するユニット」として説明されてもよい。

本明細書で、上記の説明された機能は少なくとも部分的に１つ又は複数のハードウェア論理構成要素によって実行される。例えば、非限定的に、使用可能なハードウェア論理構成要素としては、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑プログラム可能な論理デバイス（ＣＰＬＤ）などを含む。

本開示の文脈において、機器可読媒体は有形媒体であってもよく、それは命令実行システム、装置、又はデバイスに使用されるか、又は命令実行システム、装置、又はデバイスと組み合わせて使用されるプログラムを含み又は記憶することができる。機器可読媒体は機器可読信号媒体又は機器可読記憶媒体であり得る。機器可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記のものの任意の適切な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体のより具体例として、１本又は複数本の導線を有する電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯型コンパクトディスク読み出し専用メモリ（ＣＤ－ＲОＭ）、光記憶装置、磁気記憶装置、又は上記のものの任意の適切な組み合わせを含む。

第１の態様において、本開示の１つ又は複数の実施例によれば、
ビデオにおける第１のオブジェクトを含む第１の画像画面を取得するステップと、
前記第１の画像画面内に第２のオブジェクトが存在するか否かを決定するステップと、
前記第１の画像画面内に前記第２のオブジェクトが存在し、且つ前記第２のオブジェクトと前記第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせるステップと、を含む情報表示方法を提供する。

本開示の１つ又は複数の実施例によれば、前記第１のオブジェクトは顔であり、前記第２のオブジェクトはマスクであり、前記予め設定された位置関係は、具体的には、前記顔に前記マスクが着用されていることである。

本開示の１つ又は複数の実施例によれば、前記第１の画像画面内に第２のオブジェクトが存在するか否かを決定する前記ステップは、
前記第１の画像画面における前記顔を含む対象画像を取得するステップと、
前記対象画像をマスク認識モデルに入力し、認識結果を得るステップであって、前記認識結果は前記顔にマスクが着用されているか否かを示すために用いられ、前記マスク認識モデルは軽量機械学習モデルであるステップと、を含む。

本開示の１つ又は複数の実施例によれば、前記マスク認識モデルは、チャンネルシャッフルモジュールと、チャンネルスライスモジュールと、２つの１×１畳み込みモジュール、３×３畳み込みモジュールと、チャンネルマージモジュールと、を含む。

本開示の１つ又は複数の実施例によれば、前記第１の画像画面における前記顔を含む対象画像を取得する前記ステップは、
前記第１の画像画面を第１の顔認識モデルに入力し、前記第１の画像画面における顔領域の第１の画像を得て、前記第１の画像を前記対象画像とするステップを含む。

本開示の１つ又は複数の実施例によれば、前記第１の画像画面における前記顔を含む対象画像を取得する前記ステップは、
前記第１の画像画面を第２の顔認識モデルに入力し、前記第１の画像画面における顔領域の第１の画像及び前記顔領域のキーポイント情報を得るステップと、
前記キーポイント情報に基づいて前記第１の画像を回転処理して第２の画像を得て、前記第２の画像を前記対象画像とするステップと、を含む。

本開示の１つ又は複数の実施例によれば、前記マスク認識モデルのトレーニングプロセスは、
初期マスク認識モデルを構築するステップと、
ネガポジ画像サンプルと前記ネガポジ画像サンプルのラベリング結果を取得するステップであって、ポジティブ画像サンプルに含まれる顔にマスクが着用され、ネガティブ画像サンプルに含まれる顔にマスクが着用されておらず、前記ラベリング結果は、画像サンプルの顔にマスクが着用されているか否かを示すためのラベル及びマスクの位置情報を含むステップと、
前記ネガポジ画像サンプルを前記マスク認識モデルの入力とし、前記ネガポジ画像サンプルのラベリング結果を前記マスク認識モデルの出力とすることにより、前記初期マスク認識モデルをトレーニングして、前記マスク認識モデルを得るステップと、を含む。

本開示の１つ又は複数の実施例によれば、前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせた後、前記方法はさらに、
前記第１の画像画面に続く第２の画像画面内に前記第２のオブジェクトが存在しないと決定した場合、前記第１の素材を除去し、前記第２の画像画面に、前記第１素材とは異なる第２の素材を重ね合わせるステップを含む。

本開示の１つ又は複数の実施例によれば、前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせた後、前記方法はさらに、
前記第１の画像画面に表示されている前記第１の素材に対するユーザの切替操作を取得するステップと、
前記切替操作に応答して前記第１の素材を除去し、前記第１の画像画面に続く第２の画像画面に、前記第１の素材とは異なる第３の素材を重ね合わせるステップと、を含む。

本開示の１つ又は複数の実施例によれば、前記切替操作は、ジェスチャー操作、顔動作、頭部動作、音声制御、インタフェースの素材選択領域の選択操作、インタフェースのテキスト入力領域の入力操作のいずれかを含む。

本開示の１つ又は複数の実施例によれば、前記第３の素材は、ユーザがインタフェースのテキスト入力領域に入力したテキスト情報又は表情である。

本開示の１つ又は複数の実施例によれば、前記方法はさらに、
前記第１の画像画面内に前記第２のオブジェクトが存在しないと決定した場合、前記第２のオブジェクトを着用するようにユーザに提示するための提示情報を前記第１の画像画面に表示するステップを含む。

第２の態様において、本開示の１つ又は複数の実施例によれば、
ビデオにおける第１のオブジェクトを含む第１の画像画面を取得するための取得モジュールと、
前記第１の画像画面内に第２のオブジェクトが存在するか否かを決定するための処理モジュールと、
前記第１の画像画面内に前記第２のオブジェクトが存在し、且つ前記第２のオブジェクトと前記第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせるための表示モジュールと、を含む情報表示装置を提供する。

本開示の１つ又は複数の実施例によれば、取得モジュールは、前記第１の画像画面における前記顔を含む対象画像を取得するために用いられ、
処理モジュールは、具体的には、前記対象画像をマスク認識モデルに入力し、認識結果を得るために用いられ、前記認識結果は前記顔にマスクが着用されているか否かを示すために用いられ、前記マスク認識モデルは軽量機械学習モデルである。

本開示の１つ又は複数の実施例によれば、処理モジュールは、具体的には、
前記第１の画像画面を第１の顔認識モデルに入力し、前記第１の画像画面における顔領域の第１の画像を得て、前記第１の画像を前記対象画像とするために用いられる。

本開示の１つ又は複数の実施例によれば、処理モジュールは、具体的には、
前記第１の画像画面を第２の顔認識モデルに入力し、前記第１の画像画面における顔領域の第１の画像及び前記顔領域のキーポイント情報を得て、
前記キーポイント情報に基づいて前記第１の画像を回転処理して第２の画像を得て、前記第２の画像を前記対象画像とするために用いられる。

本開示の１つ又は複数の実施例によれば、取得モジュールはさらに、
構築された初期マスク認識モデルを取得し、
ネガポジ画像サンプルと前記ネガポジ画像サンプルのラベリング結果を取得するために用いられ、ポジティブ画像サンプルに含まれる顔にマスクが着用され、ネガティブ画像サンプルに含まれる顔にマスクが着用されておらず、前記ラベリング結果は、画像サンプルの顔にマスクが着用されているか否かを示すためのラベル及びマスクの位置情報を含み、
処理モジュールはさらに、前記ネガポジ画像サンプルを前記マスク認識モデルの入力とし、前記ネガポジ画像サンプルのラベリング結果を前記マスク認識モデルの出力とすることにより、前記初期マスク認識モデルをトレーニングして、前記マスク認識モデルを得るために用いられる。

本開示の１つ又は複数の実施例によれば、表示モジュールが前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせた後、処理モジュールが前記第１の画像画面に続く第２の画像画面内に前記第２のオブジェクトが存在しないと決定した場合、表示モジュールはさらに、前記第１の素材を除去し、前記第２の画像画面に、前記第１素材とは異なる前記第２の素材を重ね合わせるために用いられる。

本開示の１つ又は複数の実施例によれば、表示モジュールが前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせた後、取得モジュールはさらに、
前記第１の画像画面に表示されている前記第１の素材に対するユーザの切替操作を取得するために用いられ、
表示モジュールは、前記切替操作に応答して前記第１の素材を除去し、前記第１の画像画面に続く第２の画像画面に、前記第１の素材とは異なる第３の素材を重ね合わせるために用いられる。

本開示の１つ又は複数の実施例によれば、前記第３の素材は、ユーザがテキスト入力領域に入力したテキスト情報又は表情である。

本開示の１つ又は複数の実施例によれば、処理モジュールが前記第１の画像画面内に前記第２のオブジェクトが存在しないと決定した場合、表示モジュールはさらに、前記第２のオブジェクトを着用するようにユーザに提示するための提示情報を前記第１の画像画面に表示するために用いられる。

第３の態様において、本開示の１つ又は複数の実施例によれば、電子機器を提供し、少なくとも１つのプロセッサとメモリを含み、
前記メモリはコンピュータ実行命令を記憶し、
前記少なくとも１つのプロセッサは前記メモリに記憶されたコンピュータ実行命令を実行することで、前記少なくとも１つのプロセッサは第１の態様及び第１の態様の様々な可能な設計に記載の情報表示方法を実行する。

第４の態様において、本開示の１つ又は複数の実施例によれば、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体は、コンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行するとき、第１の態様及び第１の態様の様々な可能な設計に記載の情報表示方法を実現する。

第５の態様において、本開示の１つ又は複数の実施例によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムがプロセッサによって実行されるとき、第１の態様及び第１の態様の様々な可能な設計に記載の情報表示方法を実現する。

第６の態様において、本開示の実施例は、コンピュータプログラムをさらに提供し、このコンピュータプログラムは可読記憶媒体に記憶され、電子機器の１つ又は複数のプロセッサは、前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記１つ又は複数のプロセッサは前記コンピュータプログラムを実行し、前記電子機器に、上記の実施例のいずれかによって提供された解決手段を実行させる。

以上の説明は、本開示の好適な実施例及び応用技術の原理の説明に過ぎない。当業者であれば、本開示に係る開示範囲は、上記技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、同時に上記開示の概念から逸脱することなく、上記技術的特徴又はその同等の特徴の任意の組み合わせによって形成される他の技術的解決手段も含まれることを理解すべきである。例えば、上記特徴は、（これに限定されるものではないが）本開示において開示された、類似の機能を有する技術的特徴と置き換えることによって、形成される技術的解決手段である。

また、各操作を特定の順序で示すが、これらの操作が示された特定の順序又は順番で実行するように要求されると理解すべきではない。一定の環境では、マルチタスク及び並列処理が有利な場合がある。同様に、上記の議論にはいくつかの具体的な実行の詳細が含まれているが、これらは本開示の範囲を制限するものとして解釈されるべきではない。また、個別の実施例の文脈に説明されたある特徴を組み合わせて単一の実施例に実現することが可能である。逆に、単一の実施例の文脈に説明された各特徴を、個別に又は任意の適切なサブコンビネーションの形態によって複数の実施例に実現することも可能である。

本主題は、構造的特徴及び／又は方法の論理的動作に固有の言語で説明されてきたが、特許請求の範囲で限定された主題は、必ずしも上記特定の特徴又は動作に限定されないことを理解されたい。逆に、上記特定の特徴及び動作は、特許請求の範囲を実現するための単なる例示的な形態である。

本願は、２０２０年８月２６日に中国国家知識産権局に提出された、出願番号が２０２０１０８７４０６７．３で、発明の名称が「情報表示方法、装置及び記憶媒体」である中国特許出願の優先権を主張し、その内容の全てが参照によって本願に組み込まれる。

現在、端末装置上のアプリケーション（Ａｐｐｌｉｃａｔｉｏｎ、ＡＰＰと略称する）、例えば、ショートビデオＡＰＰは、ユーザの顔を認識し、ユーザに仮想マスクを着用することにより、面白みのあるインタラクティブな体験を実現することができる。しかし、現在のＡＰＰは、ユーザが公共交通機関に乗る、屋内の公共スペースにいるなど、ユーザが特別なシーンにいる場合、マスクを着用する必要があるとき、インタラクティブな操作に欠けるため、ユーザの使用体験が良くない。

上記の説明からわかるように、本実施例に係る情報表示方法は、ビデオにおける第１のオブジェクトを含む第１の画像画面を取得するステップと、第１の画像画面内に第２のオブジェクトが存在するか否かを決定するステップと、第１の画像画面内に第２のオブジェクトが存在し、且つ第２のオブジェクトと第１の第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、第１の画像画面内の第２のオブジェクトが位置する領域に第１の素材を重ね合わせるステップと、を含む。上記方法は、画像画面から第２のオブジェクトが検出された場合、第２のオブジェクトが位置する領域に任意の素材を重ね合わせることを可能にし、第１のオブジェクトと第２のオブジェクトが予め設定された位置関係を満たすとき、一部の特殊効果を使用できないか、又は情報を表現できないという問題を回避する。

上記の説明からわかるように、ユーザは、マスク着用時にマスクに表示される第１の素材をカスタマイズすることができ、さらに、マスクの未着用時に画面に表示される第２の素材をカスタマイズすることができ、上記の例によりユーザのマスク着用の面白みのある操作を実現し、ユーザの使用体験を向上させることができる。

本開示の実施例では、上述した図２の実施例に基づいて、異なるユーザの個性化需要を満たすために、現在のマスク領域の素材に対するユーザの切替操作を増やし、面白みのある操作を増やし、ユーザの使用体験を向上させることができる。

上記の説明からわかるように、ユーザのマスクに素材が重ね合わせられている場合、ユーザはさらに、ジェスチャー操作、顔動作、頭部動作、音声制御、テキスト入力又は素材インタフェースの選択などの予め設定された操作方式で、画面中の人物のマスク素材の切替を実現することができ、上記例はユーザがマスクを着用する面白みのある操作を実現し、ユーザ体験を向上させることができる。

本開示の実施例に係るモジュールは、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。モジュールの名称は、場合によって、このモジュール自体への限定を構成せず、例えば、取得モジュールは、「ビデオにおける第１のオブジェクトを含む第１の画像画面を取得するためのモジュール」として説明されてもよい。

Claims

ビデオにおける第１のオブジェクトを含む第１の画像画面を取得するステップと、
前記第１の画像画面内に第２のオブジェクトが存在するか否かを決定するステップと、
前記第１の画像画面内に前記第２のオブジェクトが存在し、且つ前記第２のオブジェクトと前記第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせるステップと、を含むことを特徴とする情報表示方法。
前記第１のオブジェクトは顔であり、前記第２のオブジェクトはマスクであり、前記予め設定された位置関係は、具体的には、前記マスクが前記顔に着用されていることであることを特徴とする請求項１に記載の方法。
前記第１の画像画面内に第２のオブジェクトが存在するか否かを決定する前記ステップは、
前記第１の画像画面における前記顔を含む対象画像を取得するステップと、
前記対象画像をマスク認識モデルに入力し、認識結果を得るステップであって、前記認識結果は前記顔に前記マスクが着用されているか否かを示すために用いられ、前記マスク認識モデルは軽量機械学習モデルであるステップと、を含むことを特徴とする請求項２に記載の方法。
前記マスク認識モデルは、チャンネルシャッフルモジュールと、チャンネルスライスモジュールと、２つの１×１畳み込みモジュールと、３×３畳み込みモジュールと、チャンネルマージモジュールと、を含むことを特徴とする請求項３に記載の方法。
前記第１の画像画面における前記顔を含む対象画像を取得する前記ステップは、
前記第１の画像画面を第１の顔認識モデルに入力し、前記第１の画像画面における顔領域の第１の画像を得て、前記第１の画像を前記対象画像とするステップを含むことを特徴とする請求項３又は４に記載の方法。
前記第１の画像画面における前記顔を含む対象画像を取得する前記ステップは、
前記第１の画像画面を第２の顔認識モデルに入力し、前記第１の画像画面における顔領域の第１の画像及び前記顔領域のキーポイント情報を得るステップと、
前記キーポイント情報に基づいて前記第１の画像を回転処理して第２の画像を得て、前記第２の画像を前記対象画像とするステップと、を含むことを特徴とする請求項３又は４に記載の方法。
前記マスク認識モデルのトレーニングプロセスは、
初期マスク認識モデルを構築するステップと、
ネガポジ画像サンプルと前記ネガポジ画像サンプルのラベリング結果を取得するステップであって、ポジティブ画像サンプルに含まれる顔に前記マスクが着用され、ネガティブ画像サンプルに含まれる顔に前記マスクが着用されておらず、前記ラベリング結果は、画像サンプルの顔に前記マスクが着用されているか否かを示すためのラベル及び前記マスクの位置情報を含むステップと、
前記ネガポジ画像サンプルを前記マスク認識モデルの入力とし、前記ネガポジ画像サンプルのラベリング結果を前記マスク認識モデルの出力とすることにより、前記初期マスク認識モデルをトレーニングして、前記マスク認識モデルを得るステップと、を含むことを特徴とする請求項３～６のいずれか一項に記載の方法。
前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせた後、前記方法はさらに、
前記第１の画像画面に続く第２の画像画面内に前記第２のオブジェクトが存在しないと決定した場合、前記第１の素材を除去し、前記第２の画像画面に、前記第１素材とは異なる第２の素材を重ね合わせるステップを含むことを特徴とする請求項１～７のいずれか一項に記載の方法。
前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせた後、前記方法はさらに、
前記第１の画像画面に表示されている前記第１の素材に対するユーザの切替操作を取得するステップと、
前記切替操作に応答して前記第１の素材を除去し、前記第１の画像画面に続く第２の画像画面に、前記第１の素材とは異なる第３の素材を重ね合わせるステップと、を含むことを特徴とする請求項１～７のいずれか一項に記載の方法。
前記切替操作は、ジェスチャー操作、顔動作、頭部動作、音声制御、インタフェースの素材選択領域の選択操作、インタフェースのテキスト入力領域の入力操作のいずれかを含むことを特徴とする請求項９に記載の方法。
前記第３の素材は、ユーザがインタフェースのテキスト入力領域に入力したテキスト情報又は表情であることを特徴とする請求項９又は１０に記載の方法。
前記方法はさらに、
前記第１の画像画面内に前記第２のオブジェクトが存在しないと決定した場合、前記第２のオブジェクトを着用するようにユーザに提示するための提示情報を前記第１の画像画面に表示するステップを含むことを特徴とする請求項１～１１のいずれか一項に記載の方法。
ビデオにおける第１のオブジェクトを含む第１の画像画面を取得するための取得モジュールと、
前記第１の画像画面内に第２のオブジェクトが存在するか否かを決定するための処理モジュールと、
前記第１の画像画面内に前記第２のオブジェクトが存在し、且つ前記第２のオブジェクトと前記第１のオブジェクトが予め設定された位置関係を満たすと決定した場合、前記第１の画像画面内の前記第２のオブジェクトが位置する領域に第１の素材を重ね合わせるための表示モジュールと、を含むことを特徴とする情報表示装置。
少なくとも１つのプロセッサとメモリを含み、
前記メモリはコンピュータ実行命令を記憶し、
前記少なくとも１つのプロセッサは前記メモリに記憶されたコンピュータ実行命令を実行することで、前記少なくとも１つのプロセッサは請求項１～１２のいずれか一項に記載の情報表示方法を実行することを特徴とする電子機器。
コンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行するとき、請求項１～１２のいずれか一項に記載の情報表示方法が実現されることを特徴とするコンピュータ可読記憶媒体。
コンピュータプログラムを含むコンピュータプログラム製品であって、
前記コンピュータプログラムがプロセッサによって実行されるとき、上記請求項１～１２のいずれか一項に記載の情報表示方法が実現されることを特徴とするコンピュータプログラム製品。
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行されるとき、請求項１～１２のいずれか一項に記載の情報表示方法が実現されることを特徴とするコンピュータプログラム。